効率的なデータクレンジングを実現する Cloud Dataprep とは?メリットや活用事例まで一挙に紹介!

効率的なデータクレンジングを実現する Cloud Dataprep とは?メリットや活用事例まで一挙に紹介!

GCP

投稿日:2022/06/08 | 最終更新日:2022/06/20

Cloud Dataprep というサービスをご存知でしょうか? Google と Trifacta が共同開発したデータクレンジングツールです。 Cloud Dataprep を活用することで、データの変換・加工を手間なく行うことができます。

本記事では、 Cloud Dataprep とは何か?という基礎的な内容に加えて、 Cloud Dataprep のメリットやできること、活用事例まで一挙にご紹介します。

Cloud Dataprep とは?

Cloud Dataprep は Google Cloud (GCP)に内包されているデータクレンジングサービスです。構造化データと非構造化データを視覚的に探索し、簡単にクレンジング処理を行うことができます。

データクレンジングとは、その名前の通り「データをクレンジング(洗浄)すること」を意味する言葉です。データクリーニングという名称が使われることもあります。つまり、自社が保有するデータを綺麗な形に整えることがデータクレンジングの目的です。

Cloud Dataprep は Google と Trifacta (米国のソフトウェア会社)が共同開発したサービスであり、 Google 公式サイトでは「 Cloud Dataprep by Trifacta 」という名称で掲載されています。便宜上、本記事では Cloud Dataprep と記載していますので、その点はあらかじめご承知ください。

Cloud Dataprep はサーバーレスで提供されているため、規模を問わずに利用できるほか、自社でインフラ設備を整える必要もありません。さらに GUI で操作できる点も Cloud Dataprep の大きな特徴であり、複雑かつ煩雑なデータ処理を簡単に実行することが可能です。

このように、 Cloud Dataprep は迅速かつ直感的にデータ処理を実行できるため、業務の生産性を高めたい場合には最適なツールであると言えます。

データクレンジングに関心のある方は以下の記事がオススメです。

データ活用に欠かせないデータクレンジングとは?具体的な方法を4ステップで解説!

Cloud Dataprep の対応フォーマット

本章では Cloud Dataprep が対応しているフォーマットをご紹介します。入力と出力に分けて見ていきましょう。

入力フォーマット

Cloud Dataprep への入力は以下のフォーマットに対応しています。

  • CSV
  • Excel
  • JSON
  • Plain Text
  • Avro
  • BigQuery
  • UTF

入力時は Cloud Dataprep の画面から直接データをアップロードできます。また、 Cloud Storage 上のデータや BigQuery のテーブルを参照して利用することも可能です。

出力フォーマット

Cloud Dataprep からの出力は以下のフォーマットに対応しています。

  • CSV
  • JSON
  • Avro

Cloud Dataprep から出力したデータ Cloud Storage へ取り込んで保管したり、 Avro で出力したものを BigQuery へ格納することもできます。

Cloud Dataprep のサンプルアーキテクチャ

以下、 Cloud Dataprep のサンプルアーキテクチャを図で示します。

1

※出典・参照: Google Cloud 公式ページ「新たな柔軟性: BigQuery や Dataflow で Dataprep ジョブを実行

Cloud Dataprep の BigQuery プッシュダウンを使用すると、 BigQuery または Dataflow のどちらでジョブを実行するか?を柔軟に選択できます。

仮に BigQuery を選択した場合は BigQuery SQL ステートメントでデータパイプラインを部分的または完全に変換できるかどうかが Dataprep によって自動的に判断されます。そして、 BigQuery で実行できないパイプラインの部分は Dataflow で実行されます。

また、 BigQuery の機能を利用するとフィルタや結合、ユニオン、集計などの操作で効率性の高いデータ変換が可能になります。 Dataprep BigQuery プッシュダウンを活用することで、 IAM と OAuth のサポートにより、パフォーマンス向上やコスト最適化、セキュリティ向上を実現できます。

Cloud Dataprep のメリット

Cloud Dataprep には、どのようなメリットが存在するのでしょうか。代表的なものをいくつかご紹介します。

サーバーレスで提供

Cloud Dataprep は Google パートナー企業である Trifacta が運営する統合パートナーサービスであり、業界トップクラスのデータ準備ソリューションをベースにしています。

そして、 Google は Trifacta との密な連携により、シームレスなユーザーエクスペリエンスを実現しています。そのため、事前のソフトウェアインストールや追加のライセンス費用は不要であり、継続的な運用オーバーヘッドも発生しません。

Cloud Dataprep はフルマネージドかつサーバーレスで提供されており、企業ごとのニーズに応じてオンデマンドでスケーリングされるため、担当者は手間なく運用でき、分析に専念することが可能になります。

使いやすい操作性

Cloud Dataprep は、最適なデータ変換操作を自動で提案・予測してくれます。変換の流れや配列をあらかじめ定義しておけば、 Dataprep が内部的に Dataflow または BigQuery を使用し、あらゆるサイズのデータセットを数回のクリックで処理できるようにします。

そのため、複雑なコードを記述する必要はなく、誰でも簡単にデータクレンジングを実行できます。本来、データの変換・加工を行うためには、難しいコーディングが必要であり、専門的な知識を持った人しか操作できないため、この点は Cloud Dataprep の大きなメリットであると言えます。

Dataflow に関心のある方は以下の記事がオススメです。

Google の ETL サービス「 Dataflow 」とは?概要、特徴、できること、料金体系まで徹底解説!

BigQuery に関心のある方は以下の記事がオススメです。

超高速でデータ分析できる!専門知識なしで扱えるGoogle BigQueryがとにかくスゴイ!

迅速なデータ探索と異常検出

Cloud Dataprep を活用することで、視覚的なデータ分布により、データを瞬時に把握・探索できます。例えば、スキーマやデータ型、可能な結合、異常(欠損値、外れ値、重複値)などを自動的に検出することが可能です。

これにより、本来は長い時間を要するデータ品質評価作業を省略し、すぐにデータの探索・分析に着手できます。データ分析を迅速に行うことで、後続アクションを速やかに進められるため、スピーディーに自社の課題解決や業務効率化を実現でき、競合優位性に直結します。

Cloud Dataprep でできること

Cloud Dataprep には様々なメリットが存在し、手間なくデータクレンジングを行うことが可能です。それでは、 Cloud Dataprep を使うことで何ができるのでしょうか?具体的なイメージが湧きやすいように、身近な例を2つご紹介します。

住所データから都道府県だけを切り出す

住所データの都道府県から番地までの情報が一つのデータとして存在している場合、フィルタリングができずに苦労した経験はありませんか?このような場合、 Cloud Dataprep で解決することができます。「都」「道」「府」「県」という文字を指定して別カラムに抽出することで、住所データの都道府県のみを別項目として分離します。これにより、データの利便性が大きく向上します。

電話番号からハイフンを削除する

Cloud Dataprep を使えば、電話番号からハイフンを除去し、数字のみに変換することができます。電話番号が入力されているカラムを指定し、パターンを選択して全ての情報を統一化するだけで完了します。電話番号のハイフンの有無を統一することで、一定のルールに基づいた一括処理が可能になるため、地味ですが実用性は高いと言えます。



ここでは、イメージが湧きやすいように基本的かつ身近な2つの例を挙げましたが、 Cloud Dataprep はさらに複雑なデータ変換・加工を行うことも可能です。自社においてどのような活用ができるのか、ぜひ考えてみてください。

Cloud Dataprep の料金体系

Cloud Dataprep には2つのエディションが存在し、それぞれ料金が異なります。なお、 Cloud Dataprep の表示料金は米ドルですが、請求先アカウントで指定されている通貨(円)に換算されて請求されます。

以下の表では「1米ドル = 128.14 円」の為替レートで計算しています。

エディション 月額料金
Starter エディション(1ヶ月契約) 12,814円 + 使用料金
Starter エディション(1年契約) 10,251円 + 使用料金
Professional エディション(1ヶ月契約) 64,068円 + 使用料金
Professional エディション(1年契約) 51,254円 + 使用料金

このように、 Starter エディションよりも Professional エディションの方が料金が高く、1ヶ月契約よりも1年契約でサービスを利用した方がお得な料金で利用できることがわかります。

そして、 Cloud Dataprep の使用料金は「設計」と「実行」の2つの変数に分けられます。設計はプロジェクト単位で料金が計算され、ユーザー数に上限はありません。また、実行料金は Dataprep でジョブを実行する Dataflow の使用量で構成されます。

また、参考までに各エディションでできることの比較表を記載します。 Google Cloud 公式のマーケットプレイスを参照しており、項目が英語になっていますのであらかじめご承知おきください。

Starter エディション Professional エディション
Predictive Data Transformation
Collaboration & Sharing
Connectivity to Cloud Storage 、 Files 、 Google Sheets 、 BigQuery
Data Profiling
Adaptive Data Quality ×
Universal Data Connectivity ×
Scheduling and Orchestration for Data Pipelines ×
Customer Success ×

この表からわかるように、 Starter エディションよりも Professional エディションの方が数多くの記載が搭載されています。

Cloud Dataprep の活用事例

Cloud Dataprep は多くの企業で活用されており、業務効率化や生産性向上に大きく貢献しています。本章では、具体的な Cloud Dataprep の活用事例を2つご紹介します。

マーケティングエージェンシー

データベースのマーケティングソリューションを専門とするマーケティングエージェンシーの Merkle は、データ活用のために BigQuery を活用しており、分析用の新しいデータを BigQuery に取り込むためのツールとして Cloud Dataprep を採用しています。

同社の IT アーキテクトである Henry Culver 氏は以下のように述べています。

「 Cloud Dataprep を使用すると、新しいデータセットをすばやく表示して理解でき、その柔​​軟性がデータ変換のニーズをサポートします。 GUI は適切に設計されているため、学習曲線は最小限に抑えられます。私たちの最初のデータ準備作業は、数時間や数日ではなく、数分で完了します。」

手間なく迅速にデータを取り込むことができる Cloud Dataprep を活用して、自社の生産性向上を実現している事例のご紹介でした。

ベンチャー開発センター

1996年に設立された Venture Development Center (ベンチャー開発センター)は、クライアントがビジネスの変革とデータの収益化に繋がる可能性のあるビッグデータのユースケースを定義、特定、実装するのを支援するアドバイザリーサービス会社です。同社では、自社サービスの提供において Cloud Dataprep と BigQuery を活用しています。

同社の代表である Matthew Staudt 氏は以下のように述べています。

「 Cloud Dataprep と BigQuery を備えた Google Cloud (GCP)が、まさに私たちが探していたものであることがすぐにわかりました。データカタログ、 QA 、配信サイクルへの能力と動きを発展させるにつれて、 Cloud Dataprep はこれを迅速かつ適切に達成することを可能にします。」

このように、膨大かつ多様なビッグデータを扱うベンチャー開発センターにおいても、 Cloud Dataprep は問題なく動作し、迅速かつ正確なデータクレンジングを実行していることが伺えます。

データクレンジングは Google Cloud (GCP)がオススメ

ここまで、 Cloud Dataprep について詳しくご紹介しましたが、データは綺麗に整理して終わりではありません。そのデータを分析して、経営戦略に反映してこそ初めて真の価値を発揮します。その観点では、 Google Cloud (GCP)でデータクレンジングを行うことで、すべてのプロセスを一気通貫で実現することができます。

Google Cloud (GCP)とは、 Google が提供しているパブリッククラウドサービスです。同じ種別のサービスとしては Microsoft 提供の Azure や Amazon 提供の AWS などが挙げられます。主に IaaS ・ PaaS の領域をカバーしており、用途に応じて利用できる様々な構成要素がサービスとして提供されています。

Google Cloud (GCP)には、高性能なビッグデータ分析サービスである BigQuery が搭載されています。そして、データ分析を行うための前準備として Cloud Dataprep を活用し、自社が保有するデータを綺麗に整理することで、スムーズなデータ分析を実現できます。

BigQuery は ビッグデータ解析サービスであり、通常では長い時間かかるクエリを、数 TB (テラバイト)、数 PB (ペタバイト)のデータに対して、数秒もしくは数十秒で終わらせることができます。また、膨大なデータを保管するデータウェアハウス(DWH)としての機能も兼ね備えています。

つまり、 Google Cloud (GCP)を活用することで、データの蓄積からデータの整理、そしてデータ分析まで、データ活用におけるすべてのプロセスを一つのサービスで完結できるというわけです。さらに、 Cloud Dataprep と BigQuery はどちらも100%クラウドで提供されているサービスであるため、サーバーレスで柔軟に拡張できる点もメリットの一つです。

加えて、 BigQuery は通常のデータベースとは異なり、データベースに関する専門知識がなくても直感的に操作することができます。料金も 1TB (テラバイト)500円程度とリーズナブルであり、分析前にデータ量を確認することで事前に料金の目安を把握できるため、安心してサービスを利用可能です。

このように、 Google Cloud (GCP)でデータクレンジングを行うことで、企業は多くのメリットを享受できます。 Cloud Dataprep や BigQuery は、他の多彩な Google Cloud (GCP)サービスともシームレスに連携できるため、あらゆるシーンにおける業務効率化や生産性向上を期待できます。

自社のデータ活用を進めていく上で、 Google Cloud (GCP)はとても有効な選択肢になると言えるでしょう。

Google Cloud (GCP) に関しては、以下の記事で詳しく解説しています。

Google Cloud Platform™ (GCP) とは

BigQuery に関しては、以下の記事で詳しく解説しています。

超高速でデータ分析できる!専門知識なしで扱えるGoogle BigQueryがとにかくスゴイ!

データウェアハウス(DWH)に関しては、以下の記事で詳しく解説しています。

データウェアハウス(DWH)とは?メリットや活用例まで一挙に紹介

まとめ

本記事では、 Cloud Dataprep とは何か?という基礎的な内容に加えて、 Cloud Dataprep のメリットやできること、活用事例まで一挙にご紹介しました。

データ活用の重要性が叫ばれている現代において、 Cloud Dataprep はとても有効なソリューションであると言えます。 Cloud Dataprep を活用することで、手間なく迅速にデータクレンジングを行うことが可能になります。

また、データは綺麗に整理して終わりではありません。いくら貴重なデータをたくさん保有していても、一切使わなければ何も持っていないのと同じことです。自社のデータを分析・活用して、経営戦略に反映してこそ初めて真の価値を発揮します。

その観点では、 Google Cloud (GCP)でデータクレンジングを行うのがオススメです。 Google Cloud (GCP)に搭載されている Google Cloud Dataprep や BigQuery を活用することで、データの蓄積、整理、分析まで、データ活用におけるすべてのプロセスを一気通貫で実行できます。

本記事を参考にして、ぜひ Google Cloud (GCP)の導入を検討してみてはいかがでしょうか?

また、記事の中でご紹介した「データの整形」や「データの整理」は、会社の状況によっては自社完結が難しいケースもあると思います。そのような場合は、プロのサポートを受けられるサービスを利用するのも有効な選択肢の一つです。

弊社トップゲートでも Google Cloud (GCP)に関するコンサルティングサービスを提供していますので、自社のデータを活用してデータドリブン経営を実現したいと考えている方は、ぜひ以下のサービスもご検討ください。導入前の問い合わせも受け付けていますので、まずはお気軽にご相談いただければと思います。

Google の技術活用サポートサービス「T-PAS (TOPGATE Professional Advisory Service)」



弊社トップゲートでは、Google Cloud (GCP) 利用料3%OFFや支払代行手数料無料、請求書払い可能などGoogle Cloud (GCP)をお得に便利に利用できます。さらに専門的な知見を活かし、

など幅広くあなたのビジネスを加速させるためにサポートをワンストップで対応することが可能です。

Google Workspace(旧G Suite)に関しても、実績に裏付けられた技術力やさまざまな導入支援実績があります。あなたの状況に最適な利用方法の提案から運用のサポートまでのあなたに寄り添ったサポートを実現します!

Google Cloud (GCP)、またはGoogle Workspace(旧G Suite)の導入をご検討をされている方はお気軽にお問い合わせください。

お問い合わせする

メール登録者数3万件!TOPGATE MAGAZINE大好評配信中!
Google Cloud(GCP)、Google Workspace(旧G Suite) 、TOPGATEの最新情報が満載!

メルマガ登録はこちら

記事を探す

GCP のメリットを最大限に活用しよう!

Google Cloud・Google Workspace のご相談・
お見積り依頼はお気軽に
お問合せフォーム