Google の CDC サービス「 Datastream 」とは?企業のデータ活用に不可欠なソリューションを徹底解説!

Google の CDC サービス「 Datastream 」とは?企業のデータ活用に不可欠なソリューションを徹底解説!

GCP

投稿日:2022/05/05 | 最終更新日:2022/05/23

昨今、企業が取り扱うデータは肥大化かつ多様化しており、データ活用の重要性は年々高まっています。そして、効率的なデータ活用を実現する上では CDC が重要なソリューションになります。しかし、 CDC という言葉を聞いたことがあっても、正しく理解している方は少ないのではないでしょうか。

本記事では、 CDC の基礎的な内容に加えて、 Google が提供する CDC サービスである Datastream について、概要やメリット、活用例までわかりやすく解説します。自社でデータ活用を検討している方は、ぜひ最後までご覧ください。

CDC とは?

Datastream について説明する前に、まずは CDC という言葉を正しく理解しましょう。 CDC は Change Data Capture の略であり、 Wikipedia では 「 CDC とはデザインパターンのセットであり、変更されたデータを特定および追跡し、変更されたデータを利用し、何らかのアクションを取れるようにするものである」と定義されています。

CDC を使うことで、変更データをキャプチャし、その後のアクションに繋げることが可能になります。例えば、最新データを分析に利用することで迅速な意思決定を実現したり、異なる機種間でデータレプリケーションを行うことでダウンタイムを抑えた形でのデータベース移行やハイブリッドクラウド構成を実現できたりします。

昨今、 IoTAI など新しい IT が続々と登場しており、企業が取り扱うデータは肥大化かつ多様化しています。これに伴い、データ活用の重要性も年々高まっているため、今後 CDC は益々重要なソリューションになると言えるでしょう。

ハイブリッドクラウドについて概要やハイブリッドクラウドのネットワーク構成などについて理解を深めたい方は以下の記事がオススメです。

ハイブリッドクラウドとマルチクラウドの違いとは?メリット・デメリットについても徹底解説

【トップゲート 主催】Google Cloud ハイブリッドクラウドセミナー体験レポート

ハイブリッドクラウドにした際のネットワーク構成と注意すべきポイントとは?

Datastream とは?

Datastream は Google Cloud (GCP)に内包されている CDC サービスです。サーバレスかつスケーラブルである点が大きな特徴となっており、ユーザー側の管理はほとんど必要なく、手間なく利用できる点も嬉しいポイントです。

例えば、 Datastream でレプリケーション(データを複製すること)を行う場合、コンソール画面から簡単に設定を行うことができ、 Google が提供する Dataflow のテンプレートで BigQuery へのレプリケーションをノーコーディングで実現できます。

市場には多くの CDC サービスが存在していますが、 Datastream は Google Cloud (GCP)とシームレスに連携することが可能なため、データのレプリケーションから分析まで、同じプラットフォームの中で完結できます。

このように、難しい専門学習を必要とせず、手間なく簡単にデータ活用を実現できる点が、 Datastream が多くの人々から支持されている理由であると言えるでしょう。

Datastream のメリット

シンプルかつ簡単に操作できる

本来、変更データのリアルタイムレプリケーションはシンプルであるべきで、データベースの準備に関するドキュメントや保護された接続の設定、ストリームの検証などをフローに組み込んでいる必要があります。

MuchBetter 社のデータエンジニアである Mark Venables 氏は「 Datastream は使いやすく、すぐに利用を始められるので、評価を開始してすぐに成果を実感することができました。これによって当社では、サードパーティの CDC サプライヤーと概念実証テストを調整するために必要だったかなりの量の事前作業が不要になりました。」と語っています。

このように、シンプルで使いやすい Datastream の操作性によって、ビジネススピードを加速させると同時に、自社の工数削減や生産性向上を実現することができます。

便利なテンプレートが用意されている

Datastream では、ソースとなるデータベースから変更をレプリケートするパイプラインを構築するために多大な時間を費やす必要はありません。事前に作成された Dataflow テンプレートを使うことで BigQuery や Cloud SpannerCloud SQL といった Google Cloud (GCP)の各サービスにデータを簡単にレプリケートできます。

また、 Dataflow のテンプレートはすぐに使用できる状態になっており、テーブルを自動的に作成してレプリケート先でデータを更新します。仮に想定外のイベントや重複イベントが発生しても適切に処理し、エラーを解消する機能を備えている点も嬉しいポイントです。

この点において、 MuchBetter 社のデータエンジニアである Mark Venables 氏は「 Google が管理する Dataflow テンプレートを使うことで、最小限の労力と手間でパイプラインを稼働させることができました。そのため、ユーザーにソリューションを問題なく提供しながらも、さらに複雑なパイプライン開発にもっと多くの時間を費やすことができました」と語っています。

セキュリティレベルが高い

Datastream はソースとなるデータベースと、宛先となるデータベース間のプライベート接続をサポートし、移行データを安全に保護します。

Chess.com 社のクラウドアーキテクトを務める Grzegorz Dlugolecki 氏は「接続性の確立は難しいと思われがちです。 Datastream には驚かされました。セキュリティをより強化したモードでも、使いやすく設定も簡単だったのです。 Datastream のプライベート接続構成によって、ソースと宛先との間にプライベート接続を簡単に作成でき、データを安全に保護できます」と述べています。

同社では、日々1,000万局以上ものチェスの対局をホストする大手オンラインチェスコミュニティおよびモバイルアプリを運営していますが、この規模でもセキュリティを担保できているという事実は、 Datastream の信頼性を裏付けていると言えるでしょう。

高スループット・低レイテンシを実現できる

Datastream のサーバーレスアーキテクチャを利用することで、プロビジョニングやマシン管理、データスループットの変動に合わせたリソースのスケールアップなどを心配する必要がなくなります。 Datastream は高いパフォーマンスを保証しており、レイテンシを最小に抑えながら、単一のストリームで1秒あたり数十 MB ものデータを処理できるのです。

この点において、Chess.com 社のクラウドアーキテクトを務める Dlugolecki 氏は「大手の ETL ソリューションを何件か評価しました。その中で、1つのテーブルから成る当社の複雑なデータシートを同期できた唯一のツールが Datastream で、他のベンダーでは数年かかると予想されるところを、数週間で完了しました。」と語っています。

DataStream の活用例

ここからは、実際に Datastream を活用してどのようなことができるのか、具体的な活用例をいくつかご紹介します。

なお、 Datastream を活用したマイグレーションやレプリケーションの方法は以下の記事で詳しく解説しています。関心のある方はあわせてご覧ください。

異なる DBMS から効率的に Cloud Spanner へ移行!ツールを活用したマイグレーション方法を徹底解説!

効率的なリアルタイム分析を実現! BigQuery を活用したレプリケーションのやり方とは?

Datastream と Dataflow による BigQuery へのレプリケーション

まずは Datastream で Oracle の Redo ログ( MySQL の場合は binlog )から変更データを抽出し、それを変換して Google Cloud Strage (GCS)に変更データを出力します。その後、 Pub / Sub にファイル出力の通知が届き、 Dataflow が Google Cloud Strage (GCS) から変更データを読んで BigQuery に書き込みを行い、 Merge 文で適用するという流れです。

レプリケーション手順

※画像引用: Google データクラウドサミット「 OLTPDB と BigQuery のレプリケーションで実現するリアルタイム分析

以下、各サービスの詳細設定を掲載しておきます。構成を検討する際の参考にしてください。

詳細設定

※画像引用: Google データクラウドサミット「 OLTPDB と BigQuery のレプリケーションで実現するリアルタイム分析

Datastream と Data Fusion による BigQuery へのレプリケーション

まずは Datastream で Oracle の Redo ログから変更データを抽出し、それを変換して Google Cloud Strage (GCS)に変更データを出力します。その後、 Data Fusion が Google Cloud Strage (GCS) から変更データを読んで BigQuery にロードを行い、 Merge 文で適用するという流れです。

流れ

※画像引用: Google データクラウドサミット「 OLTPDB と BigQuery のレプリケーションで実現するリアルタイム分析

以下、各サービスの詳細設定を掲載しておきます。構成を検討する際の参考にしてください。

Fusion構成

※画像引用: Google データクラウドサミット「 OLTPDB と BigQuery のレプリケーションで実現するリアルタイム分析

Datastream と Dataflow による Cloud Spanner への CDC ベースのデータ同期

Datastream と Dataflow を活用して Cloud Spanner へ CDC ベースのデータ同期を行う場合のフローは以下の通りです。 Oracle の LogMiner や MySQL の binlog を利用し、 Datastream の次のプロセスは Cloud Storage を使います。

Oracle にはシステム要件も存在するため、あらかじめ注意しておきましょう。また、 Dataflow に関してはテンプレートを使うと簡単に構築でき、作業効率化に繋がるのでオススメです。

データ同期

※画像引用: Google データクラウドサミット「ツールを使用し異種 DBMS から Cloud Spanner への移行を加速する

HarbourBridge と DataStream を活用した Cloud Spanner への移行

以下は HarbourBridge と DataStream を活用した Cloud Spanner への移行方法を示した図です。 HarbourBridge はバルクでのデータマイグレーション用途で使用し、 DataStream はストリーミングマイグレーション用途で使用します。いずれもサポートするデータソースが指定されているので、下図でチェックしておいてください。

22

※画像引用: Google データクラウドサミット「ツールを使用し異種 DBMS から Cloud Spanner への移行を加速する

Datastream の料金体系

Datastream の料金は、データの処理量(GB)に基づいて計算されますが、大きく分けて「 変更データキャプチャ(CDC) 」と「バックフィル」という2つの要素によって料金が決まります。

  • 変更データキャプチャ(CDC):ソースからの進行中の変更をリアルタイムでキャプチャする
  • バックフィル:テーブル内にあるデータの履歴のスナップショットを Datastream に取り込む

以下、 Datastream の使用時に各ストリーミングメソッドに適用される料金を表にまとめます。

ストリーミングメソッド GB あたりの料金
変更データキャプチャ(CDC) 2.568米ドル
バックフィル 0.514米ドル

※上表は東京( asia-northeast 1)リージョンにおける料金です。

参照:Google Cloud公式サイト

また、上記の Datastream によって処理されるデータの料金に加えて、データの転送、保存、処理に使用する次のようなリソースも課金対象になります。

  • Google Cloud Storage
  • Dataflow
  • ネットワーキング

なお、 Google Cloud 公式の料金計算ツールでリソース別の費用を個別に確認できるため、適宜活用することをオススメします。

Google Cloud Storage や Dataflow に関心のある方は以下の記事がオススメです。

Google ドライブと Google Cloud Storage (GCS)を徹底比較!それぞれの違いや自社に最適なサービスの選び方まで一挙に紹介

Google の ETL サービス「 Dataflow 」とは?概要、特徴、できること、料金体系まで徹底解説!

まとめ

本記事では、 CDC の基礎的な内容に加えて、 Google が提供する CDC サービスである Datastream について、概要やメリット、活用例までわかりやすく解説しました。内容をご理解いただけましたでしょうか。

データ活用の重要性が高まっている現代において、 CDC は不可欠なソリューションの一つとなっています。そして、せっかく CDC サービスを導入するのであれば Datastream がオススメです。Google のサービスならではのシンプルな操作性や便利なテンプレート、強固なセキュリティなど、企業は様々なメリットを享受できます。

Datastream を使うためには Google Cloud (GCP)の契約が必要ですが、 Datastream を Google Cloud (GCP)の他サービスと連携させることで、より効率的なデータ活用を実現することができます!

そして、 Google Cloud (GCP)を契約するのであれば、トップゲートがオススメです。トップゲート経由で契約することで

  • Google Cloud (GCP)の利用料金が3% OFF
  • クレジットカード不要で請求書払いが可能
  • 導入後サポートが充実

など、様々なメリットを享受することができます。

本記事を参考にして、ぜひ Google Cloud (GCP)の導入を検討してみてはいかがでしょうか?

お問い合わせする



弊社トップゲートでは、専門的な知見を活かし、

など幅広くあなたのビジネスを加速させるためにサポートをワンストップで対応することが可能です。

Google Workspace(旧G Suite)に関しても、実績に裏付けられた技術力やさまざまな導入支援実績があります。あなたの状況に最適な利用方法の提案から運用のサポートまでのあなたに寄り添ったサポートを実現します!

Google Cloud (GCP)、またはGoogle Workspace(旧G Suite)の導入をご検討をされている方はお気軽にお問い合わせください。

お問い合わせする

メール登録者数3万件!TOPGATE MAGAZINE大好評配信中!
Google Cloud(GCP)、Google Workspace(旧G Suite) 、TOPGATEの最新情報が満載!

メルマガ登録はこちら

記事を探す

GCP のメリットを最大限に活用しよう!

Google Cloud・Google Workspace のご相談・
お見積り依頼はお気軽に
お問合せフォーム