Google Cloud のメタデータ管理サービス「 Data Catalog 」とは?最先端の技術で効率的なデータ検出を実現!

Google Cloud のメタデータ管理サービス「 Data Catalog 」とは?最先端の技術で効率的なデータ検出を実現!

GCP

投稿日:2021/06/13 | 最終更新日:2021/10/20

Google が提供するメタデータ管理サービス「 Data Catalog 」をご存知でしょうか?様々な新技術が登場し、データ活用の重要性は年々高まっています。近年、便利なストレージサービスが普及しているため、データの保存自体はできているケースが多いですが、適切な管理を行っている企業は少ないのではないでしょうか。

データを適正に管理し、かつ、すぐに使える状態で保管するためには Data Catalog が有効なソリューションになります。本記事では Google Cloud (GCP)のメタデータ管理サービス「 Data Catalog 」について、必要性、概要、機能、特徴、料金体系、ユースケースなど、あらゆる観点から一挙にご紹介します。

なぜ、データ検出において Data Catalog が必要なのか?

昨今、人工知能( AI )IoT に代表される新しい IT の登場により、企業が保有するデータ量は増加しています。経営戦略の策定にはデータ活用が必要不可欠ですが、データを効果的に活用するためには、社内に存在するデータを適切に管理し、すぐに取り出せる状態にしておく必要があります。

データの適正管理には「メタデータ」が使われます。メタデータとは、「特定のタグ付けなどにより、項目や意味が定義づけられたデータ」を意味する言葉です。膨大なデータを生の状態で保存していた場合、それぞれの特徴や関連性がわからず、効率的にデータを活用することができません。

そのため、メタデータの活用が重要なポイントになりますが、社内のメタデータが適切に管理されていないケースも多く存在します。会社としてメタデータを管理せず、社員の記憶に依存した管理が行われている場合、必要なデータを見つけ出すのは困難です。そのため、せっかく保管してあるデータが使い物にならず、データ自体の価値が薄れてしまいます。

このような理由から、 Data Catalog のようなメタデータ管理サービスが必要になります。社内のメタデータを適切に管理することでデータ検出を効率的に進めることができ、迅速かつ有効な経営判断を実現できます。

Data Catalog の詳細は、次章で詳しくご説明します。

Google Cloud (GCP)のメタデータ管理サービス「 Data Catalog 」とは?

「 Data Catalog 」は Google Cloud (GCP)に内包されているメタデータ管理サービスです。メタデータの管理だけではなく、データ検出の機能も搭載されています。

Data Catalog は「100%クラウド」のサービスであり、端末や場所を問わずに利用可能です。また、フルマネージドサービスとして提供されているため、利用者の負荷なく運用できます。フルマネージドサービスとは、ほぼすべてのサーバー管理・運用をサービス事業者が代行するサービスのことです。

Data Catalog を使うことで、主に以下のような内容を実現できます。

  • 必要なデータを検索する手間を省く
  • 迅速なデータ活用によりスピーディーな意思決定を行う
  • データ管理を効率化し自社の生産性向上を促進する

つまり、 Data Catalog は単なるメタデータ管理サービスではありません。適正に管理したメタデータを効率的かつスピーディーに抽出し、そのデータを分析・活用することで、企業の意思決定や生産性向上を実現するための重要なツールであると言えます。

マネージドサービスとフルマネージドサービスの違いについて理解を深めたい方は以下の記事をご確認ください。

マネージドサービスとフルマネージドサービスの違いとは?メリット・デメリットまで徹底解説!

Data Catalog の機能

データのカタログ化

Data Catalog は Google Cloud (GCP)の各種ストレージシステムに保存されているメタデータをカタログ化することができます。カタログ化とは、データを管理するために「ファイル名」「作成日」などの情報を記録することです。これにより、種類や使用目的ごとにデータを分類することが可能になります。

Data Catalog のカタログ化に対応している Google Cloud (GCP)サービスは以下の通りです。

  • BigQuery のデータセット、テーブル、ビュー
  • Pub/Sub トピック
  • Dataproc Metastore のサービス、データベース、テーブル

BigQuery の詳細については、以下の記事が参考になります。
超高速でデータ分析できる!専門知識なしで扱えるGoogle BigQueryがとにかくスゴイ!

データへのタグ付け

データをカタログ化したら、タグを使用して独自のメタデータを追加できます。

一般的に膨大なデータを綺麗に整理することは容易ではなく、場合によってはデータそのものを説明するためのドキュメントがセットで保管されているケースもあります。しかし、このような運用は非効率であり、運用面において大きな手間が発生します。

Data Catalog には「タグテンプレート」が備えられており、簡単にメタデータの作成および管理を行うことができます。タグはデータ自体に関連付けされており、別ファイルとしての保管ではないため、運用管理の効率化にも繋がります。

データの検索・検出

Data Catalog には、強力で構造化された検索機能とフィルタリング機能が搭載されています。そのため、タグ付けされたメタデータは Data Catalog のシステム上で簡単に検出することができます。

企業の意思決定においては、データ検索・データ抽出のスピード感が強く求められるため、データを適正に管理しつつ、効率的に検索・抽出ができる Data Catalog はとても有益なサービスであると言えます。

Data Catalog の5つの特徴

サーバーレスで提供

Data Catalog はサーバーレスで提供されており、自社でサーバーを準備する必要はありません。また、フルマネージドサービスであるため、サーバーの管理運用など自社の工数を大幅に削減できます。

結果として、社員が本来注力すべき生産性の高い業務に集中できるため、企業の業績アップに大きく貢献します。サーバーレスかつフルマネージドで提供されている点は Data Catalog の大きなメリットであると言えます。

スケーリングが容易

スケーリングとは、サービスの使用量を自由に増減することです。 Data Catalog は100%クラウドで提供されているサービスであるため、自社の状況に応じて柔軟なスケーリングが可能になります。

そのため、事業の拡大・縮小などが発生した場合でも柔軟に対応できます。市場ニーズや社員の働き方など、あらゆる要素が多様化する現代において、柔軟なスケーリングは必要不可欠な要素であると言えます。

高速で使いやすいインターフェース

Data Catalog は強力な構造化検索機能を備えた、シンプルで使いやすいユーザーインターフェースを搭載しています。そのため、必要なデータを手間なく検索することが可能です。

また、 Data Catalog の検索テクノロジーは Gmail や Google ドライブと同一のものを採用しています。 Google の最先端技術を活用することで、誰もが高速なデータ検索やタグ付けを行うことができます。

あらゆるデータを一元的に表示

Data Catalog を使えば、 Google Cloud (GCP)内だけでなく、 Google Cloud (GCP)外のデータも把握することができます。「 BigQuery 」「 Pub/Sub 」「 Cloud Storage 」など、多数のコネクタと統合することで、様々なメタデータを一元的に表示し、自動的にタグ付け可能です。

昨今、企業が保有するデータ量は増加しており、全容を把握するのが困難なケースもあります。しかし、 Data Catalog を活用することで社内に存在するデータを集約し、その全体像をわかりやすく可視化することができます。

強固なセキュリティ

Data Catalog は「 Cloud DLP 」と「 Cloud IAM 」の統合により、強固なセキュリティとコンプライアンスの基盤を提供します。

Cloud DLP は、 Google Cloud (GCP)内のデータを監査し、機密データ(個人情報など)の有無の検知や、マスキング処理を行うことができるサービスです。Cloud IAM は適切な権限設定を行うことで、安全なアクセス制御を実現するサービスです。

これらのサービスと統合することで、安全性の高い環境で Data Catalog を運用することが可能になります。企業がデータを扱う上で、セキュリティは必ず意識すべき重要なポイントであるため、堅牢なセキュリティ環境でサービスを運用できる点は Data Catalog の大きなメリットであると言えます。

Data Catalog の料金体系

Data Catalog の料金は以下の2つの要素によって決まります。

  • 1.メタデータストレージ
  • 2.API の呼び出し

どちらも日単位で料金が発生し、未請求分の使用量は Google Cloud Console で確認可能です。

メタデータストレージ

メタデータストレージには、 Data Catalog のタグテンプレートやタグ、 Data Catalog によって取り込まれたオンプレミスメタデータなどが含まれます。なお、他のサービスによって保存された技術的なメタデータは含まれません。

以下、メタデータストレージの料金を表にまとめました。

月間平均ストレージ 月額
1 MiB まで 無料
1 MiB 超 月額 1 GiB あたり $100

1 MiB まで無料で使える点は Data Catalog の嬉しいポイントです。

API の呼び出し

API の呼び出しには、 Data Catalog のユーザーインターフェースから発行された API 呼び出しを含む、 Data Catalog の読み取り、書き込み、検索 API 呼び出しなどが含まれます。

これらの API 呼び出し時に選択したプロジェクトに対して料金が発生し、 API を呼び出した回数に応じて課金額が決まる仕組みとなっています。

以下、 API 呼び出しの料金を表にまとめました。

API 呼び出し 料金
1か月に100万回まで 無料
1か月に100万回超 API 呼び出し100,000回あたり10米ドル

メタデータストレージと同様に一定数までは無料となっています。

Data Catalog のユースケース

オンプレミスデータベースのメタデータを統合する

オンプレミスのデータベースは運用管理が煩雑になりがちであり、自社のデータを適正に管理できないケースもあります。そのような場合、 Data Catalog が有効な選択肢になります。

Data Catalog はオンプレミスのデータベースからメタデータを取り込み、それらを Data Catalog 内で統合できるため、貴重なデータを綺麗に整理し、すぐに取り出せる形で管理・運用できます。

Looker のメタデータを統合する

Data Catalog でメタデータを統合できるのは、オンプレミスのデータベースだけではありません。 Looker に代表されるクラウド型サービスの場合でも、同じようにデータ統合が可能です。

Looker は Google が提供する BI (ビジネスインテリジェンス)ツールであり、その特徴から「次世代の BI ツール」と呼ばれています。 Data Catalog を活用すれば、 Looker から取り込んだメタデータを統合し、 Data Catalog 内で一元的にデータを管理・見える化できます。

Looker に関しては、以下の記事が参考になります。
次世代BIツール「Looker」の概要と導入時の注意点をご紹介!

Looker で次世代のデータ活用を実現!データの民主化における課題と解決法とは?

クラウド環境におけるデータガバナンスを実現する

Data Catalog を活用することで、自社のクラウド環境におけるデータガバナンスを実現できます。 データガバナンスとは、企業や組織がデータを効果的かつ効率的に扱うためのプロセスやポリシーなどを総称した言葉です。

Cloud IAM は「誰が」「どのリソースに対して」「どのような操作ができるか」を定義できます。そのため、 Data Catalog と Cloud IAM を統合することで適正なアクセス制御を実現し、磐石なコンプライアンス基盤を構築することが可能になります。

クラウドでのガバナンスやコンプライアンスに関して理解を深めたい方は以下の記事がオススメです。

企業における重要システムのセキュリティ対策とコンプライアンスをクラウド活用で実現!

まとめ

本記事では Google Cloud (GCP)のメタデータ管理サービス「 Data Catalog 」について、あらゆる観点から詳しくご説明しました。

Data Catalog は柔軟なスケーリングや使いやすいインターフェースなど、 Google のサービスならではの嬉しい特徴を多く持っています。これにより、企業が Data Catalog を活用することで、業務効率化や生産性向上などを実現できます。

また、 Data Catalog の料金は「メタデータストレージ」と「 API 呼び出し」の2つの要素で決定しますが、一定量までは無料で使える点も嬉しいポイントです。課金が発生した場合でも、 Google Cloud Console でいつでも料金を確認できるため、コスト管理も簡単に行うことができます。

Data Catalog は Google Cloud (GCP)に内包されたサービスであるため、 Data Catalog を使いたい場合は Google Cloud (GCP)の契約が必要です。 Google Cloud (GCP)は Data Catalog 以外にも、自社の業績アップに直結するソリューションを多数搭載しており、非常におすすめのクラウドサービスです。

そして、 Google Cloud (GCP)を契約するのであれば、トップゲートがオススメです。トップゲート経由で契約することで

  • Google Cloud (GCP)の利用料金が3% OFF
  • クレジットカード不要で請求書払いが可能
  • 導入後サポートが充実

など、様々なメリットを享受することができます。

本記事を参考にして、ぜひ Google Cloud (GCP)の導入を検討してみてはいかがでしょうか。



弊社トップゲートでは、 Google Cloud (GCP) 、または 20ID以上のGoogle Workspace(旧G Suite) 導入をご検討をされているお客様へ「Google Meet で無料個別相談会」を実施いたします。導入前に懸念点を解決したい方、そもそも導入した方がいいのかをお聞きしたい方はお気軽にお申し込みください!

トップゲート経由でGoogle Cloud (GCP) をご契約いただけるとGoogle Cloud (GCP) の利用料金はずっと3%オフとお得になります!
お申込みはこちら



弊社トップゲートでは、TOPGATE Broadcaster と称してウェビナーを定期開催しております。

  • クラウドに関すること
  • Google Cloud (GCP) の最新情報やお役立ち情報
  • Googleのテクノロジーを活用した生産性の向上に関すること

など、 仕事で差がつく情報を忙しいビジネスパーソンのために短時間でコンパクトにお届けしております。

参加者さまからの「わかりやすかった」「勉強になった」など好評いただいております。取っ付きにくい内容も講師がわかりやすく解説しております。参加費は無料であるウェビナーがほとんどです!

以下のボタンをクリックして、気になるウェビューへお気軽にご参加ください!

TOPGATE Broadcasterの情報はこちら

メール登録者数3万件!大人気TOPGATE MAGAZINEにご登録いただけますと、TOPGATE Broadcaster の情報があなたのメールボックスに届きます。
他にも、Google Cloud (GCP) 、Google Workspace(旧G Suite) 、TOPGATEの最新情報が満載!

メルマガ登録はこちら

記事を探す

GCP のメリットを最大限に活用しよう!

Google Cloud・Google Workspace のご相談・
お見積り依頼はお気軽に
お問合せフォーム