Google Cloudにおけるデータレイクとは?Google Cloudでのサービスと概要までご紹介!

GCP

投稿日:2021/03/31 | 最終更新日:2021/04/27

近年、「ビッグデータ」(BigData)という用語を耳にします。直訳すると、「大きなデータ」という意味になりますが、ビッグデータとは、通常のデータベースシステムでは扱うのが困難なほど、膨大な量のデータのことを言います。そのデータには、文字データだけでなく、画像データや動画データなど、さまざまな種類が存在します。

それでは、通常のデータベースシステムでは扱うのが困難なビッグデータは、いったいどのように管理され、利用されているのでしょうか?本書では、それらの膨大なビッグデータの格納先となる「データレイク」という仕組みについて、みてみることにしましょう。

キーワード解説

データリポジトリ

データを一元的に管理するための領域。

構造化データ

どのような種類のデータがどこにどのように格納されるのか、予め定義されているデータリポジトリに対して格納可能なデータ。

構造化データ、非構造化データに関して理解を深めたい方は以下の記事がオススメ。

データの定義からデータレイクとデータウェアハウス(DWH)の違いをわかりやすく解説!

メタ情報

自分自身がどのようなデータであるのかを表す、そのデータに関する付加的情報のこと。

機械学習

人工知能で用いられているアルゴリズム。コンピューター自らが学習し、その学習結果をもとにデータ解析などを行う。

機械学習に関して理解を深めたい方は以下の記事がオススメ。

機械学習の仕組みとは?学習方法や活用事例まで徹底解説!

【徹底解説!】人工知能(AI)の機械学習と深層学習の違いとは?

特徴量

物の特徴を定量的に表した数値。機械学習は、データから特徴量を導き出すことで、対象物を推測する。

ネットワーク・トラフィック

トラフィック(Traffic)とは、交通量のこと。ネットワーク・トラフィックとは、ネットワーク上の通信量を表す。

ワークフロー

ワークフロー(Workflow)は、仕事(Work)の流れ(Flow)のこと。もしくは、それを可視化した図のこと。

ペタバイト

1,024テラバイト。1テラバイトは1,024ギガバイト。

エクサバイト

1,024ペタバイト。

データマイニング

収集したデータをさまざまな角度から観察し、データの相関性を見つけ出すこと。データマイニングの有名な例として、「おむつとビール」の話しがある。何の関連性もなさそうなおむつとビールだが、実際にアメリカで行ったデータマイニングの結果、おむつを買った人はビールを買う傾向があるということが導き出されている。

リレーショナル型データベース

現在、主流となっているデータモデルのデータベース。データを2次元の表で表す。Oracle、MySQL、SQL Server、PostgreSQL、SQLiteなどがリレーショナル型データベースの代表的な存在である。

リレーショナル型データベースに関して理解を深めたい方は以下の記事がオススメです。

RDB(リレーショナルデータベース)とは?NoSQLデータベースとの違いを徹底解説

データレイクとは?

「データレイク」(Data Lake)とは、直訳すると、「データの池」です。文字データや画像データ、動画データなど、ありとあらゆる種類のデータが、次から次へとその池のなかに放り込まれていく状況を想像してみてください。

Google Cloudにおけるデータレイクとは?

データレイクとは、ありとあらゆる種類のデータをそのままの状態で管理する、データリポジトリのことを言います。一般的なデータリポジトリとの違いとして、データを構造化する必要がないため、「何も考えず」にデータを格納することができることが挙げられます。

一般的なデータリポジトリの場合、構造化されているデータを格納します。そのため、そのデータ構造に沿ったデータしか格納することができませんが、データを利用する場合は、そのデータ構造に則ってデータを取得できます。しかし、データレイクの場合、データが構造化されていないため、目的とするデータを探し出すのが困難です。

そこで、データレイクに格納されたデータは、何らかのタイミングで、そのデータのメタ情報を記録する仕組みが利用されています。そのメタ情報の作成には、人工知能(AI)の機械学習による特徴量抽出が使われます。

データウェアハウス・データマートの違い

Google Cloudにおけるデータレイクとは?

データレイクという用語と似たような用語として、「データウェアハウス」(Data Ware House)というものがあります。データウェアハウスを直訳すると、「データの倉庫」です。

どちらも、データを保管するデータリポジトリですが、根本がまったく違います。前述のとおり、データレイクは、ありとあらゆるデータの種類をそのままの状態で保管するデータリポジトリですが、データウェアハウスは、企業の意思決定などの目的のために、データを再構築し、構造化されたデータを格納するデータリポジトリのことを言います。

また、データウェアハウスと関連した用語として、「データマート」(Data Mart)という用語があります。データマートを直訳すると、「データの市場」です。データマートは、データウェアハウスのなかから、用途に併せて必要なデータのみを利用しやすいように抽出したデータのことを言います。

データマートに関して理解を深めたい方は以下の記事がオススメです。

データ分析基盤の一つであるデータマート概要と設計ポイントをご紹介!

データ分析の歴史から紐解く!データウェアハウスとデータマートの違いを徹底解説

Google Cloud (旧GCP)のデータレイクで使用するサービス

Google Cloud (旧GCP)でデータレイクを実現するにあたり、使用するGoogle Cloud (旧GCP)のサービスについて、説明します。

Cloud Storage

「Cloud Storage」は、Google Cloud (旧GCP)のストレージサービスです。Cloud Storageは、保存できるデータ量に制限がなく、また最小ファイルサイズの制限もありません。天災によってデータセンターに万が一のことが起きた場合でもデータが失われることがないよう、異なる地域のデータセンターに対してデータを冗長化することも可能です。

また、Cloud Storageは、さまざまなGoogle Cloud (旧GCP)のサービスからネイティブに利用することが可能です。例として、Cloud Storageに格納されている画像ファイルから、Google Cloud (旧GCP)の人口知能サービスの一環である画像認識を用いて、画像の検索を行うことができます。

Cloud Storageは従量課金制で、次のようなプランがあります。

STANDARD STORAGE NEARLINE STORAGE COLDLINE STORAGE ARCHIVE STORAGE
$0.02~(GB 単位/月) $0.01~(GB 単位/月) $0.004~(GB 単位/月) $0.0012~(GB 単位/月)

利用料金は、Cloud Storageに保存するデータの量や保存する期間の長さ、ネットワーク・トラフィックなどに基づいて課金されます。データへのアクセス頻度が多い場合はSTANDARD STORAGEプランを、逆にアクセス頻度が少ない場合はARCHVE STORAGEプランを選択します。料金プランは、データの使用状況により、より低価格なプランに自動的に移行されます。

BigQuery

BigQueryは、Google Cloud (旧GCP)のデータウェアハウスです。Cloud Storageに格納された大量のデータは、構造化されておらず、また、さまざまな種類のファイルがそのままの状態で格納されています。そこで、Cloud Storageに格納された大量のデータをGoogle Cloud (旧GCP)の人工知能サービスによって解析し、その解析結果をBigQueryに格納して利用します。

BigQueryにデータの解析結果を格納することにより、そのデータの解析結果をANSI標準のSQLで取得することができるようになります。BigQueryへのSQLの実行は、DataPortal(データポータル)というツールを用いて行います。DataPortalは、ビッグデータの解析結果を、ほぼリアルタイムに近い速度で検索することができます。

BigQueryは、従量課金制です。下記の料金プランは、米ドルで支払う場合のものです。毎月1TBまでは、無料で利用することが可能です。

項目 料金
ストレージ GB あたり $0.02/月
GB あたり $0.01/月(長期保存の場合)
ストリーミング挿入 200 MB あたり $0.01
データの読み込み、コピー、エクスポート(メタデータ オペレーション) 無料

BigQueryに関して理解を深めたい方は以下の記事がオススメです。

BigQueryの概要を知りたい方にオススメの記事
超高速でデータ分析できる!専門知識なしで扱えるGoogle BigQueryがとにかくスゴイ!

ビッグデータの保存先はGoogle Cloudで決まり! BigQueryでデータを管理・分析のすすめ

クラウドベンダー間のデータウェアハウス(DWH)を比較したい方にオススメの記事
クラウドDWH(データウェアハウス)って何?AWS,Azure,GCPを比較しながら分析の手順も解説!

BigQueryの深いところまで知りたい方にオススメの記事
BigQueryで考慮すべきセキュリティとその対策を一挙ご紹介!

【トップゲート主催】ゲーム業界様向けGCP活用のポイント 〜BigQuery編〜

Cloud Composer

Cloud Composerは、Google Cloud (旧GCP)上でApache Airflowというワークフロー管理システムを稼働するためのサービスです。Apache Airflowを使えば、ワークフローを記述したり、また記述したワークフローの実行や監視を一元化することができます。Apache Airflowは、有向非巡回グラフ(DAG:Directed acyclic graph)というグラフを用いてワークフローを定義します。1つのDAGに対して複数のタスクを定義し、タスク間の依存関係、およびタスクのスケジューリングを行います。

Cloud Composerも、他のGoogle Cloud (旧GCP)サービス同様、従量課金制です。Cloud Composerでは、その構成要素として複数のGoogle Cloud (旧GCP)プロダクトを使用するため、複数の料金単位が用意されています。Cloud Composerの料金は分単位で請求されます。

Google Cloud (旧GCP)でデータレイクを実装する例

Google Cloudにおけるデータレイクとは?

Google Cloud (旧GCP)でデータレイクを実装する例について、みてみましょう。Google Cloud (旧GCP)のデータレイクは、データを格納するデータリポジトリ(Cloud Storage)と、データのメタ情報を構造化して格納したデータリポジトリ(BigQuery)を分離します。

Cloud Storageに格納されているデータは、それらを利用しやすい形にするため、メタ情報の取得やデータマイニングが行われます。その結果は、構造化されてBigQueryに格納し、データウェアハウスとして利用されます。

メタ情報の取得やデータマイニングは、Cloud Composerにより、定期的に実行することができます。BigQueryに格納された構造化データは、よりユーザーが利用しやすい形にするため、定期的にデータマートに変換することもできます。これもCloud Composerのワークフローによってスケジューリングします。

従来のデータウェアハウスとの違いは、あらかじめ構造化されたデータからビジネスの分析のために使用するデータを抽出するため、拡張性がないことが挙げられます。しかし、Cloud StorageとBigQueryを利用したデータウェアハウスの場合、人工知能がデータからあらたな特徴を見出すことができれば、それがあらたなデータの検索条件として利用することができます。

まとめ

長年、データベースの主流となっていたリレーショナル型データベースですが、昨今の大規模情報化社会において、「リレーショナル型データベースは、ビッグデータに弱い」という欠点が見えてきました。これは、パソコンだけでなくスマートフォンやタブレット端末から、いつでもどこでもかんたんにビッグデータにアクセスできるようになった現代のクラウド社会においては、かなり重大な欠点です。

また、リレーショナル型データベースでは、2次元表で構成されるテーブルにデータを格納する必要があり、そのテーブル構造に沿うようにデータを構造化する必要があります。その点、データレイクは、とりあえず、データをそのままデータリポジトリに格納しておき、後で随時、構造化されたデータウェアハウスにメタ情報を格納して利用しよう、という考え方です。リレーショナル型データベースと比べ、非常に柔軟性のある考え方です。

今まで、構造化されていなかったために利用できなかったさまざまな形式のデータが、今後、データレイクに蓄積することで、さまざまな局面で利用されることが期待されます。

リレーショナル型データベースが発案される以前は、「階層型データベース」や「ネットワーク型データベース」などというデータモデルが存在しましたが、データモデル(データ構造)という概念さえ存在しない新たなデータの格納方法と利用方法が、今後大きく飛躍することは間違いないでしょう。



弊社トップゲートでは、 Google Cloud (旧GCP)、または Google Workspace(旧G Suite) 導入をご検討をされているお客様へ「Google Meet で無料個別相談会」を実施いたします。導入前に懸念点を解決したい方、そもそも導入した方がいいのかをお聞きしたい方はお気軽にお申し込みください!

トップゲート経由でGoogle Cloudをご契約いただけるとGoogle Cloudの利用料金はずっと3%オフとお得になります!

お申込みはこちら

また、弊社トップゲートでは、Google 技術を利用したアプリケーション開発に関するコンサルティングサービスを行っております。まだ形になっていないアイディアも実現できるような形へ具現化するお手伝いもしておりますので、お気軽にお問い合わせください。ぜひ詳細はリンク先にて!
コンサルティングの詳細はこちら

Google Cloud (旧GCP)でデータレイクを構築しようと考えている方におすすめの記事は以下です。

Google Cloud (旧GCP) で構築できる「データレイク」とは?概要、メリット、構築方法、ユースケースまで徹底解説!

記事を探す

GCP のメリットを最大限に活用しよう!

Google Cloud・Google Workspace のご相談・
お見積り依頼はお気軽に
お問合せフォーム