クラウドDWH(データウェアハウス)って何?AWS,Azure,GCPを比較しながら分析の手順も解説!

クラウドDWH(データウェアハウス)って何?AWS,Azure,GCPを比較しながら分析の手順も解説!

GCP

投稿日:2020/07/24 | 最終更新日:2020/09/10

IT業界には、大量のデータを保管、分析、加工するための様々なツールが日々開発・利用されています。

例えば、データ加工のためにはHadoopのようなフレームワークが使用されますし、データ保存のためにはオブジェクトストレージやCassandraといった分散DBが利用されています。

また、世界3大クラウドであるAWS(Amazon Web Services)、Microsoft Azure、GCP(Google Cloud Platform)でも、データ分析のサービスに関するリリースが日々行われています。

今回の記事では、データ分析の必要性や、3大クラウドのDWHサービスの比較を行っていきます。

クラウド上のデータ分析基盤を使うメリット

クラウドサービスを利用しなくても、データ分析は可能です。そんな中、データ分析のために、なぜAWSやGCPなどのクラウドサービスを利用するといいのでしょうか?

理由は単純で、圧倒的低コストだからです。

例えば、1PB(ペタバイト)のデータを分析する環境を自社のデータセンターに用意しようとすると、1PBのデータを保存できるストレージや、処理を行うサーバー群の用意、設定などに、多大なコストと時間がかかってしまいます。しかしながら、クラウドサービスを利用すると、自社でストレージやサーバー群を設定、用意する必要がありません。

データをクラウド上に格納さえすれば、すぐにデータ分析のサービスが利用可能です。また、大抵のサービスは使った分だけ課金されるので、コスト効率も非常に優れています。

DWH(データウェアハウス)とは?

DWHとは、そもそも何なのでしょうか?本稿ではDWHの概要や必要性について説明していきます。

DWH(Data Ware house、データウェアハウス)とは、『データの倉庫』の意味で、データの利活用のために、膨大なデータを保存しておくためのシステムです。

データ分析を行うために、データウェアハウスに格納されるデータは、極力何らかの形で整理、整形されている必要があります。

DWH(データウェアハウス)とデータベースの違いとは?

では、DWHとデータベースは何が違うのでしょうか?

どちらも分析のためにデータを格納しておくためのシステムです。データベースとDWHは、一般的に以下の違いがあります。

  • 目的の違い
  • 処理速度の違い

それぞれ詳しく見ていきます。

目的の違い

DWHとデータベースは、その目的が異なっています。DWHは、データの分析を目的としています。そのため、アプリケーションではもう利用しなくなったアクセスログなどの膨大な情報についても格納されます。また、分析を行うため、一度格納されたデータは滅多に消されることはありません。

一方で、データベースはそれぞれ目的が限定されており、目的に沿わないデータは更新・削除されます。例えば、ある製品データを格納するデータベースは、製品の値段が変わると更新されますし、製品の生産が終わるとデータベース上から製品のデータが削除されます。

処理速度の違い

DWHとデータベースは処理速度が異なります。データベースはそもそも高速な処理を目的としたものではなく、データの正確性を保つため、1行づつ性格にデータを処理していきます。

一方でDWHは、膨大なデータを高速に処理する為に様々な仕組みを作っています。例えば、1行1行処理するデータベースと異なり、データを1列ずつ処理する、といった「カラム型」の処理を行うものや、大量のデータを分割して処理し、処理後にマージする「MapReduce」という仕組みが採用されています。

DWH(データウェアハウス)がなぜ必要なのか?

それでは、DWHはなぜ必要なのでしょうか?データベースでは、不十分なのでしょうか?

DWHの必要性は、以下の2点が挙げられます。

  • データの統合
  • 意思決定への寄与

それぞれどういうことなのか、以下で解説します。

データの統合

現代では、1つの組織において複数のITシステムを同時に運用しているケースが増えています。その場合、システムごとに、データが別々に保管されることになりますが、そのままだとシステムを横串的に分析することができません。

一方でデータをDWHに統合しておくと、複数のシステムから収集したデータを保管でき、データ分析も横串的に行うことが可能です。

意思決定への寄与

DWHは、データ分析を行うことで、経営者やユーザーの意思決定に寄与することができます。

データは「21世紀の石油」とも言われるように、その利活用が非常に注目されています。例えば過去の気候と売り上げのデータを分析することで、どの商品がどのくらい売れるのか、どれくらい仕入れたらいいのか、といったマーケティングに利用できます。

また、道路建設の有効性などを示したいときには、自動車の通行データを利用・分析することが考えられます。合理的な意思決定を行うためにはどうしてもDWHの仕組みを用意し、手軽にデータ分析を行える状態にしておく必要があります。

DWH(データウェアハウス)を用いたデータ分析の流れとは?

DWHを用いたデータ分析は、以下のフローが重要です。

  1. 収集、蓄積
  2. 加工
  3. 分析、可視化

各フローについて詳しく記載していきます。

収集、蓄積

トランザクションデータ、ログデータ、IoTに関するデータなど、ビジネスでは様々なデータが生成されていきます。

これらのデータを活用するためには、長期間保存するためのストレージサービスを利用する必要があります。

加工

データには大きく分けて以下のような2種類のデータがあります。

  • 構造化データ…「列」と「行」が決められているなど、どこにどのようなデータがあるか整理されているデータ
  • 非構造化データ…どこにどのようなデータがあるかが整理されていないデータ

構造化データは、例えば、CSVファイルやデータベースに格納されているデータが該当します。分析を行いたい際には、大抵の場合加工なしで分析を行うことができます。

非構造化データは、例えば、ログデータ、メールなどです。非構造化データはそのまま分析ができないことが多いです。従って構造化データや、分析ができるファイル形式に加工する必要があります。なお、このようにデータを加工する処理のことをETL処理(Extract、Transform、Loadの略)といいます。

分析、可視化

データを分析できるような状態にしたら、分析や可視化を行い、意思決定に役立てます。

データ分析には以下のような種類があります。

種類 概要
インタラクティブ分析 SQLなどをデータに対して実行し、結果を見るような、対話的な分析を行います。
ビッグデータ分析 Hadoopなどのフレームワークを使用して大量のデータを分析します。
インタラクティブ分析に対し、バッチ処理的な分析を行います。
ビジネスインテリジェンス データを可視化、レポートする分析です。

DWH(データウェアハウス)関連のクラウドサービス

DWHの重要性や流れについてみていきましたが、具体的に、それぞれ、どのようなクラウドサービスを利用して実装を行えばいいかを記載していきます。

なお、対象のクラウドサービスについてはAWS,GCP,Azureを対象とします。

データ蓄積に関するサービス

DWHにおいてデータ蓄積を担うクラウドサービスについて紹介していきます。

AWSのデータ蓄積に関するサービス

種類 概要
S3 AWSの代表的なブロックストレージサービスです。
データの耐久性が99.999999999%と、よほどのことがない限りデータの消失がないことが強みです。
RedShift 列志向の分析用データベースサービスです。利用料金が高い点が難点ですが、高速な分析が可能になっています。

Azureのデータ蓄積に関するサービス

種類 概要
Azure Blob Storage Azureのブロックストレージサービスです。Az Copyという機能を用いてS3などのストレージからデータをインポートすることも可能です。

GCPのデータ蓄積に関するサービス

種類 概要
CloudStrage GCPのブロックストレージサービスです。
BigQuery DWHで必要なデータ蓄積、加工、分析が1つのサービスで行える、GCPを代表するサービスです。ストレージの機能としては、容量が無制限であることが挙げられます。

ETLに関するサービス

DWHにおいてETL(データ加工)処理を担うクラウドサービスについて紹介していきます。

AWSのETLに関するサービス

種類 概要
Glue AWSのETLサービスです。Pythonなどの言語でジョブを作成することが可能です。
Lambda サーバレスのFaaS(Function as a Service)ですが、簡単なデータ加工で利用されることも多いです。1回の利用当たり、料金が非常に安いことも特徴です。

AzureのETLに関するサービス

種類 概要
Databricks データベースからデータをロードして分析が可能な状態にするサービスです。scala、Python、SQL、Rといった幅広い言語でデータ加工が可能です。
Azure Data Factory Python、.NETなどのコードを利用してデータ変換を行えるほか、GUIでのデータ変換も可能なサービスです。

GCPのETLに関するサービス

種類 概要
Cloud Dataflow 量のデータを読み込む場合や、複数のデータソースからデータ読み込む際に適したサービスです。リアルタイム処理、バッチ処理の両方に対応しています。
BigQuery 少量のデータであれば非常に高速なETL処理が可能です。

分析、可視化に関するサービス

DWHにおいて分析、可視化を担うクラウドサービスについて紹介していきます。

AWSの分析、可視化に関するサービス

種類 概要
EMR Hadoopベースのサービスで、大量のデータを分析する際にバッチ形式で分析を行うことができます。
Athena S3に格納されているデータに対して、直接SQLのようなクエリを実行できます
QuickSight データの可視化、データを閲覧するユーザーベースで課金が発生します。

Azureの分析、可視化に関するサービス

種類 概要
Synapse Analytics GCPのBigQueryと同等か、それ以上に高速なデータ分析サービスです。後述するPowerBIや、Office365といったサービスと容易にデータのシェアが可能です。
PowerBI データ可視化に特化したサービス群です。

GCPの分析、可視化に関するサービス

種類 概要
BigQuery 全クラウドサービスの中でトップクラスの、非常に高速な分析が可能です。また、最近発表されたBigQuery omniという機能を利用することで、AWSやAzureに格納しているデータに対しても分析を実行することができます。
DataLab データのグラフ化といった可視化や、機械学習モデルの構築が可能です。

際立つBigQueryのすごさ

各クラウドサービスのDWHについて紹介をしてきましたが、その中でもGCPのBigQueryはDWHに特化した、非常に優秀なサービスであることがわかります。
BigQueryの凄さとしては以下のようなものが挙げられます。

  • クラウドサービスの中でもトップクラスの高速な分析
  • データ蓄積、加工、分析まで、ワンストップのDWH
  • AWSやAzureといったマルチクラウド対応
  • ほかのサービスにはない、高可用性(可用性99.99%)

このように、ほかのクラウドサービスから際立ったメリットがあり、BigQueryはGCPを代表するサービスとなっています。

まとめ

DWHの概要や、各クラウドサービスのDWH関連サービスの特徴についてまとめました。

近年DX(デジタルトランスフォーメーション)の風潮の中で、データ分析の重要性が強調され、クラウドサービス提供各社が開発を激化させています。そのため、各クラウドサービスに、それぞれ素晴らしいサービスが存在しています。

したがって、どのサービスを組み合わせるかは、分析したいデータや利用しているプラットフォームなど、要件に拠る部分が大きいです。ただし、特段の要件がなければBigQueryはマルチクラウドで対応しているため、BigQueryの利用を考慮に入れてみてはいかがでしょうか?

BigQueryについて詳しく知りたい方におすすめの記事

以上で比較してわかった通り、GCPのBigQueryはDWHに特化した、非常に優秀なサービスです。BigQueryの概要から使い方についての記事をピックアップしました。ぜひご覧ください。

【トップゲート主催】ゲーム業界様向けGCP活用のポイント 〜BigQuery編〜

【GCP入門編・第12回】 BigQuery を使って気軽にビッグデータの解析を行ってみよう!



弊社トップゲートでは、 GCP(BigQueryを含む) 、または G Suite 導入をご検討をされているお客様へ「Google Meet で無料個別相談会」を実施いたします。導入前に懸念点を解決したい方、そもそも導入した方がいいのかをお聞きしたい方はお気軽にお申し込みください!

お申込みはこちら

メール登録者数3万件!TOPGATE MAGAZINE大好評配信中!
GCP、G Suite、TOPGATEの最新情報満載!

メルマガ登録はこちら

記事を探す

GCP のメリットを最大限に活用しよう!

GCP・G Suite のご相談・
お見積り依頼はお気軽に
TEL.03-5840-8815
お問合せフォーム TEL.03-5840-8815