データ分析基盤Google Bigquery:利用方法について徹底解説!
- BigQuery
- Cloud
- DWH
ビッグデータ解析向けの強力なツールとしてGoogle BigQueryが提供されています。このツール、実際にどのように利用すればよいのでしょうか?
ここではデータ分析を始めて利用される方向けに非常に簡単にビッグデータ解析ができるBigQueryの利用手順について実際の事例を用いて詳しく解説していきます。
目次
Google BigQueryとは?
具体的な利用手順について解説する前にBigQueryの概要についておさらいしておきましょう。BigQueryの概要、機能、どんなことに利用できるか?などについて理解を深めた方が、実際の利用手順を早く修得できるかと思います。
ここを読むことでまずはBigQueryがどのようなものか?理解してみましょう。
データ分析機能を持ったデータウェアハウス(DWH)
BigQueryは、元々Googleの社内データ分析システムである、Dremelというシステムを一般向けにサービス提供したものです。その実態は、ビッグデータ解析する機能と、データを格納、保管するためのデータウェアハウス両方の機能をもつ非常に便利なツールです。現在はGoogle Cloud (GCP)の一機能として提供されています。
通常データ解析するには、データを格納するデータベースと、分析するデータ分析ツールの2つを組み合わせて利用する必要がありますが、Googleの場合はBigQuery1つで解決できるため、初心者でも利用しやすいツールと言えます。
最近のクラウドサービスは多くのツールが提供されていますが、それらをどのように組み合わせて利用すればよいのか理解するのが至難の業といえます。その点、1つのツールで完結できる点は非常にありがたいですね。
機械学習機能やデータ公開機能も含まれる便利なDWH
また BigQueryは機械学習機能もあります。最近はやりの深層学習、ディープラーニングにも利用できるため、機械学習モデルを構築し将来的にはAIと組み合わせた利用にも拡張できます。
また、データウェアハウスの拡張機能としてデータ公開に向けた各種機能も有しております。BigQuery上に蓄積したデータに対するアクセス制御機能を有しているため、特定データのインターネット上への公開や逆に社内の特定ユーザのみ利用できるよう制限するなど緻密な設定が可能です。
最近注目されるビッグデータ解析などに利用する
先にも述べてしまいましたが、BigQueryは最近はやりのビッグデータ解析に最適なツールといえます。複数のデータを組み合わせデータ解析し結果を求めるケースにおいてBigQueryはあなたにとって大きな手助けをしてくれるでしょう。
何より解析ツールとデータ蓄積すべきデータウェアハウス機能の両方を有しており、特に初心者の方にはおすすめのツールです。
BigQueryを使ってみよう!初心者でも使えるビッグデータ解析の方法
それでは、BigQueryの具体的な使い方について解説していきましょう。ここでは初めてはGoogle Cloud (GCP)を利用する方を対象に、利用登録方法から解説します。
またデータ分析についても具体的なシナリオを準備し、利用開始から結果取得までの具体的な手順について細かく解説します。
サンプルシナリオ
サンプルシナリオとして、市区町村の人口分布をBigQueryを使って分析します。分析の元データとして、を利用する前提とします。
東京都の人工データ分布は国のオープンデータサイトからダウンロードできます。この手順を試してみたい方は下記よりダウンロードしてみてください。尚、今回利用するダウンロードの種別は、「CSV形式・Unicode」ですのでそちらを選択し、北海道のデータをダウンロードしてください。
https://catalog.data.metro.tokyo.lg.jp/dataset/t132250d0000000003
尚、2021年5月段階で、人口データは、圧縮状態で44Mbyte、解凍時で232Mbyteもあるため、あらかじめダウンロード先のストレージ容量を確保するようにしてください。
利用する前に:Google Cloud (GCP)利用に向けた登録が必要
BigQueryははGoogle Cloud (GCP)サービスの1つです。そのため、BigQueryを利用するには、まずGoogleアカウント作成と登録が必要となります。
GoogleアカウントはGmail等で利用するGoogleアカウントと共通ですので、もしGoogleアカウントを持っている場合はそのアカウントを利用すれば簡単に登録できます。また、Google Cloud (GCP)登録時、クレジットカードが必要となりますので準備しましょう。これはGoogle Cloud (GCP)の各サービスを利用する際、利用料金の支払いが発生する為必ず登録が必要です。
尚、登録後90日間は300$まで各サービスが無料で利用できるチケットがついてきます。お試し利用する際はこのチケットを有効利用していきましょう。
尚、詳しいGoogle Cloud (GCP)の登録方法はこちらの公式サイトを参考にしてください。
アカウント登録が出来たら、ダウンロードしたデータをGoogleドライブに格納
Googleアカウントができたら、Googleドライブ上にダウンロードした東京の法人データをアップロードしてください。今回はGoogleドライブ上に格納したデータを読み込み、解析を行うシナリオで進めます。
ローカルPC上のデータを読み込む形でも解析はできるのですが、クラウド上にアップロードしておくことでデータの読み込み速度向上やローカルPCのストレージ容量を圧迫することなく解析が進められるためこの方法をおすすめしています。
BigQueryによる分析手順
Google Cloud (GCP)のアカウント登録ができたら、ついにBigQueryで解析を行っていきましょう。データ分析を行う際に行う作業ステップは5つです。このステップ毎にわかりやすく解説していきます。
Step1:プロジェクト作成
Step1-1
Google Cloud (GCP)にログインしトップ画面を表示します。トップ画面の右上にの「ナビゲーションメニュ」を開き、「ビッグデータ」内の「BigQuery」をクリックします。
Step1-2
BigQueryのトップ画面の左上にある「My First Project」を開き、プロジェクトの選択画面を開きます。プロジェクト選択画面の右上にある「新しいプロジェクト」を選択します。
Step1-3
新規プロジェクトを設定します。「プロジェクト名」「プロジェクトID」「場所」の3つのカラムがありますが、プロジェクト名とプロジェクトIDについてはランダムに当てられますので、特に割り当てルールやこだわり等がなければそのままでも構いません。
また、場所は任意ですので、決まっていない場合やよくわからない場合は無理に設定する必要はありません。
設定が完了したら、「作成」ボタンをクリックします。これでプロジェクト作成は完了です。
Step2:データセット作成
Step2-1
データセットを作成します。データセットとはデータを入れるデータベースのことですね。作成したプロジェクト名右横のメニューをクリックし、「データセット作成」をクリックします。
Step2-2
データセットを作成します。まずはデータセットIDを設定します。ここは英数字とアンダースコアでユニークに設定頂いても結構ですが、後々どのようなデータセットかわかるような名前にしておいてください。巨大なデータ分析になればなるほどわかりやすくしておかないと、後々わからなくなってしまいます。
そして、データのロケーションは今回「東京」としてください。
完了次第、「データセットを作成」ボタンをクリックします。これでデータセット作成は完了です。
Step3:テーブル作成
Step3-1
データ分析を行うため、データの読み込みを行います。先の準備段階でGoogleドライブにアップロードしておいた法人データを読み込んでいきます。
先ほど作成したデータセットの右側のメニューから「開く」を選択しクリックします。
データセット画面上の「テーブルを作成」をクリックします。
テーブルを作成します。
まずソースを指定します。
次に送信先を設定します。プロジェクト名、データセット名は先に設定した内容を指定し、テーブル名を設定します。テーブル名はプロジェクト名、データセット名と同様ユニークに設定できますが、後々どのようなデータかわかるような名前に設定してください。
次にスキーマ設定です。これはデータベースの各要素のデータ名称と種別を設定することになります。それぞれどのようなデータでどのようなデータ形式か、ここで設定しましょう。
設定できたら、「テーブルの作成」をクリックし完成です。
Step4:分析データ加工
テーブル作成が完了すると、トップ画面上に作成されたテーブルが表示されます。テーブル表示された画面の右上「テーブルをクエリ」をクリックすることで、クエリを表示します。クエリコマンドを入力することでテーブルの加工ができます。
今回利用するコマンドは下記のとおりです。
Step5:結果の出力
クエリを実施した結果、加工後の画面表示がなされます。これで結果出力も完了となります。
データ解析をおこなう時は、気軽にBigQueryを使ってみよう
いかがだったでしょうか?データ解析とはいえ、基本的には上記で記載したわずか5ステップで簡単に解析ができます。割と簡単ですよね?
皆さんの周りでも大きなデータを分析したい、そう思うことは多々あるかと思います。そんな時は一度BigQueryを利用してみてはいかがでしょうか?皆さんの業務スピードを各段にアップしてくれるはずです。