2023.10.11

【GCP入門編・第12回】 BigQuery を使って気軽にビッグデータの解析を行ってみよう！

BigQuery
GCP入門編
ビッグデータ

Google Cloud (GCP) では、 Cloud Dataproc 、 Bigtable などのビッグデータを扱うためのサービスが数多く提供されています。これは、検索エンジンという膨大なウェブ上のデータと常に向き合ってきた Google に、ビッグデータを扱うためのノウハウが蓄積していることの現れです。 Google が開発した数々のビッグデータ向けの技術を使うことができる点は、 AWS や Azure などの競合サービスにはない、 GCP の大きな特徴です。
BigQuery は、 Web ブラウザからの操作だけで、気軽にテラバイト、ペタバイト級のデータを扱って解析が行えます。分かりやすく、非常に便利に使えるので、エンジニアでない方にも是非試していただきたいサービスです。
この記事では、ビッグデータを扱うサービスの1つである BigQuery について紹介し、データを BigQuery に取り込み、解析するデモを行います。

この記事の目的

BigQuery とは何かを理解しよう。
CSV 形式のデータを BigQuery に取り込み、解析を行ってみよう。

BigQuery とは

BigQuery は、Dremelという Google の社内データ解析ツールをサービスとして公開したものです。 Dremel はペタバイト級のデータを扱えるようにスケールを考えて設計されたソフトウェアです。非常にパワフルな一方、エンジニアでなくとも SQL さえ覚えれば大量のデータを使って集計作業や解析作業を行うことが可能です。
こうした Dremel の利用しやすさから、 Google 社内ではクロールした Web のドキュメントの解析、スパム解析、日々ユーザーから送られてくる大量のアプリケーションのインストールデータの解析など、多種多様なタスクをこなすために使われています。
BigQuery はそんな Dremel を誰もが使えるようにしたサービスです。 BigQuery は、 Cloud Dataproc を使った Hadoop によるデータの解析と異なり、クラスターの展開も必要なければプログラミング言語を使ったジョブの記述も必要ありません。必要なのはデータを何らかの形で BigQuery にインポートすることだけです。この手軽さは、 GCP の他のサービスと比較してもトップレベルです。
BigQuery はデータのインポート元として、 Google Cloud Storage 、 File Upload 、 Google ドライブをサポートしています。つまり、 Google スプレッドシートのデータだろうと、手元に持っている CSV ファイルだろうとアップロードして解析できるのです。さらに、操作はすべて Web の UI から行えるため、コマンドラインを使う必要もありません。
それでは、実際に BigQuery にデータをインポートし、簡単な SQL 文を使ってデータの解析を行ってみます。

BigQuery を使ってみよう

このデモでは、サンプルデータとして国税庁が提供しているオープンデータを使用します。まずは、国税庁の法人番号公表サイトを開き、データをダウンロードします。比較的大きなデータを扱ってデモをするため、 Unicode の CSV 形式で提供されるデータから、東京都のデータを圧縮した zip ファイルをダウンロードします。
zip ファイルを解凍すると、180MB程度の CSV ファイル(記事執筆時点では13_tokyo_all_20170228.csv)が入ったフォルダが表示されます。まずはこちらを Google ドライブにアップロードしましょう。
前節 "BigQuery とは" では、 BigQuery はデータのインポート元として、 File Upload をサポートすると書きました。しかし、ウェブブラウザ経由のファイルアップロードには 10 MB という制限があります。このため、このデモでは Google ドライブを使用します。

アップロードが完了したら、このファイルの URL を取得します。ファイルを右クリックし、 [Get Sharable Link] をクリックして URL を取得します。
ここまでが済んだら、 GCP のコンソールの左側メニューから [BigQuery] をクリックします。新しいウィンドウで BigQuery の Web インターフェースが開かれます。
左側のメニューには、プロジェクトが表示されています。プロジェクト名の右側にある下向きの三角をクリックし、 [Create new dataset] をクリックすると、以下のような画面が開きます。

Dataset ID に ”tokyo_companies”、 Data location は US を選択します。この状態で [OK] をクリックすると、左側のメニューにデータセットが追加されます。次に、データセット名の右側に表示されている下向きの三角をクリックし、 [Create Table] をクリックします。表示された画面でデータのインポートを行います。

Location は Google Drive 、 URL に先ほどアップロードしたデータの URL を貼り付けます。 File Format は CSV を選択しましょう。 Table name には company と入力します。
Schema は、 RDBMS でいうところのスキーマと同じ概念です。上の画面を参考に入力してください。入力が完了したら、 [Create table] をクリックします。この時、 Google Drive にアクセスするために OAuth の許可画面が開きますので、アクセスを許可します。

テーブルの作成が完了すると、テーブルの詳細が表示されます。この画面上で右上に表示されている [Query Table] をクリックすることで、クエリの実行画面に移動します。それでは、データに対してクエリを発行していきましょう。クエリの入力画面に以下のようにクエリを入力します。

SELECT count(name) FROM [プロジェクトID:tokyo_companies.company] WHERE city = "千代田区"

このクエリは千代田区にある会社の数を調べるクエリとなっています。

クエリが実行され、数が表示されたかと思います。
このファイルに含まれる行数はは記事執筆時点では約97万行、千代田区の法人数は65655行でした。約88秒程度で結果が返ってきました。このように、大きな CSV ファイルに対して SQL でクエリを実行し、結果を受け取ることができました。
次に、もう少し複雑な集計を行ってみましょう。東京都の97万の法人を区ごとにカウントし、どの区にいくつ法人があるかを表示します。
クエリ入力画面に以下のようにクエリを入力します。

SELECT city, count(company_number) AS company_number FROM [プロジェクトID:tokyo_companies.company] GROUP BY city　ORDER BY company_number DESC

[RUN QUERY] をクリックするとクエリが実行されます。

上の画面のように、法人数の多い順に区が表示されます。このクエリでは約30秒程度で結果が返ってきました。このように、普通の SQL 文で集計をする感覚で、気軽にビッグデータの集計作業が行えます。

おわりに

いかがでしたでしょうか。簡単にデータの解析ができることに驚かれたのではないでしょうか。このように BigQuery を使えば簡単にデータを取り込み、 SQL を使ってデータの集計作業を行うことが可能となります。

BigQueryで考慮すべきセキュリティとその対策を一挙ご紹介！

弊社トップゲートでは、Google Cloud (GCP）利用料3%OFFや支払代行手数料無料、請求書払い可能などGoogle Cloud (GCP）をお得に便利に利用できます。さらに専門的な知見を活かし、幅広くあなたのビジネスを加速させるためにサポートをワンストップで対応することが可能です。

Google Workspace（旧G Suite）に関しても、実績に裏付けられた技術力やさまざまな導入支援実績があります。あなたの状況に最適な利用方法の提案から運用のサポートまでのあなたに寄り添ったサポートを実現します！

Google Cloud (GCP）、またはGoogle Workspace（旧G Suite）の導入をご検討をされている方はお気軽にお問い合わせください。

お問合せはこちら

メール登録者数3万件！TOPGATE MAGAZINE大好評配信中！
Google Cloud（GCP）、Google Workspace（旧G Suite）、TOPGATEの最新情報が満載！

メルマガ登録はこちら

ライター

TOPGATE 編集部

【GCP入門編・第12回】 BigQuery を使って気軽にビッグデータの解析を行ってみよう！

この記事の目的

BigQuery とは

BigQuery を使ってみよう

おわりに

Related Article !

株式会社トップゲート、Google Cloud マネージド サービス プロバイダ（ MSP ）認定を取得

Google Cloud Partner of the Year in 2024 Expansion: Japan を受賞

Vertex AI が変える書類管理〜紙の束に隠れた情報を解き放て〜

ビジネス向け Google グループでお問い合わせ用メールアドレスの作成 (全1/3回)

メール運用をもっと便利に！ Gmail のメーリングリスト作成方法を図解付きで解説！

PoC 開発のプロセスを5 STEP でご紹介！成功させるための重要なポイントとは？

クラウド移行における 7 つの課題とは？成功させるためのポイントまで徹底解説！

ストリームデータ処理とは？リアルタイムデータの活用でデータドリブン経営を実現！

PoC とは何か？概要やメリット、成功させるためのポイントまで徹底解説！

4つの法人向けオンラインストレージサービスを比較！選ぶポイントも解説

企業成長を促進するログ解析とは？メリットや進め方、成功事例まで一挙にご紹介！

Minimum Viable Product （MVP）とは？メリットや進め方、成功させるためのポイントまで徹底解説！

社内ポータルサイトの必要性とは？メリットや構築する際のポイントまで徹底解説！

【いまさら聞けない】グループウェアとは？メリットやデメリット、代表的なサービスまで一挙に紹介！

DDoS 攻撃とは何か？自社のセキュリティを強化するための対策方法を徹底解説！

法人向けオンラインストレージのオススメ 10 選！サービスを選ぶ際の 6 つのポイントとは？

Google Cloudパートナーとは？種類、役割、メリットまで徹底解説！

Google Workspaceで開かれるビジネスの新しい可能性：株式会社トップゲートと株式会社JPMCの対談

GoogleのAI「Bard」で、SIerのビジネスを効率化・成長させよう！

GoogleのAI「Bard」で、研究の質を向上させよう！

AI Bardでデータ分析を効率化・精度向上！

Google Cloudの大規模言語モデル「PaLM 2」を活用した生成AI／LLMの実用化を促進するスターターキットを提供開始

株式会社トップゲート、Google Cloud Next Tokyo '23 に出展：PIVOT様との事例セッションで登壇

Google AI「Bard」で要件定義の効率化・品質向上！

Google 検索を支える AI 技術とは

オンプレミスからGCPへ：V2Vイメージを活用したVMの構築

オンプレやAWSのDNSをCloud DNSに移行する手順

GoogleのAI「Bard」で、SI分野の業務効率化・品質向上を実現！

AI が私たちの生活を便利にする3つの活用法

2023年、AI業界で注目すべきトレンド5選

【図解】 Google スプレッドシートを活用したガントチャートの作り方を徹底解説！

GoogleのAI「Bard」で、教育の質を向上させよう！

Google Cloud が提供している個々のサービスを『点』として理解するのではなく、サービス同士の繋がり『線』として理解したい。

Google 検索が新機能を追加！テキストと画像を組み合わせて検索できる「Multisearch」登場

テキストとコードの両方を理解できるGoogle AIの新しい言語モデル

GoogleのAI「Bard」は、ビジネスを効率化・生産性向上に導く！

Google Cloud の基本的な設計思想や権限まわりの特性を体系的に学べるプログラム

Google AIが開発した大規模言語モデル「Bard」とは？

株式会社MonotaROの新人研修で採用されたGoogle Cloud認定トレーニングの実践事例

Bardを理解！Google Bardでできることとその将来性！

株式会社トップゲート 、Google Cloud Services Partner of the Year for Japan を受賞

知識の棚卸には最適な内容。 丁寧な解説により、各種サービスの理解度を更に深めることができた。

AIが変える世界 - 2023年の最新トレンド

生成AI（ジェネレーティブAI）登場後に変化したBtoB営業部門の働き方と期待する未来

Google AIが開発したAI搭載広告「GML」とは？

ソリューションPoCパッケージの提供を開始

GoogleのAI「Bard」で、ビジネスを効率化・成長させよう！

Bardと他のGenerative AIとの比較：テキスト生成、翻訳、クリエイティブコンテンツ生成、質問への回答の優位性

生成AI（ジェネレーティブAI）登場後に変化したBtoBマーケティング部門の働き方と期待する未来

【事例】農産物や加工品の販売を行う市場を運営するファーマーズマーケット、チームでGoogle Workspaceを活用することで、情報共有がかなりスムーズに。

【事例】不動産の仕入れツールの作成、運用を行う合同会社One Flag。Google Workspaceで手間に感じていたものが全て解消

Googleの新型AI「Bard」登場！テキスト生成、翻訳、クリエイティブコンテンツ作成、質問回答を日本語で可能に

【図解】 Google スライドのアニメーション機能とは？概要や使い方、注意点まで徹底解説！

Google スライドで文字を縦書きにする方法とは？作業の工夫により生産性向上を実現！

パブリッククラウドにおけるアカウント管理の課題とは？効率化するためのポイントまで徹底解説！

Google Workspace （旧 G Suite ）と Notion の機能から料金まで違いを徹底比較！

シャドーIT とは？企業にもたらすリスクや発生する原因や対策などを解説！

こんなに簡単にできるの？コネクテッドシートと BigQuery の連携方法を図解付きでわかりやすく解説！

Google Workspace （旧 G Suite ）をもっと便利に！ Chrome 拡張機能のおすすめ5選を一挙に紹介

オフショア開発とは？メリットやデメリット、成功させるためのポイントまで徹底解説！

Dataplex とは？ Google が提供する高性能なデータファブリックをあらゆる目線から徹底解説！

ハイブリッドクラウドとは？メリット・デメリット、構築時の重要なポイントまで徹底解説！

Google ドライブと Google Cloud Storage （GCS）を徹底比較！それぞれの違いや自社に最適なサービスの選び方まで一挙に紹介

ビジネス利用でも安心！ Google Meet の制限時間の伸ばし方とは？

マルチクラウドとは？メリット・デメリットや活用に向けた5ステップまで徹底解説！

GKE Autopilot とは？ GKE Standard との違いや料金体系、利用時の注意点まで徹底解説！

Cloud Spanner にまつわる7つの疑問を Google 社員が徹底解説

次世代の BI ツールが進化中？ Looker の2021年9月最新機能やアップデート情報を徹底解説！

メモリも暗号化が必要？ Google Cloud （GCP）によるソフトウェアサプライチェーンリスクの防止方法を徹底解説！

クラウドと VPS の違いとは？自社に合ったサービスの選択方法をわかりやすく解説！

Google Cloud （GCP）が進化中？ネットワークアーキテクチャ設計のコツを徹底解説！

データ分析基盤Google Bigquery：利用方法について徹底解説！

Google Maps API とは？料金体系やできること、開発事例まで一挙に紹介！

クラウドネイティブのスターターキット！Terraform テンプレート「トップゲートクラウディア」とは？

株式会社トップゲート、Google Cloud マネージドサービスプロバイダ（ MSP ）認定を取得

株式会社トップゲート、Google Cloud Services Partner of the Year for Japan を受賞

知識の棚卸には最適な内容。丁寧な解説により、各種サービスの理解度を更に深めることができた。