パブリッククラウドAWS GCP Azure Watsonの音声認識AIを価格や機能、精度の観点で比較!

GCP

投稿日:2020/12/16

「ナイトライダー」という、アメリカの特撮テレビドラマをご存じでしょうか?
アメリカで「ナイトライダー」が放映されたのが1982年のことですが、数年前でも日本のテレビ番組で日本語吹き替え版が放映されている、人気のSFドラマです。

1982年当時に描かれた近未来のフィクション・ドラマで、主人公のマイケルは、左腕につけている「コムリンク」と呼ばれる腕時計型の通信機を介して、人工知能を搭載した自動走行車「キット」と通話し、「キット」をいつでも自分の元に呼び寄せることができました。さらに「キット」は、マイケルと日常的な会話をすることができ、冗談を言うこともできました。

このドラマが放映されていた当時は、「夢のまた夢」のような話しでしたが、約40年経った今、その夢は「音声認識」というAIサービスにより、すでに技術的には実現可能な状況と言っても過言ではないでしょう。

前回、クラウドサービスの大手であるAmazon社のAWS、Google社のGCP、Microsoft社のAzureの画像認識について紹介しましたが、今回は新たにIBM社のWatsonを加え、合計4社の音声認識を紹介したいと思います。

音声認識を利用したサービス

以下では、音声認識を利用したサービスを、3点ご紹介します。

会議の議事録作成

会議の議事録を作成するときに、音声認識を利用することができます。会議中の会話をボイスレコーダーで録音し、その会話の内容を音声認識して文字データとして起こすことにより、手入力の作業を大幅に削減することができます。これを、「文字起こし」と言います。

英単語の発音練習

英単語の発音練習-音声認識を活用した事例-
英単語を覚えるときに使った暗記カードを想像してください。暗記カードの場合、日本語と、その日本語に該当する英単語の表記をセットで暗記します。しかし、その英単語の発音までは学習できません。

これを音声認識アプリで実装した場合、例えばスマートフォンに表示されている日本語を英語で発音することで、その発音が正しいかどうかをアプリでチェックすることができます。

音声によるアプリの制御

iPhoneの「Siri」やAndroidの「Googleアシスタント」のように、音声認識を使えば、音声でアプリを起動させたり、音声で特定の処理を行わせたりすることができます。

著者の経験で言えば、パソコンの起動と同時に音声認識アプリを常駐させ、「〇〇システム起動」の発声でシステムを起動させたり、「□□メニューを開いて」の発声で該当するメニューを開いたりするシステムを開発した経験があります。

比較対象となる4つのAI音声認識サービスのご紹介

Amazon Transcribe

運営企業

Amazon

特徴

Amazon Transcribeは、音声をテキストに変換するサービスです。Amazon Transcribeは、話者ダイアライゼーション(音声から「いつ、誰が発話したのか」を推定する技術)が可能で、それにより書式を整えたり、句読点を自動で追加したりする機能を備えています。また、新たな人名や製品名などの単語をサービスに学習させることで、サービスをカスタマイズすることも可能です。フィルタリング機能を利用し、不適切な単語をマスクしたり削除したりすることもできます。

Google Cloud Speech-to-Text

運営企業

Google

特徴

Google Cloud Speech-to-Textは、音声をテキストに変換するサービスで、サービスをカスタマイズして、音声認識しづらい専門的な単語や用語を、サービスに学習させることができます。音声に含まれる数字を、自動的に住所・年・通貨などに変換することもできます。また、例えば電話による通話に特化した、予め用意されている音声認識モデルを利用する、「ドメイン固有モデル」という機能があります。

Microsoft Speech Services

運営企業

Microsoft

特徴

Microsoft Speech Servicesには、いくつかのサービスが含まれています。まずは他社のクラウドサービスでは一般的な、音声から文字を起こす「Speech to Text」、さらに、文字を音声で読み上げる「Text to Speech」、音声認識と同時に翻訳する「Speech Translation」などがあります。「Speech to Text」には、利用者の音声表現に合わせて自動調整し、認識精度を高める機能や、音声に含まれるノイズに自動的に適応する機能などがあります。

Watson Speech to Text

運営企業

IBM

特徴

Watsonとは、IBM社が提供する人工知能サービスです。もともと、Watsonという名前は、2011年、アメリカで人気のテレビ番組にて人間に勝利したIBM社の人工知能コンピューターに付けられた名前です。そのため、IBM社が提供するAIサービスにはWatsonの冠名が付いており、Watsonの音声認識サービスは、「Watson Speech to Text」という名前が付いています。Watson Speech to Textには、音声の周波数が帯域制限された電話音声用のモデルがあり、さらに、独自の単語や用語を学習させるカスタマイズ機能もあります。

4つの音声認識AIサービスをどの観点で比較をするのか?

Amazon、Google、Microsoft、IBMの4社の音声認識サービスを、

  • 利用料金
  • サービスの構築のしやすさ
  • サービスの精度

の3つの観点で今回は比較します。

まず「利用料金」について、サービスの利用料金の観点から比較します。4社とも通貨単位として米ドル(USD)を基準としていますので、日本円に換算した場合、通貨レートによって料金が一定とはならないことをご了承ください。

次に「サービスの構築のしやすさ」について、サービスを利用したシステムを構築する場合の観点から比較します。これは、音声認識サービスを利用したシステムを開発するプログラマーにとっては大きな問題です。サービスを利用するための事前準備、システムへの組み込みやすさ、また、サービスを構築するためのわかりやすいドキュメントが存在するか、サンプルコードを入手できるか、などが比較の基準とします。

最後に「サービスの精度」について、音声を正確に聞き取れるかどうかの観点から比較します。誤認した単語や用語の数、また、出力されたテキストデータは読みやすいかどうかなどが比較の基準となります。

利用料金の観点での比較

AWSの音声認識の利用料金

1ヶ月単位で秒数に基づいて課金され、1秒あたり、0.0004USDです。

毎月最大60分の無料枠があり、また、サービスを開始してから最初の12か月間は無料です。ただし、音声ファイルを音声認識する場合、AWSのストレージサービスであるS3(Simple Storage Services)に音声ファイルをアップロードする必要があり、1GB(ギガバイト)単位で0.025USDの料金が発生します。

GCPの音声認識の利用料金

処理された音声の長さに基づき、1カ月ごとに15秒単位(切り上げ)で課金されます。

毎月最大60分の無料枠があり、60分を超過すると15秒あたり、0.006USDです。ただし、Googleが音声認識の機械学習の改善のために音声を利用することを許可した場合、15秒あたり、0.004USDに割引されます。

Azureの音声認識の利用料金

Microsoft Speech to Textの料金プランには、FreeプランとStandardプランが存在し、Freeプランは1カ月あたり5音声時間が無料で利用できます。

Standardプランは、音声時間あたり1.0USDです。

Watsonの音声認識の利用料金

料金プランには、ライトプランと標準料金プランの2種類があり、ライトプランは1カ月あたり500分間を無料で利用できます。標準料金プランは、認識した音声に基づき、1分あたり0.02USDです。

音声認識AIサービスの「サービスの構築のしやすさ」での比較

AWSの音声認識の環境構築のしやすさについて

Amazon Transcribeを利用するには?

Amazon Transcribeを利用するには、AWSのアカウントが必要です。AWSは、「AWS SDK for .NET」や「AWS SDK for Python」など、プログラミング言語ごとのSDK(ソフトウェア開発キット)をダウンロードすることができ、それらの使い方に関するドキュメントも豊富です。

前述のとおり、音声ファイルから音声認識する場合、Amazon S3に関する知識も必要となります。

Amazon Transcribeを試してみる

Amazon Transcribeの画面
Amazon Transcribeを試すには、AWSにログインする必要があります。まず、Amazon Transcribeに音声認識の対象となるファイルをアップロードします。

「Transcription jobs」というものを作成します。また、音声ファイルから文字起こしする場合、S3に音声ファイルをアップロードする必要があります。Amazon Transcribeは、すべて英語表記となっています。S3にアップロードされている音声ファイルを指定することで、その音声ファイルから文字起こしを行います。AWSにログインしていないとAmazon Transcribeを試用できないのは難点です。

GCPの音声認識の環境構築のしやすさについて

Google Cloud Speech-to-Textを利用するには?

Google Cloud Speech-to-Textを利用するには、Googleのアカウントが必要です。GoogleアカウントでGCPコンソールにログインし、プロジェクトを作成します。その作成したプロジェクトにて、Speech-to-Textを有効にし、認証情報となるAPIキー、もしくは認証ファイルをダウンロードします。

また、開発環境にはGoogle Cloud SDKをインストールし、開発したアプリの実行環境にはGoogle Cloud クライアント ライブラリをインストールします。サンプルコードが豊富で、それらはGitHubからダウンロードすることができます。

Google Cloud Speech-to-Textを試してみる

Google Cloud Speech-to-Textの画面
Google Cloud Speech-to-Textは、Googleアカウントを持っていなくても、以下のURLより試用することができます。

Google Cloud Speech-to-Text: 自動音声認識

音声ファイルをアップロードして音声認識することもできますし、マイクが付属されている端末ならリアルタイムの音声認識も可能です。認識可能な音声ファイルのファイル形式は多いのが特長です。ただし、上記URLで音声認識を試す場合、Googleアカウントにログインしているかどうかに関わらず、音声ファイルのアップロードは1分間まで、リアルタイムの音声認識は30秒までです。

もちろん、これは試用の制限ですので、API自体には制限はありません。

Azureの音声認識の環境構築のしやすさについて

Speech to Textを利用するには?

Azure Cognitive ServicesのSpeech to Textを利用するには、Microsoftのアカウントが必要です。その後、MicrosoftアカウントでAzureを利用するための手続きを行います。利用手続きが完了したら、Azureポータルサイトにログインできるようになります。

AzureポータルサイトよりSpeech to Textを利用可能にしたら、Speech to Textをアプリに組み込むためのキーおよびエンドポイントという文字列が必要になります。MicrosoftのWebページに多くのプログラミング言語のサンプルコードが掲載されており、さらにそれらをGitHubからダウンロードすることもできます。

Speech to Textを試してみる

Azure Cognitive ServicesのSpeech to Text
Azure Cognitive ServicesのSpeech to Textは、Microsoftアカウントを持っていなくても、以下のURLより試用することができます。

Speech to Text | Microsoft Azure

音声ファイルをアップロードして音声認識することもできますし、マイクが付属されている端末ならリアルタイムの音声認識も可能です。音声ファイルをアップロードして音声認識する場合、認識可能な音声ファイルのファイル形式は、wav形式のみです。

Watsonの音声認識の環境構築のしやすさについて

Watson Speech to Textを利用するには?

Watson Speech to Textを利用するには、IBM Cloudアカウントが必要です。IBM Cloudアカウントには、IBM Cloudライト・アカウントというのがあり、ライト・アカウントならばクレジットカードの登録は不要です。

最初はライト・アカウントを作成し、本格的にWatsonを利用するなら通常のアカウントに切り替えるのが良いでしょう。ドキュメントやサンプルコードをダウンロードできるIBMのサイトは、すべて英語で表記されています。プログラミング言語ごとのSDKやサンプルコードは、GitHubからもダウンロードすることができます。

Watson Speech to Textを試してみる

Watson Speech to Textの画像
Watson Speech to Textは、IBM Cloudアカウントを持っていなくても、以下のURLより試用することができます。

Speech to Text Demo

上記のデモサイトは、英語表記のみですが、音声認識は日本語でも可能です。音声ファイルをアップロードして音声認識することもできますし、マイクが付属されている端末ならリアルタイムの音声認識も可能です。音声ファイルをアップロードして音声認識する場合、認識可能な音声ファイルのファイル形式は多数ありますが、スマートフォンで録音したときに利用されるm4a形式には対応されていません。

音声認識の精度での比較

音声認識の精度の比較の方法

では、実際にそれぞれの音声認識サービスの精度を比較してみましょう。夏目漱石の代表作「吾輩は猫である」冒頭部分の朗読をそれぞれの音声認識サービスで文字起こししてみました。

「吾輩は猫である」の冒頭部分は、以下のとおりです。

吾輩は猫である。名前はまだない。どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番どうあくな種族であったそうだ。この書生というのは時々我々をつかまえて煮て食うという話である。しかしその当時は何というかんがえもなかったから別段恐しいとも思わなかった。ただ彼のてのひらにのせられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである。掌の上で少し落ちついて書生の顔を見たのがいわゆる人間というもののみはじめであろう。この時妙なものだと思った感じが今でも残っている。

音源は以下を参照ください。

朗読音源

AWSの音声認識の精度

Amazon Transcribeの音声認識の結果は、次のとおりです。

吾輩 は 猫 で ある 名前 は まだ ない どこ で 生まれ た か とんと 見当 が 付か ない なん でも 薄暗い じめじめ し た ところ で やはり は 泣い て い た こと だけ は 記憶 し て いる 吾輩 は ここ で 初めて 人間 という もの を 見 た しかも 後 で 聞く と 彼 は 女性 という 人間 級 で 一番 同 枠 な 種族 で あっ た そう だ この 女性 という の は 時々 我々 を 捕まえ て 入っ て くる という 話 で ある 北 へ 夫 も 当時 は なんとも 考え も なかっ た から 別段 よろしい と も 思わ なかっ た ただ 彼 の 手のひら に 乗せ られ て きゅっと 持ち上げ られ た とき なんだか ふわふわ し た 感じ が あっ た ばかり で ある 手のひら の 上 で 少し 落ち着い て 女性 の 顔 を 見 た の が いわゆる 人間 という もの の 二 章 で あろ う この 時 の よう な もの だ と 思っ た 感じ が 今 でも 残っ て いる

見当が付かない 見当がつかぬ
やはりは ニャーニャー
彼は女性 それは書生
人間級 人間中
同枠な どうあくな
女性 書生
入ってくる 煮て喰う
北へ夫も しかもその
きゅっと スーと
女性 書生
二章 みはじめ
のようなもの 妙なもの

誤認した箇所は12か所です。他社サービスと比較すると、若干ですが誤認の数が目立ちます。また、いたるところに半角スペースが代入されているのが気になります。

GCPの音声認識の精度

Google Cloud Speech-to-Textの音声認識の結果は、次のとおりです。

吾輩は猫である名前はまだないどこで生まれたかとんと見当がつかず何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している吾輩はここで初めて人間というものを見たしかも後で聞くとそれは女性という人間中で一番当惑な種族であったそうだこの女性というのは時々我々を捕まえてみてくるという話であるしかしその当時はなんとも考えもなかったから別段恐ろしいとも思わなかったただ彼の手のひらに乗せられて言うと持ち上げられた時なんだかふわふわした感じがあったばかりである手のひらの上で少し落ち着いて女性の顔を見たのがいわゆる人間というもののに初めてあろうこの時にようなものだと思った感じが今でも残っている

見当がつかず 見当がつかぬ
女性 書生
当惑な どうあくな
女性 書生
みてくる 煮て喰う
言うと スーと
女性 書生
に初めて みはじめ
ようなもの 妙なもの

誤認した箇所は9か所です。「書生」を「女性」と聞き間違えているところを除けば、人間でも間違えそうな些細な聞き間違いばかりであり、なかなかの精度と言えます。文字起こしのサポートとしては十分なレベルと言えるでしょう。

Azureの音声認識の精度

Azure Cognitive ServicesのSpeech to Textの音声認識の結果は、次のとおりです。

吾輩は猫である名前はまだない。 どこで生まれたか?とんと見当がつかぬ。 何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。 吾輩はここで初めて人間というものを見た。 しかも後で聞くと、それは書生という人間中で1番どうあくな種族であったそうだ。 この**というのは、時々我々を捕まえて似てくるという話である。 しかし、その当時は何とも考えもなかったから、別段恐ろしいとも思わなかった。 ただ、彼の手のひらに乗せられてスーと持ち上げられた時、なんだかフワフワした感じがあったばかりである。 手のひらの上で少し落ち着いて女性の顔を見たのが、いわゆる人間というもの飲み始めであろう。 この時にようなものだと思った感じが今でも残っている。

** 書生
女性 書生
飲み始め のみはじめ
ようなもの 妙なもの

誤認は4か所、他社のサービスと比較すると、誤認がいちばん少ない結果となりました。また、句読点も付いていて読みやすく、さらに疑問形の文章にはハテナマークも付いています。ただ、「書生」の単語が2ばんめに出てきたとき、なぜかアスタリスク2つに変換されてしまったのが気になります。

Watsonの音声認識の精度

Watson Speech to Textの音声認識の結果は、次のとおりです。

Speaker 0:
吾輩は猫である名前はまだない。
Speaker 0:
どこで生まれたかとんと見当がつかぬ何でも薄暗いじめじめしたところで。
Speaker 2:
ニヤニヤ泣いていた事だけは記憶している。
Speaker 0:
吾輩はここで初めて人間というものを見た。
Speaker 0:
しかも後で聞くとあれば評定という。
Speaker 2:
人間中でバンドを開くひどくであった。
Speaker 0:
この女性というのは時々我々を捕まえて。
Speaker 2:
見てくるという話である。
Speaker 0:
本では何とも考えもなかったから。
Speaker 2:
別段送り手いとも思わなかった。
Speaker 0:
ただ彼の手のひらに乗ってられていると思ってあげられたとき
Speaker 2:
なんだかふわふわした感じがあったばかりである。
Speaker 0:
手のひらの上で腰を受けていて女性の顔を見たのがいわゆる。
Speaker 2:
人間というものの見始めであろう。
Speaker 0:
このときにようなものだと思った感じが。
Speaker 2:
今でも残っている。

ニヤニヤ ニャーニャー
評定 書生
バンドを開く 一番どうあく
ひどく 種族
女性 書生
見てくる 煮て喰う
本では しかしその当時は
送り手い 恐ろしい
乗ってられて のせられて
いると思ってあげられたとき スーと持ち上げられた時
腰を受けて 少し落ちついて
女性 書生
ようなもの 妙なもの

誤認は13か所で、もとの文章の意味さえ推測できないようなミスが目立ちます。また、自動で句点が入力されていますが、文章の途中に入力されているケースも散見されます。

4つのAI音声認識サービスのどの音声認識が一番良いのか?

現時点では、GoogleのGCPとMicrosoftのAzureの2つが優れている印象を受けました。この2つのサービスに関しては、文字起こしの際には非常に有用なレベルに達していると言えるでしょう。ただ、文字起こしを完全に代替できるレベルにはまだ到達しておらず、あくまでサポート的な役割になるでしょう。

さて、もしこれから改めて音声認識サービスを利用したシステムを構築するのであれば、著者はGoogle Cloud Speech-to-Textをお勧めします。その理由としては、日本語のドキュメントとサンプルコードの豊富さ、またインターネット上から個人のブログや技術サイトなどからの情報の入手のしやすさを重視しました。

Azureの音声認識の精度も非常に良かったのですが、Freeプランには時間の制限があること、StandardプランはGCPよりも高額であることを考慮した場合、コストパフォーマンスの面においてはGCPの方に軍配が上がるかと思います。また、サービスを構築するために参考となるドキュメントが少なかったり、またそれらが日本語表記ではなかったりすると、いざ、サービスを利用してシステムを構築する際、どうしても難易度が高くなってしまいます。「日本語に対してどこまで力を入れているか」といった点も評価基準として重視しました。

ちなみに、前述のとおり、Googleが開発したChromeブラウザを利用すれば、GoogleドキュメントとGoogleスライドで音声入力を利用することも可能です。

音声認識Voice typingのやり方

その場合、時間制限もなく、無料です。例えばGoogleドキュメントで音声認識を行う場合は、Googleドキュメントを開き、「Tools」メニューから「Voice typing」を選択します。マイクのアイコンが表示されますので、マイクのアイコンの上部にある言語選択ボックスより「日本語」を選択し、マイクのアイコンをクリックすることで、音声認識が開始されます。

Androidスマートフォンに搭載されているGoogleアシスタントから入手した音声データ等、Googleには他社よりも膨大なビッグデータが存在することは予想されますので、Google Cloud Speech-to-Textは、今後もより一層のサービス向上の余地が見込まれるのではないでしょうか?



弊社トップゲートでは、 Google Cloud 、または Google Workspace(旧G Suite) 導入をご検討をされているお客様へ「Google Meet で無料個別相談会」を実施いたします。導入前に懸念点を解決したい方、そもそも導入した方がいいのかをお聞きしたい方はお気軽にお申し込みください!

お申込みはこちら



また、弊社トップゲートでは、Google 技術を利用したアプリケーション開発に関するコンサルティングサービスを行っております。まだ形になっていないアイディアも実現できるような形へ具現化するお手伝いもしておりますので、お気軽にお問い合わせください。ぜひ詳細はリンク先にて!
コンサルティングの詳細はこちら

機械学習・AIサービスにご興味がある方におすすめの記事をご紹介!

最後までご覧いただきありがとうございます。トップゲート編集部がこの記事を読んだ方におすすめしたい機械学習・AIサービスの記事を厳選します。

ご興味ある記事をぜひご覧ください!

【活用事例紹介付き】Google CloudのAI/機械学習サービスを一挙紹介!

ビジネスが加速する!Cloud AI の紹介と機械学習の最新情報を事例を元に活用方法を解説!

3大クラウドAWS、Azure、GCPの機能を比較したら見えてきたサービスごとの違いと特徴とは?

超高速でデータ分析できる!専門知識なしで扱えるGoogle BigQueryがとにかくスゴイ!

BigQueryで考慮すべきセキュリティとその対策を一挙ご紹介!

【トップゲート主催】ゲーム業界様向けGCP活用のポイント 〜BigQuery編〜

弊社トップゲートでは、TOPGATE Broadcaster と称してウェビナーを定期開催しております。

  • クラウドに関すること
  • Google Cloudの最新情報やお役立ち情報
  • テレワークに関すること

など、 仕事で差がつく情報を忙しいビジネスパーソンのために短時間でコンパクトにお届けしております。

参加者さまからの「わかりやすかった」「勉強になった」など好評いただいております。取っ付きにくい内容も講師がわかりやすく解説しておりますので、お気軽にご参加ください。

TOPGATE Broadcasterの情報はこちら



メール登録者数3万件!大人気TOPGATE MAGAZINEにご登録いただけますと、TOPGATE Broadcaster の情報があなたのメールボックスに届きます。
他にも、Google Cloud、Google Workspace(旧G Suite) 、TOPGATEの最新情報満載!

メルマガ登録はこちら

記事を探す

GCP のメリットを最大限に活用しよう!

Google Cloud・Google Workspace のご相談・
お見積り依頼はお気軽に
お問合せフォーム