Speech-to-Text: 自動音声認識

Google Cloud Next Tokyo ’23 の基調講演をオンデマンドで公開しています。ぜひご登録のうえご視聴ください。今すぐ登録

移動

Speech-to-Text

Google による AI の研究とテクノロジーを最大限に活用した API を利用すると、音声を正確にテキストに変換できます。

新規のお客様には、Speech-to-Text で使用できる無料クレジット $300 分を差し上げます。すべてのお客様は音声の文字変換と分析を 1 か月あたり 60 分まで無料で利用できます。クレジットに対する課金はありません。

無料トライアルお問い合わせ

コンテンツを正確な字幕へ音声文字変換
音声の機能を活用することでより良いユーザーエクスペリエンスを実現
顧客とのインタラクションから得られる分析情報を使用してサービスを向上
コンソール内チュートリアルですぐに開始

Google は 2022 年 Gartner® Magic Quadrant™ レポートで Cloud AI Developer Services のリーダーに選出されました。

登録してレポートをダウンロード

利点

最先端の精度

Google 最新のディープラーニングニューラルネットワークアルゴリズムを利用して、自動音声認識（ASR）を実現します。

モデルのカスタマイズが簡単

Speech-to-Text UI でカスタムリソースのテスト、作成、管理を行います。

柔軟なモデルのデプロイ

クラウドなら API、オンプレミスなら Speech-to-Text On-Prem を使用して、どこにでも必要な場所に ASR をデプロイできます。

デモ

Speech-to-Text を実際に使ってみる

このデモのように、Speech-to-Text API を使用して音声文字変換をアプリケーションに簡単に統合できます。

主な機能

音声適応

ヒントを提供することで、あまり使われない分野特有の単語やフレーズに対する音声文字変換の精度を高めることができます。クラスを使用して音声の数字を住所、年、通貨などに自動的に変換できます。

分野固有モデル

音声操作や通話と動画の音声文字変換のために、特定分野の品質要件に合わせて最適化された各種トレーニング済みモデルが用意されており、その中から選択できます。

品質を容易に比較

使いやすいユーザーインターフェースを使用して音声をテストします。さまざまな構成を試して品質と精度を最適化できます。

オンデバイス音声

インターネット接続に関係なく、Google Cloud の音声アルゴリズムを任意のデバイスでローカルに実行します。音声データがデバイスの外部に送信されることはありません。

Speech-to-Text の基盤モデル

数百万時間におよぶ音声データと数十億の文でトレーニングされた Google Cloud の音声の基盤モデルである Chirp を利用した音声モデルで、世界中のユーザーの音声に対応するアプリケーションを構築できます。

すべての機能を表示

ブログ

Google Cloud の STT API の新しいユーザーインターフェースが利用可能に

導入事例

Speech-to-Text を使用してオーディオソリューションと音声ソリューションを構築しているお客様

ケーススタディ

HSBC は Speech-to-Text を使用して ML モデルをトレーニングし、顧客の感情を分類、抽出、検出しています。

所要時間: 5 分

ケーススタディ

Josh Talks: Firebase で欠陥のないオンライン学習体験を実現

所要時間: 5 分

ケーススタディ

MRV - Speech-to-Text を使用してオーディエンスのアクセシビリティを拡大

所要時間: 5 分

ケーススタディ

Isentia は Speech-to-Text を使用して、評価を管理するために利用できるメディアインテリジェンス製品を提供しています。

所要時間: 5 分

ケーススタディ

Castbox は、Speech-to-Text を利用して、ポッドキャスト用の音声入力検索サービスを提供しています。

所要時間: 5 分

ケーススタディ

Voximplant は、企業による音声ソリューションの構築を支援して、処理できる通話件数を増やしています。

所要時間: 5 分

すべてのお客様を表示

チュートリアルおよびスタートガイドリソース

チュートリアル

Speech-to-Text コンソール内チュートリアル

Speech-to-Text をすでにお使いのアプリに追加する方法をご確認ください。コンソール内チュートリアルですぐに開始

詳細

Google Cloud の基礎

Speech-to-Text の基本

Speech-to-Text の基本的なコンセプトについて学びます。

詳細

クイックスタート

クイックスタート: Speech-to-Text UI の使用

プロジェクトと承認を設定し、音声文字変換を作成、改良して、その構成をコンソールで使用する方法について学習します。

詳細

クイックスタート

クイックスタート: gcloud ツールの使用

コマンドラインから gcloud ツールを使用して、Speech-to-Text に音声文字変換リクエストを送信します。

詳細

ベストプラクティス

Speech-to-Text を使用して音声文字変換をする際のベストプラクティスを確認します。

詳細

チュートリアル

ML ON-RAMP

Speech-to-Text のチュートリアルや Codelab などを確認します。

詳細

Google Cloud の基礎

サポートされる言語

Speech-to-Text で利用できる言語に加えて、各言語で使用可能な機能と認識モデルについて学習します。

詳細

Google Cloud の基礎

Speech-to-Text On-Prem

Google の音声認識技術をオンプレミスソリューションに簡単に統合できる Speech-to-Text On-Prem について学習します。

詳細

お探しのものが見つからない場合

すべてのプロダクトドキュメントを見る

リリースノート

Speech-to-Text の最新リリースノートを読む

ユースケース

使用例

カスタマーサービスの改善

IVR（インタラクティブ音声レスポンス）とエージェントの会話をコールセンターに追加することにより、カスタマーサービスシステムを強化します。会話データを分析し、通話と顧客についてより多くの分析情報を得ます。Speech-to-Text と拡張通話モデルは、Google Cloud の強力なソリューションである Contact Center AI に搭載されています。

ワークフロー: Google Cloud プロダクトを使用した Contact Center 音声データの流れ: Cloud Storage から（1）Speech-to-Text API に送信して音声を文字に変換し、Natural Language API に送信してから、（2）Cloud Data Loss Prevention で解析し、（3）BigQuery で個人情報の秘匿化を行います。その後、BigQuery に（4）保存して、（5）Visualize Call Data でクエリ実行と可視化を行うまでのデータの流れは双方向になります。

使用例

音声操作を有効にする

「音量を上げて」などの音声コマンドや「パリの気温は？」などの音声検索を実装します。これに Text-to-Speech API を組み合わせて、IoT（モノのインターネット）アプリケーションで音声対応のエクスペリエンスを提供します。

Speech-to-Text API を使用した音声操作のワークフローフローの起点は（1）ユーザーデバイスへのユーザーの音声コマンドで、ユーザーデバイスは（0）デバイス固有の安全な ID を使用して Cloud IoT Core と双方向に通信し、さらに Cloud Functions とも双方向に通信して、（2）Speech-to-Text API で音声を文字に変換した後、（3）AutoML Natural Language でインテントとエンティティを抽出し、Cloud Functions およびユーザーデバイスに戻します。

使用例

マルチメディアコンテンツの音声文字変換

音声や動画の音声文字変換を行い、字幕を入れ、視聴者層を拡大しエクスペリエンスを向上させます。リアルタイムで字幕をストリーミングコンテンツに追加します。動画の音声文字変換モデルは動画や複数話者のコンテンツのインデックス作成または字幕作成に適しており、YouTube の動画字幕作成機能に似た ML 技術を使用します。

すべての技術ガイドを見る

すべての機能

グローバルな語彙	Speech-to-Text は 125 以上の言語や言語変種におよぶ広範な言語に対応しており、世界中のユーザーベースをサポートします。
ストリーミング音声認識	アプリケーションのマイクからストリーミングした音声入力や、事前に録音した音声ファイル（インラインや Cloud Storage）から取得した音声入力を API が処理し、音声認識の結果をリアルタイムに受け取ることができます。
音声適応	ヒントを提供することで、分野特有の用語やあまり使われない単語を音声文字変換するように音声認識をカスタマイズし、特定の単語やフレーズの音声文字変換の精度を向上させることができます。クラスを使用して音声の数字を住所、年、通貨などに自動的に変換します。
Speech-to-Text On-Prem	オンプレミスの独自のプライベートデータセンターで Google の音声認識技術を利用することで、インフラストラクチャと保護された音声データに対する完全な制御を維持できます。使用を開始する方法については、営業担当者までお問い合わせください。
マルチチャネル認識	Speech-to-Text はマルチチャネルの状況（ビデオ会議など）で個別のチャネルを認識し、文字起こしにアノテーションを付けて順序を維持できます。
ノイズ耐性	Speech-to-Text は雑音の多い音声も正常に処理できます。別途ノイズキャンセルを行う必要はありません。
分野固有モデル	音声操作や通話と動画の音声文字変換のために、特定分野の品質要件に合わせて最適化された各種トレーニング済みモデルが用意されており、その中から選択できます。たとえば、拡張通話モデルは 8 kHz のサンプリングレートで録音された通話など、電話通信から発信された音声向けに調整されています。
コンテンツフィルタリング	冒とくフィルタは音声データ内の不適切なコンテンツや職業倫理に反するコンテンツを検出し、テキスト結果の冒とく的な語句をフィルタで除外することができます。
音声文字変換の評価	自分の音声データをアップロードし、ノーコードで音声文字変換します。構成の調整を繰り返し、品質を評価します。
句読点入力の自動化（ベータ版）	Speech-to-Text は音声文字変換テキストに正確に句読点（カンマ、疑問符、ピリオドなど）を付けることができます。
話者ダイアライゼーション（ベータ版）	会話におけるそれぞれの発話がどちらの話者によるものなのかを、自動予測できます。

料金

Speech-to-Text は、サービスによって正常に処理された音声の量が 1 秒単位で測定され、月単位で料金が設定されます。

料金の詳細を表示

次のステップ

$300 分の無料クレジットと 20 以上の Always Free プロダクトを活用して、Google Cloud で構築を開始しましょう。

無料トライアル

開始にあたりサポートが必要な場合
お問い合わせ
信頼できるパートナーと連携する
パートナーを探す
もっと見る
すべてのプロダクトを見る