Google Cloud Next Tokyo ’23 の基調講演をオンデマンドで公開しています。ぜひご登録のうえご視聴ください。今すぐ登録
移動
Speech-to-Text

Speech-to-Text

Google による AI の研究とテクノロジーを最大限に活用した API を利用すると、音声を正確にテキストに変換できます。

新規のお客様には、Speech-to-Text で使用できる無料クレジット $300 分を差し上げます。すべてのお客様は音声の文字変換と分析を 1 か月あたり 60 分まで無料で利用できます。クレジットに対する課金はありません。

  • コンテンツを正確な字幕へ音声文字変換

  • 音声の機能を活用することでより良いユーザー エクスペリエンスを実現

  • 顧客とのインタラクションから得られる分析情報を使用してサービスを向上

利点

最先端の精度

Google 最新のディープ ラーニング ニューラル ネットワーク アルゴリズムを利用して、自動音声認識(ASR)を実現します。

モデルのカスタマイズが簡単

Speech-to-Text UI でカスタム リソースのテスト、作成、管理を行います。

柔軟なモデルのデプロイ

クラウドなら API、オンプレミスなら Speech-to-Text On-Prem を使用して、どこにでも必要な場所に ASR をデプロイできます。

デモ

Speech-to-Text を実際に使ってみる

このデモのように、Speech-to-Text API を使用して音声文字変換をアプリケーションに簡単に統合できます。

主な機能

主な機能

音声適応

ヒントを提供することで、あまり使われない分野特有の単語やフレーズに対する音声文字変換の精度を高めることができます。クラスを使用して音声の数字を住所、年、通貨などに自動的に変換できます。

分野固有モデル

音声操作や通話と動画の音声文字変換のために、特定分野の品質要件に合わせて最適化された各種トレーニング済みモデルが用意されており、その中から選択できます。

品質を容易に比較

使いやすいユーザー インターフェースを使用して音声をテストします。さまざまな構成を試して品質と精度を最適化できます。

オンデバイス音声

インターネット接続に関係なく、Google Cloud の音声アルゴリズムを任意のデバイスでローカルに実行します。音声データがデバイスの外部に送信されることはありません。

Speech-to-Text の基盤モデル

数百万時間におよぶ音声データと数十億の文でトレーニングされた Google Cloud の音声の基盤モデルである Chirp を利用した音声モデルで、世界中のユーザーの音声に対応するアプリケーションを構築できます。

すべての機能を表示

ドキュメント

チュートリアルおよびスタートガイド リソース

チュートリアル

Speech-to-Text コンソール内チュートリアル

Speech-to-Text をすでにお使いのアプリに追加する方法をご確認ください。コンソール内チュートリアルですぐに開始
Google Cloud の基礎

Speech-to-Text の基本

Speech-to-Text の基本的なコンセプトについて学びます。
クイックスタート

クイックスタート: Speech-to-Text UI の使用

プロジェクトと承認を設定し、音声文字変換を作成、改良して、その構成をコンソールで使用する方法について学習します。
クイックスタート

クイックスタート: gcloud ツールの使用

コマンドラインから gcloud ツールを使用して、Speech-to-Text に音声文字変換リクエストを送信します。
ベスト プラクティス

ベスト プラクティス

Speech-to-Text を使用して音声文字変換をする際のベスト プラクティスを確認します。
チュートリアル

ML ON-RAMP

Speech-to-Text のチュートリアルや Codelab などを確認します。
Google Cloud の基礎

サポートされる言語

Speech-to-Text で利用できる言語に加えて、各言語で使用可能な機能と認識モデルについて学習します。
Google Cloud の基礎

Speech-to-Text On-Prem

Google の音声認識技術をオンプレミス ソリューションに簡単に統合できる Speech-to-Text On-Prem について学習します。

お探しのものが見つからない場合

ユースケース

ユースケース

使用例
カスタマー サービスの改善

IVR(インタラクティブ音声レスポンス)とエージェントの会話をコールセンターに追加することにより、カスタマー サービス システムを強化します。会話データを分析し、通話と顧客についてより多くの分析情報を得ます。Speech-to-Text と拡張通話モデルは、Google Cloud の強力なソリューションである Contact Center AI に搭載されています。

ワークフロー: Google Cloud プロダクトを使用した Contact Center 音声データの流れ: Cloud Storage から(1)Speech-to-Text API に送信して音声を文字に変換し、Natural Language API に送信してから、(2)Cloud Data Loss Prevention で解析し、(3)BigQuery で個人情報の秘匿化を行います。その後、BigQuery に(4)保存して、(5)Visualize Call Data でクエリ実行と可視化を行うまでのデータの流れは双方向になります。
使用例
音声操作を有効にする

「音量を上げて」などの音声コマンドや「パリの気温は?」などの音声検索を実装します。これに Text-to-Speech API を組み合わせて、IoT(モノのインターネット)アプリケーションで音声対応のエクスペリエンスを提供します。

Speech-to-Text API を使用した音声操作のワークフローフローの起点は(1)ユーザー デバイスへのユーザーの音声コマンドで、ユーザー デバイスは(0)デバイス固有の安全な ID を使用して Cloud IoT Core と双方向に通信し、さらに Cloud Functions とも双方向に通信して、(2)Speech-to-Text API で音声を文字に変換した後、(3)AutoML Natural Language でインテントとエンティティを抽出し、Cloud Functions およびユーザー デバイスに戻します。
使用例
マルチメディア コンテンツの音声文字変換

音声や動画の音声文字変換を行い、字幕を入れ、視聴者層を拡大しエクスペリエンスを向上させます。リアルタイムで字幕をストリーミング コンテンツに追加します。動画の音声文字変換モデルは動画や複数話者のコンテンツのインデックス作成または字幕作成に適しており、YouTube の動画字幕作成機能に似た ML 技術を使用します。

マルチメディア コンテンツの音声文字変換のワークフロー: 入力音声ストリームは(1)リアルタイムの字幕に変換するために Google Kubernetes Engine から Speech-to-Text API に送信され、(2)音声文字変換の評価のために Deep Learning VM を経て Firestore に送信されて、コンテンツ管理部門に利用されるか、(3)放送字幕用デバイスに保存されて利用されます。

すべての機能

すべての機能

グローバルな語彙
Speech-to-Text は 125 以上の言語や言語変種におよぶ広範な言語に対応しており、世界中のユーザーベースをサポートします。
ストリーミング音声認識
アプリケーションのマイクからストリーミングした音声入力や、事前に録音した音声ファイル(インラインや Cloud Storage)から取得した音声入力を API が処理し、音声認識の結果をリアルタイムに受け取ることができます。
音声適応
ヒントを提供することで、分野特有の用語やあまり使われない単語を音声文字変換するように音声認識をカスタマイズし、特定の単語やフレーズの音声文字変換の精度を向上させることができます。クラスを使用して音声の数字を住所、年、通貨などに自動的に変換します。
Speech-to-Text On-Prem
オンプレミスの独自のプライベート データセンターで Google の音声認識技術を利用することで、インフラストラクチャと保護された音声データに対する完全な制御を維持できます。使用を開始する方法については、営業担当者までお問い合わせください。
マルチチャネル認識
Speech-to-Text はマルチチャネルの状況(ビデオ会議など)で個別のチャネルを認識し、文字起こしにアノテーションを付けて順序を維持できます。
ノイズ耐性
Speech-to-Text は雑音の多い音声も正常に処理できます。別途ノイズ キャンセルを行う必要はありません。
分野固有モデル
音声操作や通話と動画の音声文字変換のために、特定分野の品質要件に合わせて最適化された各種トレーニング済みモデルが用意されており、その中から選択できます。たとえば、拡張通話モデルは 8 kHz のサンプリング レートで録音された通話など、電話通信から発信された音声向けに調整されています。
コンテンツ フィルタリング
冒とくフィルタは音声データ内の不適切なコンテンツや職業倫理に反するコンテンツを検出し、テキスト結果の冒とく的な語句をフィルタで除外することができます。
音声文字変換の評価
自分の音声データをアップロードし、ノーコードで音声文字変換します。構成の調整を繰り返し、品質を評価します。
句読点入力の自動化(ベータ版)
Speech-to-Text は音声文字変換テキストに正確に句読点(カンマ、疑問符、ピリオドなど)を付けることができます。
話者ダイアライゼーション(ベータ版)
会話におけるそれぞれの発話がどちらの話者によるものなのかを、自動予測できます。

料金

料金

Speech-to-Text は、サービスによって正常に処理された音声の量が 1 秒単位で測定され、月単位で料金が設定されます。

次のステップ

$300 分の無料クレジットと 20 以上の Always Free プロダクトを活用して、Google Cloud で構築を開始しましょう。

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
コンソール
  • Google の透明性の高い料金設定の手法で費用を削減
  • Google Cloud の従量課金制では、毎月の使用量と、リソース料金の前払い割引に基づいて自動的に割引が適用されます。見積もりをご希望の場合は、今すぐお問い合わせください。
Google Cloud