Google Text-to-Speech

4个月前編集 0 0

Googleが提供する無料の音声合成サービスで、自然な発音で複数言語に対応。多くのアプリやWebサイトで利用されています。

保存日時:
2024-11-09
Google Text-to-SpeechGoogle Text-to-Speech
Google Text-to-Speech

Google Text-to-Speech (Google Cloud Text-to-Speech) とは? 料金、使い方、無料利用、API、日本語、Wavenet、Studio、声の種類、活用事例を解説


1. Google Text-to-Speechとは?

Google Text-to-Speech (Google Cloud Text-to-Speech) は、Google Cloudが提供する、テキストを自然な音声に変換するクラウドベースのAPIサービスです。AI (人工知能) 技術を活用し、高品質な音声合成を実現しています。様々な言語に対応しており、日本語も非常に自然な発音で読み上げます。YouTube動画のナレーション、オーディオブック、音声アシスタント、自動応答システム、eラーニング教材など、幅広い用途で利用されています。


【目次】


2. Google Text-to-Speechの料金

Google Cloud Text-to-Speechは、従量課金制です (2024年5月現在)。

  • 料金体系:
    • 音声に変換するテキストの文字数に基づいて課金される。
    • Standard (標準) 音声と、WaveNet音声 (より高品質) で料金が異なる。
    • 毎月、一定の文字数まで無料で利用できる枠がある。
  • Standard (標準) 音声:

    • 100万文字あたり430円程度。
    • 毎月400万文字まで無料。
  • WaveNet音声:
    • 100万文字あたり1,700円程度。
    • 毎月100万文字まで無料。
  • Neural2音声:

    • 100万文字あたり1,700円程度。
    • 無料枠なし。

料金の詳細は、Google Cloud Text-to-Speechの料金ページで確認してください。料金は変更される場合があります。

料金の計算例:

  • 日本語のWaveNet音声で、1か月に200万文字を音声に変換した場合:

    • 無料枠: 100万文字。
    • 課金対象: 100万文字。
    • 料金: 約1,700円。

3. Google Text-to-Speechの使い方

  1. Google Cloud Platform (GCP) のアカウントを作成 (無料)。
    • Google Cloud Platformのウェブサイトにアクセス。
    • [無料で開始] (または [Get Started for Free]) ボタンをクリック。
    • 画面の指示に従って、アカウントを作成。
    • クレジットカードの登録が必要 (無料枠を超えなければ課金されない)。
  2. GCPのプロジェクトを作成。
    • GCPのコンソール (管理画面) にログイン。
    • [プロジェクトを選択] (または [Select a project]) をクリック。
    • [新しいプロジェクト] (または [New Project]) をクリック。
    • プロジェクト名を入力し、[作成] (または [Create]) をクリック。
  3. Text-to-Speech APIを有効にする。
    • GCPコンソールで、作成したプロジェクトを選択。
    • [APIとサービス] (または [APIs & Services]) をクリック。
    • [APIとサービスを有効化] (または [Enable APIs and Services]) をクリック。
    • 検索バーに “Text-to-Speech” と入力。
    • [Cloud Text-to-Speech API] を選択し、[有効にする] (または [Enable]) をクリック。
  4. 認証情報を設定。

  5. Text-to-Speech APIを使用:
    • APIリクエストを送信して、テキストを音声に変換。
    • 様々なプログラミング言語 (Python, Node.js, Java, Go, Ruby, C#, PHPなど) で利用可能。
    • サンプルコードは、Google Cloud Text-to-Speechのドキュメントを参照。

簡単な利用方法 (クイックスタート):

  • GCPコンソールで、Cloud Shellを起動。
  • 以下のコマンドを実行 (Pythonの例)。

    
    pip install --upgrade google-cloud-texttospeech
    
    export GOOGLE_APPLICATION_CREDENTIALS="/path/to/your/credentials.json"
    
    python -c "
    from google.cloud import texttospeech
    
    client = texttospeech.TextToSpeechClient()
    
    synthesis_input = texttospeech.SynthesisInput(text='こんにちは、世界')
    
    voice = texttospeech.VoiceSelectionParams(
        language_code='ja-JP',
        name='ja-JP-Wavenet-D'
    )
    
    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.MP3
    )
    
    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )
    
    with open('output.mp3', 'wb') as out:
        out.write(response.audio_content)
        print('Audio content written to file output.mp3')
    "
            
  • “こんにちは、世界” という音声が、output.mp3 ファイルに保存される。

4. 無料利用について

  • Google Cloud Text-to-Speechには、無料枠があります。
  • 無料枠の内容:
    • Standard (標準) 音声: 毎月400万文字まで無料。
    • WaveNet音声: 毎月100万文字まで無料。
  • 無料枠は、Google Cloud Platform (GCP) の新規ユーザーだけでなく、既存ユーザーにも適用されます。
  • 無料枠を超えると、従量課金制で料金が発生します。
  • 無料枠の利用状況は、GCPコンソールで確認できます。
  • 無料トライアル (90日間有効な$300分の無料クレジット) も利用できます。

    • 無料トライアルは、GCPの新規ユーザーのみ。

5. APIについて

Google Cloud Text-to-Speechは、REST APIおよびgRPC APIとして提供されています。

  • REST API:
    • HTTPリクエストを使って、テキストを音声に変換。
    • JSON形式でリクエストを送信し、レスポンスを受け取る。
  • gRPC API:

    • Protocol Buffersを使って、テキストを音声に変換。
    • REST APIよりも高性能で、低レイテンシ。
  • クライアントライブラリ:

    • 様々なプログラミング言語 (Python, Node.js, Java, Go, Ruby, C#, PHPなど) で利用可能。
    • APIの使用を簡素化できる。
  • APIリファレンス:
  • 主なAPIメソッド:
    • synthesize:
      • テキストを音声に変換する。
    • listVoices:
      • 利用可能な音声のリストを取得する。

6. 日本語対応について

  • Google Cloud Text-to-Speechは、日本語に完全対応しています。
  • 日本語の声の種類:
    • Standard (標準) 音声: 複数。
    • WaveNet音声: 複数 (例: ja-JP-Wavenet-A, ja-JP-Wavenet-B, ja-JP-Wavenet-C, ja-JP-Wavenet-D)。
    • Neural2音声:複数。
    • 性別 (男性、女性)、話し方 (標準、ニュース、会話など) を選択できる。
  • 日本語の発音は非常に自然で、高品質。
  • SSML (Speech Synthesis Markup Language) を使うと、発音、イントネーション、速度などを細かく制御できる。
  • 日本語特有の表現 (長音、促音、アクセントなど) も、適切に処理される。

7. WaveNetについて

  • WaveNetは、Google DeepMindが開発した、深層学習 (ディープラーニング) ベースの音声合成技術。
  • 特徴:
    • 従来の音声合成技術 (接続型、パラメータ型など) よりも、はるかに自然で高品質な音声を生成できる。
    • 人間の声の波形を直接モデル化するため、滑らかで自然な発音、イントネーション、感情表現が可能。
    • 様々な言語、声質に対応できる。
  • Google Cloud Text-to-Speechでは、WaveNet音声を利用できる (Standard音声よりも料金は高い)。
  • WaveNet音声は、特に自然な会話や、感情を込めた読み上げが必要な場合に適している。

8. Text-to-Speech Studioとは

  • Text-to-Speech Studio は、Google Cloud コンソール内で利用できる、Text-to-Speech の機能を試したり、カスタマイズしたりするためのツールです。
  • Text-to-Speech Studio を使用すると、コードを記述することなく、さまざまな音声、言語、SSML タグなどを試すことができます。
  • Text-to-Speech Studioでできること。

    • 音声の選択 (言語、性別、話者など)。
    • テキストの入力。
    • SSML タグの追加 (発音、イントネーション、速度などの調整)。
    • 音声の再生、ダウンロード。
    • カスタム音声の作成 (一部の言語でのみ利用可能)。
  • Text-to-Speech Studioは、Text-to-Speech APIの機能を試したり、最適な音声設定を見つけたりするのに役立ちます。
  • Text-to-Speech Studioの利用は無料です (ただし、Text-to-Speech APIの利用料金は別途発生します)。
  • Text-to-Speech Studio利用方法。

    • Google Cloud コンソールで、Text-to-Speech APIを有効にしたプロジェクトを選択。
    • 左側のメニューで [Text-to-Speech] をクリック。
    • [Text-to-Speech Studio] タブをクリック。

9. 声の種類

Google Cloud Text-to-Speechでは、様々な声の種類 (ボイス) を選択できます。

  • 声の種類の分類:
    • Standard (標準) 音声: 従来の音声合成技術に基づく音声。
    • WaveNet音声: DeepMindのWaveNet技術に基づく、より自然で高品質な音声。
    • Neural2音声: 最新の音声合成技術。
    • Studio音声: ポッドキャストやニュースリーダーなど特定の用途向け。
  • 言語、性別、話者:

    • 各言語 (日本語、英語、中国語、スペイン語など) ごとに、複数の声が用意されている。
    • 男性、女性の声を選択できる。
    • 同じ言語でも、異なる話者 (例: ja-JP-Wavenet-A, ja-JP-Wavenet-B) を選択できる。
  • 利用可能な声のリスト:

  • 声の選択方法:
    • APIリクエストで、音声名 (例: ja-JP-Wavenet-D) を指定する。
    • Text-to-Speech Studioで、声を選択する。
  • カスタム音声:

    • 独自の音声データを使って、カスタム音声モデルを作成できる (一部の言語でのみ利用可能)。

10. 活用事例

Google Cloud Text-to-Speechは、様々な分野で活用されています。

  • 動画コンテンツ:

    • YouTube動画のナレーション。
    • eラーニング教材の音声。
    • アニメーション、ゲームのキャラクター音声。
    • オーディオブックの制作。
  • 音声アシスタント、自動応答システム:
    • スマートスピーカー、スマートフォンの音声アシスタント。
    • 電話の自動応答システム (IVR)。
    • チャットボットの音声応答。
  • アクセシビリティ:

    • ウェブサイト、アプリの読み上げ機能。
    • 視覚障碍者向けの音声案内。
  • その他:
    • 店舗、施設の館内放送。
    • プレゼンテーションの音声化。
    • 外国語学習教材。
    • ニュース記事の読み上げ。

11. まとめ

Google Cloud Text-to-Speechは、高品質な音声合成を、手軽に利用できるクラウドサービスです。様々な言語に対応しており、日本語も非常に自然な発音で読み上げます。無料枠もあるため、気軽に試すことができます。

AI音声や動画制作に関する情報をもっと知りたい方は、www.sucoi.jpもおすすめです。動画制作やAI音声に役立つツールや情報が豊富に紹介されています。ぜひチェックしてみてください!

関連ナビゲーション