
Google Text-to-Speech (Google Cloud Text-to-Speech) とは? 料金、使い方、無料利用、API、日本語、Wavenet、Studio、声の種類、活用事例を解説
1. Google Text-to-Speechとは?
Google Text-to-Speech (Google Cloud Text-to-Speech) は、Google Cloudが提供する、テキストを自然な音声に変換するクラウドベースのAPIサービスです。AI (人工知能) 技術を活用し、高品質な音声合成を実現しています。様々な言語に対応しており、日本語も非常に自然な発音で読み上げます。YouTube動画のナレーション、オーディオブック、音声アシスタント、自動応答システム、eラーニング教材など、幅広い用途で利用されています。
【目次】
- Google Text-to-Speechとは?
- Google Text-to-Speechの料金
- Google Text-to-Speechの使い方
- 無料利用について
- APIについて
- 日本語対応について
- WaveNetについて
- Text-to-Speech Studioとは
- 声の種類
- 活用事例
- まとめ
2. Google Text-to-Speechの料金
Google Cloud Text-to-Speechは、従量課金制です (2024年5月現在)。
- 料金体系:
- 音声に変換するテキストの文字数に基づいて課金される。
- Standard (標準) 音声と、WaveNet音声 (より高品質) で料金が異なる。
- 毎月、一定の文字数まで無料で利用できる枠がある。
-
Standard (標準) 音声:
- 100万文字あたり430円程度。
- 毎月400万文字まで無料。
- WaveNet音声:
- 100万文字あたり1,700円程度。
- 毎月100万文字まで無料。
-
Neural2音声:
- 100万文字あたり1,700円程度。
- 無料枠なし。
料金の詳細は、Google Cloud Text-to-Speechの料金ページで確認してください。料金は変更される場合があります。
料金の計算例:
-
日本語のWaveNet音声で、1か月に200万文字を音声に変換した場合:
- 無料枠: 100万文字。
- 課金対象: 100万文字。
- 料金: 約1,700円。
3. Google Text-to-Speechの使い方
- Google Cloud Platform (GCP) のアカウントを作成 (無料)。
- Google Cloud Platformのウェブサイトにアクセス。
- [無料で開始] (または [Get Started for Free]) ボタンをクリック。
- 画面の指示に従って、アカウントを作成。
- クレジットカードの登録が必要 (無料枠を超えなければ課金されない)。
- GCPのプロジェクトを作成。
- GCPのコンソール (管理画面) にログイン。
- [プロジェクトを選択] (または [Select a project]) をクリック。
- [新しいプロジェクト] (または [New Project]) をクリック。
- プロジェクト名を入力し、[作成] (または [Create]) をクリック。
- Text-to-Speech APIを有効にする。
- GCPコンソールで、作成したプロジェクトを選択。
- [APIとサービス] (または [APIs & Services]) をクリック。
- [APIとサービスを有効化] (または [Enable APIs and Services]) をクリック。
- 検索バーに “Text-to-Speech” と入力。
- [Cloud Text-to-Speech API] を選択し、[有効にする] (または [Enable]) をクリック。
-
認証情報を設定。
- APIキーまたはサービスアカウントキーを作成。
- 詳細は、Google Cloud Text-to-Speechのドキュメントを参照。
- Text-to-Speech APIを使用:
- APIリクエストを送信して、テキストを音声に変換。
- 様々なプログラミング言語 (Python, Node.js, Java, Go, Ruby, C#, PHPなど) で利用可能。
- サンプルコードは、Google Cloud Text-to-Speechのドキュメントを参照。
簡単な利用方法 (クイックスタート):
- GCPコンソールで、Cloud Shellを起動。
-
以下のコマンドを実行 (Pythonの例)。
pip install --upgrade google-cloud-texttospeech export GOOGLE_APPLICATION_CREDENTIALS="/path/to/your/credentials.json" python -c " from google.cloud import texttospeech client = texttospeech.TextToSpeechClient() synthesis_input = texttospeech.SynthesisInput(text='こんにちは、世界') voice = texttospeech.VoiceSelectionParams( language_code='ja-JP', name='ja-JP-Wavenet-D' ) audio_config = texttospeech.AudioConfig( audio_encoding=texttospeech.AudioEncoding.MP3 ) response = client.synthesize_speech( input=synthesis_input, voice=voice, audio_config=audio_config ) with open('output.mp3', 'wb') as out: out.write(response.audio_content) print('Audio content written to file output.mp3') "
- “こんにちは、世界” という音声が、output.mp3 ファイルに保存される。
4. 無料利用について
- Google Cloud Text-to-Speechには、無料枠があります。
- 無料枠の内容:
- Standard (標準) 音声: 毎月400万文字まで無料。
- WaveNet音声: 毎月100万文字まで無料。
- 無料枠は、Google Cloud Platform (GCP) の新規ユーザーだけでなく、既存ユーザーにも適用されます。
- 無料枠を超えると、従量課金制で料金が発生します。
- 無料枠の利用状況は、GCPコンソールで確認できます。
-
無料トライアル (90日間有効な$300分の無料クレジット) も利用できます。
- 無料トライアルは、GCPの新規ユーザーのみ。
5. APIについて
Google Cloud Text-to-Speechは、REST APIおよびgRPC APIとして提供されています。
- REST API:
- HTTPリクエストを使って、テキストを音声に変換。
- JSON形式でリクエストを送信し、レスポンスを受け取る。
-
gRPC API:
- Protocol Buffersを使って、テキストを音声に変換。
- REST APIよりも高性能で、低レイテンシ。
-
クライアントライブラリ:
- 様々なプログラミング言語 (Python, Node.js, Java, Go, Ruby, C#, PHPなど) で利用可能。
- APIの使用を簡素化できる。
- APIリファレンス:
- 主なAPIメソッド:
- synthesize:
- テキストを音声に変換する。
- listVoices:
- 利用可能な音声のリストを取得する。
- synthesize:
6. 日本語対応について
- Google Cloud Text-to-Speechは、日本語に完全対応しています。
- 日本語の声の種類:
- Standard (標準) 音声: 複数。
- WaveNet音声: 複数 (例: ja-JP-Wavenet-A, ja-JP-Wavenet-B, ja-JP-Wavenet-C, ja-JP-Wavenet-D)。
- Neural2音声:複数。
- 性別 (男性、女性)、話し方 (標準、ニュース、会話など) を選択できる。
- 日本語の発音は非常に自然で、高品質。
- SSML (Speech Synthesis Markup Language) を使うと、発音、イントネーション、速度などを細かく制御できる。
- 日本語特有の表現 (長音、促音、アクセントなど) も、適切に処理される。
7. WaveNetについて
- WaveNetは、Google DeepMindが開発した、深層学習 (ディープラーニング) ベースの音声合成技術。
- 特徴:
- 従来の音声合成技術 (接続型、パラメータ型など) よりも、はるかに自然で高品質な音声を生成できる。
- 人間の声の波形を直接モデル化するため、滑らかで自然な発音、イントネーション、感情表現が可能。
- 様々な言語、声質に対応できる。
- Google Cloud Text-to-Speechでは、WaveNet音声を利用できる (Standard音声よりも料金は高い)。
- WaveNet音声は、特に自然な会話や、感情を込めた読み上げが必要な場合に適している。
8. Text-to-Speech Studioとは
- Text-to-Speech Studio は、Google Cloud コンソール内で利用できる、Text-to-Speech の機能を試したり、カスタマイズしたりするためのツールです。
- Text-to-Speech Studio を使用すると、コードを記述することなく、さまざまな音声、言語、SSML タグなどを試すことができます。
-
Text-to-Speech Studioでできること。
- 音声の選択 (言語、性別、話者など)。
- テキストの入力。
- SSML タグの追加 (発音、イントネーション、速度などの調整)。
- 音声の再生、ダウンロード。
- カスタム音声の作成 (一部の言語でのみ利用可能)。
- Text-to-Speech Studioは、Text-to-Speech APIの機能を試したり、最適な音声設定を見つけたりするのに役立ちます。
- Text-to-Speech Studioの利用は無料です (ただし、Text-to-Speech APIの利用料金は別途発生します)。
-
Text-to-Speech Studio利用方法。
- Google Cloud コンソールで、Text-to-Speech APIを有効にしたプロジェクトを選択。
- 左側のメニューで [Text-to-Speech] をクリック。
- [Text-to-Speech Studio] タブをクリック。
9. 声の種類
Google Cloud Text-to-Speechでは、様々な声の種類 (ボイス) を選択できます。
- 声の種類の分類:
- Standard (標準) 音声: 従来の音声合成技術に基づく音声。
- WaveNet音声: DeepMindのWaveNet技術に基づく、より自然で高品質な音声。
- Neural2音声: 最新の音声合成技術。
- Studio音声: ポッドキャストやニュースリーダーなど特定の用途向け。
-
言語、性別、話者:
- 各言語 (日本語、英語、中国語、スペイン語など) ごとに、複数の声が用意されている。
- 男性、女性の声を選択できる。
- 同じ言語でも、異なる話者 (例: ja-JP-Wavenet-A, ja-JP-Wavenet-B) を選択できる。
- 利用可能な声のリスト:
- 声の選択方法:
- APIリクエストで、音声名 (例: ja-JP-Wavenet-D) を指定する。
- Text-to-Speech Studioで、声を選択する。
-
カスタム音声:
- 独自の音声データを使って、カスタム音声モデルを作成できる (一部の言語でのみ利用可能)。
10. 活用事例
-
動画コンテンツ:
- YouTube動画のナレーション。
- eラーニング教材の音声。
- アニメーション、ゲームのキャラクター音声。
- オーディオブックの制作。
- 音声アシスタント、自動応答システム:
- スマートスピーカー、スマートフォンの音声アシスタント。
- 電話の自動応答システム (IVR)。
- チャットボットの音声応答。
-
アクセシビリティ:
- ウェブサイト、アプリの読み上げ機能。
- 視覚障碍者向けの音声案内。
- その他:
- 店舗、施設の館内放送。
- プレゼンテーションの音声化。
- 外国語学習教材。
- ニュース記事の読み上げ。
11. まとめ
Google Cloud Text-to-Speechは、高品質な音声合成を、手軽に利用できるクラウドサービスです。様々な言語に対応しており、日本語も非常に自然な発音で読み上げます。無料枠もあるため、気軽に試すことができます。
AI音声や動画制作に関する情報をもっと知りたい方は、www.sucoi.jpもおすすめです。動画制作やAI音声に役立つツールや情報が豊富に紹介されています。ぜひチェックしてみてください!
関連ナビゲーション


Azure Cognitive Services Text to Speech

VOICEROID2
