Google Text-to-Speech

4个月前編集 0 0

Googleが提供する無料の音声合成サービスで、自然な発音で複数言語に対応。多くのアプリやWebサイトで利用されています。

保存日時：

2024-11-09

公式サイト

音声合成と変換

Google Text-to-Speech

Google Text-to-Speech (Google Cloud Text-to-Speech) とは？料金、使い方、無料利用、API、日本語、Wavenet、Studio、声の種類、活用事例を解説

1. Google Text-to-Speechとは？

Google Text-to-Speech (Google Cloud Text-to-Speech) は、Google Cloudが提供する、テキストを自然な音声に変換するクラウドベースのAPIサービスです。AI (人工知能) 技術を活用し、高品質な音声合成を実現しています。様々な言語に対応しており、日本語も非常に自然な発音で読み上げます。YouTube動画のナレーション、オーディオブック、音声アシスタント、自動応答システム、eラーニング教材など、幅広い用途で利用されています。

2. Google Text-to-Speechの料金

Google Cloud Text-to-Speechは、従量課金制です (2024年5月現在)。

料金体系:
- 音声に変換するテキストの文字数に基づいて課金される。
- Standard (標準) 音声と、WaveNet音声 (より高品質) で料金が異なる。
- 毎月、一定の文字数まで無料で利用できる枠がある。
Standard (標準) 音声:
- 100万文字あたり430円程度。
- 毎月400万文字まで無料。
WaveNet音声:
- 100万文字あたり1,700円程度。
- 毎月100万文字まで無料。
Neural2音声:
- 100万文字あたり1,700円程度。
- 無料枠なし。

料金の詳細は、Google Cloud Text-to-Speechの料金ページで確認してください。料金は変更される場合があります。

料金の計算例:

日本語のWaveNet音声で、1か月に200万文字を音声に変換した場合:
- 無料枠: 100万文字。
- 課金対象: 100万文字。
- 料金: 約1,700円。

3. Google Text-to-Speechの使い方

Google Cloud Platform (GCP) のアカウントを作成 (無料)。
- Google Cloud Platformのウェブサイトにアクセス。
- [無料で開始] (または [Get Started for Free]) ボタンをクリック。
- 画面の指示に従って、アカウントを作成。
- クレジットカードの登録が必要 (無料枠を超えなければ課金されない)。
GCPのプロジェクトを作成。
- GCPのコンソール (管理画面) にログイン。
- [プロジェクトを選択] (または [Select a project]) をクリック。
- [新しいプロジェクト] (または [New Project]) をクリック。
- プロジェクト名を入力し、[作成] (または [Create]) をクリック。
Text-to-Speech APIを有効にする。
- GCPコンソールで、作成したプロジェクトを選択。
- [APIとサービス] (または [APIs & Services]) をクリック。
- [APIとサービスを有効化] (または [Enable APIs and Services]) をクリック。
- 検索バーに “Text-to-Speech” と入力。
- [Cloud Text-to-Speech API] を選択し、[有効にする] (または [Enable]) をクリック。
認証情報を設定。
- APIキーまたはサービスアカウントキーを作成。
- 詳細は、Google Cloud Text-to-Speechのドキュメントを参照。
Text-to-Speech APIを使用:
- APIリクエストを送信して、テキストを音声に変換。
- 様々なプログラミング言語 (Python, Node.js, Java, Go, Ruby, C#, PHPなど) で利用可能。
- サンプルコードは、Google Cloud Text-to-Speechのドキュメントを参照。

簡単な利用方法 (クイックスタート):

GCPコンソールで、Cloud Shellを起動。

以下のコマンドを実行 (Pythonの例)。


pip install --upgrade google-cloud-texttospeech

export GOOGLE_APPLICATION_CREDENTIALS="/path/to/your/credentials.json"

python -c "
from google.cloud import texttospeech

client = texttospeech.TextToSpeechClient()

synthesis_input = texttospeech.SynthesisInput(text='こんにちは、世界')

voice = texttospeech.VoiceSelectionParams(
    language_code='ja-JP',
    name='ja-JP-Wavenet-D'
)

audio_config = texttospeech.AudioConfig(
    audio_encoding=texttospeech.AudioEncoding.MP3
)

response = client.synthesize_speech(
    input=synthesis_input, voice=voice, audio_config=audio_config
)

with open('output.mp3', 'wb') as out:
    out.write(response.audio_content)
    print('Audio content written to file output.mp3')
"

“こんにちは、世界” という音声が、output.mp3 ファイルに保存される。

4. 無料利用について

Google Cloud Text-to-Speechには、無料枠があります。
無料枠の内容:
- Standard (標準) 音声: 毎月400万文字まで無料。
- WaveNet音声: 毎月100万文字まで無料。
無料枠は、Google Cloud Platform (GCP) の新規ユーザーだけでなく、既存ユーザーにも適用されます。
無料枠を超えると、従量課金制で料金が発生します。
無料枠の利用状況は、GCPコンソールで確認できます。
無料トライアル (90日間有効な$300分の無料クレジット) も利用できます。
- 無料トライアルは、GCPの新規ユーザーのみ。

5. APIについて

Google Cloud Text-to-Speechは、REST APIおよびgRPC APIとして提供されています。

REST API:
- HTTPリクエストを使って、テキストを音声に変換。
- JSON形式でリクエストを送信し、レスポンスを受け取る。
gRPC API:
- Protocol Buffersを使って、テキストを音声に変換。
- REST APIよりも高性能で、低レイテンシ。
クライアントライブラリ:
- 様々なプログラミング言語 (Python, Node.js, Java, Go, Ruby, C#, PHPなど) で利用可能。
- APIの使用を簡素化できる。
APIリファレンス:
- REST APIリファレンス
- gRPC APIリファレンス
主なAPIメソッド:
- synthesize:
  - テキストを音声に変換する。
- listVoices:
  - 利用可能な音声のリストを取得する。

6. 日本語対応について

Google Cloud Text-to-Speechは、日本語に完全対応しています。
日本語の声の種類:
- Standard (標準) 音声: 複数。
- WaveNet音声: 複数 (例: ja-JP-Wavenet-A, ja-JP-Wavenet-B, ja-JP-Wavenet-C, ja-JP-Wavenet-D)。
- Neural2音声：複数。
- 性別 (男性、女性)、話し方 (標準、ニュース、会話など) を選択できる。
日本語の発音は非常に自然で、高品質。
SSML (Speech Synthesis Markup Language) を使うと、発音、イントネーション、速度などを細かく制御できる。
日本語特有の表現 (長音、促音、アクセントなど) も、適切に処理される。

7. WaveNetについて

WaveNetは、Google DeepMindが開発した、深層学習 (ディープラーニング) ベースの音声合成技術。
特徴:
- 従来の音声合成技術 (接続型、パラメータ型など) よりも、はるかに自然で高品質な音声を生成できる。
- 人間の声の波形を直接モデル化するため、滑らかで自然な発音、イントネーション、感情表現が可能。
- 様々な言語、声質に対応できる。
Google Cloud Text-to-Speechでは、WaveNet音声を利用できる (Standard音声よりも料金は高い)。
WaveNet音声は、特に自然な会話や、感情を込めた読み上げが必要な場合に適している。

8. Text-to-Speech Studioとは

Text-to-Speech Studio は、Google Cloud コンソール内で利用できる、Text-to-Speech の機能を試したり、カスタマイズしたりするためのツールです。
Text-to-Speech Studio を使用すると、コードを記述することなく、さまざまな音声、言語、SSML タグなどを試すことができます。
Text-to-Speech Studioでできること。
- 音声の選択 (言語、性別、話者など)。
- テキストの入力。
- SSML タグの追加 (発音、イントネーション、速度などの調整)。
- 音声の再生、ダウンロード。
- カスタム音声の作成 (一部の言語でのみ利用可能)。
Text-to-Speech Studioは、Text-to-Speech APIの機能を試したり、最適な音声設定を見つけたりするのに役立ちます。
Text-to-Speech Studioの利用は無料です (ただし、Text-to-Speech APIの利用料金は別途発生します)。
Text-to-Speech Studio利用方法。
- Google Cloud コンソールで、Text-to-Speech APIを有効にしたプロジェクトを選択。
- 左側のメニューで [Text-to-Speech] をクリック。
- [Text-to-Speech Studio] タブをクリック。

9. 声の種類

Google Cloud Text-to-Speechでは、様々な声の種類 (ボイス) を選択できます。

声の種類の分類:
- Standard (標準) 音声: 従来の音声合成技術に基づく音声。
- WaveNet音声: DeepMindのWaveNet技術に基づく、より自然で高品質な音声。
- Neural2音声: 最新の音声合成技術。
- Studio音声: ポッドキャストやニュースリーダーなど特定の用途向け。
言語、性別、話者:
- 各言語 (日本語、英語、中国語、スペイン語など) ごとに、複数の声が用意されている。
- 男性、女性の声を選択できる。
- 同じ言語でも、異なる話者 (例: ja-JP-Wavenet-A, ja-JP-Wavenet-B) を選択できる。
利用可能な声のリスト:
- Google Cloud Text-to-Speechのドキュメントで確認できる。
声の選択方法:
- APIリクエストで、音声名 (例: ja-JP-Wavenet-D) を指定する。
- Text-to-Speech Studioで、声を選択する。
カスタム音声:
- 独自の音声データを使って、カスタム音声モデルを作成できる (一部の言語でのみ利用可能)。

10. 活用事例

Google Cloud Text-to-Speechは、様々な分野で活用されています。

動画コンテンツ:
- YouTube動画のナレーション。
- eラーニング教材の音声。
- アニメーション、ゲームのキャラクター音声。
- オーディオブックの制作。
音声アシスタント、自動応答システム:
- スマートスピーカー、スマートフォンの音声アシスタント。
- 電話の自動応答システム (IVR)。
- チャットボットの音声応答。
アクセシビリティ:
- ウェブサイト、アプリの読み上げ機能。
- 視覚障碍者向けの音声案内。
その他:
- 店舗、施設の館内放送。
- プレゼンテーションの音声化。
- 外国語学習教材。
- ニュース記事の読み上げ。

11. まとめ

Google Cloud Text-to-Speechは、高品質な音声合成を、手軽に利用できるクラウドサービスです。様々な言語に対応しており、日本語も非常に自然な発音で読み上げます。無料枠もあるため、気軽に試すことができます。

AI音声や動画制作に関する情報をもっと知りたい方は、www.sucoi.jpもおすすめです。動画制作やAI音声に役立つツールや情報が豊富に紹介されています。ぜひチェックしてみてください！

Google Text-to-Speech

1. Google Text-to-Speechとは？

【目次】

2. Google Text-to-Speechの料金

3. Google Text-to-Speechの使い方

4. 無料利用について

5. APIについて

6. 日本語対応について

7. WaveNetについて

8. Text-to-Speech Studioとは

9. 声の種類

10. 活用事例

11. まとめ

関連ナビゲーション

Amazon Polly

Azure Cognitive Services Text to Speech

VOICEROID2

IBM Watson Text to Speech