
Amazon Pollyとは? 料金、使い方、無料利用、日本語、声の種類、SSML、商用利用、WordPressプラグイン、活用事例を解説
1. Amazon Pollyとは?
Amazon Pollyは、Amazon Web Services (AWS) が提供する、テキストを自然な音声に変換するクラウドベースのサービスです。深層学習 (ディープラーニング) 技術を活用し、高品質な音声合成を実現しています。様々な言語に対応しており、日本語も非常に自然な発音で読み上げます。ブログ記事の読み上げ、オーディオブック、音声アシスタント、eラーニング教材、IVR (自動音声応答システム)、動画のナレーションなど、幅広い用途で利用されています。
【目次】
- Amazon Pollyとは?
- Amazon Pollyの料金
- Amazon Pollyの使い方
- 無料利用について
- 日本語対応について
- 声の種類
- SSMLについて
- 商用利用について
- WordPressプラグインについて
- 活用事例
- まとめ
2. Amazon Pollyの料金
Amazon Pollyは、従量課金制です (2024年5月現在)。
- 料金体系:
- 音声に変換するテキストの文字数に基づいて課金される。
- 標準音声、ニューラル音声 (より高品質)、長文音声で料金が異なる。
- 毎月、一定の文字数まで無料で利用できる枠がある。
-
標準音声:
- 100万文字あたり4.8ドル(約750円)。
- 最初の12か月間は、毎月500万文字まで無料。
- 12か月経過後は、毎月100万文字まで無料。
- ニューラル音声:
- 100万文字あたり19.2ドル (約3000円)。
- 最初の12か月間は、毎月100万文字まで無料。
- 12か月経過後は、毎月25万文字まで無料。
-
長文音声:
- 100万文字あたり120ドル (約18,800円)。
- 無料枠なし。
料金の詳細は、Amazon Pollyの料金ページで確認してください。料金は変更される場合があります。
料金の計算例:
-
日本語のニューラル音声で、1か月に200万文字を音声に変換した場合 (最初の12か月間):
- 無料枠: 100万文字。
- 課金対象: 100万文字。
- 料金: 約19.2ドル (約3000円)。
3. Amazon Pollyの使い方
- AWSアカウントを作成 (無料)。
- AWSのウェブサイトにアクセス。
- [AWSアカウントを作成] ボタンをクリック。
- 画面の指示に従って、アカウントを作成。
- クレジットカードの登録が必要 (無料枠を超えなければ課金されない)。
- AWSマネジメントコンソールにログイン。
- Amazon Pollyのコンソールを開く。
- サービス検索バーに “Polly” と入力し、[Amazon Polly] を選択。
-
テキストを入力。
- [Plain text] タブを選択。
- テキストボックスに、音声に変換したいテキストを入力 (または貼り付け)。
-
音声を選択。
- [Engine] で、[Standard] (標準音声) または [Neural] (ニューラル音声) を選択。
- [Language and Region] で、[Japanese] (日本語) を選択。
- [Voice] で、声の種類 (例: Mizuki, Takumi) を選択。
- (オプション) SSMLを使用。
- [SSML] タブを選択すると、SSML (Speech Synthesis Markup Language) を使って、発音、イントネーション、速度などを細かく制御できる。
-
音声を再生/ダウンロード。
- [Listen to speech] ボタンをクリックすると、音声を再生できる。
- [Download MP3] ボタンをクリックすると、MP3ファイルとしてダウンロードできる。
APIを使った利用方法:
- AWS SDK (Software Development Kit) を使うと、様々なプログラミング言語 (Python, Java, Node.js, Ruby, .NET, PHP, Goなど) からAmazon PollyのAPIを呼び出すことができる。
- サンプルコードは、Amazon Pollyの開発者ガイドを参照。
4. 無料利用について
- Amazon Pollyには、無料利用枠があります。
- 無料利用枠の内容:
- 標準音声:
- 最初の12か月間は、毎月500万文字まで無料。
- 12か月経過後は、毎月100万文字まで無料。
- ニューラル音声:
- 最初の12か月間は、毎月100万文字まで無料。
- 12か月経過後は、毎月25万文字まで無料。
- 長文音声:無料枠なし。
- 標準音声:
- 無料利用枠は、AWSの新規ユーザーだけでなく、既存ユーザーにも適用されます。
- 無料利用枠を超えると、従量課金制で料金が発生します。
- 無料利用枠の利用状況は、AWSマネジメントコンソールで確認できます。
- AWS無料利用枠 (12か月間無料) も利用できます。
5. 日本語対応について
- Amazon Pollyは、日本語に完全対応しています。
- 日本語の声の種類:
- 標準音声: Mizuki (女性), Takumi (男性)。
- ニューラル音声: Mizuki (女性), Takumi (男性), Kazuha (女性), Tomoko(女性)。
- 日本語の発音は非常に自然で、高品質。
- SSML (Speech Synthesis Markup Language) を使うと、発音、イントネーション、速度などを細かく制御できる。
- 日本語特有の表現 (長音、促音、アクセントなど) も、適切に処理される。
- 漢字、ひらがな、カタカナ、数字、アルファベットを含むテキストを、自然な日本語で読み上げる。
6. 声の種類
Amazon Pollyでは、様々な声の種類 (ボイス) を選択できます。
- 声の種類の分類:
- 標準音声: 従来の音声合成技術に基づく音声。
- ニューラル音声: 深層学習 (ディープラーニング) 技術に基づく、より自然で高品質な音声。
- 長文音声: 長いテキストやドキュメントを読み上げるために最適化された音声。
-
言語、性別、話者:
- 各言語 (日本語、英語、中国語、スペイン語など) ごとに、複数の声が用意されている。
- 男性、女性の声を選択できる。
- 同じ言語でも、異なる話者 (例: Mizuki, Takumi) を選択できる。
-
利用可能な声のリスト:
- Amazon Pollyの開発者ガイドで確認できる。
- 声の選択方法:
- Amazon Pollyのコンソールで、声を選択する。
- APIリクエストで、音声ID (例: Mizuki, Takumi) を指定する。
7. SSMLについて
SSML (Speech Synthesis Markup Language) は、音声合成マークアップ言語です。Amazon Pollyでは、SSMLを使うことで、テキストの読み上げ方を細かく制御できます。
-
SSMLでできること:
- 発音の変更 (単語の発音を細かく指定)。
- イントネーション、速度、声量の調整。
- ポーズ (間) の挿入。
- 単語やフレーズの強調。
- 日付、時刻、数値の読み上げ方の指定。
- ささやき声、ニュースキャスター風などの効果。
-
SSMLタグの例:
- <speak>: SSMLのルート要素。
-
<prosody>: 速度、声量、イントネーションを調整。
- 例: <prosody rate=”slow”>ゆっくり話す</prosody>
- <break>: ポーズ (間) を挿入。
- 例: <break time=”1s”/> (1秒間のポーズ)
- <say-as>: 日付、時刻、数値などの読み上げ方を指定。
- 例: <say-as interpret-as=”date” format=”yyyymmdd”>20240516</say-as>
- <phoneme>: 発音記号を使って、単語の発音を指定。
- 例: <phoneme alphabet=”ipa” ph=”həˈloʊ”>hello</phoneme>
- <amazon:domain name=”news”> : ニュースキャスター風(ニューラル音声のみ)。
-
SSMLの使い方:
- Amazon Pollyのコンソールで、[SSML] タブを選択し、SSMLタグを含むテキストを入力。
- APIリクエストの `TextType` パラメータを `ssml` に設定し、`Text` パラメータにSSMLタグを含むテキストを指定。
-
注意点:
- SSMLタグは、音声エンジン (標準音声、ニューラル音声) によってサポート状況が異なる場合がある。
- 日本語のSSML対応状況は、Amazon Pollyの開発者ガイドを参照。
8. 商用利用について
- Amazon Pollyで生成した音声は、商用利用可能です。
-
商用利用の例:
- 企業紹介動画、プロモーション動画のナレーション。
- eラーニング教材、オーディオブックの音声。
- 電話の自動応答システム (IVR)。
- アプリ、ゲームの音声。
- 店舗、施設の館内放送。
- 商用利用する場合でも、追加料金は発生しません (Amazon Pollyの利用料金のみ)。
- ただし、AWSの利用規約、Amazon Pollyのサービス条件に従う必要があります。
- Amazon Pollyで生成した音声を、再販、再配布することはできません。
- Amazon Pollyのブランド (ロゴ、名称など) を、許可なく使用することはできません。
9. WordPressプラグインについて
Amazon Pollyの機能をWordPressサイトに統合するためのプラグインがいくつか存在します。
-
主なプラグイン:
-
Amazon Polly:
- Amazon公式プラグイン。
- WordPressの記事を、Amazon Pollyを使って音声に変換できる。
- 音声プレーヤーを記事に埋め込むことができる。
- 自動的に音声ファイルを生成し、Amazon S3に保存できる。
- 無料 (ただし、Amazon Pollyの利用料金は別途発生)。
-
WP Amazon Polly:
- サードパーティ製のプラグイン。
- Amazon Pollyと連携し、WordPressの記事を音声化できる。
- より多くのカスタマイズオプション (声の種類、速度、音量など) がある。
- 有料版と無料版がある。
-
その他のプラグイン:
- “Amazon Polly” や “Text to Speech” などのキーワードで、WordPressプラグインディレクトリを検索すると、他のプラグインも見つかる。
-
Amazon Polly:
- プラグインの導入方法:
- WordPressの管理画面で、[プラグイン] > [新規追加] をクリック。
- “Amazon Polly” などのキーワードでプラグインを検索。
- [今すぐインストール] をクリックし、[有効化] をクリック。
- プラグインの設定画面で、AWSの認証情報 (アクセスキー、シークレットキー) などを入力。
-
注意点:
- プラグインの利用には、AWSアカウント、Amazon Pollyの利用料金が必要。
- プラグインのサポート状況、機能、料金などは、変更される場合がある。
10. 活用事例
-
ウェブサイト、ブログ:
- 記事の読み上げ機能 (アクセシビリティ向上、ユーザーエンゲージメント向上)。
- 動画コンテンツ:
- YouTube動画、企業紹介動画、プロモーション動画のナレーション。
- eラーニング教材の音声。
- アニメーション、ゲームのキャラクター音声。
- オーディオブック:
- 書籍、記事のオーディオブック化。
- 音声アシスタント、自動応答システム:
- スマートスピーカー、スマートフォンの音声アシスタント。
- 電話の自動応答システム (IVR)。
- チャットボットの音声応答。
-
アクセシビリティ:
- 視覚障碍者向けの音声案内、読み上げ機能。
- その他:
- 店舗、施設の館内放送。
- プレゼンテーションの音声化。
- 外国語学習教材。
11. まとめ
Amazon Pollyは、高品質な音声合成を、手軽に利用できるクラウドサービスです。様々な言語に対応しており、日本語も非常に自然な発音で読み上げます。無料利用枠もあるため、気軽に試すことができます。WordPressプラグインを使えば、ウェブサイトに簡単に音声読み上げ機能を実装できます。
AI音声や動画制作に関する情報をもっと知りたい方は、www.sucoi.jpもおすすめです。動画制作やAI音声に役立つツールや情報が豊富に紹介されています。ぜひチェックしてみてください!
関連ナビゲーション


VOICEROID2

Azure Cognitive Services Text to Speech
