誰だって美少女ボイスになりたいよね？(´･ω･｀)　その４

前回の続きです。

www.asarinomisosoup.com

前回は、Web Speech API と Chromeブラウザを使って、マイクから入力した音声の日本語音声認識を実現しました。

今回は、同じく Web Speech API に用意されている音声合成機能を使って、音声認識したテキストを読み上げる機能を実現してみます。

ちなみに、プロローグとやりたいことは、その１～２に書いているとおりです。

www.asarinomisosoup.com

Web Speech API で音声合成する

Web Speech API で音声合成をするには、SpeechSynthesis というインターフェースを使用します。

詳しいことはドキュメントに書かれているとおりです。

developer.mozilla.org

この機能も、音声認識と同様にドラフト版であり、Chromeに実装された機能は実験的なものであるため、将来にわたり機能の同一性を保証することはできません。その具体的な例があとで出てきます・・・。

SppechSynthesis を使ってコーディングする

前回書いた音声認識のコードに追記して、認識したテキストを読み上げるようにしてみます。

※はてなブログにコードを貼り付ける方法がイマイチよくわかっていないので、今回も画像で載せます(´･ω･｀)

f:id:asarinomisosoup:20200725212000p:plain

ほとんど前回といっしょです。

コード中の「speechSynthesis」が、音声合成を実現する機能を提供するインターフェースです。

「SpeechSynthesisUtterance」は、読み上げたい音声をspeechSynthesisに教えてあげるものです。

developer.mozilla.org

コード中で用いている読み上げ言語(langプロパティ)と読み上げテキスト(textプロパティ)のほか、読み上げに使う合成音声の種類(voiceプロパティ)、音の高低(pitchプロパティ)、音量(volumnプロパティ)、速度(rateプロパティ)も調節可能です。

そのため、発声テキストごとに異なるプロパティを適用して、バリエーション豊かな発声を実現することもできます。

speechSynthesis.speak() で、任意のUtteranceを読み上げます。

これはキューなので、speakに突っ込みつづけると、逐次、順番どおりに読み上げてくれます。speakした瞬間に発声中のテキストをキャンセルするものではありません。（その必要がある場合は、それなりに実装する必要があります）

（ドラフト版のため、今後動作が変わる場合があります）

前回と同じく、以下のVisual Studio の公開リポジトリにも置いときます。

⇒ test-web-speech-api-with-speaker.html

dev.azure.com