誰だって美少女ボイスになりたいよね？(´･ω･｀)　その１

ホントは短編でコロナを語ろうと思ったのですが、思ったより長くなったのでエントリーを分けました(´･ω･｀)

コロナなので、GoToよりもおうちキャンペーンを展開したい人向けの、久々の連載エントリーです。ちょっと金を出したプログラミングネタになります。

なお、現時点で完成形に至っていない、希望的観測でしか語れない状況なので、空中分解したり不時着したりしたら、ごめんね(´･ω･｀)

さて、いきなりですが・・・

誰だって美少女ボイスになりたいよね？

私なんて活舌が悪いので、しばしば聞き返されることがあるんですが、それ自体は別にいいんですが、たとえば世のYouTube動画なんかを見ると、自分の声で商品紹介をしたりとか、ゲームをプレイしたりとか、そういう活動を見ると、いいなーとも思うんだよね。

やりゃいいじゃんってなって、一発目だけでもやれば、それで終わるのかもしれないけど、あんま自分の声に自信のない人だっているじゃん？ぼくみたいに(´･ω･｀)

そういう人が、もし声をあてるとするならば、音声合成ソフトを使うところから入るのでしょう。

でもね・・・

やったことあるけど、けっこう時間かかるんだよね、これ(´･ω･｀)

私は、かんたん！AITalk 3を使っていますが、セリフごとに音声ファイルに書き出して、それを動画編集ソフトにインポートして、配置して・・・という作業がくそめんどいです。

地声を使えば、動画撮影と声あてを兼ねられるので、作業量ははるかに少なくなりますよね。

（字幕作成にかかるコストは、どっちもどっちだと思うケド）

それに、この方法だと、たとえばリアルタイムな動画配信には適用できないんですよね。

たとえば、ゲーム実況をやろうってなったときに、セリフを音声合成ソフトにいちいち打ち込みながらゲームをするんですか？

あるいはあらかじめ決められたセリフに沿ってゲームをプレイするんですかねぇ・・・（何その伝わらない縛りプレイ(´･ω･｀)

そんなのは到底やっていられないので、本研究では（？）

特にライブ配信向けに、配信したい動画と、ほぼリアルタイムな合成音声とを混合した、動画配信のしくみを作ることを検討してみたいと思います。

f:id:asarinomisosoup:20200724053718p:plain

ほぼリアルタイムな合成音声というのは、某ボイスチェンジャー的なものです。

そして、どうせボイスチェンジャーを構成するならば、美少女ボイスの方が誰だってテンション上がるでしょ？ということです。

まさか、おっさんが、おっさん声にボイチェンするとかいう、そんなくそしょーもないこと考えないですよね？(´･ω･｀)

ただし、ただのボイスチェンジャーは、活舌を補正しません。

また、地声の特徴が出てしまうため、声質から個人が特定されるリスクもあります。自分の声を出したくないシャイな人間にとっては致命的です。

なので、私はアレを使います。そう、日本語音声認識機能を、ね。

日本語音声認識は、活舌を補正します。はっきりとした、聞き取りやすい声で発声することができます。まぁ、誤認識もそれなりに発生しうるし、活舌が悪すぎるほどその発生率も上昇すると考えられますが、それは誤認識という別の問題であって、ユーザーが聞く分には聞き取りやすいという点に変わりありません。

つまり、聞き取ったセリフが、何言ってんだコイツ？ってなる場合もあるでしょうが、今回はそれを問題としないということです。ほら、美少女ボイスだったら、そんな天然なうっかりミスも許せるでしょ？(´･ω･｀)

たとえ中身がおっさんだとしても・・・

と、記事もちょうどいい長さになったので、テクニカルなはなしは次回ということで、まずはプロローグということで、期待しないで次回をおたのしみに(´･ω･｀)

あさりのみそしるダイアリー