ホントは短編でコロナを語ろうと思ったのですが、思ったより長くなったのでエントリーを分けました(´・ω・`)
コロナなので、GoToよりもおうちキャンペーンを展開したい人向けの、久々の連載エントリーです。ちょっと金を出したプログラミングネタになります。
なお、現時点で完成形に至っていない、希望的観測でしか語れない状況なので、空中分解したり不時着したりしたら、ごめんね(´・ω・`)
さて、いきなりですが・・・
誰だって美少女ボイスになりたいよね?
私なんて活舌が悪いので、しばしば聞き返されることがあるんですが、それ自体は別にいいんですが、たとえば世のYouTube動画なんかを見ると、自分の声で商品紹介をしたりとか、ゲームをプレイしたりとか、そういう活動を見ると、いいなーとも思うんだよね。
やりゃいいじゃんってなって、一発目だけでもやれば、それで終わるのかもしれないけど、あんま自分の声に自信のない人だっているじゃん?ぼくみたいに(´・ω・`)
そういう人が、もし声をあてるとするならば、音声合成ソフトを使うところから入るのでしょう。
でもね・・・
やったことあるけど、けっこう時間かかるんだよね、これ(´・ω・`)
私は、かんたん!AITalk 3を使っていますが、セリフごとに音声ファイルに書き出して、それを動画編集ソフトにインポートして、配置して・・・という作業がくそめんどいです。
地声を使えば、動画撮影と声あてを兼ねられるので、作業量ははるかに少なくなりますよね。
(字幕作成にかかるコストは、どっちもどっちだと思うケド)
それに、この方法だと、たとえばリアルタイムな動画配信には適用できないんですよね。
たとえば、ゲーム実況をやろうってなったときに、セリフを音声合成ソフトにいちいち打ち込みながらゲームをするんですか?
あるいはあらかじめ決められたセリフに沿ってゲームをプレイするんですかねぇ・・・(何その伝わらない縛りプレイ(´・ω・`)
そんなのは到底やっていられないので、本研究では(?)
特にライブ配信向けに、配信したい動画と、ほぼリアルタイムな合成音声とを混合した、動画配信のしくみを作ることを検討してみたいと思います。
ほぼリアルタイムな合成音声というのは、某ボイスチェンジャー的なものです。
そして、どうせボイスチェンジャーを構成するならば、美少女ボイスの方が誰だってテンション上がるでしょ?ということです。
まさか、おっさんが、おっさん声にボイチェンするとかいう、そんなくそしょーもないこと考えないですよね?(´・ω・`)
ただし、ただのボイスチェンジャーは、活舌を補正しません。
また、地声の特徴が出てしまうため、声質から個人が特定されるリスクもあります。自分の声を出したくないシャイな人間にとっては致命的です。
なので、私はアレを使います。そう、日本語音声認識機能を、ね。
日本語音声認識は、活舌を補正します。はっきりとした、聞き取りやすい声で発声することができます。まぁ、誤認識もそれなりに発生しうるし、活舌が悪すぎるほどその発生率も上昇すると考えられますが、それは誤認識という別の問題であって、ユーザーが聞く分には聞き取りやすいという点に変わりありません。
つまり、聞き取ったセリフが、何言ってんだコイツ?ってなる場合もあるでしょうが、今回はそれを問題としないということです。ほら、美少女ボイスだったら、そんな天然なうっかりミスも許せるでしょ?(´・ω・`)
たとえ中身がおっさんだとしても・・・
と、記事もちょうどいい長さになったので、テクニカルなはなしは次回ということで、まずはプロローグということで、期待しないで次回をおたのしみに(´・ω・`)