対応言語とボイス追加

本日、新たにMicrosoft Azure のAPIを連結し、ペンギンTTSではトータル対応言語が65種類、対応ボイスが400以上となりました。日本語のボイスでは、「一郎」などのように日本語表記の名前が記載されているボイスが今回の追加実装分となります。

Microsoft Azure のボイスはMicrosoft側の規定により、半角英数字は1文字としてカウントされますが、日本語、中国語、韓国語の言語文字はそれぞれ2 文字としてカウントされますのでご留意ください。


ペンギンTTSでは、「Amazon Polly」「Google Cloud Text-to-Speech」「Microsoft Azure Cognitive Text to Speech」それぞれのAPIを使用しています。入力したテキストを音声に変換するプロセスは、これらの大手企業が運営するサービスを活用させて頂いている、というわけです。つまり、ペンギンTTSでは独自に音声合成を担うのではなく、世界的に有名な大企業が持つ音声合成技術を一か所にまとめて、誰でも手軽に活用できるように便利なユーザーインターフェースを提供するサービスとなります。

ちなみに、ペンギンTTSの中で使用されている各種ボイス選択の画面で、それぞれのボイスに名称が付いているのですが、A,B,C,などのようにアルファベット単体で名称が付いているものはGoogle、アルファベットでTakumiなどのように名前が付いているものはAmazon、一郎などのように日本語の名前が付いているものはMicrosoftが提供する音声合成エンジンを使用しています。各社とも各言語毎に特色があり、今のところは一長一短あるようですが、将来的には各社ともビッグデータを蓄積してどんどん改善されていくことでしょう。


現在のところ、特に英語(US)の音声は選択できるボイスが豊富にそろっています。単純に男性女性の区別だけではなく、子供の声を再現したボイスもあり、その精度の高さには驚きます。日本語のボイスでも様々なボイスの選択肢はありますが、今のところ子供の声を再現した日本語ボイスの設定はありません。こういったサービスは、利用者数が増えれば増えるほど、使用すればするほどサービス内容や精度が向上していきますから、もしかしたら、将来的には「子供の声」だけではなく「おじいさんの声」なども追加される日が来るかもしれませんね。

Follow US

SNSから最新情報を入手する