Text to Speechを使ってAIの力を活用した人間のような合成音声を使ってみた!

 ハロー!新入社員のタケです!

今日はGoogleのText to Speechを使って綺麗な合成音声を使ってみたり、

AfterEffectsで便利な機能を見つけたので紹介してみたいと思います。


まずはGoogleが提供しているサービス、Text to Speechについてお話してみたいと思います。

これはGoogleのAIテクノロジーを搭載したAPIで、テキストを読み上げてくれるものです。


APIなのでソフトに組み込んだりしても使うことができます。

https://cloud.google.com/text-to-speech/?hl=ja


このサイトのちょっと下にデモがあるのでだれでもここから気軽に試すことができます。


言語は英語日本語はもちろん、全然わからない言語までほぼすべての言語が使えるみたいですね。


主要機能としてWaveNet音声というものがあります。

DeepMindという技術によりかなり人間の発音に近い合成音声になるらしいです。


音声も男性2種類・女性2種類から選べて、話すスピードやピッチも自由自在なので個性も出せます。


実際に使うとこんな感じです。

すごく自然ですね!


でもやっぱり機械音声なので漢字の読みや「は」などの読み方が一部間違ってたりします。

こういう時はちゃんとひらがなで書いてあげたりするとOKです。

感嘆詞や句読点でちゃんと止まってくれるので賢いですね…!


これをAfterEffectsに持っていきます。


音声のデータは基本的にまとめて撮ってからあとからAfterEffectsで切り分けていきます。

このほうがデータが大きくならずに済みますからね。


AfterEffectsでデータを切り分けていくときに便利なのがマーカー機能です。

レイヤーを選択しているときにテンキーの*を押すとマーカーが設置されます。


ここからここまでが〇〇の音声という感じで目印を付けるのに使えますね。

しかもShift+ドラッグでマーカーの場所へ簡単にスナップできちゃいます。


今までは音声の切り分けはウェーブを見ながら切って切って…というのを繰り返していたので

切り分け作業がめちゃくちゃ楽になりました!



Microsoftのナレーションよりも質が良いですね…!

AIの力って偉大だなあぁ…


--------------------------------------------------------------------------------

シェルパでは、3DCGや建築パースはもちろん
VRやARアプリの開発も行っています!
新しいことに興味のある方はきっと楽しめると思います!
新人研修も充実していて初心者でも3DCG経験者でも安心!

株式会社シェルパ
【福岡本社】
〒810-0042 福岡県福岡市中央区赤坂1丁目13-10赤坂有楽ビル7F 
【東京オフィス】
 〒101-0041 東京都千代田区神田須田町2丁目13-1YKS黒田ビル5F
TEL 092-717-6800 / FAX 092-717-6801

--------------------------------------------------------------------------------

コメント