最新記事

Image credit:

東芝、合成音声の声質を操作する『声デザイン技術』を開発。直感的に変更できるGUIも用意

Shinichi Sekine , @sekine_s
2016年3月10日, 午後04:30 in Speech Synthesis
497 シェア
110
230
23
8
126

注目記事

人気記事


東芝は、合成音声の声質を操作する『声デザイン技術』を開発しました。

サンプルとなる合成音声の特徴を『性別』『年齢』『明瞭さ』『明るさ』『硬さ』『流暢さ』『透明さ』の7要素として分解し、各要素の強度を変更することで、用途に応じた声質を作りだす技術。レーダーチャートを用いて直感的に各要素を操作できるGUIも開発しています。

合成音声はカーナビのガイド音声や教材の文章読み上げといった音声コンテンツで使用されているほか、今後は音声広告や映像制作、コミュニケーションロボット、オンライン教育などの分野における活用も期待されています。

これまで、そのようなコンテンツに用いる合成音声は予め準備されたサンプルの中から選択するしかなく、コンテンツにぴったり合ったイメージの合成音声を用意するには高いハードルがありました。

声デザイン技術は、合成音声の声質自体を操作することで、コンテンツに使いやすい合成音声を低コストかつ短時間で用意できることを念頭に開発されています。

東芝では、本技術で用いている声質の要素分解モデルを『知覚語空間モデル』と呼んでいます。モデルの設計にあたっては、複数の評価者による主観評価を統計分析し、各要素を選定したとのこと。

声デザイン技術のGUIでは手動でレーダーチャートを操作できるほか、『かわいい』『知的』『誠実』『クール』『渋い』などのプリセットも用意しています。


本技術は2016年度中に東芝が運営中のクラウドサービスなどへの適用を目指し、研究開発を進めるとのことです。

合成音声を利用したソフトウェアとしては、ワープロソフトなどに付属している文章読み上げソフトや、BBSや動画に投稿されたコメントの読み上げソフトが挙げられます。ニコニコ動画などの動画投稿サイトでは、動画に自分の声を入れたくない意向の動画投稿者などに広く利用されていますが、そのようなコンシューマ用途の読み上げソフトで選べる合成音声は多くありません。

コンシューマが使える合成音声のバリエーションが増えれば、それだけ一般ユーザーが作るコンテンツの多様性やクオリティが向上する可能性もあります。本技術についてコンシューマ向けの展開は言及されていませんが、是非とも何らかの形でコンシューマが利用できるような形での展開を期待したいところです。

Source: Toshiba
関連キーワード: speech synthesis, voice
497 シェア
110
230
23
8
126