ニュース

「異常発生!」の緊迫感も伝えられる音声合成技術、富士通研が開発

 株式会社富士通研究所(以下、富士通研)は3月31日、高品質で多彩な声を短期間で作成でき、利用シーンや利用環境に合わせたトーンで情報を伝えられる音声合成技術を開発したと発表した。

 音声合成技術は、刻々と変化する交通情報の放送やカーナビ音声、住民向けに地域の情報を放送する市町村防災行政無線、美術館・博物館の展示ガイダンス音声など、社会で幅広く利用されている。一方で声のトーンは一定で、状況に応じた聞き手に伝わりやすい表現の音声は実現できていなかった。

音声合成の利用シーン。さまざまな用途で利用されているが、声のトーンは一定で表現力が豊かとはいえない

 今回の技術は、現場の状況に応じたトーンで合成でき、さらに高品質で多彩な声を従来比約1/30の短時間で作成できるのが特徴。例えば、緊急時は警告感のあるトーン、雑音がはげしいところでは通りやすいトーンなど、状況に応じた音声を提供できるという。

 従来は、あらかじめ大量に収録した音声波形をつなぎ合わせて合成する方式だったが、より柔軟な合成を実現するため、音声を「声質」「イントネーション」「間の取り方」といった音声の複数の特長をとらえたパラメータに変換して合成する方式を採った。

開発した音声合成の概要。パラメータを変換して合成する方式

 状況に応じたトーンの違いをパラメータに反映することで、緊急度に応じて警告感のあるトーンに変えたり、騒音レベルに応じて通りやすい声に変えたりできるという。例えば、工場などで「値を報告してください」「値が変です」「異常発生! 現場へ急行」と警告感を高めていくことで、状況の深刻さが判断しやすくなる。

開発した音声合成の利用例。状況に応じて緊迫感などのトーンを変えられる

 また、パラメータに変換する技術と機械学習を用いたアルゴリズムを併用することで、音声の特徴を効率的に抽出。元となる音声の収録が少量で済み、高品質で多彩な声を従来の約1/30の時間で作成できるようになった。

 親しみやすい声やキャラクターの特徴的な声なども短期間で作成できるため、より多彩なシーンで手軽に合成音声を利用できるようになるという。

 富士通研は、2014年度中の実用化を目指し、さらなる高品質化を進める。

川島 弘之