ニュース

アドバンスト・メディア、双方向型深層学習技術「Bi-LSTM」で音声認識エンジン「AmiVoice」のエラー改善率を向上

 株式会社アドバンスト・メディアは9日、自社の音声認識エンジン「AmiVoice」に双方向型のディープラーニング(深層学習)技術「Bi-LSTM(Bidirectional Long Short-Term Memory)」を実装し、エラー改善率が最大で25%向上したと発表した。自然発話を中心とした認識率が大幅に向上したという。

 今回採用された「Bi-LSTM」は、ディープラーニングの発展技術のひとつ。従来のAmiVoiceに実装していたリカレントニューラルネットワーク技術「LSTM(Long Short-Term Memory)」では、過去の情報を加味しながら処理を行っていたという。これに対して「Bi-LSTM」は未来の情報を予測して加えることにより、双方向の時間軸から処理を行っており、これによってさらに高い認識率を実現できるという。

 具体的には、AmiVoiceの音響モデルに「Bi-LSTM」技術を実装すると、リアルタイム認識で最大20%、バッチ認識で最大25%のエラー改善率を実現したとのことで、アドバンスト・メディアでは、オンラインの音声認識エンジンに加えオフラインの音声認識エンジンにも実装したとしている。

 なお同社は、音声認識APIの開発プラットフォーム「AmiVoice Cloud Platform」にて、「Bi-LSTM」を実装したAmiVoiceの提供を4月より開始する予定。さらに今後は、文字起こしソリューションやコールセンターなど、各サービスへの実装を順次行っていくとのことだ。