ニュース

NTTテクノクロス、認識精度を向上した音声認識ソフト「SpeechRec」新バージョン

三柳英樹

2017年6月23日 17:30

　NTTテクノクロス株式会社は22日、音声認識ソフトウェア「SpeechRec」をバージョンアップし、提供を開始した。

　SpeechRecは、NTTメディアインテリジェンス研究所が開発した音声認識エンジン「VoiceRex」を搭載した、高精度音声認識ソフトウェア。VoiceRexは、NTTグループが推進しているAI技術「corevo」を支える重要な技術の1つで、世界最高レベルの音声認識精度を達成したCNN-NIN技術を採用している。

　今回のSpeechRecのバージョンアップでは、NTT研究所が開発したDNN（Deep Neural Network）技術を採用した新しいVoiceRexにより、従来に比べてさらに高精度な認識率を達成。音声エージェントとの対話を想定した発話の評価では、誤り改善率が約20%（たとえば、認識率90％から92％に向上）に達することを確認したという。

　また、主に訪日外国人向けのアプリやサービスへの導入を想定し、日本語、英語、中国語（北京、広東、台湾）、韓国語、タイ語、ベトナム語、マレーシア語、インドネシア語の10言語に対応。日本語と英語については、コンタクトセンターなどでの自然な会話の認識も高精度に行える。言語の識別についても、平均5秒程度の発話から99.5％の精度で言語を識別可能とした。

　さらに、周囲雑音が大きい環境での音声認識についても精度を向上。DNN技術をベースとした音声区間検出雑音抑圧エンジンを搭載したことで、車内や駅などの周囲雑音が大きい環境においても、従来型よりも平均で約2％の認識率の向上が確認できたという。

　SpeechRecはサーバー／クライアント型の構成となっており、ユーザーはクライアントアプリ開発用のSDKを利用してアプリを開発できる。オンプレミス型、クラウド型の提供形態があり、価格は要問い合わせ。