ニュース

NTTテクノクロス、メディア処理AI「MediaGnosis」を活用した音声認識ソフトウェア「SpeechRec Server」新版

より高精度な音声認識が可能に

 NTTテクノクロス株式会社は、音声認識ソフトウェア「SpeechRec Server」の新版を11月19日から販売開始すると発表した。

 SpeechRec Serverは、オンプレミスまたはクラウドで音声認識を運用する際に必要となる、音声認識サーバー。音声認識処理のインターフェイスとしてWebSocket APIを採用しているため、任意のOSや開発言語との連携が可能という。

 今回の新版では、NTTコンピュータ&データサイエンス研究所が開発した次世代メディア処理AI「MediaGnosis」を用いた音声情報処理として、「End-to-End」方式を採用した。従来は一部の音声情報処理のみに適用していたディープニューラルネットワーク(DNN)をすべてに適用し、音声データ入力からテキスト出力までをオールインワンで実現している。これによって、人間の脳と同じように、音声から日本語を理解するスムーズな処理が可能になり、音声認識精度がさらに向上したという。

 またMediaGnosis」により、相づちや「えー」「あのー」などのつなぎ言葉に加え、「私なんかは」などの話し言葉特有の表現を認識し、話の意味を理解しやすいようなテキストに変換する機能を備えた。テキスト化された情報を内容ごとに分類して表示することも可能になっている。

 従来の音声認識ソフトウェアは、音声認識結果の変換と分類にそれぞれ専用のソフトウェアが必要だったが、SpeechRec Serverの新版ではオールインワンで処理を行えるため、システムの複雑化やコスト低減につながるほか、新たなテキスト処理のニーズが出てきた場合にも、システム構成を変えずに対応できるとした。

【お詫びと訂正】
  • 初出時、「各オペレーターの画面にコールバック情報を一覧表示するとともに、未対応のまま一定時間が経過するとアラートが表示される仕組みを導入」と記載しておりましたが、該当個所はNTTテクノクロスのプレスリリース文が誤っておりました。同社がプレスリリースを正しいものに改めたため、本記事も内容を修正しております。また、正しい特徴(この上、2段落)を追記いたしました。

 このほか、話者識別機能(話者ダイアリゼーション機能)に対応し、複数の話者が話す場合でも、話者を識別するために話者の音声を事前登録したり、話者ごとにマイクを分けたりする必要なく、話者の声質や波形などの特徴から、MediaGnosisが自動で話者を識別してくれるとのこと。