ニュース

NTT Com、自然言語解析APIサービスで音声認識API機能を提供

日本語の発話内容をテキストデータ化可能に

 NTTコミュニケーションズ株式会社(NTT Com)は、自然言語解析を手軽に利用できるAPIサービス「Communication Engine “COTOHA API”」(以下、COTOHA API)において、音声認識APIを3月26日より提供開始すると発表した。

 COTOHA APIは、NTTグループが長年にわたって培ってきた自然言語解析技術の研究成果を、手軽に利用できるよう提供しているAPIサービスで、今回、その新機能として追加される音声認識APIでは、日本語の発話内容(音声データ)を認識し、日本語のテキストデータに置き換えることができる。

 音声認識には、NTTグループのAI関連技術「corevo」の研究成果を活用しており、人間の声を深層学習によって精緻に分析できるほか、雑音に強い独自の音響モデルと発話区間検出技術も備えているため、高い認識率を実現しているとのこと。

 また、このAPIが処理した音声データ、認識結果のテキストデータとも、サーバー上には一切保存されないので、個人情報を含む通話記録、社内会議の音声など、機密性の高い情報も安心して取り扱えるとした。

 さらに、認識精度を高めるために、ユーザーの用途に合わせ、よく使う業界用語、専門用語、自社の商品やサービス名など登録する機能も備えている。なおNTT Comでは、利用開始月を含む3カ月間の無料期間中には、精度向上のための単語登録に関するサポートを希望するユーザー向けに提供するとのこと。

 NTT Comでは、この仕組みによって、人間が話した内容をコンピュータが処理しやすいテキストデータに変換することにより、AIを利用したさまざまなサービスにおいて、音声入力インターフェイスとして利用できるとアピールしている。

 COTOHA APIの利用料金は、月額基本料金13万円(税別)に加えて、APIコール数に応じた従量課金が加算される仕組み。音声認識の場合は、約5万分/月まで基本料金のみで利用できる。

 なおNTT Comでは、このAPIを活用したサービスの開発・提供も行っていく計画で、まずは、コンタクトセンターの通話録音データをテキスト化し、応対内容や顧客の声の可視化を実現するクラウドサービス「COTOHA Voice Insight」を、4月より提供する予定。

 またリモート会議サービスの付加機能として、会話されている内容をテキスト化し、リアルタイムで画面に表示できるようにする「Arcstar Conferencing TV Conferencing字幕翻訳機能(仮称)」も、4月よりPoC受付を開始する。

 このほか、翻訳APIと組み合わせ、会話内容をリアルタイムで翻訳する仕組みも2019年度中の提供を計画しているとのこと。