ニュース

アドバンスト・メディア、音声認識APIを提供する開発プラットフォーム「AmiVoice Cloud Platform」

 株式会社アドバンスト・メディアは3日、音声認識APIを提供する開発プラットフォーム「AmiVoice Cloud Platform」を一般公開開始したと発表した。

 AmiVoice Cloud Platformは、クライアントアプリケーションに特別なライブラリを組み込むことなく音声認識機能の実装を行える、音声認識APIを提供する開発プラットフォーム。音声文字化や音声対話、音声制御、音声翻訳などの機能を、アプリケーションやWebサイトで利用できるという。

 音声認識APIは、リアルタイム認識、バッチ認識の双方に対応しており、シーンや運用に合わせて、音声データのログ保存の有無を選べるため、運用セキュリティや社内規定に準じながら、音声認識の開発が可能だ。

 このうちリアルタイム認識(WebSocket 音声認識API)では、HTML5でマイク音声が取得可能なWebブラウザや、WebSocketが利用可能なマイコン、IoTデバイスなどさまざまなプラットフォームにて、サーバー型リアルタイム音声認識が利用可能。一方のバッチ認識(HTTP 音声認識API)では、音声を一括処理して文字化を行えるので、HTTPリクエストするだけで音声データを文字に変換できる。

 また、ビジネスで使用することのない不適切な用語や有害な用語を省いた、ビジネスユースに強い言語モデルを採用し、不要語を省くことで誤認識を軽減した。さらに、製品名・固有名詞など、単語のカスタマイズ登録が可能。専門用語や氏名などもスムーズに変換できるようになるので、さらなる認識率の向上を行えるとしている。

 このほか、リアルタイム認識、バッチ認識をすぐに体験できるサンプルプログラムも提供された。各サンプルプログラムには、音声認識APIを簡単に利用するためのライブラリが含まれており、実際のアプリ開発時に利用できる。

 なお、初月は無料で使い放題(20日以降の申し込みは翌月まで無料)となっているほか、毎月60分までは無料で利用可能。以降は従量課金制で、発話区間に対する秒あたりの単価で計算され、無音やノイズ区間など、人の声がない区間では料金は発生しない。価格は、音声データのログを残すプランが1秒あたり0.025円(税別)、ログを残さないプランが1秒あたり0.04円(税別)。

 今回は第1弾として汎用エンジンが公開されているが、今後は領域特化型の音声認識APIの公開も予定する。また、プライベートクラウドやオンプレミスでの対応、個別カスタマイズも可能とのことだ。