ニュース

アドバンスト・メディア、音声認識APIで認識結果を話者ごとに振り分ける機能を提供

石井一志

2022年2月7日 14:34

　株式会社アドバンスト・メディアは7日、音声認識APIを提供する開発プラットフォーム「AmiVoice Cloud Platform」をアップデートすると発表した。複数の話者が入り交じった音声データでも発話者を特定し、認識結果を話者ごとに振り分ける「話者ダイアライゼーション」機能を、非同期HTTP音声認識APIの無料オプションとして提供開始する。

　AmiVoice Cloud Platformは、クライアントアプリケーションに特別なライブラリを組み込むことなく音声認識機能を実装できる、音声認識APIの開発プラットフォーム。音声文字化や音声対話、音声制御、音声翻訳など、アプリケーションやWebサイトなどの各種サービスに使用できる。

　今回提供するオプションの話者ダイアライゼーション（Speaker Diarization）は、複数の話者が含まれる音声に対して、誰がいつ話したのかを推定する技術で、アドバンスト・メディア独自の音響モデルを用いて、事前学習なしで音声から発話者を推定し、発言内容と発話者を自動的にひも付けるという。

　なお同機能は、非同期HTTP音声認識APIの無料オプションとして提供され、会議や対面営業、面談、動画への字幕付与など、複数人が話をするシーンで利用できるが、最大3時間までの音声にのみ対応するとのこと。