ニュース

東芝、高精度音声認識AIとリアルタイム字幕化技術により、読みやすい字幕を表示する「会議・講演向け音声自動字幕システム」を開発

 株式会社東芝は14日、リアルタイムで会議や講演などにおける発話を高精度にテキスト化し、読みやすい字幕を表示する技術を開発したと発表した。

 開発した技術は、発話者の音声を高精度に認識し、「ええと」「あの」など発話の合間に挟み込むフィラーや、「きょ、今日は」などの言いよどみを瞬時に検出し、表示を工夫することで、視聴者が読みやすいリアルタイム字幕を自動的に表示するもの。この技術を活用することで、聴覚障がい者に、音声を文字にして情報を提供する情報保障の拡充を支援できるとしている。

 東芝では、一般的な音声認識では「あ、い、う……」のような音韻を識別する音響モデルと、「今日は」の次に来る単語の確率が「雨0.25、晴れ0.25、曇り0.25、良い0.25」などといった単語の連鎖をモデル化した言語モデルの2つのモデルを使うと説明。

 今回開発した音声認識AIでは、音響モデルとして隠れ層に再帰構造のあるRNN(Recurrent Neural Network)の発展形の一つであるLSTM(Long Short-term Memory)と、空文字の導入と損失関数に工夫により入出力で系列長が異なる問題に対してRNNを導入するための手法であるCTC(Connectionist Temporal Classification)学習を用いることで、人間のフィラーや言いよどみ発声時の音響的特徴を学習することを可能とした。

 音声認識時には、学習された音響的特徴に基づいて、フィラーや言いよどみを検出することが可能。検出したフィラーや言いよどみはリアルタイム字幕表示の際に薄く表示することで視聴者の読みやすさを向上させ、ドキュメントとして残す際には消去することで簡潔な形で仕上げられる。

 また、言語モデルとして、言いよどみが検出された場合には、その単語をスキップして連鎖スコアを計算。例えば「私の き 今日の発表は」という発言の時に、「き」という言いよどみ単語が検出されたときは、「私の」の次に「今日」が来るスコアを算出することで、通常の文章にはないイレギュラーな単語の連鎖をモデル化する必要がなくなるという。

 東芝では、社内実証実験の中で、デザイン部門と協力して直観的に見やすいリアルタイム字幕表示方法を考案。前述のフィラー・言いよどみ単語を薄く表示する工夫も、この検討による成果の一つとしている。

 東芝では、2015年から社内の聴覚障がい者を対象にした実証実験では、「発言がリアルタイムで把握できるため情報量が格段に増えた」「十分に効果がある。早く実用化してほしい」など高い評価を得たと説明。また、技術を搭載した音声自動字幕システムを5つのメインセッションがある実際の講演で実証実験を行ったところ、編集や事前学習なしで、発言内容が把握できるレベルである85%の平均音声認識率という結果になり、アンケートでは字幕システムが「できる限り必要」と回答した約40%を含め、全体の約90%が「あっても良い」と回答するなど、良好な結果が出たという。

 東芝では今後、開発した音声認識技術を東芝コミュニケーションAI「RECAIUS」の基本技術に搭載することを目指して、検討を進めていく。また、技術の効果をさらに測定するため、3月14日~16日に福岡大学で開催される「情報処理学会 第81回全国大会」のリアルタイム字幕付きの生中継を、株式会社ドワンゴのニコニコからオンライン配信する。