ニュース

NECが新たな声認証技術を開発、自然会話における認証時間を10秒から5秒に半減

 日本電気株式会社(NEC)は19日、声認証技術を強化し、フレーズに依存しない自然会話において、より高精度な認識が可能になったと発表した。

 声認証には、特定フレーズの発話音声データを登録および認証に用いる「テキスト依存方式」と、特定フレーズに依存せず、非定型の自然な発話データを登録して認証に用いる「テキスト独立方式」の2方式がある。

 このうちテキスト独立方式は、自然会話から認証が可能であるため、発言スピード、アクセント、言語に依存せず、応用・活用の場が広く期待されているものの、これまでは、認証に10秒以上の長い発声が必要といった技術的制約があった。

 しかしNECでは、深層学習を用いた新手法を開発し、認証時間を10秒から5秒に半減したという。

 具体的には、まず、多層構造のニューラルネットワークに数千人規模の音声サンプルを与え、本人と別人の音声を比較・学習することで、多層構造の中に最適な「特徴抽出ロジック」を形成する。

 このロジックは、音声全体を検索する「特徴抽出ネットワーク」と、話し方、クセ、イントネーションといった個人特有の音声パターンの箇所を検索・抽出して重みづけする「注意ネットワーク」で構成されており、手掛かりのとぼしい短時間の音声から、効率よく個人の特徴をとらえられるようになったとのことだ。

 一方で、背景雑音や劣悪な通信環境下での電話会話、複数話者の声が混在する状況など、人でも聞き分けることが困難な環境において、従来は10%程度だった誤認証率を5%へと半減させ、95%という高精度な個人認識を可能にした。

 一般的に、環境変動に強く、誤認証を防ぎ高精度な認証を行うためには、より多くのサンプルデータを集めることが必要とされている。今回NECは、1つの音声データにノイズや改変を加えることによって別の音声データを作り上げるという、独自のデータ拡張技術を活用。学習に有効な音声データの話者数を約5倍、データ量にして約20倍に拡張することにより、より多くのサンプルデータを収集可能とし、深層学習を用いた新手法との組み合わせにより、誤認識率を低減させた。

 なお、これらの研究開発は、東京工業大学 情報理工学院 篠田浩一教授との共同研究を通して行われた。また95%の個人認識の認証精度は、米国国立標準技術研究所(NIST)が開催する第三者評価において実証されたとしている。

 NECでは、今回開発された技術を用いると、特定のフレーズに限らない短い発声からでも、個人の特徴を正確に抽出・識別できるため、音声を利用した簡便なユーザーインターフェイスでの高いセキュリティを実現するとアピール。

 コールセンターなどの顧客応対業務における本人確認手続きの効率化、ほかの生体認証との連携によるeコマース、テレホン/ネットバンキングにおける決済手続きの利便性向上、また音声鑑定のような犯罪捜査支援への応用などを視野に入れており、2020年の実用化を目指して開発を進めるとしている。

特徴抽出ロジックを組み込んだ声認証の概念図