Infostand海外ITトピックス

全米を二分する騒動に 「Yanny」「Laurel」論争

各社の音声認識技術では?

 音声ファイルが出てきた経緯はどんなものだたのだろう――。Wired.comなどが明らかにしている。

 5月11日、ジョージア州の女子高生がVocabulary.comで勉強していた時、Laurelの再生音がYannyに聞こえた。彼女はそのファイルをInstagramに投稿し、その友人が音声をビデオに作り直し、投票形式にしてInstagramに再投稿した。Redditにアップされたのは、その動画ファイルだった。

 ファイルを拡散させたCloe FeldmanさんのTwitterは27日現在、再生回数約2660万回、リツイート約9万2000となっている。ほとんどは14日の公開から3~4日の間のもので、猛烈な勢いで拡散したが、経緯が明らかになるにつれて、みるみる沈静化していった。

 こうした「知覚の問題でネットユーザーを2分した事件として「The Dress(ドレス事件)」が有名だ。2015年、Tambreに投稿された写真の女性のドレスの色が「白と金」か、「青と黒」かで世界中のネットユーザーが議論したものだ。

 Yanny/Laurel論争は、これを上回る勢いとなった。バイラルによる拡散、認知などの点で、歴史に残る事件の一つと言えるだろう。

 ところで、この話は機械音声認識の観点からも興味深い。AIの聴き取り能力だったら、どう判断するのかという疑問が浮かぶ。音声技術のSonixは、自社の製品と、Google、Amazon、IBMのそれぞれの音声認識APIに聞かせて、どのように認識するかを実験してみた。

 結果は、GoogleとSonixが、正しく「Laurel」と聴き取り、Amazonは「Year Old」と聞き違い、IBM Watsonは、時によって「Yeah role」あるいは「Laurel」と認識したという。

 AIの音声認識は、なかなかの所に来ていると言っていいだろう。