ニュース

ヤフー、分散表現の学習時間を短縮化するAI技術「yskip」をOSSとして公開

 ヤフー株式会社(以下、Yahoo! JAPAN)は18日、AI・自然言語処理技術の一つである分散表現の学習時間を短縮化する技術「yskip」をオープンソースソフトウェア(OSS)として公開した。

 分散表現は、単語をベクトルで表現する自然言語処理領域のAI技術の一つで、この技術を用いることにより、大量のテキストデータからさまざまな単語の関係性を機械学習し、単語同士の意味の相違を機械的に推定できる。Yahoo! JAPANでは、ユーザーの興味関心情報と記事や広告のマッチングの裏側の技術として活用している。

 分散表現は、より大量のテキストデータを用いて学習することで、精度向上が期待されるが、日々増加し、新たなトレンドも生まれてくる「検索キーワード」や「SNSのつぶやき」など、インターネットサービス上のテキストデータを活用する場合は、分散表現の学習モデルを頻繁に更新することが求められる。その際には、新しいデータだけでなく、既に学習したデータもあわせて一から学習しなおす必要があり、その都度学習時間がかかるなど非効率な点が問題となっていた。

 こうした課題を受け、Yahoo! JAPANでは新しいデータのみの学習で、全データで学習する場合と比べて学習時間を短縮化しつつ、同等精度を維持する分散表現技術「yskip」を開発。18日からGitHub上でOSSとして公開した。

 Yahoo! JAPANでは、Twitterに投稿されたつぶやきを検索できる「リアルタイム検索」の裏側でyskipを用いて、サービスの質の向上に役立てていると説明。OSSとして公開することで、今後は広くAIエンジニア、研究者に利用してもらうことで、サービス開発や研究開発の効率化に活用できるとしている。

 yskipは、代表的な分散表現学習法であるskip-gram model with negative sampling(以下、SGNS)を拡張した技術で、yskipと従来の学習法SGNSを、分散表現の精度を測定するために使われている5種のデータセットで検証したところ、同等精度で学習可能であることが実証されたという。詳細については、2017年9月に開催された自然言語処理領域の国際会議「EMNLP2017」において、論文として発表している。また、開発者による技術解説記事を、Yahoo! JAPAN Tech Blogでも公開している。

 また、技術は導入後の特許侵害の発生リスクをおさえ、安心して利用できるようにするため、特許権を取得していると説明。研究用途だけでなく商業用途も含め、その特許権のライセンスを無償提供する形で、OSSとして公開した。Yahoo! JAPANでは、OSS公開を通じて、技術のさらなる利便性向上を図り、データサイエンス領域の研究者・エンジニアコミュニティへ貢献したいとしている。