ニュース

TIS、機械学習で感情解析を行うためのデータセット「chABSA-dataset」を無償公開

 TIS株式会社は10日、機械学習で感情解析を行うためのデータセット「chABSA-dataset(チャブサ・データセット)」を無償公開すると発表した。

 chABSA-datasetは、上場企業の有価証券報告書(2016年度)をベースに作成されたデータセットで、各文に対してネガティブ/ポジティブの感情分類だけでなく、「何が」ネガティブ/ポジティブなのかという観点を表す情報が含まれる。こうした観点単位の感情分類を機械学習モデルに学習させることで、より高度な解析が実現できるとしている。

「chABSA-dataset」に収録されているデータのイメージ

 また、今回公開する「chABSA-dataset」は、上場企業の有価証券報告書をベースとしているため、機械学習による企業分析にも活用できる。

 TISでは、機械学習・自然言語処理を用いた業務の生産性向上について研究・開発を行っており、その取り組みの一つとして、機械学習・自然言語処理を用いて観点に沿って情報をまとめる「観点要約」に取り組んでいる。

 観点要約は、例えば議事録であれば決定事項やToDoといった特定の「観点」に沿って文書をまとめるもので、文章から情報を抽出・要約する際には、まとめられた文書が「どれだけ短いか」という点より、「必要な情報が抜けていないか」という点が重視される。

 chABSA-datasetは、この観点要約の研究の一貫で作成されたもので、chABSA-datasetを利用することで、「何が」良い評価・悪い評価なのかを判断する機械学習モデルの開発が可能になると説明。こうしたモデルは、将来的にはマーケティングデータに対し、「商品のどういった点が評価され、どういった点が不満に思われているのか」などの分析に役立ち、各商品を同じ観点で評価することが可能になるため、商品間の評価の比較を行う際にも活用が期待できるとしている。

 TISでは、同様の研究を行う研究者にも活用してもらい、その知見を交換することを目的として、chABSA-datasetを無償公開した。

 また、観点要約では、ユーザーの指示する様々な「観点」を理解し、それに沿って文書をまとめることが必要になる。TISでは、こうした柔軟な解析を実現するためには、あるタスクを行うために学習させた機械学習モデルを、別のタスクを行えるよう少ないデータで「転移」させる技術である、自然言語処理における「転移学習」が有力な技術であると考えていると説明。観点要約以外でも、転移学習を用いて少量のデータでカスタマイズ可能な自然言語処理の機能を今後開発していく予定としている。