ニュース

TIS、自然言語処理・機械学習向けデータ作成ツール「doccano」をOSSで公開

 TIS株式会社は6日、自然言語処理・機械学習向けのデータ作成ツール「doccano(ドッカーノ)」を、オープンソースソフトウェア(OSS)として公開すると発表した。

 doccanoは、自然言語処理・機械学習に使われるラベル付きデータ(教師データ)の作成を容易にするアノテーションツール。テキスト分類、系列ラベリング、系列変換という3つの基本的なタスクで使用するデータを作成でき、セットアップが容易で英語のほか日本語にも対応する。

 doccanoを利用することで、作成に特に手間がかかる系列ラベリングのデータが簡単に作成できる。テキスト分類や系列変換は、Excelなどの帳票ツールでも作成できるが、系列ラベリングでは文字/単語単位でデータを作る必要があるため、帳票ツールのみでは作成が困難となる。系列ラベリングにdoccanoを活用すれば、対象の単語を選択して、ボタンまたはショートカットキーを押すだけでラベル付けが可能となる。

 これまで手間だった自然言語処理・機械学習向けのデータ作成を容易にすることで、機械学習・自然言語処理を適用できる業務を拡大できるとしている。

 TISでは、機械学習・自然言語処理の研究・開発を行うためには教師データが欠かせないが、教師データの作成には非常に手間がかかるという課題があると説明。TISが公開した機械学習で感情解析を行うためのデータセット「chABSA-dataset」においても、作成には多くの手間がかかったとして、その経験を元に今回、doccanoを開発し、OSSとして公開した。

 また、doccanoを利用することで、機械学習・自然言語処理に用いるデータの作成が容易になるが、ラベルの定義を明確にするといった、データ作成における本質的な難しさのサポートにはまだ改善の余地があるとして、TISではdoccanoをOSSとして公開し、より多くのフィードバックを得ることで、ツールの改善に活かしていくとしている。