ニュース
NTTデータ、特定の業務領域に最適化した言語モデルを自動構築する「ドメイン特化BERT構築フレームワーク」を開発
2021年3月16日 11:04
株式会社NTTデータは16日、汎用言語モデル「BERT」を特定の業務領域(ドメイン)に応じて最適化し、企業の扱う業務文書に適した言語モデルを自動で構築する、ドメイン特化BERT構築フレームワーク(以下、ドメイン特化BERT-FW)を開発したと発表した。
今回開発された「ドメイン特化BERT-FW」は、汎用言語モデルであるBERTに追加学習を行い、利用企業ごとの業務文書にあわせて最適な言語モデルを構築する仕組みである。以前より、一般的なBERTに追加学習を行って、業界特有の知識を学習した言語モデルを作成するアプローチは一定の成果を上げていたというが、一方で、自然言語処理を適用する業務によっては、事前に「業界」の範囲を適切に定義することが難しいといった課題があったとのこと。
これに対して「ドメイン特化BERT-FW」では、対象とする業務文書ごとに最適なデータを収集し、追加学習を行うことでこうした課題を解決している。具体的には、処理対象の業務文書から、学習前の一般的なBERTモデルでは扱いが難しい文章を効率的に選別。主に専門用語を含む文を対象に、類似した文章をインターネットから収集して追加学習することにより、特定ドメインに特化した言語モデルを構築する。
これにより、業界を限定せず、各企業の業務ごとに最適化された言語モデルを提供できるようになった。こうした一連の流れを自動化することで、迅速に言語モデルを構築し、一般的なBERTモデルを上回る精度を実現するという。
なお、ドメイン特化BERTモデルの性能を評価するため、金融系資格試験に解答するタスクで検証を行ったところ、440点満点(合格相当点は308点)中、汎用モデルであるNTT版BERTが280点、NTTデータが2020年7月に構築した金融版BERTモデルが308点だったのに対して、「ドメイン特化BERT-FW」で構築したモデルは328点をたたきだしており、高精度であることが確認できたとしている。
また今回のフレームワークを活用すると、業務最適化モデルを作成する期間を大幅に短縮できる点もメリットとなる。例えば、上記検証向けのモデル作成でのモデル構築に要した期間について、金融版BERTモデルでは構築期間が29日であったのに対し、「ドメイン特化BERT-FW」を用いたモデルは8日で構築できたとのこと。また自動化による副次効果として、業務有識者(利用企業の担当者など)による作業は不要となった。
NTTデータは今後、同社の自然言語処理に関する独自ノウハウや技術を活用し、「ドメイン特化BERT-FW」の実ビジネス適用を進めていくため、利用企業との共同検証5件を2021年度中に行う予定で、検証賛同企業・公共団体を募集している。募集申し込みは7月末まで受け付ける。