Infostand海外ITトピックス

AI企業・コミュニティが参戦 新型コロナとの戦い

自然言語処理で高速に情報分類

 CORD-19は合衆国大統領行政府内の科学技術政策局(OSTP)の要請を受けてスタートした。「Allen Institute for AI」(AI2、アレン人工知能研究所)、「Chan Zuckerberg Initiative」(CZI、Mark Zuckerberg氏が夫人とともに代表を務める慈善団体)、ジョージタウン大学のCenter for Security and Emerging Technology(CSET)、Microsoft、アメリカ国立衛生研究所の国立医学図書館(NLM)と、国の機関、非営利団体、企業が結集している。

 それぞれの役割は、NLMが既存の学術文献を提供。Microsoftは関連する論文を発見するための文献をキュレーションするアルゴリズムを提供。AI2はWebページからPDFに変換し、アルゴリズムが処理できる構造化フォーマットにする技術「Semantic Scholoar」を提供した。データセットそのものはSemanticScholarのWebサイトで公開されている。

 AI2のSemantic Scholoarは学術論文から重要なポイントを抽出できる自然言語処理などの機械学習技術で、プロジェクトで重要な役割を果たしている。Semantic ScholoarのゼネラルマネージャーDoug Raymond氏は、「中国から韓国まで、さまざまな文献を提供する。新しいマスターリソースを使うことなくして、研究者が包括的な情報を見つけるのは難しい」とThe Registerにコメントしている。

 プロジェクトをホスティングするKaggleは、企業や研究者がデータを投稿して挙げた課題に対して、統計やデータサイエンスの専門家(アマチュアも可)がコンペの形で最適なモデルを競うプラットフォームだ。2017年にGoogle子会社となり、翌年には“Kaggler”と呼ばれる登録者は100万人を超えた。さらに拡大中で、データサイエンス分野で最も活発なコミュニティとなっている。

 共同創業者兼CEOのAnthony Goldbloom氏は、「(手作業では不可能な文書整理にも)技術分野の発展が寄与できる。400万人のデータサイエンティストの前に、機械が読めるようにした文献を用意した」と解説する。

 CORD-19のデータセットは常時アップデートされており、新しい関連文献を取り込んでいく。また、治験データへのリンクも用意する。