MicrosoftがNIIと協定、日本の大学研究者にAzureを無償提供

「情報爆発プロジェクト」をリソース面で支援


プロジェクトの代表を務める東京大学の喜連川優教授

 米Microsoftは1日、国立情報科学研究所(以下、NII:National Institute of Informatics)と協定を締結し、日本の大学研究者に無償でWindows Azureのリソースを提供すると発表した。

 現在、文部科学省の科学研究費補助金による大規模な共同研究「情報爆発時代に向けた新しいIT基盤技術の研究(以下、情報爆発プロジェクト)」が進められている。同プロジェクトは、爆発的に増大する情報に対処するための新IT技術創造を目的に2005年7月~2011年3月まで進められているもので、大学を中心に64の研究班が参画し、NIIが事務局を担当している。Windows Azureのリソースは、同プロジェクトに参加する研究班に無償で提供され、研究開発に使われる予定。

 今日、センサーの低価格化やデータ共有型プロジェクトが主流になるに伴い、科学者たちは大量のデータを基にした研究活動を行っている。情報爆発プロジェクトでも、大量のWeb情報を高度な言語処理によって解析し、意味や意図をくみ取る新たなサーチエンジン「TSUBAKI」が研究開発されている。

情報爆発世界中の人が情報発信。受け取る側の受信能力が追いつかなくなっている
情報爆発プロジェクトの全体像

 TSUBAKIは、言語構造を考慮して日本語の省略や表記揺れを吸収する開放型検索エンジン。日本語Web文書5000万件を解析することで、例えば「高齢化社会で成長が見込める市場」をキーワードで検索した際、Googleでヒットするような「高齢化・市場という文字が含まれたブログ」や「日本の投資家が今後投資すべき分野に関するレポート」ではなく、本当の意味で「高齢化社会で成長が見込める市場」にマッチする情報が見つけ出せるという。

TSUBAKIの概要「高齢化社会で成長が見込める市場」といった文章のキーワードからも、本当の意味でマッチする情報をいかに検索するか
プロジェクト内でInTriggerを構築。これでも研究の目的からするとリソース不足
TSUBAKIのさらなる深化にWindows Azureが貢献

 同プロジェクトでは、この研究のために15拠点・1600CPUコアの実験環境「InTrigger」を構築している。約58の研究グループで利用しているが、「研究機関が予算を出し合ってもこの規模が限界。さらにTSUBAKIを深化させるためには、3億Webページ(約200億文書)を構文・格解析する必要があり、必要なリソースに換算すると1万CPU・日にも及ぶ」(プロジェクトの代表を務める東京大学の喜連川優教授)という。この不足分をWindows Azureで補うのが今回の主な内容となる。

 それ以外にも、例えば、TSUBAKIの格解析を応用し、「やっぱり<車種X>が買いたいなあ」=「欲求」「ポジティブ評価」、「昨日、<車種X>を買いました」=「過去」「事実」などテキストから心的態度や事実性を推定し、書き手の「心」を推測する、その解析基盤として――。また、スパコンとクラウド連携、認証・認可技術の研究、世界中のさまざまなクラウドを有機的に連携させる研究、ならびにクラウドへいかに効率良く大規模データを転送するかといった研究に、さまざまな形でWindows Azureを活用していく。

 喜連川教授によると「クラウドに膨大なデータがすべて格納されてしまえば、そこからはさまざまな有効活用ができるのだが、今課題となっているのは、いかに効率良くクラウドにデータを転送するか。ダイレクトな転送だと4~5MB/秒程度しか性能は出せず、例えば先ほどの3億Webページの解析となると、もしかしたら解析する時間より転送時間の方が圧倒的にかかってしまうかもしれないのだ」という。

ほかにもテキストから書き手の「心」を推測する研究にも活用インタークラウド間の大規模データ転送の遅延も解決すべき大きな課題

 Windows Azureは、インターネット上でWebアプリケーションのホスティング・拡張・管理を行うコンピューティング・ストレージ資産を、Microsoftのデータセンターからオンデマンドに提供するもの。Microsoftの研究者や開発者は、NIIおよび情報爆発プロジェクトとの協業の下、広範な学術コミュニティとの間で共有可能な一連の共通ツールやアプリケーションを提供するほか、科学研究やクラウドコンピューティング分野における専門的な知識や経験を提供する。

Microsoft エクストリームコンピューティンググループ担当コーポレート バイスプレジデントのダン・リード氏

 Microsoft エクストリームコンピューティンググループ担当コーポレート バイスプレジデントのダン・リード氏は、「科学には今や専門分野の境界がなく、多分野の情報を共有・分析する必要がある。あまりに膨大なデータを扱うため、研究の現場では自分たちのデスクトップの1万倍もの能力が必要となっている。また新技術の進展もめまぐるしく、常にインフラを刷新する必要があるため、研究者はまるでシステム管理者のような仕事を余儀なくされている。研究者はスパコンの使い方を覚えたいわけではなく、研究に集中できる環境がほしいだけなのに。当社からはWindows Azureを無償提供するほか、デスクトップ上で使える標準的な科学的分析ツールを、クラウドに向けてシームレスに拡張できる仕組みを提供する。また、クラウドの共用を通じて、研究コミュニティ構築のための新たな手法を実現していく」と説明した。

複雑な問題に解答できるシンプルなツールを提供する共同プログラムの内容

 提供するリソース規模は現状未定。また期間についても未定だ。情報爆発プロジェクト自体は2011年3月に満期を迎えるが、「IT、特に基盤に関連する研究は一朝一夕で目的にはたどり着かない。その後、新たなプロジェクトに継承され、発展していく可能性もある」(喜連川教授)としており、Microsoftも「少なくとも1年間は無償提供する。その後は、研究の成果などに応じて、支援の延長も検討していく」(リード氏)としている。

左から、NII安達淳教授、NII坂内正夫所長、喜連川教授、リード氏、マイクロソフト加治佐俊一CTO
関連情報