GoogleやTwitterら、「東日本大震災ビックデータワークショップ」開催

　Twitter Japan株式会社、グーグル株式会社が幹事を務める東日本大震災ビッグデータワークショップ運営委員会は、9月12日より「東日本大震災ビッグデータワークショップ」を開催すると発表した。

　ワークショップでは、東日本大震災の発生から、テレビ、新聞、インターネットを通じて流れた大量の情報がどのように発信され、流通したかを、当時の実データを用いて検証する。ワークショップへの参加を広く募り、さまざまな角度からの検証を行うことで、次に災害に向けての適切な情報流通施策の提言と各種サービスのプロトタイプ開発を目的とする。


ワークショップへの参加方法	ワークショップ参加者への期待

　ワークショップには、幹事社であるTwitterとグーグルの2社に加えて、データ提供パートナーとして朝日新聞社、JCC株式会社、株式会社ゼンリンデータコム、日本放送協会、本田技研工業株式会社、株式会社レスキューナウの6社が参加する。8社が提供するデータは以下の通り。

・朝日新聞社
　2011年3月11日～17日の朝日新聞本紙に掲載された記事

・グーグル
　Google Insight for Search：検索キーワードの時間遷移・地域比較などのツール。データはCSVでダウンロード可能。（CSVデータはすでに公開済み。参加者からの意見により追加を検討する予定）

・JCC
　2011年3月11日～17日の東京キー6局（NHK、日本テレビレ、TBS、フジ、テレビ朝日、テレビ東京）の災害に関する全テレビ情報要約文（秒単位の時間情報付き）と全CM、当時実際に放送された6局分の番組表（実績番組表）。

・ゼンリンデータコム
　2011年3月8日～17日の期間にGPSで取得した位置情報を250mメッシュに分割。メッシュ内の人数を1時間単位で推定したデータ。

・Twitter Japan
　2011年3月11日～17日の国内のツイートのデータ全文。緯度経度付きのツイートについては、別にツイートIDで提供。

・日本放送協会（NHK）
　2011年3月11日のNHK総合テレビで全国向けに放送された、大震災発生後から24時間分（12日15時まで）の音声を文単位で書き起こし、タイムコード（10分単位）、話者、内容などの項目を付けたExcelデータ。合わせて頻出ワードを抽出し、ランキングを一覧表示したデータを提供。

・本田技研工業
　2011年3月11日～17日のカーナビ、Honda インターナビの走行実績データを活用した通行実績情報。

・レスキューナウ
　2011年3月11日～17日に、レスキューナウが独自に取材・配信した鉄道情報、原発事故および停電などのライフライン情報、東日本大震災に関連する被害状況などのまとめ情報

　これらのデータを利用した分析、サービスの開発を希望する研究機関、企業、団体、開発者はワークショップ公式サイト（ https://sites.google.com/site/prj311/ ）にアクセスして規約に同意することで、ワークショップへ参加することができる。参加した団体は、研究や開発の成果および途中経過を10月28日の報告会で発表する。

■包括的にデータ提供することで、思いもよらないサービスがうまれてくるのでは

Twitter Japan株式会社　ビジネスディベロップメントディレクター　牧野友衛氏

　東日本大震災ビッグデータワークショップ運営委員会のTwitter Japan株式会社　ビジネスディベロップメントディレクター　牧野友衛氏は、「これまで様々な組織が様々なプロジェクトを行ってきているが、企業や組織を超えた横断的な連携ができていなかった」として、企業単体、組織単体を超えたプロジェクトの必要性を強調。

　プロジェクトの主旨にご賛同いただいた企業からデータの提供を受けることで、インターネット上の情報検索の状況など幅広いデータが包括的に解析することが可能になったとして、「これらを包括的・横断的に解析することで、1社ではできなかった研究成果や、新しいサービスが生まれることを期待したい。グーグルもTwitterもAPIを通じて、提携企業や開発者がさまざまなサービスを作ってきた経緯がある。今回も、包括的にデータ提供することで、思いもよらないサービスがうまれてくるのではないか」とプロジェクトの抱負を語った。

　Twitter Japanが提供する国内の1週間分のツイートはテキストデータながら、30GBを超える量になるという。Twitterでは通常、過去のツイートを個別に遡ることはできるものの、ツイートを一括ダウンロードするような形のデータ提供は行っていない。これだけのデータをまとめて得ることができるのは特別な機会と言えるが、テキストで30GBというような分量は通常ではどんな現場でも扱うことはほぼないので、大学などでもデータが大きすぎて扱いきれるかという声が上がるほどだという。

■「タッグを組む練習を」～産官学を超えた連携を生む場所に

グーグル株式会社　シニアエンジニアリングマネージャー　賀沢秀人氏

　東日本大震災ビッグデータワークショップ運営委員会のグーグル株式会社　シニアエンジニアリングマネージャー　賀沢秀人氏は、ワークショップが1カ月半と長期にわたることについて、「通常ワークショップは数日という期間で開催するが、今回はデータの量が非常に多い。Twitterのデータはテキストデータで30GBを超えている。また、これまでサービスの開発現場にあまり出てきたことのないようなデータがたくさん出てきている。そのため、解析には時間がかかると思っている」と説明。

　データの量が多く、またデータ形式が多彩であるため、一団体、一組織ではなかなか難しい面もあるとして、「共同開発には時間が必要なので、ワークショップとしては異例だが、1カ月半という長期にわたって開催したいと考えている」と述べた。

　「当時のデータを見てサービスを開発していただく、ということだけが目的ではなく、タッグを組む練習をしてほしい」と強調。自身がエンジニアでもあり、「われわれ開発者は手は動くが、何をしたらいいのかという方向性を決めるところの視点については素人なので、専門家の視点を得て、一緒に何かをしたいという気持ちが強い願いとしてある」として、プロジェクトを「産官学を超えた連携を生む場所にしたい」と述べた。

　また、10月28日に開催する報告会については、「報告会という名前から、完成形のものを見せるというイメージになってしまうが、ここではまったく未完のものでかまわない、あるいは失敗してしまったものでもかまわないと考えている。うまくいかなかった、あるいはできていないものを見せるのは勇気の要ることだと思うが、ここまではできたが、ここから先ができなかったといった知見や経験がが、この次には非常に重要になると考えている」とコメントした。

■「現象を予測しただけでは、減災につながらない」東北大学　今村教授

東北大学災害科学国際研究所　副所長　今村文彦教授

　ワークショップに研究チームとしても参加する東北大学災害科学国際研究所　副所長　今村文彦教授は、「東日本大震災から1年経って東北大学では『災害科学国際研究所』を立ち上げた。津波の発生のメカニズムや、マグニチュード9という地震の実態などの研究は進められているが、今回の被害について、社会状況で何が起きたのか、2万という規模の人的被害がなぜ生まれたのか。当時の人、社会現象、そういうものをきちんと理解するデータは十分ではなかった。今回さまざまな組織から得られたデータを合わせることで、そういった状況がわかるのではないかと考えている」とコメント。

　「現象を予測しただけでは、減災につながらない」と述べ、「それをひとりひとりにきちんと伝えることが重要だ。その上で、災害情報というものが大きな役割を果たしていると考えている。情報の信頼性、利用性、具体性を兼ねていないと、なかなか実際の人々を動かすことにつながらない。今回、東日本大震災発生直後のデータをいろいろな視点で検証することで、この次にどういう情報をどのように伝えることができると考えている」と説明。正しい予測だけでなく、実際に人々の避難行動につながるような情報伝達が重要であると強調した。

　また、今村教授は、「大災害に際して、『情報の空白期』というのが必ず起きる。実際にどこまでが空白エリアであるのかといった検証や、何をどう伝えれば、空白期に役に立つのか、そうした知見が得られることを期待している」とコメント。

　「今回のデータでは、ゼンリンのデータでは人の移動、人の避難状況がわかる、本田技研のカーナビのデータで車の移動状況がわかる。揺れの状況、津波の情報、浸水などの公的な情報と、個人がどう行動したかという情報を俯瞰することで、さまざまなことが見えてくるのではないかと考えている」として、プロジェクトへの期待を述べた。

GoogleやTwitterら、「東日本大震災ビックデータワークショップ」開催

■包括的にデータ提供することで、思いもよらないサービスがうまれてくるのでは

■「タッグを組む練習を」～産官学を超えた連携を生む場所に

■「現象を予測しただけでは、減災につながらない」東北大学 今村教授

■「現象を予測しただけでは、減災につながらない」東北大学　今村教授