ビッグデータ解析でバイオサイエンスに新風を吹き込むMKIの挑戦

「SAP HANA以外の選択肢はなかった」


 2011年11月、三井情報株式会社(MKI)は同社が長年培ってきたバイオサイエンス分野のノウハウを活かすためのビッグデータソリューションを発表した。癌研究におけるゲノム解析と創薬開発プロセスにおける化合物データ解析をSAP HANAを基盤としたインメモリプラットフォーム上で行い、ビッグデータのリアルタイム情報分析に取り組む実証実験に着手するという。バイオサイエンス分野におけるビッグデータ解析という世界でも数少ない取り組みに対し、SAPおよびSAPジャパンも全面的な協力を約束している。

 MKIはなぜこのプロジェクトにSAP HANAを選択したのか。そして、ビッグデータ解析がバイオサイエンスの世界をどのように変える可能性を秘めているのか。今回、MKI R&Dセンター ITリサーチ室長 濱本佳政氏、同R&Dセンター バイオサイエンス室 室長 菊池紀広氏にお話を伺う機会を得たので、これを紹介したい。


HANAが可能にしたゲノム解析の高速化

MKI R&Dセンター バイオサイエンス室 室長 菊池紀広氏

――現在、HANAを使ってどういった実証実験を行っているのでしょうか。

菊池氏: おもに中国・上海にあるSAPのラボで実験を行っています。具体的にはデータ解析にHANAを利用した場合と利用しない場合を比較し、さらにさまざまなオープンソースのツールを組み合わせ、ゲノム解析のどのプロセスにHANAを適用すれば最も効果的かを検証しています。並列データ処理にはHadoopを、解析にはR言語を使っています。R言語はゲノム解析の世界ではよく使われていた言語なので、違和感なく利用できます。現在、Hadoopを組み込んだ全体的なパフォーマンスチューニングを行っており、9月ごろにはベストプラクティスをご紹介できるのでは、と思っています。

――HANAをゲノム解析に使うメリットは?

菊池氏: いちばん大きいのはゲノム解析のライブラリをHANAの外部ライブラリとして組み込める点です。ゲノムや化合物の何百万にも及ぶライブラリを登録し、ライブラリどうしを自在に組み合わせて、分析をどんどん拡張していける。しかもインメモリなので従来に比較して非常に高速に実行できます。このメリットは大きいですね。

 もちろん、解析するデータ量やプロセスの複雑さにも依りますから、すべての解析をリアルタイムで行うことは無理です。ただ、PythonやJavaを使ったバッチ処理を行った場合でも、従来よりはずいぶん速くなったと実感しています。

――実験ではどのくらいのデータ量を扱い、どのような解析を行っているのでしょうか。

菊池氏: ひとりの人間がもっているヒトゲノムの数は約30億塩基対です。これにその他のデータも含め、患者さんひとりあたりのデータ量は数十から数百ギガバイトくらいになります。

 解析の例を挙げると、健常者と癌患者のデータを比較し、ゲノムのどの部分で異常が起こっているかを読み取っていきます。癌の発生はゲノムの異常が原因だとされていますが、ゲノムの変異解析を高速に行うことができれば、癌化のメカニズムや治療薬の発見に大きく役立てることができる。ですから正常細胞との比較による変異解析は非常に重要なのです。

 しかし、これまではゲノムデータの全領域を読み取るのに時間がかかること、そしてデータ量が大きくなることがネックとなっていました。ゲノムデータは大きすぎるので一気に読み込むことはできないため、何回かに分けて読み取るのですが、読み取りの回数が少なければ不正確なデータになり、逆に多ければデータの重複が増え、無駄が生じるという結果になりがちでした。これがHANAを使うようになってかなり効率化されることが実験で判明しています。

――医療データ、とくにゲノムのデータなどは個人情報のかたまりのようなものですが、データ取り扱いに関しては何か基準があるのでしょうか。

濱本氏: 基本的には経済産業省が出している「経済産業分野のうち個人遺伝情報を用いた事業分野における個人情報保護ガイドライン」に則ってデータを扱っています。個人が特定されるデータはすべてローカルサーバに置いてアクセスも厳重に管理していますし、解析に使う場合は匿名化のためのマスキングを実施するなど、当然ながらセキュリティには細心の注意を払っています。


大量のデータを安く速く解析したいというニーズ、そこにHANAがあった

MKI R&Dセンター ITリサーチ室長 濱本佳政氏

――バイオサイエンスの分野でHANAのようなソリューションを導入したいという声は以前からあったのでしょうか。

濱本氏: 創薬開発や大学、医療の現場からは常に「もっと速く解析を行いたい」という要望がありました。正確な研究結果を得るには大量のデータが必要になりますが、その解析に数日以上かけなくてならないという事態は、開発の現場にとって非常につらいことです。スーパーコンピュータを使って解析を行っている大学や研究機関もありますが、できればどこもコストをそれほどかけたくないのが本音です。

 例えば、創薬開発では化合物の分析を毎日行います。薬のタネになるような化学物質を発見するべく、膨大な種類の化合物を分析するわけですが、データ量が多ければ多いほど、作業を効率化したいと思うのは当然のことでしょう。プレスクリーニングで候補を絞り込んだり、予測モデルを活用したり、大量のデータを利用した機械学習を行うことで、たとえば副作用が出るポイントや、特定の症状に効果的な組み合わせを発見できる可能性は高まります。そういった作業をコストをかけずに、かつ高速に行うために、我々はどんなソリューションを提供できるのか、これはバイオサイエンスの分野にずっと携わってきた者にとっての使命でもあります。

 バイオサイエンスにビッグデータ戦略を取り込む時期にきたか、と感じ始めた時期にたまたま出会ったのがHANAでした。当社は以前からSAPとはパートナー関係にありましたが、HANAを紹介されたときは「これはかなり求めているものに近い」と感じました。実際、他社の製品も検討してみましたが、バイオサイエンスの分野にこれほど適したリアルタイムソリューションとしてはHANA以外に選択肢がありませんでした。


HANAの高速化がバイオサイエンスの未来をつくる!?

――世界的に見ても、またSAPにとっても非常にめずらしいケースであるバイオサイエンスとHANAの組み合わせですが、今後の展望や課題としてはどんなことが挙げられるでしょうか。

濱本氏: まずはHANAの得意分野であるモバイルデバイスでの活用を進めていきたいですね。たとえばiPadのようなモバイルデバイスを使って、医者や大学教授が現場でゲノム解析をリアルタイムで行えるようになれば医療の現場はかなり変わると思います。特に日本の医療現場はITの普及がまだまだ進んでいないので、モバイルデバイスが入り込む余地は大きいのではないでしょうか。

菊池氏: ビッグデータの処理に関して言えば、現在はライフサイクルの前処理で生データのノイズを取り去る作業がかなり大変なので、ここを効率化するための改善をSAPと一緒に行っています。ノイズをきれいに取り去れば、ひとりあたりのサンプルデータ量は数十メガバイトまで減らすことができるので、解析のパフォーマンスもさらに高まることが期待できます。

濱本氏: あとは人材の問題でしょうか。このプロジェクトは現在25名のチームで行っていますが、データサイエンティスト的な人材がもっと必要だと実感しています。統計や予測分析に関する知識はもちろんのこと、まったく新しい分野なので、手を動かしながら新しい手法を自分で生み出していけるセルフスターターが求められていると思います。こういった試行錯誤しているプロジェクトでは、開発のスタイルもアジリティが重要になってきますから、先に手が動く人材が必要ですね。

――この実証実験で良い結果が出ることは、バイオサイエンスの発展にも大きく貢献することになりそうですね。

濱本氏: ゲノム解析が進めば、より個人に最適化した医療を行うことが可能になります。たとえば肺ガンと診断された患者さんがいるとします。肺ガンと一言でいってもいろいろな治療薬や治療法が存在し、ある患者さんに効いた治療薬が別の患者さんには効かないことはざらにあります。そんなとき、ゲノム解析が正しく行われていれば、この患者さんにはこの治療薬、と最適な処方を行えることになります。

 これまではゲノムの測定にはコストがかかり、データ処理には時間がかかるという2つの問題があって、なかなか進まなかった。ところが現在はゲノム測定のコストが大幅に下がりつつあり、データ処理もHANAのようなソリューションの登場で改善しつつあります。もしHANAでゲノム解析の高速化をさらに図ることができれば、バイオサイエンスの世界も医療の現場も大きく変わる可能性があります。そういった可能性をSAPと一緒に模索しながら、MKIとしてもバイオサイエンスの発展に貢献していきたいですね。

関連情報