ニュース
富士通研究所、ゲノム情報の解析処理を高速化する技術を開発
(2016/3/15 12:26)
株式会社富士通研究所は15日、ゲノム上の変異情報と、疾患や生活習慣などによる環境情報との関連性をデータベース上で解析する際に、従来手法に比べて約400倍高速に処理する技術を開発したと発表した。
ゲノム医療の進展により、ゲノム・遺伝情報と臨床・環境情報を組み合わせて解析することで、遺伝要因と環境要因の関連性を探索する研究が行われているが、こうした研究では膨大な規模のゲノムデータを扱うため、処理に時間がかかるという課題があった。
富士通研究所では、大規模なゲノム情報を、データベース内で高速に解析処理可能な新しいデータ構造を導入することで、処理の高速化を実現。従来は短時間で得ることが難しかった知見を得ることが可能になり、ゲノム医療研究の推進に貢献できるとしている。
高速化にあたっては、数十万以上のバリアント(遺伝型)と、疾患や薬効など(表現型)の関連性を統計的に調べる網羅的な解析方法であるゲノムワイド関連解析処理について、データベース上でゲノム情報の高速な集計処理を可能にするデータ構造(以下、ゲノム型)とその処理方法を開発した。
ゲノム型は、1人のゲノム情報をデータベース上の1列(カラム)で格納するデータ構造で、各バリアントの情報を固定ビット長にコード化して格納する。従来のデータベースのテーブル構造に各バリアント情報を格納する場合、バリアント数に相当する数のデータベースへの問い合わせを繰り返す必要があったが、開発したゲノム型ではバリアントを一列に格納することにより、1つの問い合わせで同時に集計することを可能とし、1バリアントあたりの集計処理性能を大幅に向上させた。
また、バリアントの種類は大半が計算機上で2ビット長のコードに置換できるが、3ビット以上の複雑なコードに置換されるバリアントも多数あるため、可変長データを固定ビット長構造を崩さずに格納して集計処理する方式を考案し、高速な集計処理を実現している。コード化によって、文字列でバリアントを格納する場合に比べて、ゲノム情報サイズが16分の1に削減され、数十万人規模の大規模データについてもインメモリで高速に処理できる。
富士通研究所では、今回開発した技術により、数千万カ所にのぼる全ゲノムバリアントを用いたゲノムワイド関連解析が、一般的な計算機上にて短時間で実行可能になると説明。これまで、解析時間の制約から調査するバリアントを限定していたことで見逃されていた疾患との関連性についてもカバーできるようになり、これにより次世代のゲノム医療研究や、ゲノムをはじめとする生物内にある分子情報を網羅的に解析するオミックスビッグデータ解析の推進に貢献するとしている。
富士通研究所では今後、さらなる集計処理の高速化および運用上必要となる機能の実装を進め、医療機関との共同研究、倫理審査を経て、ヘルスケアシステム事業本部のソリューションに適用する予定。