クラウド&データセンター完全ガイド:特集

情報/物理セキュリティを共に進化させるAIテクノロジー

データこそ最大の経営資産の今[攻め]で臨むITインフラセキュリティ[Part 2]

弊社刊「クラウド&データセンター完全ガイド 2017年秋号」から記事を抜粋してお届けします。「クラウド&データセンター完全ガイド」は、国内唯一のクラウド/データセンター専門誌です。クラウドサービスやデータセンターの選定・利用に携わる読者に向けて、有用な情報をタイムリーに発信しています。
発売:2017年9月29日
定価:本体2000円+税

昨今、IT の最重要トレンドと言えば、マシンラーニングやディープラーニングの進展によるAI(人工知能)の実用化だろう。プロセッサの処理能力に依存した大規模なパターン解析システムが民間の一般的な企業でも活用され始め、適材適所で正しく利用した場合、従来は到底不可能だったような高度なソリューションをあっさりと具現化してしまうパワーを秘めている。そして、情報セキュリティの分野でも、AI技術の高度活用が大きな成果を挙げている。その状況について以下にまとめてみた。 text:渡邉利和

マルウェア対策を長く支えてきたパターンファイル型手法

 企業・組織のエンドユーザーが扱う末端のPCやサーバーなどに防御の仕組みを置くエンドポイントセキュリティ。この世界では、長らく「パターンファイル(マルウェア定義ファイル)によるマッチング」が中核的手法として採用されてきた。

 メール添付の文書ファイルなど、PCのファイルのかたちで送りつけられるマルウェア/コンピュータウイルスに対し、ファイルの特徴をハッシュ値その他の手法によって抽出してデータ化、そのデータに基づいてローカルストレージ内のすべてのファイルをチェックし、パターンを照らし合わせて正常なファイルかマルウェアかの判定を行うおなじみの手法だ。

 原理的に、この手法で検出可能なマルウェアは、パターンファイルに反映済みの既知のものに限定される。セキュリティ製品ベンダー各社は全世界でマルウェアのパターンを収集・分析するラボを運営しており、発見された新種のマルウェアも即座にパターンファイルに反映させて配布することで、ユーザーのマルウェア被害を食い止めようとしている。

 これは言うなら、セキュリティベンダーの情報収集能力や解析能力、パターンファイルの開発力が、マルウェア作成側を上回っているという前提で有効な防御策となりうるものだ。実際、これまでセキュリティベンダーのマルウェア対策製品が大半のマルウェアを迅速に捕捉し防御できていたわけで、今でも製品市場が成立しているのである。

感染力・感染速度・感染範囲の増大にパターンファイル検知が追いつかない

 しかしながら、マルウェアの悪質・巧妙な方向での進化が止めどなく続く中、パターンファイル型の限界も見えてきている。

 まず、近年マルウェアの感染力が大幅に向上したことで、パターンファイルによる対策が間に合わないケースが増えてきたことが挙げられる。いわゆるゼロデイ攻撃は、ソフトウェアの脆弱性が発見されると即座に(ゼロデイの文字どおり同日中に)その脆弱性を悪用するマルウェアを作成し配布するものだ。

 このスピードと、今やほとんどのデバイスがインターネットに常時接続していること、マルウェアの感染力の驚異的な高まりが組み合わさることで、全世界で一斉にマルウェア感染が広がるパンデミック(爆発的な感染)が発生している状況だ。

 2017年5月に世界規模の広範な感染を引き起こし、日本企業にも被害が確認されたランサムウェア「WannaCry」の騒動は記憶に新しいところだ。このとき、ベンダー各社はWannaCry対応のパターンファイルを迅速に作成し配布したものも、拡散のスピードがあまりに速く、初期感染が一気に広がるのを食い止められず、パターンマッチング手法の限界が露呈したかたちだったと言える。

画面1:WannaCryランサムウェア感染時に表示される画面(出典:ラック)

 また、マルウェアの種類があまりに増大し、パターンファイルの種類が膨大になってしまったことから、パターンファイルの更新とその後の全ファイルスキャンにかかるPCへの負荷が重く、場合によってはPCが使い物にならないレベルにまで処理能力が低下してしまっている。このことにも、既存製品のユーザーから多く不満の声が上がっている。

 パターンマッチングの限界は、セキュリティベンダー自身が10年ほど前から認識している問題であり、最近急に問題が顕在化したわけではない。各社の改良努力から、手法自体の進化も当然にあるのに加えて、これに置き換わるような効果的な代替アプローチが見当たらないことから、今でも開発が続き、ユーザーもそれを利用している状況だ。

 進化の例として、マルウェアに仕込まれたプログラムコードが実行される際の動作に不審な点がないかをチェックする「ふるまい検知」や、隔離された区画内でチェック対象のプログラムコードを実行して挙動を観察する「サンドボックス」などが知られる。ただし、これらの技術はパターンファイルとは補完的な関係で効果を発揮するもので、パターンファイルを置き換えるものではない。

図1:2017年1~6月期マルウェアファミリー・ランキング(出典:チェック・ポイント・ソフトウェア・テクノロジーズ)

CylancePROTECTに見るAIによるマルウェア対策手法

 上述の状況が続いていた中、昨今のAIやマシンラーニングの領域での急速な進化を受けて、AIをマルウェア検知に活用するアプローチが実用化されている。以下では、この分野の専業ベンダーとして知名度が高い米サイランス(Cylance)の技術を例に見ていく。

 最初にここでのAIの定義を確認しておきたい。今、IT業界で語られるAIは、人間のように考え、振る舞う人工知能というよりは、人間の脳の働きを参考にしたアルゴリズムに基づき、自動的に学習する(マシンラーニング:機械学習)システムだととらえられる。その際、何を学習するのかが問題となるが、端的に言えば「データの見分け方/区別のしかた」である。サイランスの場合は、マルウェアか否かを見分けられるような学習を研究しているということになる。

10億ファイルを機械学習して得るマルウェアの「特徴点」

 サイランスは“AIアンチウイルスソフトウェア”を掲げた「CylancePROTECT」を開発・販売している。日本法人であるCylance Japanの説明を引用すると「AI技術により作成したデータモデルを元にファイルの構造から攻撃を予測そして防御可能なエンドポイント製品」となる。

 Cylanceでは、クラウド環境を利用して膨大なサーバー群からなる機械学習システム「Infinity」を構築し、そこでマルウェアとそうでないファイルを半々に含む、実に10億ものファイル群を学習させている。

 Infinityはサンプルとして与えられたデータからマルウェアとそうでないファイルを区別するためのポイントとなる「特徴点」を選び出す(図2)。この特徴点を基に、未知のファイルが与えられた場合にも、それがマルウェアかどうかの正確な判定を行う「データモデル」を構築した。「このデータモデルは一種の計算式であり、対象ファイルを入力として与えると、どのファイルがマルウェアであるかどうかの判定結果が出力される仕組みになります」(Cylance Japan最高技術責任者の乙部幸一朗氏)

 サイランスは、このデータモデルを構築するのに、膨大な量の学習データとそれを処理するための高い演算能力、そして数年がかりの時間を要したわけだが、出来上がったデータモデル自体は特段巨大ではないし処理負荷も小さい。このため、PC上で動作させた際に、負荷によって操作が重くなるようなことがない。

図2:CylancePROTECT のマルウェア判定に用いる「特徴点」のイメージ。キリンかそうでないかの判別ポイントを設けるのと同様に、マルウェアに顕在する判別ポイントを特徴点として設け、高精度な判定を行う(出典:Cylance Japan)

未知の新種マルウェアを検出するデモンストレーション

 CylancePROTECTのユニークさは、既知のマルウェアを解析することで学習する点に関してはパターンファイルの手法と一見類似しているが、特定のマルウェアの特徴を抽出しているわけではなく、大量のマルウェアに共通する「マルウェア一般に当てはまる特徴点」を学び取っていることにある。この結果、未知の新種マルウェアが出現した際にも高精度で判別が可能になる。同社の公称値で99.7%の検知率だという。

 その効果を実証する、CylancePROTECTの動作デモンストレーションがある。WannaCryが出現する半年前の2016年後半に作成されたデータモデルを使って、PCがWannaCryを受信した場合、CylancePROTECTがどのような動作を行うかをシミュレートするというものだ。このデモでは、データモデルを作成した時点では存在していなかったWannaCryのファイルをマルウェアだと判断することに成功している。つまり、未知の新種マルウェアの検知がAIの活用で可能になるという大きな進歩を達成したことになる。

 サイランスによると、CylancePROTECTのデータモデルは半年~1年間の間隔で更新を行っているという。これは、パターンファイルが毎日のように更新があることと比べるとPCへの負荷やユーザーの運用管理の手間を大幅に削減することに寄与する。

 CylancePROTECTでは、データモデルに基づくマルウェア判定をファイルの状態ではなく、実行直前の状態で行う。具体的に言うと、マルウェアをファイルとしてPCのローカルストレージにコピーしても、ユーザーが明示的に判定を指示しないかぎり動作は行わない。

 しかし、このコードが実行される段階で、OSのAPIをフックするかたちでチェックプロセスが割り込み、まさに実行される状態になっているメモリイメージをチェックしにいく。この仕組みにより、マルウェアがPCにコピーされても、実行されないかぎり特段の被害は生じない。

 SSL暗号化などコードを直接読み出せないような仕組みをまとったマルウェアが増えてきている現状、ファイルの段階でのチェックをすり抜けてしまう危険がある。しかし、復号化された後の状態を捕まえてチェックを行えば、より精度の高い判定が可能になるわけだ。

ITインフラ/ネットワークレベルでのAI適用にも期待

 マルウェア制作側の工夫も一層凝らされるようになり、コード偽装やロジック隠蔽の手法に相当に高度なテクニックも含まれている。例えばバイナリコードを逆アセンプルして熟練のエンジニアが解読するといった局面でも、暗号化や動的な変換手法が駆使されて、解読がほぼ不可能なコードの作成も可能になっている。

 AIを活用したマルウェア検出のアプローチに懸念があるとすれば、製品の歴史がまだ浅いので、データモデルに基づくマルウェアの判定が実際の運用シーンでどのぐらい有効なのかを現時点では測りにくい点だろう。CylancePROTECTの場合、先のWannaCryデモでは効果を実証済みだが、同社が謳う未知のマルウェア検知率99.7%が、広い層に実感されるものになるかは今後の実績次第だ。

 また、CylancePROTECTのデータモデルが、ファイルのどこを見てどのような判断を下しているのかは非公表だ。とはいえ、公表されたところで、人間には理解できないものである可能性も高い。サイランスは、判定のカギとなる特徴点に含まれる情報については概要レベルで明かしており、ファイルサイズやファイルヘッダ、セクションヘッダ、セクションデータ、文字列といった静的な情報から、N-gram統計や各セクションのエントロピーといった統計的データまで膨大な情報が含まれているという。

 なお、これはあくまで筆者の想像だが、コードの難読化や何らかの偽装を行っていることが判断できるような特徴が見つかった場合に“疑わしさ”が上昇するといった、ある種の重み付けが存在し、そのレベルが最終判断に影響を与えているように見受けられる。

 従来の手法の限界から、AIを活用したセキュリティ手法は、今後主流となっていく可能性が高い。すでにCylancePROTECTと同様、機械学習に基づく判定エンジンを組み込んだエンドポイントセキュリティ製品も出現しており、業界が有用なアプローチとして着目したと見てよい。

 この技術をエンドポイントセキュリティ製品に組み込むだけでなく、ネットワーク機器ベンダーなどにOEM提供を行うことで、適用範囲が広がっていく可能性がある。今後、ITインフラ/ネットワークレベルでの防御にもこの手法を活用できるようになることを期待したい。

図3:サイランスが提唱するマルウェア対策の進化ロードマップ(出典:Cylance Japan)

物理セキュリティ分野でのAI活用

 データセンターのセキュリティとして、サーバールーム内部の機器に対するネットワーク経由でのアクセスとして行われる攻撃からの防御も重要だが、データセンターファシリティへの物理的な侵入に対する防御も重要な要素となる。そして、この分野でもAI技術の発展の成果を活用する動きが起こっている。

監視カメラ映像のAI画像解析

 AI /機械学習の応用として活用事例が多いのは画像解析の分野である。デジタルカメラ/ビデオが記録する高精細な画像/映像を解析してインシデント情報を抽出する試みの多くでAIが駆使されている。

 監視カメラ自体はごく当たり前の防犯対策として昔からあるものだ。データセンターであれば、サーバールーム内や施設の要所に監視カメラを設置している。だが、そうしてカメラを設置していても、いざ何か問題が生じた場合、撮り貯めた映像をくまなくチェックしようとするときに実に巨大な負担がかかる。実のところ、膨大な量の映像を撮り貯めるだけで、抑止効果程度しか成果がないというケースが大半だろう。

 そこでAIによる画像解析を活用すれば、場面・時間・監視対象に関する高度な抽出を自動化でき、大幅な省力化・時間短縮が可能になる。必要に応じて、ある段階で映像を目視でチェックすることになるだろうが、その前処理を機械に任せられるようになったのは大きい。

顔認証システム

 データセンターの物理セキュリティの要となる入退室管理も、AIによる画像解析が威力を発揮できるシーンとなる。ここでは施設内に立ち入る人物が必要な資格・権限を認められた者であることを確実に判定する必要がある。多くのデータセンターでは、事前発行されたICカードなどでの認証や、指紋/虹彩/指静脈といった生体情報を利用した生体認証システムなどを組み合わせて運用しているが、万全とは言いがたい面もある。

 空港の入国審査などでは指紋認証が使われているが、繰り返し報道されたとおり、このシステムでは他人の指紋をフィルム状の物質で写し取って自分の指の上に貼り付ければ他人になりすますことが可能だと言われている。また、カメラを利用した画像認証で本人確認を行うシステムでは、カメラの前に別人の写真をかざすことで他人になりすませた、といった話も聞く。生体認証の場合も、チェックにあまり長時間を費やせないことや、デバイスの性能的な限界を突かれることで偽装を見破れないと言ったことがありうる。

 こうした種々の状況において、AIによる高精度な画像判定を活用する動きが広がりつつある。例えば、平面画像の目視ゆえの脆弱さを持つ顔写真による証明に代えて、3Dセンサーによる顔の多角的・立体的情報から個々人の特徴を抽出して判定に用いる顔認証システムが注目されている(図4)。

図4:セコムが開発したウォークスルー顔認証システム(出典:セコム)

 また、AIとは直接の関連はないが、指静脈認証に関連するデバイスの進化も続いている。一般的な指静脈認証システムは、指を1本差し入れる筒状のセンサーを搭載し、数秒かけてユーザーの生体情報を読み取る仕組みだが、手のひら静脈認証に代表される、ユーザーにかかる負担がより少ないシステムも登場している。

セキュリティがデータセンターの付加価値ポイントに

 データセンターの入退室管理システムは、建物自体に造り込まれた設備という性格が強いため、マシンルーム内部で使われるITセキュリティ製品とは異なり、一度導入したシステムを更新するのは容易ではない。少なくとも5年とか10年とかいうスパンで更新される例が大半だろう。

 しかし、この分野も進化が停滞しているわけではなく、次々と新しい技術が登場している。ある程度以上古いシステムでは、求められるセキュリティレベルを満たすことができなくなっている可能性があるため、最新情報に注意を払い、適宜更新していく取り組みが必要になっている。

 なお、かつてのデータセンターではセキュリティ最優先で、入退室の際の負担が大きくなるのはある程度やむをえないことと許容されてきた面があるが、新しいシステムでは使い勝手の向上も図られており、セキュリティレベルを維持したまま、入退室者に与える負担は軽減されているという例も見られる。ユーザーの出入りが頻繁にあるデータセンターの場合は、最新のセキュリティ機器を導入することでユーザーに対するサービスの向上につながる面もあるはずだ。

クラウド&データセンター完全ガイド2017年秋号