サマリーベクターは、メモリー上に載せられる程度のサイズ(512MBから数GB)に設定されている。ハッシュ関数を用いてFP値からさらに3つの値を算出し、それぞれの値に対応するビット位置を1とする。サマリーベクターを利用すれば、160ビット長のFP値に代わり、3ビットの値だけで重複判定を行えるようになるのだ。ただし、ブルームフィルターが持つ偽陽性の特性により、誤って「重複している」と判断してしまうことがある。このため、最終的にはFP値を使用して本当に重複しているかどうかを判定する |
Copyright (c) 2009 Impress Watch Corporation, an Impress Group company. All rights reserved. |