ニュース

富士通研究所、高圧縮した映像からでも高精度に映像の内容を認識できる映像圧縮技術を開発

三柳英樹

2020年11月16日 14:20

　株式会社富士通研究所は16日、超高圧縮した映像からでも高精度に映像の内容を認識できる映像圧縮技術を開発したと発表した。

　富士通研究所では、独自開発の高次元データ解析技術「DeepTwin」を深層特徴量の圧縮に応用し、画像認識精度を低下させることなく、従来のH.265による映像圧縮とAIを組み合わせた一般的な方式と比較して、100倍以上の圧縮率を達成可能な映像圧縮技術を開発した。この技術の活用により、画像認識AIソリューションの普及に伴って大容量化する映像伝送データ量の増加を抑制するとともに、限りある通信資源の効率的な利用を実現し、より持続可能な世界の実現に貢献するとしている。

　これまでの画像認識AIを使ったアプリケーションでは、映像をH.265などの映像圧縮技術で圧縮して伝送し、受信側で復元された映像をAI認識モデルとして入力し認識を行うのが一般的となっている。一方、画像認識AI向けの映像圧縮技術では、AI認識モデルを特徴量抽出部と分類や物体検出などを行う部分とに分離し、映像データを特徴量抽出部に入力して得られる深層特徴量データを圧縮して伝送し、受信側で復元処理した後に分類器などでの画像認識を行う。この深層特徴量の圧縮の部分となる特徴量圧縮技術には、さまざまな手法が提案されているが、今後、さらなる増大が想定される高精細な映像データの需要を満たすには、既存の映像圧縮技術であるH.265より高い圧縮性能を持った特徴量圧縮技術の開発が課題となっているという。

従来のH.265を用いた画像ベースAI認識のフレームワーク

AI認識に特化した特徴量圧縮のフレームワーク

　富士通研究所では、高次元データの分布・確率などの本質的な特徴量を正確に獲得するAI技術であるDeepTwinを特徴量圧縮に適用することで、認識率の劣化を一定値に抑えながら、より高い圧縮効率を達成した。

　DeepTwinのオートエンコーダは、データの評価尺度を定めると、その評価尺度の値を保ったままデータの情報量が最小となるよう次元圧縮できることが理論的に保証されている。今回、この評価尺度を一般的な特徴量圧縮手法が注目する圧縮前後の特徴量の復元誤差ではなく、画像認識AIの認識率として定めた。これにより、認識率に必要な次元以外が削減されるようにオートエンコーダが学習され、認識率を維持したまま従来の画像ベース方式を大きく超える深層特徴量圧縮性能を可能とした。

　また、DeepTwinで圧縮された後の特徴量が持つ情報量を調べると、一部に大きく偏った分布となり、これは圧縮後の特徴量では、一部に必要な情報が凝縮されていることを意味していると説明。そのため、圧縮後の特徴量のうち、情報量が低く、認識率への影響が小さいデータから段階的に削減するように加工すれば、必要な認識率に応じてデータ量を制御できるとしている。

特徴量復元のための学習方法（青）と、本技術によるオートエンコーダの学習方法（赤）

圧縮前後の特徴量の情報量の特性

　富士通研究所では、今回開発した技術を用いることで、AIによる画像認識性能の劣化を一定に抑えながら、従来方式を大きく超える高圧縮を行えると説明。具体的には、AI認識モデルの一種であるVGG16を用い、映像に映っている物体を汎用的な用途として100カテゴリに分類するタスクに対して技術を適用した場合、非圧縮の認識率から5％劣化するときのH.265を用いた画像ベースの方法と比較して、100倍の圧縮性能を達成できたという。また、たとえば自動車やトラック、オートバイといった車両の分類など特定用途を想定して20カテゴリに分類する場合には、300倍の圧縮性能となり、いずれの認識劣化量の場合においてもH.265ベースの方式と比較して高い圧縮性能を達成できたとしている。

　富士通研究所では、2021年度中の実用化に向けて、特徴量圧縮率のさらなる向上、およびディープラーニングによる画像認識の適用範囲拡大を目指して開発するとともに、今後、通信インフラの拡充や自動化のニーズを背景に発展するAIによる映像利活用を支援していくとしている。