ニュース

富士通、動画配信サービスの暗号化パケットデータからユーザー体感品質を推定するAI技術を開発

 富士通株式会社は2日、ユーザーが感じる映像品質の満足度を示すユーザー体感品質(QoE: Quality of Experience)を、高精度・リアルタイムに推定するAI技術「Realtime Quality of Experience Sensing」を開発したと発表した。これによりQoEを算出し、無線ネットワークの運用指標として利用することで、ユーザーが満足する品質を実現するための適切な無線リソースを割り当てられ、大容量の映像データの高品質かつ効率的な配信が可能になるとしている。

 YouTubeなどの動画配信サービスでは、フルハイビジョンや4Kといった高解像度の映像コンテンツが増加しており、2022年には映像データが無線でインターネット接続するモバイルネットワークを流れるデータの70%以上を占め、今後もますます増えると予想されているという。

 モバイルネットワークで大容量の映像データを高品質に配信するためには、無線リソースを適切に確保することが必要となる。従来、移動体通信事業者は、通信速度などのネットワーク品質(QoS: Quality of Service)を満たすように無線基地局などの設備の増強を行ってきたが、今後、増え続ける大容量の映像データを遅延なく配信するためには、さらに膨大な無線基地局の設置とそれらの適切な運用が必要となる。

 一方で、ネットワーク運用の新しい指標として、ユーザーのサービス利用に対するQoEが注目されており、リアルタイムにQoEを算出して、ネットワーク運用を保証する指標とすれば、無線基地局を過剰に設置しなくてもネットワーク品質を保てると説明。こうした状況を受け、富士通ではQoEを高精度・リアルタイムに推定するAI技術を開発した。

 映像などのメディア品質を評価するQoEの1つには、平均オピニオンスコア(MOS: Mean Opinion Score)という値がある。MOSは、人の知覚特性を考慮したユーザーのサービスに関する主観的な評価値で、その値とユーザーの品質への満足度との関係が実験的に明らかとなっているため、品質への満足度の過不足を知るための指標として適している。

 従来、MOSはユーザーへのアンケート調査によって算出されていたが、近年は映像アプリケーションから、1秒あたりのデータ量を示すビットレートなどの客観的なメディア品質情報を取得し、映像と音声の品質を評価する国際標準規格ITU-T P.1203を用いて推定できるようになった。しかし、この方法はメディア品質情報を取得するインターフェイスがないアプリケーションには適用できず、また、アプリケーションの再生バッファ内の映像データが減少した際にダウンロードする、10秒程度の映像ファイル単位でしかMOSを推定できないという問題があった。

「Realtime Quality of Experience Sensing」の全体像

 今回、富士通が開発した「Realtime Quality of Experience Sensing」は、端末と動画配信サービスの間を流れる暗号化されたアップリンク(無線通信で端末から動画配信サービスへ向けた通信)のパケットのみから、高精度・リアルタイムにMOSを推定するAI技術となる。アプリケーションからメディア品質情報を取得する必要がなく、1秒ごとにMOSを推定できるため、ネットワーク運用へのMOS適用を実現できるとしている。

 また、現在多くの動画配信サービスで利用されているHLS(HTTP Live Streaming)やMPEG-DASH(Dynamic Adaptive Streaming over HTTP)といったプロトコルだけでなく、今後のサービスの多様性や変化に柔軟に対応するために、開発した技術では、ビットレートや解像度、ストール(映像の停止の有無)といった、MOSを推定するための共通の特徴量を出力する映像特徴量推定モデルと、その共通の映像特徴量からMOSを出力するQoE推定モデルの二段階のモデルで構成するアーキテクチャとした。

 一般的に動画再生アプリケーションは映像の再生が止まらないように、取得する映像の品質を動的に変更している。そのため、映像特徴量はネットワークを流れる暗号化パケットの時間的な変化に影響を受けるという考えに基づき、時系列データの依存関係を扱えるニューラルネットワークモデルLSTM(Long Short-Term Memory)を採用した。

 動画再生アプリケーションの再生バッファの空きが増加した場合に、送信する映像要求パケットと、実際に映像データを受信したときの映像受信応答パケットにより、再生バッファとネットワークの状態を表現できるという考え方に基づき、アップリンクのパケットを対象として、0.5秒ごとのタイムスロットにおけるそれぞれのパケット数などの統計量をまとめたものを特徴量ベクトルとした。

 アップリンクのパケットのみの特徴量を利用することで、全てのパケットを利用した場合よりも処理データ量を98%削減しながら、同程度の精度で映像特徴量を推定できると説明。開発した「Realtime Quality of Experience Sensing」は、動画配信の代表的な通信プロトコルであるHLSおよびMPEG-DASHを用いた評価実験で、動画再生アプリケーションから取得した映像品質情報を用いたITUT P.1203の推定値に対して、85%以上で同等のMOSを推定できたという。

「Realtime Quality of Experience Sensing」のMOS推定アーキテクチャ

 富士通では、開発した技術は、実環境における有効性検証のため、通信ネットワーク事業者を始めとする顧客とのPoCで実証し、実用化を目指すと説明。また、開発した技術は、スペインのマドリードで10月9日~11日に開催されるネットワーク技術の年次イベント「FYUZ」で展示を行う。