特集

現場でセンシングしたデータを価値ある情報へ――、東芝が進める画像認識AIへの取り組み

大河原克行

2022年5月6日 06:00

　東芝は、50年以上にわたるAI研究の歴史がある。

　1967年に、文字認識技術を活用した郵便番号自動読取区分機を開発。それ以来、画像認識技術を発展させてきたのに加え、音声認識、機械翻訳、音声合成、顔認証技術などを活用したさまざまなAI商品を提供してきた。AIの累計特許出願数では、IBM、マイクロソフトに次いで、世界3位の実績があるという。

　昨今では、自動運転支援システムに使用する画像処理プロセッサ「Visconti」を製品化。東芝デジタルソリューションズでは、コミュニケーションAIの「RECAIUS」、アナリティクスAIの「SATLYS」といったAIソリューションを提供しているが、さらに東芝グループでは、2022年度末までに2000人のAIエンジニアを育成する計画とのこと。

　東芝研究開発センター知能化システム研究所メディアAIラボラトリーエキスパートの柴田智行氏は、「東芝のAIの特徴は、画像認識に強いという点である」としながら、「安全安心や快適、省エネ、効率化などを実現するためのさまざまなインフラに対して、東芝では、現場から収集したデータをもとに、画像認識AIによって価値ある情報に変換し、現場にフィードバックしている。対象にしているインフラは、エネルギー、社会インフラ、ビル・施設、ものづくり、放送、物流・流通などであり、ここで大切なのは、現場の事情を把握し、どんな特性を持ったデータが取得できるのか、どんな情報が真の価値につながるのかを見極めることである。それらを考慮しながら、画像認識AIの研究開発を行い、現場に適用していくことに力を注いでいる」とする。

東芝研究開発センター知能化システム研究所メディアAIラボラトリーエキスパートの柴田智行氏

東芝の画像認識AIの活用方法

インフラ点検を支える画像認識AI

　東芝では、インフラを支える技術として、画像認識AIを採用。「高精度で常に稼働する目」として活用しているという。

　「道路や施設などのインフラ保守では、インフラの老朽化が課題になる一方、広範囲に渡った点検対象や、高所や傾斜地などの危険個所で、作業員が目視によって確認するといった状況にある。また、国内におけるインフラ検査や点検のための維持管理および更新費用は年間5兆円を突破しており、安全で効率的な目視確認支援が求められている」とする。

インフラ保守・点検における課題

　東芝では、補修の緊急度を判断するために必要なひび割れ、サビなとの異変個所のサイズを簡単に計測できる技術を開発しており、実験では、市販の一眼レフカメラと焦点距離24～70mmのズームレンズとの組み合わせで、4～5枚の写真を、10度～20度程度のずらしながら撮影し、この画像にAIを活用することで物体やひび割れのサイズを高精度に計測することができたという。

　「従来は、特殊な機器やセンサー、スケーラーが必要であったが、東芝では、レンズ収差に着目した独自技術を開発した。高所などの危険な場所から離れて、デジカメやスマホのカメラで撮影するだけで、変状やサイズを計測できる」とする。

　この技術を活用することで、カメラを搭載したドローンなどによる計測も実現でき、さまざまな場所のインフラ点検に応用することができるようになる。

画像認識AIによる解決事例：サイズ計測AI

顔認識技術とその応用

　東芝が誇るAI技術のひとつに、東芝の顔認識技術がある。

　2021年10月にNISTが主催した世界100カ国以上、100万人規模のデータを用いたベンチマークテストでは、国内企業としてはトップの評価結果となり、世界的にも上位に入ったという。具体的には、1）証明写真とゲート通過時の映像の本人比較、2）照明変化や化粧の有無などの環境変化によるゲート画像同士の本人比較、3）12年以上の時間差がある画像での本人比較――において、いずれも国内トップの評価を得たという。

顔認識技術

　また東芝では、画像から人物位置や身体の向きを検出して、人と人との関係性を考慮することで空間のコミュニケーション活性度を計測する技術を持っており、これに、顔認識技術を組み合わせることで、誰と誰がよくしゃべっているかといった、それぞれの人物のアクティビティを見える化できるとする。この技術は、社内において円滑な業務ができているか、コミュニケーションに問題がないかといったことを可視化する見守り機能としても活用できるとのこと。

　「コロナ禍では、直接対面の機会が減り、議論できる場が減っている。過度な密状態を防止しながら、コミュニケーションの活性化を支援することが必要である。こうした課題も解決できる」とする。

コンセプト機能：コミュニケーション活性度モニタリング

　神奈川県川崎市の東芝共創センター「Creative Circuit」では、これらの機能を実体験してもらうことできるように、画像認識機能を実装。共創パートナーと最新技術を共有し、課題解決や価値創造に向けた活動を加速していくという。

　「先端技術を開発しても、その技術が、顧客やパートナーが持つ課題にどう使えるのかといったイメージを持ってもらいにくいということはよくある話だ。それでも、画像認識技術は比較的イメージがわきやすいというメリットがある。Creative Circuitを通じて、実体験をしてもらい、課題への適用をイメージしてもらうことができる」。

　東芝では、画像認識技術の取り組みにおいても、共創活動を重視しており、Creative Circuitを活用して、AIの早期の社会実装に向けて、顧客やパートナーとともに、価値を創出することに取り組んでいるとした。

共創活動の推進

画像認識技術の現場適応で重要な2つのポイント

　画像認識技術の現場適応において重要なのは、「プライバシー保護」と「運用保守」の2点だという。

　プライバシー保護では、カメラに写り込む人々の権利を守るための配慮などに取り組んでいることを示す。個人情報やプライバシーに関する情報に配慮するとともに、画像認識AIを順法の観点に加えて、倫理の観点からも改善を加えており、これが画像認識AIを現場に適応する上では極めて重要な要素であることを強調する。また、東芝グループでは、社外有識者会議によるプライバシー保護に対する取り組みも開始している。

　一方、運用保守では、「運用開始時の想定とは異なる変化が生じることがあり、その変化に気づき、早急に対策が取れる仕組みが必要である」とする。

　例えば、運用開始時にはカメラの前にはなにもなかったものが、現場の環境変化に伴って、カメラの前に障害物が設置されてしまうことがある。そのため、画像認識AIが正しい処理ができない状態が発生する。具体的には、店舗では販促用のノボリや大型のPOPが設置されてしまい、本来確認したい映像が確認できないといったことが起こる場合などだ。

　従来は、不具合に気がついたユーザーから連絡をもらい、現地に出向き、画像処理が行えるように修正を加える形を取っていたが、この手法では、修正までに時間がかかったり、人が移動しなくてはならなかったりといった課題があった。

社会実装に向けたポイント

　そこで東芝では、MLOps（Machine Learning Operations）の仕組みを用いて、カメラが正常に動作していることや推論結果に異変がないことをモニタリングし、状況が変化しているのであれば再学習させて、新たなAIモデルをデプロイ。安定した品質を維持しているという。

　ここでいうMLOpsとは、機械学習を活用したシステムを運用する際に、継続的にモニタリングを行い、システム運用や市場環境の変化を通じて、再学習や改良、改善を実施し、品質を保つ仕組みである。AIモデルは運用していると必ず性能が低下するということを前提とし、画像認識AIを使い続けていくためには、画像認識AIの運用保守の自動化を行い、劣化診断や現場適応を図れるようにしておく必要があるというわけだ。

　ただ、画像認識AIにおけるMLOpsの場合には、一般的な性能や精度の低下だけでなく、今回の事例で示されたように、障害物を移動させるだけで課題が解決するといったこともある。こうした場合にも、MLOpsのなかで性能が低下した理由が、アルゴリズムの問題なのか、カメラの前に置かれた障害物による物理的な問題なのかを正しく判断することが求められる。

　東芝が社内の食堂で行った実証実験では、コロナ禍での感染対策のために座席数を制限して運営。そこにカメラと画像認識AIを活用した。その際に、カメラに光を向けてハレーションを起こしたり、カメラの前にのぼりを立てたりして、出力結果から異常値として検知できることを検証。異常値の発生や性能低下の理由を正しく判断することで、適切な対応が図れるようにしているという。

モニタリング：食堂での実証実験

質問応答AI「Visual Question Answering（VQA）」への取り組み

　東芝では、画像認識AIの進化に向けて新たな取り組みを行っている。それは、質問応答AIの「Visual Question Answering（VQA）」への取り組みだ。

　東芝の柴田氏は次のように説明する。

　「これまでの機械学習は、教えたものを認識し、正しく答えることを目指してきた。そのため、学習したタスクしか実行できないという課題があった。例えば、犬の画像を学習させれば、別の犬の画像を見たときには犬と認識できるが、猫の画像に対して、猫とは答えず、『犬ではない』と答えることになる」とする。猫の画像を学習させない限り、猫とは答えないのだ。

　こうした課題を解決するには、多くの画像を学習させることになるのだが、あらゆる画像を収集して、それをAIに学習させるという仕組みでは、膨大なコストと手間が発生し、将来の発展を考えると現実的ではないともいえる。それを解決するのが東芝のVQAになるという。

今後の画像認識AIの方向性

　「VQAでは、画像の情報に加えて、言語の情報も大量に学習することで、言語の特徴と画像の特徴の関係性を利用して、相互に補完。初めて見る物体でも回答ができるようになる。猫の画像を学習していなくても、言語で猫の存在を知っていれば、言語と画像の組み合わせで、初めて見る猫の画像も猫だと予測できるようになる」という。

　東芝のVQAは、すでに国際会議では発表している技術であり、「これを活用することで、画像に対するさまざまな質問に回答することができるため、世界中から注目を集めている」と語る。

　応用分野はさまざまだ。例えば、工場現場での作業者の画像に対して、「作業者は手袋をしているか」、「作業者の上着の色は何色か」、「作業者の状態は」といった質問をしても、画像と大量のテキストをあわせて学習した結果から、これらの質問に回答することができるようになる。正しい格好で作業にあたっているか、正しい姿勢で作業が行えているかといったことも理解できるという。

　「従来のAIでは、どこまで学習しているのかということを知った専門家しか適切な質問ができないといったように、利用者が限定されていたが、VQAでは、任意の質問に対しても回答できるようになるため、誰もが、簡単にAIを利用でき、AIを身近な存在に変えていくことができる。汎用性の高いAI技術を活用することで、人々の暮らしを支えたり、仕事の仕方や生活を変えることができたりするサービスにつなげることができる」とする。

東芝の質問応答AI「Visual Question Answering（VQA）」

　IDC Japanによると、国内のAIシステム市場規模は、2020年の約1600億円に対し、2025年には約5000億円にまで拡大すると見込まれており、2020年から2025年までの年間平均成長率は25.5％で推移するという。

　今後、AIの応用範囲はさらに拡大することになるだろう。誰もが容易に使えるAIへの進化は、重要な要素になる。