ニュース

NTT Com、SkyWayの機能拡張キット「Media Pipeline Factory」を提供

音声・映像データをクラウドサービスと簡単に連携

 NTTコミュニケーションズ株式会社(以下、NTT Com)は23日、「Enterprise Cloud WebRTC Platform SkyWay」(以下、SkyWay)の音声・映像データを音声認識AIや機械翻訳AI、ライブ配信などのさまざまなクラウドサービスとリアルタイムで連携できるSkyWay簡単機能拡張キット「Media Pipeline Factory」を開発し、同日から無料トライアルの提供を開始したと発表した。

 提供開始に先立ち、1月21日に行われた説明会では、「Media Pipeline Factory」の開発背景や機能概要、実証実験の取り組みについて紹介した。

SkyWayの音声・映像データをさまざまなサービスと自在に組み合わせ可能に

 SkyWayは、パソコンやスマートフォン、タブレット、IoT機器などの端末間で、WebRTC(Web Real-Time Communication)を使った音声・ビデオ通話に必要なサーバー群をNTT Comが運用し、ソフトウェア開発環境(SDK)を顧客に提供するサービス。

 リアルタイムコミュニケーションを使ってイノベーションに挑戦するエンジニアのためのWebRTCプラットフォームとなっており、このSDKを利用することで、WebサイトやiOSアプリ、Androidアプリに通話機能を簡単に組み込むことができる。

 今回開発した「Media Pipeline Factory」は、SkyWayの音声・映像データを、対話型自然言語解析AIエンジン「COTOHA Virtual Assistant」(COTOHA VA)をはじめとするさまざまなAI、クラウドサービスと自由に組み合わせることが可能となる機能拡張キット。WebRTC上の音声・映像データの活用領域を拡大することで、顧客のデジタルトランスフォーメーションを加速する。

「Media Pipeline Factory」のイメージ

 NTTコミュニケーションズ 技術開発部 Webコアテクニカルユニットリーダ/担当課長の大津谷亮裕氏は、同キットの開発背景について、「SkyWayは、2018年6月に『WebRTC Gateway』を公開したことで、IoT機器や組み込み機器、家電、監視カメラ、ロボットなどでWebRTCが利用可能となった。しかし、WebRTC上の音声・映像データをクラウドサービスに送信し、録音・録画したり、AI機能を使って処理することは難しかった。そこで、音声や映像データを、クラウド上のさまざまなAIエンジンやサービスと簡単に連携できるよう『Media Pipeline Factory』を開発した」と説明している。

NTTコミュニケーションズ 技術開発部 Webコアテクニカルユニットリーダ/担当課長の大津谷亮裕氏

 「Media Pipeline Factory」では、GUI上でコンポーネントを並び替えることにより、シンプルな処理であればプログラミングすることなく、素早く開発できる点が特長。また、コンポーネントに分割されたマイクロサービスアーキテクチャを採用しており、複雑な処理を開発する場合にも、高いアジリティと柔軟性を実現する。

「Media Pipeline Factory」の操作画面イメージ

 無料トライアルの提供開始時は、録音、音声認識、機械翻訳をプログラミングすることなく処理可能な、以下の6種類のビルドコンポーネントを提供する。

Filewriter

音声をwav形式に変換し、チャンクに区切ってオブジェクトストレージに保存

Recognizer

Google Speech APIを利用して音声認識を実行

Translator

Recognizerの結果を入力し「Google Translate API」により機械翻訳を実行

Logger

動作確認用のログを出力

Dbwriter

RecognizerおよびTranslatorの結果をデータベースに保存

Publisher

RecognizerおよびTranslatorの結果をGoogle Cloud Pub/Sub にpublish

 また、各コンポーネントのオーケストレーション基盤も合わせて提供し、ログやサービスの状態を一元管理することが可能。これによって、デバッグが容易になり、開発効率の向上を支援する。さらに、サーバーレスアーキテクチャを採用することで、大量のアクセスやアクセスの急増に対しても安定した機能提供を実現するとした。

 大津谷氏は、「Media Pipeline Factory」の代表的なユースケースとして、「AIサービスと組み合わせることで、音声・画像認識や機械翻訳機能を開発できる。また、ストレージサービスとの組み合わせでは録音・録画機能、SIPサーバーとの組み合わせではVoIPとWebRTCの相互通話機能、CDNとの組み合わせではライブ配信を開発可能だ。このほかに、カスタムコンポーネントを利用することで、低遅延ライブの配信や、映像と音声の合成も可能になる」と紹介した。

 なお、「Media Pipeline Factory」のトライアル提供にともない、株式会社レアジョブとNTT Comでは、オンライン英会話レッスンにおける英会話習熟度に関する実証実験を実施する。

 実証実験では、オンライン英会話の音声データを、同キットによって連携したストレージサービスに蓄積し、レアジョブの発話解析AIシステムによって分析することで、レッスン中に使用した語彙(ごい)数の分析による受講者の習熟度の見える化などを実現する。今後、受講者のフィードバックなどを得ながら、サービス品質を強化し、学習意欲向上をサポートすることを目指してさらなる検証を行っていく。

 NTT Comでは、今後も継続してビルトインコンポーネントの開発を行い、録画、画像認識、低遅延ライブ配信などの機能を提供していく予定。また、機能拡張とともに、さまざまな顧客との共同実験を順次開始し、ユースケースを拡大していく考えで、「オンライン診療やプロスポーツ、在京キー局、フリマアプリ、ライドシェアなど10社以上との実証実験を予定している」(大津谷氏)という。