ニュース

パナソニック、音声認識技術を活用したマスメディア業界向け自動文字起こしサービス「P-VoT」を正式提供

三柳英樹

2019年10月28日 13:18

　パナソニックシステムソリューションズジャパン株式会社（以下、パナソニック）は28日、6月13日から放送業界向けにベータ提供してきた音声処理・音声認識技術を活用した文字起こしサービス「P-VoT（ピーボット）」を、マスメディア業界（放送、新聞、出版など）向けの正式商用サービスとして、11月13日に提供を開始すると発表した。

　P-VoTは、動画・音声ファイルをパナソニックのクラウドサービスにアップロードするだけで、文字起こしを自動化できるサービス。番組制作業務のワークフローのなかで時間と手間がかかる文字起こし作業を、約3分の1の時間に削減できる。たとえば、取材現場で撮影・録音したデータをその場でアップロードし自動で文字起こしを進めておけば、放送局にいるメンバーがすぐに確認・編集作業に取り掛かることができるため、チーム全体で効率よく作業を進められ、時間を有効活用できるとしている。

　多層のニューラルネットワーク（Deep Neural network：DNN）技術を用いた高精度音声認識により、幅広いジャンルの文字起こしに対応。ウェブブラウザーで利用でき、グループデータ管理により複数人での修正・編集に対応する。

　編集画面では、文字をクリックすると文字起こしした音声の位置から頭出し、プレビュー再生を開始。再生中はプレビュー動画／音声に追従して音声認識結果にマーキングするなど、効率的な文字起こしの編集作業が可能。また、将来的にはパナソニックのプロダクトとシステムとの連携を予定しており、運用ワークフローとシームレスな連携が行えるとしている。

　商用サービス化にあたっては、ベータ版の利用者アンケートで挙がった要望を反映させた編集画面のユーザーインターフェイスの改良を実施。また、動画・音声ファイルの複数アップロード（同時に最大5ファイルまで）に対応した。

　P-VoTの価格体系は、1コンテンツあたりの時間長を基準とした従量制で、料金は10秒につき20円。