ニュース

NTT、少量の対話データから個人の口調・発言内容の特徴を反映し対話を生成する「個人性再現対話技術」を開発

 日本電信電話株式会社(以下、NTT)は17日、同社の大規模言語モデル「tsuzumi」の拡張技術として、少量の対話データから個人の口調や発言内容の特徴を反映し、対話を生成する「個人性再現対話技術」を開発したと発表した。さらに、少量の音声データから個人の声色を反映した音声を合成するZero-shot音声合成技術、およびFew-shot音声合成技術を開発したことも発表した。

 2023年度中には、AIエージェントである「Another Me」を活用して、NTTドコモのメタバース空間「MetaMe」上で人間関係構築の実証を開始するほか、2024年度には、tsuzumiによる個人性再現機能の提供に向けて精度の向上を図る予定だ。

 NTTが開発した「個人性再現対話技術」は、指定したペルソナに合った内容や口調での対話生成が可能な「ペルソナ対話技術」と、ベースモデルに対して、新たなデータを追加学習し、個人ごとのアダプタを追加できる「アダプタ技術」を組み合わせることで、個人性の学習および再現を可能にしているのが特徴だ。

個人性再現対話技術

 NTT人間情報研究所 デジタルツインコンピューティング研究センタアナザーミーグループの深山篤グループリーダーは、「ペルソナ対話技術によって、年齢や性別、趣味といったプロフィール情報をセットで学習させることで、ペルソナ付きのLLMが実現できる。再現したい人物像のプロフィール情報をパラメータとして指定することで、ペルソナにあった対話が簡単にできるようになる」とする。

NTT人間情報研究所 デジタルツインコンピューティング研究センタアナザーミーグループの深山篤グループリーダー

 例えば、ペルソナを20代と指定すれば、その年代にあった思考や口調の対話を、LLMが生成する。

 さらに、「一般的なLLMで学習すると、ターゲットとする人物に近づくまでには、多くの学習が必要になるが、ターゲットに近いペルソナからスタートし、その上で、個人ごとのアダプタを追加することで、少しの学習で済み、軽量のままで、個人の特徴を持った対話が可能になる」という。

 個人性の再現に適用した個人アダプタでは、エピソードを交えた発話や口癖など、対象の個人に特化した会話の生成も可能になる。アダプタ技術は、パラメータは変えずに学習しているため、モデルサイズは非常に小さく、さらに、個人アダプタは動的に切り替えることができるため、多人数の対話の再現を効率的に実現するといった使い方も可能だ。

 ペルソナ対話技術は、tsuzumiの超小型版(6億パラメータ)に近いサイズで、個人アダプタは超小型版に比べて、200分の1~500分の1のパラメータになる。

 デモンストレーションでは、「ゲーム」というペルソナで設定した場合、「なにをやっている時間が一番好きか?」という質問に対して、ペルソナ対話技術だけでは、「ゲームが好きで、最近は○○というゲームをプレイする時間が増えている」と回答。ここに、100回ほどチャットでやり取りし、それを学習した個人アダプタを追加すると、「仕事が忙しいので、休みは家で過ごすことが多い」といった文言が加わり、直近の事情などを反映した対話が可能になる。

 さらに、数秒程度の目的話者の声を用意し、音声合成モデルを学習せずに、その人の声色に類似した合成音声を生成できるZero-shot音声合成技術と、数分~10分程度の目的話者の音声を用いて、音声合成モデルを学習し、高精度に目的話者の声を再現させることが可能になるFew-shot音声合成技術についても説明した。

 「従来からの音声合成は、深層学習技術を活用しており、目的の話者の声を生成するために、大量の音声データを収録し、人手でデータ整備を行い、深層学習モデルによって、音声を生成する仕組みとなっている。そのため、多くのコストと手間がかかっていた。だが、Zero-shot音声合成技術とFew-shot音声合成技術は、少量のデータでも、より高精度に、目的の声や話し方を再現でき、大幅なコスト削減も可能になる」とする。
 2つの音声合成技術は、演算処理の高速化によって、一般的なスペックのCPUで動作させることに成功しており、これも、音声合成サービスの運用コストを低く抑えることに貢献するという。

 Zero-shot音声合成技術は、声色の特徴情報を抜き出し、ベースとなっているモデルとあわせて使用することで、音声を再現することができる。また、Few-shot音声合成技術は、目的の話者の専用モデルとして作り上げるもので、著名人や有名キャラクターなどの声をターゲットに高品質な音声を再現。平静や喜び、悲しみなどの表現も可能だ。

Zero/Few-shot音声合成技術

 なお、今回開発した「個人性再現対話技術」は、Another Meで目指している「万人のデジタル分身の再現」に活用する考えだ。

 Another Meは、デジタル分身が、人の個性を持ちながら、自分の代理として、社会のなかで自律的に活躍することを目指したもので、Another Meが協力しあうことで、人々の多様性を反映し、社会活動や経済活動を活性化したり、課題解決を進めたりすることになるという。

 「Another Meでは、実生活では、家事や育児、仕事で忙しくて、デジタル空間にアクセスできなくても、デジタル分身がメタバースのなかで、時間の制約や心理的障壁を越えて、さまざまな人と交流し、ユーザーの対人関係を飛躍的に拡大することができると考えている」とする。

人の個性を備えたデジタル分身「Another Me」

 デジタル分身は、ユーザー自身がログインしていなくても自律的に活動する「NPC(Non-Player Character)」として、ほかのユーザーやデジタル分身とコミュニケーションし、その内容を、ユーザー本人に持ち帰って共有。興味関心や気心の合うユーザーと友達になるきっかけが得られたり、趣味や関心が共通する人々のコミュニティに分身が代理参加して、コミュニティ活動を活性化したりできる。

 こうしたAnother Meの取り組みにおいて、今回の「個人性再現対話技術」を利用することで、自分の代わりに音声でコミュニケーションを行うデジタル分身を持つことが可能になる。また、自分の言動を学習させることで、デジタル分身の言動を、自分に近づけることができるようになるという。

 NTTでは、前年度において、「過去の行動からその人が持つ趣味、価値観などを推定する個人性抽出技術」や、「プロフィールや属性からその人らしい対話を再現する個人性再現対話技術」の開発を行ってきた経緯がある。

 また、Another Meの取り組みのひとつとして、ユーザーの興味や関心を理解するペット型エージェントをMetaMe上に実装し、ユーザーの友達づくりを代行して、コミュニケーションの活性化を促進することを検証してきた。

これまでの取り組み

 今回の「個人性再現対話技術」と「音声合成技術」によって、ユーザーのデジタル分身の活動を進化。それをもとにした人間関係の創出効果を、MetaMe上でフィールド実験を開始するほか、tsuzumiによる個人性再現機能の提供に向けた取り組みを開始し、今後1、2年後の事業化を目指した開発を進めていくという。MetaMeでの利用のほか、デジタルヒューマンへの応用なども想定しているとした。

 また、音声合成技術は、障がいなどにより声を失ってしまった人が、残っている数秒程度のビデオや録音データを活用して本人の声を生成したり、孫の声を使った音声サービスに適用したりといった活用も想定できるとしている。

 なお、NTTドコモが1月17日、18日に、東京・有楽町の東京国際フォーラムで開催する「docomo Open House '24」において、ペルソナ対話技術、アダプタ技術、Zero shot音声合成技術、Few shot音声合成技術を組み合わせて、アニメキャラクターの再現、著名人の再現、個人のAnother Meのプロトタイプを公開する予定だ。

プロトタイプを公開