第15回:生成型AIとマルチモーダル技術を駆使した次世代雑談対話システムの構築ポイント

AI技術チームによる技術発信

1. はじめに

AI Tech チームの燕(エン)です。雑談対話システムについて、皆さんは最初にどのようなものを思い浮かべますか?多くの方は、Apple社の「Siri」やGoogle社の「Google Assistant」のような身近な技術を思い浮かべるかもしれません。また、近年ではOpenAIが開発・公開したChatGPTはじめとするLLM(Large language Models、大量のデータと深層学習技術によって構築された言語モデル)が注目され、その人間に匹敵する言語能力が話題となっています。
しかし、これらの技術を利用する際、実際に人間との会話をしているような感覚が得られるでしょうか。私の感じるところ、完全にはそうは言えません。というのも、AIの返答が流暢すぎると感じることがあるからです。実際の人間同士の会話では、考えながら話すため言葉に詰まることがありますし、相手の反応や合いの手も自然に入るものです。そして、会話の流れの中での発話権の切り替えはスムーズです。しかし、現状の多くの対話システムは一問一答の形式が主流で、人間らしい雑談を再現するのは難しい状況です。例えば、対話システムの発話権の切り替えには常に約2秒の遅延があり、これが発話衝突を頻繁に引き起こしているとの問題点が指摘されています[1]。
この記事では、人間らしい雑談対話システムの基本から、それの実現に向けた重要な課題と解決方法など幅広く論じたいと思います。以下、2節では、対話システムの分類を概観します。3節では、対話システムの存在意義と応用領域を紹介します。4節と5節では、対話感を作り出すためのデータとモデル(4節)と、基本機能(5節)について述べます。6節では、人間らしい対話システムをめぐる未来の課題を提示します。

2. 対話システムの分類

「人間らしい雑談ができる対話システム」―この表現は一見曖昧に感じられ、何を指すのか具体的に理解しづらいかもしれません。以下では、まず、対話システムの基本分類を概観します。その後の節では、人間らしい雑談対話システムの正体を示していきます。

図1 対話システムの分類
 

対話システムには様々な形態が存在します(図1)。大きく分けると、特定のタスクを目的とする「タスク指向型対話システム」と、それを目的としない「非タスク指向型対話システム(雑談型)」に区分されます。タスク指向型対話システムは、例えば検索や注文などの特定のタスクを実行するためのもので、豆蔵が独自に開発した対話型AIエンジン「MZbot」[2]がその一例です。一方、非タスク指向型対話システムいわゆる雑談対話システムは、大阪大学の石黒浩教授が率いた研究チームが開発した「ERICA(エリカ)」がこのカテゴリーで注目を集めています[3]。ERICAは、音声認識を用いた対話だけでなく、身振り手振り、表情、視線など、人間のように多様な情報伝達手段を用いて人間と対話することができます(図2)。

図2 自律型対話アンドロイドERICA
出典:https://www.jst.go.jp/erato/ishiguro/robot.html
 

そして、雑談対話システムのカテゴリはさらに、システムの動作原理により「ルールベース」「抽出ベース」「生成ベース」の三つに分類することができます。生成ベースのシステムは深層学習を活用して、ゼロから発話を生成する手法を採用しています。本記事で取り上げる対話システムも、この生成ベースの方法論を基盤としています(図1、灰色)。

3. 人間らしい雑談対話システムの意義と応用領域

雑談対話データの完備やAIテクノロジーの進化により、対話システムが人間らしい雑談ができる可能性が大きくなりつつあります。一方、人間らしい雑談対話システムが存在する意義が自明ではないかもしれません。以下では、人間らしい雑談対話システムの意義について探るとともに、その応用領域も紹介します。

3.1 その存在意義

そもそも人間の対話の目的は何でしょう?「情報の交換」や「協力関係の構築」など色々考えられますが、一言でいうと「共感」(感情の共有)です。そして、共感を通して最終的に目指しているのは、周りの人達と共に仲良く生きていくこと、つまり「共生」です[4]。人間らしい雑談対話システムの存在意義は、対話を通じて人間と機械の共感・共生を推進することにあります。そのような社会像は人間機械共生社会と言います[5]。ただし、人間と対話システムが共感するためには、複数回にわたって対話を長く・深く継続しなくてなりません。それを実現するために「対話感」を作ることが大切です。対話感作りから共生までのプロセスを下の図3に示します。ここでいう「対話感」とは、対話の中の人間らしさのことを指します。いかに対話感を作るということは、本記事で述べる中心的な技術課題です(詳細は4節)。

図3 対話感づくりから共生までの実現過程
 

3.2 応用領域

社会の高齢化が進む中、人間との共感を目指す対話システムが、介護を含む多様な分野での活用が期待されています。特に、日本では高齢者のケアや介護の分野で人手不足が深刻化しており、対話システムの導入により、高齢者の健康管理や生活習慣の改善支援、介護職の負担軽減が期待されています。この分野での注目の取り組みとして、内閣府の支援によるマルチモーダル(画像、テキスト、音声など複数種類のデータを同時に利用する)音声対話システム「MICSUS」(Multimodal Interactive Care Support System)の開発が挙げられます[6]。このシステムは、高齢者との対話を通じて、より効果的なケアを提供することを目指しています。
さらに、この技術は教育や孤独を感じる人々のサポートなど、多岐にわたる社会問題の解決に寄与する可能性を秘めています。例えば、Starley社が開発した「Cotomo」という音声会話型おしゃべりAIアプリは、日常会話に特化し、常日頃の雑談から悩み相談まで、ユーザーのさまざまな感情や想いに寄り添うことを目指しています[7]。対話システムの進化は、私たちの想像力を超える形で社会に貢献することが期待されており、今後の発展に注目が集まっています。

4.対話感を作り出すためのデータとモデル

4.1 データ

対話システムの構築に利用できる日本語対話コーパスは、古くから構築・公開されています[8]。対話システムの成功には、適切なデータの選択が不可欠です。例えば、観光案内の対話システムを考える場合、観光案内対話データの使用が最適でしょう。一方、雑談対話システムのデータ選択は非常に難しいと思われます。というのは、人間の雑談は特定の目的を持たず、日常活動の中で自然に生起しているものだからです。よって、利用する雑談対話データがさまざまなトピックや状況をカバーする必要があります。さらに、雑談中には言語、音声、身体動作など多岐にわたる情報が交換されます。システムの実際の応用を考慮すると、自然に発生する活動、かつ複雑な情報交換の中で高い性能を実現するため、自然生起でマルチモーダルな対話データの使用が求められます。では、そのようなデータはどのように手に入れるでしょうか。
実際、自然生起でマルチモーダルな対話データは日常会話で大量に発生しているものの、収録や転記、または倫理・法的などの課題があるため、利用できるものは極めて少ない現状があります。一方、言語学、心理学、認知科学、情報工学、AIなど、人間の言動理解に関わる多様な分野で日常会話の研究がますます重要になってきます。そのような背景の元で誕生した『日本語日常会話コーパス』(Corpus of Everyday Japanese Conversation, CEJC)が注目されています[9]。主な特徴は以下の通りです。

  • 自然に生じる日常の活動を対象とする
  • 多様な場面・話者の会話の記録
  • 音声・文字データに加え、映像データも公開(世界初, 図4)
  • 豊富なアノテーションを備える

このコーパスには人間の日常会話のデータが含まれていますが、個人情報は厳格なデータ保護の基準に従って匿名化されています。これにより、学術と商用どちらにも、AIが人間の会話を学び理解するための貴重なリソースとして安全に利用できます。

図4 CEJC会話の収録風景
出典:https://www2.ninjal.ac.jp/conversation/cejc/media.html
 

4.2 ファインチューニング

雑談対話データの整備が進む中、現有のデータ量はまだLLMの学習には不十分です。この問題を解決する手法として、ファインチューニングが考えられます。具体的には、LLMを雑談対話データで追加学習することで、モデルの性能を向上させることが期待されます。例えば、筆者の学位論文の研究で、BERTモデルとCEJCの雑談データを組み合わせることで、高精度の機械学習モデルを構築することが可能になりました[10]。

4.3 マルチモーダルAI

円滑な対話の実現には、テキスト、音声、画像など、さまざまな情報を総合的に処理する能力が必要です。これに対応するのがマルチモーダルAIです。実際、単一のデータよりも、マルチモーダルなデータを使用したモデルの方が高い予測性能を示すことが知られています。人工知能学会 言語・音声理解と対話処理研究会(SIG-SLUD)では、毎年秋に「対話システムシンポジウム」を開催しており、第14回対話システムシンポジウム(2023年12月開催)[11]では、マルチモーダルな対話システムが続々と提案されてきました。

4.4 ChatGPTとの連携

ChatGPTは、大量のデータから学習した自然言語処理モデルで、人間に近い対話能力があるとされています。ただし、ChatGPTの対話は基本的に一問一答形式で、スムーズな発話権の切り替えが難しいという課題があります。最新のGPT-4oでレスポンスの待ち時間が大幅に短縮されましたが、人間同士のようにあいづちを打ったり、発言が重なることはありません。そのため、レスポンスの速さだけで人間らしい会話が実現できるわけではありません。例えば、早稲田大学とクロスラボ研究所が共同開発した「あいづちボット」は、発話中にあいづちを挟むことで人はボットに人間らしさを感じたと報告されています[12]。また、手振りや表情といった非言語的なコミュニケーションもありません。このように、現状のChatGPTだけでは、完全に自然な人間のような雑談を行うのは難しいです。しかし、ChatGPTを用いることで、対話システムの全体的な性能向上が期待できます。たとえば、4.1で提示した同シンポジウムで行われた対話システムのコンペティションにおいて、GPT-4を使ったマルチモーダル対話システムは、話題管理や感情認識などで優れた能力を示しました[13]。

5. 対話感を生み出すための基本機能

対話システムがより人間らしい雑談を実現するためには、複数な機能が必要です。ここでは、円滑なコミュニケーションを可能にするために必要とされる二つの重要な機能について紹介します。

5.1 対話モードの切り替え

この機能は、対話システムがユーザーとどのように対話するかを決めるものです。具体的には、対等なやり取りを行う「やり取りモード」と、ユーザーの話に傾聴する「傾聴モード」の間で切り替えます。この切り替えは、ユーザーの発話が継続するかどうかを予測することに基づいており、高度な機械学習モデルを必要とします。前述した[10]の研究では、BERTモデルを用いた発話継続性の予測に高い精度を達成しています。

5.2 対話破綻の検出・修復

この機能は、システムの不適切な発話を検出し、修復する技術です。対話の安定性を保つために非常に重要で、非タスク指向型対話システムにおける研究が活発に行われています。対話破綻は、人間同士の対話でも生じる現象で、破綻を認識し、それを修復するプロセスは、システムの人間らしさを向上させる重要な要素です。この分野の重要性を反映して、人工知能学会では「対話破綻検出チャレンジ」が開催されており、関連するデータセットやモデル構築に関する提案がなされています[14]。

これらの基本機能は、人間らしい対話システムを実現するための鍵となるもので、その開発と改善は今後も続いていくことが予想されます。

6. 人間らしい対話システムの開発における未来の課題

人間らしい雑談を実現する対話システムは、技術的な進歩により現実のものとなっていますが、その完全な実現にはまだ多くの課題が残されています。以下では、「パーソナリティ」「UI」「評価基準」という三つの課題に焦点を当てて述べます。

6.1 パーソナリティ

人間とロボットの共生を目指すには、ロボットにパーソナリティを持たせることが望ましいでしょう。ユーザーは、パーソナリティを持つロボットとの関わりを望む傾向にあり、これが人間との親密な関係構築に寄与すると考えられます。このパーソナリティの設計方法は、今後の研究で解明されるべき課題です。

6.2 UI (ユーザーインターフェース)

UIは、単に操作の手段を超えた、良い体験価値を生み出す要素です。人間らしい雑談を実現するためには、マルチモーダルな情報の入力と出力を可能にするUIの開発が求められます。このUI設計は、より直感的で効果的なユーザー体験を生み出すことが期待できます。

6.3 評価基準

ロボットの知能性を評価する基準として、チューリングテストが最も広く認知されています。しかし、このテストはテキストベースの対話に限定されており、人間の多様なモダリティを反映していません。そのため、チューリングテストを人間の持つより多様なモダリティに拡張し、より包括的な評価基準を開発する必要があります。

これらの課題に対処し、解決策を見つけることで、より人間らしい対話システムの実現が可能になるでしょう。

7. まとめ

対話システムは人工知能分野の究極の目標の一つだと言われています。特に雑談対話システムは、複雑な情報交換中で相手の意図を理解し、次の発話を考える必要があるため、人間の知的活動の集大成です。適切なデータとモデルを組み合わせることで、より高性能な対話システムの実現が期待されます。
 

参考

[1] 河原達也, 井上昂治. アンドロイドERICAによる人間レベルの音声対話への挑戦:遠隔操作(Wizard of Oz)との比較評価を通して. 日本音響学会誌, 78(5), 249-256 (2022).
[2] https://www.mzbot.jp/
[3] https://www.irl.sys.es.osaka-u.ac.jp/robot
[4] 福田正治. 感情の共有 : 人と人をつなぐ共感. 研究紀要:富山医科薬科大学一般教育, 28, 1-18 (2002).
[5] 東中竜一郎, 稲葉通将, 酒井和紀. 小特集「人間機械共生社会を目指した対話知能システム学の取り組みと今後の展開」にあたって. 人工知能, 38(5), 699 (2023).
[6] https://www.nict.go.jp/publicity/topics/2023/03/08-1.html
[7] https://cotomo.ai/
[8] https://individuality.jp/dialogue_corpus.html
[9] 小磯花絵, 天谷晴香, 居關友里子, 臼田泰如, 柏野和佳子, 川端良子, 田中弥生, 伝康晴, 西川賢哉, 渡邊友香. 『日本語日常会話コーパス』設計と特徴. 国立国語研究所論集, 24, 153-168 (2023).
[10] 燕興, 伝康晴. 傾聴対話システムのための返答継続性の予測モデルの提案. 人工知能学会論文誌, 38(4), C-MB5_1-11(2023).
[11] https://jsai-slud.github.io/sig-slud/99th-sig.html
[12] https://www.waseda.jp/inst/research/news/77644
[13] 松浦直樹, 中山朝陽, 大沼飛宇多, 佐藤明智, 南泰浩. GPT-4を活用した感情・対話行為分析を組み込んだシチュエーショントラック対話システム. 人工知能学会研究会資料, SIG-SLUD-099, 96-101(2023).
[14] 東中竜一郎, 船越孝太郎, 小林優佳, 稲葉通将. 対話破綻検出チャレンジ. 人工知能学会研究会資料, SIG-SLUD-B502-07, 27-32(2015).