第7回:会話分析と対話システム

AI技術チームによる技術発信

AI技術チームの燕(エン)です。今回は、会話分析と対話システムについて紹介します。
 

1. はじめに

人工知能が急速に発展・普及している今、Microsoft社の「Cortana」、Apple社の「Siri」、Google社の「Google Assistant」など、さまざまな対話システムが身近に現れてきました。これらのシステムと対話(注1)することで、天気や場所を調べたり、簡単なおしゃべりをしたりすることができます。人工知能という言葉が世の中に登場した際、誰もが期待していたのは、まるで人間と話しているかのような感覚が得られる対話システムではないでしょうか。残念ながら、今はまだそのような理想には遠い状況です。このような対話システムを作ることは人間を作っているようなもので、人間に関わる多くの研究分野の知識が必要です。特に、そもそも人間はどのように対話しているのか、という本質的な部分を知ることが重要です。本記事では、対話の仕組みを知るための分析的なアプローチとして「会話分析」という研究手法を紹介します。
 

2. 会話分析とは

会話分析は、録音・録画された対話データを詳細に観察することで、人々がどのような行為を通して会話を成立させているのかを解明する研究分野です。以下の図1(注2)は、会話分析のイメージです。

会話分析のイメージ
図1 会話分析のイメージ


図1では、話し手(美香)はジェスチャーをしながら電車で見た出来事を語っています。それに対し、聞き手(玲子、美沙、加奈)は適切なタイミングで「うん」や「ああ」などのあいづちを打って理解を示しています。この会話断片は短いものにもかかわらず、テキスト情報以外に、発話の位置、無言、音調、視線、ジェスチャーなど、多様な情報(マルチモーダル情報)を持っていることが見て取れます。これらの情報は一見無秩序に見えるかもしれませんが、実は何らかの秩序で組織化されていることが見出せます。その秩序や組織化の仕組みを、会話を注意深く観察することで解明するのが会話分析です。紙幅のためここで具体的な分析の説明は行いませんが、会話分析の基本概念と方法論がまとめられた教科書をいくつか紹介します。
 

「会話分析入門」(串田秀也・平本 毅・林 誠)[1]
「対話と談話(言語と計算)」(石崎雅人・伝 康晴)[2]
「会話分析基本論集(H. サックス・E. A. シェグロフ・G. ジェファソン 著、西阪 仰 訳)」[3]
 

3. 会話分析と対話システムの関係

前節で見たように、対話におけるテキスト、発話の位置、音声などの構成要素は何らかの秩序を持っています。その秩序というのは、対話におけるロジックとも捉えることができます。そのロジックがあれば、人々がどのように対話しているのかを解釈できます。そのロジックは一般的に複雑であるものの、ある側面で「自然な」対話の特徴を反映しています。1節で提示した「人間と話しているような感覚を与える対話システム」を作るには、その「自然さ」を提供することが重要なポイントだと考えます。換言すれば、対話システムに人間の対話ロジックを再現させることが大切なのです(図2)。

会話分析と対話システムの関係
図2 会話分析と対話システムの関係


会話分析は、実際の対話を分析することでロジックを体系的に獲得する手法の一つです。以下では、対話システムの設計や改良に会話分析の知見を取り入れる試みを紹介します。 
 

4. 会話分析の導入事例

  • 対話システムの設計

人工知能学会 言語・音声理解と対話処理研究会(SIG-SLUD)では、毎年秋に「対話システムシンポジウム」を開催しており、その中で、ここ数年「対話システムライブコンペティション」を実施しています。第3回の「シチュエーショントラック」(注3)の1位と2位は、人と人との対話の分析を通して得られている知見を、対話システムの設計に生かす形で構築されたシステムでした[4]。これは、会話分析によって得られる知見が対話システムの設計に役立つことを示唆しています。

  • 対話システムの改良

「アンドロイドERICAの傾聴対話システム─人間による傾聴との比較評価─」[5]では、アンドロイドERICAによる傾聴と、オペレータによる傾聴を比較し、対話システムと人間とのギャップを詳細に評価しています。これは、人間の対話を指標に対話システムの振舞いを詳しく分析することで、対話システムの改良につなげられることを示しています。
以上、会話分析について、対話システムとの関係及び導入事例を紹介してきました。しかし、両者の融合をさらに推進するためには、以下に挙げる課題の解決が必要です。
    

5.課題と解決方法

  • 課題

会話分析によって実際の対話から得たロジックが対話システムに応用されてきています。しかし、人間の対話におけるロジックは膨大に存在しているため、既存の会話分析の成果以外に大規模にロジックを定義するのは相当な時間と労力が必要です。

  • 解決方法:AI(Artificial Intelligence)を用いた対話ロジックモデルの作成

この課題は、AIの力によって解決を図れるかもしれません。

近年、ディープラーニング(深層学習)の技術が急速に発展しており、自然言語処理分野に非常に大きな影響をもたらしています。対話システムにおいても、「end-to-end 深層学習(end-to-end deep learning)」が盛んに進んでいます。AIの力を発揮するには大量の学習データが必要であるため、対話コーパス(人間の対話を文字化したデータベース)が作られています。対話コーパスにおける大量のテキストデータがあれば、その特徴や構造をAIによって学習できます。学習された言語モデルは、翻訳や質問応答など特定の課題の解決において非常に高い性能が得られることが知られています。実際、SNSから収集した大量の発話ペアを用いて学習した言語モデルを利用して、非常に自然な雑談を行うシステムを実現している企業もあります。しかし、現状のほとんどの対話コーパスはテキスト情報に限っており、対話における発話の位置、無言、ジェスチャーなどの情報の記録が欠如しています。その結果、現状の対話システムの品質向上が、応答内容の正確性及び関連課題(例えば、文脈を踏まえた応答)の解決にとどまっているという課題が生じています。メラビアンの法則[6]で示唆されているように、人間が対話する際、言葉よりはジェスチャーや音調などを重視する傾向があります。よって、対話コーパスにおけるそのような構成要素(マルチモーダル情報)がなくては、対話のロジックを表現するには十分とは言えません。そのため、対話における構成要素をなるべく完全に記録するような対話コーパスが必要になります。そのようなコーパスの代表として、『日本語日常会話コーパス』[7]を紹介します。

『日本語日常会話コーパス』は、様々な日常場面における自然な対話をバランス良く収めたコーパスで、映像付きの日常対話コーパスは世界で初めての試みです。そのコーパスから、対話におけるテキスト情報だけではなく、無言、発話の位置、ジェスチャー、音調などの情報を獲得することができます。発話は書き起こしされたうえで会話分析の専門家によって談話行為(例えば、質問、依頼、会話開始など)の情報が付与されています。このようなアノテーションを「教師」とみなし、それに対応する発話における構成要素間の関係をAIの学習を通じて「特徴」として獲得できると考えられます。そこで学習された対話モデルは、人間の対話におけるロジックをより完全に近い形で反映していることが期待できます。例えば、図1のようにユーザが長い発話をするとき、対話ロボットが発話が終わるまでそのまま待つのではなく、適切なタイミングであいづちを打ったり、聞き返ししたりすることを期待できます。また、ジェスチャー、音調などの非言語的な要素を擬人化キャラクターを通じて実現することで、ユーザに音声、視覚上のインパクトを与えることも期待できます。
 

6.終わりに

現在の対話システムの研究開発は主に人工知能の分野で盛んに行われていますが、対話は人間に関わる多くの分野(言語学、心理学、認知科学、社会学、脳科学、言語哲学など)が関係している学際的な領域です。その中でも会話分析は、対話システムにおける「対話」という本質的な部分の理解に役立つアプローチとして、非常に有益だと思います。

注1) 本記事では「対話」と「会話」を同じ意味で使いますが、両者は厳密には違います。
対話は二人が向き合って話し合うことを表しますが、会話は二人以上の人が集まって互いに話すこと、またその内容のことを表します。会話分析では二人の対話だけでなく、多人数の会話も取り扱うため会話分析と呼ばれています。一方、本記事でいう対話システムは、ユーザと対話ロボットの二者間で話し合うようなシステムを指しているため、対話システムと呼ぶことにします。
注2) 図1に示す会話断片と画像は、筆者が学位論文の研究[8]で用いた『日本語日常会話コーパス』[7]におけるC001_001の対話データから収集しました。
注3) 当該のコンペティションでは、また話したくなる雑談対話システムを作ることを目指していますが、これに加え特定のシチュエーションで人間らしく話す雑談対話システムを目指すトラックもありました。このトラックをシチュエーショントラックと呼びます。

参考文献

[1] https://www.keisoshobo.co.jp/book/b297675.html
[2] http://www.utp.or.jp/book/b302556.html
[3] https://sekaishisosha.jp/book/b353891.html
[4] https://dialog-system-live-competition.github.io/dslc3/index.html
[5] https://www.jstage.jst.go.jp/article/tjsai/36/5/36_36-5_H-L51/_pdf/-cha…
[6] https://ja.wikipedia.org/wiki/%E3%83%A1%E3%83%A9%E3%83%93%E3%82%A2%E3%8…
[7] 小磯花絵・天谷晴香・石本祐一・居關友里子・臼田泰如・柏野和佳子・川端良子・田中弥生・伝康晴・西川賢哉・渡邊友香 「『日本語日常会話コーパス』の設計と特徴」『言語処理学会第28回年次大会発表論文集』pp. 2008-2012,2022.3.
[8] 燕興・伝康晴 「語りにおけるケド節の談話機能–『日本語日常会話コーパス』を用いて–」『社会言語科学』24(1),pp. 236-248,2021.9.