WO2007088877A1

WO2007088877A1 - 会話システムおよび会話ソフトウェア

Info

Publication number: WO2007088877A1
Application number: PCT/JP2007/051576
Authority: WO
Inventors: Mikio Nakano; Hiroshi Tsujino; Yohane Takeuchi; Kazunori Komatani; Hiroshi Okuno
Original assignee: Honda Motor Co., Ltd.
Priority date: 2006-01-31
Filing date: 2007-01-31
Publication date: 2007-08-09
Also published as: JP5248867B2; US8996385B2; JPWO2007088877A1; US20080319748A1

Abstract

　今回の発話理解結果に関する第１条件を満たす第１ドメインと、選択履歴に関する第２条件を満たす第２ドメインとが特定される。また、第１ドメインおよび該第２ドメインのそれぞれについて、発話理解履歴、選択履歴および発話生成履歴に鑑みた信頼度を表す指数が評価される。そして、当該評価結果に基づき、選択法則にしたがって第１、第２および第３ドメインのうち１つのドメインが今回のドメインとして選択される。

Description

明細書

会話システムおよび会話ソフトウェア

技術分野

[0001] 本発明は、ユーザの入力発話を理解し、かつ、ユーザへの出力発話を生成する会話システム等に関する。

背景技術

[0002] カーナビゲーシヨン装置等の使いやすさの向上を図るため、ユーザとの音声会話が可能なさまざまなシステムまたはインターフェイスが提案されて、る。音声会話システムは、経路案内、道路交通情報、気象情報等、特定のドメインの情報が格納されたデータベース力も必要な情報を検索した上でユーザに対して提供する。また、ユーザとのさまざまな会話を可能とするため、複数のドメインのそれぞれの情報を格納する複数のデータベースを備えた音声会話システムも提案されて、る。このような複数のドメインに関する会話を意図した音声会話システムにおいて、ユーザの発話内容に鑑みて適切なドメインを選択することが必要である。従来、次に示す文献に開示されて、るようにドメインの選択に関するさまざまな技術が提案されて、る。

[0003] 1. 「マルチドメイン音声対話システムの構築手法」長森誠ほか

情報処理学会研究報告， 2000-SLP-31-7, 2000

2. 「複数の音声対話システムの統合制御手法とその評価」河口信夫ほか情報処理学会研究報告， 2001-SLP-36-10, 2001

a. I. O ' Neill et al. し ross domain dialogue modeling:

An oDject— based approach. In Proc. ICSLP, Vol.1, 2004

しかし、当該先行技術によれば、タスクが達成されるまでドメインの遷移が許容されなかったり、ドメインの遷移が許容されてヽても現在選択されて!ヽるドメインに近!、ドメインへの遷移のみが認容されたりするという制約がある。このため、ユーザの発話内容に鑑みて不適切なドメインが数回にわたって選択されてしまい、ユーザとシステムとの会話が嚙み合わない状態が必要以上に永く維持される可能性があった。

[0004] そこで、本発明は、ユーザの発話内容への追従性の向上を図りながらユーザとの会話を進行させうるシステム、およびコンピュータを当該会話システムとして機能させるソフトウェアを提供することを解決課題とする。

発明の開示

[0005] 前記課題を解決するための第 1発明の会話システムは、音声入力装置への入力発話を理解する第 1処理部と、該第 1処理部による発話理解結果に基づいて複数のドメインの中から 1つのドメインを選択する第 2処理部と、該第 2処理部により選択されたドメインに基づき、音声出力装置力の出力発話を生成する第 3処理部とを備えている会話システムであって、前記第 2処理部が、前記複数のドメインの中から前記第 1処理部による今回の発話理解結果に関する第 1条件を満たす第 1ドメインと、前記第 2 処理部による選択履歴に関する第 2条件を満たす第 2ドメインとを特定し、該第 1ドメインおよび該第 2ドメインのそれぞれについて、前記第 1処理部による発話理解履歴に鑑みた信頼度を表す第 1指数、前記第 2処理部による選択履歴に鑑みた信頼度を表す第 2指数、および前記第 3処理部による発話生成履歴に鑑みた信頼度を表す第 3指数のうち一部または全部を評価し、当該評価結果に基づき、選択法則にしたがつて該第 1ドメインと、該第 2ドメインと、該第 1ドメインおよび該第 2ドメインとは異なる第 3ドメインとのうち 1つのドメインを今回のドメインとして選択することを特徴とする。

[0006] 第 1発明の会話システムによれば、複数のドメインのうち今回の発話理解結果に関する「第 1条件」を満たす一または複数の「第 1ドメイン」が今回のドメインの選択肢に含まれている。このため、今回の発話理解結果に鑑みて会話進行用ドメインとして信頼度が高いドメインが今回のドメインとして選択されうる。

[0007] また、複数のドメインのうち選択履歴に関する「第 2条件」を満たす一または複数の「第 2ドメイン」が今回のドメインの選択肢に含まれている。このため、選択履歴に鑑みて会話進行用ドメインとして信頼度が高いドメインが今回のドメインとして選択されうる

[0008] さらに、第 1および第 2ドメインのそれぞれについての第 1、第 2および第 3指数のうち一部または全部の評価結果に基づいて今回のドメインが選択される。このため、発話理解履歴、選択履歴および発話生成履歴のうち一部または全部に鑑みて会話進行用ドメインとして信頼度が高いドメインが今回のドメインとして選択されうる。 [0009] また、第 1および第 2ドメインのほか一または複数の「第 3ドメイン」も今回のドメインの選択肢に含まれている。このため、第 1、第 2および第 3指数のうち一部または全部の評価結果に鑑みて第 1および第 2ドメインが今回のドメインとして不適当な場合、当該第 1および第 2ドメインではなく第 3ドメインが今回のドメインとして選択されうる。

[0010] したがって、ユーザの発話内容への追従性の向上を図りながらユーザとの会話を進行させることができる。

[0011] また、第 2発明の会話システムは、第 1発明の会話システムにおいて、前記第 2処理部が前記第 1処理部による発話理解結果に基づいて各ドメインの尤度を評価し、ドメインの該尤度が n位 (n = 1, 2, · ·)以内であることを前記第 1条件として当該ドメイン

1 1

を前記第 1ドメインとして特定することを特徴とする。

[0012] さらに、第 3発明の会話システムは、第 1発明の会話システムにおいて、前記第 2処理部が k+ 1回のドメイン (k= l, 2, · ·)を選択する際、前記ドメインが i回前 (i= l, 2 , - -)までに前記今回のドメインとして選択されたことを前記第 2条件として当該ドメインを前記第 2ドメインとして特定することを特徴とする。

[0013] また、第 4発明の会話システムは、第 1発明の会話システムにおいて、前記第 2処理部が k+ 1回のドメイン (k= l, 2, · ·)を選択する際、ドメインが i回前までに前記今回のドメインとして選択されたドメインのうち、当該選択累積回数が n位 (n = 1, 2, · · )

2 2

以内であることを前記第 2条件として当該ドメインを前記第 2ドメインとして特定することを特徴とする。

[0014] さらに、第 5発明の会話システムは、第 1発明の会話システムにおいて、前記第 2処理部が前記第 1ドメインおよび前記第 2ドメインのそれぞれについて、肯定応答の有無を表す指数、否定応答の有無を表す指数、スロット更新数、肯定応答の累積回数、否定応答の累積回数、スロット更新累積数、発話理解回数、発話理解結果の音響スコア、発話理解結果の事後確率、および発話理解結果の単語信頼度相加平均のうち少なくとも 1つに基づいて前記第 1指数を評価することを特徴とする。

[0015] また、第 6発明の会話システムは、第 1発明の会話システムにおいて、前記第 2処理部が前記第 1ドメインおよび前記第 2ドメインのそれぞれについて、選択の有無を表す指数および選択回数のうち少なくとも 1つに基づいて前記第 2指数を評価することを特徴とする。

[0016] さらに、第 7発明の会話システムは、第 1発明の会話システムにおいて、前記第 2処理部が前記第 1ドメインおよび前記第 2ドメインのそれぞれにつ、て、タスク達成の有無を表す指数およびタスク達成累積回数のうち少なくとも 1つに基づいて前記第 3指数を評価することを特徴とする。

[0017] また、第 8発明の会話システムは、第 1発明の会話システムにおいて、前記第 2処理部が前記選択法則としての決定木にしたがって今回のドメインを選択することを特徴とする。

[0018] 前記課題を解決するための第 9発明の会話プログラムは、音声入力装置への入力発話を理解する第 1処理部と、該第 1処理部による発話理解結果に基づいて複数のドメインの中から 1つのドメインを選択する第 2処理部と、該第 2処理部により選択されたドメインに基づき、音声出力装置からの出力発話を生成する第 3処理部とを備えて V、る会話システムとしてコンピュータを機能させる会話プログラムであって、前記第 2 処理部が、前記複数のドメインの中力前記第 1処理部による今回の発話理解結果に関する第 1条件を満たす第 1ドメインと、前記第 2処理部による選択履歴に関する第 2条件を満たす第 2ドメインとを特定し、該第 1ドメインおよび該第 2ドメインのそれぞれについて、前記第 1処理部による発話理解履歴に鑑みた信頼度を表す第 1指数、前記第 2処理部による選択履歴に鑑みた信頼度を表す第 2指数、および前記第 3処理部による発話生成履歴に鑑みた信頼度を表す第 3指数のうち一部または全部を評価し、当該評価結果に基づき、選択法則にしたがって該第 1ドメインと、該第 2ドメインと、該第 1ドメインおよび該第 2ドメインとは異なる第 3ドメインとのうち 1つのドメインを今回のドメインとして選択するように前記コンピュータを機能させることを特徴とする。

[0019] 第 9発明の会話プログラムによれば、コンピュータを、ユーザの発話内容への追従性の向上を図りながらユーザとの会話を進行させうる会話システムとして機能させることができる。ここで、コンピュータを会話システムとして機能させるとは、コンピュータの ROM等の記憶装置に会話プログラムを格納しておき、コンピュータの CPU等の演算処理装置にこの記憶装置力会話プログラムを読み取らせ、かつ、この会話プロダラムにしたがって前記のようなドメイン選択等の処理を実行させることを意味する。図面の簡単な説明

[0020] [図 1]会話システムの構成例示図

[図 2]会話システムの機能例示図

[図 3]会話システムの機能例示図

[図 4]ドメイン選択に用いられる決定木の例示図

発明を実施するための最良の形態

[0021] 本発明の会話システムおよび会話ソフトウェアの実施形態について図面を用いて説明する。

[0022] 図 1に示されている会話システム 100は、たとえば自動車に搭載されたナビゲーションシステムに組み込まれたハードウェアとしてのコンピュータと、当該コンピュータのメモリに格納されたソフトウェアとしての「会話プログラム」とにより構成されている。なお、会話プログラムはメモリに予め格納されていてもよいが、 CD— ROM等の記憶媒体を介してコンピュータにインストールされてもよぐネットワークを通じてコンピュータに向けて配信または放送された上で当該メモリに格納されてもょヽ。

[0023] 会話システム 100は、第 1音声認識部 104と、第 2音声認識部 106と、ドメイン選択部 (第 2処理部） 108と、複数の第 1発話処理部 110と、第 2発話処理部 120と、発話選択部 132と、音声合成部 134とを備えている。なお、会話システム 100において、第 2音声認識部 102および第 2発話処理部 120が省略されてもよい。

[0024] 第 1音声認識部 101はマイク (音声入力装置）に入力された音声に基づき、隠れマルコフモデル法等の公知の手法にしたがい、かつ、小語彙辞書 DBを用いてユーザの発話音声を認識する。第 2音声認識部 102はマイクに入力された音声に基づき、隠れマルコフモデル法等の公知の手法にしたカ^、、かつ、大語彙辞書 DBを用いてユーザの発話音声を認識する。ドメイン選択部 104は複数のドメインの中から 1つのドメインを選択する。

[0025] 第 1発話処理部 110は発話理解部 (第 1処理部） 111と、会話状態格納部 112と、発話生成部 (第 3処理部） 113と、言語理解用 DB (DB :データベース） 114と、発話生成用 DB115と、タスク用 DB116とを備えている。複数の第 1発話処理部 110のそれぞれは「レストランドメイン」「ホテルドメイン」等の複数の異なるドメインのそれぞれに対応している。

[0026] 発話理解部 111は第 1音声認識部 101による第 1音声認識結果に基づき、言語理解用 DB114に格納されている言語理解用知識を用いて発話内容を理解する。会話状態格納部 112は発話理解部 111による発話理解結果等を格納する。発話生成部 113は会話状態格納部 112に格納されて!、る発話理解結果および発話生成用 DB 1 15に格納されて、る発話生成用知識、さらにはタスク用 DB116に格納されて、るテキストを用いて発話テキストを生成する。言語理解用 DB114は言語要素を理解するために必要な「言語理解用知識」を格納する。 DB114, 115および 116のそれぞれには、当該第 1発話処理部に対応するドメインに特有の知識等が格納されている。

[0027] 第 2発話処理部 120はキーワード検出部 122と、発話生成部 124と、雑談生成用 D B126とを備えている。第 2発話処理部 120は「雑談ドメイン」に対応している。

[0028] キーワード検出部 122は第 2音声認識部 102による第 2音声認識結果に基づき、雑談生成用 DB126に格納されている雑談生成用知識にしたがってキーワードを検出する。発話生成部 124はキーワード検出部 122により検出されたキーワードを用いて、雑談生成用 DB 126に格納されて、る雑談生成用知識を用、て雑談用の発話テキストを生成する。雑談生成用 DB126は雑談用テキストの生成に必要な「雑談生成用知識」を格納する。

[0029] 発話選択部 132は第 1発話処理部 110において発話生成部 113により生成された発話の内容、または第 2発話処理部 120において発話生成部 124により生成された発話の内容を確認する。音声合成部 134は発話選択部 132により確認された発話の内容を音声として合成し、当該合成音声としての発話をスピーカー (音声出力装置）に出力させる。

[0030] 前記構成の会話システム 100の機能について図 2〜図 4を用いて説明する。

[0031] まず、会話システム 100が搭載されて!、る自動車野イダ-ッシヨンスィッチが OFFから ONに切り替えられ、会話システム 100も OFF力も ONに切り替えられた等のタイミングでユーザの累積発話回数を示す指数 k力 S「l」に設定される（図 2ZS001)。

[0032] 運転手等のユーザが何らかの発話をするとこれがマイクに入力される。第 1音声認識部 101は当該入力発話に応じたマイクからの出力信号に基づき、小語彙辞書 DB に格納されて、る「小語彙辞書」を用いて当該入力発話に含まれる言語要素 (たとえば単語)の候補を認識する（図 2ZS002)。たとえば、入力発話に第 1言語要素 W (k

1

)および第 2言語要素 W (k)が含まれている場合、第 1音声認識部 101は第 1言語要

2

素 W (k)について尤度の高い N個の第 1言語要素候補 E (k) (i= l, 2, · · , N )の集

1 1 li 1 合 (以下「第 1集合」という。 ) G (k)と、第 2言語要素 W (k)について尤度の高い N個の

1 2 2 第 2言語要素候補 E (k) (j = l, 2, · · , N )の集合 (以下「第 2集合」という。 ) G (k)とを

2j 2 2 認識する。なお、第 1集合 G (k)に含まれる言語要素数 Nおよび第 2集合 G (k)に含ま

1 1 2

れる言語要素数 Nは同一であっても相違していてもよい。

2

[0033] 第 1音声認識部 101は第 1音声認識結果としての第 1集合 G (k)および第 2集合 G (

1 2 k)をドメイン選択部 104に出力し、ドメイン選択部 104は当該第 1音声認識結果を複数の第 1発話処理部 110のそれぞれに分配出力する（図 2ZS004)。

[0034] また、第 2音声認識部 102が入力発話に応じたマイクからの出力信号に基づき、大語彙辞書 DBに格納されている「大語彙辞書」を用いて当該入力発話に含まれる言語要素の候補を認識する（図 2ZS003)。第 2音声認識部 102により用いられる「大語彙辞書」は、第 1音声認識部 101により用いられる「小語彙辞書」よりも登録されている言語要素の数が多い。このため、第 2音声認識部 102は、第 1音声認識部 101よりも音声認識精度が若干低いものの、第 1音声認識部 101によっては認識されえな V、ような言語要素であっても認識することができる。

[0035] さらに、第 2音声認識部 102が第 2音声認識結果を第 2発話処理部 120のキーヮード検出部 122に出力し、キーワード検出部 122が当該第 2音声認識結果に基づき、かつ、雑談生成用 DB126に格納されている「雑談生成用知識」を用いてキーワードを検出する（図 2ZS005)。

[0036] また、複数の第 1発話処理部 110のそれぞれにおいて、発話理解部 111が第 1音声認識結果に基づき、言語理解用知識を用いて入力発話を理解する（図 2ZS006) 。具体的には、発話理解部 111は第 1集合 G (k)の中から、言語理解用 DB114に「

1

言語理解用知識」の一部として格納されて、る複数の第 1辞書言語要素のうち 1つに合致する第 1言語要素候補 E (k)を、尤度の高いほうから優先的に検索する。また、

li

発話理解部 111は第 2集合 G (k)の中から、言語理解用 DB114に「言語理解用知識」の一部として格納されている、複数の第 2辞書言語要素のうち 1つに合致する第 2言語要素候補 E (k)を、尤度の高いほうから優先的に検索する。

2j

[0037] 例として「食事ドメイン」に対応する第 1発話処理部 110において言語理解用 DB11 4に、言語理解用知識として「くレストラン名称〉のく情報カテゴリ >を教えて」 t 、う文章が格納され、複数の第 1辞書言語要素として複数のレストラン名称が格納され、複数の第 2辞書言語要素として住所、連絡先、道順、関連情報等、複数の情報カテゴリが格納されている場合を考える。この場合、発話理解部 111によって当該複数のレストラン名称のうち 1つに合致する、第 1集合 G (k)において尤度が最高の第 1言語

1

要素候補 E (k) (たとえば「ビストロ〇〇」）が検索され、かつ、当該複数の情報カテゴ

11

リのうち 1つに合致する、第 2集合 G (k)において尤度が最高の第 2言語要素候補 E (

2 21 k) (たとえば「住所」 )が検索される。

[0038] また「宿泊ドメイン」に対応する第 1発話処理部 110において言語理解用 DB114に、言語理解用知識として「 <宿泊施設名称〉のく情報カテゴリ >を教えて」という文章が格納され、複数の第 1辞書言語要素として複数の宿泊施設名称が格納され、複数の第 2辞書言語要素として住所、連宅先、関連情報等、複数の情報カテゴリが格納されている場合を考える。この場合、発話理解部 111によって当該複数の地域名称のうち 1つに合致する、第 1集合 G (k)において尤度が第 3位の第 1言語要素候補

1

E (k) (たとえば「ホテル〇〇」）が検索され、かつ、当該複数の情報カテゴリのうち 1つ

13

に合致する、第 2集合 G (k)において尤度が最高の第 2言語要素候補 E (k) (たとえば

2 21

「住所」）が検索される。

[0039] さらに、発話理解部 111による発話理解結果が会話状態格納部 112に格納される

(図 2ZS008)。具体的には、第 1集合 G (k)力も検索された第 1言語要素候補 E (k)

1 li が会話状態格納部 112の「第 1スロット」に格納される。また、第 2集合 G (k)力検索

2

された第 2言語要素候補 E (k)が会話状態格納部 112の「第 2スロット」に格納される。たとえば前記食事ドメインにつヽては「くレストラン名称 >の <情報カテゴリ >を教えて」という文章におけるくレストラン名称〉が第 1スロットに該当し、く情報カテゴリ >が第 2スロットに該当する。また、前記宿泊ドメインについては「<宿泊施設名称〉のく情報カテゴリ >を教えて」、う文章におけるく宿泊施設名称 >が第 1スロットに該当し、く情報カテゴリ〉が第 2スロットに該当する。なお、第 1スロットに第 1言語要素候補が格納されなカゝつたドメインでは、第 2スロットへの第 2言語要素候補 E (k)の格納が省略されてもよい。また、第 1音声認識結果力 ^はい」「そう」などの肯定応答である場合や、第 1音声認識結果が「いいえ」「ちがう」などの否定応答である場合には

、当該肯定応答または否定応答があったことおよびその回数を示すフラグが前回の選択ドメインに対応する第 1発話処理部 110の会話状態格納部 112に格納される。

[0040] さらに、各スロットへの言語要素候補の格納状態も会話状態として会話状態格納部 112に格納される。これにより、たとえば食事ドメインについては第 1言語要素候補 E

1

(k)が第 1スロットに格納され、かつ、第 2言語要素候補 E (k)が第 2スロットに格納さ

1 21

れていることが会話状態として会話状態格納部 112に格納される。また、宿泊ドメインについては第 1言語要素候補 E (k)が第 1スロットに格納され、かつ、第 2言語要素候

13

補 E (k)が第 2スロットに格納されていることが会話状態として会話状態格納部 112に

21

格納される。さらに、その他のドメインでは第 1言語要素候補が第 1スロットに格納されていないことが発話状態として会話状態格納部に格納される。なお「会話状態」にはユーザの累積発話回数を示す指数 kが含まれて、てもよ、。

[0041] 続いて、各第 1発話処理部 110において、発話理解部 111が会話状態格納部 112 に格納されている会話状態を読み取った上でドメイン選択部 104に出力する。そして、ドメイン選択部 104が複数のドメインの中から、発話理解結果に関する「第 1条件」を満たす一または複数のドメインを「第 1ドメイン」として特定する（図 2ZS010)。「第 1条件」としては、発話理解結果に基づいて評価されるドメインの尤度が n位 (n = 1

1 1

, 2, · ·)以内であることが採用されうる。

[0042] 例として「第 1スロットに格納されている第 1言語要素候補 E (k)の尤度（ドメインの尤

li

度に相当する。 )が複数のドメインの中で最高であること」が「第 1条件」として設定され、かつ、前記のように食事ドメインについては第 1スロットに第 1言語要素候補 E (k)

11 が格納され、宿泊ドメインについては第 1スロットに第 1言語要素候補 E (k)が格納さ

13

れている場合を考える。この場合、当該 2つのドメインのうち、尤度が最高の第 1言語要素候補 E (k)が第 1スロットに格納されている食事ドメイン力 S「第 1ドメイン」として特

11

定される。 [0043] さらに、ドメイン選択部 104はユーザの累積発話回数を表す指数 k力「l」であるか否かを判定する（図 2ZS012)。

[0044] そして、指数 kが「1」であると判定された場合（図 2ZS012- 'YES)、ドメイン選択部 104は当該第 1ドメインをそのまま今回のドメインとして選択する（図 2/S018)。なお、複数の第 1ドメインが特定されている場合、当該複数の第 1ドメインのそれぞれについて後述する第 1指数、第 2指数および第 3指数のうち一部または全部が評価され、当該評価結果に基づいて 1つの第 1ドメインが選択されてもよい。

[0045] 一方、指数 kが「1」ではないと判定された場合（図 2ZS012- ·ΝΟ)、ドメイン選択部 104は複数のドメインの中から選択履歴に関する「第 2条件」を満たす一または複数のドメインを「第 2ドメイン」として特定する（図 2ZS014)。「第 2条件」としては、 i回前 (i= l, 2, · ·)までに今回のドメインとして選択されたこと、または i回前までに今回のドメインとして選択されたドメインのうち、当該選択累積回数が n位

2 (n 1 = 1, 2, · ·) 以内であることが採用されうる。

[0046] 例として「前回選択されたドメインであること」が「第 2条件」として設定され、かつ、複数のドメインのうち食事ドメインが前回のドメインとして選択された場合を考える。この場合、当該食事ドメインが「第 2ドメイン」として特定される。

[0047] 第 1ドメインに加えて第 2ドメインが特定された場合、第 1ドメインおよび第 2ドメインのそれぞれにつ、て「第 1指数」「第 2指数」および「第 3指数」のうち一部または全部が評価される（図 2ZS016)。第 1ドメインおよび第 2ドメインのそれぞれに対応する第 1発話処理部 110のそれぞれにお、て会話常態格納部 112に格納されて、る、会話状態を表す種々のフラグ等に基づいて当該指数が評価される。

[0048] 「第 1指数」は発話理解部 (第 1処理部） 111による発話理解履歴に鑑みた信頼度を表す。「第 1指数」としては（1)肯定応答の有無を表す指数、（2)否定応答の有無を表す指数、（3)スロット更新数、（4)肯定応答の累積回数、（5)否定応答の累積回数、（6)スロット更新累積数、（7)発話理解回数、（8)発話理解結果の音響スコア、 ( 9)発話理解結果の事後確率および（10)発話理解結果の言語要素信頼度相加平均、さらにはこれらのうち少なくとも 1つを変数とする関数が採用される。「音響スコア」とは、マイクからの出力信号と、音素ごとに用意されている音響モデルとの類似度を表す指標である。「言語要素信頼度」とは、複数の言語要素候補のそれぞれの音響スコアのうち、最高の音響スコアが他の音響スコアからどの程度突出して、るかと、う観点からの各ドメインの信頼度を表す指標である。たとえば、最高の音響スコアが他の音響スコアよりも著しく高い場合には当該信頼度が高く評価される一方、最高の音響スコアが他のスコアよりもさほど高くない場合には当該信頼度が低く評価される。

[0049] また、「第 2指数」はドメイン選択部 (第 2処理部） 104による選択履歴に鑑みた信頼度を表す。「第 2指数」としては（1)選択の有無を表す指数および (2)選択回数、さらにはこれらのうち少なくとも 1つを変数とする関数が採用される。

[0050] さらに、「第 3指数」は発話生成部 (第 3処理部） 113による発話生成履歴に鑑みた信頼度を表す。「第 3指数」としては（1)タスク達成の有無を表す指数および (2)タスク達成累積回数、さらにはこれらのうち少なくとも 1つの関数が採用される。「タスク達成」とは後述するように発話生成部 113がタスク用 DB116からテキストを読み取り、当該読み取りテキストを用いて発話を生成したことを意味する。

[0051] 続いて、ドメイン選択部 104が第 1指数、第 2指数および第 3指数のうち一部または全部の評価結果に基づき、所定の選択規則にしたがって第 1および第 2ドメインに加え、第 3ドメインの中から 1つのドメインを選択する（図 2ZS018)。選択規則としては図 4に示されているような決定木が採用されうる。図 4では当該決定木の一部のみが示されているが、残りの部分は第 1指数、第 2指数および第 3指数のそれぞれの性質に鑑みて適宜設定されうる。なお、選択規則としては当該決定木のほか、第 1指数、第 2指数および第 3指数のうち一部または全部を用いたファジー規則等、種々の選択規則が採用されてもよい。「第 3ドメイン」としてたとえば第 2発話処理部 120に対応する「雑談ドメイン」が特定される。なお「第 3ドメイン」として第 1発話処理部 110に対応するドメインが特定されてもょ、。

[0052] ドメイン選択部 104は選択ドメインが第 1または第 2ドメインであるカゝ否かを判定する

(図 2ZS020)。

[0053] ドメイン選択部 104は選択ドメインが第 1ドメインまたは第 2ドメインであると判定した場合（図 2ZS020' -YES) ,当該選択ドメインに対応する第 1発話処理部 110の会話状態格納部 112にドメインが選択されたことを示すフラグ「1」および当該選択回数を示すフラグをたてる（図 2ZS022)。また、ドメイン選択部 104は非選択ドメインに対応する第 1発話処理部 110の会話状態格納部 112にドメインが選択されなかったことを示すフラグ「0」をたてる（図 2ZS022)。非選択ドメインに対応する第 1発話処理部 110では会話状態格納部 112のすベてのスロットが未格納状態にリセットされる。

[0054] 続いて、発話選択部 132が当該選択ドメインに対応する第 1発話処理部 110に対して出力発話を問い合わせる。これに応じて当該第 1発話処理部 110の発話生成部 113が会話状態格納部 112から会話状態 (各スロットの格納状態等が特定される。）を読み取り、発話生成用 DB115から発話生成用知識を読み取り、当該会話状態と発話生成用知識とを対照する（図 3ZS024)。発話生成部 113は当該対照結果に基づき、タスク用 DB116からのテキスト (または言語要素）の検索要否を判定する（図 3ZS026)。たとえばすべてのスロットが格納状態である場合 (第 1スロットに第 1言語要素候補 E (k)が格納され、かつ、第 2スロットに第 2言語要素候補 E (k)が格納され

li 2j

ている場合)、当該格納言語要素候補に対応付けられているテキスト（当該 2つの言語要素候補の関数 f(k) = f (E (k), E (k))により表される。）をタスク用 DB 116から検

li 2j

索する必要がある一方、一部または全部のスロットが未格納状態である場合、テキストをタスク用 DB116から検索する必要がないことが発話生成用知識によって特定される。

[0055] そして、発話生成部 113はテキスト検索が必要であると判定した場合（図 3ZS026 ••YES) ,当該テキストをタスク用 DB116から検索する（図 3ZS028)。たとえば食事ドメインが選択され、かつ、前記のように当該第 1発話処理部 110において第 1言語要素候補 E (k)=「ビストロ〇〇」および第 2言語要素候補 E (k)=「住所」が各スロ

11 21 ットに格納されて、る場合、発話生成部 113はタスク用 DB 116からテキスト f (k) = f (E (k), E (k)) =「京都府京都市 X X区 · ·」を検索する。発話生成部 113は当該テキ

11 21

スト検索に応じてタスク達成フラグ (タスクが達成されたことおよびタスク達成回数を表す。 )を会話状態格納部 112にたてる（図 3ZS030)。

[0056] また、発話生成部 113は検索テキストと発話生成用知識とを用いて発話テキストを生成する（図 3ZS032)。たとえば食事ドメインに対応する第 1発話処理部 110において第 1スロットに第 1言語要素候補 E (k) =「ビストロ〇〇」が格納され、かつ、第 2 スロットに第 2言語要素候補 E (k) =「住所」が格納されている場合、検索テキスト f(k)

2j

=「京都府京都市 X X区 · ·」を用いて「ビストロ〇〇の住所は京都府京都市 X X区

- 'です。」という発話テキストが生成される。

[0057] 一方、発話生成部 113がタスク用 DB116からテキストを検索する必要がないと判定した場合（図 3ZS026' ·ΝΟ)、当該テキストを用いずに発話生成用知識を用いて発話テキストを生成する。たとえば食事ドメインに対応する第 1発話処理部 110において、第 1スロットに第 1言語要素候補 E (k) ( =ビストロ〇〇）が格納されている一方、

li

第 2スロットが未格納状態である場合、「ビストロ〇〇の何を知りたいのです力」という問い合わせの発話テキストが生成される。また、食事ドメインに対応する第 1発話処理部 110において、第 1スロットが未格納状態である一方、第 2スロットに第 2言語要素候補 E (k) (=住所）が格納されている場合、「何の住所を知りたいのです力」「もう

2j

一度おっしゃってくださ、」 t 、う問、合わせの発話テキストが生成される。

[0058] また、ドメイン選択部 104により選択ドメインが第 3ドメイン (雑談ドメイン)であると判定された場合（図 2ZS020' ·ΝΟ)、当該第 3ドメインに対応する第 2発話処理部 12 0の発話生成部 124が、キーワード検出部 122により検出されたキーワードと、雑談生成用知識と、必要に応じてインターネット検索されたテキストとを用いて雑談用の発話テキストを生成する（図 3ZS033)。なお、複数の第 3ドメインが存在する場合、当該複数の第 3ドメインの中から 1つのドメインを選択するために「どのような情報をお求めですか」等、ユーザとの会話に適当なドメインを直接的に当該ユーザに尋ねる発話テキストが生成されてもよい。

[0059] 続いて、第 1発話処理部 110の発話生成部 113または第 2発話処理部 120の発話生成部 126が発話テキストを発話選択部 132に出力する。また、発話選択部 132は入力された発話テキストを音声合成部 134に出力し、音声合成部は入力された発話テキストを音声としてスピーカから出力させる（図 3/S034)。これにより、スピーカから「ビストロ〇〇の住所は京都府京都市 X X区 · ·です」という発話音声が出力される

[0060] 会話システム 100はユーザとの会話が終了したか否かを判定する（図 3ZS036)。

たとえば会話システム 100が搭載されて!、る自動車のイダ-ッシヨンスィッチが ONから OFFに切り替えられた場合に会話が終了したと判定される。一方、会話システム 1 00とユーザとの会話が継続中であると判定された場合（図 3ZS036- · NO)、ユーザの発話累積回数を示す指数 kが 1だけ増加され (図 3ZS038)、前述した第 1音声認識（図 2ZS002参照）および第 2音声認識（図 2ZS003参照）以降の一連の処理が実行される。

[0061] 前記処理にしたがったユーザおよび会話システム 100の会話例を次に示す。 Uはユーザの発話を表し、 sは会話システム 100の発話を表して、る。

(会話例）

U：ビストロ〇〇の住所を教えてください。

1

[0062] S：ビストロ〇〇の住所は京都府京都市 X X区 · ·です。

1

[0063] U：ビストロ〇〇の連絡先を教えてください。

2

[0064] S：ホテル〇〇の連絡先は〜です。

2

[0065] U：ビストロ〇〇の連絡先です。

3

[0066] S：ホテルの案内をご希望ですか。

3

[0067] U：いいえ。

4

[0068] S：レストランの案内をご希望です力。

4

[0069] 第 1回のシステム発話 Sは第 1回のユーザ発話 Uが正確に音声認識され、ユーザ

1 1

との会話進行ドメインとして適当な「食事ドメイン」が選択された上で出力された発話である。第 2回のシステム発話 Sは第

2 2回のユーザ発話 Uが正確に音声認識されず

2

、第 1ドメイン (第 1回の選択ドメイン）としての「食事ドメイン」ではなぐ尤度が最高の第 2ドメインとしての「宿泊ドメイン」が選択された上で出力された発話である。第 2回の選択ドメインである「宿泊ドメイン」は会話進行ドメインとして不適当であることに応じて、第 3回のユーザ発話 Uは第 2回のユーザ発話 Uの繰り返しになっている。第 3回

3 2

のシステム発話 Sは第 3回のユーザ発話 Uがなおも正確に認識されず、第 1ドメイン

3 3

(第 2回の選択ドメイン)としての「宿泊ドメイン」が選択された上で出力された発話である。第 3回の選択ドメインである「宿泊ドメイン」は会話進行ドメインとしてなおも不適当であることに応じて、第 4回のユーザ発話 Uは否定応答になっている。第 4回のシス

4

テム発話 Sは第 4回のユーザ発話 Uである否定応答が正確に認識され、第 1ドメイン (第 3回の選択ドメイン)としての「宿泊ドメイン」ではなぐ第 3ドメインである「食事ドメイン」が選択された上で出力された発話である。

[0070] 前記機能を発揮する会話システム 100によれば、複数のドメインのうち今回の発話理解結果に関する「第 1条件」を満たす一または複数の「第 1ドメイン」が今回のドメインの選択肢に含まれている（図 2ZS010参照)。このため、今回の発話理解結果に鑑みて会話進行用ドメインとして信頼度が高いドメインが今回のドメインとして選択されうる。

[0071] また、複数のドメインのうち選択履歴に関する「第 2条件」を満たす一または複数の「第 2ドメイン」が今回のドメインの選択肢に含まれている（図 2/S014参照)。このため、選択履歴に鑑みて会話進行用ドメインとして信頼度が高いドメインが今回のドメインとして選択されうる。

[0072] さらに、第 1および第 2ドメインのそれぞれについての第 1、第 2および第 3指数のうち一部または全部の評価結果に基づ、て今回のドメインが選択される（図 2ZS018 参照)。このため、発話理解履歴、選択履歴および発話生成履歴のうち一部または全部に鑑みて会話進行用ドメインとして信頼度が高いドメインが今回のドメインとして選択されうる。

[0073] また、第 1および第 2ドメインのほか一または複数の「第 3ドメイン」も今回のドメインの選択肢に含まれている。このため、第 1、第 2および第 3指数のうち一部または全部の評価結果に鑑みて第 1および第 2ドメインが今回のドメインとして不適当な場合、当該第 1および第 2ドメインではなく第 3ドメインが今回のドメインとして選択されうる。

[0074] したがって、ユーザの発話内容への追従性の向上を図りながらユーザとの会話を進行させることができる。本願発明者の行った実験によれば、従来技術における会話システムによるドメインの選択精度（= (選択結果としてのドメインが正しカゝつた回数） Z (ドメインが選択された累積回数)）が 68. 9%であったのに対して、本発明の会話システムによるドメインの選択精度は 74. 0%であり、当該精度が 5. 1%向上することが確認された。

Claims

請求の範囲

[1] 音声入力装置への入力発話を理解する第 1処理部と、該第 1処理部による発話理解結果に基づいて複数のドメインの中から 1つのドメインを選択する第 2処理部と、該第 2処理部により選択されたドメインに基づき、音声出力装置力もの出力発話を生成する第 3処理部とを備えて、る会話システムであって、

前記第 2処理部が、前記複数のドメインの中から前記第 1処理部による今回の発話理解結果に関する第 1条件を満たす第 1ドメインと、前記第 2処理部による選択履歴に関する第 2条件を満たす第 2ドメインとを特定し、該第 1ドメインおよび該第 2ドメインのそれぞれについて、前記第 1処理部による発話理解履歴に鑑みた信頼度を表す第 1指数、前記第 2処理部による選択履歴に鑑みた信頼度を表す第 2指数、および前記第 3処理部による発話生成履歴に鑑みた信頼度を表す第 3指数のうち一部または全部を評価し、当該評価結果に基づき、選択法則にしたがって該第 1ドメインと、該第 2ドメインと、該第 1ドメインおよび該第 2ドメインとは異なる第 3ドメインとのうち 1つのドメインを今回のドメインとして選択することを特徴とする会話システム。

[2] 請求項 1記載の会話システムにおいて、

前記第 2処理部が前記第 1処理部による発話理解結果に基づいて各ドメインの尤度を評価し、ドメインの該尤度が n位 (n = 1, 2, · ·)以内であることを前記第 1条件と

1 1

して当該ドメインを前記第 1ドメインとして特定することを特徴とする会話システム。

[3] 請求項 1記載の会話システムにおいて、

前記第 2処理部が k+ 1回のドメイン (k= l, 2, · ·)を選択する際、前記ドメインが i 回前 (i= l, 2, · ·)までに前記今回のドメインとして選択されたことを前記第 2条件として当該ドメインを前記第 2ドメインとして特定することを特徴とする会話システム。

[4] 請求項 1記載の会話システムにおいて、

前記第 2処理部が k+ 1回のドメイン (k= l, 2, · ·)を選択する際、ドメインが i回前までに前記今回のドメインとして選択されたドメインのうち、当該選択累積回数が n

2位（ n = 1, 2, · ·)以内であることを前記第 2条件として当該ドメインを前記第 2ドメインとし

1

て特定することを特徴とする会話システム。

[5] 請求項 1記載の会話システムにおいて、前記第 2処理部が前記第 1ドメインおよび前記第 2ドメインのそれぞれについて、肯定応答の有無を表す指数、否定応答の有無を表す指数、スロット更新数、肯定応答の累積回数、否定応答の累積回数、スロット更新累積数、発話理解回数、発話理解結果の音響スコア、発話理解結果の事後確率、および発話理解結果の単語信頼度相加平均のうち少なくとも 1つに基づいて前記第 1指数を評価することを特徴とする会話システム。

[6] 請求項 1記載の会話システムにおいて、

前記第 2処理部が前記第 1ドメインおよび前記第 2ドメインのそれぞれについて、選択の有無を表す指数および選択回数のうち少なくとも 1つに基づいて前記第 2指数を評価することを特徴とする会話システム。

[7] 請求項 1記載の会話システムにおいて、

前記第 2処理部が前記第 1ドメインおよび前記第 2ドメインのそれぞれについて、タスク達成の有無を表す指数およびタスク達成累積回数のうち少なくとも 1つに基づいて前記第 3指数を評価することを特徴とする会話システム。

[8] 請求項 1記載の会話システムにおいて、

前記第 2処理部が前記選択法則としての決定木にしたがって今回のドメインを選択することを特徴とする会話システム。

[9] 音声入力装置への入力発話を理解する第 1処理部と、該第 1処理部による発話理解結果に基づいて複数のドメインの中から 1つのドメインを選択する第 2処理部と、該第 2処理部により選択されたドメインに基づき、音声出力装置力もの出力発話を生成する第 3処理部とを備えている会話システムとしてコンピュータを機能させる会話プログラムであって、

前記第 2処理部が、前記複数のドメインの中から前記第 1処理部による今回の発話理解結果に関する第 1条件を満たす第 1ドメインと、前記第 2処理部による選択履歴に関する第 2条件を満たす第 2ドメインとを特定し、該第 1ドメインおよび該第 2ドメインのそれぞれについて、前記第 1処理部による発話理解履歴に鑑みた信頼度を表す第 1指数、前記第 2処理部による選択履歴に鑑みた信頼度を表す第 2指数、および前記第 3処理部による発話生成履歴に鑑みた信頼度を表す第 3指数のうち一部または全部を評価し、当該評価結果に基づき、選択法則にしたがって該第 1ドメインと、該第 2ドメインと、該第 1ドメインおよび該第 2ドメインとは異なる第 3ドメインとのうち 1つのドメインを今回のドメインとして選択するように前記コンピュータを機能させることを特徴とする会話プログラム。