WO2020195022A1

WO2020195022A1 - 音声対話システム、モデル生成装置、バージイン発話判定モデル及び音声対話プログラム

Info

Publication number: WO2020195022A1
Application number: PCT/JP2020/000914
Authority: WO
Inventors: 麻莉子千葉; 太一浅見
Original assignee: 株式会社Ｎｔｔドコモ
Priority date: 2019-03-26
Filing date: 2020-01-14
Publication date: 2020-10-01
Also published as: US11862167B2; JPWO2020195022A1; US20220165274A1

Abstract

音声対話装置は、取得されたユーザ発話を認識する認識部と、バージイン発話の採否を判定するバージイン発話制御部と、バージイン発話制御部により不採用と判定されたバージイン発話以外のユーザ発話の認識結果に基づいて、ユーザに対してのシステム応答を出力する対話制御部と、システム応答に基づいてシステム発話を生成する応答生成部と、システム発話を出力する出力部とを備え、バージイン発話制御部は、ユーザ発話に含まれる各ユーザ発話要素が、直前システム発話に含まれる所定の形態素に該当し且つ直前システム発話に対するユーザによる回答候補に該当しない場合に、当該ユーザ発話要素を少なくとも不採用とする。

Description

音声対話システム、モデル生成装置、バージイン発話判定モデル及び音声対話プログラム

　本発明は、音声対話システム、モデル生成装置、バージイン発話判定モデル及び音声対話プログラムに関する。

　音声からなるシステム発話を出力することによりユーザにより発せられる発話であるユーザ発話との間で対話を行う音声対話システムがある。このような音声対話システムにおいて、システム発話が出力されているときに割り込んで発せられたユーザ発話であるバージイン発話には、システムが応答すべきものと、採用せずに無視すべきものとがある。適切なシステム発話の出力を実現すべく、例えば、システムにより応答音声によってユーザに返答を要求する際に、返答としてユーザに要求する発話音声の予測長さ等に基づいてバージイン発話の採否を制御する技術が知られている（例えば、特許文献１参照）。

特開２０１８－１２４４８４号公報

　バージイン発話は、システム発話に対する回答及びシステム発話に対する要求の他に、システム発話の内容の復唱及び単なる相槌を含む場合がある。対話の制御において、システム発話に対する復唱及び単なる相槌が採用されると、対話システムの誤作動が発生する場合があった。

　そこで、本発明は、上記問題点に鑑みてなされたものであり、バージイン発話におけるシステム発話に対する復唱及び単なる相槌を対話制御において不採用とすることにより誤作動を防止して、利便性向上を図ることを目的とする。

　上記課題を解決するために、本発明の一形態に係る音声対話システムは、音声からなるシステム発話を出力することによりユーザとの対話を行う音声対話システムであって、ユーザにより発せられた音声からなるユーザ発話を取得する取得部と、取得部により取得されたユーザ発話をテキストの情報として認識した認識結果を出力する認識部と、システム発話が出力されているときに割り込んで発せられたユーザ発話であるバージイン発話の採否を判定するバージイン発話制御部と、ユーザ発話とシステム発話との相互の応答ルールを有する対話シナリオを参照して、バージイン発話制御部により不採用と判定されたバージイン発話以外のユーザ発話に対応する認識結果に基づいて、ユーザに対して応答すべき応答内容を表すシステム応答を出力する対話制御部と、対話制御部により出力されたシステム応答に基づいて、システム発話を生成する応答生成部と、システム発話を出力する出力部と、を備え、ユーザ発話は、時系列の１以上のユーザ発話要素からなり、対話シナリオは、システム発話に対して想定されるユーザによる回答である回答候補を含み、バージイン発話制御部は、各ユーザ発話要素が、ユーザ発話が発せられた時の直前に出力部により出力されたシステム発話である直前システム発話に含まれる所定の形態素に該当し、且つ、対話シナリオにおいて直前システム発話に対する回答候補の要素に該当しない場合に、当該ユーザ発話要素または当該ユーザ発話要素を含む前記ユーザ発話を不採用とすることを判定する。

　ユーザ発話に含まれるユーザ発話要素が、直前システム発話に含まれる所定の形態素に該当する場合には、当該ユーザ発話要素が、システム発話の復唱の要素に該当する可能性が高い。また、ユーザ発話要素が、直前システム発話の一部の復唱であっても、当該直前システム発話の回答候補の要素に該当する場合には、当該ユーザ発話が、対話制御において採用すべき要素に該当する。上記の形態によれば、ユーザ発話要素が、直前システム発話に含まれる所定の形態素に該当し、且つ、直前システム発話の回答候補の要素に該当しない場合に、当該ユーザ発話要素を対話の制御において不採用とすることが判定される。従って、音声対話システムにおける誤作動が防止され、ユーザにおける利便性が向上される。

　バージイン発話におけるシステム発話に対する復唱及び単なる相槌を対話制御において不採用とすることにより誤作動を防止して、利便性向上を図ることが可能となる。

本実施形態の音声対話システムの機能的構成を示すブロック図である。音声対話システムのモデル生成装置及び音声対話装置のハードブロック図である。ユーザ発話及びシステム発話の例を示す図である。ユーザ発話及びシステム発話の例を示す図である。ユーザ発話特徴系列及びシステム発話特徴系列の例を模式的に示す図である。システム発話フレームに対する復唱相槌コードの付与の処理内容を示すフローチャートである。システム発話に含まれる形態素に対する復唱相槌コードの付与処理を説明するための図である。復唱相槌コードが付されたシステム発話フレームの例を模式的に示す図である。システム発話に含まれる形態素に対する復唱相槌コードの付与処理を説明するための図である。復唱相槌コードが付されたシステム発話フレームの例を模式的に示す図である。学習データにおける正解ラベルが付されたユーザ発話フレームの例を模式的に示す図である。学習データにおける正解ラベルが付されたユーザ発話フレームの例を模式的に示す図である。バージイン発話判定モデルの学習の局面の処理内容を示すフローチャートである。バージイン発話判定モデルから出力される、各ユーザ発話フレームの尤度及び採否判定結果を模式的に示す図である。バージイン発話の採否判定の例を示す図である。バージイン発話の採否判定の例を示す図である。音声対話装置における、バージイン発話の採否処理を含む音声対話処理の内容を示すフローチャートである。モデル生成プログラムの構成を示す図である。音声対話プログラムの構成を示す図である。

　本発明に係る音声対話システムの実施形態について図面を参照して説明する。なお、可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。

　図１は、本実施形態に係る音声対話システム１の機能的構成を示す図である。音声対話システム１は、音声からなるシステム発話を出力することによりユーザとの対話を行うシステムである。図１に示すように、音声対話システム１は、モデル生成装置１０及び音声対話装置２０を含む。音声対話システム１は、対話シナリオ記憶部３０、学習用データ記憶部４０及びモデル記憶部５０といった記憶手段を含むことができる。

　音声対話システム１は、１つの装置として構成されてもよいし、モデル生成装置１０、音声対話装置２０、対話シナリオ記憶部３０、学習用データ記憶部４０及びモデル記憶部５０のうちの一つまたは複数がそれぞれ一つの装置を構成してもよい。

　モデル生成装置１０は、音声対話の制御におけるバージイン発話の採否を判定するためのバージイン発話判定モデルを生成する装置である。図１に示すように、モデル生成装置１０は、機能的には、学習用発話取得部１１、ユーザ発話特徴抽出部１２、システム発話特徴抽出部１３、識別情報付与部１４、ラベル取得部１５、モデル生成部１６及びモデル出力部１７を備える。

　また、音声対話装置２０は、システム発話を出力することによりユーザとの対話を行う装置であって、機能的には、取得部２１、認識部２２、ユーザ発話特徴取得部２３、システム発話特徴取得部２４、バージイン発話制御部２５、対話制御部２６、応答生成部２７及び出力部２８を備える。これらの各機能部については後に詳述する。

　なお、図１に示したブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した１つの装置を用いて実現されてもよいし、物理的又は論理的に分離した２つ以上の装置を直接的又は間接的に（例えば、有線、無線などを用いて）接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記１つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。

　機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知（broadcasting）、通知（notifying）、通信（communicating）、転送（forwarding）、構成（configuring）、再構成（reconfiguring）、割り当て（allocating、mapping）、割り振り（assigning）などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック（構成部）は、送信部（transmitting　unit）や送信機（transmitter）と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。

　例えば、本発明の一実施の形態におけるモデル生成装置１０及び音声対話装置２０はそれぞれ、コンピュータとして機能してもよい。図２は、本実施形態に係るモデル生成装置１０及び音声対話装置２０のハードウェア構成の一例を示す図である。モデル生成装置１０及び音声対話装置２０は、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、バス１００７などを含むコンピュータ装置として構成されてもよい。

　なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。モデル生成装置１０及び音声対話装置２０のハードウェア構成は、図に示した各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

　モデル生成装置１０及び音声対話装置２０における各機能は、プロセッサ１００１、メモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることで、プロセッサ１００１が演算を行い、通信装置１００４による通信や、メモリ１００２及びストレージ１００３におけるデータの読み出し及び／又は書き込みを制御することで実現される。

　プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置（ＣＰＵ：Central　Processing　Unit）で構成されてもよい。例えば、図１に示した各機能部１１～１７，２１～２８などは、プロセッサ１００１で実現されてもよい。

　また、プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュールやデータを、ストレージ１００３及び／又は通信装置１００４からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、モデル生成装置１０及び音声対話装置２０の各機能部１１～１７，２１～２８は、メモリ１００２に格納され、プロセッサ１００１で動作する制御プログラムによって実現されてもよい。上述の各種処理は、１つのプロセッサ１００１で実行される旨を説明してきたが、２以上のプロセッサ１００１により同時又は逐次に実行されてもよい。プロセッサ１００１は、１以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。

　メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read　Only　Memory）、ＥＰＲＯＭ（Erasable　Programmable　ＲＯＭ）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ＲＯＭ）、ＲＡＭ（Random　Access　Memory）などの少なくとも１つで構成されてもよい。メモリ１００２は、レジスタ、キャッシュ、メインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本発明の一実施の形態に係るモデル生成方法または音声対話方法を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

　ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤ－ＲＯＭ（Compact　Disc　ＲＯＭ）などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー（登録商標）ディスク、磁気ストリップなどの少なくとも１つで構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ１００２及び／又はストレージ１００３を含むデータベース、サーバその他の適切な媒体であってもよい。

　通信装置１００４は、有線及び／又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。

　入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ、スピーカー、LEDランプなど）である。なお、入力装置１００５及び出力装置１００６は、一体となった構成（例えば、タッチパネル）であってもよい。

　また、プロセッサ１００１やメモリ１００２などの各装置は、情報を通信するためのバス１００７で接続される。バス１００７は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。

　また、モデル生成装置１０及び音声対話装置２０は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital　Signal　Processor）、ＡＳＩＣ（Application　Specific　Integrated　Circuit）、ＰＬＤ（Programmable　Logic　Device）、ＦＰＧＡ（Field　Programmable　Gate　Array）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ１００１は、これらのハードウェアの少なくとも１つで実装されてもよい。

　再び図１を参照して、音声対話システム１が有する各記憶部について簡単に説明する。対話シナリオ記憶部３０は、ユーザ発話とシステム発話との相互の応答ルールを有する対話シナリオを記憶している記憶手段である。対話シナリオ記憶部３０は、システム発話に対して想定されるユーザによる回答の候補である回答候補を含むことができる。

　学習用データ記憶部４０は、後に詳述されるバージイン発話判定モデルを生成するための機械学習に供される学習データを記憶している記憶手段である。学習データは、ユーザ発話、当該ユーザ発話の直前に出力されたシステム発話である直前システム発話を含む。

　モデル記憶部５０は、モデル生成装置１０により生成されたバージイン発話判定モデルを記憶する記憶手段である。音声対話装置２０は、モデル記憶部５０により記憶されているバージイン発話判定モデルを用いて、音声対話の制御におけるバージイン発話の採否を判定する。

　次に、モデル生成装置１０の各機能部について説明する。学習用発話取得部１１は、ユーザにより発せられた音声からなるユーザ発話及び音声対話において当該ユーザ発話の直前に出力されたシステム発話である直前システム発話を取得する。

　図３は、学習用発話取得部１１により取得されたユーザ発話及び直前システム発話の例を示す図である。図３に示すように、学習用発話取得部１１は、ユーザ発話ｓｕを取得する。ユーザ発話ｓｕは、例えば、ユーザにより発せられた「特急列車を利用します」という音声のデータである。

　ユーザ発話ｓｕは、ユーザにより発せられた一連の発話音声のうちの所定の１区間の発話であってもよい。１区間の発話は、例えば、周知の音声区間検出（ｖｏｉｃｅ　ａｃｔｉｖｉｔｙ　ｄｅｔｅｃｔｉｏｎ）の技術により検出される。発話の１区間は、例えば、一連の発話を所定時間以上の無音部（ｐａｕｓｅ）で区切った一続きの有音の部分とすることができる。具体的には、例えば、「そうですね・・・（ｐａｕｓｅ）・・・いいと思います」という発話から、「そうですね」，「いいと思います」という２つの区間が抽出される。

　また、学習用発話取得部１１は、直前システム発話ｓｓをユーザ発話ｓｕ関連付けて取得する。直前システム発話ｓｓは、例えば、システムにより発せられた「特急列車を利用しますか」という音声のデータである。

　図４は、学習用発話取得部１１により取得されたユーザ発話及び直前システム発話の第２の例を示す図である。図４に示すように、学習用発話取得部１１は、ユーザ発話ｓｕ－２（ｓｕ）を取得する。ユーザ発話ｓｕ－２は、例えば、ユーザにより発せられた「Ｉ　ｔａｋｅ　ａｎ　ｅｘｐｒｅｓｓ　ｔｒａｉｎ．」という音声のデータである。

　また、学習用発話取得部１１は、直前システム発話ｓｓ－２（ｓｓ）をユーザ発話ｓｕ－２関連付けて取得する。直前システム発話ｓｓ－２は、例えば、システムにより発せられた「Ｄｏ　ｙｏｕ　ｔａｋｅ　ａｎ　ｅｘｐｒｅｓｓ　ｔｒａｉｎ？」という音声のデータである。

　ユーザ発話特徴抽出部１２は、ユーザ発話ｓｕを所定長さの時間のユーザ発話要素に分割し、各ユーザ発話要素の音響特徴量を時系列に配してなるユーザ発話特徴系列を、ユーザ発話に基づいて抽出する。

　システム発話特徴抽出部１３は、直前システム発話ｓｓを所定長さの時間のシステム発話要素に分割し、各システム発話要素の音響特徴量を時系列に配してなるシステム発話特徴系列を、直前システム発話に基づいて抽出する。

　図５は、ユーザ発話特徴系列及びシステム発話特徴系列の例を模式的に示す図である。本実施形態では、ユーザ発話特徴抽出部１２は、ユーザ発話ｓｕを複数のユーザ発話フレームｆｕに分割する。ユーザ発話フレームｆｕは、ユーザ発話要素の一例を構成する。一のフレームの長さは、任意の所定長の時間であることができるが、例えば１０ｍｓに設定されてもよい。

　各ユーザ発話フレームｆｕは、音響特徴量を含む。音響特徴量は、音の高さ、音の強さ及び音色等のうちの１以上を含むことができる。音響特徴量は、例えば、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficients、メル周波数ケプストラム係数）といった周知の技術により取得されるものであってもよい。

　ユーザ発話特徴抽出部１２は、図５に示すように、ユーザ発話フレームｆｕの音響特徴量を時系列に配してなるユーザ発話特徴系列ＦＵを、ユーザ発話ｓｕに基づいて抽出する。

　また、システム発話特徴抽出部１３は、直前システム発話ｓｓを複数のシステム発話フレームｆｓに分割する。システム発話フレームｆｓは、システム発話要素の一例を構成する。一のフレームの長さは、任意の所定長の時間であることができるが、例えば１０ｍｓに設定されてもよい。

　各システム発話フレームｆｓは、ユーザ発話フレームｆｕと同様に、音響特徴量を含む。音響特徴量は、音の高さ、音の強さ及び音色等のうちの１以上を含むことができる。

　システム発話特徴抽出部１３は、図５に示すように、システム発話フレームｆｓの音響特徴量を時系列に配してなるシステム発話特徴系列ＦＳを、直前システム発話ｓｓに基づいて抽出する。

　識別情報付与部１４は、システム発話特徴系列に含まれる複数のシステム発話要素のうち、直前システム発話に含まれる形態素のうちの所定の品詞に該当する形態素であり、且つ、直前システム発話に対して想定されるユーザによる回答候補に該当しない形態素に含まれるシステム発話要素に対して、識別情報を付与する。本実施形態では、識別情報付与部１４は、復唱相槌コードｒｃをシステム発話フレームｆｓに付与する。復唱相槌コードｒｃは、識別情報の一例を構成する。回答候補は、例えば、対話シナリオから取得される。

　ユーザ発話に、直前システム発話に含まれる形態素のうちの所定の品詞（例えば、動詞、名詞及び形容詞）に該当する形態素が含まれていた場合には、その形態素は、ユーザによるシステム発話の復唱に該当する。そして、復唱に該当する形態素のうちの、回答候補に該当しない形態素は、ユーザによる相槌に該当する。

　本実施形態では、識別情報付与部１４は、直前システム発話に含まれる形態素のうちの、ユーザにより発せられたときに復唱且つ相槌に該当する形態素に含まれるシステム発話フレームｆｓに、復唱相槌コードｒｃを付与する。

　一方、システム発話に含まれる形態素のうち、ユーザにより発せられたときに、システム発話の復唱に該当する形態素であっても、回答候補に該当するものは、対話制御において採用すべき回答に該当するので、そのような形態素に対しては、復唱相槌コードｒｃを付与しない。

　図６～図１０を参照して、システム発話フレームｆｓに対する復唱相槌コードｒｃの付与について説明する。図６は、システム発話フレームｆｓに対する復唱相槌コードｒｃの付与の処理内容を示すフローチャートである。なお、図６に示される復唱相槌コードｒｃの付与処理が実施されるタイミングは、当該音声対話システム１においてシステム発話（テキスト）が確定された時以降であれば、限定されず、例えば、システム発話が出力される前に実施される。即ち、復唱相槌コードｒｃの付与処理は、対話シナリオ記憶部３０に記憶されたシステム発話に対して実施されてもよいし、学習データとして学習用データ記憶部４０に記憶されたシステム発話に対して実施されてもよい。

　ステップＳ１において、識別情報付与部１４は、システム発話（テキスト）を取得し、取得したシステム発話に対して形態素解析を実施する。図７は、システム発話に含まれる形態素に対する復唱相槌コードの付与処理を説明するための図である。図７に示すように、識別情報付与部１４は、「特急列車を利用しますか」というシステム発話に形態素解析を実施して、「特急列車」、「を」、「利用」、「します」、「か」という形態素を得る（図７の形態素のカラム）。

　ステップＳ２において、識別情報付与部１４は、各形態素とシステム発話フレームとを対応付けるために、各形態素に時刻情報を付与する。即ち、識別情報付与部１４は、システム発話のテキストと音声との強制アライメントを行い、音声のデータにおける各形態素の開始時刻及び終了時刻を取得し、各形態素に関連付ける。図７に示す例では、「特急列車」の形態素には、開始時刻「０．１２」及び終了時刻「０．２９」が関連付けられている。

　ステップＳ３において、識別情報付与部１４は、ステップＳ１において取得された形態素から、所定の品詞の形態素を抽出する。具体的には、識別情報付与部１４は、動詞、名詞及び形容詞の形態素を抽出して、抽出した形態素に、形態素のための復唱相槌コード「１」を一旦付与する。図７に示す例では、識別情報付与部１４は、「特急列車」及び「利用」に復唱相槌コード「１」を付与する。

　ステップＳ４において、識別情報付与部１４は、復唱相槌コード「１」を付与した形態素のうち、システム発話に対するユーザによる回答候補に含まれる形態素を除外する。ユーザの回答候補は、対話シナリオから取得される。図７に示す例では、識別情報付与部１４は、システム発話「特急列車を利用しますか」に対するユーザの回答候補として、「はい」、「いいえ」、「利用します」、「利用しません」という発話内容を取得する。ステップ３において復唱相槌コードを付与した形態素「利用」がユーザの回答候補に含まれるので、識別情報付与部１４は、形態素「利用」に対して一旦付与した復唱相槌コード「１」に代えて、復唱相槌コード「０」を付与する（図７の復唱相槌コードのカラム参照）。

　ステップＳ５において、識別情報付与部１４は、形態素のための復唱相槌コードが付与された形態素に対応するシステム発話フレームｆｓに、識別情報である復唱相槌コードｒｃ（１）を付与する。図８は、復唱相槌コードが付されたシステム発話フレームの例を模式的に示す図である。図８に示すように、識別情報付与部１４は、システム発話（テキスト）ｔｓに含まれる形態素ｍｓ１～ｍｓ５のうちの形態素ｍｓ１「特急列車」に対応するシステム発話フレームｆｓに、復唱相槌コードｒｃ１（１）を付与する。こうして付与された復唱相槌コードｒｃは、システム発話特徴系列ＦＳと共に、バージイン発話判定モデルの学習のための学習データとして供される。

　図９は、システム発話に含まれる形態素に対する復唱相槌コードの付与処理の第２の例を説明するための図である。図９に示す例では、ステップＳ１において、識別情報付与部１４は、「Ｄｏ　ｙｏｕ　ｔａｋｅ　ａｎ　ｅｘｐｒｅｓｓ　ｔｒａｉｎ」というシステム発話に形態素解析を実施して、「Ｄｏ」、「ｙｏｕ」、「ｔａｋｅ」、「ａｎ」、「ｅｘｐｒｅｓｓ」、「ｔｒａｉｎ」、という形態素を得る（図９のｍｏｒｐｈｅｍｅ（形態素）のカラム）。

　ステップＳ２において、識別情報付与部１４は、各形態素とシステム発話フレームとを対応付けるために、各形態素に時刻情報（ｓｔａｒｔ　ｔｉｍｅ，ｅｎｄ　ｔｉｍｅ）を付与する。図９に示す例では、「ｙｏｕ」の形態素には、開始時刻（ｓｔａｒｔ　ｔｉｍｅ）「０．２９」及び終了時刻（ｅｎｄ　ｔｉｍｅ）「０．３２」が関連付けられている。

　図９に示す例では、ステップＳ３において、識別情報付与部１４は、ステップＳ１において取得された形態素から、動詞、名詞及び形容詞の形態素である「ｔａｋｅ」、「ｅｘｐｒｅｓｓ」、「ｔｒａｉｎ」に復唱相槌コード（ｒｅｓｐｅｔｉｔｉｖｅ　ｂａｃｋ－ｃｈａｎｎｅｌ　ｃｏｄｅ）「１」を付与する。

　ステップＳ４において、識別情報付与部１４は、復唱相槌コード「１」を付与した形態素のうち、システム発話に対するユーザによる回答候補に含まれる形態素を除外する。ユーザの回答候補は、対話シナリオから取得される。図９に示す例では、識別情報付与部１４は、システム発話「Ｄｏ　ｙｏｕ　ｔａｋｅ　ａｎ　ｅｘｐｒｅｓｓ　ｔｒａｉｎ」に対するユーザの回答候補として、「Ｙｅｓ」、「Ｎｏ」、「Ｉ　ｔａｋｅ　ａｎ　ｅｘｐｒｅｓｓ　ｔｒａｉｎ」、「Ｉ　ｄｏ　ｎｏｔ　ｔａｋｅ　ａｎ　ｅｘｐｒｅｓｓ　ｔｒａｉｎ」という発話内容を取得する。ステップ３において復唱相槌コードを付与した形態素「ｔａｋｅ」がユーザの回答候補に含まれるので、識別情報付与部１４は、形態素「ｔａｋｅ」に対して一旦付与した復唱相槌コード「１」に代えて、復唱相槌コード「０」を付与する（図９の復唱相槌コードのカラム参照）。

　ステップＳ５において、識別情報付与部１４は、形態素のための復唱相槌コードが付与された形態素に対応するシステム発話フレームｆｓに、識別情報である復唱相槌コードｒｃ（１）を付与する。図１０は、復唱相槌コードが付されたシステム発話フレームの第２の例を模式的に示す図である。図１０に示すように、識別情報付与部１４は、システム発話（テキスト）ｔｓ－２（ｔｓ）に含まれる形態素ｍｓ１－２～ｍｓ６－２のうちの形態素ｍｓ５－２～ｍｓ６－２「ｅｘｐｒｅｓｓ　ｔｒａｉｎ？」に対応するシステム発話フレームｆｓに、復唱相槌コードｒｃ１－２（１）を付与する。こうして付与された復唱相槌コードｒｃは、システム発話特徴系列ＦＳ－２（ＦＳ）と共に、バージイン発話判定モデルの学習のための学習データとして供される。

　なお、システム発話に含まれる形態素のうちの、ユーザにより発せられたときに復唱且つ相槌に該当する形態素に含まれるシステム発話フレームに復唱相槌コード「１」を付与し、ユーザにより発せられたときに復唱且つ相槌に該当する形態素以外の形態素に含まれるシステム発話フレームに復唱相槌コード「０」を付与することとしてもよい。また、ユーザにより発せられたときに復唱且つ相槌に該当する形態素に含まれるシステム発話フレームに所定の識別情報が付与され、それ以外のシステム発話フレームには、識別情報が付与されないこととしてもよい。

　再び図１を参照して、ラベル取得部１５は、ユーザ発話特徴系列ＦＵに含まれる複数のユーザ発話フレームｆｕのうち、ユーザ発話ｓｕに含まれる形態素のうちの音声対話システムにおける対話の制御において不採用とすべき形態素に含まれるユーザ発話フレームｆｕに対する関連付けを有する正解ラベルを取得する。具体的には、ラベル取得部１５は、ユーザ発話に含まれる形態素のうちの、システム発話に対する復唱且つ相槌に該当する形態素に含まれるユーザ発話フレームｆｕに対する関連付けを有する正解ラベルを取得する。ユーザ発話フレームｆｕに対する正解ラベルの関連付けは、予め人手によって行われても良い。

　また、ラベル取得部１５は、システム発話に対する復唱且つ相槌に該当する形態素に含まれるユーザ発話フレームｆｕに対する関連付けを、人手によらずに、以下のような処理により実施してもよい。具体的には、ラベル取得部１５は、テキスト情報として得られたユーザ発話ｓｕ、直前システム発話ｓｓ及び当該直前システム発話ｓｓに対するユーザによる回答として想定される回答候補のそれぞれに対して形態素解析を実施する。

　続いて、ラベル取得部１５は、ユーザ発話ｓｕに含まれる形態素のうち、直前システム発話ｓｓに含まれる所定の品詞（名詞、動詞、形容詞）に該当する形態素であって、且つ、回答候補に含まれない形態素を、不採用形態素として抽出する。例えば、ユーザ発話ｓｕ「特急列車を利用します」、直前システム発話ｓｓ「特急列車を利用しますか」、及び回答候補（「はい」、「いいえ」、「利用します」、「利用しません」）が学習データとして取得された場合には、ラベル取得部１５は、ユーザ発話ｓｕから、形態素（「特急列車」、「利用」、「します」）を、直前システム発話ｓｓに含まれる所定の品詞の形態素として抽出する。さらに、ラベル取得部１５は、抽出した形態素のうちの、回答候補に含まれない形態素である「特急列車」を、不採用形態素として抽出する。

　そして、ラベル取得部１５は、不採用形態素に含まれるユーザ発話フレームに正解ラベルを関連付ける。図１１は、学習データにおける正解ラベルが付されたユーザ発話フレームの例を模式的に示す図である。図１１に示すように、ラベル取得部１５は、ラベルＬをユーザ発話フレームｆｕに関連付ける。

　即ち、ラベル取得部１５は、ユーザ発話ｓｕから抽出された形態素とユーザ発話フレームとを対応付けるために、各形態素に時刻情報を付与する。具体的には、ラベル取得部１５は、ユーザ発話のテキストと音声との強制アライメントを行い、音声のデータにおける各形態素の開始時刻及び終了時刻を取得し、各形態素に関連付ける。ラベル取得部１５は、形態素「特急列車」の開始時刻及び終了時刻に基づいて、対応するユーザ発話フレームｆｕを抽出し、そのユーザ発話フレームが不採用とすべきものであることを示す正解ラベルＬである正解ラベルｌ１（１）を関連付ける。一方、ラベル取得部１５は、不採用とすべきユーザ発話フレームではないことを示す正解ラベルｌ０（０）を、形態素「特急列車」以外の形態素に対応するユーザ発話フレームに関連付ける。

　図１２は、学習データにおける正解ラベルが付されたユーザ発話フレームの第２の例を模式的に示す図である。図１２に示すように、ラベル取得部１５は、ラベルＬ－２（Ｌ）をユーザ発話フレームｆｕ－２（ｆｕ）に関連付ける。即ち、ラベル取得部１５は、ユーザ発話ｓｕ－２（ｓｕ）から抽出された形態素とユーザ発話フレームとを対応付けるために、各形態素に時刻情報を付与する。具体的には、ラベル取得部１５は、ユーザ発話のテキストと音声との強制アライメントを行い、音声のデータにおける各形態素の開始時刻及び終了時刻を取得し、各形態素に関連付ける。ラベル取得部１５は、形態素「ｅｘｐｒｅｓｓ」、「ｔｒａｉｎ」の開始時刻及び終了時刻に基づいて、対応するユーザ発話フレームｆｕ－２を抽出し、そのユーザ発話フレームが不採用とすべきものであることを示す正解ラベルｌ１－２（１）を関連付ける。一方、ラベル取得部１５は、不採用とすべきユーザ発話フレームではないことを示す正解ラベルｌ０－２（０）を、形態素「ｅｘｐｒｅｓｓ」、「ｔｒａｉｎ」以外の形態素に対応するユーザ発話フレームに関連付ける。

　なお、ユーザ発話に含まれる形態素のうちの、不採用とすべき形態素に含まれるユーザ発話フレームに正解ラベル「１」を関連付け、不採用とすべき形態素以外の形態素に含まれるユーザ発話フレームに正解ラベル「０」を関連付けることとしてもよい。また、不採用とすべき形態素に含まれるユーザ発話フレームに、正解ラベルとしての所定の識別情報を関連付け、不採用とすべき形態素以外の形態素に含まれる形態素には、所定の識別情報が関連付けられないこととしてもよい。

　モデル生成部１６は、ユーザ発話特徴系列ＦＵ、及び復唱相槌コードｒｃを含むシステム発話特徴系列ＦＳ、並びにユーザ発話特徴系列ＦＵに含まれるユーザ発話フレームｆｕに関連付けられた正解ラベルＬを含む学習データに基づいて機械学習を行い、バージイン発話判定モデルを生成する。

　バージイン発話判定モデルは、ニューラルネットワークを含んで構成されるモデルであって、ユーザ発話に基づくユーザ発話特徴系列及び直前システム発話に基づく復唱相槌コードｒｃを含む前記システム発話特徴系列を入力として、ユーザ発話に含まれる各ユーザ発話フレームｆｕの、音声対話システムにおける対話の制御に際して不採用とすべき尤度を出力とするモデルである。

　図１３は、モデル生成装置１０におけるバージイン発話判定モデルの学習及び生成の処理内容を示すフローチャートである。ステップＳ１１において、学習用発話取得部１１は、学習用のユーザ発話ｓｕ及び当該ユーザ発話ｓｕの直前に出力されたシステム発話である直前システム発話ｓｓを取得する。

　ステップＳ１２において、ユーザ発話特徴抽出部１２は、ユーザ発話ｓｕに基づいて、ユーザ発話特徴系列ＦＵを抽出する。ステップＳ１３において、システム発話特徴抽出部１３は、直前システム発話ｓｓに基づいて、システム発話特徴系列ＦＳを抽出する。システム発話特徴系列ＦＳに含まれるシステム発話フレームｆｓには、ユーザにより発せられたときに復唱且つ相槌に該当する形態素に含まれるシステム発話フレームｆｓを識別する復唱相槌コードｒｃが関連付けられている。

　ステップＳ１４において、ラベル取得部１５は、ユーザ発話ｓｕに含まれる形態素のうちの音声対話システムにおける対話の制御において不採用とすべき形態素に含まれるユーザ発話フレームｆｕに、正解ラベルＬを関連付ける。

　ステップＳ１５～ステップＳ１７の処理は、モデルの機械学習のための処理である。ステップＳ１５において、モデル生成部１６は、学習及び生成の対象のモデルであるバージイン発話判定モデルに、ユーザ発話特徴系列ＦＵ及び復唱相槌コードｒｃを含むシステム発話特徴系列ＦＳ並びに正解ラベルＬからなる学習データの特徴量を入力する。

　ステップＳ１６において、モデル生成部１６は、モデルからの出力値及び正解ラベルＬに基づいて損失を算出する。ステップＳ１７において、モデル生成部１６は、ステップＳ１６において算出された損失をニューラルネットワークに逆伝搬させ、モデル（ニューラルネットワーク）のパラメータ（重み）を更新する。

　ステップＳ１８において、モデル生成部１６は、所定の学習終了条件を満たすか否かを判断する。そして、モデル生成部１６は、学習終了条件が満たされるまで、学習データを用いたステップＳ１５～ステップＳ１７までの学習処理を繰り返す。学習終了条件が満たされると、モデル生成部１６は、バージイン発話判定モデルの学習処理を終了させる。

　モデル出力部１７は、モデル生成部１６により生成されたバージイン発話判定モデルを出力する。具体的には、モデル出力部１７は、生成されたバージイン発話判定モデルを、例えば、モデル記憶部５０に記憶させる。

　次に、音声対話装置２０の各機能部について説明する。取得部２１は、ユーザにより発せられた音声からなるユーザ発話を取得する。ユーザ発話は、例えば、音声対話装置２０から発せられたシステム発話に対してユーザが発した音声である。

　認識部２２は、取得部２１により取得されたユーザ発話をテキストの情報として認識した認識結果を出力する。この認識結果は、対話制御部２６における対話シナリオを参照した対話の制御に供される。

　ユーザ発話特徴取得部２３は、取得部２１により取得されたユーザ発話を所定長さの時間のユーザ発話フレームに分割し、各ユーザ発話要素の音響特徴量を時系列に配してなるユーザ発話特徴系列を取得する。このユーザ発話フレームの長さは、モデル生成装置１０のユーザ発話特徴抽出部１２により抽出されるユーザ発話フレームと同じ長さに設定される。

　システム発話特徴取得部２４は、音声対話装置２０により出力されるシステム発話を所定長さの時間のシステム発話フレームに分割し、各システム発話要素の音響特徴量を時系列に配してなるシステム発話特徴系列を取得する。

　バージイン発話であるユーザ発話の採否の判定のためには、システム発話特徴取得部２４は、取得部２１により取得されたユーザ発話が発せられた時の直前に音声対話装置２０により出力されたシステム発話である直前システム発話のシステム発話特徴系列を取得する。このシステム発話特徴系列において、図６～図１０を参照して説明した復唱相槌コードがシステム発話フレームに付与されている。識別情報としての復唱相槌コードは、直前システム発話に含まれる形態素のうちの所定の品詞（名詞、動詞、形容詞）に該当する形態素であって、且つ、当該直前システム発話に対して想定されるユーザによる回答候補に該当しない形態素に含まれるシステム発話フレームを識別する。

　バージイン発話制御部２５は、システム発話が発せられているときに割り込んで発せられたユーザ発話であるバージイン発話の採否を判定する。具体的には、バージイン発話制御部２５は、バージイン発話であるユーザ発話に含まれる各ユーザ発話フレームが、当該ユーザ発話が発せられた時の直前に出力部２８により出力されたシステム発話である直前システム発話に含まれる所定の形態素（名詞、動詞、形容詞）に該当し、且つ、対話シナリオにおいて直前システム発話に対する回答候補に含まれる形態素に該当しない場合に、当該ユーザ発話フレームまたは当該ユーザ発話フレームを含むユーザ発話を不採用とすることを判定する。言い換えるならば、バージイン発話制御部２５は、不採用とすることを判定したユーザ発話フレームが含まれるユーザ発話のうちの、少なくとも当該ユーザ発話フレームに相当する部分を不採用とする。即ち、バージイン発話制御部２５は、当該ユーザ発話フレーム含まれるユーザ発話のうちの一部または全部を不採用とすることを判定してもよい。

　本実施形態のバージイン発話制御部２５は、モデル生成装置１０により生成されたバージイン発話判定モデルを用いて、バージイン発話に含まれるユーザ発話フレームの採否を判定する。即ち、バージイン発話制御部２５は、ユーザ発話特徴取得部２３により取得されたユーザ発話特徴系列と、システム発話特徴取得部２４により取得された直前システム発話のシステム発話特徴系列（復唱相槌コードを含む）とをバージイン発話判定モデルに入力する。そして、バージイン発話制御部２５は、バージイン発話判定モデルから出力される、システム発話フレームごとの尤度を取得する。尤度は、対話の制御に際して不採用とすべき程度を表す。

　学習済みのニューラルネットワークを含むモデルであるバージイン発話判定モデルは、コンピュータにより読み込まれ又は参照され、コンピュータに所定の処理を実行させ及びコンピュータに所定の機能を実現させるプログラムとして捉えることができる。

　即ち、本実施形態の学習済みのバージイン発話判定モデルは、ＣＰＵ及びメモリを備えるコンピュータにおいて用いられる。具体的には、コンピュータのＣＰＵが、メモリに記憶された学習済みのバージイン発話判定モデルからの指令に従って、ニューラルネットワークの入力層に入力された入力データ（例えば、ユーザ発話特徴系列、復唱相槌コードｒｃが付与されたシステム発話特徴系列）に対し、各層に対応する学習済みの重み付け係数と応答関数等に基づく演算を行い、出力層から結果（尤度）を出力するよう動作する。

　図１４は、バージイン発話判定モデルから出力される、各ユーザ発話フレームの尤度及び採否判定結果を模式的に示す図である。図１４に示すように、バージイン発話制御部２５は、バージイン発話であるユーザ発話のユーザ発話特徴系列ＦＵｘ等をバージイン発話判定モデルに入力し、各ユーザ発話フレームｆｕｘの尤度をバージイン発話判定モデルの出力から取得する。そして、バージイン発話制御部２５は、尤度が所定の閾値以上であるユーザ発話フレームｆｕｘ１を対話制御において不採用とすることを判定し、尤度が所定の閾値未満であるユーザ発話フレームｆｕｘ０を対話制御において採用することを判定する。

　図１５は、バージイン発話の採否判定の例を模式的に示す図である。システム発話ｓｓｘ１「特急列車を利用しますか」に対して、ユーザにより発せられたバージイン発話であるユーザ発話ｓｕｘ１「利用します」が取得部２１により取得された場合には、ユーザ発話ｓｕｘ１に含まれる形態素がシステム発話ｓｓｘ１に対する回答候補の形態素に該当するので、バージイン発話制御部２５は、ユーザ発話ｓｕｘ１に含まれるユーザ発話フレームのいずれについても不採用とすることを判定しない。

　一方、システム発話ｓｓｘ１「特急列車を利用しますか」に対して、ユーザ発話ｓｕｘ２「特急列車か」が取得部２１により取得された場合には、ユーザ発話ｓｕｘ２に含まれる形態素「特急列車」が、システム発話ｓｓｘ１に含まれる所定の形態素に該当し、且つ、システム発話ｓｓｘ１に対する回答候補の形態素に該当しないので、形態素「特急列車」に含まれる各ユーザ発話フレームに関してバージイン発話判定モデルから出力された尤度が所定の閾値以上となり、バージイン発話制御部２５は、ユーザ発話ｓｕｘ２の形態素「特急列車」に含まれるユーザ発話フレームを不採用とすることを判定する。即ち、ユーザ発話ｓｕｘ２「特急列車か」は、システム発話ｓｓｘ１「特急列車を利用しますか」に対する復唱であり、且つ、相槌であることが、バージイン発話判定モデルにより判定されることとなる。

　図１６は、バージイン発話の採否判定の第２の例を模式的に示す図である。システム発話ｓｓｘ１－２「Ｄｏ　ｙｏｕ　ｔａｋｅ　ａｎ　ｅｘｐｒｅｓｓ　ｔｒａｉｎ？」に対して、ユーザにより発せられたバージイン発話であるユーザ発話ｓｕｘ１－２「Ｉ　ｔａｋｅ　ａｎ　ｅｘｐｒｅｓｓ　ｔｒａｉｎ．」が取得部２１により取得された場合には、ユーザ発話ｓｕｘ１－２に含まれる形態素がシステム発話ｓｓｘ１－２に対する回答候補の形態素に該当するので、バージイン発話制御部２５は、ユーザ発話ｓｕｘ１－２に含まれるユーザ発話フレームのいずれについても不採用とすることを判定しない。

　一方、システム発話ｓｓｘ１－２「Ｄｏ　ｙｏｕ　ｔａｋｅ　ａｎ　ｅｘｐｒｅｓｓ　ｔｒａｉｎ？」に対して、ユーザ発話ｓｕｘ２－２「Ｅｘｐｒｅｓｓ　ｔｒａｉｎ．」が取得部２１により取得された場合には、ユーザ発話ｓｕｘ２－２に含まれる形態素「ｅｘｐｒｅｓｓ」、「ｔｒａｉｎ」が、システム発話ｓｓｘ１－２に含まれる所定の形態素に該当し、且つ、システム発話ｓｓｘ１－２に対する回答候補の形態素に該当しないので、形態素「ｅｘｐｒｅｓｓ」、「ｔｒａｉｎ」に含まれる各ユーザ発話フレームに関してバージイン発話判定モデルから出力された尤度が所定の閾値以上となり、バージイン発話制御部２５は、ユーザ発話ｓｕｘ２－２に含まれるユーザ発話フレームを不採用とすることを判定する。即ち、ユーザ発話ｓｕｘ２－２「Ｅｘｐｒｅｓｓ　ｔｒａｉｎ．」は、システム発話ｓｓｘ１－２「Ｄｏ　ｙｏｕ　ｔａｋｅ　ａｎ　ｅｘｐｒｅｓｓ　ｔｒａｉｎ？」に対する復唱であり、且つ、相槌であることが、バージイン発話判定モデルにより判定されることとなる。

　なお、バージイン発話制御部２５は、バージイン発話判定モデルを用いた判定と併せて、ユーザ発話に含まれる各ユーザ発話要素が、予め設定された所定の発話の要素に該当する場合に、当該ユーザ発話要素を不採用とすることを判定することとしてもよい。

　具体的には、「うん」、「はい」といった回答としての特段の意味を有さない単なる相槌に該当するようなユーザ発話を所定の発話として予め設定しておき、取得部２１により取得されたユーザ発話に含まれるユーザ発話フレームの音響特徴量が、所定の発話として設定された単なる相槌に該当するような発話の音響特徴量に該当する場合に、バージイン発話制御部２５は、そのユーザ発話フレームを、対話制御において不採用とすることを判定する。これにより、対話制御において、単なる相槌が採用されないように制御することが可能となる。

　再び図１を参照して、対話制御部２６は、ユーザ発話とシステム発話との相互の応答ルールを有する対話シナリオを参照して、バージイン発話制御部２５により不採用と判定されたバージイン発話以外のユーザ発話に対応する認識結果に基づいて、ユーザに対して応答すべき応答内容を表すシステム応答を出力する。具体的には、対話制御部２６は、対話シナリオ記憶部３０に記憶された対話シナリオを参照して、不採用と判定されたユーザ発話以外のユーザ発話に応答するための、テキストからなるシステム応答を取得及び出力する。

　応答生成部２７は、対話制御部２６により出力されたシステム応答に基づいて、音声情報からなるシステム発話を生成する。

　出力部２８は、応答生成部２７により生成されたシステム発話を、音声として出力する。

　次に、図１７を参照して、音声対話装置２０における音声対話方法について説明する。図１７は、本実施形態の音声対話方法の処理内容を示すフローチャートである。

　ステップＳ２１において、システム発話特徴取得部２４は、出力部２８により出力されたシステム発話のシステム発話特徴系列を取得する。このシステム発話は、音声対話システム１からの発話を契機とする対話である場合には、その契機とする初期のシステム発話であってもよいし、対話の継続中においては、以前のユーザ発話に対する応答としてのシステム発話であってもよい。

　ステップＳ２２において、取得部２１は、ユーザにより発せられた音声を検出したか否かを判定し、ユーザの音声を検出した場合には、ユーザ発話として取得する。ユーザ発話を取得した場合には、処理はステップＳ２４に進む。ユーザ発話を取得しなかった場合には、処理はステップＳ２３に進む。

　ステップＳ２３において、取得部２１は、ユーザ発話が取得されない状態が、所定時間のタイムアウトに至ったか否かを判定する。取得部２１は、タイムアウトに至るまで、ユーザ発話の取得を試みる。一方、タイムアウトに至った場合には、処理はステップＳ２８に進む。

　ステップＳ２４において、対話制御部２６は、ステップＳ２２におけるユーザ発話の検出及び取得が、システム発話の出力中であったか否かを判定する。即ち、取得したユーザ発話が、バージイン発話であるか否かを判定する。ユーザ発話の取得がシステム発話の出力中であったと判定された場合には、処理はステップＳ２５に進む。一方、ユーザ発話の取得がシステム発話の出力中であったと判定されなかった場合には、処理はステップＳ２７に進む。

　ステップＳ２５において、ユーザ発話特徴取得部２３は、ステップＳ２２において取得されたユーザ発話のユーザ発話特徴系列を取得する。

　ステップＳ２６において、バージイン発話制御部２５は、ステップＳ２２において取得されたユーザ発話であって、ステップＳ２４においてバージイン発話であることが判定されたユーザ発話の採否を、ステップＳ２５において取得されたユーザ発話特徴系列に基づいて判定する。具体的には、バージイン発話制御部２５は、ユーザ発話特徴系列と、直前システム発話に基づくシステム発話特徴系列とをバージイン発話判定モデルに入力して、各ユーザ発話フレームの尤度を取得し、取得された尤度に基づいて、各ユーザ発話フレームの採否を判定する。ユーザ発話を不採用とすることを判定した場合には、処理はステップＳ２２に戻る。

　ステップＳ２７において、認識部２２は、不採用と判定されなかったユーザ発話をテキストの情報として認識した認識結果を出力する。

　ステップＳ２８において、対話制御部２６は、対話シナリオを参照して、不採用と判定されたユーザ発話以外のユーザ発話に応答するための、テキストからなるシステム応答を取得及び出力する。そして、応答生成部２７は、対話制御部２６により出力されたシステム応答に基づいて、音声情報からなるシステム発話を生成する。

　ステップＳ２９において、システム発話特徴取得部２４は、ステップＳ２８において生成されたシステム発話のシステム発話特徴系列を取得し、次のユーザ発話の直前システム発話の情報として保持する。

　ステップＳ３０において、出力部２８は、応答生成部２７により生成されたシステム発話を、音声として出力する。

　ステップＳ３１において、対話制御部２６は、ユーザとの音声対話の所定の対話終了条件を満たすか否かを判定する。対話終了条件を満たすと判定されなかった場合には、処理はステップＳ２２に戻る。

　次に、コンピュータを、本実施形態のモデル生成装置１０として機能させるためのモデル生成プログラムについて説明する。図１８は、モデル生成プログラムＰ１の構成を示す図である。

　モデル生成プログラムＰ１は、モデル生成装置１０におけるモデル生成処理を統括的に制御するメインモジュールｍ１０、学習用発話取得モジュールｍ１１、ユーザ発話特徴抽出モジュールｍ１２、システム発話特徴抽出モジュールｍ１３、識別情報付与モジュールｍ１４、ラベル取得モジュールｍ１５、モデル生成モジュールｍ１６及びモデル出力モジュールｍ１７を備えて構成される。そして、各モジュールｍ１１～ｍ１７により、モデル生成装置１０における学習用発話取得部１１、ユーザ発話特徴抽出部１２、システム発話特徴抽出部１３、識別情報付与部１４、ラベル取得部１５、モデル生成部１６及びモデル出力部１７のための各機能が実現される。なお、モデル生成プログラムＰ１は、通信回線等の伝送媒体を介して伝送される態様であってもよいし、図１８に示されるように、記録媒体Ｍ１に記憶される態様であってもよい。

　図１９は、コンピュータを、本実施形態の音声対話装置２０として機能させるための音声対話プログラムについて説明する。

　音声対話プログラムＰ２は、音声対話装置２０における音声対話処理を統括的に制御するメインモジュールｍ２０、取得モジュールｍ２１、認識モジュールｍ２２、ユーザ発話特徴取得モジュールｍ２３、システム発話特徴取得モジュールｍ２４、バージイン発話制御モジュールｍ２５、対話制御モジュールｍ２６、応答生成モジュールｍ２７及び出力モジュールｍ２８を備えて構成される。そして、各モジュールｍ２１～ｍ２８により、音声対話装置２０における取得部２１、認識部２２、ユーザ発話特徴取得部２３、システム発話特徴取得部２４、バージイン発話制御部２５、対話制御部２６、応答生成部２７及び出力部２８のための各機能が実現される。なお、音声対話プログラムＰ２は、通信回線等の伝送媒体を介して伝送される態様であってもよいし、図１９に示されるように、記録媒体Ｍ２に記憶される態様であってもよい。

　以上説明した本実施形態の音声対話装置２０、音声対話方法及び音声対話プログラムＰ２では、ユーザ発話に含まれるユーザ発話要素が、直前システム発話に含まれる所定の形態素に該当する場合には、当該ユーザ発話要素が、システム発話の復唱の要素に該当する可能性が高く、また、ユーザ発話要素が、直前システム発話の一部の復唱であっても、当該直前システム発話の回答候補の要素に該当する場合には、当該ユーザ発話が、対話制御において採用すべき要素に該当することに鑑みて、ユーザ発話要素が、直前システム発話に含まれる所定の形態素に該当し、且つ、直前システム発話の回答候補の要素に該当しない場合に、当該ユーザ発話要素を対話の制御において不採用とすることが判定される。従って、音声対話システムにおける誤作動が防止され、ユーザにおける利便性が向上される。

　また、別の形態に係る音声対話システムでは、ユーザ発話要素は、ユーザ発話を時系列に沿って所定長さの時間に分割して得られる要素であり、各ユーザ発話要素は、音響特徴量を含むこととしてもよい。

　上記形態によれば、ユーザ発話は、各々が音響特徴量を含む時系列のユーザ発話要素により構成され、各ユーザ発話要素の採否が判定されるので、採否判定のためにユーザ発話をテキスト情報として認識することが不要である。従って、ユーザ発話の判定対象の一区間の末尾を待たずにバージイン発話の採否の判定が可能となるので、対話の制御処理が速やかに行われる。

　また、別の形態に係る音声対話システムでは、ユーザ発話に基づいて、ユーザ発話を所定長さの時間のユーザ発話要素に分割し、各ユーザ発話要素の音響特徴量を時系列に配してなるユーザ発話特徴系列を取得するユーザ発話特徴取得部と、直前システム発話を所定長さの時間に分割して得られる各システム発話要素の音響特徴量を時系列に配してなるシステム発話特徴系列であって、複数のシステム発話要素のうち、直前システム発話に含まれる形態素のうちの所定の品詞に該当する形態素であり、且つ、対話シナリオから取得された、直前システム発話に対して想定されるユーザによる回答候補に該当しない形態素に含まれるシステム発話要素に付された識別情報を含む、システム発話特徴系列を取得するシステム発話特徴取得部と、をさらに備え、バージイン発話制御部は、ユーザ発話特徴系列と、システム発話特徴系列と、識別情報とを入力として、ユーザ発話に含まれる各ユーザ発話要素の、音声対話システムにおける対話の制御に際して不採用とすべき尤度を出力とする、バージイン発話判定モデルを用いて、各ユーザ発話要素を不採用とするか否かを判定することとしてもよい。

　上記形態によれば、ユーザ発話特徴系列と、識別情報を含むシステム発話特徴系列とを入力として、各ユーザ発話要素を不採用とすべき尤度がユーザ発話要素ごとに出力されるバージイン発話判定モデルが用いられるので、ユーザ発話に含まれる各ユーザ発話要素の採否を精度良く判定できる。

　また、別の形態に係る音声対話システムでは、バージイン発話判定モデルは、ユーザ発話に基づくユーザ発話特徴系列と、当該ユーザ発話の直前に出力された直前システム発話に基づくシステム発話特徴系列と、システム発話特徴系列に含まれる複数のシステム発話要素に対して付与された識別情報と、を含む特徴情報を入力値として含み、ユーザ発話に含まれる形態素のうちの、音声対話システムにおける対話の制御において不採用とすべき形態素に含まれるユーザ発話要素に対する関連付けを有する正解ラベルを出力値として含む、学習データに基づく機械学習により構成されることとしてもよい。

　上記形態によれば、ユーザ発話特徴系列と、システム発話特徴系列と、システム発話要素に付与された識別情報とを含む特徴量を入力値として含み、不採用とすべきユーザ発話要素に対する関連付けを含む正解ラベルを出力値として含む学習データに基づく機械学習により生成されたバージイン発話判定モデルが、ユーザ発話要素の採否の判定に用いられる。これにより、ユーザ発話に含まれる各ユーザ発話要素の採否を精度良く判定できる。

　また、別の形態に係る音声対話システムでは、バージイン発話制御部は、各ユーザ発話要素が、予め設定された所定の発話の要素に該当する場合に、当該ユーザ発話要素を不採用とすることを判定することとしてもよい。

　上記形態によれば、対話において特段の意味を有さないような単なる相槌に該当する発話を所定の発話として予め設定しておくことにより、バージイン発話に含まれる単なる相槌を採用しないように制御することが可能となる。

　また、本発明の一形態に係るモデル生成装置は、ユーザにより発せられた音声からなるユーザ発話に対して、音声からなるシステム発話を出力することによりユーザとの対話を行う音声対話システムにおいて、システム発話が出力されているときに割り込んで発せられたユーザ発話であるバージイン発話の音声発話システムにおける採否を判定するためのバージイン発話判定モデルを生成するモデル生成装置であって、ユーザ発話及び当該ユーザ発話の直前に出力されたシステム発話である直前システム発話を取得する学習用発話取得部と、ユーザ発話に基づいて、ユーザ発話を所定長さの時間のユーザ発話要素に分割し、各ユーザ発話要素の音響特徴量を時系列に配してなるユーザ発話特徴系列を抽出するユーザ発話特徴抽出部と、直前システム発話に基づいて、直前システム発話を所定長さの時間のシステム発話要素に分割し、各システム発話要素の音響特徴量を時系列に配してなるシステム発話特徴系列を抽出するシステム発話特徴抽出部と、システム発話特徴系列に含まれる複数のシステム発話要素のうち、直前システム発話に含まれる形態素のうちの所定の品詞に該当する形態素であり、且つ、ユーザ発話とシステム発話との相互の応答ルールを有する対話シナリオから取得された、直前システム発話に対して想定されるユーザによる回答候補に該当しない形態素に含まれるシステム発話要素に対して、識別情報を付与する識別情報付与部と、ユーザ発話に含まれる形態素のうちの、音声対話システムにおける対話の制御において不採用とすべき形態素に含まれるユーザ発話要素に対する関連付けを有する正解ラベルを取得するラベル取得部と、ユーザ発話特徴系列、及び識別情報を含むシステム発話特徴系列、並びに正解ラベルを含む学習データに基づいて機械学習を行い、ユーザ発話に基づくユーザ発話特徴系列及び直前システム発話に基づく識別情報を含むシステム発話特徴系列を入力として、ユーザ発話に含まれる各ユーザ発話要素の、音声対話システムにおける対話の制御に際して不採用とすべき尤度を出力とするバージイン発話判定モデルを生成するモデル生成部と、モデル生成部により生成されたバージイン発話判定モデルを出力するモデル出力部と、を備える。

　上記形態によれば、ユーザ発話特徴系列と、システム発話特徴系列と、システム発話要素に付与された識別情報とを含む特徴量を入力値として含み、不採用とすべきユーザ発話要素に対する関連付けを含む正解ラベルを出力値として含む学習データに基づく機械学習によりバージイン発話判定モデルが生成される。これにより、ユーザ発話要素の採否の判定に好適なモデルを得ることができる。

　また、本発明の一形態に係るモデル生成装置では、ラベル取得部は、ユーザ発話、直前システム発話、及び、当該直前システム発話に対するユーザによる回答として想定される回答候補のそれぞれに対して形態素解析を実施し、ユーザ発話に含まれる形態素のうち、直前システム発話に含まれ且つ回答候補に含まれない形態素である不採用形態素を抽出し、不採用形態素に含まれるユーザ発話要素に正解ラベルを関連付けることとしてもよい。

　上記形態によれば、ユーザ発話に含まれる形態素のうちの対話制御において不採用とすべき形態素に含まれるユーザ発話要素に関連付けられた正解ラベルを容易に生成できる。これにより、バージイン発話判定モデルの学習に用いられる学習データの生成のための負荷が軽減される。

　また、本発明の一形態に係るバージイン発話判定モデルは、ユーザにより発せられた音声からなるユーザ発話に対して、音声からなるシステム発話を出力することによりユーザとの対話を行う音声対話システムにおいて、システム発話が出力されているときに割り込んで発せられたユーザ発話であるバージイン発話の音声発話システムにおける採否を判定するよう、コンピュータを機能させるための学習済みのバージイン発話判定モデルであって、ユーザ発話を所定長さの時間に分割して得られる各ユーザ発話要素の音響特徴量を時系列に配してなるユーザ発話特徴系列と、当該ユーザ発話の直前に出力されたシステム発話である直前システム発話を所定長さの時間に分割して得られる各システム発話要素の音響特徴量を時系列に配してなるシステム発話特徴系列と、システム発話特徴系列に含まれる複数のシステム発話要素のうち、直前システム発話に含まれる形態素のうちの所定の品詞に該当する形態素であり、且つ、ユーザ発話とシステム発話との相互の応答ルールを有する対話シナリオから取得された、直前システム発話に対して想定されるユーザによる回答候補に該当しない形態素に含まれるシステム発話要素に対して付与された識別情報と、を含む特徴情報を入力値として含み、ユーザ発話に含まれる形態素のうちの、音声対話システムにおける対話の制御において不採用とすべき形態素に含まれるユーザ発話要素に対する関連付けを有する正解ラベルを出力値として含む、学習データに基づく機械学習により構成され、ユーザ発話に基づくユーザ発話特徴系列及び直前システム発話に基づく識別情報を含むシステム発話特徴系列を入力として、ユーザ発話に含まれる各ユーザ発話要素の、音声対話システムにおける対話の制御に際して不採用とすべき尤度を出力とする。

　上記形態によれば、ユーザ発話特徴系列と、識別情報を含むシステム発話特徴系列とを入力として、各ユーザ発話要素を不採用とすべき尤度がユーザ発話要素ごとに出力されるバージイン発話判定モデルが、機械学習により構成されるので、ユーザ発話に含まれる各ユーザ発話要素の採否を精度良く判定できるモデルを得ることができる。

　また、本発明の一形態に係る音声対話プログラムは、コンピュータを、音声からなるシステム発話を出力することによりユーザとの対話を行う音声対話システムとして機能させるための音声対話プログラムであって、コンピュータに、ユーザにより発せられた音声からなるユーザ発話を取得する取得機能と、取得機能により取得されたユーザ発話をテキストの情報として認識した認識結果を出力する認識機能と、システム発話が出力されているときに割り込んで発せられたユーザ発話であるバージイン発話の採否を判定するバージイン発話制御機能と、ユーザ発話とシステム発話との相互の応答ルールを有する対話シナリオを参照して、バージイン発話制御機能により不採用と判定されたバージイン発話以外のユーザ発話に対応する認識結果に基づいて、ユーザに対して応答すべき応答内容を表すシステム応答を出力する対話制御機能と、対話制御機能により出力されたシステム応答に基づいて、システム発話を生成する応答生成機能と、システム発話を出力する出力機能と、を実現させ、ユーザ発話は、時系列の１以上のユーザ発話要素からなり、対話シナリオは、システム発話に対して想定されるユーザによる回答である回答候補を含み、バージイン発話制御機能は、各ユーザ発話要素が、ユーザ発話が発せられた時の直前に出力機能により出力されたシステム発話である直前システム発話に含まれる所定の形態素に該当し、且つ、対話シナリオにおいて直前システム発話に対する回答候補の要素に該当しない場合に、当該ユーザ発話要素または当該ユーザ発話要素を含む前記ユーザ発話を不採用とすることを判定する。

　上記形態のプログラムによれば、ユーザ発話要素が、直前システム発話に含まれる所定の形態素に該当し、且つ、直前システム発話の回答候補の要素に該当しない場合に、当該ユーザ発話要素を対話の制御において不採用とすることが判定される。従って、音声対話システムにおける誤作動が防止され、ユーザにおける利便性が向上される。

　以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。

　本明細書で説明した各態様／実施形態は、ＬＴＥ（Long　Term　Evolution）、ＬＴＥ－Ａ（LTE-Advanced）、ＳＵＰＥＲ　３Ｇ、ＩＭＴ－Ａｄｖａｎｃｅｄ、４Ｇ、５Ｇ、ＦＲＡ（Future　Radio　Access）、Ｗ－ＣＤＭＡ（登録商標）、ＧＳＭ（登録商標）、ＣＤＭＡ２０００、ＵＭＢ（Ultra　Mobile　Broadband）、ＩＥＥＥ　８０２．１１（Ｗｉ－Ｆｉ）、ＩＥＥＥ　８０２．１６（ＷｉＭＡＸ）、ＩＥＥＥ　８０２．２０、ＵＷＢ（Ultra-WideBand）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、その他の適切なシステムを利用するシステム及び／又はこれらに基づいて拡張された次世代システムに適用されてもよい。

　本明細書で説明した各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。

　入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

　判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：trueまたはfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

　本明細書で説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

　以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。

　ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

　また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線（ＤＳＬ）などの有線技術及び／又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び／又は無線技術は、伝送媒体の定義内に含まれる。

　本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。

　なお、本開示において説明した用語及び／又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。

　本明細書で使用する「システム」および「ネットワーク」という用語は、互換的に使用される。

　また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。

　本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking　up、search、inquiry)（例えば、テーブル、データベース又は別のデータ構造での探索）、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)（例えば、情報を受信すること）、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)（例えば、メモリ中のデータにアクセスすること）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断（決定）」は、「想定する（assuming）」、「期待する（expecting）」、「みなす（considering）」などで読み替えられてもよい。

　本開示で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

　本明細書で「第１の」、「第２の」などの呼称を使用した場合においては、その要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第１および第２の要素への参照は、２つの要素のみがそこで採用され得ること、または何らかの形で第１の要素が第２の要素に先行しなければならないことを意味しない。

　「含む（include）」、「含んでいる（including）」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または（or）」は、排他的論理和ではないことが意図される。

　本明細書において、文脈または技術的に明らかに1つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。

　本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。

　１…音声対話システム、１０…モデル生成装置、１１…学習用発話取得部、１２…ユーザ発話特徴抽出部、１３…システム発話特徴抽出部、１４…識別情報付与部、１５…ラベル取得部、１６…モデル生成部、１７…モデル出力部、２０…音声対話装置、２１…取得部、２２…認識部、２３…ユーザ発話特徴取得部、２４…システム発話特徴取得部、２５…バージイン発話制御部、２６…対話制御部、２７…応答生成部、２８…出力部、３０…対話シナリオ記憶部、４０…学習用データ記憶部、５０…モデル記憶部、Ｍ１，Ｍ２…記録媒体、ｍ１１…学習用発話取得モジュール、ｍ１２…ユーザ発話特徴抽出モジュール、ｍ１３…システム発話特徴抽出モジュール、ｍ１４…識別情報付与モジュール、ｍ１５…ラベル取得モジュール、ｍ１６…モデル生成モジュール、ｍ１７…モデル出力モジュール、ｍ２１…取得モジュール、ｍ２２…認識モジュール、ｍ２３…ユーザ発話特徴取得モジュール、ｍ２４…システム発話特徴取得モジュール、ｍ２５…バージイン発話制御モジュール、ｍ２６…対話制御モジュール、ｍ２７…応答生成モジュール、ｍ２８…出力モジュール、Ｐ１…モデル生成プログラム、Ｐ２…音声対話プログラム。

Claims

　音声からなるシステム発話を出力することによりユーザとの対話を行う音声対話システムであって、
　ユーザにより発せられた音声からなるユーザ発話を取得する取得部と、
　前記取得部により取得されたユーザ発話をテキストの情報として認識した認識結果を出力する認識部と、
　前記システム発話が出力されているときに割り込んで発せられた前記ユーザ発話であるバージイン発話の採否を判定するバージイン発話制御部と、
　前記ユーザ発話と前記システム発話との相互の応答ルールを有する対話シナリオを参照して、前記バージイン発話制御部により不採用と判定された前記バージイン発話以外の前記ユーザ発話に対応する前記認識結果に基づいて、前記ユーザに対して応答すべき応答内容を表すシステム応答を出力する対話制御部と、
　前記対話制御部により出力された前記システム応答に基づいて、前記システム発話を生成する応答生成部と、
　前記システム発話を出力する出力部と、を備え、
　前記ユーザ発話は、時系列の１以上のユーザ発話要素からなり、
　前記対話シナリオは、前記システム発話に対して想定されるユーザによる回答である回答候補を含み、
　前記バージイン発話制御部は、各ユーザ発話要素が、前記ユーザ発話が発せられた時の直前に前記出力部により出力された前記システム発話である直前システム発話に含まれる所定の形態素に該当し、且つ、前記対話シナリオにおいて前記直前システム発話に対する前記回答候補の要素に該当しない場合に、当該ユーザ発話要素または当該ユーザ発話要素を含む前記ユーザ発話を不採用とすることを判定する、
　音声対話システム。
　前記ユーザ発話要素は、前記ユーザ発話を時系列に沿って所定長さの時間に分割して得られる要素であり、
　各ユーザ発話要素は、音響特徴量を含む、
　請求項１に記載の音声対話システム。
　前記ユーザ発話に基づいて、前記ユーザ発話を所定長さの時間のユーザ発話要素に分割し、各ユーザ発話要素の音響特徴量を時系列に配してなるユーザ発話特徴系列を取得するユーザ発話特徴取得部と、
　前記直前システム発話を所定長さの時間に分割して得られる各システム発話要素の音響特徴量を時系列に配してなるシステム発話特徴系列であって、複数の前記システム発話要素のうち、前記直前システム発話に含まれる形態素のうちの所定の品詞に該当する形態素であり、且つ、前記対話シナリオから取得された、前記直前システム発話に対して想定されるユーザによる回答候補に該当しない形態素に含まれるシステム発話要素に付された識別情報を含む、前記システム発話特徴系列を取得するシステム発話特徴取得部と、をさらに備え、
　前記バージイン発話制御部は、前記ユーザ発話特徴系列と、前記システム発話特徴系列と、前記識別情報とを入力として、前記ユーザ発話に含まれる各ユーザ発話要素の、前記音声対話システムにおける対話の制御に際して不採用とすべき尤度を出力とする、バージイン発話判定モデルを用いて、各ユーザ発話要素を不採用とするか否かを判定する、
　請求項２に記載の音声対話システム。
　前記バージイン発話判定モデルは、
　前記ユーザ発話に基づく前記ユーザ発話特徴系列と、当該ユーザ発話の直前に出力された前記直前システム発話に基づく前記システム発話特徴系列と、前記システム発話特徴系列に含まれる複数のシステム発話要素に対して付与された前記識別情報と、を含む特徴情報を入力値として含み、
　前記ユーザ発話に含まれる形態素のうちの、前記音声対話システムにおける対話の制御において不採用とすべき形態素に含まれる前記ユーザ発話要素に対する関連付けを有する正解ラベルを出力値として含む、学習データに基づく機械学習により構成される、
　請求項３に記載の音声対話システム。
　前記バージイン発話制御部は、各ユーザ発話要素が、予め設定された所定の発話の要素に該当する場合に、当該ユーザ発話要素を不採用とすることを判定する、
　請求項１～４のいずれか一項に記載の音声対話システム。
　ユーザにより発せられた音声からなるユーザ発話に対して、音声からなるシステム発話を出力することによりユーザとの対話を行う音声対話システムにおいて、前記システム発話が出力されているときに割り込んで発せられた前記ユーザ発話であるバージイン発話の前記音声対話システムにおける採否を判定するためのバージイン発話判定モデルを生成するモデル生成装置であって、
　前記ユーザ発話及び当該ユーザ発話の直前に出力されたシステム発話である直前システム発話を取得する学習用発話取得部と、
　前記ユーザ発話に基づいて、前記ユーザ発話を所定長さの時間のユーザ発話要素に分割し、各ユーザ発話要素の音響特徴量を時系列に配してなるユーザ発話特徴系列を抽出するユーザ発話特徴抽出部と、
　前記直前システム発話に基づいて、前記直前システム発話を所定長さの時間のシステム発話要素に分割し、各システム発話要素の音響特徴量を時系列に配してなるシステム発話特徴系列を抽出するシステム発話特徴抽出部と、
　前記システム発話特徴系列に含まれる複数のシステム発話要素のうち、前記直前システム発話に含まれる形態素のうちの所定の品詞に該当する形態素であり、且つ、前記ユーザ発話と前記システム発話との相互の応答ルールを有する対話シナリオから取得された、前記直前システム発話に対して想定されるユーザによる回答候補に該当しない形態素に含まれるシステム発話要素に対して、識別情報を付与する識別情報付与部と、
　前記ユーザ発話に含まれる形態素のうちの、前記音声対話システムにおける対話の制御において不採用とすべき形態素に含まれる前記ユーザ発話要素に対する関連付けを有する正解ラベルを取得するラベル取得部と、
　前記ユーザ発話特徴系列、及び前記識別情報を含む前記システム発話特徴系列、並びに前記正解ラベルを含む学習データに基づいて機械学習を行い、前記ユーザ発話に基づく前記ユーザ発話特徴系列及び前記直前システム発話に基づく前記識別情報を含む前記システム発話特徴系列を入力として、前記ユーザ発話に含まれる各ユーザ発話要素の、前記音声対話システムにおける対話の制御に際して不採用とすべき尤度を出力とするバージイン発話判定モデルを生成するモデル生成部と、
　前記モデル生成部により生成された前記バージイン発話判定モデルを出力するモデル出力部と、
　を備えるモデル生成装置。
　前記ラベル取得部は、
　前記ユーザ発話、前記直前システム発話、及び、当該直前システム発話に対するユーザによる回答として想定される前記回答候補のそれぞれに対して形態素解析を実施し、
　前記ユーザ発話に含まれる形態素のうち、前記直前システム発話に含まれ且つ前記回答候補に含まれない形態素である不採用形態素を抽出し、
　前記不採用形態素に含まれる前記ユーザ発話要素に前記正解ラベルを関連付ける、
　請求項６に記載のモデル生成装置。
　ユーザにより発せられた音声からなるユーザ発話に対して、音声からなるシステム発話を出力することによりユーザとの対話を行う音声対話システムにおいて、前記システム発話が出力されているときに割り込んで発せられた前記ユーザ発話であるバージイン発話の前記音声対話システムにおける採否を判定するよう、コンピュータを機能させるための学習済みのバージイン発話判定モデルであって、
　前記ユーザ発話を所定長さの時間に分割して得られる各ユーザ発話要素の音響特徴量を時系列に配してなるユーザ発話特徴系列と、
　当該ユーザ発話の直前に出力されたシステム発話である直前システム発話を所定長さの時間に分割して得られる各システム発話要素の音響特徴量を時系列に配してなるシステム発話特徴系列と、
　前記システム発話特徴系列に含まれる複数のシステム発話要素のうち、前記直前システム発話に含まれる形態素のうちの所定の品詞に該当する形態素であり、且つ、前記ユーザ発話と前記システム発話との相互の応答ルールを有する対話シナリオから取得された、前記直前システム発話に対して想定されるユーザによる回答候補に該当しない形態素に含まれるシステム発話要素に対して付与された識別情報と、を含む特徴情報を入力値として含み、
　前記ユーザ発話に含まれる形態素のうちの、前記音声対話システムにおける対話の制御において不採用とすべき形態素に含まれる前記ユーザ発話要素に対する関連付けを有する正解ラベルを出力値として含む、学習データに基づく機械学習により構成され、
　前記ユーザ発話に基づく前記ユーザ発話特徴系列及び前記直前システム発話に基づく前記識別情報を含む前記システム発話特徴系列を入力として、前記ユーザ発話に含まれる各ユーザ発話要素の、前記音声対話システムにおける対話の制御に際して不採用とすべき尤度を出力とする、
　バージイン発話判定モデル。
　コンピュータを、音声からなるシステム発話を出力することによりユーザとの対話を行う音声対話システムとして機能させるための音声対話プログラムであって、
　前記コンピュータに、
　ユーザにより発せられた音声からなるユーザ発話を取得する取得機能と、
　前記取得機能により取得されたユーザ発話をテキストの情報として認識した認識結果を出力する認識機能と、
　前記システム発話が出力されているときに割り込んで発せられた前記ユーザ発話であるバージイン発話の採否を判定するバージイン発話制御機能と、
　前記ユーザ発話と前記システム発話との相互の応答ルールを有する対話シナリオを参照して、前記バージイン発話制御機能により不採用と判定された前記バージイン発話以外の前記ユーザ発話に対応する前記認識結果に基づいて、前記ユーザに対して応答すべき応答内容を表すシステム応答を出力する対話制御機能と、
　前記対話制御機能により出力された前記システム応答に基づいて、前記システム発話を生成する応答生成機能と、
　前記システム発話を出力する出力機能と、を実現させ、
　前記ユーザ発話は、時系列の１以上のユーザ発話要素からなり、
　前記対話シナリオは、前記システム発話に対して想定されるユーザによる回答である回答候補を含み、
　前記バージイン発話制御機能は、各ユーザ発話要素が、前記ユーザ発話が発せられた時の直前に前記出力機能により出力された前記システム発話である直前システム発話に含まれる所定の形態素に該当し、且つ、前記対話シナリオにおいて前記直前システム発話に対する前記回答候補の要素に該当しない場合に、当該ユーザ発話要素または当該ユーザ発話要素を含む前記ユーザ発話を不採用とすることを判定する、
　音声対話プログラム。