WO2020195022A1 - 音声対話システム、モデル生成装置、バージイン発話判定モデル及び音声対話プログラム - Google Patents

音声対話システム、モデル生成装置、バージイン発話判定モデル及び音声対話プログラム Download PDF

Info

Publication number
WO2020195022A1
WO2020195022A1 PCT/JP2020/000914 JP2020000914W WO2020195022A1 WO 2020195022 A1 WO2020195022 A1 WO 2020195022A1 JP 2020000914 W JP2020000914 W JP 2020000914W WO 2020195022 A1 WO2020195022 A1 WO 2020195022A1
Authority
WO
WIPO (PCT)
Prior art keywords
utterance
user
user utterance
barge
dialogue
Prior art date
Application number
PCT/JP2020/000914
Other languages
English (en)
French (fr)
Inventor
麻莉子 千葉
太一 浅見
Original Assignee
株式会社Nttドコモ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Nttドコモ filed Critical 株式会社Nttドコモ
Priority to JP2021508107A priority Critical patent/JPWO2020195022A1/ja
Priority to US17/440,871 priority patent/US11862167B2/en
Publication of WO2020195022A1 publication Critical patent/WO2020195022A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L15/222Barge in, i.e. overridable guidance for interrupting prompts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding

Abstract

音声対話装置は、取得されたユーザ発話を認識する認識部と、バージイン発話の採否を判定するバージイン発話制御部と、バージイン発話制御部により不採用と判定されたバージイン発話以外のユーザ発話の認識結果に基づいて、ユーザに対してのシステム応答を出力する対話制御部と、システム応答に基づいてシステム発話を生成する応答生成部と、システム発話を出力する出力部とを備え、バージイン発話制御部は、ユーザ発話に含まれる各ユーザ発話要素が、直前システム発話に含まれる所定の形態素に該当し且つ直前システム発話に対するユーザによる回答候補に該当しない場合に、当該ユーザ発話要素を少なくとも不採用とする。

Description

音声対話システム、モデル生成装置、バージイン発話判定モデル及び音声対話プログラム
 本発明は、音声対話システム、モデル生成装置、バージイン発話判定モデル及び音声対話プログラムに関する。
 音声からなるシステム発話を出力することによりユーザにより発せられる発話であるユーザ発話との間で対話を行う音声対話システムがある。このような音声対話システムにおいて、システム発話が出力されているときに割り込んで発せられたユーザ発話であるバージイン発話には、システムが応答すべきものと、採用せずに無視すべきものとがある。適切なシステム発話の出力を実現すべく、例えば、システムにより応答音声によってユーザに返答を要求する際に、返答としてユーザに要求する発話音声の予測長さ等に基づいてバージイン発話の採否を制御する技術が知られている(例えば、特許文献1参照)。
特開2018-124484号公報
 バージイン発話は、システム発話に対する回答及びシステム発話に対する要求の他に、システム発話の内容の復唱及び単なる相槌を含む場合がある。対話の制御において、システム発話に対する復唱及び単なる相槌が採用されると、対話システムの誤作動が発生する場合があった。
 そこで、本発明は、上記問題点に鑑みてなされたものであり、バージイン発話におけるシステム発話に対する復唱及び単なる相槌を対話制御において不採用とすることにより誤作動を防止して、利便性向上を図ることを目的とする。
 上記課題を解決するために、本発明の一形態に係る音声対話システムは、音声からなるシステム発話を出力することによりユーザとの対話を行う音声対話システムであって、ユーザにより発せられた音声からなるユーザ発話を取得する取得部と、取得部により取得されたユーザ発話をテキストの情報として認識した認識結果を出力する認識部と、システム発話が出力されているときに割り込んで発せられたユーザ発話であるバージイン発話の採否を判定するバージイン発話制御部と、ユーザ発話とシステム発話との相互の応答ルールを有する対話シナリオを参照して、バージイン発話制御部により不採用と判定されたバージイン発話以外のユーザ発話に対応する認識結果に基づいて、ユーザに対して応答すべき応答内容を表すシステム応答を出力する対話制御部と、対話制御部により出力されたシステム応答に基づいて、システム発話を生成する応答生成部と、システム発話を出力する出力部と、を備え、ユーザ発話は、時系列の1以上のユーザ発話要素からなり、対話シナリオは、システム発話に対して想定されるユーザによる回答である回答候補を含み、バージイン発話制御部は、各ユーザ発話要素が、ユーザ発話が発せられた時の直前に出力部により出力されたシステム発話である直前システム発話に含まれる所定の形態素に該当し、且つ、対話シナリオにおいて直前システム発話に対する回答候補の要素に該当しない場合に、当該ユーザ発話要素または当該ユーザ発話要素を含む前記ユーザ発話を不採用とすることを判定する。
 ユーザ発話に含まれるユーザ発話要素が、直前システム発話に含まれる所定の形態素に該当する場合には、当該ユーザ発話要素が、システム発話の復唱の要素に該当する可能性が高い。また、ユーザ発話要素が、直前システム発話の一部の復唱であっても、当該直前システム発話の回答候補の要素に該当する場合には、当該ユーザ発話が、対話制御において採用すべき要素に該当する。上記の形態によれば、ユーザ発話要素が、直前システム発話に含まれる所定の形態素に該当し、且つ、直前システム発話の回答候補の要素に該当しない場合に、当該ユーザ発話要素を対話の制御において不採用とすることが判定される。従って、音声対話システムにおける誤作動が防止され、ユーザにおける利便性が向上される。
 バージイン発話におけるシステム発話に対する復唱及び単なる相槌を対話制御において不採用とすることにより誤作動を防止して、利便性向上を図ることが可能となる。
本実施形態の音声対話システムの機能的構成を示すブロック図である。 音声対話システムのモデル生成装置及び音声対話装置のハードブロック図である。 ユーザ発話及びシステム発話の例を示す図である。 ユーザ発話及びシステム発話の例を示す図である。 ユーザ発話特徴系列及びシステム発話特徴系列の例を模式的に示す図である。 システム発話フレームに対する復唱相槌コードの付与の処理内容を示すフローチャートである。 システム発話に含まれる形態素に対する復唱相槌コードの付与処理を説明するための図である。 復唱相槌コードが付されたシステム発話フレームの例を模式的に示す図である。 システム発話に含まれる形態素に対する復唱相槌コードの付与処理を説明するための図である。 復唱相槌コードが付されたシステム発話フレームの例を模式的に示す図である。 学習データにおける正解ラベルが付されたユーザ発話フレームの例を模式的に示す図である。 学習データにおける正解ラベルが付されたユーザ発話フレームの例を模式的に示す図である。 バージイン発話判定モデルの学習の局面の処理内容を示すフローチャートである。 バージイン発話判定モデルから出力される、各ユーザ発話フレームの尤度及び採否判定結果を模式的に示す図である。 バージイン発話の採否判定の例を示す図である。 バージイン発話の採否判定の例を示す図である。 音声対話装置における、バージイン発話の採否処理を含む音声対話処理の内容を示すフローチャートである。 モデル生成プログラムの構成を示す図である。 音声対話プログラムの構成を示す図である。
 本発明に係る音声対話システムの実施形態について図面を参照して説明する。なお、可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
 図1は、本実施形態に係る音声対話システム1の機能的構成を示す図である。音声対話システム1は、音声からなるシステム発話を出力することによりユーザとの対話を行うシステムである。図1に示すように、音声対話システム1は、モデル生成装置10及び音声対話装置20を含む。音声対話システム1は、対話シナリオ記憶部30、学習用データ記憶部40及びモデル記憶部50といった記憶手段を含むことができる。
 音声対話システム1は、1つの装置として構成されてもよいし、モデル生成装置10、音声対話装置20、対話シナリオ記憶部30、学習用データ記憶部40及びモデル記憶部50のうちの一つまたは複数がそれぞれ一つの装置を構成してもよい。
 モデル生成装置10は、音声対話の制御におけるバージイン発話の採否を判定するためのバージイン発話判定モデルを生成する装置である。図1に示すように、モデル生成装置10は、機能的には、学習用発話取得部11、ユーザ発話特徴抽出部12、システム発話特徴抽出部13、識別情報付与部14、ラベル取得部15、モデル生成部16及びモデル出力部17を備える。
 また、音声対話装置20は、システム発話を出力することによりユーザとの対話を行う装置であって、機能的には、取得部21、認識部22、ユーザ発話特徴取得部23、システム発話特徴取得部24、バージイン発話制御部25、対話制御部26、応答生成部27及び出力部28を備える。これらの各機能部については後に詳述する。
 なお、図1に示したブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。
 機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知(broadcasting)、通知(notifying)、通信(communicating)、転送(forwarding)、構成(configuring)、再構成(reconfiguring)、割り当て(allocating、mapping)、割り振り(assigning)などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック(構成部)は、送信部(transmitting unit)や送信機(transmitter)と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。
 例えば、本発明の一実施の形態におけるモデル生成装置10及び音声対話装置20はそれぞれ、コンピュータとして機能してもよい。図2は、本実施形態に係るモデル生成装置10及び音声対話装置20のハードウェア構成の一例を示す図である。モデル生成装置10及び音声対話装置20は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
 なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。モデル生成装置10及び音声対話装置20のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
 モデル生成装置10及び音声対話装置20における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ1001が演算を行い、通信装置1004による通信や、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御することで実現される。
 プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。例えば、図1に示した各機能部11~17,21~28などは、プロセッサ1001で実現されてもよい。
 また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュールやデータを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、モデル生成装置10及び音声対話装置20の各機能部11~17,21~28は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよい。上述の各種処理は、1つのプロセッサ1001で実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
 メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つで構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本発明の一実施の形態に係るモデル生成方法または音声対話方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
 ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つで構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及び/又はストレージ1003を含むデータベース、サーバその他の適切な媒体であってもよい。
 通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。
 入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
 また、プロセッサ1001やメモリ1002などの各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
 また、モデル生成装置10及び音声対話装置20は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。
 再び図1を参照して、音声対話システム1が有する各記憶部について簡単に説明する。対話シナリオ記憶部30は、ユーザ発話とシステム発話との相互の応答ルールを有する対話シナリオを記憶している記憶手段である。対話シナリオ記憶部30は、システム発話に対して想定されるユーザによる回答の候補である回答候補を含むことができる。
 学習用データ記憶部40は、後に詳述されるバージイン発話判定モデルを生成するための機械学習に供される学習データを記憶している記憶手段である。学習データは、ユーザ発話、当該ユーザ発話の直前に出力されたシステム発話である直前システム発話を含む。
 モデル記憶部50は、モデル生成装置10により生成されたバージイン発話判定モデルを記憶する記憶手段である。音声対話装置20は、モデル記憶部50により記憶されているバージイン発話判定モデルを用いて、音声対話の制御におけるバージイン発話の採否を判定する。
 次に、モデル生成装置10の各機能部について説明する。学習用発話取得部11は、ユーザにより発せられた音声からなるユーザ発話及び音声対話において当該ユーザ発話の直前に出力されたシステム発話である直前システム発話を取得する。
 図3は、学習用発話取得部11により取得されたユーザ発話及び直前システム発話の例を示す図である。図3に示すように、学習用発話取得部11は、ユーザ発話suを取得する。ユーザ発話suは、例えば、ユーザにより発せられた「特急列車を利用します」という音声のデータである。
 ユーザ発話suは、ユーザにより発せられた一連の発話音声のうちの所定の1区間の発話であってもよい。1区間の発話は、例えば、周知の音声区間検出(voice activity detection)の技術により検出される。発話の1区間は、例えば、一連の発話を所定時間以上の無音部(pause)で区切った一続きの有音の部分とすることができる。具体的には、例えば、「そうですね・・・(pause)・・・いいと思います」という発話から、「そうですね」,「いいと思います」という2つの区間が抽出される。
 また、学習用発話取得部11は、直前システム発話ssをユーザ発話su関連付けて取得する。直前システム発話ssは、例えば、システムにより発せられた「特急列車を利用しますか」という音声のデータである。
 図4は、学習用発話取得部11により取得されたユーザ発話及び直前システム発話の第2の例を示す図である。図4に示すように、学習用発話取得部11は、ユーザ発話su-2(su)を取得する。ユーザ発話su-2は、例えば、ユーザにより発せられた「I take an express train.」という音声のデータである。
 また、学習用発話取得部11は、直前システム発話ss-2(ss)をユーザ発話su-2関連付けて取得する。直前システム発話ss-2は、例えば、システムにより発せられた「Do you take an express train?」という音声のデータである。
 ユーザ発話特徴抽出部12は、ユーザ発話suを所定長さの時間のユーザ発話要素に分割し、各ユーザ発話要素の音響特徴量を時系列に配してなるユーザ発話特徴系列を、ユーザ発話に基づいて抽出する。
 システム発話特徴抽出部13は、直前システム発話ssを所定長さの時間のシステム発話要素に分割し、各システム発話要素の音響特徴量を時系列に配してなるシステム発話特徴系列を、直前システム発話に基づいて抽出する。
 図5は、ユーザ発話特徴系列及びシステム発話特徴系列の例を模式的に示す図である。本実施形態では、ユーザ発話特徴抽出部12は、ユーザ発話suを複数のユーザ発話フレームfuに分割する。ユーザ発話フレームfuは、ユーザ発話要素の一例を構成する。一のフレームの長さは、任意の所定長の時間であることができるが、例えば10msに設定されてもよい。
 各ユーザ発話フレームfuは、音響特徴量を含む。音響特徴量は、音の高さ、音の強さ及び音色等のうちの1以上を含むことができる。音響特徴量は、例えば、MFCC(Mel-Frequency Cepstrum Coefficients、メル周波数ケプストラム係数)といった周知の技術により取得されるものであってもよい。
 ユーザ発話特徴抽出部12は、図5に示すように、ユーザ発話フレームfuの音響特徴量を時系列に配してなるユーザ発話特徴系列FUを、ユーザ発話suに基づいて抽出する。
 また、システム発話特徴抽出部13は、直前システム発話ssを複数のシステム発話フレームfsに分割する。システム発話フレームfsは、システム発話要素の一例を構成する。一のフレームの長さは、任意の所定長の時間であることができるが、例えば10msに設定されてもよい。
 各システム発話フレームfsは、ユーザ発話フレームfuと同様に、音響特徴量を含む。音響特徴量は、音の高さ、音の強さ及び音色等のうちの1以上を含むことができる。
 システム発話特徴抽出部13は、図5に示すように、システム発話フレームfsの音響特徴量を時系列に配してなるシステム発話特徴系列FSを、直前システム発話ssに基づいて抽出する。
 識別情報付与部14は、システム発話特徴系列に含まれる複数のシステム発話要素のうち、直前システム発話に含まれる形態素のうちの所定の品詞に該当する形態素であり、且つ、直前システム発話に対して想定されるユーザによる回答候補に該当しない形態素に含まれるシステム発話要素に対して、識別情報を付与する。本実施形態では、識別情報付与部14は、復唱相槌コードrcをシステム発話フレームfsに付与する。復唱相槌コードrcは、識別情報の一例を構成する。回答候補は、例えば、対話シナリオから取得される。
 ユーザ発話に、直前システム発話に含まれる形態素のうちの所定の品詞(例えば、動詞、名詞及び形容詞)に該当する形態素が含まれていた場合には、その形態素は、ユーザによるシステム発話の復唱に該当する。そして、復唱に該当する形態素のうちの、回答候補に該当しない形態素は、ユーザによる相槌に該当する。
 本実施形態では、識別情報付与部14は、直前システム発話に含まれる形態素のうちの、ユーザにより発せられたときに復唱且つ相槌に該当する形態素に含まれるシステム発話フレームfsに、復唱相槌コードrcを付与する。
 一方、システム発話に含まれる形態素のうち、ユーザにより発せられたときに、システム発話の復唱に該当する形態素であっても、回答候補に該当するものは、対話制御において採用すべき回答に該当するので、そのような形態素に対しては、復唱相槌コードrcを付与しない。
 図6~図10を参照して、システム発話フレームfsに対する復唱相槌コードrcの付与について説明する。図6は、システム発話フレームfsに対する復唱相槌コードrcの付与の処理内容を示すフローチャートである。なお、図6に示される復唱相槌コードrcの付与処理が実施されるタイミングは、当該音声対話システム1においてシステム発話(テキスト)が確定された時以降であれば、限定されず、例えば、システム発話が出力される前に実施される。即ち、復唱相槌コードrcの付与処理は、対話シナリオ記憶部30に記憶されたシステム発話に対して実施されてもよいし、学習データとして学習用データ記憶部40に記憶されたシステム発話に対して実施されてもよい。
 ステップS1において、識別情報付与部14は、システム発話(テキスト)を取得し、取得したシステム発話に対して形態素解析を実施する。図7は、システム発話に含まれる形態素に対する復唱相槌コードの付与処理を説明するための図である。図7に示すように、識別情報付与部14は、「特急列車を利用しますか」というシステム発話に形態素解析を実施して、「特急列車」、「を」、「利用」、「します」、「か」という形態素を得る(図7の形態素のカラム)。
 ステップS2において、識別情報付与部14は、各形態素とシステム発話フレームとを対応付けるために、各形態素に時刻情報を付与する。即ち、識別情報付与部14は、システム発話のテキストと音声との強制アライメントを行い、音声のデータにおける各形態素の開始時刻及び終了時刻を取得し、各形態素に関連付ける。図7に示す例では、「特急列車」の形態素には、開始時刻「0.12」及び終了時刻「0.29」が関連付けられている。
 ステップS3において、識別情報付与部14は、ステップS1において取得された形態素から、所定の品詞の形態素を抽出する。具体的には、識別情報付与部14は、動詞、名詞及び形容詞の形態素を抽出して、抽出した形態素に、形態素のための復唱相槌コード「1」を一旦付与する。図7に示す例では、識別情報付与部14は、「特急列車」及び「利用」に復唱相槌コード「1」を付与する。
 ステップS4において、識別情報付与部14は、復唱相槌コード「1」を付与した形態素のうち、システム発話に対するユーザによる回答候補に含まれる形態素を除外する。ユーザの回答候補は、対話シナリオから取得される。図7に示す例では、識別情報付与部14は、システム発話「特急列車を利用しますか」に対するユーザの回答候補として、「はい」、「いいえ」、「利用します」、「利用しません」という発話内容を取得する。ステップ3において復唱相槌コードを付与した形態素「利用」がユーザの回答候補に含まれるので、識別情報付与部14は、形態素「利用」に対して一旦付与した復唱相槌コード「1」に代えて、復唱相槌コード「0」を付与する(図7の復唱相槌コードのカラム参照)。
 ステップS5において、識別情報付与部14は、形態素のための復唱相槌コードが付与された形態素に対応するシステム発話フレームfsに、識別情報である復唱相槌コードrc(1)を付与する。図8は、復唱相槌コードが付されたシステム発話フレームの例を模式的に示す図である。図8に示すように、識別情報付与部14は、システム発話(テキスト)tsに含まれる形態素ms1~ms5のうちの形態素ms1「特急列車」に対応するシステム発話フレームfsに、復唱相槌コードrc1(1)を付与する。こうして付与された復唱相槌コードrcは、システム発話特徴系列FSと共に、バージイン発話判定モデルの学習のための学習データとして供される。
 図9は、システム発話に含まれる形態素に対する復唱相槌コードの付与処理の第2の例を説明するための図である。図9に示す例では、ステップS1において、識別情報付与部14は、「Do you take an express train」というシステム発話に形態素解析を実施して、「Do」、「you」、「take」、「an」、「express」、「train」、という形態素を得る(図9のmorpheme(形態素)のカラム)。
 ステップS2において、識別情報付与部14は、各形態素とシステム発話フレームとを対応付けるために、各形態素に時刻情報(start time,end time)を付与する。図9に示す例では、「you」の形態素には、開始時刻(start time)「0.29」及び終了時刻(end time)「0.32」が関連付けられている。
 図9に示す例では、ステップS3において、識別情報付与部14は、ステップS1において取得された形態素から、動詞、名詞及び形容詞の形態素である「take」、「express」、「train」に復唱相槌コード(respetitive back-channel code)「1」を付与する。
 ステップS4において、識別情報付与部14は、復唱相槌コード「1」を付与した形態素のうち、システム発話に対するユーザによる回答候補に含まれる形態素を除外する。ユーザの回答候補は、対話シナリオから取得される。図9に示す例では、識別情報付与部14は、システム発話「Do you take an express train」に対するユーザの回答候補として、「Yes」、「No」、「I take an express train」、「I do not take an express train」という発話内容を取得する。ステップ3において復唱相槌コードを付与した形態素「take」がユーザの回答候補に含まれるので、識別情報付与部14は、形態素「take」に対して一旦付与した復唱相槌コード「1」に代えて、復唱相槌コード「0」を付与する(図9の復唱相槌コードのカラム参照)。
 ステップS5において、識別情報付与部14は、形態素のための復唱相槌コードが付与された形態素に対応するシステム発話フレームfsに、識別情報である復唱相槌コードrc(1)を付与する。図10は、復唱相槌コードが付されたシステム発話フレームの第2の例を模式的に示す図である。図10に示すように、識別情報付与部14は、システム発話(テキスト)ts-2(ts)に含まれる形態素ms1-2~ms6-2のうちの形態素ms5-2~ms6-2「express train?」に対応するシステム発話フレームfsに、復唱相槌コードrc1-2(1)を付与する。こうして付与された復唱相槌コードrcは、システム発話特徴系列FS-2(FS)と共に、バージイン発話判定モデルの学習のための学習データとして供される。
 なお、システム発話に含まれる形態素のうちの、ユーザにより発せられたときに復唱且つ相槌に該当する形態素に含まれるシステム発話フレームに復唱相槌コード「1」を付与し、ユーザにより発せられたときに復唱且つ相槌に該当する形態素以外の形態素に含まれるシステム発話フレームに復唱相槌コード「0」を付与することとしてもよい。また、ユーザにより発せられたときに復唱且つ相槌に該当する形態素に含まれるシステム発話フレームに所定の識別情報が付与され、それ以外のシステム発話フレームには、識別情報が付与されないこととしてもよい。
 再び図1を参照して、ラベル取得部15は、ユーザ発話特徴系列FUに含まれる複数のユーザ発話フレームfuのうち、ユーザ発話suに含まれる形態素のうちの音声対話システムにおける対話の制御において不採用とすべき形態素に含まれるユーザ発話フレームfuに対する関連付けを有する正解ラベルを取得する。具体的には、ラベル取得部15は、ユーザ発話に含まれる形態素のうちの、システム発話に対する復唱且つ相槌に該当する形態素に含まれるユーザ発話フレームfuに対する関連付けを有する正解ラベルを取得する。ユーザ発話フレームfuに対する正解ラベルの関連付けは、予め人手によって行われても良い。
 また、ラベル取得部15は、システム発話に対する復唱且つ相槌に該当する形態素に含まれるユーザ発話フレームfuに対する関連付けを、人手によらずに、以下のような処理により実施してもよい。具体的には、ラベル取得部15は、テキスト情報として得られたユーザ発話su、直前システム発話ss及び当該直前システム発話ssに対するユーザによる回答として想定される回答候補のそれぞれに対して形態素解析を実施する。
 続いて、ラベル取得部15は、ユーザ発話suに含まれる形態素のうち、直前システム発話ssに含まれる所定の品詞(名詞、動詞、形容詞)に該当する形態素であって、且つ、回答候補に含まれない形態素を、不採用形態素として抽出する。例えば、ユーザ発話su「特急列車を利用します」、直前システム発話ss「特急列車を利用しますか」、及び回答候補(「はい」、「いいえ」、「利用します」、「利用しません」)が学習データとして取得された場合には、ラベル取得部15は、ユーザ発話suから、形態素(「特急列車」、「利用」、「します」)を、直前システム発話ssに含まれる所定の品詞の形態素として抽出する。さらに、ラベル取得部15は、抽出した形態素のうちの、回答候補に含まれない形態素である「特急列車」を、不採用形態素として抽出する。
 そして、ラベル取得部15は、不採用形態素に含まれるユーザ発話フレームに正解ラベルを関連付ける。図11は、学習データにおける正解ラベルが付されたユーザ発話フレームの例を模式的に示す図である。図11に示すように、ラベル取得部15は、ラベルLをユーザ発話フレームfuに関連付ける。
 即ち、ラベル取得部15は、ユーザ発話suから抽出された形態素とユーザ発話フレームとを対応付けるために、各形態素に時刻情報を付与する。具体的には、ラベル取得部15は、ユーザ発話のテキストと音声との強制アライメントを行い、音声のデータにおける各形態素の開始時刻及び終了時刻を取得し、各形態素に関連付ける。ラベル取得部15は、形態素「特急列車」の開始時刻及び終了時刻に基づいて、対応するユーザ発話フレームfuを抽出し、そのユーザ発話フレームが不採用とすべきものであることを示す正解ラベルLである正解ラベルl1(1)を関連付ける。一方、ラベル取得部15は、不採用とすべきユーザ発話フレームではないことを示す正解ラベルl0(0)を、形態素「特急列車」以外の形態素に対応するユーザ発話フレームに関連付ける。
 図12は、学習データにおける正解ラベルが付されたユーザ発話フレームの第2の例を模式的に示す図である。図12に示すように、ラベル取得部15は、ラベルL-2(L)をユーザ発話フレームfu-2(fu)に関連付ける。即ち、ラベル取得部15は、ユーザ発話su-2(su)から抽出された形態素とユーザ発話フレームとを対応付けるために、各形態素に時刻情報を付与する。具体的には、ラベル取得部15は、ユーザ発話のテキストと音声との強制アライメントを行い、音声のデータにおける各形態素の開始時刻及び終了時刻を取得し、各形態素に関連付ける。ラベル取得部15は、形態素「express」、「train」の開始時刻及び終了時刻に基づいて、対応するユーザ発話フレームfu-2を抽出し、そのユーザ発話フレームが不採用とすべきものであることを示す正解ラベルl1-2(1)を関連付ける。一方、ラベル取得部15は、不採用とすべきユーザ発話フレームではないことを示す正解ラベルl0-2(0)を、形態素「express」、「train」以外の形態素に対応するユーザ発話フレームに関連付ける。
 なお、ユーザ発話に含まれる形態素のうちの、不採用とすべき形態素に含まれるユーザ発話フレームに正解ラベル「1」を関連付け、不採用とすべき形態素以外の形態素に含まれるユーザ発話フレームに正解ラベル「0」を関連付けることとしてもよい。また、不採用とすべき形態素に含まれるユーザ発話フレームに、正解ラベルとしての所定の識別情報を関連付け、不採用とすべき形態素以外の形態素に含まれる形態素には、所定の識別情報が関連付けられないこととしてもよい。
 モデル生成部16は、ユーザ発話特徴系列FU、及び復唱相槌コードrcを含むシステム発話特徴系列FS、並びにユーザ発話特徴系列FUに含まれるユーザ発話フレームfuに関連付けられた正解ラベルLを含む学習データに基づいて機械学習を行い、バージイン発話判定モデルを生成する。
 バージイン発話判定モデルは、ニューラルネットワークを含んで構成されるモデルであって、ユーザ発話に基づくユーザ発話特徴系列及び直前システム発話に基づく復唱相槌コードrcを含む前記システム発話特徴系列を入力として、ユーザ発話に含まれる各ユーザ発話フレームfuの、音声対話システムにおける対話の制御に際して不採用とすべき尤度を出力とするモデルである。
 図13は、モデル生成装置10におけるバージイン発話判定モデルの学習及び生成の処理内容を示すフローチャートである。ステップS11において、学習用発話取得部11は、学習用のユーザ発話su及び当該ユーザ発話suの直前に出力されたシステム発話である直前システム発話ssを取得する。
 ステップS12において、ユーザ発話特徴抽出部12は、ユーザ発話suに基づいて、ユーザ発話特徴系列FUを抽出する。ステップS13において、システム発話特徴抽出部13は、直前システム発話ssに基づいて、システム発話特徴系列FSを抽出する。システム発話特徴系列FSに含まれるシステム発話フレームfsには、ユーザにより発せられたときに復唱且つ相槌に該当する形態素に含まれるシステム発話フレームfsを識別する復唱相槌コードrcが関連付けられている。
 ステップS14において、ラベル取得部15は、ユーザ発話suに含まれる形態素のうちの音声対話システムにおける対話の制御において不採用とすべき形態素に含まれるユーザ発話フレームfuに、正解ラベルLを関連付ける。
 ステップS15~ステップS17の処理は、モデルの機械学習のための処理である。ステップS15において、モデル生成部16は、学習及び生成の対象のモデルであるバージイン発話判定モデルに、ユーザ発話特徴系列FU及び復唱相槌コードrcを含むシステム発話特徴系列FS並びに正解ラベルLからなる学習データの特徴量を入力する。
 ステップS16において、モデル生成部16は、モデルからの出力値及び正解ラベルLに基づいて損失を算出する。ステップS17において、モデル生成部16は、ステップS16において算出された損失をニューラルネットワークに逆伝搬させ、モデル(ニューラルネットワーク)のパラメータ(重み)を更新する。
 ステップS18において、モデル生成部16は、所定の学習終了条件を満たすか否かを判断する。そして、モデル生成部16は、学習終了条件が満たされるまで、学習データを用いたステップS15~ステップS17までの学習処理を繰り返す。学習終了条件が満たされると、モデル生成部16は、バージイン発話判定モデルの学習処理を終了させる。
 モデル出力部17は、モデル生成部16により生成されたバージイン発話判定モデルを出力する。具体的には、モデル出力部17は、生成されたバージイン発話判定モデルを、例えば、モデル記憶部50に記憶させる。
 次に、音声対話装置20の各機能部について説明する。取得部21は、ユーザにより発せられた音声からなるユーザ発話を取得する。ユーザ発話は、例えば、音声対話装置20から発せられたシステム発話に対してユーザが発した音声である。
 認識部22は、取得部21により取得されたユーザ発話をテキストの情報として認識した認識結果を出力する。この認識結果は、対話制御部26における対話シナリオを参照した対話の制御に供される。
 ユーザ発話特徴取得部23は、取得部21により取得されたユーザ発話を所定長さの時間のユーザ発話フレームに分割し、各ユーザ発話要素の音響特徴量を時系列に配してなるユーザ発話特徴系列を取得する。このユーザ発話フレームの長さは、モデル生成装置10のユーザ発話特徴抽出部12により抽出されるユーザ発話フレームと同じ長さに設定される。
 システム発話特徴取得部24は、音声対話装置20により出力されるシステム発話を所定長さの時間のシステム発話フレームに分割し、各システム発話要素の音響特徴量を時系列に配してなるシステム発話特徴系列を取得する。
 バージイン発話であるユーザ発話の採否の判定のためには、システム発話特徴取得部24は、取得部21により取得されたユーザ発話が発せられた時の直前に音声対話装置20により出力されたシステム発話である直前システム発話のシステム発話特徴系列を取得する。このシステム発話特徴系列において、図6~図10を参照して説明した復唱相槌コードがシステム発話フレームに付与されている。識別情報としての復唱相槌コードは、直前システム発話に含まれる形態素のうちの所定の品詞(名詞、動詞、形容詞)に該当する形態素であって、且つ、当該直前システム発話に対して想定されるユーザによる回答候補に該当しない形態素に含まれるシステム発話フレームを識別する。
 バージイン発話制御部25は、システム発話が発せられているときに割り込んで発せられたユーザ発話であるバージイン発話の採否を判定する。具体的には、バージイン発話制御部25は、バージイン発話であるユーザ発話に含まれる各ユーザ発話フレームが、当該ユーザ発話が発せられた時の直前に出力部28により出力されたシステム発話である直前システム発話に含まれる所定の形態素(名詞、動詞、形容詞)に該当し、且つ、対話シナリオにおいて直前システム発話に対する回答候補に含まれる形態素に該当しない場合に、当該ユーザ発話フレームまたは当該ユーザ発話フレームを含むユーザ発話を不採用とすることを判定する。言い換えるならば、バージイン発話制御部25は、不採用とすることを判定したユーザ発話フレームが含まれるユーザ発話のうちの、少なくとも当該ユーザ発話フレームに相当する部分を不採用とする。即ち、バージイン発話制御部25は、当該ユーザ発話フレーム含まれるユーザ発話のうちの一部または全部を不採用とすることを判定してもよい。
 本実施形態のバージイン発話制御部25は、モデル生成装置10により生成されたバージイン発話判定モデルを用いて、バージイン発話に含まれるユーザ発話フレームの採否を判定する。即ち、バージイン発話制御部25は、ユーザ発話特徴取得部23により取得されたユーザ発話特徴系列と、システム発話特徴取得部24により取得された直前システム発話のシステム発話特徴系列(復唱相槌コードを含む)とをバージイン発話判定モデルに入力する。そして、バージイン発話制御部25は、バージイン発話判定モデルから出力される、システム発話フレームごとの尤度を取得する。尤度は、対話の制御に際して不採用とすべき程度を表す。
 学習済みのニューラルネットワークを含むモデルであるバージイン発話判定モデルは、コンピュータにより読み込まれ又は参照され、コンピュータに所定の処理を実行させ及びコンピュータに所定の機能を実現させるプログラムとして捉えることができる。
 即ち、本実施形態の学習済みのバージイン発話判定モデルは、CPU及びメモリを備えるコンピュータにおいて用いられる。具体的には、コンピュータのCPUが、メモリに記憶された学習済みのバージイン発話判定モデルからの指令に従って、ニューラルネットワークの入力層に入力された入力データ(例えば、ユーザ発話特徴系列、復唱相槌コードrcが付与されたシステム発話特徴系列)に対し、各層に対応する学習済みの重み付け係数と応答関数等に基づく演算を行い、出力層から結果(尤度)を出力するよう動作する。
 図14は、バージイン発話判定モデルから出力される、各ユーザ発話フレームの尤度及び採否判定結果を模式的に示す図である。図14に示すように、バージイン発話制御部25は、バージイン発話であるユーザ発話のユーザ発話特徴系列FUx等をバージイン発話判定モデルに入力し、各ユーザ発話フレームfuxの尤度をバージイン発話判定モデルの出力から取得する。そして、バージイン発話制御部25は、尤度が所定の閾値以上であるユーザ発話フレームfux1を対話制御において不採用とすることを判定し、尤度が所定の閾値未満であるユーザ発話フレームfux0を対話制御において採用することを判定する。
 図15は、バージイン発話の採否判定の例を模式的に示す図である。システム発話ssx1「特急列車を利用しますか」に対して、ユーザにより発せられたバージイン発話であるユーザ発話sux1「利用します」が取得部21により取得された場合には、ユーザ発話sux1に含まれる形態素がシステム発話ssx1に対する回答候補の形態素に該当するので、バージイン発話制御部25は、ユーザ発話sux1に含まれるユーザ発話フレームのいずれについても不採用とすることを判定しない。
 一方、システム発話ssx1「特急列車を利用しますか」に対して、ユーザ発話sux2「特急列車か」が取得部21により取得された場合には、ユーザ発話sux2に含まれる形態素「特急列車」が、システム発話ssx1に含まれる所定の形態素に該当し、且つ、システム発話ssx1に対する回答候補の形態素に該当しないので、形態素「特急列車」に含まれる各ユーザ発話フレームに関してバージイン発話判定モデルから出力された尤度が所定の閾値以上となり、バージイン発話制御部25は、ユーザ発話sux2の形態素「特急列車」に含まれるユーザ発話フレームを不採用とすることを判定する。即ち、ユーザ発話sux2「特急列車か」は、システム発話ssx1「特急列車を利用しますか」に対する復唱であり、且つ、相槌であることが、バージイン発話判定モデルにより判定されることとなる。
 図16は、バージイン発話の採否判定の第2の例を模式的に示す図である。システム発話ssx1-2「Do you take an express train?」に対して、ユーザにより発せられたバージイン発話であるユーザ発話sux1-2「I take an express train.」が取得部21により取得された場合には、ユーザ発話sux1-2に含まれる形態素がシステム発話ssx1-2に対する回答候補の形態素に該当するので、バージイン発話制御部25は、ユーザ発話sux1-2に含まれるユーザ発話フレームのいずれについても不採用とすることを判定しない。
 一方、システム発話ssx1-2「Do you take an express train?」に対して、ユーザ発話sux2-2「Express train.」が取得部21により取得された場合には、ユーザ発話sux2-2に含まれる形態素「express」、「train」が、システム発話ssx1-2に含まれる所定の形態素に該当し、且つ、システム発話ssx1-2に対する回答候補の形態素に該当しないので、形態素「express」、「train」に含まれる各ユーザ発話フレームに関してバージイン発話判定モデルから出力された尤度が所定の閾値以上となり、バージイン発話制御部25は、ユーザ発話sux2-2に含まれるユーザ発話フレームを不採用とすることを判定する。即ち、ユーザ発話sux2-2「Express train.」は、システム発話ssx1-2「Do you take an express train?」に対する復唱であり、且つ、相槌であることが、バージイン発話判定モデルにより判定されることとなる。
 なお、バージイン発話制御部25は、バージイン発話判定モデルを用いた判定と併せて、ユーザ発話に含まれる各ユーザ発話要素が、予め設定された所定の発話の要素に該当する場合に、当該ユーザ発話要素を不採用とすることを判定することとしてもよい。
 具体的には、「うん」、「はい」といった回答としての特段の意味を有さない単なる相槌に該当するようなユーザ発話を所定の発話として予め設定しておき、取得部21により取得されたユーザ発話に含まれるユーザ発話フレームの音響特徴量が、所定の発話として設定された単なる相槌に該当するような発話の音響特徴量に該当する場合に、バージイン発話制御部25は、そのユーザ発話フレームを、対話制御において不採用とすることを判定する。これにより、対話制御において、単なる相槌が採用されないように制御することが可能となる。
 再び図1を参照して、対話制御部26は、ユーザ発話とシステム発話との相互の応答ルールを有する対話シナリオを参照して、バージイン発話制御部25により不採用と判定されたバージイン発話以外のユーザ発話に対応する認識結果に基づいて、ユーザに対して応答すべき応答内容を表すシステム応答を出力する。具体的には、対話制御部26は、対話シナリオ記憶部30に記憶された対話シナリオを参照して、不採用と判定されたユーザ発話以外のユーザ発話に応答するための、テキストからなるシステム応答を取得及び出力する。
 応答生成部27は、対話制御部26により出力されたシステム応答に基づいて、音声情報からなるシステム発話を生成する。
 出力部28は、応答生成部27により生成されたシステム発話を、音声として出力する。
 次に、図17を参照して、音声対話装置20における音声対話方法について説明する。図17は、本実施形態の音声対話方法の処理内容を示すフローチャートである。
 ステップS21において、システム発話特徴取得部24は、出力部28により出力されたシステム発話のシステム発話特徴系列を取得する。このシステム発話は、音声対話システム1からの発話を契機とする対話である場合には、その契機とする初期のシステム発話であってもよいし、対話の継続中においては、以前のユーザ発話に対する応答としてのシステム発話であってもよい。
 ステップS22において、取得部21は、ユーザにより発せられた音声を検出したか否かを判定し、ユーザの音声を検出した場合には、ユーザ発話として取得する。ユーザ発話を取得した場合には、処理はステップS24に進む。ユーザ発話を取得しなかった場合には、処理はステップS23に進む。
 ステップS23において、取得部21は、ユーザ発話が取得されない状態が、所定時間のタイムアウトに至ったか否かを判定する。取得部21は、タイムアウトに至るまで、ユーザ発話の取得を試みる。一方、タイムアウトに至った場合には、処理はステップS28に進む。
 ステップS24において、対話制御部26は、ステップS22におけるユーザ発話の検出及び取得が、システム発話の出力中であったか否かを判定する。即ち、取得したユーザ発話が、バージイン発話であるか否かを判定する。ユーザ発話の取得がシステム発話の出力中であったと判定された場合には、処理はステップS25に進む。一方、ユーザ発話の取得がシステム発話の出力中であったと判定されなかった場合には、処理はステップS27に進む。
 ステップS25において、ユーザ発話特徴取得部23は、ステップS22において取得されたユーザ発話のユーザ発話特徴系列を取得する。
 ステップS26において、バージイン発話制御部25は、ステップS22において取得されたユーザ発話であって、ステップS24においてバージイン発話であることが判定されたユーザ発話の採否を、ステップS25において取得されたユーザ発話特徴系列に基づいて判定する。具体的には、バージイン発話制御部25は、ユーザ発話特徴系列と、直前システム発話に基づくシステム発話特徴系列とをバージイン発話判定モデルに入力して、各ユーザ発話フレームの尤度を取得し、取得された尤度に基づいて、各ユーザ発話フレームの採否を判定する。ユーザ発話を不採用とすることを判定した場合には、処理はステップS22に戻る。
 ステップS27において、認識部22は、不採用と判定されなかったユーザ発話をテキストの情報として認識した認識結果を出力する。
 ステップS28において、対話制御部26は、対話シナリオを参照して、不採用と判定されたユーザ発話以外のユーザ発話に応答するための、テキストからなるシステム応答を取得及び出力する。そして、応答生成部27は、対話制御部26により出力されたシステム応答に基づいて、音声情報からなるシステム発話を生成する。
 ステップS29において、システム発話特徴取得部24は、ステップS28において生成されたシステム発話のシステム発話特徴系列を取得し、次のユーザ発話の直前システム発話の情報として保持する。
 ステップS30において、出力部28は、応答生成部27により生成されたシステム発話を、音声として出力する。
 ステップS31において、対話制御部26は、ユーザとの音声対話の所定の対話終了条件を満たすか否かを判定する。対話終了条件を満たすと判定されなかった場合には、処理はステップS22に戻る。
 次に、コンピュータを、本実施形態のモデル生成装置10として機能させるためのモデル生成プログラムについて説明する。図18は、モデル生成プログラムP1の構成を示す図である。
 モデル生成プログラムP1は、モデル生成装置10におけるモデル生成処理を統括的に制御するメインモジュールm10、学習用発話取得モジュールm11、ユーザ発話特徴抽出モジュールm12、システム発話特徴抽出モジュールm13、識別情報付与モジュールm14、ラベル取得モジュールm15、モデル生成モジュールm16及びモデル出力モジュールm17を備えて構成される。そして、各モジュールm11~m17により、モデル生成装置10における学習用発話取得部11、ユーザ発話特徴抽出部12、システム発話特徴抽出部13、識別情報付与部14、ラベル取得部15、モデル生成部16及びモデル出力部17のための各機能が実現される。なお、モデル生成プログラムP1は、通信回線等の伝送媒体を介して伝送される態様であってもよいし、図18に示されるように、記録媒体M1に記憶される態様であってもよい。
 図19は、コンピュータを、本実施形態の音声対話装置20として機能させるための音声対話プログラムについて説明する。
 音声対話プログラムP2は、音声対話装置20における音声対話処理を統括的に制御するメインモジュールm20、取得モジュールm21、認識モジュールm22、ユーザ発話特徴取得モジュールm23、システム発話特徴取得モジュールm24、バージイン発話制御モジュールm25、対話制御モジュールm26、応答生成モジュールm27及び出力モジュールm28を備えて構成される。そして、各モジュールm21~m28により、音声対話装置20における取得部21、認識部22、ユーザ発話特徴取得部23、システム発話特徴取得部24、バージイン発話制御部25、対話制御部26、応答生成部27及び出力部28のための各機能が実現される。なお、音声対話プログラムP2は、通信回線等の伝送媒体を介して伝送される態様であってもよいし、図19に示されるように、記録媒体M2に記憶される態様であってもよい。
 以上説明した本実施形態の音声対話装置20、音声対話方法及び音声対話プログラムP2では、ユーザ発話に含まれるユーザ発話要素が、直前システム発話に含まれる所定の形態素に該当する場合には、当該ユーザ発話要素が、システム発話の復唱の要素に該当する可能性が高く、また、ユーザ発話要素が、直前システム発話の一部の復唱であっても、当該直前システム発話の回答候補の要素に該当する場合には、当該ユーザ発話が、対話制御において採用すべき要素に該当することに鑑みて、ユーザ発話要素が、直前システム発話に含まれる所定の形態素に該当し、且つ、直前システム発話の回答候補の要素に該当しない場合に、当該ユーザ発話要素を対話の制御において不採用とすることが判定される。従って、音声対話システムにおける誤作動が防止され、ユーザにおける利便性が向上される。
 また、別の形態に係る音声対話システムでは、ユーザ発話要素は、ユーザ発話を時系列に沿って所定長さの時間に分割して得られる要素であり、各ユーザ発話要素は、音響特徴量を含むこととしてもよい。
 上記形態によれば、ユーザ発話は、各々が音響特徴量を含む時系列のユーザ発話要素により構成され、各ユーザ発話要素の採否が判定されるので、採否判定のためにユーザ発話をテキスト情報として認識することが不要である。従って、ユーザ発話の判定対象の一区間の末尾を待たずにバージイン発話の採否の判定が可能となるので、対話の制御処理が速やかに行われる。
 また、別の形態に係る音声対話システムでは、ユーザ発話に基づいて、ユーザ発話を所定長さの時間のユーザ発話要素に分割し、各ユーザ発話要素の音響特徴量を時系列に配してなるユーザ発話特徴系列を取得するユーザ発話特徴取得部と、直前システム発話を所定長さの時間に分割して得られる各システム発話要素の音響特徴量を時系列に配してなるシステム発話特徴系列であって、複数のシステム発話要素のうち、直前システム発話に含まれる形態素のうちの所定の品詞に該当する形態素であり、且つ、対話シナリオから取得された、直前システム発話に対して想定されるユーザによる回答候補に該当しない形態素に含まれるシステム発話要素に付された識別情報を含む、システム発話特徴系列を取得するシステム発話特徴取得部と、をさらに備え、バージイン発話制御部は、ユーザ発話特徴系列と、システム発話特徴系列と、識別情報とを入力として、ユーザ発話に含まれる各ユーザ発話要素の、音声対話システムにおける対話の制御に際して不採用とすべき尤度を出力とする、バージイン発話判定モデルを用いて、各ユーザ発話要素を不採用とするか否かを判定することとしてもよい。
 上記形態によれば、ユーザ発話特徴系列と、識別情報を含むシステム発話特徴系列とを入力として、各ユーザ発話要素を不採用とすべき尤度がユーザ発話要素ごとに出力されるバージイン発話判定モデルが用いられるので、ユーザ発話に含まれる各ユーザ発話要素の採否を精度良く判定できる。
 また、別の形態に係る音声対話システムでは、バージイン発話判定モデルは、ユーザ発話に基づくユーザ発話特徴系列と、当該ユーザ発話の直前に出力された直前システム発話に基づくシステム発話特徴系列と、システム発話特徴系列に含まれる複数のシステム発話要素に対して付与された識別情報と、を含む特徴情報を入力値として含み、ユーザ発話に含まれる形態素のうちの、音声対話システムにおける対話の制御において不採用とすべき形態素に含まれるユーザ発話要素に対する関連付けを有する正解ラベルを出力値として含む、学習データに基づく機械学習により構成されることとしてもよい。
 上記形態によれば、ユーザ発話特徴系列と、システム発話特徴系列と、システム発話要素に付与された識別情報とを含む特徴量を入力値として含み、不採用とすべきユーザ発話要素に対する関連付けを含む正解ラベルを出力値として含む学習データに基づく機械学習により生成されたバージイン発話判定モデルが、ユーザ発話要素の採否の判定に用いられる。これにより、ユーザ発話に含まれる各ユーザ発話要素の採否を精度良く判定できる。
 また、別の形態に係る音声対話システムでは、バージイン発話制御部は、各ユーザ発話要素が、予め設定された所定の発話の要素に該当する場合に、当該ユーザ発話要素を不採用とすることを判定することとしてもよい。
 上記形態によれば、対話において特段の意味を有さないような単なる相槌に該当する発話を所定の発話として予め設定しておくことにより、バージイン発話に含まれる単なる相槌を採用しないように制御することが可能となる。
 また、本発明の一形態に係るモデル生成装置は、ユーザにより発せられた音声からなるユーザ発話に対して、音声からなるシステム発話を出力することによりユーザとの対話を行う音声対話システムにおいて、システム発話が出力されているときに割り込んで発せられたユーザ発話であるバージイン発話の音声発話システムにおける採否を判定するためのバージイン発話判定モデルを生成するモデル生成装置であって、ユーザ発話及び当該ユーザ発話の直前に出力されたシステム発話である直前システム発話を取得する学習用発話取得部と、ユーザ発話に基づいて、ユーザ発話を所定長さの時間のユーザ発話要素に分割し、各ユーザ発話要素の音響特徴量を時系列に配してなるユーザ発話特徴系列を抽出するユーザ発話特徴抽出部と、直前システム発話に基づいて、直前システム発話を所定長さの時間のシステム発話要素に分割し、各システム発話要素の音響特徴量を時系列に配してなるシステム発話特徴系列を抽出するシステム発話特徴抽出部と、システム発話特徴系列に含まれる複数のシステム発話要素のうち、直前システム発話に含まれる形態素のうちの所定の品詞に該当する形態素であり、且つ、ユーザ発話とシステム発話との相互の応答ルールを有する対話シナリオから取得された、直前システム発話に対して想定されるユーザによる回答候補に該当しない形態素に含まれるシステム発話要素に対して、識別情報を付与する識別情報付与部と、ユーザ発話に含まれる形態素のうちの、音声対話システムにおける対話の制御において不採用とすべき形態素に含まれるユーザ発話要素に対する関連付けを有する正解ラベルを取得するラベル取得部と、ユーザ発話特徴系列、及び識別情報を含むシステム発話特徴系列、並びに正解ラベルを含む学習データに基づいて機械学習を行い、ユーザ発話に基づくユーザ発話特徴系列及び直前システム発話に基づく識別情報を含むシステム発話特徴系列を入力として、ユーザ発話に含まれる各ユーザ発話要素の、音声対話システムにおける対話の制御に際して不採用とすべき尤度を出力とするバージイン発話判定モデルを生成するモデル生成部と、モデル生成部により生成されたバージイン発話判定モデルを出力するモデル出力部と、を備える。
 上記形態によれば、ユーザ発話特徴系列と、システム発話特徴系列と、システム発話要素に付与された識別情報とを含む特徴量を入力値として含み、不採用とすべきユーザ発話要素に対する関連付けを含む正解ラベルを出力値として含む学習データに基づく機械学習によりバージイン発話判定モデルが生成される。これにより、ユーザ発話要素の採否の判定に好適なモデルを得ることができる。
 また、本発明の一形態に係るモデル生成装置では、ラベル取得部は、ユーザ発話、直前システム発話、及び、当該直前システム発話に対するユーザによる回答として想定される回答候補のそれぞれに対して形態素解析を実施し、ユーザ発話に含まれる形態素のうち、直前システム発話に含まれ且つ回答候補に含まれない形態素である不採用形態素を抽出し、不採用形態素に含まれるユーザ発話要素に正解ラベルを関連付けることとしてもよい。
 上記形態によれば、ユーザ発話に含まれる形態素のうちの対話制御において不採用とすべき形態素に含まれるユーザ発話要素に関連付けられた正解ラベルを容易に生成できる。これにより、バージイン発話判定モデルの学習に用いられる学習データの生成のための負荷が軽減される。
 また、本発明の一形態に係るバージイン発話判定モデルは、ユーザにより発せられた音声からなるユーザ発話に対して、音声からなるシステム発話を出力することによりユーザとの対話を行う音声対話システムにおいて、システム発話が出力されているときに割り込んで発せられたユーザ発話であるバージイン発話の音声発話システムにおける採否を判定するよう、コンピュータを機能させるための学習済みのバージイン発話判定モデルであって、ユーザ発話を所定長さの時間に分割して得られる各ユーザ発話要素の音響特徴量を時系列に配してなるユーザ発話特徴系列と、当該ユーザ発話の直前に出力されたシステム発話である直前システム発話を所定長さの時間に分割して得られる各システム発話要素の音響特徴量を時系列に配してなるシステム発話特徴系列と、システム発話特徴系列に含まれる複数のシステム発話要素のうち、直前システム発話に含まれる形態素のうちの所定の品詞に該当する形態素であり、且つ、ユーザ発話とシステム発話との相互の応答ルールを有する対話シナリオから取得された、直前システム発話に対して想定されるユーザによる回答候補に該当しない形態素に含まれるシステム発話要素に対して付与された識別情報と、を含む特徴情報を入力値として含み、ユーザ発話に含まれる形態素のうちの、音声対話システムにおける対話の制御において不採用とすべき形態素に含まれるユーザ発話要素に対する関連付けを有する正解ラベルを出力値として含む、学習データに基づく機械学習により構成され、ユーザ発話に基づくユーザ発話特徴系列及び直前システム発話に基づく識別情報を含むシステム発話特徴系列を入力として、ユーザ発話に含まれる各ユーザ発話要素の、音声対話システムにおける対話の制御に際して不採用とすべき尤度を出力とする。
 上記形態によれば、ユーザ発話特徴系列と、識別情報を含むシステム発話特徴系列とを入力として、各ユーザ発話要素を不採用とすべき尤度がユーザ発話要素ごとに出力されるバージイン発話判定モデルが、機械学習により構成されるので、ユーザ発話に含まれる各ユーザ発話要素の採否を精度良く判定できるモデルを得ることができる。
 また、本発明の一形態に係る音声対話プログラムは、コンピュータを、音声からなるシステム発話を出力することによりユーザとの対話を行う音声対話システムとして機能させるための音声対話プログラムであって、コンピュータに、ユーザにより発せられた音声からなるユーザ発話を取得する取得機能と、取得機能により取得されたユーザ発話をテキストの情報として認識した認識結果を出力する認識機能と、システム発話が出力されているときに割り込んで発せられたユーザ発話であるバージイン発話の採否を判定するバージイン発話制御機能と、ユーザ発話とシステム発話との相互の応答ルールを有する対話シナリオを参照して、バージイン発話制御機能により不採用と判定されたバージイン発話以外のユーザ発話に対応する認識結果に基づいて、ユーザに対して応答すべき応答内容を表すシステム応答を出力する対話制御機能と、対話制御機能により出力されたシステム応答に基づいて、システム発話を生成する応答生成機能と、システム発話を出力する出力機能と、を実現させ、ユーザ発話は、時系列の1以上のユーザ発話要素からなり、対話シナリオは、システム発話に対して想定されるユーザによる回答である回答候補を含み、バージイン発話制御機能は、各ユーザ発話要素が、ユーザ発話が発せられた時の直前に出力機能により出力されたシステム発話である直前システム発話に含まれる所定の形態素に該当し、且つ、対話シナリオにおいて直前システム発話に対する回答候補の要素に該当しない場合に、当該ユーザ発話要素または当該ユーザ発話要素を含む前記ユーザ発話を不採用とすることを判定する。
 上記形態のプログラムによれば、ユーザ発話要素が、直前システム発話に含まれる所定の形態素に該当し、且つ、直前システム発話の回答候補の要素に該当しない場合に、当該ユーザ発話要素を対話の制御において不採用とすることが判定される。従って、音声対話システムにおける誤作動が防止され、ユーザにおける利便性が向上される。
 以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。
 本明細書で説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE-A(LTE-Advanced)、SUPER 3G、IMT-Advanced、4G、5G、FRA(Future Radio Access)、W-CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi-Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。
 本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。
 入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
 判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:trueまたはfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
 本明細書で説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
 以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。
 ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
 また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
 本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
 なお、本開示において説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
 本明細書で使用する「システム」および「ネットワーク」という用語は、互換的に使用される。
 また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。
 本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、「みなす(considering)」などで読み替えられてもよい。
 本開示で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
 本明細書で「第1の」、「第2の」などの呼称を使用した場合においては、その要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第1および第2の要素への参照は、2つの要素のみがそこで採用され得ること、または何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。
 「含む(include)」、「含んでいる(including)」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または(or)」は、排他的論理和ではないことが意図される。
 本明細書において、文脈または技術的に明らかに1つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。
 本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。
 1…音声対話システム、10…モデル生成装置、11…学習用発話取得部、12…ユーザ発話特徴抽出部、13…システム発話特徴抽出部、14…識別情報付与部、15…ラベル取得部、16…モデル生成部、17…モデル出力部、20…音声対話装置、21…取得部、22…認識部、23…ユーザ発話特徴取得部、24…システム発話特徴取得部、25…バージイン発話制御部、26…対話制御部、27…応答生成部、28…出力部、30…対話シナリオ記憶部、40…学習用データ記憶部、50…モデル記憶部、M1,M2…記録媒体、m11…学習用発話取得モジュール、m12…ユーザ発話特徴抽出モジュール、m13…システム発話特徴抽出モジュール、m14…識別情報付与モジュール、m15…ラベル取得モジュール、m16…モデル生成モジュール、m17…モデル出力モジュール、m21…取得モジュール、m22…認識モジュール、m23…ユーザ発話特徴取得モジュール、m24…システム発話特徴取得モジュール、m25…バージイン発話制御モジュール、m26…対話制御モジュール、m27…応答生成モジュール、m28…出力モジュール、P1…モデル生成プログラム、P2…音声対話プログラム。

Claims (9)

  1.  音声からなるシステム発話を出力することによりユーザとの対話を行う音声対話システムであって、
     ユーザにより発せられた音声からなるユーザ発話を取得する取得部と、
     前記取得部により取得されたユーザ発話をテキストの情報として認識した認識結果を出力する認識部と、
     前記システム発話が出力されているときに割り込んで発せられた前記ユーザ発話であるバージイン発話の採否を判定するバージイン発話制御部と、
     前記ユーザ発話と前記システム発話との相互の応答ルールを有する対話シナリオを参照して、前記バージイン発話制御部により不採用と判定された前記バージイン発話以外の前記ユーザ発話に対応する前記認識結果に基づいて、前記ユーザに対して応答すべき応答内容を表すシステム応答を出力する対話制御部と、
     前記対話制御部により出力された前記システム応答に基づいて、前記システム発話を生成する応答生成部と、
     前記システム発話を出力する出力部と、を備え、
     前記ユーザ発話は、時系列の1以上のユーザ発話要素からなり、
     前記対話シナリオは、前記システム発話に対して想定されるユーザによる回答である回答候補を含み、
     前記バージイン発話制御部は、各ユーザ発話要素が、前記ユーザ発話が発せられた時の直前に前記出力部により出力された前記システム発話である直前システム発話に含まれる所定の形態素に該当し、且つ、前記対話シナリオにおいて前記直前システム発話に対する前記回答候補の要素に該当しない場合に、当該ユーザ発話要素または当該ユーザ発話要素を含む前記ユーザ発話を不採用とすることを判定する、
     音声対話システム。
  2.  前記ユーザ発話要素は、前記ユーザ発話を時系列に沿って所定長さの時間に分割して得られる要素であり、
     各ユーザ発話要素は、音響特徴量を含む、
     請求項1に記載の音声対話システム。
  3.  前記ユーザ発話に基づいて、前記ユーザ発話を所定長さの時間のユーザ発話要素に分割し、各ユーザ発話要素の音響特徴量を時系列に配してなるユーザ発話特徴系列を取得するユーザ発話特徴取得部と、
     前記直前システム発話を所定長さの時間に分割して得られる各システム発話要素の音響特徴量を時系列に配してなるシステム発話特徴系列であって、複数の前記システム発話要素のうち、前記直前システム発話に含まれる形態素のうちの所定の品詞に該当する形態素であり、且つ、前記対話シナリオから取得された、前記直前システム発話に対して想定されるユーザによる回答候補に該当しない形態素に含まれるシステム発話要素に付された識別情報を含む、前記システム発話特徴系列を取得するシステム発話特徴取得部と、をさらに備え、
     前記バージイン発話制御部は、前記ユーザ発話特徴系列と、前記システム発話特徴系列と、前記識別情報とを入力として、前記ユーザ発話に含まれる各ユーザ発話要素の、前記音声対話システムにおける対話の制御に際して不採用とすべき尤度を出力とする、バージイン発話判定モデルを用いて、各ユーザ発話要素を不採用とするか否かを判定する、
     請求項2に記載の音声対話システム。
  4.  前記バージイン発話判定モデルは、
     前記ユーザ発話に基づく前記ユーザ発話特徴系列と、当該ユーザ発話の直前に出力された前記直前システム発話に基づく前記システム発話特徴系列と、前記システム発話特徴系列に含まれる複数のシステム発話要素に対して付与された前記識別情報と、を含む特徴情報を入力値として含み、
     前記ユーザ発話に含まれる形態素のうちの、前記音声対話システムにおける対話の制御において不採用とすべき形態素に含まれる前記ユーザ発話要素に対する関連付けを有する正解ラベルを出力値として含む、学習データに基づく機械学習により構成される、
     請求項3に記載の音声対話システム。
  5.  前記バージイン発話制御部は、各ユーザ発話要素が、予め設定された所定の発話の要素に該当する場合に、当該ユーザ発話要素を不採用とすることを判定する、
     請求項1~4のいずれか一項に記載の音声対話システム。
  6.  ユーザにより発せられた音声からなるユーザ発話に対して、音声からなるシステム発話を出力することによりユーザとの対話を行う音声対話システムにおいて、前記システム発話が出力されているときに割り込んで発せられた前記ユーザ発話であるバージイン発話の前記音声対話システムにおける採否を判定するためのバージイン発話判定モデルを生成するモデル生成装置であって、
     前記ユーザ発話及び当該ユーザ発話の直前に出力されたシステム発話である直前システム発話を取得する学習用発話取得部と、
     前記ユーザ発話に基づいて、前記ユーザ発話を所定長さの時間のユーザ発話要素に分割し、各ユーザ発話要素の音響特徴量を時系列に配してなるユーザ発話特徴系列を抽出するユーザ発話特徴抽出部と、
     前記直前システム発話に基づいて、前記直前システム発話を所定長さの時間のシステム発話要素に分割し、各システム発話要素の音響特徴量を時系列に配してなるシステム発話特徴系列を抽出するシステム発話特徴抽出部と、
     前記システム発話特徴系列に含まれる複数のシステム発話要素のうち、前記直前システム発話に含まれる形態素のうちの所定の品詞に該当する形態素であり、且つ、前記ユーザ発話と前記システム発話との相互の応答ルールを有する対話シナリオから取得された、前記直前システム発話に対して想定されるユーザによる回答候補に該当しない形態素に含まれるシステム発話要素に対して、識別情報を付与する識別情報付与部と、
     前記ユーザ発話に含まれる形態素のうちの、前記音声対話システムにおける対話の制御において不採用とすべき形態素に含まれる前記ユーザ発話要素に対する関連付けを有する正解ラベルを取得するラベル取得部と、
     前記ユーザ発話特徴系列、及び前記識別情報を含む前記システム発話特徴系列、並びに前記正解ラベルを含む学習データに基づいて機械学習を行い、前記ユーザ発話に基づく前記ユーザ発話特徴系列及び前記直前システム発話に基づく前記識別情報を含む前記システム発話特徴系列を入力として、前記ユーザ発話に含まれる各ユーザ発話要素の、前記音声対話システムにおける対話の制御に際して不採用とすべき尤度を出力とするバージイン発話判定モデルを生成するモデル生成部と、
     前記モデル生成部により生成された前記バージイン発話判定モデルを出力するモデル出力部と、
     を備えるモデル生成装置。
  7.  前記ラベル取得部は、
     前記ユーザ発話、前記直前システム発話、及び、当該直前システム発話に対するユーザによる回答として想定される前記回答候補のそれぞれに対して形態素解析を実施し、
     前記ユーザ発話に含まれる形態素のうち、前記直前システム発話に含まれ且つ前記回答候補に含まれない形態素である不採用形態素を抽出し、
     前記不採用形態素に含まれる前記ユーザ発話要素に前記正解ラベルを関連付ける、
     請求項6に記載のモデル生成装置。
  8.  ユーザにより発せられた音声からなるユーザ発話に対して、音声からなるシステム発話を出力することによりユーザとの対話を行う音声対話システムにおいて、前記システム発話が出力されているときに割り込んで発せられた前記ユーザ発話であるバージイン発話の前記音声対話システムにおける採否を判定するよう、コンピュータを機能させるための学習済みのバージイン発話判定モデルであって、
     前記ユーザ発話を所定長さの時間に分割して得られる各ユーザ発話要素の音響特徴量を時系列に配してなるユーザ発話特徴系列と、
     当該ユーザ発話の直前に出力されたシステム発話である直前システム発話を所定長さの時間に分割して得られる各システム発話要素の音響特徴量を時系列に配してなるシステム発話特徴系列と、
     前記システム発話特徴系列に含まれる複数のシステム発話要素のうち、前記直前システム発話に含まれる形態素のうちの所定の品詞に該当する形態素であり、且つ、前記ユーザ発話と前記システム発話との相互の応答ルールを有する対話シナリオから取得された、前記直前システム発話に対して想定されるユーザによる回答候補に該当しない形態素に含まれるシステム発話要素に対して付与された識別情報と、を含む特徴情報を入力値として含み、
     前記ユーザ発話に含まれる形態素のうちの、前記音声対話システムにおける対話の制御において不採用とすべき形態素に含まれる前記ユーザ発話要素に対する関連付けを有する正解ラベルを出力値として含む、学習データに基づく機械学習により構成され、
     前記ユーザ発話に基づく前記ユーザ発話特徴系列及び前記直前システム発話に基づく前記識別情報を含む前記システム発話特徴系列を入力として、前記ユーザ発話に含まれる各ユーザ発話要素の、前記音声対話システムにおける対話の制御に際して不採用とすべき尤度を出力とする、
     バージイン発話判定モデル。
  9.  コンピュータを、音声からなるシステム発話を出力することによりユーザとの対話を行う音声対話システムとして機能させるための音声対話プログラムであって、
     前記コンピュータに、
     ユーザにより発せられた音声からなるユーザ発話を取得する取得機能と、
     前記取得機能により取得されたユーザ発話をテキストの情報として認識した認識結果を出力する認識機能と、
     前記システム発話が出力されているときに割り込んで発せられた前記ユーザ発話であるバージイン発話の採否を判定するバージイン発話制御機能と、
     前記ユーザ発話と前記システム発話との相互の応答ルールを有する対話シナリオを参照して、前記バージイン発話制御機能により不採用と判定された前記バージイン発話以外の前記ユーザ発話に対応する前記認識結果に基づいて、前記ユーザに対して応答すべき応答内容を表すシステム応答を出力する対話制御機能と、
     前記対話制御機能により出力された前記システム応答に基づいて、前記システム発話を生成する応答生成機能と、
     前記システム発話を出力する出力機能と、を実現させ、
     前記ユーザ発話は、時系列の1以上のユーザ発話要素からなり、
     前記対話シナリオは、前記システム発話に対して想定されるユーザによる回答である回答候補を含み、
     前記バージイン発話制御機能は、各ユーザ発話要素が、前記ユーザ発話が発せられた時の直前に前記出力機能により出力された前記システム発話である直前システム発話に含まれる所定の形態素に該当し、且つ、前記対話シナリオにおいて前記直前システム発話に対する前記回答候補の要素に該当しない場合に、当該ユーザ発話要素または当該ユーザ発話要素を含む前記ユーザ発話を不採用とすることを判定する、
     音声対話プログラム。
     
PCT/JP2020/000914 2019-03-26 2020-01-14 音声対話システム、モデル生成装置、バージイン発話判定モデル及び音声対話プログラム WO2020195022A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021508107A JPWO2020195022A1 (ja) 2019-03-26 2020-01-14
US17/440,871 US11862167B2 (en) 2019-03-26 2020-01-14 Voice dialogue system, model generation device, barge-in speech determination model, and voice dialogue program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-057917 2019-03-26
JP2019057917 2019-03-26

Publications (1)

Publication Number Publication Date
WO2020195022A1 true WO2020195022A1 (ja) 2020-10-01

Family

ID=72610411

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/000914 WO2020195022A1 (ja) 2019-03-26 2020-01-14 音声対話システム、モデル生成装置、バージイン発話判定モデル及び音声対話プログラム

Country Status (3)

Country Link
US (1) US11862167B2 (ja)
JP (1) JPWO2020195022A1 (ja)
WO (1) WO2020195022A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008157987A (ja) * 2006-12-20 2008-07-10 Toyota Motor Corp 対話制御装置、対話制御方法及び対話制御プログラム
JP2012073364A (ja) * 2010-09-28 2012-04-12 Toshiba Corp 音声対話装置、方法、プログラム
US20120271634A1 (en) * 2010-03-26 2012-10-25 Nuance Communications, Inc. Context Based Voice Activity Detection Sensitivity

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10446141B2 (en) * 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
JP6673243B2 (ja) 2017-02-02 2020-03-25 トヨタ自動車株式会社 音声認識装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008157987A (ja) * 2006-12-20 2008-07-10 Toyota Motor Corp 対話制御装置、対話制御方法及び対話制御プログラム
US20120271634A1 (en) * 2010-03-26 2012-10-25 Nuance Communications, Inc. Context Based Voice Activity Detection Sensitivity
JP2012073364A (ja) * 2010-09-28 2012-04-12 Toshiba Corp 音声対話装置、方法、プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHIBA, MARIKO ET AL.: "Repetition-type Active Listening Response Detection Using Voice Interaction System Utterance Information", PROCEEDINGS OF THE 2019 SPRING MEETING OF THE ACOUSTICAL SOCIETY OF JAPAN, 7 March 2019 (2019-03-07), pages 885 - 888 *

Also Published As

Publication number Publication date
US11862167B2 (en) 2024-01-02
JPWO2020195022A1 (ja) 2020-10-01
US20220165274A1 (en) 2022-05-26

Similar Documents

Publication Publication Date Title
KR102117574B1 (ko) 자기-학습 자연 언어 이해를 갖는 다이얼로그 시스템
US11437041B1 (en) Speech interface device with caching component
US11669300B1 (en) Wake word detection configuration
US11450311B2 (en) System and methods for accent and dialect modification
JP2020012954A (ja) 情報処理装置、情報処理方法、およびプログラム
JP5706384B2 (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
CN110047481B (zh) 用于语音识别的方法和装置
US20080052073A1 (en) Voice Recognition Device and Method, and Program
US11574637B1 (en) Spoken language understanding models
US20200193972A1 (en) Systems and methods for selecting accent and dialect based on context
US11532301B1 (en) Natural language processing
US11361764B1 (en) Device naming-indicator generation
US20230215425A1 (en) User-system dialog expansion
JP2019015838A (ja) 音声認識システム、端末装置、及び辞書管理方法
US20230419957A1 (en) User profile linking
WO2020195022A1 (ja) 音声対話システム、モデル生成装置、バージイン発話判定モデル及び音声対話プログラム
US20230142272A1 (en) Evaluating natural language processing components
US11626107B1 (en) Natural language processing
US11645468B2 (en) User data processing
TW201804459A (zh) 切換輸入模式的方法、行動通訊裝置及電腦可讀取媒體
JP2021082125A (ja) 対話装置
US11908452B1 (en) Alternative input representations for speech inputs
WO2022070792A1 (ja) パラメータ設定システム
US11804225B1 (en) Dialog management system
US11893996B1 (en) Supplemental content output

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20776957

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021508107

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20776957

Country of ref document: EP

Kind code of ref document: A1