JPWO2016104193A1 - Correspondence determining device, voice dialogue system, control method of correspondence determining device, and voice dialogue device - Google Patents
Correspondence determining device, voice dialogue system, control method of correspondence determining device, and voice dialogue device Download PDFInfo
- Publication number
- JPWO2016104193A1 JPWO2016104193A1 JP2016566114A JP2016566114A JPWO2016104193A1 JP WO2016104193 A1 JPWO2016104193 A1 JP WO2016104193A1 JP 2016566114 A JP2016566114 A JP 2016566114A JP 2016566114 A JP2016566114 A JP 2016566114A JP WO2016104193 A1 JPWO2016104193 A1 JP WO2016104193A1
- Authority
- JP
- Japan
- Prior art keywords
- correspondence
- intention
- descriptor
- searcher
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 42
- 230000004044 response Effects 0.000 claims abstract description 125
- 230000003993 interaction Effects 0.000 claims description 83
- 230000002452 interceptive effect Effects 0.000 claims description 52
- 238000001514 detection method Methods 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 abstract description 13
- 230000000875 corresponding effect Effects 0.000 description 235
- 238000004458 analytical method Methods 0.000 description 42
- 230000008569 process Effects 0.000 description 34
- 238000012545 processing Methods 0.000 description 31
- 230000006870 function Effects 0.000 description 28
- 230000009471 action Effects 0.000 description 17
- 238000004891 communication Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 13
- 235000021438 curry Nutrition 0.000 description 10
- 239000002344 surface layer Substances 0.000 description 7
- 241000209094 Oryza Species 0.000 description 6
- 235000007164 Oryza sativa Nutrition 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 6
- 230000003111 delayed effect Effects 0.000 description 6
- 238000003384 imaging method Methods 0.000 description 6
- 239000002245 particle Substances 0.000 description 6
- 235000009566 rice Nutrition 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 230000001934 delay Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000009118 appropriate response Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
多様な表現の発話に対し、発話者の意図に応じた対応を速やかに特定する。音声対話装置(1)は、利用者の発話を解析して生成された該利用者の意図を示す意図検索子を生成する意図検索子生成部(25)と、意図検索子と対応記述子とが対応付けられた対応記述子検索テーブル(42)を参照して、意図検索子生成部(25)により生成された意図検索子に対応する対応記述子を特定する対応記述子検索部(29)とを備えている。For utterances of various expressions, quickly identify the response according to the intention of the speaker. The spoken dialogue apparatus (1) includes an intention searcher generation unit (25) that generates an intention searcher indicating the user's intention generated by analyzing a user's utterance, an intention searcher, a corresponding descriptor, Referring to the correspondence descriptor search table (42) associated with the correspondence descriptor search unit (29) for identifying the correspondence descriptor corresponding to the intention searcher generated by the intention searcher generation unit (25) And.
Description
本発明は、利用者と音声で対話する音声対話装置に関し、より詳細には、利用者の発話に応じて音声対話装置の対応を決定する対応決定装置等に関する。 The present invention relates to a voice interaction apparatus that interacts with a user by voice, and more particularly, to a correspondence determination apparatus that determines the correspondence of a voice interaction apparatus according to a user's utterance.
昨今の音声認識技術の進歩に伴い、スマートフォンなど情報機器端末だけでなく、様々な電子機器に音声対話システムが用いられている。例えば、ELIZA型対話システムでは、予め定められた単語や言い回しなどをキーワードとし、該キーワードとそれに対する応答内容とを対応付けて記録しておくことにより、そのキーワードを含む発話に対して応答することを可能にしている。また、例えば下記の特許文献1および2には、会話の状況に応じた応答を行う対話装置が記載されている。
With recent advances in speech recognition technology, speech dialogue systems are used not only for information device terminals such as smartphones but also for various electronic devices. For example, in an ELIZA type interactive system, a predetermined word or phrase is used as a keyword, and the keyword and the response content are recorded in association with each other, thereby responding to an utterance including the keyword. Is possible. Further, for example,
ここで、利用者との円滑なインタラクションを実現するためには、利用者の意図を正しく理解すること、および利用者の意図に基づいた対応を、人間同士のコミュニケーションの一般的な速度と同等程度(数百ms以内)に実行することが求められる。 Here, in order to realize a smooth interaction with the user, the user's intention is understood correctly and the response based on the user's intention is equivalent to the general speed of communication between humans. It is required to be executed (within several hundred ms).
しかしながら、ELIZA型対話システムでは、基本的に利用者の意図を考慮することなく応答内容を決定しているため、利用者の意図に応じた対応とならないことが多いという問題がある。また、ELIZA型対話システムでは、予め登録されたキーワード以外には応答できないため、多様な表現の発話に対して応答するためには、多数のキーワードを記録させておく必要があり、これにより応答速度が遅延するという問題もある。 However, in the ELIZA type interactive system, since the response content is basically determined without considering the user's intention, there is a problem in that it often does not correspond to the user's intention. In addition, since the ELIZA type interactive system cannot respond to keywords other than pre-registered keywords, it is necessary to record a large number of keywords in order to respond to utterances of various expressions. There is also a problem of delay.
一方、特許文献1および2の技術では、利用者の意図に応じた対応が可能となるが、対応を決定するための処理が煩雑であり、高い処理能力を有するCPU(Central Processing Unit)を用いなければ、快適なタイミングでの対話を実現することが難しい。
On the other hand, in the techniques of
本発明は、上記の問題点に鑑みてなされたものであって、その目的は、多様な表現の発話に対し、発話者の意図に応じた対応を速やかに特定することのできる対応決定装置等を提供することにある。 The present invention has been made in view of the above-described problems, and its purpose is to deal with a variety of expressions, such as a response determination device that can quickly identify a response according to the intention of the speaker Is to provide.
上記の課題を解決するために、本発明の一態様に係る対応決定装置は、利用者と音声対話を行う音声対話装置が該利用者の発話に応じて行う対応を決定する対応決定装置であって、上記発話を解析して生成された上記利用者の意図を示す意図検索子を取得する意図検索子取得部と、上記意図検索子と上記音声対話装置の対応を示す対応記述子とが対応付けられた対応記述子検索情報を参照して、上記意図検索子取得部により取得された意図検索子に対応する対応記述子を特定する対応記述子検索部と、を備えている。 In order to solve the above-described problem, a correspondence determining apparatus according to an aspect of the present invention is a correspondence determining apparatus that determines a correspondence that a voice interactive apparatus that performs a voice conversation with a user performs according to the utterance of the user. The intention searcher acquisition unit that acquires the intention searcher indicating the user's intention generated by analyzing the utterance corresponds to the correspondence descriptor that indicates the correspondence between the intention searcher and the voice interactive device. A correspondence descriptor search unit that refers to the attached correspondence descriptor search information and identifies a correspondence descriptor corresponding to the intention searcher acquired by the intention searcher acquisition unit.
また、本発明の一態様に係る音声対話システムは、上記の課題を解決するために、音声対話装置にて利用者と音声対話を行う音声対話システムであって、上記利用者の意図を示す意図検索子と、上記音声対話装置の対応を示す対応記述子とが対応付けられた対応記述子検索情報を参照して、上記利用者の発話を解析して生成された意図検索子に対応する対応記述子を特定する対応決定装置を含み、上記音声対話装置は、上記利用者の上記発話に対し、上記対応決定装置が特定した上記対応記述子の示す対応を実行する。 A voice interaction system according to an aspect of the present invention is a voice interaction system that performs a voice interaction with a user using a voice interaction device in order to solve the above-described problem. The intention is to indicate the intention of the user. Correspondence corresponding to the intention search element generated by analyzing the user's utterance with reference to the corresponding descriptor search information in which the searcher is associated with the corresponding descriptor indicating the correspondence of the voice interactive device The voice interaction device includes a correspondence determination device that specifies a descriptor, and performs the correspondence indicated by the correspondence descriptor specified by the correspondence determination device with respect to the utterance of the user.
そして、本発明の一態様に係る対応決定装置の制御方法は、上記の課題を解決するために、利用者と音声対話を行う音声対話装置が該利用者の発話に応じて行う対応を決定する対応決定装置の制御方法であって、上記発話を解析して生成された上記利用者の意図を示す意図検索子を取得する意図検索子取得ステップと、上記意図検索子と上記音声対話装置の対応を示す対応記述子とが対応付けられた対応記述子検索情報を参照して、上記意図検索子取得ステップにて取得された意図検索子に対応する対応記述子を特定する対応記述子検索ステップと、を含む。 And the control method of the response determination apparatus according to one aspect of the present invention determines the response to be performed by the voice interaction apparatus that performs a voice conversation with the user according to the user's utterance in order to solve the above-described problem. A method of controlling a correspondence determination device, which is an intention searcher acquisition step for acquiring an intention searcher indicating the user's intention generated by analyzing the utterance, and a correspondence between the intention searcher and the voice interaction device A corresponding descriptor search step for identifying a corresponding descriptor corresponding to the intention searcher acquired in the intention searcher acquisition step with reference to the corresponding descriptor search information associated with the corresponding descriptor indicating ,including.
また、本発明の一態様に係る音声対話装置は、上記の課題を解決するために、利用者と音声対話を行う音声対話装置であって、上記利用者の意図を示す意図検索子と、上記音声対話装置の対応を示す対応記述子とが対応付けられた対応記述子検索情報を参照して特定された、上記利用者の発話を解析して生成された意図検索子に対応する対応記述子を、外部機器から取得する対応記述子取得部と、上記対応記述子取得部が取得した上記対応記述子が示す対応を実行する対応制御部と、を備えている。 In order to solve the above-described problem, a voice interaction apparatus according to an aspect of the present invention is a voice interaction apparatus that performs a voice conversation with a user, the intention searcher indicating the user's intention, and the above Correspondence descriptor corresponding to the intention searcher generated by analyzing the user's utterance specified by referring to the correspondence descriptor search information associated with the correspondence descriptor indicating the correspondence of the voice interactive device Are provided from the external device, and a correspondence control unit that executes the correspondence indicated by the correspondence descriptor obtained by the correspondence descriptor obtaining unit.
本発明の上記各態様によれば、多様な表現の発話に対し、発話者の意図に応じた対応を速やかに特定することができる。 According to the above aspects of the present invention, it is possible to quickly identify the response corresponding to the intention of the speaker for various expressions.
〔実施形態1〕
本発明の実施形態について、図1〜図12に基づいて説明すれば以下のとおりである。
The embodiment of the present invention will be described below with reference to FIGS.
(音声対話装置の概要) 図1は、本発明の一実施形態に係る音声対話装置1の要部構成の一例を示すブロック図である。音声対話装置1は、利用者と音声対話を行う装置であり、また、該利用者の発話に応じて行う対応を決定する対応決定装置でもある。図示のように、音声対話装置1は、集音部10、通信部11、撮像部12、バッテリー13、制御部14、記憶部15、音波出力部16、および駆動部17を備えている。
(Outline of Spoken Dialogue Device) FIG. 1 is a block diagram showing an example of a main configuration of a spoken
集音部10は、利用者が発する声を集音し、集音した声を電子的な波のデータ(音声データ)に変換し、この音声データを制御部14の音声認識部20に送る。また、通信部11は、音声対話装置1が外部の装置と通信するためのものである。そして、撮像部12は、音声対話装置1の外部を撮像する撮像装置であり、撮像した画像データは情報取得部21に送られる。また、バッテリー13は、音声対話装置1に電力を供給する蓄電池である。音声対話装置1は、バッテリーから供給される電力により動作可能となっている。
The
制御部14は、音声対話装置1の各部を統括して制御するものであり、制御部14の詳細は後述する。また、記憶部15は、音声対話装置1にて使用される各種データを記憶する記憶装置である。具体的には、記憶部15には、隣接ペアテーブル(リンク情報)40、意図テーブル41、および対応記述子検索テーブル(対応記述子検索情報)42が格納されている。各テーブルの詳細については、図5〜7にて後述する。
The
音波出力部16は、音波を出力する出力装置であり、例えばスピーカであってもよい。また、駆動部17は、音声対話装置1を駆動する駆動装置であり、例えばステッピングモータを含んでいてもよい。
The sound
(制御部14の要部構成) 次に、制御部14の詳細について説明する。図1に示すように、制御部14は、音声認識部20、情報取得部(事象検出部)21、切替部22、隣接ペア対話部、意図対話部、対応制御部(タイミング制御部)30、対応文出力制御部31、音声合成部32、および対応行動制御部33を備えている。
(Main part structure of the control part 14) Next, the detail of the
音声認識部20は、集音部10から送られた音声データをテキストデータに変換し、変換したテキストデータを切替部22に送る。音声認識部20としては、例えばASR(Auto Speech Recognition)装置を適用することもできる。
The
情報取得部21は、通信部11、撮像部12、およびバッテリー13から各種情報を取得して、取得した情報から所定の事象が発生したことを検出し、該事象の発生を切替部22に通知する。なお、情報取得部21の詳細については、実施形態2で説明する。
The
切替部22は、音声対話装置1により行われる利用者との対話を、隣接ペア対話部を用いた対話(以下、隣接ペア対話と呼ぶ)と、意図対話部を用いた対話(以下、意図対話と呼ぶ)とで切り替える。切替部22による処理の詳細については図3にて後述する。
The
対応制御部30は、隣接ペア対話部、意図対話部、および切替部22からの通知に応じて、音声対話装置1の対応を制御する。例えば、意図対話部から通知される情報が、発話内容を示す対応文である場合、対応制御部30は、対応文を対応文出力制御部31に通知する。また、意図対話部から通知される情報が、利用者に対する行動を示す対応行動である場合、対応制御部30は、対応行動を対応行動制御部33に通知する。そして、対応制御部30は、連続して発話がなされた場合に、先の発話に対する対応を停止または中止する処理を行う。さらに、対応制御部30は、音声対話装置1の対応の実行タイミングを制御するタイミング制御部としても機能する。
The
対応文出力制御部31は、対応制御部30から通知される対応文を音声合成部32に送信して音声データに変換させ、これにより得られた音声データを音波出力部16に出力させる。なお、対応文の音声データを取得できる場合には、対応文出力制御部31は、その音声データを図示しない再生部で再生して、音波出力部16から出力してもよい。また、音声データは、音声対話装置1の記憶部15に格納しておいてもよいし、外部機器から取得してもよい。
The correspondence sentence
音声合成部32は、上記の通り、入力された対応文(テキストデータ)を音声データ(例えばPCM:Pulse Code Modulationデータ)に変換する。音声合成部32としては、例えばTTS(Text To Speech)装置を適用することもできる。
As described above, the
対応行動制御部33は、対応制御部30の命令に従い、駆動部17を駆動して音声対話装置1に対応行動を実行させる。なお、対応行動の内容によっては、音声対話装置1に対応行動を実行させるために、駆動部17以外を制御してもよい。例えば、対応行動に音声出力が含まれている場合、対応文出力制御部31を制御して音声出力させてもよいし、対応文出力制御部31を介さずに音声合成部32または音波出力部16を制御して音声出力させてもよい。
The response
(意図対話部) 意図対話部は、利用者の意図に応じた対応を決定するものであり、図1に示すように、意図検索子生成部(意図検索子取得部)25、形態素解析部26、係り受け解析部27、対応記述子解析部28、および対応記述子検索部(対応記述子取得部)29を備えている。
(Intention Dialogue Unit) The intention dialogue unit is to determine the correspondence according to the user's intention. As shown in FIG. 1, the intention searcher generation unit (intention searcher acquisition unit) 25, the
意図検索子生成部25は、音声認識部20が生成した文字列(テキストデータ)を、切替部22を介して受信し、そのテキストデータから利用者の意図を示す意図検索子を生成する。具体的には、意図検索子生成部25は、受信したテキストデータを形態素解析部26に出力して形態素解析させ、その結果である形態素解析情報を取得する。続いて、意図検索子生成部25は、この形態素解析情報を係り受け解析部27に出力して、係り受けを解析させ、その結果である分節情報と係り受け情報を取得する。そして、意図検索子生成部25は、意図テーブル41と分節情報から利用者の意図を特定すると共に、係り受け情報から意図の対象となる語句を特定し、これらの意図および対象を示す情報を含む意図検索子を生成する。また、意図検索子生成部25は、外部機器から意図検索子を取得する機能も備えている。
The intention
形態素解析部26は、意図検索子生成部25から入力されたテキストデータを形態素に分解し、品詞を振る。そして、形態素解析部26は、分解した形態素およびその品詞を示す形態素情報を意図検索子生成部25に出力する。
The
係り受け解析部27は、意図検索子生成部25から入力された形態素情報の示す形態素がどのような分節(述部と文末表現の組み合わせ)を構成しているかを解析し、また各分節間の係り受けを解析する。そして、係り受け解析部27は、上記解析の結果として、分節を示す分節情報と、係り受けの関係になっている分節を示す係り受け情報を意図検索子生成部25に出力する。なお、意図検索子生成部25、形態素解析部26および係り受け解析部27に係る一連の処理例については、図8にて後述する。
The
対応記述子検索部29は、対応記述子検索テーブル42を参照して、意図検索子生成部25から入力された意図検索子に対応付けられた対応記述子を検索し、特定する。なお、対応記述子とは、音声対話装置1が実行する対応を示す情報である。対応記述子解析部28は、対応記述子検索部29から通知された対応記述子を解析し、該対応記述子の解析結果を対応制御部30に出力する。なお、対応記述子解析部28および対応記述子検索部29の詳細な処理については、図9にて後述する。
The correspondence
(隣接ペア対話部) 隣接ペア対話部は、隣接ペアテーブル40を参照した利用者との対話である隣接ペア対話における利用者への対応を決定するものであり、話題管理部(リンク応答部)23、および話題取得部(リンク応答部)24を備えている。 (Adjacent Pair Dialogue Unit) The adjacent pair dialogue unit determines the correspondence to the user in the adjacent pair dialogue that is the dialogue with the user referring to the adjacent pair table 40, and the topic management unit (link response unit) 23, and a topic acquisition unit (link response unit) 24.
話題管理部23は、隣接ペア対話における音声対話装置1の応答内容を決定する。具体的には、話題管理部23は、切替部22からの通知に応じた対応文を話題取得部24から取得して切替部22に返す。これにより、当該対応文が音声対話装置1から音声出力される。
The
話題取得部24は、話題管理部23からの要求に応じた対応文を隣接ペアテーブル40から取得して話題管理部23に返す。なお、隣接ペア対話の詳細については、図7および図11にて後述する。
The
(音声対話システム100の概略) 音声対話装置1は、単体でも利用者との対話が可能であるが、各種サーバと通信することによって、その機能を拡張することができる。ここでは、音声対話装置1と各種サーバを含む音声対話システム100について、図2に基づいて説明する。
(Outline of Spoken Dialogue System 100) The spoken
図2は、音声対話システム100を概略的に示す図である。音声対話システム100には、音声対話装置1、音声認識装置2、意図検索子生成装置3、対応記述子検索装置(外部機器、対応決定装置)4、話題取得装置5、音声データ提供装置6、対応行動情報提供装置7、および情報提供装置8が含まれる。
FIG. 2 is a diagram schematically showing the
音声認識装置2は、音声対話装置1が備えている音声認識部20と同様に、音声データをテキストデータに変換する機能を有していると共に、外部の装置(ここでは音声対話装置1)と通信する機能を備えている。このため、音声対話装置1の音声認識部20は、音声認識に失敗した場合、その音声データを、通信部11を介して音声認識装置2に送信して音声認識させ、その結果であるテキストデータを受信することができる。
The
意図検索子生成装置3は、音声対話装置1が備えている意図検索子生成部25と同様に、テキストデータから意図検索子を生成する機能を有していると共に、外部の装置(ここでは音声対話装置1)と通信する機能を備えている。このため、音声対話装置1の意図検索子生成部25は、意図検索子が生成できないテキストデータがあった場合、そのテキストデータを、通信部11を介して意図検索子生成装置3に送信し、その意図検索子を生成させ、生成された意図検索子を受信することができる。
The intention
対応記述子検索装置4は、音声対話装置1が備えている対応記述子検索部29と同様に、意図検索子に対応付けられた対応記述子を特定する機能を有していると共に、外部の装置(ここでは音声対話装置1)と通信する機能を備えている。このため、音声対話装置1の対応記述子検索部29は、対応記述子が検出できない意図検索子があった場合、その意図検索子を、通信部11を介して対応記述子検索装置4に送信し、これに対応する対応記述子を検出させ、検出された対応記述子を受信することができる。
Corresponding
話題取得装置5は、音声対話装置1が備えている話題取得部24と同様に、隣接ペア対話の対応文を取得する機能を有していると共に、外部の装置(ここでは音声対話装置1)と通信する機能を備えている。このため、音声対話装置1の話題取得部24は、話題管理部23から要求された対応文を検出できなかった場合、その要求を、通信部11を介して話題取得装置5に送信し、その要求に応じた対応文を検出させ、検出された対応文を受信することができる。
The
音声データ提供装置6は、音声対話装置1が備えている音声合成部32と同様に、テキストデータを音声データに変換する機能を有していると共に、外部の装置(ここでは音声対話装置1)と通信する機能を備えている。このため、音声対話装置1の対応文出力制御部31は、音声合成部32に音声データを生成させる代わりに、通信部11を介して音声データ提供装置6にテキストデータを送信して音声データに変換させ、これを受信して音波出力部16に出力させることができる。この場合、音声対話装置1は、音声合成部32の代わりに、受信した音声データ(例えばWAV形式のデータ)を再生する再生部を備えていればよい。
The voice data providing apparatus 6 has a function of converting text data into voice data as well as the
対応行動情報提供装置7は、音声対話装置1の対応行動制御部33の要求に従って、音声対話装置1に情報を送信する。例えば、対応行動制御部33が実行する対応行動が、日食の画像を取得するというものであれば、対応行動制御部33は、対応行動情報提供装置7に日食の画像の送信を要求する。そして、対応行動情報提供装置7は、この要求に従って、インターネット等のネットワーク上で日食の画像を検索し、取得して、対応行動制御部33に送信し、対応行動制御部33はこれを利用者宛に送信する。
The corresponding behavior information providing device 7 transmits information to the
情報提供装置8は、音声対話装置1の情報取得部21と通信して、例えばインターネット等のネットワークに関する所定の情報(ネットワーク情報)を情報取得部21に送信する。詳細は実施形態2で説明するが、情報提供装置8は、例えば所定のウェブページを取得し、その内容が前回取得したときから更新されていた場合に、その旨を情報取得部21に通知する。
The information providing device 8 communicates with the
(切替部の詳細) 次に、切替部22の詳細を図3に基づいて説明する。図3は、切替部22の処理の一例を示す表である。図示のように、切替部22は、切替部22に情報を入力した入力元と、その入力の直前の状況(一回前の状況)とに応じた処理を行う。
(Details of Switching Unit) Next, details of the switching
具体的には、音声認識部20から文字列(音声認識結果のテキストデータ)が入力された場合、直前に音声対話が行われていなければ、入力されたテキストデータを意図対話部に出力する。一方、直前に隣接ペア対話が行われていれば、テキストデータの出力先は話題管理部23とする。
Specifically, when a character string (text data of a speech recognition result) is input from the
また、入力元が情報取得部21である場合、切替部22は、直前の状況および入力の内容にかかわらず、情報取得部21からの入力を意図検索子生成部25に出力する。
When the input source is the
そして、入力元が話題管理部23である場合、直前の状況は考慮しないが、入力の内容に応じた処理を行う。具体的には、切替部22は、話題管理部23から隣接ペア対話を終了する旨の入力(END)あった場合には、他の処理部への出力は行わない。例えば、利用者との対話が途切れたときに、話題管理部23からENDが入力される。なお、同図には示していないが、この場合、切替部22は意図対話への切り替えを行う。
When the input source is the
一方、話題管理部23から、隣接ペア対話にない文字がある旨の入力があった場合、入力されたテキストデータ(隣接ペア対話にない文字を含むテキストデータ)を意図対話部の意図検索子生成部25に出力する。例えば、挨拶(おはよう等)の対話の後に、「昨日の野球の試合結果を教えて」のような、フレームの異なる(隣接ペア対話の枠を超えた)発話がなされたときに、このような処理がなされる。なお、同図には示していないが、この場合にも、切替部22は意図対話への切り替えを行う。
On the other hand, when there is an input from the
また、話題管理部23から「隣接ペア対話を開始できない」ことを示すエラー情報を受信した場合に、直前に隣接ペア対話にて発話がなされていれば、切替部22は、その発話と同一の発話を実行するように隣接ペア対話部の話題管理部23に指示する。なお、話題管理部23は、隣接ペア対話にて発話させた後の利用者の返答が、隣接ペアテーブル40に含まれる想定応答と部分一致した場合に、上記のエラー情報を切替部22に送信する。
Further, when error information indicating that “adjacent pair dialogue cannot be started” is received from the
これにより、例えば、隣接ペア対話にて音声対話装置1が「今日はほんとうに暑いですね」と発話した後の利用者の発話が「そんなこと・・・」であった場合に、再度「元気ですか?」と発話させることができる。なお、上記「・・・」の部分は、音声認識されなかった、あるいは集音部10で取得されなかった部分である。
Thereby, for example, when the speech of the user after the
次に、対応制御部30から隣接ペアを使うことを指示する入力があった場合、切替部22は、直前の状況にかかわらず、隣接ペア対話部の話題管理部23に対し、隣接ペア対話を実行させる命令を出力する。例えば、生成された意図検索子に対応付けられた対応記述子に隣接ペアIDが含まれている場合にこのような処理が行われる。
Next, when there is an input for instructing to use the adjacent pair from the
なお、対応制御部30は、意図対話を行う場合(対応記述子解析部28から隣接ペアIDを含まない対応記述子を受信した場合)にも、切替部22に通知を行い、切替部22は意図対話が行われたことを記憶してもよい。この場合、切替部22は、次に音声認識部20からテキストデータを受信したときに、そのテキストデータを意図対話部の意図検索子生成部25に出力する。
The
(意図テーブル) 続いて、利用者の発話内容を示すテキストデータから、該利用者の意図を特定するための意図テーブル41の詳細を図5に基づいて説明する。図5は、意図テーブル41の一例を示す図である。 (Intent Table) Next, the details of the intention table 41 for specifying the user's intention from the text data indicating the user's utterance content will be described with reference to FIG. FIG. 5 is a diagram illustrating an example of the intention table 41.
図示のように、意図テーブル41は、動詞、形容詞、連体詞、または名詞(動詞と形容詞については活用形も含む)と、その語尾(助動詞については活用形も含む)との組み合わせに対し、意図を示す情報が対応付けられた情報である。よって、意図テーブル41を参照することにより、述部と文末表現の組み合わせから、意図を特定することができる。なお、意図テーブル41では、語尾の一般的な意味(文法的な意味)を意図としてもよい。例えば、「動詞+語尾」の組み合わせが「食べ(動詞連用形)+たい(助動詞基本形:たい)」であれば、図5に示す意図テーブル41から、意図は「希望」と特定される。 As shown in the figure, the intention table 41 indicates intentions for combinations of verbs, adjectives, conjunctions or nouns (including inflected forms for verbs and adjectives) and endings (including inflected forms for auxiliary verbs). The information shown is associated with the information. Therefore, by referring to the intention table 41, the intention can be specified from the combination of the predicate and the sentence end expression. In the intention table 41, the general meaning (grammatical meaning) of the ending may be used as the intention. For example, if the combination of “verb + ending” is “eat (verb combined form) + tai (auxiliary verb basic form: tai)”, the intention is identified as “hope” from the intention table 41 shown in FIG.
(対応記述子検索テーブル) 続いて、意図検索子に対応する対応記述子を特定するための対応記述子検索テーブル42の詳細を図6に基づいて説明する。図6は、対応記述子検索テーブル42の一例を示す図である。図示のように、対応記述子検索テーブル42は、意図検索子と対応記述子とが対応付けられた情報である。そして、意図検索子には、表層、意図、および対象という3つの要素が含まれており、対応記述子には、対応文、対応行動、および隣接ペアIDという3つの要素が含まれている。 (Corresponding Descriptor Search Table) Next, details of the corresponding descriptor search table 42 for specifying the corresponding descriptor corresponding to the intention searcher will be described with reference to FIG. FIG. 6 is a diagram illustrating an example of the correspondence descriptor search table 42. As illustrated, the correspondence descriptor search table 42 is information in which an intention searcher and a correspondence descriptor are associated with each other. The intention searcher includes three elements, that is, a surface layer, an intention, and an object, and the correspondence descriptor includes three elements such as a correspondence sentence, a correspondence action, and an adjacent pair ID.
同図の#1に示すように、意図検索子が「表層:食べる、意図:希望」には、対応文「speak:もうちょっと我慢して」を要素とする対応記述子が対応付けられている。このため、利用者の発話から生成される意図検索子が、「表層:食べる、意図:希望」である場合、音声対話装置1は、対応文「もうちょっと我慢して」を発話する。
As shown in # 1 of the figure, the intention searcher “surface: eat, intention: hope” is associated with a correspondence descriptor whose element is the correspondence sentence “speak: be patient”. . For this reason, when the intention searcher generated from the user's utterance is “Surface: Eating, Intention: Hope”, the
なお、同図の♯3の例のように、対応文としてURL(Uniform Resource Locator)等のアクセス先を示す情報を記述してもよい。この場合、この情報が示すアクセス先にアクセスすることにより、音声対話装置1に所定の内容の発話を行わせることができる。なお、アクセス先に格納する情報は、図示の例のように音声データのファイルであってもよいし、発話内容を示すテキストデータ等の情報であってもよいが、よりデータ容量の大きい音声データをネットワーク上から取得することが好ましい。これにより、音声対話装置1の記憶容量が比較的少ない場合でも、多様な音声データによる利用者への応答が可能になる。
Note that information indicating an access destination such as a URL (Uniform Resource Locator) may be described as a corresponding sentence as in the example of # 3 in FIG. In this case, by accessing the access destination indicated by this information, it is possible to cause the
また、同図の♯2の意図検索子は、表層と意図に加えて「対象」の要素を含んでいる。この「対象」としては、当該意図検索子の意図に関連する語句が記録されており、そして、このような意図検索子には、その「対象」に応じた対応記述子が対応付けられている。これにより、「対象」に特化した対応が実現される。
In addition, the
例えば、利用者が「何か食べたいな」と発話した場合、「表層:食べる、意図:希望」の意図検索子が生成されるので、図6の対応記述子検索テーブル42を参照することにより、「もうちょっと我慢して」という対象を限定しない発話がなされる。これに対し、利用者が「カレーが食べたい」と発話した場合、「表層:食べる、意図:希望、対象:カレー」の意図検索子が生成される。これにより、図6の対応記述子検索テーブル42を参照することにより、「カレーでもナンでも食べればいいじゃない」という、対象をカレーに特化した発話がなされる。 For example, when the user utters “I want to eat something”, an intention searcher of “surface: eat, intention: hope” is generated, so by referring to the correspondence descriptor search table 42 in FIG. An utterance is made that does not limit the subject, “Please be patient”. On the other hand, when the user speaks “I want to eat curry”, an intention searcher “surface: eat, intention: hope, target: curry” is generated. Thus, by referring to the correspondence descriptor search table 42 in FIG. 6, an utterance specialized for curry is made, such as “You should eat either curry or naan”.
なお、「対象」を考慮しなくとも、利用者の意図に沿った対応は可能である。このため、生成された意図検索子に「対象」が含まれている場合であっても、対応記述子検索テーブル42にその「対象」は含まれないが、「表層」と「意図」は一致する意図検索子があれば、その意図検索子に対応付けられた対応記述子を取得してもよい。 Note that it is possible to respond to the intention of the user without considering the “target”. For this reason, even if “target” is included in the generated intent search element, the “target” is not included in the corresponding descriptor search table 42, but “surface” and “intention” match. If there is an intention searcher to be used, a correspondence descriptor associated with the intention searcher may be acquired.
また、図6の#4の対応記述子には、対応文に加えて、対応行動が要素として含まれている。このような対応記述子が実行対象となった場合には、音声対話装置1は対応文の発話を行うと共に、対応行動を実行する。
In addition, the
対応行動は、所定の行動が実行されるような記述となっていればよく、その記述態様は特に限定されないが、例えば対応行動の識別子であるラベル名と、行動の内容と、行動の手順とを含む記述としてもよい。図示の例では、ラベル名が挨拶の対応行動について、まず、ステッピングモータを30度回転させ、次に、その状態で10秒待機し、最後にステッピングモータを30度逆回転させるという行動が規定されている。
The corresponding action only needs to be a description that the predetermined action is executed, and the description mode is not particularly limited. For example, the label name that is the identifier of the corresponding action, the content of the action, the procedure of the action, It is good also as description containing. In the example shown in the figure, for the action corresponding to the greeting whose label name is greeting, first, the action of rotating the stepping
なお、この対応行動は、音声対話装置1の外観が人型であり、駆動部17が音声対話装置1の腰部に設けられたステッピングモータである場合を想定したものである。つまり、上記の対応行動を実行した場合、直立状態の音声対話装置1が、ステッピングモータの30度回転により、その上半身が前傾した状態となり、その後、ステッピングモータの30度逆回転により直立状態に戻ることになる。これが、利用者には、音声対話装置1がお辞儀をしているように見える。
This corresponding action assumes a case where the appearance of the
このような対応記述子を参照することにより、意図検索子が「表層:帰宅、意図:現在、対象:利用者」である場合に、音声対話装置1に「ご主人様おかえりなさい」を発話させると共に、対応行動(挨拶)を実行させることができる。
By referring to such a correspondence descriptor, when the intention searcher is “surface: returning home, intention: current target: user”, the
同様に、#10の対応記述子にも対応行動(ラベル名:画像取得)が含まれている。「画像取得」は、対応行動に発話が含まれている点と、途中経過に応じて行動が分岐する点で上記「挨拶」と相違している。 Similarly, the correspondence action (label name: image acquisition) is also included in the correspondence descriptor of # 10. “Image acquisition” is different from the above “greeting” in that the corresponding action includes an utterance and the action branches according to progress.
具体的には、「画像取得」では、まず意図検索子の「対象」(#10の例では「日食」)をキーワードとして画像検索を行う。なお、画像検索は、対応行動制御部33が実行してもよいし、外部機器(例えば図2の対応行動情報提供装置7)に実行させてもよい。
Specifically, in “image acquisition”, first, an image search is performed using the “target” of the intention searcher (“eclipse” in the example of # 10) as a keyword. The image search may be executed by the corresponding
そして、所定時間(図示の例では2000ms)以内に画像を取得できる場合には、音声対話装置1に「画像が取得出来ました」と発話させると共に、取得された画像を電子メールで利用者に送信する。なお、送信先のアドレスは予め登録しておけばよい。さらに、この後、ステッピングモータを30度回転させ、10秒待機し、ステッピングモータを30度逆回転させ、これにより「画像取得」は終了する。
If the image can be acquired within a predetermined time (2000 ms in the illustrated example), the
一方、所定時間(図示の例では2000ms)以内に画像を取得できない場合には、音声対話装置1に「画像が取得出来ませんでした」と発話させた後、ステッピングモータを30度回転させ、10秒待機し、ステッピングモータを30度逆回転させ、これにより「画像取得」は終了する。
On the other hand, when an image cannot be acquired within a predetermined time (2000 ms in the illustrated example), the
また、図6の#9の対応記述子には、隣接ペアIDが要素として含まれている。このように、実行する対応記述子に隣接ペアIDが含まれる場合、その隣接ペアIDが示す対話文が発話され、隣接ペア対話が行われる。なお、隣接ペアIDおよび隣接ペア対話の詳細は後述する。 The correspondence descriptor # 9 in FIG. 6 includes the adjacent pair ID as an element. As described above, when the adjacent pair ID is included in the corresponding descriptor to be executed, the dialogue sentence indicated by the adjacent pair ID is uttered, and the adjacent pair dialogue is performed. Details of the adjacent pair ID and the adjacent pair dialogue will be described later.
(隣接ペアテーブル) 続いて、隣接ペアテーブル40と隣接ペア対話について図7に基づいて説明する。図7は、隣接ペアテーブル40の一例を示す図である。図示の隣接ペアテーブル40は、音声対話装置1の発話内容と、該発話に対する利用者の応答として想定される想定応答と、該想定応答に対する音声対話装置1の発話内容(具体的には隣接ペアID)とが対応付けられたテーブルである。また、音声対話装置1の発話内容には、それぞれ固有の隣接ペアIDが付されている。
(Adjacent Pair Table) Next, the adjacent pair table 40 and the adjacent pair dialogue will be described with reference to FIG. FIG. 7 is a diagram illustrating an example of the adjacent pair table 40. The adjacent pair table 40 shown in the figure includes the utterance content of the
隣接ペアIDを含む対応記述子が実行される場合、隣接ペアテーブル40を参照して、その隣接ペアIDの発話内容が特定される。例えば、図6の#9の対応記述子には、隣接ペアID=1が含まれているので、図7の隣接ペアテーブル40を参照した場合、「今日はほんとうに暑いですね」と発話することが決定される。 When the correspondence descriptor including the adjacent pair ID is executed, the utterance content of the adjacent pair ID is specified with reference to the adjacent pair table 40. For example, the correspondence descriptor of # 9 in FIG. 6 includes the adjacent pair ID = 1, so when referring to the adjacent pair table 40 in FIG. 7, “Today is really hot” is spoken. It is decided.
また、上述のように、隣接ペアテーブル40では、1つの発話内容に対して想定応答が対応付けられており、各想定応答に対して隣接ペアIDが対応付けられている。よって、隣接ペアテーブル40に基づく発話が行われた後、利用者が想定応答を行った場合には、隣接ペアテーブル40を参照することによって、速やかに次の発話内容を特定することができる。 Further, as described above, in the adjacent pair table 40, an assumed response is associated with one utterance content, and an adjacent pair ID is associated with each assumed response. Therefore, after the utterance based on the adjacent pair table 40 is performed, when the user makes an assumed response, the next utterance content can be quickly identified by referring to the adjacent pair table 40.
例えば、音声対話装置1に「今日はほんとうに暑いですね」と発話させた後、利用者が「そんなことないぞ」と発話した場合、隣接ID2の発話内容、すなわち「でも25度超えてますよ」が特定される。このように、隣接ペアテーブル40を参照することにより、利用者の発話が想定応答の範囲内であれば、その発話に対して速やかに応答することができる。
For example, after letting the
なお、1つの発話内容に対応付ける想定応答の数は特に限定されず、1つであってもよいし、3つ以上であってもよい。また、各想定応答に表現のバリエーションが含まれていてもよい。例えば、「そんなことないぞ」に加えて、「そうでもない」や「暑くない」等、「今日はほんとうに暑いですね」の発話に対する否定的な発話内容を想定応答に含めておいてもよい。 The number of assumed responses associated with one utterance content is not particularly limited, and may be one or three or more. Each assumed response may include a variation of expression. For example, in addition to “I do n’t think that ’s true”, you can also include negative utterances in response to utterances like “It ’s not hot” or “It ’s really hot today” in the expected response. Good.
(意図検索子の生成処理) 図8は、図1に示す音声対話装置1による意図検索子の生成処理の流れを示すシーケンス図である。図8に示すように、音声認識部20は、入力された音声データをテキストデータに変換し、切替部22に出力する。
(Intention Searcher Generation Processing) FIG. 8 is a sequence diagram showing a flow of intention searcher generation processing by the
切替部22は、音声認識部20からテキストデータが入力されると、その直前に対話を行ったか否かを確認する。ここで、直前に対話が行われていない場合、切替部22は、意図検索子生成部25に音声認識部20から入力されたテキストデータを出力する。なお、同図には示していないが、直前に隣接ペア対話が行われている場合には、切替部22は、そのことを記憶しており、この記憶に基づいて、テキストデータを隣接ペア対話部に出力する(図3に示す表の「入力元」が音声認識部であるカラムを参照)。
When the text data is input from the
次に、意図検索子生成部25は、切替部22から入力されたテキストデータの文字列を形態素解析部26に出力する。ここで、入力されたテキストデータが複数の文で構成されている場合には、意図検索子生成部25は、最後の文の文字列を形態素解析部26に出力する。例えば、切替部22からのテキストデータが「いやぁ、さっき起きたばかりだよ。今日、ご飯が食べたい」である場合、「だよ。」と「今日」の間が文の切れ目であると判定して、「今日、ご飯が食べたい」を出力する。
Next, the intention
そして、形態素解析部26は、意図検索子生成部25から入力された文字列を形態素に分解し、品詞を振る。例えば、入力された文字列が「今日、ご飯が食べたい」であれば、「今日(名詞)/、(記号)/ご飯(名詞)/が(助詞)/食べ(動詞)/たい(助動詞)」のように分解して品詞を振る。そして、形態素解析部26は、分解した形態素およびその品詞を示す形態素情報を意図検索子生成部25に出力し、意図検索子生成部25はこの形態素情報を係り受け解析部27に出力する。
Then, the
次に、係り受け解析部27は、意図検索子生成部25から入力された形態素情報の示す形態素を分節に分ける。そして、係り受け解析部27は、文末部分の分節の述部と文末表現との組み合わせを示す分節情報を意図検索子生成部25に出力する。例えば、上記の例では述部「食べ(動詞)」と文末表現「たい(助動詞)」との組み合わせを示す分節情報が生成される。
Next, the
また、「対象」の特定を含む意図検索子(図6の♯2参照)を生成する場合、係り受け解析部27は、分節間の係り受けを示す係り受け情報を生成する。例えば、上記の例では、「ご飯が」と「食べたい」の組み合わせを示す係り受け情報が生成される。そして、意図検索子生成部25は、係り受け解析部27から入力された分節情報(述部と文末表現の組み合わせ)と係り受け情報を取得する。
In addition, when generating an intention search element including the identification of “target” (see # 2 in FIG. 6), the
次に、意図検索子生成部25は、意図テーブル41を参照して、取得した述部および文末表現に対応付けられた意図を特定する。例えば、「食べ(動詞)」と「たい(助動詞)」との組み合わせであれば、図5の意図テーブル41から、意図は「希望」と特定される。
Next, the intention
続いて、意図検索子生成部25は、述部を基本形(終止形)にした表層、および意図を含む意図検索子を生成する(意図検索子取得ステップ)。例えば、上記の例では、表層が「食べる」、意図が「希望」の意図検索子が生成される。そして、意図検索子生成部25は、生成した意図検索子を、対応記述子検索部29に出力する。なお、係り受け情報も取得している場合には、該係り受け情報を参照して、意図の特定に用いた分節に係る分節(またはそれに含まれる名詞)を「対象」として特定して、これを意図検索子に含めてもよい。
Subsequently, the intention
以上のようにして、利用者の発話内容を示すテキストデータから利用者の意図を示す意図検索子が生成される。例えば、利用者の発話が「カレーは辛かった」である場合、そのテキストデータが{カレー(名詞)/は(助詞)/辛かっ(形容詞の連用形)/た(助動詞の基本形)}のように形態素に分解されて品詞が振られる。そして、図5に示す意図テーブル41から、形容詞の連用形と助動詞基本形(終止形)「た」の組み合わせは「事実、過去」と特定されるから、この場合に生成される意図検索子は、〔辛い|事実、過去〕となる。なお、対象を含めて〔辛い|事実、過去‖カレー〕としてもよい。 As described above, the intention searcher indicating the user's intention is generated from the text data indicating the utterance content of the user. For example, if the user ’s utterance is “curry was hard”, the text data is {curry (noun) / ha (particle) / spicy (adjective conjunctive form) / ta (basic form of auxiliary verb)}. It is broken down into parts of speech. Then, from the intention table 41 shown in FIG. 5, the combination of the adjective continuous form and the auxiliary verb basic form (termination form) “ta” is specified as “facts, past”, and the intention searcher generated in this case is [ Spicy | facts, the past]. In addition, it is good also as [spicy | facts, past rice curry] including the object.
また、例えば、利用者の発話が「年収は同じだ」である場合、{年収(名詞)/は(助詞)/同じ(連体詞)/だ(助動詞)}のように形態素に分解されて品詞が振られる。そして、図5に示す意図テーブル41から意図を特定して、〔同じ|事実〕の意図検索子が生成される。この場合も、対象を含めて〔同じ|事実‖年収〕としてもよい。 Also, for example, if the user's utterance is “same salary”, the part of speech is decomposed into morphemes like {annual income (noun) / ha (particle) / same (combined) / da (auxiliary verb)}. Get dumped. Then, an intention is identified from the intention table 41 shown in FIG. 5, and an intention searcher of [same | facts] is generated. In this case as well, it may be [same | factual salary income] including the target.
さらに、例えば、利用者の発話が「それはオッケーだね」である場合、{それ(代名詞)/は(助詞)/オッケー(名詞)/だ(助動詞)/ね(助詞)}のように形態素に分解されて品詞が振られる。そして、図5に示す意図テーブル41から意図を特定して、〔オッケー|事実、確認〕の意図検索子が生成される。この場合も、対象を含めて〔オッケー|事実、確認‖それ〕としてもよい。 Furthermore, for example, when the user's utterance is “It's okay,” it ’s morpheme like {it (pronoun) / ha (particle) / ok (noun) / da (auxiliary verb) / ne (particle)}. The parts of speech are given after being disassembled. Then, the intention is identified from the intention table 41 shown in FIG. 5, and an intention searcher of [OK | fact, confirmation] is generated. Also in this case, it is possible to include [OK] |
また、例えば、利用者の発話が「街は静かだ」である場合、{街(名詞)/は(助詞)/静か(形容動詞)/だ(助動詞)}のように形態素に分解されて品詞が振られる。そして、図5に示す意図テーブル41から意図を特定して、〔静か|事実〕の意図検索子が生成される。この場合も、対象を含めて〔静か|事実‖街〕としてもよい。 Also, for example, when the user's utterance is “the town is quiet”, the part of speech is decomposed into morphemes like {town (noun) / ha (particle) / quiet (adjective verb) / da (auxiliary verb)}. Is shaken. Then, the intention is identified from the intention table 41 shown in FIG. 5, and a [quiet | facts] intention searcher is generated. Also in this case, it may be [quiet | factual street] including the object.
(ローカルで対応記述子を取得) 図9は、意図検索子に応じた処理を実行する処理の一例を示すフローチャートである。対応記述子検索部29は、記憶部15に保存されている対応記述子検索テーブル42(図6)を参照して、意図検索子生成部25から入力された意図検索子に対応付けられた対応記述子を検索する(S1、対応記述子検索ステップ)。
(Obtaining Corresponding Descriptor Locally) FIG. 9 is a flowchart showing an example of processing for executing processing according to the intention searcher. The correspondence
ここで、意図検索子生成部25から入力された意図検索子に対応付けられた対応記述子を検出した場合(S2にてYES)、対応記述子検索部29は、検出した対応記述子を対応記述子解析部28に通知する。一方、対応記述子が検出されなかった(S2にてNO)場合、外部機器(具体的には図2の対応記述子検索装置4)から対応記述子を取得する処理を実行する(S3)。S3の詳細については、図10を参照して後述する。
If a corresponding descriptor associated with the intention searcher input from the intention
次に、対応記述子解析部28は、対応記述子検索部29から通知された対応記述子に「対応文」が含まれているか否かを判定する(S4)。ここで、「対応文」が含まれていないと判定した場合(S4にてNO)、S6の処理に移行する。一方、「対応文」が含まれていると判定した場合(S4にてYES)、対応記述子解析部28は、当該対応文を対応制御部30に通知する。続いて、対応制御部30は、通知された対応文を対応文出力制御部31に通知して、これを出力するように命令する。そして、対応文出力制御部31は、この命令に従って上記対応文を音声合成部32で音声データに変換し、音波出力部16からこの音声データを出力させる(S5)。
Next, the correspondence
S6では、対応記述子解析部28は、対応記述子に「対応行動」が含まれているか否かを判定する。ここで、「対応行動」が含まれていないと判定した場合(S6にてNO)、S8の処理に移行する。一方、「対応行動」が含まれていると判定した場合(S6にてYES)、対応記述子解析部28は、当該対応行動を対応制御部30に通知する。続いて、対応制御部30は、通知された対応行動を対応行動制御部33に通知して、これを実行するように命令する。そして、対応行動制御部33は、この命令に従って駆動部17を制御し、上記対応行動を音声対話装置1に実行させる(S7)。
In S <b> 6, the correspondence
S8では、対応記述子解析部28は、対応記述子に「隣接ペアID」が含まれているか否かを判定する。ここで、「隣接ペアID」が含まれていないと判定した場合(S8にてNO)、対応記述子解析部28は処理を終了する。一方、「隣接ペアID」が含まれていると判定した場合(S8にてYES)、対応記述子解析部28は、当該隣接ペアIDを対応制御部30に通知する。続いて、対応制御部30は、通知された隣接ペアIDを切替部22に通知して、これを使用するように命令する。そして、切替部22は、この命令に従って話題管理部23に上記隣接ペアIDを通知し、これを登録させる(S9)。これにより、隣接ペア対話が開始される。なお、隣接ペア対話の詳細については、図11にて後述する。
In S <b> 8, the correspondence
なお、上記の例では、対応記述子が検出されなかった場合(S2でNO)に、対応記述子取得処理(S3)を行い、対応記述子検索装置4から対応記述子を取得しているが、S1の検索処理と並行して、対応記述子取得処理(S3)を行ってもよい。この場合、対応記述子検索部29は、意図検索子生成部25から意図検索子が入力されると、通信部11を介して該意図検索子を対応記述子検索装置4に送信すると共に、記憶部15に保存されている対応記述子検索テーブル42を参照して対応記述子を検索する。そして、対応記述子検索部29は、対応記述子検索装置4から対応記述子を受信した場合にはそれを用い、受信しなかった場合には対応記述子検索テーブル42から検出した対応記述子を用いてもよい。
In the above example, when no corresponding descriptor is detected (NO in S2), the corresponding descriptor acquisition process (S3) is performed and the corresponding descriptor is acquired from the corresponding
これにより、対応記述子検索テーブル42には登録されていない対応記述子を速やかに取得することができる。なお、対応記述子検索装置4からの対応記述子の受信待ち受け時間が長くなりすぎると、利用者への応答が遅延するので、所定時間(例えば800ms)以内に受信しなければ、対応記述子検索テーブル42から検出した対応記述子を用いるようにしてもよい。
As a result, it is possible to quickly obtain a corresponding descriptor that is not registered in the corresponding descriptor search table 42. Note that if the waiting time for receiving the corresponding descriptor from the corresponding
例えば、対応記述子検索テーブル42には、〔述部|意図〕が〔食べる|希望〕の意図検索子は登録されているが、〔述部|意図‖対象〕が〔食べる|希望‖カレー〕の意図検索子は登録されていない場合を考える。この場合に、利用者が「カレー食べたい」と発話すると、所定時間以内に対応記述子検索装置4から対応記述子が帰って来れば、これを用いた対応(例えば「カレーでもナンでも食べればいいじゃない」の発話)がなされる。一方、所定時間以内に対応記述子検索装置4から対応記述子が帰って来なければ、対応記述子検索テーブル42に基づく対応(例えば「もうちょっと我慢して」の発話)がなされる。
For example, in the corresponding descriptor search table 42, an intention search element having [predicate | intention] is [eating | hoping] is registered, but [predicate | intention target] is [eating | hopping curry]. Let's consider a case where no intention searcher is registered. In this case, when the user utters “I want to eat curry”, if the corresponding descriptor returns from the corresponding
(ローカルに対応記述子がない場合、サーバで対応記述子を取得) 図9のS3で行われる対応記述子取得処理について図10に基づいて説明する。図10は、対応記述子取得処理の一例を示すフローチャートである。記憶部15に保存されている対応記述子検索テーブル42から、対応記述子を検出することができなかった対応記述子検索部29は、は、通信部11を介して、対応記述子検索装置4(図2参照)にアクセスする(S20)。具体的には、対応記述子検索部29は、意図検索子を対応記述子検索装置4に送信して、該意図検索子に対応する対応記述子の有無を通知するように要求する。
(When there is no corresponding descriptor locally, the server acquires the corresponding descriptor.) The corresponding descriptor acquisition process performed in S3 of FIG. 9 will be described with reference to FIG. FIG. 10 is a flowchart illustrating an example of the correspondence descriptor acquisition process. The correspondence
そして、対応記述子検索部29は、対応記述子検索装置4からの応答を待ち受ける(S21)。ここで、対応記述子検索装置4から対応記述子がない旨の応答を受信した、あるいは対応記述子検索装置4からの応答がない状態で所定時間が経過した場合、対応記述子検索部29は、対応記述子検索装置4にも対応記述子がないと判定する(S21にてNO)。この場合、対応記述子検索部29は、対応を中止して(S22)、対応記述子取得処理を終了する。一方、対応記述子検索装置4から対応記述子がある旨の応答を受信した場合(S21にてYES)、対応記述子検索部29は、対応記述子検索装置4に対し、隣接ペアの有無を通知するように要求してその応答を待ち受ける(S23)。
Then, the correspondence
ここで、対応記述子検索装置4から隣接ペアはない旨の応答を受信した、あるいは応答がない状態で所定時間が経過した場合、対応記述子検索部29は、対応記述子検索装置4から対応記述子を取得して(S24)、対応記述子取得処理を終了する。一方、対応記述子検索装置4から隣接ペアがある旨の応答を受信した場合(S23でYES)、対応記述子検索部29は、対応記述子検索装置4から隣接ペアを取得する(S25)。
Here, when a response indicating that there is no adjacent pair is received from the corresponding
なお、ここで取得する隣接ペアとは、対応記述子検索装置4に送信した意図検索子の示す意図に応じた内容で隣接ペア対話を行うために必要な情報であり、少なくとも隣接ペア対話の対応文を1つ含んでいればよい。ただし、1つの対応文のみでは、利用者の次の発話に対する対応文を決定する際に、再度、対応記述子検索装置4にアクセスする必要が生じる。このため、対応文、想定応答、および想定応答に対する対応文を少なくともセットで含む情報を隣接ペアとして送信することが好ましく、音声対話装置1の記憶容量に余裕があれば、図7に示すような隣接ペアテーブルの全体を隣接ペアとして送信してもよい。
The adjacent pair acquired here is information necessary for performing the adjacent pair dialogue with the contents according to the intention indicated by the intention searcher transmitted to the correspondence
そして、対応記述子検索部29は、取得した隣接ペアを、対応記述子解析部28、対応制御部30、切替部22、および話題管理部23を介して話題取得部24に送信し、記憶部15に保存させ(S26)、これにより対応記述子取得処理を終了する。
Then, the correspondence
(意図対話と隣接ペア対話の切り替え) 次に、意図対話と隣接ペア対話の切り替えについて図11に基づいて説明する。図11は、意図対話と隣接ペア対話の切り替え処理の一例を示す図である。切替部22は、対応制御部30から隣接ペアIDの通知を受けると、該隣接ペアIDを話題管理部23に通知して登録させる(図9のS9)と共に、隣接ペア対話に切り替える(S40)。
(Switching between intention dialogue and adjacent pair dialogue) Next, switching between intention dialogue and adjacent pair dialogue will be described with reference to FIG. FIG. 11 is a diagram illustrating an example of a switching process between an intention dialog and an adjacent pair dialog. When receiving the notification of the adjacent pair ID from the
そして、話題管理部23は、登録した隣接ペアIDを話題取得部24に通知し、話題取得部24は、隣接ペアテーブル40を参照して、通知された隣接ペアIDに対応する発話内容を特定する(S41)。例えば、隣接ペアID=1が通知された場合、図7の隣接ペアテーブル40を参照すれば、#1の「今日はほんとうに暑いですね」が、発話内容として特定される。
Then, the
なお、話題取得部24は、当該隣接ペアIDを含む隣接ペアテーブル40をRAM(Random Access Memory)等の一時保存部に保存しておいてもよい。これにより、話題管理部23は、該隣接ペアテーブル40を用いた隣接ペア対話が継続している間は、話題取得部24を介することなく、一時保存部を参照して迅速に応答内容を決定することができる。
Note that the
続いて、話題取得部24は、特定した発話内容を話題管理部23に通知し、話題管理部23はこれを対応制御部30に通知する。そして、対応制御部30は、通知された発話内容を対応文出力制御部31に通知して、これを出力するように命令する(S42)。これにより、対応文出力制御部31および音声合成部32により、音波出力部16から上記発話内容の音声データが出力される。
Subsequently, the
また、隣接ペア対話に切り替えた切替部22は、利用者の応答、具体的には利用者の応答発話を音声認識して得たテキストデータを音声認識部20から受信するのを待ち受ける(S43)。そして、隣接ペア対話に切り替えた状態で、利用者の応答があった(音声認識部20からテキストデータを受信した)と判定した場合(S43にてYES)、切替部22は、受信したテキストデータを話題管理部23に転送する。
In addition, the switching
次に、話題管理部23は、上記テキストデータに隣接ペアの対応文があるか判定する(S44)。具体的には、話題管理部23は、転送された上記テキストデータをさらに話題取得部24に転送して、該テキストデータに応じた対応文を特定するよう指示する。そして、この指示に応じて話題取得部24から対応文が通知されたときに、隣接ペアの対応文があると判定し、通知されなかったときには隣接ペアの対応文がないと判定する。例えば、図7の隣接ペアテーブル40を用いる場合に、音声対話装置1の「今日はほんとうに暑いですね」に対する利用者の応答が「そんなことないぞ」であった場合、隣接ID=2の対応文「でも25度超えてますよ」があると判定される。
Next, the
なお、一時保存部に隣接ペアテーブル40を保存している場合、話題管理部23がテキストデータを解析して、該テキストデータに応じた対応文が隣接ペアテーブル40に含まれているか否かを判定してもよい。
When the adjacent pair table 40 is stored in the temporary storage unit, the
ここで、隣接ペアの対応文があると判定した場合(S44にてYES)、処理はS41に戻り、話題管理部23は、当該対応文を利用者に対する発話内容と特定する。つまり、ユーザの応答内容が、隣接ペアテーブル40に登録されている場合には、隣接ペア対話が継続される。一方、隣接ペアの対応文がないと判定した場合(S44にてNO)、話題管理部23は、その旨を切替部22に通知すると共に、上記テキストデータを切替部22に返す。
If it is determined that there is a corresponding sentence of the adjacent pair (YES in S44), the process returns to S41, and the
この通知を受けた切替部22は、意図対話への切り替えを行い(S45)、処理は終了する。なお、意図対話への切り替え後、切替部22は、上記テキストデータを意図検索子生成部25に送信し、図8および図9に示した処理により、利用者の意図に応じた対応が実行される。
Upon receiving this notification, the switching
以上のように、会話の状況に応じて隣接ペア対話に切り替えることにより、全ての対話を意図対話とする場合と比べて情報処理量を削減することができ、これにより、タイミングよく音声対話を行うことが可能になる。特に、コンテキストベースの音声対話では、利用者からの発話に対する応答をタイミングよく行い、利用者が安心して利用できるようにすることが望ましいので、この切り替えは有効である。また、会話の状況に応じて意図対話に切り替えることにより、対話におけるフレーム変化にも対応できる。 As described above, by switching to the adjacent pair dialogue according to the conversation situation, it is possible to reduce the amount of information processing compared to the case where all the dialogues are intended dialogues. It becomes possible. In particular, in context-based voice conversation, it is desirable to perform a response to the utterance from the user in a timely manner so that the user can use it with peace of mind, so this switching is effective. In addition, by switching to the intended dialogue according to the conversation situation, it is possible to deal with frame changes in the dialogue.
(対応制御部30の処理) 図9のフローチャートでは、対応記述子が検出されると、逐次対応文の出力や対応行動の実行を行う例を示したが、利用者とのより自然な対話のため、これらの対応の実行に関する制御を行ってもよい。これについて、図12に基づいて説明する。図12は、音声対話装置1が対応記述子の示す対応の実行制御処理の一例を示すフローチャートである。なお、このフローチャートの処理は、図9のS2にてYESと判定された後、S4の処理を実行する前に行われる。
(Processing of Correspondence Control Unit 30) In the flowchart of FIG. 9, when a correspondence descriptor is detected, an example of sequentially outputting a correspondence sentence and executing a corresponding action is shown. However, a more natural conversation with a user is performed. Therefore, you may perform control regarding execution of these correspondences. This will be described with reference to FIG. FIG. 12 is a flowchart illustrating an example of the corresponding execution control process indicated by the corresponding descriptor by the
なお、この制御には、主に2つの特徴点がある。その1点目は、音声対話装置1が利用者の発話に応じた対応を実行する前に、該利用者により新たな発話が行われた場合に、その対応を停止または中止する点である。そして、2点目は、利用者の発話に間が生じたときには、対応記述子に応じた対応の実行を待機する点である。
This control mainly has two characteristic points. The first point is that when a new utterance is made by the user before the voice
この2点目の処理を可能にするために、意図検索子生成部25は、利用者の発話に「間」が生じたときに、述部と意図の要素が空の意図検索子(以下、単に空の意図検索子と呼ぶ)を生成する。例えば、利用者が「いやー、ほんと寒いよね・・・うーん、なにか温かいもの食べたいな」などと、「間」(・・・)を空けて発話した場合を考える。この場合、「いやー、ほんと寒いよね」のテキストデータが受信された後、「うーん、なにか温かいもの食べたいな」のテキストデータが受信されるまでに時間間隔が生じる。そこで、意図検索子生成部25は、テキストデータが受信された後、テキストデータの受信が確認できない期間が所定時間以上継続したと判定した場合に、空の意図検索子を生成する。
In order to enable this second processing, the intention
なお、意図検索子生成部25は、テキストデータが受信された後、次のテキストデータが受信されたときに、これらの受信タイミングが所定時間以上であれば、空の意図検索子を生成してもよい。また、空の意図検索子は、音声対話装置1と利用者との対話において、利用者の話したい内容(意図)が含まれていないときに生成すればよく、利用者の発話がない期間の検出時に限られず、他の契機で生成してもよい。例えば、「いやー」や「うーん」等の感動詞(感嘆詞、間投詞とも言う)が発話されたときや、音声認識できないような不明瞭な発話がなされたときにも、空の意図検索子を生成してもよい。
The intention
空の意図検索子は、通常の意図検索子と同様に、対応記述子検索部29に送られる。そして、対応記述子検索部29は、空の意図検索子を受信した場合には、対応内容の要素が空の対応記述子(以下、単に空の対応記述子と呼ぶ)を生成して、これを対応記述子解析部28を介して対応制御部30に送信する。
The empty intention searcher is sent to the corresponding
このように、対応記述子には、空の対応記述子と通常の対応記述子(対応内容の要素が含まれた対応記述子)とがあるため、対応制御部30は、まず、対応記述子解析部28から受信した対応記述子が空の対応記述子であるか否かを判定する(S60)。ここで、空の対応記述子であると判定した場合(S60にてYES)、対応制御部30は、先に実行が予定された対応記述子があるか否かを判定する(S61)。
As described above, since the correspondence descriptor includes an empty correspondence descriptor and a normal correspondence descriptor (a correspondence descriptor including an element of correspondence content), the
そして、先に実行が予定された対応記述子がある場合(S61にてYES)、対応制御部30は、先に実行が予定された対応記述子の実行タイミングを遅らせる(S62)。例えば、対応記述子の実行タイミングをタイマーで管理している場合、対応制御部30は、そのタイマーのタイムアウト時間(対応記述子の実行タイミング)を所定時間(例えば500ms)だけ増加させてもよい。この後、処理は図9のS4に進み、遅らされたタイミングにて、先に実行が予定された対応記述子の示す対応が実行される。
If there is a correspondence descriptor scheduled to be executed first (YES in S61), the
また、S60において、対応記述子が空ではないと判定した場合(S60にてNO)にも、対応制御部30は、先に実行が予定された対応記述子があるか否かを判定する(S63)。ここで、先に実行が予定された対応記述子がないと判定した場合(S63でNO)、対応制御部30はS65の処理に進む。一方、先に実行が予定された対応記述子があると判定した場合(S63にてYES)、対応制御部30は、先の対応記述子の実行中止命令を、対応文出力制御部31および対応行動制御部33に送信し(S64)、S65の処理に進む。
Also, when it is determined in S60 that the corresponding descriptor is not empty (NO in S60), the corresponding
S65では、対応制御部30は、S60で空ではないと判定した対応記述子を実行予定とする。また、対応制御部30は、S65にて実行予定とした対応記述子の実行タイミングを遅らせる(S66)。例えば、対応制御部30は、タイマーのタイムアウト時間(対応記述子の実行タイミング)を所定時間(例えば500ms)に設定してもよい。そして、対応制御部30は、S65で実行予定とした対応記述子の示す対応の実行タイミングとなるのを待ち受ける(S67)。
In S65, the
この後、実行タイミングになったと判定した場合(S67にてYES)対応制御部30は、実行タイミングとなった対応に中止命令が出されていないか確認する(S68)。そして、中止命令が出されていれば(S68にてYES)、対応制御部30は、該対応の実行を中止して(S69)処理を終了する。一方、中止命令が出されていなければ(S68にてNO)、処理は図9のS4に進み、当該対応が実行される。
Thereafter, when it is determined that the execution timing has come (YES in S67), the
例えば、利用者が「いやー、ほんと寒いよね・・・うーん、なにか温かいもの食べたいな」と発話した場合、まず、「いやー、ほんと寒いよね」に対応する対応記述子が生成される。そして、次に「・・・」に対応する空の対応記述子が生成され、さらに「うーん、なにか温かいもの食べたいな」に対応する対応記述子が生成される。 For example, when the user speaks “No, really cold ... Well, I want to eat something warm,” first, a correspondence descriptor corresponding to “No, really cold” is generated. Next, an empty correspondence descriptor corresponding to “...” Is generated, and further, a correspondence descriptor corresponding to “Well, I want to eat something warm” is generated.
よって、「いやー、ほんと寒いよね」に対応する対応記述子が実行予定とされた(S65)後、空の対応記述子によってこの実行タイミングが遅らされる(S62)。そして、遅らされた実行タイミングまでに「うーん、なにか温かいもの食べたいな」に対応する対応記述子が取得されれば、「いやー、ほんと寒いよね」に対応する対応記述子の対応は中止される(S64)。その後、「うーん、なにか温かいもの食べたいな」に対応する対応記述子の対応が実行予定とされる(S65)。 Therefore, after the corresponding descriptor corresponding to “No, it is really cold” is scheduled to be executed (S65), the execution timing is delayed by an empty corresponding descriptor (S62). And if the corresponding descriptor corresponding to “Well, I want to eat something warm” is acquired by the delayed execution timing, the correspondence of the corresponding descriptor corresponding to “No, really cold” is canceled. (S64). After that, the correspondence descriptor corresponding to “Well, I want to eat something warm” is scheduled to be executed (S65).
このように、利用者の発話の「間」に合わせて、対応の実行を遅らせることにより、利用者の発話を妨げることなく、自然なタイミングで音声対話装置1に応答させることが可能になる。また、連続して行われた利用者の各発話のうち、最後の発話に対する応答のみが行われるので、利用者の発話を途中で遮ることを防ぐことができる。
In this way, by delaying the execution of the response in accordance with the “between” of the user's utterances, it is possible to cause the
なお、利用者の複数の発話のうち、先の発話に対する応答を実行させてもよいし、応答内容に応じて実行の可否を決定してもよい。例えば、隣接ペアIDが含まれている応答記述子を優先する構成としても構わない。また、連続して複数の発話がなされたときには、「もう少しゆっくり話して下さい」等の利用者の再度の発話を促すメッセージや、「続けて話されると答えられないよ」等の応答が難しいことを伝えるメッセージを発話させてもよい。 Of the plurality of utterances of the user, a response to the previous utterance may be executed, or whether to execute the response may be determined according to the response content. For example, the response descriptor including the adjacent pair ID may be prioritized. Also, when multiple utterances are made in succession, it is difficult to respond to messages such as “Please speak a little more slowly”, prompting the user to speak again, and “If you continue speaking, you cannot answer” You may have a message telling you.
また、上記の例では、利用者の発話に「間」が生じたときに空の意図検索子を生成することによって、利用者の発話に対する対応の実行タイミングを遅らせているが、この例に限られない。例えば、空の意図検索子の生成を省略して空の対応記述子を生成してもよいし、これらの何れも生成せずに対応の実行タイミングを制御してもよい。空の意図検索子の生成を省略して、空の対応記述子を生成する場合、対応記述子検索部29は、意図検索子生成部25から意図検索子を受信した後、次の意図検索子の受信までの期間が所定時間以上であれば、空の対応記述子を生成すればよい。また、何れの生成も省略する場合には、対応制御部30が、対応記述子解析部28から対応の実行指示を受信した後、次の指示の受信までの期間が所定時間以上であれば、先の指示の実行を中止すればよい。
In the above example, the execution timing of the response to the user's utterance is delayed by generating an empty intention search element when “between” occurs in the user's utterance. I can't. For example, generation of an empty intention search element may be omitted to generate an empty correspondence descriptor, or the corresponding execution timing may be controlled without generating any of these. When generating an empty correspondence descriptor by omitting generation of an empty intention searcher, the correspondence
〔実施形態2〕
本発明の他の実施形態について、図4および図13に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。[Embodiment 2]
The following will describe another embodiment of the present invention with reference to FIGS. For convenience of explanation, members having the same functions as those described in the embodiment are given the same reference numerals, and descriptions thereof are omitted.
実施形態2では、利用者の発話以外の所定の事象の発生が検出された場合に、音声対話装置1が、利用者に対して能動的に対応する例を説明する。所定の事象とは、利用者に関連した事象であれば特に限定されないが、ここでは、音声対話装置1のバッテリー残量が少ないという事象、所定のウェブページが更新されたという事象、利用者を玄関で検出したという事象である例を説明する。
In the second embodiment, an example will be described in which the voice
(情報取得部21の要部構成) 図4は、図1に示した音声対話装置1が備える情報取得部21の要部構成の一例を示すブロック図である。図4に示すように、情報取得部21は、人物画像判別部50、ユーザ判別部51、位置情報取得部52、外部情報マルチプレクサ53、ネット情報取得部54、ネット情報マルチプレクサ55、残量検知部56、および内部情報マルチプレクサ57を備えている。
(Principal part structure of the information acquisition part 21) FIG. 4: is a block diagram which shows an example of the principal part structure of the
人物画像判別部50は、撮像部12が撮像した画像に人物が撮像されていることを判別する。ユーザ判別部51は、人物画像判別部50が判別した人物が、所定の利用者であることを判別する。位置情報取得部52は、人物画像判別部50が判別した人物がいる位置を示す情報を取得する。外部情報マルチプレクサ53は、ユーザ判別部51および位置情報取得部52から通知される情報に基づいて、利用者を玄関で検出したという事象(所定の事象)が発生したことを検出し、その旨を切替部22に通知する。
The person
ネット情報取得部54は、通信部11を介して所定のウェブページを取得する。なお、取得するウェブページは、利用者が予め登録したウェブページ等の利用者が更新状況を把握したいウェブページである。ネット情報マルチプレクサ55は、ネット情報取得部54が取得したウェブページが、前回取得したときから更新されていた場合に、ウェブページが更新されたという事象(所定の事象)が発生したと判定し、その旨を切替部22に通知する。
The net
残量検知部56は、バッテリー13の残量を検知し、検知した残量を内部情報マルチプレクサ57に通知する。また、内部情報マルチプレクサ57は、通知された残量が所定値以下であれば、図示しないタイマー(水晶によるクロック情報を出力するものであってもよい)による時間の計測を開始し、そのタイマーによって、残量が所定値以下の状態が所定時間以上継続している事象(所定の事象)を検出する。そして、該事象を検出したときには、その旨を切替部22に通知する。
The remaining
(マルチプレクサの処理例) ここで、利用者を玄関で検出という事象の発生を検出して意図検索子を生成する処理を図13に基づいて説明する。図13は、利用者を玄関で検出という事象の発生を検出して意図検索子を生成する処理の一例を示すフローチャートである。 (Processing Example of Multiplexer) Here, a process of detecting the occurrence of an event of detecting a user at the entrance and generating an intention searcher will be described with reference to FIG. FIG. 13 is a flowchart illustrating an example of processing for generating an intention searcher by detecting the occurrence of an event of detecting a user at the entrance.
人物画像判別部50は、撮像部12から取得した撮像画像に人物が含まれていると判別する(S80)と、その撮像画像をユーザ判別部51に送信する。そして、ユーザ判別部51は、受信した撮像画像中の人物が、所定の利用者であるか判定し(S81)、所定の利用者であると判定する(S81にてYES)と、その旨を外部情報マルチプレクサ53に通知する。
When it is determined that the captured image acquired from the
この通知を受信した外部情報マルチプレクサ53は、位置情報取得部52が取得した位置が所定の位置(この例では玄関)であるか否かを判定する(S82)。そして、所定の位置であると判定した場合(S82にてYES)、外部情報マルチプレクサ53は、玄関で利用者を検出したという事象の発生を切替部22に通知する。なお、S81で所定の利用者ではない(S81にてNO)と判定された場合や、S82で所定の位置ではない(S82にてNO)と判定された場合には、S83には進まずに処理を終了する。
Receiving this notification, the
次に、上記の通知を受信した切替部22は、意図検索子生成部25に上記事象の発生を通知し、この通知を受信した意図検索子生成部25は、当該事象に対応する予め定められた意図検索子を生成し(S83)、対応記述子検索部29に送信する。具体的には、表層を「帰宅」、意図を「現在」、対象を「利用者」とする意図検索子を生成し、送信する。これにより、図6の対応記述子検索テーブル42から「ご主人様おかえりなさい」の対応文と、「挨拶」の対応行動が特定され、音声対話装置1は、「ご主人様おかえりなさい」と音声出力しながら、「挨拶」の対応行動を実行する。
Next, the switching
なお、他の事象の発生が検出された場合の意図検索子の生成も同様である。例えば、ウェブページの更新が通知された場合には、意図検索子生成部25は、表層を「変わった」、意図を「事実」、対象を「ホームページ」とする意図検索子を生成する。また、バッテリー13の残量が所定値以下の状態が所定時間以上継続している事象の発生を通知された場合には、意図検索子生成部25は、表層を「なくなる」、意図を「事実、未来」、対象を「電池」とする意図検索子を生成する。
The same applies to the generation of the intention search element when the occurrence of another event is detected. For example, when the update of the web page is notified, the intention
無論、意図検索子の生成対象とする事象は、利用者に対する発話の契機となるような事象であればよく、上記の例に限られない。例えば、撮像部12が撮像した利用者以外の画像や、集音部10が取得した利用者の発話以外の音から検出される所定の事象を設定してもよい。この他にも、インターネットやラジオ、テレビ等から取得した情報で検出される所定の事象を設定してもよい。また、音声対話装置1または他の装置がセンサー(加速度センサー、角加速度センサー、温湿度センサー等)を備えている場合には、該センサーから取得した情報で検出される所定の事象を設定してもよい。さらに、上記のような情報を複数種類取得し、取得した各情報を用いて所定の演算を行うことによって算出した値から、所定の事象の発生を検出しても構わない。これにより、利用者自身の状況、利用者の周囲の状況、あるいは利用者が関心のある情報等に応じた、音声対話装置1からの自発的な発話や動作が可能になる。
Of course, the event to be generated by the intention searcher is not limited to the above example as long as it is an event that triggers the utterance to the user. For example, a predetermined event detected from an image other than the user captured by the
〔実施形態3〕
本発明の他の実施形態について、図14に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。本実施形態では、ネットワーク上の対応決定装置80を利用して上記実施形態の音声対話装置1と同様の機能を実現する例を説明する。[Embodiment 3]
The following will describe another embodiment of the present invention with reference to FIG. For convenience of explanation, members having the same functions as those described in the embodiment are given the same reference numerals, and descriptions thereof are omitted. In the present embodiment, an example will be described in which a function similar to that of the
(音声対話システム200の概要) 図14は、本実施形態に係る音声対話システム200を概略的に示す図である。音声対話システム200は、音声対話装置(例えばロボット)70と、対応決定装置80とを含む構成である。音声対話装置70は、音声対話装置1と比べて、音声認識部20、意図検索子生成部25、および対応記述子検索部29を備えていない点と、切替部22が実行する処理の内容が異なっている点で相違している。
(Outline of Spoken Dialogue System 200) FIG. 14 is a diagram schematically showing the spoken
対応決定装置80は、利用者の発話に対する対応を決定する装置であり、対応決定装置80の各部を統括して制御する制御部81と、対応決定装置80が外部の装置(ここでは音声対話装置70)と通信するための通信部82を備えている。また、制御部81には、音声認識部20、意図検索子生成部25、対応記述子検索部29、話題取得部24、および応答制御部83が含まれている。なお、同図では省略しているが、意図検索子生成部25には、形態素解析部26および係り受け解析部27が接続されており、図示しない記憶部には、隣接ペアテーブル40、意図テーブル41、および対応記述子検索テーブル42が格納されている。
The
応答制御部83は、利用者の発話の音声データを受信して、該発話に対する応答を決定する。応答制御部83の具体的な処理内容は下記の通りである。
The
(応答制御部83の処理) 図14に示すように、音声対話装置70は、利用者の発話を含む音声データを送信するので、応答制御部83は、通信部82を介してこれを受信する。次に、応答制御部83は、受信した音声データを音声認識部20に送信して音声認識させ、音声認識部20から音声認識結果のテキストデータを取得する。続いて、応答制御部83は、取得したテキストデータを意図検索子生成部25に送信して、該テキストデータから意図検索子を生成させ、生成された意図検索子を取得する。そして、応答制御部83は、取得した意図検索子を対応記述子検索部29に送信して、該意図検索子に対応する対応記述子を特定させ、特定された対応記述子を取得する。
(Processing of Response Control Unit 83) As shown in FIG. 14, since the
ここで、取得した対応記述子に隣接ペアIDが含まれている場合には、その隣接ペアIDを話題取得部24に送信して、該隣接ペアIDに対応する隣接ペアを特定させ、特定された隣接ペアを取得する。なお、取得する隣接ペアは、少なくともその隣接ペアIDの対応文を含むものであればよいが、その隣接ペアIDにリンクされた各情報を含む隣接ペアテーブル40全体を取得することが好ましい。
Here, if the acquired correspondence descriptor includes an adjacent pair ID, the adjacent pair ID is transmitted to the
そして、応答制御部83は、取得した対応記述子または隣接ペアを、通信部82を介して音声対話装置70に送信する。なお、隣接ペアを送信した場合には、利用者の次の発話に対して速やかに隣接ペアの対応文を返すことができるように、応答制御部83は、隣接ペアを送信したこと、および送信した隣接ペアの内容を記憶しておくことが望ましい。
Then, the
この後、利用者がさらに発話したときには、上記と同様に音声対話装置70から音声データを受信し、応答制御部83は、この音声データを音声認識部20に送信してテキストデータを取得する。このとき、隣接ペアを送信したことを記憶していなければ、上記と同様の処理となるが、記憶していれば、応答制御部83は、取得したテキストデータを話題取得部24に送信して、該テキストデータに対応する対応文の有無を確認する。
Thereafter, when the user further utters, the voice data is received from the
そして、対応文があることが確認されると、応答制御部83は、当該対応文の隣接ペアIDを音声対話装置70に送信する。なお、先に送信した隣接ペアに、当該隣接ペアIDの対応文が含まれていない場合には、その対応文も含めて送信する。例えば、図7の隣接ペアテーブルの♯1〜♯3までのデータを隣接ペアとして送信済みの場合に、ID=4またはID=5を発話させる場合には、♯4または♯5のデータも送信する。無論、♯4と♯5の両方のデータを送信してもよい。
When it is confirmed that there is a corresponding sentence, the
一方、対応文がないことが確認されると、応答制御部83は、テキストデータを意図検索子生成部25に送信する。この後は、上述した通り、意図検索子が生成されて意図対話が行われる。
On the other hand, when it is confirmed that there is no corresponding sentence, the
(切替部22の処理) 次に、音声対話装置70の切替部22について説明する。上述のように、音声対話装置70は、音声認識処理を自装置内では行わない。このため、音声対話装置70は、集音部10で音声データを取得すると、取得した音声データを対応決定装置80に送信する。そして、その応答として、対応記述子または隣接ペアを受信する。
(Processing of Switching Unit 22) Next, the switching
ここで、対応記述子を受信した場合には、切替部22は、対応記述子解析部28(図1参照)にその対応記述子を送信する。つまり、本実施形態の切替部22は、利用者の発話を解析して生成された意図検索子に対応する対応記述子を、外部機器(対応決定装置80)から取得する対応記述子取得部として機能する。この後は、実施形態1で説明したように、対応制御部30によって、この対応記述子が示す対応が実行される。
Here, when the correspondence descriptor is received, the switching
一方、隣接ペアを受信した場合には、切替部22は、受信した隣接ペアを話題管理部23(図1参照)に送信する。この後は、実施形態1で説明したように、この隣接ペアに応じた対応が行われる。なお、受信した情報が隣接ペアIDのみであれば、音声対話装置70の記憶部15に格納されている隣接ペアテーブル40から対応文が特定され、隣接ペアテーブル(全体または一部)を受信した場合には、受信した隣接ペアテーブルを用いて対応文が特定される。
On the other hand, when the adjacent pair is received, the switching
(システム構成のバリエーション) 上記では、音声対話装置1の一部機能をサーバ(対応決定装置80)に持たせた音声対話システム200について説明したが、サーバに持たせる機能はこの例に限られない。例えば、音声認識部20は音声対話装置に残し、意図検索子生成部25の機能をサーバに持たせた音声対話システムも本発明の範疇に含まれる。この構成では、音声対話装置は、意図検索子を生成する代わりに、サーバから意図検索子を取得することになるので、意図検索子生成部25の代わりに意図検索子取得部を備えていればよい。
(Variation of System Configuration) In the above description, the
また、対応制御部30、対応文出力制御部31、および対応行動制御部33の機能をサーバに持たせてもよい。この他、音声認識部20と対応記述子検索部29の機能をサーバに持たせ、意図検索子生成部25、対応制御部30、対応文出力制御部31、および対応行動制御部33の機能を音声対話装置に残す構成等も可能である。このように、各機能をサーバと音声対話装置とに適宜振り分けた音声対話システムであっても、音声対話装置1と同様の機能を実現できる。また、サーバは機能毎に個別に設けてもよいし、複数の機能を1つのサーバに搭載してもよい。
Moreover, you may give a server the function of the corresponding |
〔ソフトウェアによる実現例〕
音声対話装置1および対応決定装置80の制御ブロック(特に制御部14および81の各ブロック)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。[Example of software implementation]
The control blocks (especially the blocks of the
後者の場合、音声対話装置1および対応決定装置80は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(RandomAccess Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
In the latter case, the
〔まとめ〕
本発明の態様1に係る対応決定装置(音声対話装置1、対応決定装置80)は、利用者と音声対話を行う音声対話装置(1)が該利用者の発話に応じて行う対応を決定する対応決定装置であって、上記発話を解析して生成された該利用者の意図を示す意図検索子を取得する意図検索子取得部(意図検索子生成部25)と、上記意図検索子と、上記音声対話装置の対応を示す対応記述子とが対応付けられた対応記述子検索情報(対応記述子検索テーブル42)を参照して、上記意図検索子取得部により取得された意図検索子に対応する対応記述子を特定する対応記述子検索部(対応記述子検索部29)と、を備えている。[Summary]
The correspondence determining device (
上記の構成によれば、利用者の意図を示す意図検索子を取得し、該意図検索子に対応した対応記述子を特定するので、利用者の意図に応じた対応を音声対話装置に実行させることができる。また、上記意図検索子は、利用者の意図を示す検索子であるから、利用者の発話した文言をそのまま検索子として用いる場合と比べて、利用者の多様な表現をカバーしやすい。例えば、利用者の意図が同じであれば、敬語や方言などにより発話された文言自体が変化したとしても、それらの発話を1つの意図検索子で表すことができる。よって、利用者の発話する文言とその対応とを対応付けたデータベースを用いる場合と比べて、対応記述子を検索するために必要な処理量を低減することができる。 According to the above configuration, the intention searcher indicating the user's intention is acquired, and the correspondence descriptor corresponding to the intention searcher is specified. Therefore, the voice interactive apparatus performs a response according to the user's intention. be able to. In addition, since the intention searcher is a searcher indicating the user's intention, it is easy to cover various expressions of the user as compared with the case where the words spoken by the user are used as they are as searchers. For example, if the user's intention is the same, even if the words spoken by honorific or dialect change, those utterances can be represented by one intention searcher. Therefore, compared with the case where the database which matched the wording of a user and the correspondence is used, the processing amount required in order to search a correspondence descriptor can be reduced.
したがって、上記の構成によれば、多様な表現の発話に対し、その意図に応じた対応を速やかに特定することができる。なお、意図検索子は、対応決定装置が生成してもよいし、外部機器から取得してもよい。また、対応記述子の示す対応は、音声対話装置が利用者に向けて実行するものであればよく、利用者向けの発話であってもよいし、それ以外の動作であってもよい。 Therefore, according to said structure, the response | compatibility according to the intention with respect to the utterance of various expressions can be specified rapidly. The intention searcher may be generated by the correspondence determination device or may be acquired from an external device. In addition, the correspondence indicated by the correspondence descriptor is not limited as long as the voice interactive device executes for the user, and may be an utterance for the user or other operation.
本発明の態様2に係る対応決定装置は、上記態様1において、上記対応記述子検索情報の上記意図検索子には、当該意図検索子の示す意図に関連する語句(対象)が含まれており、上記対応記述子検索部は、上記意図検索子取得部が取得した意図検索子に、上記利用者の発話から抽出された語句が含まれる場合、当該語句を含む意図検索子に対応付けられた上記対応記述子を特定してもよい。
In the correspondence determination apparatus according to
上記の構成によれば、利用者が特定の語句を発話した場合に、その利用者の意図に対応し、かつその語句にも対応する対応記述子が特定される。よって、利用者の意図に対応し、かつ特定の語句にも対応する対応を音声対話装置に実行させることができる。 According to the above configuration, when a user utters a specific word / phrase, a correspondence descriptor corresponding to the intention of the user and corresponding to the word / phrase is specified. Therefore, it is possible to cause the voice interactive apparatus to execute a response corresponding to the user's intention and corresponding to a specific word / phrase.
本発明の態様3に係る対応決定装置は、上記態様1または2において、所定の事象の発生を検出する事象検出部(情報取得部21)を備え、上記意図検索子取得部は、上記事象検出部が上記所定の事象の発生を検出した場合に、当該事象に応じた意図検索子を取得してもよい。
The correspondence determination apparatus according to
上記の構成によれば、所定の事象の発生時における利用者の意図に応じた対応を決定することができる。よって、利用者が発話していない場合であっても、音声対話装置から主体的に利用者に話しかける等の能動的な対話が実現可能となる。なお、所定の事象は、音声対話装置が対応を行う契機として適当なものであればよい。例えば、音声対話装置がバッテリーで駆動するものであれば、そのバッテリー残量が少ない状態となっていることを上記所定の事象の発生として検出してもよい。 According to said structure, the response | compatibility according to the user's intention at the time of occurrence of a predetermined event can be determined. Therefore, even when the user is not speaking, it is possible to realize an active dialogue such as talking to the user independently from the voice dialogue apparatus. Note that the predetermined event may be any event that is appropriate as an opportunity for the voice interaction apparatus to respond. For example, if the voice interactive apparatus is driven by a battery, it may be detected as the occurrence of the predetermined event that the remaining battery level is low.
本発明の態様4に係る対応決定装置は、上記態様1から3のいずれかにおいて、上記意図検索子取得部により取得された意図検索子に対応する対応記述子を外部機器から取得する対応記述子取得部(対応記述子検索部29)を備えていてもよい。
The correspondence determination apparatus according to
上記の構成によれば、取得された意図検索子に対応する対応記述子を外部機器から取得するので、対応決定装置内で適切な対応記述子を検出できない場合であっても、外部機器から取得した対応記述子を用いて音声対話装置に対応を実行させることができる。また、対応決定装置内で対応記述子を検出できた場合であっても、外部機器からより適切な対応記述子を取得できた場合には、外部機器から取得した対応記述子を用いて、音声対話装置により適切な対応を実行させることができる。 According to the above configuration, since the correspondence descriptor corresponding to the acquired intention searcher is acquired from the external device, even if it is not possible to detect an appropriate correspondence descriptor in the correspondence determination device, it is acquired from the external device. It is possible to cause the voice interaction apparatus to execute the correspondence using the correspondence descriptor. Even if the correspondence descriptor can be detected in the correspondence determination device, if a more appropriate correspondence descriptor can be obtained from the external device, the correspondence descriptor obtained from the external device can be used to An appropriate response can be executed by the interactive device.
本発明の態様5に係る対応決定装置は、上記態様1から4のいずれかにおいて、上記対応記述子検索部が特定した上記対応記述子の示す対応が実行される前に、上記利用者により新たな発話が行われた場合に、上記対応の実行を停止または中止する対応制御部(30)を備えていてもよい。
The correspondence determining apparatus according to
上記の構成によれば、音声対話装置が利用者の発話に応じた対応を実行する前に、該利用者により新たな発話が行われた場合に、上記対応の実行を停止または中止する。よって、利用者が連続して発話する場合に、音声対話装置の対応が利用者の発話を妨げたり、音声対話装置に不自然な対応をさせたりすることを防ぐことができる。 According to the above configuration, when a new utterance is made by the user before the voice interactive apparatus executes a response according to the user's utterance, the execution of the response is stopped or stopped. Therefore, when the user continuously speaks, it is possible to prevent the correspondence of the voice interaction device from hindering the user's speech or causing the voice interaction device to perform an unnatural response.
本発明の態様6に係る対応決定装置は、上記態様1から5のいずれかにおいて、上記発話後の上記利用者が上記意図検索子の生成対象となる内容の発話を行っていない場合に、上記対応記述子検索部が特定した上記対応記述子の示す対応の実行タイミングを遅らせるタイミング制御部(対応制御部30)を備えていてもよい。
The correspondence determination device according to aspect 6 of the present invention provides the correspondence determination apparatus according to any one of the
上記の構成によれば、発話後の利用者が意図検索子の生成対象となる内容の発話を行っていない場合に、対応の実行を遅らせることにより、利用者の次の発話を妨げることなく、自然なタイミングで音声対話装置に応答させることが可能になる。 According to the above configuration, when the user after the utterance does not utter the content to be generated by the intention searcher, by delaying the execution of the response, the user's next utterance is not hindered. It becomes possible to make the voice interaction device respond at a natural timing.
なお、「意図検索子の生成対象となる内容の発話を行っていない場合」には、利用者が何ら発話していない場合の他、「ええと」や「うーん」等の感動詞が発話された場合のように、利用者の特定の意図が反映されていない発話が行われた場合も含まれる。よって、上記の構成は、利用者の意図を含む発話の後に「間」が生じたときに、その発話に対する対応の実行タイミングを遅らせる構成であるとも言える。 In addition, in the case of “not uttering the content for which the intention searcher is to be generated”, in addition to the case where the user does not utter anything, a moving verb such as “um” or “um” is uttered. This also includes the case where an utterance that does not reflect the specific intention of the user is made, as in Therefore, it can be said that the above configuration is a configuration in which the execution timing of the response to the utterance is delayed when an “interval” occurs after the utterance including the intention of the user.
本発明の態様7に係る対応決定装置は、上記態様1から6のいずれかにおいて、上記音声対話装置の所定の発話に対する利用者の応答として想定される発話内容(想定発話)と、該発話内容に対する上記音声対話装置の応答内容とが対応付けられたリンク情報(隣接ペアテーブル40)を参照して、上記音声対話装置が上記所定の発話を行った後の上記音声対話装置の対応を決定するリンク応答部(話題管理部23、話題取得部24)を備えていてもよい。
The correspondence determining apparatus according to aspect 7 of the present invention provides the utterance content (assumed utterance) assumed as a user's response to the predetermined utterance of the voice interactive device according to any of the
上記の構成によれば、音声対話装置が所定の発話を行ったときには、意図検索子を生成することなく、リンク情報を用いてさらに速やかに対応を決定することができる。このように、意図検索子を用いた対応の決定と、リンク情報を用いた対応の決定とを併用することにより、利用者の意図を汲んだ対応を実現しつつ、状況に応じてリンク情報で対応を決定して、対応決定のために必要な処理の負荷を減らすことができる。 According to the above configuration, when the voice interactive apparatus makes a predetermined utterance, it is possible to determine the response more quickly using the link information without generating an intention searcher. In this way, by combining the determination of the correspondence using the intention searcher and the determination of the correspondence using the link information, while realizing the correspondence based on the user's intention, the link information can be used depending on the situation. By determining the response, the processing load required for determining the response can be reduced.
本発明の態様8に係る音声対話システム(100、200)は、音声対話装置(1、70)にて利用者と音声対話を行う音声対話システムであって、上記利用者の意図を示す意図検索子と、上記音声対話装置の対応を示す対応記述子とが対応付けられた対応記述子検索情報(対応記述子検索テーブル42)を参照して、上記利用者の発話を解析して生成された意図検索子に対応する対応記述子を特定する対応決定装置(音声対話装置1、対応決定装置80)を含み、上記音声対話装置は、上記利用者の上記発話に対し、上記対応決定装置が特定した上記対応記述子の示す対応を実行する。よって、上記態様1と同様の効果を奏する。
A voice dialogue system (100, 200) according to an aspect 8 of the present invention is a voice dialogue system that performs a voice dialogue with a user using a voice dialogue device (1, 70), and an intention search that indicates the intention of the user. Generated by analyzing the user's utterance with reference to correspondence descriptor search information (correspondence descriptor search table 42) in which a child and a correspondence descriptor indicating the correspondence of the voice interactive device are associated with each other A correspondence determination device (
本発明の態様9に係る対応決定装置の制御方法は、利用者と音声対話を行う音声対話装置(1)が該利用者の発話に応じて行う対応を決定する対応決定装置の制御方法であって、上記発話を解析して生成された上記利用者の意図を示す意図検索子を取得する意図検索子取得ステップと、上記意図検索子と上記音声対話装置の対応を示す対応記述子とが対応付けられた対応記述子検索情報(対応記述子検索テーブル42)を参照して、上記意図検索子取得ステップにて取得された意図検索子に対応する対応記述子を特定する対応記述子検索ステップと、を含む。よって、上記態様1と同様の効果を奏する。 The control method of the correspondence determining apparatus according to aspect 9 of the present invention is a control method of the correspondence determining apparatus that determines the correspondence that the voice interactive device (1) that performs a voice conversation with the user according to the utterance of the user. The intention searcher acquisition step for acquiring the intention searcher indicating the user's intention generated by analyzing the utterance corresponds to the correspondence descriptor indicating the correspondence between the intention searcher and the voice interactive apparatus. A corresponding descriptor search step for identifying a corresponding descriptor corresponding to the intention searcher acquired in the intention searcher acquisition step with reference to the attached corresponding descriptor search information (corresponding descriptor search table 42); ,including. Therefore, the same effects as those of the first aspect are obtained.
本発明の態様10に係る音声対話装置(1)は、上記対応決定装置を備え、利用者の発話に対し、該対応決定装置が決定した対応を実行する。よって、上記態様1と同様の効果を奏する。
A spoken dialogue apparatus (1) according to
本発明の態様11に係る音声対話装置(70)は、利用者と音声対話を行う音声対話装置であって、上記利用者の意図を示す意図検索子と、上記音声対話装置の対応を示す対応記述子とが対応付けられた対応記述子検索情報(対応記述子検索テーブル42)を参照して特定された、上記利用者の発話を解析して生成された意図検索子に対応する対応記述子を、外部機器から取得する対応記述子取得部と、上記対応記述子取得部が取得した上記対応記述子が示す対応を実行する対応制御部と、を備えている。よって、上記態様1と同様の効果を奏する。
A voice interaction apparatus (70) according to an
本発明の各態様に係る対応決定装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記対応決定装置が備える各部(ソフトウェア要素)として動作させることにより上記対応決定装置をコンピュータにて実現させる対応決定装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。 The correspondence determination apparatus according to each aspect of the present invention may be realized by a computer. In this case, the correspondence determination apparatus is operated on each computer by causing the computer to operate as each unit (software element) included in the correspondence determination apparatus. The control program for the correspondence determination apparatus to be realized in this way and a computer-readable recording medium on which the control program is recorded also fall within the scope of the present invention.
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。 The present invention is not limited to the above-described embodiments, and various modifications are possible within the scope shown in the claims, and embodiments obtained by appropriately combining technical means disclosed in different embodiments. Is also included in the technical scope of the present invention. Furthermore, a new technical feature can be formed by combining the technical means disclosed in each embodiment.
本発明は、利用者と音声対話を行う音声対話装置に利用することができる。 The present invention can be used in a voice dialogue apparatus that performs voice dialogue with a user.
1 音声対話装置(対応決定装置)
4 対応記述子検索装置(外部機器、対応決定装置)
70 音声対話装置
80 対応決定装置
21 情報取得部(事象検出部)
23 話題管理部(リンク応答部)
24 話題取得部(リンク応答部)
25 意図検索子生成部(意図検索子取得部)
29 対応記述子検索部(対応記述子取得部)
30 対応制御部(タイミング制御部)
40 隣接ペアテーブル(リンク情報)
42 対応記述子検索テーブル(対応記述子検索情報)
100、200 音声対話システム1 Spoken Dialogue Device (Correspondence Determination Device)
4. Corresponding descriptor search device (external device, correspondence determining device)
70
23 Topic Management Department (Link Response Department)
24 Topic acquisition unit (link response unit)
25 Intention Searcher Generation Unit (Intention Searcher Acquisition Unit)
29 Corresponding descriptor search part (corresponding descriptor acquisition part)
30 Corresponding control unit (timing control unit)
40 Adjacent pair table (link information)
42 Corresponding descriptor search table (corresponding descriptor search information)
100, 200 Spoken dialogue system
Claims (11)
上記発話を解析して生成された上記利用者の意図を示す意図検索子を取得する意図検索子取得部と、
上記意図検索子と上記音声対話装置の対応を示す対応記述子とが対応付けられた対応記述子検索情報を参照して、上記意図検索子取得部により取得された意図検索子に対応する対応記述子を特定する対応記述子検索部と、を備えていることを特徴とする対応決定装置。A voice interaction device that performs a voice conversation with a user is a correspondence determination device that determines a correspondence to be performed according to the user's utterance,
An intention searcher acquisition unit for acquiring an intention searcher indicating the intention of the user generated by analyzing the utterance;
The correspondence description corresponding to the intention searcher acquired by the intention searcher acquisition unit with reference to the correspondence descriptor search information in which the intention searcher and the correspondence descriptor indicating the correspondence of the voice interactive device are associated with each other A correspondence determination apparatus comprising: a correspondence descriptor search unit that identifies a child.
上記対応記述子検索部は、上記意図検索子取得部が取得した意図検索子に、上記利用者の発話から抽出された語句が含まれる場合、当該語句を含む意図検索子に対応付けられた上記対応記述子を特定することを特徴とする請求項1に記載の対応決定装置。The intention searcher of the corresponding descriptor search information includes a phrase related to the intention indicated by the intention searcher.
When the intention searcher acquired by the intention searcher acquisition unit includes a phrase extracted from the user's utterance, the correspondence descriptor search unit is associated with the intention searcher including the phrase The correspondence determination apparatus according to claim 1, wherein a correspondence descriptor is specified.
上記意図検索子取得部は、上記事象検出部が上記所定の事象の発生を検出した場合に、当該事象に応じた意図検索子を取得することを特徴とする請求項1または2に記載の対応決定装置。An event detector for detecting occurrence of a predetermined event;
3. The response according to claim 1, wherein the intention searcher acquisition unit acquires an intention searcher corresponding to the event when the event detection unit detects the occurrence of the predetermined event. Decision device.
上記利用者の意図を示す意図検索子と、上記音声対話装置の対応を示す対応記述子とが対応付けられた対応記述子検索情報を参照して、上記利用者の発話を解析して生成された意図検索子に対応する対応記述子を特定する対応決定装置を含み、
上記音声対話装置は、上記利用者の上記発話に対し、上記対応決定装置が特定した上記対応記述子の示す対応を実行する、ことを特徴とする音声対話システム。A voice dialogue system for carrying out a voice dialogue with a user using a voice dialogue device,
Generated by analyzing the user's utterance with reference to the corresponding descriptor search information in which the intention searcher indicating the user's intention is associated with the corresponding descriptor indicating the correspondence of the voice interactive device A correspondence determining device that identifies a correspondence descriptor corresponding to the intention searcher,
The voice dialogue system, wherein the voice dialogue system executes the correspondence indicated by the correspondence descriptor specified by the correspondence decision device with respect to the utterance of the user.
上記発話を解析して生成された上記利用者の意図を示す意図検索子を取得する意図検索子取得ステップと、
上記意図検索子と上記音声対話装置の対応を示す対応記述子とが対応付けられた対応記述子検索情報を参照して、上記意図検索子取得ステップにて取得された意図検索子に対応する対応記述子を特定する対応記述子検索ステップと、を含むことを特徴とする対応決定装置の制御方法。A control method of a correspondence determination device for determining a correspondence that a voice dialogue device that performs a voice dialogue with a user performs according to the utterance of the user,
An intention searcher acquisition step of acquiring an intention searcher indicating the intention of the user generated by analyzing the utterance;
The correspondence corresponding to the intention searcher acquired in the intention searcher acquisition step with reference to the correspondence descriptor search information in which the correspondence descriptor indicating the correspondence between the intention searcher and the voice interactive device is associated. And a correspondence descriptor search step for specifying a descriptor.
上記利用者の意図を示す意図検索子と、上記音声対話装置の対応を示す対応記述子とが対応付けられた対応記述子検索情報を参照して特定された、上記利用者の発話を解析して生成された意図検索子に対応する対応記述子を、外部機器から取得する対応記述子取得部と、
上記対応記述子取得部が取得した上記対応記述子が示す対応を実行する対応制御部と、を備えていることを特徴とする音声対話装置。A voice dialogue device for carrying out a voice dialogue with a user,
Analyzing the user's utterance identified with reference to the corresponding descriptor search information in which the intention searcher indicating the user's intention and the corresponding descriptor indicating the correspondence of the voice interactive device are associated with each other. A corresponding descriptor acquisition unit for acquiring a corresponding descriptor corresponding to the intention search element generated from the external device;
A spoken dialogue apparatus comprising: a correspondence control unit that executes a correspondence indicated by the correspondence descriptor obtained by the correspondence descriptor obtaining unit.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014266342 | 2014-12-26 | ||
JP2014266342 | 2014-12-26 | ||
PCT/JP2015/084825 WO2016104193A1 (en) | 2014-12-26 | 2015-12-11 | Response determination device, speech interaction system, method for controlling response determination device, and speech interaction device |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2016104193A1 true JPWO2016104193A1 (en) | 2017-05-25 |
Family
ID=56150223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016566114A Pending JPWO2016104193A1 (en) | 2014-12-26 | 2015-12-11 | Correspondence determining device, voice dialogue system, control method of correspondence determining device, and voice dialogue device |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2016104193A1 (en) |
WO (1) | WO2016104193A1 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022067823A (en) * | 2020-10-21 | 2022-05-09 | 学校法人早稲田大学 | Information reproduction program, information reproduction method, information processing device, and data structure |
JP7299538B1 (en) | 2022-02-24 | 2023-06-28 | 富士通クライアントコンピューティング株式会社 | Information processing device and program |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002307354A (en) * | 2000-11-07 | 2002-10-23 | Sega Toys:Kk | Electronic toy |
JP2006146008A (en) * | 2004-11-22 | 2006-06-08 | National Institute Of Advanced Industrial & Technology | Speech recognition device and method, and program |
JP2006277519A (en) * | 2005-03-30 | 2006-10-12 | Toshiba Corp | Interaction device, interaction scenario editing device, interaction method and program |
JP2007219149A (en) * | 2006-02-16 | 2007-08-30 | Toyota Central Res & Dev Lab Inc | Response generation device, method and program |
JP2010002941A (en) * | 2006-10-13 | 2010-01-07 | Frepar Networks Inc | Information providing system |
JP2010034695A (en) * | 2008-07-25 | 2010-02-12 | Toshiba Corp | Voice response device and method |
JP2010152119A (en) * | 2008-12-25 | 2010-07-08 | Toyota Central R&D Labs Inc | Response generation device and program |
JP2014098844A (en) * | 2012-11-15 | 2014-05-29 | Ntt Docomo Inc | Interaction support device, interaction system, interaction support method, and program |
-
2015
- 2015-12-11 JP JP2016566114A patent/JPWO2016104193A1/en active Pending
- 2015-12-11 WO PCT/JP2015/084825 patent/WO2016104193A1/en active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002307354A (en) * | 2000-11-07 | 2002-10-23 | Sega Toys:Kk | Electronic toy |
JP2006146008A (en) * | 2004-11-22 | 2006-06-08 | National Institute Of Advanced Industrial & Technology | Speech recognition device and method, and program |
JP2006277519A (en) * | 2005-03-30 | 2006-10-12 | Toshiba Corp | Interaction device, interaction scenario editing device, interaction method and program |
JP2007219149A (en) * | 2006-02-16 | 2007-08-30 | Toyota Central Res & Dev Lab Inc | Response generation device, method and program |
JP2010002941A (en) * | 2006-10-13 | 2010-01-07 | Frepar Networks Inc | Information providing system |
JP2010034695A (en) * | 2008-07-25 | 2010-02-12 | Toshiba Corp | Voice response device and method |
JP2010152119A (en) * | 2008-12-25 | 2010-07-08 | Toyota Central R&D Labs Inc | Response generation device and program |
JP2014098844A (en) * | 2012-11-15 | 2014-05-29 | Ntt Docomo Inc | Interaction support device, interaction system, interaction support method, and program |
Also Published As
Publication number | Publication date |
---|---|
WO2016104193A1 (en) | 2016-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7418526B2 (en) | Dynamic and/or context-specific hotwords to trigger automated assistants | |
JP7354301B2 (en) | Detection and/or registration of hot commands to trigger response actions by automated assistants | |
US8935163B2 (en) | Automatic conversation system and conversation scenario editing device | |
US10878808B1 (en) | Speech processing dialog management | |
EP3895161B1 (en) | Utilizing pre-event and post-event input streams to engage an automated assistant | |
KR102498811B1 (en) | Dynamic and/or context specific hotwords to invoke automated assistants | |
US9240180B2 (en) | System and method for low-latency web-based text-to-speech without plugins | |
JP2017049471A (en) | Dialogue control apparatus, dialogue control method, and program | |
US11532301B1 (en) | Natural language processing | |
JP7371135B2 (en) | Speaker recognition using speaker specific speech models | |
TWI660341B (en) | Search method and mobile device using the same | |
US10783876B1 (en) | Speech processing using contextual data | |
US11756538B1 (en) | Lower latency speech processing | |
CN116917984A (en) | Interactive content output | |
WO2016104193A1 (en) | Response determination device, speech interaction system, method for controlling response determination device, and speech interaction device | |
US11626107B1 (en) | Natural language processing | |
JP6559417B2 (en) | Information processing apparatus, information processing method, dialogue system, and control program | |
JP6787472B2 (en) | Dialogue control device, dialogue control method and program | |
US11626105B1 (en) | Natural language processing | |
JP2024054168A (en) | Information processing device and program | |
Prins | Lexicalization in Adults Who Stutter: Response to Au-Yeung and Howell (1999) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180424 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20181016 |