WO2007088877A1 - 会話システムおよび会話ソフトウェア - Google Patents

会話システムおよび会話ソフトウェア Download PDF

Info

Publication number
WO2007088877A1
WO2007088877A1 PCT/JP2007/051576 JP2007051576W WO2007088877A1 WO 2007088877 A1 WO2007088877 A1 WO 2007088877A1 JP 2007051576 W JP2007051576 W JP 2007051576W WO 2007088877 A1 WO2007088877 A1 WO 2007088877A1
Authority
WO
WIPO (PCT)
Prior art keywords
domain
processing unit
utterance
conversation
conversation system
Prior art date
Application number
PCT/JP2007/051576
Other languages
English (en)
French (fr)
Inventor
Mikio Nakano
Hiroshi Tsujino
Yohane Takeuchi
Kazunori Komatani
Hiroshi Okuno
Original Assignee
Honda Motor Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co., Ltd. filed Critical Honda Motor Co., Ltd.
Priority to US12/087,791 priority Critical patent/US8996385B2/en
Priority to JP2007556883A priority patent/JP5248867B2/ja
Publication of WO2007088877A1 publication Critical patent/WO2007088877A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding

Definitions

  • the present invention relates to a conversation system that understands a user's input utterance and generates an output utterance to the user.
  • the voice conversation system provides the user with necessary database information that stores information on specific domains such as route guidance, road traffic information, and weather information after searching for necessary information.
  • a voice conversation system including a plurality of databases storing information of each of a plurality of domains has been proposed.
  • various techniques relating to domain selection have been proposed as disclosed in the following documents.
  • the present invention provides a user interaction with the user while improving the followability to the user's utterance content.
  • the problem to be solved is to provide a system capable of proceeding with conversation and software that allows a computer to function as the conversation system.
  • a conversation system for solving the above-described problem includes a first processing unit that understands an input utterance to a voice input device, and a plurality of domains based on an utterance understanding result by the first processing unit.
  • a second processing unit that selects one domain from the inn, and a third processing unit that generates an output utterance of the voice output device power based on the domain selected by the second processing unit.
  • the second processing unit includes a first domain that satisfies a first condition related to a current utterance understanding result by the first processing unit from the plurality of domains, and a selection history by the second processing unit.
  • a part of or all of the second index representing the reliability and the third index representing the reliability in consideration of the utterance generation history by the third processing unit were evaluated, and the selection rule was applied based on the evaluation result.
  • One of the first domain, the second domain, and the third domain different from the first domain and the second domain is selected as the current domain.
  • one or more "first domains" satisfying the "first condition" related to the current utterance understanding result among a plurality of domains are included in the options of the current domain It is. For this reason, a domain with high reliability can be selected as the current domain in consideration of the current utterance understanding result.
  • one or more “second domains” that satisfy the “second condition” related to the selection history among the plurality of domains are included in the options of the current domain. Therefore, a domain with high reliability can be selected as the current domain in consideration of the selection history.
  • the current domain is selected based on the evaluation results of some or all of the first, second, and third indices for the first and second domains, respectively. For this reason, a domain with high reliability can be selected as the current domain in consideration of some or all of the utterance understanding history, the selection history, and the utterance generation history. [0009] In addition to the first and second domains, one or more "third domains" are also included in the choices of this domain. For this reason, when the first and second domains are inappropriate as the current domain in light of some or all of the evaluation results of the first, second and third indices, the first and second domains are not the first and second domains. Three domains can be selected as the current domain.
  • the domain is i.
  • the domain is specified as the second domain with the second condition being within the range.
  • the second processing unit is an index indicating the presence or absence of an acknowledgment for each of the first domain and the second domain, Index indicating presence / absence of negative response, number of slot updates, cumulative number of positive responses, cumulative number of negative responses, cumulative number of slot updates, number of utterance understanding, acoustic score of utterance understanding result, posterior probability of utterance understanding result, and utterance understanding
  • the first index is evaluated based on at least one of the arithmetic average word reliability.
  • the index indicating the presence / absence of selection by the second processing unit for each of the first domain and the second domain and the number of selections Evaluating the second index based on at least one of It is characterized by.
  • the conversation system of the seventh invention is the conversation system of the first invention, wherein the second processing unit determines whether or not the task has been achieved for each of the first domain and the second domain.
  • the third index is evaluated based on at least one of an index and a cumulative number of task achievements.
  • the conversation system of the eighth invention is characterized in that, in the conversation system of the first invention, the second processing section selects the current domain according to the decision tree as the selection rule.
  • a conversation program for solving the above problem includes a first processing unit that understands an input utterance to a voice input device, and a plurality of domains based on an utterance understanding result by the first processing unit.
  • V a conversation system comprising: a second processing unit that selects one domain from the inside; and a third processing unit that generates an output utterance from the audio output device based on the domain selected by the second processing unit.
  • a first domain that satisfies a first condition relating to a current utterance understanding result by the first processing unit, and a second domain, wherein the second processing unit is a medium program of the plurality of domains.
  • a second domain that satisfies the second condition regarding the selection history by the processing unit is identified, and each of the first domain and the second domain is trusted in consideration of the utterance understanding history by the first processing unit.
  • a first index representing the second index, a second index representing the reliability considering the selection history by the second processing unit, and a part of the third index representing the reliability considering the utterance generation history by the third processing unit Alternatively, the entire domain is evaluated, and one domain is selected from the first domain, the second domain, and the third domain different from the first domain and the second domain according to the selection rule based on the evaluation result.
  • the computer is made to function so as to be selected as the current domain.
  • the computer can function as a conversation system that can advance conversation with the user while improving followability of the utterance content of the user.
  • a computer function as a conversation system means that a conversation program is stored in a storage device such as a ROM of a computer, an arithmetic processing unit such as a CPU of the computer is read by the storage device, and the conversation program is read. This means that processing such as domain selection as described above is executed in accordance with the conversation program.
  • FIG. 1 Example configuration of a conversation system
  • a conversation system 100 shown in FIG. 1 includes, for example, a computer as hardware incorporated in a navigation system installed in an automobile, and a “conversation program as software stored in the memory of the computer”. ].
  • the conversation program may be stored in the memory in advance. However, the conversation program may be installed in the computer via a storage medium such as a CD-ROM and distributed or broadcasted to the computer through a network. It will be stored.
  • the conversation system 100 includes a first speech recognition unit 104, a second speech recognition unit 106, a domain selection unit (second processing unit) 108, a plurality of first utterance processing units 110, and a second utterance processing.
  • the second speech recognition unit 102 and the second utterance processing unit 120 may be omitted.
  • the first speech recognition unit 101 is based on the speech input to the microphone (speech input device) according to a known method such as the hidden Markov model method and uses the small vocabulary dictionary DB to recognize.
  • the second voice recognition unit 102 Based on the voice input to the microphone, the second voice recognition unit 102 recognizes the user's uttered voice using a known vocabulary such as a hidden Markov model and a large vocabulary dictionary DB.
  • the domain selection unit 104 selects one domain from a plurality of domains.
  • the first utterance processing unit 110 includes an utterance understanding unit (first processing unit) 111, a conversation state storage unit 112, an utterance generation unit (third processing unit) 113, and a language understanding DB (DB: database). 114, an utterance generation DB 115, and a task DB 116.
  • Each of the plurality of first utterance processing units 110 is assigned to each of a plurality of different domains such as “restaurant domain” and “hotel domain”. It corresponds.
  • the utterance understanding unit 111 Based on the first speech recognition result by the first speech recognition unit 101, the utterance understanding unit 111 understands the utterance content using the language understanding knowledge stored in the language understanding DB 114.
  • the conversation state storage unit 112 stores the utterance understanding result by the utterance understanding unit 111 and the like.
  • the utterance generation unit 113 is stored in the conversation state storage unit 112!,
  • the language understanding DB 114 stores “language understanding knowledge” necessary for understanding language elements.
  • Each of DBs 114, 115, and 116 stores knowledge specific to the domain corresponding to the first utterance processing unit.
  • the second utterance processing unit 120 includes a keyword detection unit 122, an utterance generation unit 124, and a chat generation DB 126.
  • the second utterance processing unit 120 corresponds to “chat domain”.
  • the keyword detection unit 122 detects a keyword according to the chat generation knowledge stored in the chat generation DB 126 based on the second speech recognition result by the second speech recognition unit 102.
  • the utterance generation unit 124 uses the keyword detected by the keyword detection unit 122 and stores it in the chat generation DB 126 to generate utterance text for chat using the chat generation knowledge.
  • the chat generation DB 126 stores “chat generation knowledge” necessary for generating the chat text.
  • the utterance selection unit 132 confirms the content of the utterance generated by the utterance generation unit 113 in the first utterance processing unit 110 or the content of the utterance generated by the utterance generation unit 124 in the second utterance processing unit 120.
  • the speech synthesizer 134 synthesizes the content of the utterance confirmed by the utterance selection unit 132 as speech, and causes the speaker (speech output device) to output the speech as the synthesized speech.
  • the conversation system 100 is installed!
  • the user's cumulative number of utterances at the timing such as when the car field idling switch is switched from OFF to ON and the conversation system 100 and the OFF power are both switched on.
  • the first speech recognition unit 101 is based on the output signal from the microphone corresponding to the input utterance and the small vocabulary dictionary DB.
  • the language element (for example, word) candidate included in the input utterance is recognized using the “small vocabulary dictionary” stored in (Fig. 2ZS002). For example, the first utterance W (k
  • first set N (highest likelihood) N pieces of G (k) and second language element W (k)
  • the number of language elements N may be the same or different.
  • the first speech recognition unit 101 uses the first set G (k) and the second set G (k).
  • the language included in the input utterance is stored using the "large vocabulary dictionary" stored in the large vocabulary dictionary DB. Recognize element candidates ( Figure 2ZS003).
  • the “large vocabulary dictionary” used by the second speech recognition unit 102 has a larger number of registered language elements than the “small vocabulary dictionary” used by the first speech recognition unit 101. For this reason, the second speech recognition unit 102 recognizes even a language element such as V that cannot be recognized by the first speech recognition unit 101, although the speech recognition accuracy is slightly lower than that of the first speech recognition unit 101. can do.
  • the second speech recognition unit 102 outputs the second speech recognition result to the keyword detection unit 122 of the second utterance processing unit 120, and the keyword detection unit 122 is based on the second speech recognition result, and The keyword is detected using “chat generation knowledge” stored in the chat generation DB 126 (FIG. 2ZS005).
  • the utterance understanding unit 111 understands an input utterance using language understanding knowledge based on the first speech recognition result (FIG. 2ZS006). Specifically, the utterance understanding unit 111 selects the language understanding DB 114 from the first set G (k).
  • the utterance comprehension unit 111 selects the language understanding DB 114 from the second set G (k).
  • the second language element candidate E (k) that matches one of the plurality of second dictionary language elements stored as a part of “” is preferentially searched from the one with the highest likelihood.
  • the language comprehension DB 11 4 is informed of the information category> of “ku restaurant name” as the language comprehension knowledge.
  • a plurality of restaurant names are stored as a plurality of first dictionary language elements, and a plurality of information categories such as addresses, contacts, directions, and related information are stored as a plurality of second dictionary language elements.
  • the first language having the highest likelihood in the first set G (k) that matches one of the plurality of restaurant names by the speech understanding unit 111
  • Element candidate E (k) (for example, “Bistro 00”) is searched, and the plurality of information categories
  • Second language element candidate E (with the highest likelihood in the second set G (k) that matches one of
  • the language comprehension DB 114 stores a sentence "tell ⁇ accommodation facility name> information category>" as language comprehension knowledge.
  • the first language element candidate whose likelihood is third in the first set G (k) that matches one of the plurality of regional names by the speech understanding unit 111
  • E (k) (eg “Hotel ⁇ ”) is searched and one of the multiple information categories
  • the second language element candidate E (k) with the highest likelihood in the second set G (k) (for example,
  • the utterance understanding result by the utterance understanding unit 111 is stored in the conversation state storage unit 112.
  • the selected second language element candidate E (k) is stored in the “second slot” of the conversation state storage unit 112.
  • “name of restaurant” in the text “Tell me ⁇ information category> of restaurant name>” corresponds to the first slot
  • information category> corresponds to the second slot.
  • “Tell the ⁇ accommodation name> information category>” and “accommodation name in the text” is in the first slot.
  • Applicable and ⁇ Information category> corresponds to the second slot.
  • the storage of the second language element candidate E (k) in the second slot may be omitted.
  • the first speech recognition result is a positive response such as “Yes” or “Yes”, or if the first speech recognition result is a negative response such as “No” or “No”
  • a flag indicating that there is an affirmative response or a negative response and the number of times of the response is stored in the conversation state storage unit 112 of the first utterance processing unit 110 corresponding to the previous selected domain.
  • the storage state of language element candidates in each slot is also stored in the conversation state storage unit 112 as a conversation state.
  • the conversation state storage unit 112 This is stored in the conversation state storage unit 112 as a conversation state.
  • the first language element candidate E (k) is stored in the first slot and the second language element candidate is stored.
  • Supplement E (k) is stored in the second slot as a conversation state in the conversation state storage unit 112.
  • the “conversation state” may include an index k indicating the cumulative number of utterances of the user.
  • the utterance understanding unit 111 reads the conversation state stored in the conversation state storage unit 112 and outputs it to the domain selection unit 104. Then, the domain selection unit 104 identifies one or more domains that satisfy the “first condition” regarding the utterance understanding result from among the plurality of domains as “first domain” (FIG. 2ZS010).
  • the first language element candidate E (k) is stored in the first slot.
  • the first language element candidate E (k) with the highest likelihood is specially designated as the meal domain power S “first domain” stored in the first slot.
  • the domain selection unit 104 determines whether or not the index k power “l” representing the cumulative number of utterances of the user is present (FIG. 2 ZS012).
  • the domain selection unit 104 selects the first domain as it is as the current domain (FIG. 2 / S018).
  • the first index, the second index, and the third index, which will be described later, are evaluated for each of the plurality of first domains.
  • One first domain may be selected based on the results.
  • the domain selection unit 104 selects one or more satisfying the “second condition” regarding the selection history from a plurality of domains.
  • a number of domains are identified as “second domains” (FIG. 2ZS014).
  • the domain selected last time is set as the “second condition” and the meal domain is selected as the previous domain among a plurality of domains.
  • the meal domain is identified as the “second domain”.
  • each index of the first utterance processing unit 110 corresponding to each of the first domain and the second domain is stored in the conversation normal state storage unit 112, and the index is based on various flags representing the conversation state. Be evaluated.
  • the “first index” represents the reliability in consideration of the utterance understanding history by the utterance understanding unit (first processing unit) 111.
  • the “first index” includes (1) an index indicating the presence / absence of an acknowledgment, (2) an index indicating the presence / absence of a negative response, (3) the number of slot updates, (4) the cumulative number of positive responses, and (5) a negative response.
  • the “acoustic score” is the similarity between the output signal from the microphone and the acoustic model prepared for each phoneme. It is an index to represent. “Language element reliability” refers to the degree of reliability of each domain from the viewpoint of how far the highest acoustic score out of each acoustic score of multiple language element candidates stands out from the other acoustic scores. It is an index to represent. For example, if the highest acoustic score is significantly higher than the other acoustic scores, the confidence level is evaluated high, while if the highest acoustic score is not so high, the confidence level is low. Be evaluated.
  • second index represents the reliability in consideration of the selection history by the domain selection unit (second processing unit) 104.
  • second index (1) an index indicating the presence or absence of selection, (2) the number of selections, and a function having at least one of these as variables is adopted.
  • third index represents the reliability in consideration of the utterance generation history by the utterance generation unit (third processing unit) 113.
  • “third index” (1) an index indicating whether or not a task has been achieved and (2) the cumulative number of times a task has been achieved, and at least one of these functions are adopted.
  • “Task achievement” means that the utterance generation unit 113 reads a text from the task DB 116 and generates an utterance using the read text, as will be described later.
  • the domain selection unit 104 adds to the first and second domains according to a predetermined selection rule based on the evaluation result of some or all of the first index, the second index, and the third index, Select one domain from the third domain ( Figure 2ZS018).
  • a selection rule a decision tree as shown in Fig. 4 can be adopted. Although only a part of the decision tree is shown in Fig. 4, the remaining part can be set appropriately in view of the characteristics of the 1st, 2nd and 3rd indices.
  • various selection rules such as a fuzzy rule using part or all of the first index, the second index, and the third index may be adopted as the selection rule.
  • the “third domain” for example, the “chat domain” corresponding to the second utterance processing unit 120 is specified.
  • the domain corresponding to the first utterance processing unit 110 may be specified as the “third domain”.
  • the domain selection unit 104 determines whether or not the selected domain is the first or second domain
  • the domain selection unit 104 determines that the selected domain is the first domain or the second domain (FIG. 2 ZS020'-YES)
  • the conversation state storage unit of the first utterance processing unit 110 corresponding to the selected domain The flag “1” indicating that a domain is selected in 112 and the number of times of selection Set the flag to indicate (Fig. 2 ZS022).
  • the domain selection unit 104 sets a flag “0” indicating that no domain has been selected in the conversation state storage unit 112 of the first utterance processing unit 110 corresponding to the non-selected domain (FIG. 2 ZS022).
  • all slots of the conversation state storage unit 112 are reset to an unstored state.
  • the utterance selection unit 132 inquires of the first utterance processing unit 110 corresponding to the selected domain about the output utterance.
  • the utterance generation unit 113 of the first utterance processing unit 110 reads the conversation state (the storage state of each slot is specified) from the conversation state storage unit 112, and the utterance generation knowledge from the utterance generation DB 115 And contrast the conversation state with the utterance generation knowledge (Fig. 3ZS024).
  • the utterance generation unit 113 determines whether or not the text (or language element) from the task DB 116 needs to be searched based on the comparison result (FIG. 3ZS026). For example, when all slots are stored (first language element candidate E (k) is stored in the first slot, and second language element candidate E (k) is stored in the second slot.
  • the utterance generation knowledge specifies that no text needs to be retrieved from the task DB 116.
  • the utterance generation unit 113 determines that text search is necessary (FIG. 3ZS026 •• YES)
  • a task achievement flag (which indicates that the task has been achieved and the number of times the task has been completed) is set in the conversation state storage unit 112 (FIG. 3ZS030).
  • the utterance generation unit 113 determines that there is no need to search the text from the task DB 116 (Fig. 3ZS026 ' ⁇ ⁇ )
  • the utterance text is generated using the utterance generation knowledge without using the text.
  • the utterance text for the query “What do you want to know about Bistro 00?” Is generated.
  • the domain selection unit 104 determines that the selected domain is the third domain (chat domain) (Fig. 2 ZS020 ' ⁇ ⁇ )
  • the second utterance processing unit 12 0 corresponding to the third domain
  • the utterance generation unit 124 generates chat utterance text using the keywords detected by the keyword detection unit 122, chat generation knowledge, and text searched on the Internet as necessary (FIG. 3ZS033). . If there are multiple third domains, it is appropriate for the conversation with the user, such as “What kind of information do you need?” To select one of the multiple third domains. Utterance text may be generated that asks the user directly about the correct domain.
  • the utterance generation unit 113 of the first utterance processing unit 110 or the utterance generation unit 126 of the second utterance processing unit 120 outputs the utterance text to the utterance selection unit 132. Also, the utterance selection unit 132 outputs the input utterance text to the speech synthesizer 134, and the speech synthesizer outputs the input utterance text as speech from the speaker (FIG. 3 / S034). As a result, the utterance voice “The address of Bistro 00 is Kyoto City X X Ward...” is output from the speaker.
  • the conversation system 100 determines whether or not the conversation with the user has ended (FIG. 3ZS036).
  • the conversation system 100 is installed! Is the idling switch of the car turned on? It is determined that the conversation has ended when the switch is turned off. On the other hand, when it is determined that the conversation between the conversation system 100 and the user is ongoing (Fig. 3ZS036- ⁇ NO), the index k indicating the accumulated number of utterances of the user is increased by 1 (Fig. 3ZS038). A series of processes after the first voice recognition (see Fig. 2ZS002) and the second voice recognition (see Fig. 2ZS003) are executed.
  • U represents the user's utterance
  • s represents the utterance of the conversation system 100.
  • the first system utterance S is the first user utterance U.
  • the second user utterance U is a repetition of the second user utterance U in response to the fact that the second domain “accommodation domain” is inappropriate as a conversation progression domain.
  • System utterance S is the 4th user utterance U This is the utterance that was output after selecting the “meal domain” as the third domain in the “accommodation domain” as the (third selected domain).
  • one or a plurality of "first domains" satisfying the "first condition" related to the current utterance understanding result among the plurality of domains are the options of the domain. Included (see Figure 2ZS010). Therefore, a domain with high reliability can be selected as the current domain in consideration of the current utterance understanding result.
  • one or more “second domains” satisfying the “second condition” related to the selection history among the plurality of domains are included in the options of the current domain (see FIG. 2 / S014). For this reason, a domain with high reliability can be selected as the current domain in consideration of the selection history.
  • the current domain is selected based on the evaluation results of some or all of the first, second, and third indices for the first and second domains, respectively (see FIG. 2ZS018). ). For this reason, a domain having high reliability as the domain for progressing conversation can be selected as the current domain in consideration of some or all of the utterance understanding history, the selection history, and the utterance generation history.
  • one or more "third domains" are also included in the choices for this domain. For this reason, when the first and second domains are inappropriate as the current domain in light of some or all of the evaluation results of the first, second and third indices, the first and second domains are not the first and second domains. Three domains can be selected as the current domain.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

 今回の発話理解結果に関する第1条件を満たす第1ドメインと、選択履歴に関する第2条件を満たす第2ドメインとが特定される。また、第1ドメインおよび該第2ドメインのそれぞれについて、発話理解履歴、選択履歴および発話生成履歴に鑑みた信頼度を表す指数が評価される。そして、当該評価結果に基づき、選択法則にしたがって第1、第2および第3ドメインのうち1つのドメインが今回のドメインとして選択される。

Description

明 細 書
会話システムおよび会話ソフトウェア
技術分野
[0001] 本発明は、ユーザの入力発話を理解し、かつ、ユーザへの出力発話を生成する会 話システム等に関する。
背景技術
[0002] カーナビゲーシヨン装置等の使いやすさの向上を図るため、ユーザとの音声会話が 可能なさまざまなシステムまたはインターフェイスが提案されて 、る。音声会話システ ムは、経路案内、道路交通情報、気象情報等、特定のドメインの情報が格納された データベース力も必要な情報を検索した上でユーザに対して提供する。また、ユー ザとのさまざまな会話を可能とするため、複数のドメインのそれぞれの情報を格納す る複数のデータベースを備えた音声会話システムも提案されて 、る。このような複数 のドメインに関する会話を意図した音声会話システムにおいて、ユーザの発話内容 に鑑みて適切なドメインを選択することが必要である。従来、次に示す文献に開示さ れて 、るようにドメインの選択に関するさまざまな技術が提案されて 、る。
[0003] 1. 「マルチドメイン音声対話システムの構築手法」長森誠ほか
情報処理学会研究報告, 2000-SLP-31-7, 2000
2. 「複数の音声対話システムの統合制御手法とその評価」河口信夫ほか 情報処理学会研究報告, 2001-SLP-36-10, 2001
a. I. O ' Neill et al. し ross domain dialogue modeling:
An oDject— based approach. In Proc. ICSLP, Vol.1, 2004
しかし、当該先行技術によれば、タスクが達成されるまでドメインの遷移が許容され なかったり、ドメインの遷移が許容されて ヽても現在選択されて!ヽるドメインに近!、ドメ インへの遷移のみが認容されたりするという制約がある。このため、ユーザの発話内 容に鑑みて不適切なドメインが数回にわたって選択されてしまい、ユーザとシステムと の会話が嚙み合わない状態が必要以上に永く維持される可能性があった。
[0004] そこで、本発明は、ユーザの発話内容への追従性の向上を図りながらユーザとの 会話を進行させうるシステム、およびコンピュータを当該会話システムとして機能させ るソフトウェアを提供することを解決課題とする。
発明の開示
[0005] 前記課題を解決するための第 1発明の会話システムは、音声入力装置への入力発 話を理解する第 1処理部と、該第 1処理部による発話理解結果に基づいて複数のドメ インの中から 1つのドメインを選択する第 2処理部と、該第 2処理部により選択されたド メインに基づき、音声出力装置力 の出力発話を生成する第 3処理部とを備えている 会話システムであって、前記第 2処理部が、前記複数のドメインの中から前記第 1処 理部による今回の発話理解結果に関する第 1条件を満たす第 1ドメインと、前記第 2 処理部による選択履歴に関する第 2条件を満たす第 2ドメインとを特定し、該第 1ドメ インおよび該第 2ドメインのそれぞれについて、前記第 1処理部による発話理解履歴 に鑑みた信頼度を表す第 1指数、前記第 2処理部による選択履歴に鑑みた信頼度を 表す第 2指数、および前記第 3処理部による発話生成履歴に鑑みた信頼度を表す第 3指数のうち一部または全部を評価し、当該評価結果に基づき、選択法則にしたがつ て該第 1ドメインと、該第 2ドメインと、該第 1ドメインおよび該第 2ドメインとは異なる第 3ドメインとのうち 1つのドメインを今回のドメインとして選択することを特徴とする。
[0006] 第 1発明の会話システムによれば、複数のドメインのうち今回の発話理解結果に関 する「第 1条件」を満たす一または複数の「第 1ドメイン」が今回のドメインの選択肢に 含まれている。このため、今回の発話理解結果に鑑みて会話進行用ドメインとして信 頼度が高いドメインが今回のドメインとして選択されうる。
[0007] また、複数のドメインのうち選択履歴に関する「第 2条件」を満たす一または複数の「 第 2ドメイン」が今回のドメインの選択肢に含まれている。このため、選択履歴に鑑み て会話進行用ドメインとして信頼度が高いドメインが今回のドメインとして選択されうる
[0008] さらに、第 1および第 2ドメインのそれぞれについての第 1、第 2および第 3指数のう ち一部または全部の評価結果に基づいて今回のドメインが選択される。このため、発 話理解履歴、選択履歴および発話生成履歴のうち一部または全部に鑑みて会話進 行用ドメインとして信頼度が高いドメインが今回のドメインとして選択されうる。 [0009] また、第 1および第 2ドメインのほか一または複数の「第 3ドメイン」も今回のドメインの 選択肢に含まれている。このため、第 1、第 2および第 3指数のうち一部または全部の 評価結果に鑑みて第 1および第 2ドメインが今回のドメインとして不適当な場合、当該 第 1および第 2ドメインではなく第 3ドメインが今回のドメインとして選択されうる。
[0010] したがって、ユーザの発話内容への追従性の向上を図りながらユーザとの会話を 進行させることができる。
[0011] また、第 2発明の会話システムは、第 1発明の会話システムにおいて、前記第 2処理 部が前記第 1処理部による発話理解結果に基づいて各ドメインの尤度を評価し、ドメ インの該尤度が n位 (n = 1, 2, · ·)以内であることを前記第 1条件として当該ドメイン
1 1
を前記第 1ドメインとして特定することを特徴とする。
[0012] さらに、第 3発明の会話システムは、第 1発明の会話システムにおいて、前記第 2処 理部が k+ 1回のドメイン (k= l, 2, · ·)を選択する際、前記ドメインが i回前 (i= l, 2 , - -)までに前記今回のドメインとして選択されたことを前記第 2条件として当該ドメイ ンを前記第 2ドメインとして特定することを特徴とする。
[0013] また、第 4発明の会話システムは、第 1発明の会話システムにおいて、前記第 2処理 部が k+ 1回のドメイン (k= l, 2, · ·)を選択する際、ドメインが i回前までに前記今回 のドメインとして選択されたドメインのうち、当該選択累積回数が n位 (n = 1, 2, · · )
2 2
以内であることを前記第 2条件として当該ドメインを前記第 2ドメインとして特定するこ とを特徴とする。
[0014] さらに、第 5発明の会話システムは、第 1発明の会話システムにおいて、前記第 2処 理部が前記第 1ドメインおよび前記第 2ドメインのそれぞれについて、肯定応答の有 無を表す指数、否定応答の有無を表す指数、スロット更新数、肯定応答の累積回数 、否定応答の累積回数、スロット更新累積数、発話理解回数、発話理解結果の音響 スコア、発話理解結果の事後確率、および発話理解結果の単語信頼度相加平均の うち少なくとも 1つに基づいて前記第 1指数を評価することを特徴とする。
[0015] また、第 6発明の会話システムは、第 1発明の会話システムにおいて、前記第 2処理 部が前記第 1ドメインおよび前記第 2ドメインのそれぞれについて、選択の有無を表 す指数および選択回数のうち少なくとも 1つに基づいて前記第 2指数を評価すること を特徴とする。
[0016] さらに、第 7発明の会話システムは、第 1発明の会話システムにおいて、前記第 2処 理部が前記第 1ドメインおよび前記第 2ドメインのそれぞれにつ 、て、タスク達成の有 無を表す指数およびタスク達成累積回数のうち少なくとも 1つに基づいて前記第 3指 数を評価することを特徴とする。
[0017] また、第 8発明の会話システムは、第 1発明の会話システムにおいて、前記第 2処理 部が前記選択法則としての決定木にしたがって今回のドメインを選択することを特徴 とする。
[0018] 前記課題を解決するための第 9発明の会話プログラムは、音声入力装置への入力 発話を理解する第 1処理部と、該第 1処理部による発話理解結果に基づいて複数の ドメインの中から 1つのドメインを選択する第 2処理部と、該第 2処理部により選択され たドメインに基づき、音声出力装置からの出力発話を生成する第 3処理部とを備えて V、る会話システムとしてコンピュータを機能させる会話プログラムであって、前記第 2 処理部が、前記複数のドメインの中力 前記第 1処理部による今回の発話理解結果 に関する第 1条件を満たす第 1ドメインと、前記第 2処理部による選択履歴に関する 第 2条件を満たす第 2ドメインとを特定し、該第 1ドメインおよび該第 2ドメインのそれぞ れについて、前記第 1処理部による発話理解履歴に鑑みた信頼度を表す第 1指数、 前記第 2処理部による選択履歴に鑑みた信頼度を表す第 2指数、および前記第 3処 理部による発話生成履歴に鑑みた信頼度を表す第 3指数のうち一部または全部を評 価し、当該評価結果に基づき、選択法則にしたがって該第 1ドメインと、該第 2ドメイン と、該第 1ドメインおよび該第 2ドメインとは異なる第 3ドメインとのうち 1つのドメインを 今回のドメインとして選択するように前記コンピュータを機能させることを特徴とする。
[0019] 第 9発明の会話プログラムによれば、コンピュータを、ユーザの発話内容への追従 性の向上を図りながらユーザとの会話を進行させうる会話システムとして機能させるこ とができる。ここで、コンピュータを会話システムとして機能させるとは、コンピュータの ROM等の記憶装置に会話プログラムを格納しておき、コンピュータの CPU等の演算 処理装置にこの記憶装置力 会話プログラムを読み取らせ、かつ、この会話プロダラ ムにしたがって前記のようなドメイン選択等の処理を実行させることを意味する。 図面の簡単な説明
[0020] [図 1]会話システムの構成例示図
[図 2]会話システムの機能例示図
[図 3]会話システムの機能例示図
[図 4]ドメイン選択に用いられる決定木の例示図
発明を実施するための最良の形態
[0021] 本発明の会話システムおよび会話ソフトウェアの実施形態について図面を用いて 説明する。
[0022] 図 1に示されている会話システム 100は、たとえば自動車に搭載されたナビゲーショ ンシステムに組み込まれたハードウェアとしてのコンピュータと、当該コンピュータのメ モリに格納されたソフトウェアとしての「会話プログラム」とにより構成されている。なお 、会話プログラムはメモリに予め格納されていてもよいが、 CD— ROM等の記憶媒体 を介してコンピュータにインストールされてもよぐネットワークを通じてコンピュータに 向けて配信または放送された上で当該メモリに格納されてもょ ヽ。
[0023] 会話システム 100は、第 1音声認識部 104と、第 2音声認識部 106と、ドメイン選択 部 (第 2処理部) 108と、複数の第 1発話処理部 110と、第 2発話処理部 120と、発話 選択部 132と、音声合成部 134とを備えている。なお、会話システム 100において、 第 2音声認識部 102および第 2発話処理部 120が省略されてもよい。
[0024] 第 1音声認識部 101はマイク (音声入力装置)に入力された音声に基づき、隠れマ ルコフモデル法等の公知の手法にしたがい、かつ、小語彙辞書 DBを用いてユーザ の発話音声を認識する。第 2音声認識部 102はマイクに入力された音声に基づき、 隠れマルコフモデル法等の公知の手法にしたカ^、、かつ、大語彙辞書 DBを用いて ユーザの発話音声を認識する。ドメイン選択部 104は複数のドメインの中から 1つのド メインを選択する。
[0025] 第 1発話処理部 110は発話理解部 (第 1処理部) 111と、会話状態格納部 112と、 発話生成部 (第 3処理部) 113と、言語理解用 DB (DB :データベース) 114と、発話 生成用 DB115と、タスク用 DB116とを備えている。複数の第 1発話処理部 110のそ れぞれは「レストランドメイン」「ホテルドメイン」等の複数の異なるドメインのそれぞれに 対応している。
[0026] 発話理解部 111は第 1音声認識部 101による第 1音声認識結果に基づき、言語理 解用 DB114に格納されている言語理解用知識を用いて発話内容を理解する。会話 状態格納部 112は発話理解部 111による発話理解結果等を格納する。発話生成部 113は会話状態格納部 112に格納されて!、る発話理解結果および発話生成用 DB 1 15に格納されて 、る発話生成用知識、さらにはタスク用 DB116に格納されて 、るテ キストを用いて発話テキストを生成する。言語理解用 DB114は言語要素を理解する ために必要な「言語理解用知識」を格納する。 DB114, 115および 116のそれぞれ には、当該第 1発話処理部に対応するドメインに特有の知識等が格納されている。
[0027] 第 2発話処理部 120はキーワード検出部 122と、発話生成部 124と、雑談生成用 D B126とを備えている。第 2発話処理部 120は「雑談ドメイン」に対応している。
[0028] キーワード検出部 122は第 2音声認識部 102による第 2音声認識結果に基づき、雑 談生成用 DB126に格納されている雑談生成用知識にしたがってキーワードを検出 する。発話生成部 124はキーワード検出部 122により検出されたキーワードを用いて 、雑談生成用 DB 126に格納されて 、る雑談生成用知識を用 、て雑談用の発話テキ ストを生成する。雑談生成用 DB126は雑談用テキストの生成に必要な「雑談生成用 知識」を格納する。
[0029] 発話選択部 132は第 1発話処理部 110において発話生成部 113により生成された 発話の内容、または第 2発話処理部 120において発話生成部 124により生成された 発話の内容を確認する。音声合成部 134は発話選択部 132により確認された発話の 内容を音声として合成し、当該合成音声としての発話をスピーカー (音声出力装置) に出力させる。
[0030] 前記構成の会話システム 100の機能について図 2〜図 4を用いて説明する。
[0031] まず、会話システム 100が搭載されて!、る自動車野イダ-ッシヨンスィッチが OFFか ら ONに切り替えられ、会話システム 100も OFF力も ONに切り替えられた等のタイミ ングでユーザの累積発話回数を示す指数 k力 S「l」に設定される(図 2ZS001)。
[0032] 運転手等のユーザが何らかの発話をするとこれがマイクに入力される。第 1音声認 識部 101は当該入力発話に応じたマイクからの出力信号に基づき、小語彙辞書 DB に格納されて 、る「小語彙辞書」を用いて当該入力発話に含まれる言語要素 (たとえ ば単語)の候補を認識する(図 2ZS002)。たとえば、入力発話に第 1言語要素 W (k
1
)および第 2言語要素 W (k)が含まれている場合、第 1音声認識部 101は第 1言語要
2
素 W (k)について尤度の高い N個の第 1言語要素候補 E (k) (i= l, 2, · · , N )の集
1 1 li 1 合 (以下「第 1集合」という。 ) G (k)と、第 2言語要素 W (k)について尤度の高い N個の
1 2 2 第 2言語要素候補 E (k) (j = l, 2, · · , N )の集合 (以下「第 2集合」という。 ) G (k)とを
2j 2 2 認識する。なお、第 1集合 G (k)に含まれる言語要素数 Nおよび第 2集合 G (k)に含ま
1 1 2
れる言語要素数 Nは同一であっても相違していてもよい。
2
[0033] 第 1音声認識部 101は第 1音声認識結果としての第 1集合 G (k)および第 2集合 G (
1 2 k)をドメイン選択部 104に出力し、ドメイン選択部 104は当該第 1音声認識結果を複 数の第 1発話処理部 110のそれぞれに分配出力する(図 2ZS004)。
[0034] また、第 2音声認識部 102が入力発話に応じたマイクからの出力信号に基づき、大 語彙辞書 DBに格納されている「大語彙辞書」を用いて当該入力発話に含まれる言 語要素の候補を認識する(図 2ZS003)。第 2音声認識部 102により用いられる「大 語彙辞書」は、第 1音声認識部 101により用いられる「小語彙辞書」よりも登録されて いる言語要素の数が多い。このため、第 2音声認識部 102は、第 1音声認識部 101よ りも音声認識精度が若干低いものの、第 1音声認識部 101によっては認識されえな V、ような言語要素であっても認識することができる。
[0035] さらに、第 2音声認識部 102が第 2音声認識結果を第 2発話処理部 120のキーヮー ド検出部 122に出力し、キーワード検出部 122が当該第 2音声認識結果に基づき、 かつ、雑談生成用 DB126に格納されている「雑談生成用知識」を用いてキーワード を検出する(図 2ZS005)。
[0036] また、複数の第 1発話処理部 110のそれぞれにおいて、発話理解部 111が第 1音 声認識結果に基づき、言語理解用知識を用いて入力発話を理解する(図 2ZS006) 。具体的には、発話理解部 111は第 1集合 G (k)の中から、言語理解用 DB114に「
1
言語理解用知識」の一部として格納されて 、る複数の第 1辞書言語要素のうち 1つに 合致する第 1言語要素候補 E (k)を、尤度の高いほうから優先的に検索する。また、
li
発話理解部 111は第 2集合 G (k)の中から、言語理解用 DB114に「言語理解用知識 」の一部として格納されている、複数の第 2辞書言語要素のうち 1つに合致する第 2言 語要素候補 E (k)を、尤度の高いほうから優先的に検索する。
2j
[0037] 例として「食事ドメイン」に対応する第 1発話処理部 110において言語理解用 DB11 4に、言語理解用知識として「くレストラン名称〉のく情報カテゴリ >を教えて」 t 、う 文章が格納され、複数の第 1辞書言語要素として複数のレストラン名称が格納され、 複数の第 2辞書言語要素として住所、連絡先、道順、関連情報等、複数の情報カテ ゴリが格納されている場合を考える。この場合、発話理解部 111によって当該複数の レストラン名称のうち 1つに合致する、第 1集合 G (k)において尤度が最高の第 1言語
1
要素候補 E (k) (たとえば「ビストロ〇〇」)が検索され、かつ、当該複数の情報カテゴ
11
リのうち 1つに合致する、第 2集合 G (k)において尤度が最高の第 2言語要素候補 E (
2 21 k) (たとえば「住所」 )が検索される。
[0038] また「宿泊ドメイン」に対応する第 1発話処理部 110において言語理解用 DB114に 、言語理解用知識として「 <宿泊施設名称〉のく情報カテゴリ >を教えて」という文 章が格納され、複数の第 1辞書言語要素として複数の宿泊施設名称が格納され、複 数の第 2辞書言語要素として住所、連宅先、関連情報等、複数の情報カテゴリが格 納されている場合を考える。この場合、発話理解部 111によって当該複数の地域名 称のうち 1つに合致する、第 1集合 G (k)において尤度が第 3位の第 1言語要素候補
1
E (k) (たとえば「ホテル〇〇」)が検索され、かつ、当該複数の情報カテゴリのうち 1つ
13
に合致する、第 2集合 G (k)において尤度が最高の第 2言語要素候補 E (k) (たとえば
2 21
「住所」)が検索される。
[0039] さらに、発話理解部 111による発話理解結果が会話状態格納部 112に格納される
(図 2ZS008)。具体的には、第 1集合 G (k)力も検索された第 1言語要素候補 E (k)
1 li が会話状態格納部 112の「第 1スロット」に格納される。また、第 2集合 G (k)力 検索
2
された第 2言語要素候補 E (k)が会話状態格納部 112の「第 2スロット」に格納される 。たとえば前記食事ドメインにつ ヽては「くレストラン名称 >の <情報カテゴリ >を教 えて」という文章におけるくレストラン名称〉が第 1スロットに該当し、く情報カテゴリ >が第 2スロットに該当する。また、前記宿泊ドメインについては「<宿泊施設名称〉 のく情報カテゴリ >を教えて」 、う文章におけるく宿泊施設名称 >が第 1スロットに 該当し、く情報カテゴリ〉が第 2スロットに該当する。なお、第 1スロットに第 1言語要 素候補が格納されなカゝつたドメインでは、第 2スロットへの第 2言語要素候補 E (k)の 格納が省略されてもよい。また、第 1音声認識結果力 ^はい」「そう」などの肯定応答で ある場合や、第 1音声認識結果が「いいえ」「ちがう」などの否定応答である場合には
、当該肯定応答または否定応答があったことおよびその回数を示すフラグが前回の 選択ドメインに対応する第 1発話処理部 110の会話状態格納部 112に格納される。
[0040] さらに、各スロットへの言語要素候補の格納状態も会話状態として会話状態格納部 112に格納される。これにより、たとえば食事ドメインについては第 1言語要素候補 E
1
(k)が第 1スロットに格納され、かつ、第 2言語要素候補 E (k)が第 2スロットに格納さ
1 21
れていることが会話状態として会話状態格納部 112に格納される。また、宿泊ドメイン については第 1言語要素候補 E (k)が第 1スロットに格納され、かつ、第 2言語要素候
13
補 E (k)が第 2スロットに格納されていることが会話状態として会話状態格納部 112に
21
格納される。さらに、その他のドメインでは第 1言語要素候補が第 1スロットに格納され ていないことが発話状態として会話状態格納部に格納される。なお「会話状態」には ユーザの累積発話回数を示す指数 kが含まれて 、てもよ 、。
[0041] 続いて、各第 1発話処理部 110において、発話理解部 111が会話状態格納部 112 に格納されている会話状態を読み取った上でドメイン選択部 104に出力する。そして 、ドメイン選択部 104が複数のドメインの中から、発話理解結果に関する「第 1条件」 を満たす一または複数のドメインを「第 1ドメイン」として特定する(図 2ZS010)。「第 1条件」としては、発話理解結果に基づいて評価されるドメインの尤度が n位 (n = 1
1 1
, 2, · ·)以内であることが採用されうる。
[0042] 例として「第 1スロットに格納されている第 1言語要素候補 E (k)の尤度(ドメインの尤
li
度に相当する。 )が複数のドメインの中で最高であること」が「第 1条件」として設定さ れ、かつ、前記のように食事ドメインについては第 1スロットに第 1言語要素候補 E (k)
11 が格納され、宿泊ドメインについては第 1スロットに第 1言語要素候補 E (k)が格納さ
13
れている場合を考える。この場合、当該 2つのドメインのうち、尤度が最高の第 1言語 要素候補 E (k)が第 1スロットに格納されている食事ドメイン力 S「第 1ドメイン」として特
11
定される。 [0043] さらに、ドメイン選択部 104はユーザの累積発話回数を表す指数 k力「l」であるか 否かを判定する(図 2ZS012)。
[0044] そして、指数 kが「1」であると判定された場合(図 2ZS012- 'YES)、ドメイン選択 部 104は当該第 1ドメインをそのまま今回のドメインとして選択する(図 2/S018)。な お、複数の第 1ドメインが特定されている場合、当該複数の第 1ドメインのそれぞれに ついて後述する第 1指数、第 2指数および第 3指数のうち一部または全部が評価され 、当該評価結果に基づいて 1つの第 1ドメインが選択されてもよい。
[0045] 一方、指数 kが「1」ではないと判定された場合(図 2ZS012- ·ΝΟ)、ドメイン選択 部 104は複数のドメインの中から選択履歴に関する「第 2条件」を満たす一または複 数のドメインを「第 2ドメイン」として特定する(図 2ZS014)。「第 2条件」としては、 i回 前 (i= l, 2, · ·)までに今回のドメインとして選択されたこと、または i回前までに今回 のドメインとして選択されたドメインのうち、当該選択累積回数が n位
2 (n 1 = 1, 2, · ·) 以内であることが採用されうる。
[0046] 例として「前回選択されたドメインであること」が「第 2条件」として設定され、かつ、複 数のドメインのうち食事ドメインが前回のドメインとして選択された場合を考える。この 場合、当該食事ドメインが「第 2ドメイン」として特定される。
[0047] 第 1ドメインに加えて第 2ドメインが特定された場合、第 1ドメインおよび第 2ドメイン のそれぞれにつ 、て「第 1指数」「第 2指数」および「第 3指数」のうち一部または全部 が評価される(図 2ZS016)。第 1ドメインおよび第 2ドメインのそれぞれに対応する第 1発話処理部 110のそれぞれにお 、て会話常態格納部 112に格納されて 、る、会話 状態を表す種々のフラグ等に基づいて当該指数が評価される。
[0048] 「第 1指数」は発話理解部 (第 1処理部) 111による発話理解履歴に鑑みた信頼度 を表す。「第 1指数」としては(1)肯定応答の有無を表す指数、(2)否定応答の有無 を表す指数、(3)スロット更新数、(4)肯定応答の累積回数、(5)否定応答の累積回 数、(6)スロット更新累積数、(7)発話理解回数、(8)発話理解結果の音響スコア、 ( 9)発話理解結果の事後確率および(10)発話理解結果の言語要素信頼度相加平 均、さらにはこれらのうち少なくとも 1つを変数とする関数が採用される。「音響スコア」 とは、マイクからの出力信号と、音素ごとに用意されている音響モデルとの類似度を 表す指標である。「言語要素信頼度」とは、複数の言語要素候補のそれぞれの音響 スコアのうち、最高の音響スコアが他の音響スコアからどの程度突出して 、るかと 、う 観点からの各ドメインの信頼度を表す指標である。たとえば、最高の音響スコアが他 の音響スコアよりも著しく高い場合には当該信頼度が高く評価される一方、最高の音 響スコアが他のスコアよりもさほど高くない場合には当該信頼度が低く評価される。
[0049] また、「第 2指数」はドメイン選択部 (第 2処理部) 104による選択履歴に鑑みた信頼 度を表す。「第 2指数」としては(1)選択の有無を表す指数および (2)選択回数、さら にはこれらのうち少なくとも 1つを変数とする関数が採用される。
[0050] さらに、「第 3指数」は発話生成部 (第 3処理部) 113による発話生成履歴に鑑みた 信頼度を表す。「第 3指数」としては(1)タスク達成の有無を表す指数および (2)タス ク達成累積回数、さらにはこれらのうち少なくとも 1つの関数が採用される。「タスク達 成」とは後述するように発話生成部 113がタスク用 DB116からテキストを読み取り、当 該読み取りテキストを用いて発話を生成したことを意味する。
[0051] 続いて、ドメイン選択部 104が第 1指数、第 2指数および第 3指数のうち一部または 全部の評価結果に基づき、所定の選択規則にしたがって第 1および第 2ドメインに加 え、第 3ドメインの中から 1つのドメインを選択する(図 2ZS018)。選択規則としては 図 4に示されているような決定木が採用されうる。図 4では当該決定木の一部のみが 示されているが、残りの部分は第 1指数、第 2指数および第 3指数のそれぞれの性質 に鑑みて適宜設定されうる。なお、選択規則としては当該決定木のほか、第 1指数、 第 2指数および第 3指数のうち一部または全部を用いたファジー規則等、種々の選 択規則が採用されてもよい。「第 3ドメイン」としてたとえば第 2発話処理部 120に対応 する「雑談ドメイン」が特定される。なお「第 3ドメイン」として第 1発話処理部 110に対 応するドメインが特定されてもょ 、。
[0052] ドメイン選択部 104は選択ドメインが第 1または第 2ドメインであるカゝ否かを判定する
(図 2ZS020)。
[0053] ドメイン選択部 104は選択ドメインが第 1ドメインまたは第 2ドメインであると判定した 場合(図 2ZS020' -YES) ,当該選択ドメインに対応する第 1発話処理部 110の会 話状態格納部 112にドメインが選択されたことを示すフラグ「1」および当該選択回数 を示すフラグをたてる(図 2ZS022)。また、ドメイン選択部 104は非選択ドメインに対 応する第 1発話処理部 110の会話状態格納部 112にドメインが選択されなかったこと を示すフラグ「0」をたてる(図 2ZS022)。非選択ドメインに対応する第 1発話処理部 110では会話状態格納部 112のすベてのスロットが未格納状態にリセットされる。
[0054] 続いて、発話選択部 132が当該選択ドメインに対応する第 1発話処理部 110に対 して出力発話を問い合わせる。これに応じて当該第 1発話処理部 110の発話生成部 113が会話状態格納部 112から会話状態 (各スロットの格納状態等が特定される。) を読み取り、発話生成用 DB115から発話生成用知識を読み取り、当該会話状態と 発話生成用知識とを対照する(図 3ZS024)。発話生成部 113は当該対照結果に 基づき、タスク用 DB116からのテキスト (または言語要素)の検索要否を判定する(図 3ZS026)。たとえばすべてのスロットが格納状態である場合 (第 1スロットに第 1言語 要素候補 E (k)が格納され、かつ、第 2スロットに第 2言語要素候補 E (k)が格納され
li 2j
ている場合)、当該格納言語要素候補に対応付けられているテキスト(当該 2つの言 語要素候補の関数 f(k) = f (E (k), E (k))により表される。)をタスク用 DB 116から検
li 2j
索する必要がある一方、一部または全部のスロットが未格納状態である場合、テキス トをタスク用 DB116から検索する必要がないことが発話生成用知識によって特定さ れる。
[0055] そして、発話生成部 113はテキスト検索が必要であると判定した場合(図 3ZS026 ••YES) ,当該テキストをタスク用 DB116から検索する(図 3ZS028)。たとえば食 事ドメインが選択され、かつ、前記のように当該第 1発話処理部 110において第 1言 語要素候補 E (k)=「ビストロ〇〇」および第 2言語要素候補 E (k)=「住所」が各スロ
11 21 ットに格納されて 、る場合、発話生成部 113はタスク用 DB 116からテキスト f (k) = f (E (k), E (k)) =「京都府京都市 X X区 · ·」を検索する。発話生成部 113は当該テキ
11 21
スト検索に応じてタスク達成フラグ (タスクが達成されたことおよびタスク達成回数を表 す。 )を会話状態格納部 112にたてる(図 3ZS030)。
[0056] また、発話生成部 113は検索テキストと発話生成用知識とを用いて発話テキストを 生成する(図 3ZS032)。たとえば食事ドメインに対応する第 1発話処理部 110にお いて第 1スロットに第 1言語要素候補 E (k) =「ビストロ〇〇」が格納され、かつ、第 2 スロットに第 2言語要素候補 E (k) =「住所」が格納されている場合、検索テキスト f(k)
2j
=「京都府京都市 X X区 · ·」を用いて「ビストロ〇〇の住所は京都府京都市 X X区
- 'です。」という発話テキストが生成される。
[0057] 一方、発話生成部 113がタスク用 DB116からテキストを検索する必要がないと判定 した場合(図 3ZS026' ·ΝΟ)、当該テキストを用いずに発話生成用知識を用いて発 話テキストを生成する。たとえば食事ドメインに対応する第 1発話処理部 110におい て、第 1スロットに第 1言語要素候補 E (k) ( =ビストロ〇〇)が格納されている一方、
li
第 2スロットが未格納状態である場合、「ビストロ〇〇の何を知りたいのです力」という 問い合わせの発話テキストが生成される。また、食事ドメインに対応する第 1発話処 理部 110において、第 1スロットが未格納状態である一方、第 2スロットに第 2言語要 素候補 E (k) (=住所)が格納されている場合、「何の住所を知りたいのです力」「もう
2j
一度おっしゃってくださ 、」 t 、う問 、合わせの発話テキストが生成される。
[0058] また、ドメイン選択部 104により選択ドメインが第 3ドメイン (雑談ドメイン)であると判 定された場合(図 2ZS020' ·ΝΟ)、当該第 3ドメインに対応する第 2発話処理部 12 0の発話生成部 124が、キーワード検出部 122により検出されたキーワードと、雑談 生成用知識と、必要に応じてインターネット検索されたテキストとを用いて雑談用の発 話テキストを生成する(図 3ZS033)。なお、複数の第 3ドメインが存在する場合、当 該複数の第 3ドメインの中から 1つのドメインを選択するために「どのような情報をお求 めですか」等、ユーザとの会話に適当なドメインを直接的に当該ユーザに尋ねる発話 テキストが生成されてもよい。
[0059] 続いて、第 1発話処理部 110の発話生成部 113または第 2発話処理部 120の発話 生成部 126が発話テキストを発話選択部 132に出力する。また、発話選択部 132は 入力された発話テキストを音声合成部 134に出力し、音声合成部は入力された発話 テキストを音声としてスピーカから出力させる(図 3/S034)。これにより、スピーカか ら「ビストロ〇〇の住所は京都府京都市 X X区 · ·です」という発話音声が出力される
[0060] 会話システム 100はユーザとの会話が終了したか否かを判定する(図 3ZS036)。
たとえば会話システム 100が搭載されて!、る自動車のイダ-ッシヨンスィッチが ONか ら OFFに切り替えられた場合に会話が終了したと判定される。一方、会話システム 1 00とユーザとの会話が継続中であると判定された場合(図 3ZS036- · NO)、ユーザ の発話累積回数を示す指数 kが 1だけ増加され (図 3ZS038)、前述した第 1音声認 識(図 2ZS002参照)および第 2音声認識(図 2ZS003参照)以降の一連の処理が 実行される。
[0061] 前記処理にしたがったユーザおよび会話システム 100の会話例を次に示す。 Uは ユーザの発話を表し、 sは会話システム 100の発話を表して 、る。
(会話例)
U: ビストロ〇〇の住所を教えてください。
1
[0062] S: ビストロ〇〇の住所は京都府京都市 X X区 · ·です。
1
[0063] U: ビストロ〇〇の連絡先を教えてください。
2
[0064] S: ホテル〇〇の連絡先は〜です。
2
[0065] U: ビストロ〇〇の連絡先です。
3
[0066] S: ホテルの案内をご希望ですか。
3
[0067] U: いいえ。
4
[0068] S: レストランの案内をご希望です力。
4
[0069] 第 1回のシステム発話 Sは第 1回のユーザ発話 Uが正確に音声認識され、ユーザ
1 1
との会話進行ドメインとして適当な「食事ドメイン」が選択された上で出力された発話 である。第 2回のシステム発話 Sは第
2 2回のユーザ発話 Uが正確に音声認識されず
2
、第 1ドメイン (第 1回の選択ドメイン)としての「食事ドメイン」ではなぐ尤度が最高の 第 2ドメインとしての「宿泊ドメイン」が選択された上で出力された発話である。第 2回 の選択ドメインである「宿泊ドメイン」は会話進行ドメインとして不適当であることに応じ て、第 3回のユーザ発話 Uは第 2回のユーザ発話 Uの繰り返しになっている。第 3回
3 2
のシステム発話 Sは第 3回のユーザ発話 Uがなおも正確に認識されず、第 1ドメイン
3 3
(第 2回の選択ドメイン)としての「宿泊ドメイン」が選択された上で出力された発話であ る。第 3回の選択ドメインである「宿泊ドメイン」は会話進行ドメインとしてなおも不適当 であることに応じて、第 4回のユーザ発話 Uは否定応答になっている。第 4回のシス
4
テム発話 Sは第 4回のユーザ発話 Uである否定応答が正確に認識され、第 1ドメイン (第 3回の選択ドメイン)としての「宿泊ドメイン」ではなぐ第 3ドメインである「食事ドメ イン」が選択された上で出力された発話である。
[0070] 前記機能を発揮する会話システム 100によれば、複数のドメインのうち今回の発話 理解結果に関する「第 1条件」を満たす一または複数の「第 1ドメイン」が今回のドメイ ンの選択肢に含まれている(図 2ZS010参照)。このため、今回の発話理解結果に 鑑みて会話進行用ドメインとして信頼度が高いドメインが今回のドメインとして選択さ れうる。
[0071] また、複数のドメインのうち選択履歴に関する「第 2条件」を満たす一または複数の「 第 2ドメイン」が今回のドメインの選択肢に含まれている(図 2/S014参照)。このため 、選択履歴に鑑みて会話進行用ドメインとして信頼度が高いドメインが今回のドメイン として選択されうる。
[0072] さらに、第 1および第 2ドメインのそれぞれについての第 1、第 2および第 3指数のう ち一部または全部の評価結果に基づ 、て今回のドメインが選択される(図 2ZS018 参照)。このため、発話理解履歴、選択履歴および発話生成履歴のうち一部または 全部に鑑みて会話進行用ドメインとして信頼度が高いドメインが今回のドメインとして 選択されうる。
[0073] また、第 1および第 2ドメインのほか一または複数の「第 3ドメイン」も今回のドメインの 選択肢に含まれている。このため、第 1、第 2および第 3指数のうち一部または全部の 評価結果に鑑みて第 1および第 2ドメインが今回のドメインとして不適当な場合、当該 第 1および第 2ドメインではなく第 3ドメインが今回のドメインとして選択されうる。
[0074] したがって、ユーザの発話内容への追従性の向上を図りながらユーザとの会話を 進行させることができる。本願発明者の行った実験によれば、従来技術における会話 システムによるドメインの選択精度(= (選択結果としてのドメインが正しカゝつた回数) Z (ドメインが選択された累積回数))が 68. 9%であったのに対して、本発明の会話 システムによるドメインの選択精度は 74. 0%であり、当該精度が 5. 1%向上すること が確認された。

Claims

請求の範囲
[1] 音声入力装置への入力発話を理解する第 1処理部と、該第 1処理部による発話理解 結果に基づいて複数のドメインの中から 1つのドメインを選択する第 2処理部と、該第 2処理部により選択されたドメインに基づき、音声出力装置力もの出力発話を生成す る第 3処理部とを備えて 、る会話システムであって、
前記第 2処理部が、前記複数のドメインの中から前記第 1処理部による今回の発話 理解結果に関する第 1条件を満たす第 1ドメインと、前記第 2処理部による選択履歴 に関する第 2条件を満たす第 2ドメインとを特定し、該第 1ドメインおよび該第 2ドメイン のそれぞれについて、前記第 1処理部による発話理解履歴に鑑みた信頼度を表す 第 1指数、前記第 2処理部による選択履歴に鑑みた信頼度を表す第 2指数、および 前記第 3処理部による発話生成履歴に鑑みた信頼度を表す第 3指数のうち一部また は全部を評価し、当該評価結果に基づき、選択法則にしたがって該第 1ドメインと、 該第 2ドメインと、該第 1ドメインおよび該第 2ドメインとは異なる第 3ドメインとのうち 1つ のドメインを今回のドメインとして選択することを特徴とする会話システム。
[2] 請求項 1記載の会話システムにおいて、
前記第 2処理部が前記第 1処理部による発話理解結果に基づいて各ドメインの尤 度を評価し、ドメインの該尤度が n位 (n = 1, 2, · ·)以内であることを前記第 1条件と
1 1
して当該ドメインを前記第 1ドメインとして特定することを特徴とする会話システム。
[3] 請求項 1記載の会話システムにおいて、
前記第 2処理部が k+ 1回のドメイン (k= l, 2, · ·)を選択する際、前記ドメインが i 回前 (i= l, 2, · ·)までに前記今回のドメインとして選択されたことを前記第 2条件と して当該ドメインを前記第 2ドメインとして特定することを特徴とする会話システム。
[4] 請求項 1記載の会話システムにおいて、
前記第 2処理部が k+ 1回のドメイン (k= l, 2, · ·)を選択する際、ドメインが i回前ま でに前記今回のドメインとして選択されたドメインのうち、当該選択累積回数が n
2位( n = 1, 2, · ·)以内であることを前記第 2条件として当該ドメインを前記第 2ドメインとし
1
て特定することを特徴とする会話システム。
[5] 請求項 1記載の会話システムにおいて、 前記第 2処理部が前記第 1ドメインおよび前記第 2ドメインのそれぞれについて、肯 定応答の有無を表す指数、否定応答の有無を表す指数、スロット更新数、肯定応答 の累積回数、否定応答の累積回数、スロット更新累積数、発話理解回数、発話理解 結果の音響スコア、発話理解結果の事後確率、および発話理解結果の単語信頼度 相加平均のうち少なくとも 1つに基づいて前記第 1指数を評価することを特徴とする 会話システム。
[6] 請求項 1記載の会話システムにおいて、
前記第 2処理部が前記第 1ドメインおよび前記第 2ドメインのそれぞれについて、選 択の有無を表す指数および選択回数のうち少なくとも 1つに基づいて前記第 2指数 を評価することを特徴とする会話システム。
[7] 請求項 1記載の会話システムにおいて、
前記第 2処理部が前記第 1ドメインおよび前記第 2ドメインのそれぞれについて、タ スク達成の有無を表す指数およびタスク達成累積回数のうち少なくとも 1つに基づい て前記第 3指数を評価することを特徴とする会話システム。
[8] 請求項 1記載の会話システムにおいて、
前記第 2処理部が前記選択法則としての決定木にしたがって今回のドメインを選択 することを特徴とする会話システム。
[9] 音声入力装置への入力発話を理解する第 1処理部と、該第 1処理部による発話理解 結果に基づいて複数のドメインの中から 1つのドメインを選択する第 2処理部と、該第 2処理部により選択されたドメインに基づき、音声出力装置力もの出力発話を生成す る第 3処理部とを備えている会話システムとしてコンピュータを機能させる会話プログ ラムであって、
前記第 2処理部が、前記複数のドメインの中から前記第 1処理部による今回の発話 理解結果に関する第 1条件を満たす第 1ドメインと、前記第 2処理部による選択履歴 に関する第 2条件を満たす第 2ドメインとを特定し、該第 1ドメインおよび該第 2ドメイン のそれぞれについて、前記第 1処理部による発話理解履歴に鑑みた信頼度を表す 第 1指数、前記第 2処理部による選択履歴に鑑みた信頼度を表す第 2指数、および 前記第 3処理部による発話生成履歴に鑑みた信頼度を表す第 3指数のうち一部また は全部を評価し、当該評価結果に基づき、選択法則にしたがって該第 1ドメインと、 該第 2ドメインと、該第 1ドメインおよび該第 2ドメインとは異なる第 3ドメインとのうち 1つ のドメインを今回のドメインとして選択するように前記コンピュータを機能させることを 特徴とする会話プログラム。
PCT/JP2007/051576 2006-01-31 2007-01-31 会話システムおよび会話ソフトウェア WO2007088877A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US12/087,791 US8996385B2 (en) 2006-01-31 2007-01-31 Conversation system and conversation software
JP2007556883A JP5248867B2 (ja) 2006-01-31 2007-01-31 会話システムおよび会話ソフトウェア

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US76381006P 2006-01-31 2006-01-31
US60/763,810 2006-01-31
US76567306P 2006-02-07 2006-02-07
US60/765,673 2006-02-07

Publications (1)

Publication Number Publication Date
WO2007088877A1 true WO2007088877A1 (ja) 2007-08-09

Family

ID=38327448

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/051576 WO2007088877A1 (ja) 2006-01-31 2007-01-31 会話システムおよび会話ソフトウェア

Country Status (3)

Country Link
US (1) US8996385B2 (ja)
JP (1) JP5248867B2 (ja)
WO (1) WO2007088877A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016212541A (ja) * 2015-05-01 2016-12-15 株式会社ATR−Trek 対話装置、対話方法、及びそのコンピュータプログラム
JP6370962B1 (ja) * 2017-05-12 2018-08-08 ヤフー株式会社 生成装置、生成方法および生成プログラム
JP2018151631A (ja) * 2017-03-10 2018-09-27 サウンドハウンド,インコーポレイテッド ドメイン曖昧性除去を含む音声対応システム
KR101914708B1 (ko) * 2012-06-15 2019-01-14 삼성전자주식회사 서버 및 서버의 제어 방법
WO2019065647A1 (ja) * 2017-09-28 2019-04-04 株式会社東芝 対話処理装置および対話処理システム
WO2020208972A1 (ja) * 2019-04-08 2020-10-15 ソニー株式会社 応答生成装置及び応答生成方法
JP2021184290A (ja) * 2018-04-02 2021-12-02 サウンドハウンド,インコーポレイテッド 異なるドメインにおいて潜在的に曖昧な意味を有する表現の解釈

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1851756B1 (en) * 2005-02-17 2008-07-02 Loquendo S.p.A. Method and system for automatically providing linguistic formulations that are outside a recognition domain of an automatic speech recognition system
KR101699720B1 (ko) * 2010-08-03 2017-01-26 삼성전자주식회사 음성명령 인식 장치 및 음성명령 인식 방법
US8688453B1 (en) * 2011-02-28 2014-04-01 Nuance Communications, Inc. Intent mining via analysis of utterances
US10019991B2 (en) * 2012-05-02 2018-07-10 Electronics And Telecommunications Research Institute Apparatus and method for speech recognition
US9424840B1 (en) 2012-08-31 2016-08-23 Amazon Technologies, Inc. Speech recognition platforms
CN103077165A (zh) * 2012-12-31 2013-05-01 威盛电子股份有限公司 自然语言对话方法及其系统
US9292492B2 (en) * 2013-02-04 2016-03-22 Microsoft Technology Licensing, Llc Scaling statistical language understanding systems across domains and intents
CN104360897B (zh) * 2014-10-29 2017-09-22 百度在线网络技术(北京)有限公司 对话处理方法和对话管理系统
US11094320B1 (en) * 2014-12-22 2021-08-17 Amazon Technologies, Inc. Dialog visualization
US11062228B2 (en) 2015-07-06 2021-07-13 Microsoft Technoiogy Licensing, LLC Transfer learning techniques for disparate label sets
US10338959B2 (en) 2015-07-13 2019-07-02 Microsoft Technology Licensing, Llc Task state tracking in systems and services
US10635281B2 (en) 2016-02-12 2020-04-28 Microsoft Technology Licensing, Llc Natural language task completion platform authoring for third party experiences
JP6900996B2 (ja) * 2017-03-31 2021-07-14 日本電気株式会社 会話支援装置、会話支援方法、及びプログラム
US10885900B2 (en) 2017-08-11 2021-01-05 Microsoft Technology Licensing, Llc Domain adaptation in speech recognition via teacher-student learning

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6513006B2 (en) * 1999-08-26 2003-01-28 Matsushita Electronic Industrial Co., Ltd. Automatic control of household activity using speech recognition and natural language
US6311150B1 (en) * 1999-09-03 2001-10-30 International Business Machines Corporation Method and system for hierarchical natural language understanding
JP2002023783A (ja) * 2000-07-13 2002-01-25 Fujitsu Ltd 対話処理システム
US7092928B1 (en) * 2000-07-31 2006-08-15 Quantum Leap Research, Inc. Intelligent portal engine
DE10063148A1 (de) * 2000-12-18 2002-06-20 Deutsche Telekom Ag Dialoganlage für eine Mensch-Maschine-Interaktion mit kooperierenden Dialogeinrichtungen
US7257537B2 (en) * 2001-01-12 2007-08-14 International Business Machines Corporation Method and apparatus for performing dialog management in a computer conversational interface
US7225183B2 (en) * 2002-01-28 2007-05-29 Ipxl, Inc. Ontology-based information management system and method
JP2003263192A (ja) * 2002-03-12 2003-09-19 Nec Corp 情報処理システムおよび情報処理方法ならびに情報処理プログラム
US7869998B1 (en) * 2002-04-23 2011-01-11 At&T Intellectual Property Ii, L.P. Voice-enabled dialog system
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7286987B2 (en) * 2002-06-28 2007-10-23 Conceptual Speech Llc Multi-phoneme streamer and knowledge representation speech recognition system and method
US6917914B2 (en) * 2003-01-31 2005-07-12 Harris Corporation Voice over bandwidth constrained lines with mixed excitation linear prediction transcoding
US20040162724A1 (en) * 2003-02-11 2004-08-19 Jeffrey Hill Management of conversations
US7716056B2 (en) * 2004-09-27 2010-05-11 Robert Bosch Corporation Method and system for interactive conversational dialogue for cognitively overloaded device users
US7925506B2 (en) * 2004-10-05 2011-04-12 Inago Corporation Speech recognition accuracy via concept to keyword mapping
EP1820091A4 (en) * 2004-11-12 2010-07-21 Haley Ltd North America SYSTEM FOR MANAGING AND AUTOMATING BUSINESS KNOWLEDGE
WO2006110684A2 (en) * 2005-04-11 2006-10-19 Textdigger, Inc. System and method for searching for a query
US8041570B2 (en) * 2005-05-31 2011-10-18 Robert Bosch Corporation Dialogue management using scripts
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7739218B2 (en) * 2005-08-16 2010-06-15 International Business Machines Corporation Systems and methods for building and implementing ontology-based information resources
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US8589151B2 (en) * 2006-06-21 2013-11-19 Harris Corporation Vocoder and associated method that transcodes between mixed excitation linear prediction (MELP) vocoders with different speech frame rates
US7831427B2 (en) * 2007-06-20 2010-11-09 Microsoft Corporation Concept monitoring in spoken-word audio

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
ISOBE T. ET AL.: "Fukusu Model o Sentakuteki ni Mochiiru Onsei Taiwa System ni Okeru Domain Kirikae Shakudo no Kento", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU, vol. 2003, no. 75, 18 July 2003 (2003-07-18), pages 41 - 46, XP003008855 *
KANDA N. ET AL.: "Fukusu Domain Onsei Taiwa System ni Okeru Taiwa Rireki o Riyo shita Domain Sentaku no Koseidoka", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU, vol. 2006, no. 12, 2006-SLP-60, 3 February 2006 (2006-02-03), pages 55 - 60, XP003006565 *
MIYAZAKI N. ET AL.: "Onsei Taiwa System no Hanjido Togo ni yoru Fukusu Domain Taio", THE ACOUSTICAL SOCIETY OF JAPAN (ASJ) 2005 NEN SHUKI KENKYU HAPPYOKAI KOEN RONBUNSHU CD-ROM, vol. 1-P-19, 20 September 2005 (2005-09-20), pages 189 - 190, XP003005942 *
NAGAMORI M. ET AL.: "Multi Domain Onsei Taiwa System no Kochiku Shuho", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU, vol. 2000, no. 54, 2000-SLP-31-7, 2 June 2000 (2000-06-02), pages 45 - 51, XP003014415 *
SUZUKI Y. ET AL.: "Modularity no Takai Taiwa Seigyo Rule no Sekkei to Sono Gutaiteki na Taiwa Domain eno Tekiyo Hoho ni Kansuru Kenkyu", DAI 40 KAI GENGO. ONSEI RIKAI TO TAIWA SHORI KENKYUKAI SHIRYO, vol. SIG-SLUD-A303-12, 5 March 2004 (2004-03-05), pages 73 - 78, XP003013145 *
UENO S. ET AL.: "User to Jokyo no Model o Mochiita Planning o Okonau Onsei Taiwa System", DAI 40 KAI GENGO. ONSEI RIKAI TO TAIWA SHORI KENKYUKAI SHIRYO, vol. SIG-SLUD-A303-11, 5 March 2004 (2004-03-05), pages 65 - 72, XP003013144 *
YASUDA N. ET AL.: "Tan'itsu Domain System no Togo ni yoru Fukusu Domain Onsei Taiwa System", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU, vol. 2003, no. 14, 2003-SLP-45-20, 7 February 2003 (2003-02-07), pages 119 - 124, XP003008856 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101914708B1 (ko) * 2012-06-15 2019-01-14 삼성전자주식회사 서버 및 서버의 제어 방법
JP2016212541A (ja) * 2015-05-01 2016-12-15 株式会社ATR−Trek 対話装置、対話方法、及びそのコンピュータプログラム
JP2018151631A (ja) * 2017-03-10 2018-09-27 サウンドハウンド,インコーポレイテッド ドメイン曖昧性除去を含む音声対応システム
JP6370962B1 (ja) * 2017-05-12 2018-08-08 ヤフー株式会社 生成装置、生成方法および生成プログラム
JP2018194902A (ja) * 2017-05-12 2018-12-06 ヤフー株式会社 生成装置、生成方法および生成プログラム
WO2019065647A1 (ja) * 2017-09-28 2019-04-04 株式会社東芝 対話処理装置および対話処理システム
JP2019061620A (ja) * 2017-09-28 2019-04-18 株式会社東芝 対話処理装置および対話処理システム
CN111095237A (zh) * 2017-09-28 2020-05-01 株式会社东芝 对话处理装置及对话处理系统
JP7000096B2 (ja) 2017-09-28 2022-01-19 株式会社東芝 対話処理装置および対話処理システム
CN111095237B (zh) * 2017-09-28 2023-10-13 株式会社东芝 对话处理装置及对话处理系统
JP2021184290A (ja) * 2018-04-02 2021-12-02 サウンドハウンド,インコーポレイテッド 異なるドメインにおいて潜在的に曖昧な意味を有する表現の解釈
WO2020208972A1 (ja) * 2019-04-08 2020-10-15 ソニー株式会社 応答生成装置及び応答生成方法

Also Published As

Publication number Publication date
JP5248867B2 (ja) 2013-07-31
US8996385B2 (en) 2015-03-31
JPWO2007088877A1 (ja) 2009-06-25
US20080319748A1 (en) 2008-12-25

Similar Documents

Publication Publication Date Title
WO2007088877A1 (ja) 会話システムおよび会話ソフトウェア
EP2259252B1 (en) Speech recognition method for selecting a combination of list elements via a speech input
US8380505B2 (en) System for recognizing speech for searching a database
US9934777B1 (en) Customized speech processing language models
JP5183176B2 (ja) 双方向スピーチ認識システム
JP4188989B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
US9986394B1 (en) Voice-based messaging
JP4260788B2 (ja) 音声認識機器制御装置
US20080177541A1 (en) Voice recognition device, voice recognition method, and voice recognition program
US20200184967A1 (en) Speech processing system
US20060190258A1 (en) N-Best list rescoring in speech recognition
CN101515457A (zh) 利用片段对大列表进行语音识别
JP2010191400A (ja) 音声認識装置およびデータ更新方法
JP2008097082A (ja) 音声対話装置
Misu et al. A bootstrapping approach for developing language model of new spoken dialogue systems by selecting web texts
US20080262843A1 (en) Speech recognition apparatus and method
US11715472B2 (en) Speech-processing system
JP4950024B2 (ja) 会話システムおよび会話ソフトウェア
US11430434B1 (en) Intelligent privacy protection mediation
US10832675B2 (en) Speech recognition system with interactive spelling function
KR20060098673A (ko) 음성 인식 방법 및 장치
JP2008134503A (ja) 音声認識装置、および音声認識方法
JP2005070330A (ja) 音声認識装置及びプログラム
Loui et al. Investigating a two-way-audio query-response command interface with navigation data extraction for driver assistance
JP2008076812A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
ENP Entry into the national phase

Ref document number: 2007556883

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 12087791

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 07707778

Country of ref document: EP

Kind code of ref document: A1