WO2007013521A1 - ユーザと機械とのインタラクションを実施するための装置、方法、およびプログラム - Google Patents
ユーザと機械とのインタラクションを実施するための装置、方法、およびプログラム Download PDFInfo
- Publication number
- WO2007013521A1 WO2007013521A1 PCT/JP2006/314786 JP2006314786W WO2007013521A1 WO 2007013521 A1 WO2007013521 A1 WO 2007013521A1 JP 2006314786 W JP2006314786 W JP 2006314786W WO 2007013521 A1 WO2007013521 A1 WO 2007013521A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- domain
- subtask
- task
- knowledge
- action
- Prior art date
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 title claims description 42
- 230000009471 action Effects 0.000 claims description 209
- 230000003542 behavioural effect Effects 0.000 claims description 12
- 230000006978 adaptation Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 abstract description 14
- 230000002596 correlated effect Effects 0.000 abstract 3
- 230000006399 behavior Effects 0.000 description 58
- 238000000605 extraction Methods 0.000 description 45
- 230000008569 process Effects 0.000 description 28
- 230000002452 interceptive effect Effects 0.000 description 15
- 230000006870 function Effects 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 230000009474 immediate action Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Definitions
- the present invention relates to an apparatus, a method, and a program for performing an interaction between a user and a machine.
- a voice interaction interface has been developed as an interface between a human being and a machine such as a robot or Nichiichi's navigation.
- a machine having an interactive interface interacts with the user by interacting with the user, or by his own actions executed based on information obtained through the interaction.
- Japanese Patent Laid-Open No. 2003-316385 discloses a dialogue sequence in which a task (domain) corresponding to a result of voice recognition of a user's utterance is selected from a plurality of tasks in order for a user and a machine to freely interact. Is disclosed, and when the user utters, the technology transits to the dialog sequence of the corresponding task as necessary and returns to the original dialog sequence.
- the task (domain) is selected according to the speech recognition result of the user's utterance. Therefore, when an erroneous recognition is performed due to noise in the vehicle, an unexpected task is performed. There is a situation where the transition to (domain) causes the dialog context to become trapped and the user is confused.
- An object of the present invention is to provide a technique capable of performing an interaction between a user and a machine so as to transit between a plurality of domains while maintaining the context of the dialog.
- the present invention provides an apparatus for performing user-machine interaction.
- the device has a plurality of domains corresponding to a plurality of stages in the interaction, Each domain has voice understanding means that understands the contents of the user's voice and outputs a voice understanding result.
- This device sends the user's voice to each of the means for recognizing the user's voice from the signal detected by the microphone and the voice understanding means, receives the voice understanding result from each of the voice understanding means, and receives the best voice.
- the domain knowledge that includes the speech understanding means that obtains the understanding result as the domain and the task knowledge of the domain included in each of the multiple domains and associate it with the speech understanding result.
- Means for extracting an extracted task means for obtaining a subtask sequence associated with the extracted task by referring to subtask knowledge including a plurality of subtasks associated with the task type, and a subtask at the top of the subtask sequence And the means for updating the domain to which the subtask belongs as the domain.
- a means for extracting the speech understanding result and the action or subtask end flag associated with the subtask by referring to the action knowledge of the domain among the action knowledge included in each of the plurality of domains, and the extracted action as a machine Means for executing.
- subtask knowledge includes knowledge of one or more subtasks associated with a task and knowledge of a domain associated with the subtask. This preserves the domain context while accomplishing the task.
- each of the speech understanding means is highly related to the corresponding domain, and refers to speech knowledge including a plurality of sentence patterns.
- the degree of matching with each is calculated, the sentence pattern with the highest degree of matching is selected, and the selected sentence pattern and the degree of matching of the sentence pattern are output as a speech understanding result. This preserves the domain context.
- the means for selecting calculates the reliability by multiplying the fitness by the weight set for each of a plurality of domains, and determines the domain having the maximum reliability as the domain. To select. As a result, the domain context can be maintained.
- the updating means is configured such that when the means for extracting an action or subtask end flag extracts the subtask end flag, The subtask next to the subtask is updated as a new relevant subtask, and the domain to which the new relevant subtask belongs is updated as the relevant domain. This makes it possible to accomplish the task smoothly.
- the present invention provides a method for performing user-machine interaction.
- the signal strength detected by the microphone also recognizes the user's voice, sends the user's voice to each of the domains corresponding to the multiple stages of the interaction, and Understanding the content of speech and outputting speech understanding results, receiving speech understanding results from each of multiple domains, and the domain with the best speech understanding result among multiple speech understanding results
- the step of selecting, the step of extracting the task associated with the speech understanding result by referring to the task knowledge of the domain among the task knowledge included in each of the plurality of domains, and the task type The extracted task by referring to the subtask knowledge including multiple subtasks.
- a step of obtaining a subtask sequence associated with the subtask sequence a step of updating the first subtask of the subtask sequence as the subtask, updating a domain to which the subtask belongs to the domain, and behavioral knowledge included in each of the plurality of domains It includes the steps of referring to the behavioral knowledge of the domain and extracting the speech interpretation result and the behavior or subtask end flag associated with the subtask, and causing the machine to execute the extracted behavior.
- the present invention provides a program for performing an interaction between a user and a machine.
- the program recognizes the user's voice as well as the signal strength detected by the microphone, sends the user's voice to each of multiple domains corresponding to multiple stages of user interaction, and multiple domains. For each of the above, the function of understanding the contents of the voice and outputting the voice understanding result, the function of receiving the voice understanding result from each of the plurality of domains, and the best voice understanding result among the plurality of voice understanding results.
- the computer realizes the function of extracting the speech understanding result and the action or subtask end flag associated with the subtask, and the function of causing the machine to execute the extracted action.
- This program is recorded on a computer-readable recording medium.
- FIG. 1 is a functional block diagram of a voice interactive apparatus.
- FIG. 2 is a flowchart of speech understanding processing.
- FIG. 3 is a flowchart of action selection processing.
- FIG. 4 is a flowchart of an action execution 'task extraction process in step S209.
- FIG. 1 is a functional block diagram of a voice interactive apparatus 10 according to an embodiment of the present invention.
- the voice interactive apparatus 10 includes, for example, a CPU that executes various calculations and a calculation result. It is realized by a microcomputer equipped with a memory for temporary storage, a ROM for storing learning results, and an interface for inputting and outputting data. A part or all of each functional block of the voice interactive apparatus 10 shown in FIG. 1 can be realized by software, firmware, or hardware.
- the voice interactive device 10 is a device for performing an interaction between a human and a machine.
- the voice interactive apparatus 10 receives a human voice from voice detection means (not shown) such as a microphone provided in the machine, and transmits an operation command to the voice generation means or movement means (not shown) of the machine.
- machine in the present invention refers to a robot, car navigation, electrical appliance, or the like that uses voice for an interface.
- the voice interactive device 10 may be in the form of being embedded inside the machine, or may be in the form of communicating with the machine by wire or wireless from the outside of the machine.
- the voice interactive device 10 includes a plurality of domains a to n.
- the "domain” in the present invention refers to a plurality of phases (phases) constituting an interaction between a human and a machine.
- domains a to n have a “request understanding domain” in which dialogue is performed in order to understand the types of human requests, and a “non-request understanding domain” in which actions are performed in response to human requests. "In”.
- the “request understanding domain” understands a request from a person such as “going to call a person” through a dialogue such as estimating the content of a person's utterance or asking a question about an unknown point.
- different domains are prepared according to the content of the request, and it is optimal for the utterance content of the core users of these multiple request understanding domains 1 Is selected. The selection of the domain is performed by an utterance understanding process described later. By selecting one request understanding domain, the content of the user's request is understood.
- “Unrequested understanding domains” have different domains depending on the content of actions such as “get information on target position”, “move to target position”, “send message”, etc. .
- the plurality of domains a to n are, respectively, a speech understanding unit 31a to n, a speech knowledge 33a to n, a state storage unit 35a to n, a behavior extraction unit 37a to n, a behavior knowledge 39a to n, and a task extraction unit 41a.
- ⁇ N task knowledge 43a ⁇ n.
- the terms “task”, “subtask”, and “action” are used in a hierarchical manner.
- the domain selection unit 13 selects a request understanding domain that is most suitable for the content of the user's utterance, and performs task extraction of the selected domain (any one of a to n) (hereinafter “the domain” t).
- Department (41a to 41n) Force Extracts the “task” that the robot should perform in order to satisfy the user's requirements.
- the task planning unit 23 determines a series of “subtasks” for performing the extracted “task”.
- the action selection unit 17 selects “action” for performing “subtask” according to the “subtask” series. That is, the contents of “task”, “subtask”, and “action” are subdivided in the order of task ⁇ subtask ⁇ action.
- the processing performed by the voice interactive device 10 is divided into “utterance understanding processing” and “behavior selection processing”.
- the “speech understanding process” is mainly performed by the speech recognition unit 11, the domain selection unit 13, the speech understanding units 31 a to 31 n of each domain, and the domain storage unit 15.
- the “behavior selection process” mainly consists of the action selection unit 17, the action execution unit 19, the action history storage unit 21, the domain storage unit 15, the domain behavior extraction unit (any of 37a to 37n), and task extraction. (One of 41a to 41n) and task planning unit 23. Details of the “utterance understanding process” and the “behavior selection process” will be described below.
- FIG. 2 is a flowchart of the speech understanding process.
- step S101 when a user's utterance is input from a detecting means (not shown) such as a microphone, the voice recognition unit 11 recognizes the voice.
- the speech recognition unit 11 outputs a speech recognition result in the form of a word string and the reliability of the recognition result of each word using a known method such as a hidden Markov model.
- the reliability generally takes a value between 0 and 1.
- Each word included in the word string may have a plurality of candidates.
- a known method such as beam forming may be used to extract the voice from the input signal of the microphone and recognize the extracted voice.
- step S103 the domain selection unit 13 transmits the speech recognition result to the speech understanding units 31a to 31n of the domains a to n. Further, the domain selection unit 13 sets an utterance end flag in the domain selection unit 15 for a predetermined period (for example, 3 seconds) from the time when the speech recognition result is received from the speech recognition unit 11.
- a predetermined period for example, 3 seconds
- step S 105 the speech understanding unit 3 la to 3 In force of each domain
- the word string included in the speech recognition result input from the domain selection unit 13 and the speech knowledge 33a to 33n prepared according to the domain The “fitness” with the sentence pattern in is calculated.
- the speech knowledge 33a to 33n is composed of a plurality of “sentence patterns” prepared according to the domain in order to understand the speech recognition result.
- “Sentence pattern” is, for example,
- This example sentence pattern includes three categories: ⁇ date>, ⁇ place>, ⁇ information type> t. Each category has a corresponding keyword list.
- Each word included in the speech recognition result is matched with the category when it matches a keyword prepared for each category of sentence pattern.
- “Fitness” is, for example, the number and ratio of categories in which words are matched among categories included in a certain sentence pattern.
- step S107 the speech understanding units 31a to 31n select the sentence pattern having the highest fitness. Then, the state storage units 35a to 35n are set as a "speech understanding result" with a sentence in which a word conforming to each category of the selected sentence pattern is applied (hereinafter referred to as "adapted sentence pattern") and the degree of conformity of this sentence pattern. To store.
- the reliability of each word may be added to the “adapted sentence pattern”. For example, if the confidence level of the speech recognition for the word “Tomorrow” is 0.9 and the confidence level of the speech recognition for the word “weather” is 0.7, the adapted sentence pattern is
- step S109 the speech understanding units 31a to 31n send the degree of adaptation of the selected sentence pattern to the domain selection unit 13.
- step S111 the domain selection unit 13 calculates a "selection reliability" from the fitness that also receives the speech understanding unit 3la-3In force of each domain.
- the “selection reliability” is calculated by multiplying the fitness by the “weight” set for each domain.
- a value larger than 1 is set for the domain stored in the domain storage unit 15, and 1 is set for the other domains. This is because it is assumed that there is a high possibility that conversations and actions in the domain will occur continuously.
- This domain is the domain to which the previous user utterance or subtask belongs.
- the weight of the domain may be a little larger than the other domains in the request understanding domain, and may be a large value in the non-request understanding domain. This weighting makes it difficult to fix the request selection domain, and the other domains are likely to be fixed. This is because it is assumed that dialogue and trial and error are often required to understand the user's request, but once the request is understood, the context of subsequent dialogue and actions is likely to be fixed.
- step S113 the domain selection unit 13 selects the domain with the highest selection reliability as the domain, and stores information on the selected domain in the domain storage unit 15. If the multiple domain selection reliability is the same, the domain is selected. If the domain is estimated in this way, the domain is easily selected. Calculate selection reliability Without any problem, the domain with the highest degree of fitness can be the domain.
- the domain storage unit 15 After performing the above utterance understanding processing on the input user utterance, the domain storage unit 15 displays the "domain of interest" representing the domain of dialogue / behavior performed by the current system.
- state storage units 35a to 35n of each domain store the "spoken understanding result" including the sentence pattern having the highest matching score and the matching score.
- FIG. 3 is a flowchart of the action selection process.
- the behavior selection process shown in FIG. 3 is executed by the behavior selection unit 17 at a predetermined cycle (for example, 100 milliseconds).
- step S201 the action selection unit 17 refers to the action history storage unit 21 and confirms whether or not the robot is executing an action.
- the action history storage unit 21 records “the action executed immediately before”, “the start time of the action”, and “the end time of the action”. Since the end time is not recorded when the action is being executed, the action selection unit 17 confirms whether or not the action is being executed by checking the existence of the “action end time” in the action history storage unit 21. To do. If the action is not being executed, the process proceeds to step S203. If the action is being executed, the processing of the current cycle ends and waits until the next cycle.
- step S203 the action selection unit 17 confirms whether or not the robot has just finished the action. In this process, for example, with reference to the “behavior end time” in the action history storage unit 21, it is confirmed whether a predetermined time has elapsed from the “behavior end time”. If not immediately after the action is completed, the process proceeds to step S205. If it is immediately after the action ends, the process proceeds to step S207.
- step S205 the action selection unit 17 refers to the utterance end flag of the domain storage unit 15 and confirms whether or not the user's utterance has ended. If the utterance has ended, the process proceeds to step S209, and the “behavior selection'task extraction” process is performed. If the utterance has not ended, the processing for the current cycle ends and waits until the next cycle.
- step S207 the action selection unit 17 refers to the “behavior executed immediately before” in the action history storage unit 21 and confirms whether the immediately preceding action is “a question to the user”. If the immediately preceding action is not a “question to the user”, the process proceeds to step S209, and the “behavior selection / task extraction” process is performed. If the previous action was a “question to the user”, the processing of this cycle ends, and it waits until the next cycle.
- FIG. 4 is a flowchart of the action execution 'task extraction process in step S209.
- domain a is selected as the domain.
- the domain is appropriately selected from among domains a to n.
- Action execution ⁇ In the task extraction process, the following steps are executed.
- the action selection unit 17 refers to the domain storage unit 15 to check the domain a, and requests the action extraction unit 37a of the domain to select an action (step S301).
- an action or subtask end flag corresponding to the voice understanding result of the state storage unit 35a is selected (step S305).
- the action selection rule is a relationship between any or all of the speech understanding results, the subtask, and the action history stored in the state storage units 35a to 35n, and the action or subtask end flag. This is a rule commonly used for action selection in the field of speech dialogue research.
- the action selection rule is, for example, “if the sentence pattern has“ blank ”in the speech understanding result, generate an action that asks for a blank”, “if the voice understanding result is good (the conformity is good and the fitness is good (High), select sub-task end flag ”,“ If the previous action in the action history that improves the voice understanding result is a question to the user, repeat request utterance generation ”,“ Sound understanding result improves If the previous action in the action history is an utterance utterance to the user, a request utterance generation requesting the utterance again is performed.
- the behavioral knowledge also includes "language generation knowledge”.
- the selected action is If it is related to an utterance such as “Generate an action that asks white”, the action and the sentence content are associated.
- step S309 task selection is requested from the action extraction unit 37a to the task extraction unit 41a (step S309).
- the task extraction unit 41a refers to the task extraction rule in the task knowledge 43a and outputs a task corresponding to the speech understanding result to the task planning unit 23 (step S311).
- the task planning unit 23 converts the task into a subtask series using the subtask knowledge 25 and stores it in the task plan storage unit 27 (step S313).
- the subtask knowledge 25 has knowledge (rules) for decomposing a task into subtasks, and each subtask is associated with a domain.
- the task is divided into subtasks as follows, for example.
- Each subtask is associated with a domain.
- subtask (0 corresponds to "information acquisition domain that knows the position of a person”
- subtask GO corresponds to "moving domain”
- subtask ( iii) is set to correspond to “information-providing domain”
- the action execution unit 19 executes an action input from the action selection unit 17 and stores the execution start time in the action history storage unit 21. When the execution is completed, the action and the execution end time are stored in the action history storage unit 21.
- the task plan unit 23 refers to the task plan storage unit 27 and outputs the first subtask to the action selection unit 17 when there is a subtask series, and if there is no subtask series, the task plan flag 23 acts It outputs to the selection part 17 (step S323).
- the domain of the subtask (a to n!) Is stored in the domain storage unit 15 as the domain, and the behavior extraction unit (37a to 37n of the domain) is stored.
- the subtask is output to any power).
- the behavior extraction unit (any force of 37a to 37 ⁇ ) of the domain stores the subtask in the state storage unit (any force of 35a to 35n) (step S327).
- step S331 If a no task flag is sent, the data in all storage units are cleared (step S331).
- the state storage units 35a to 35n of each domain include, in addition to the "speech understanding result” including the adapted sentence pattern and the degree of adaptation of the sentence pattern with the highest degree of fitness. “Subtask” is stored.
- the task plan storage unit 27 stores the subtask series.
- the action history storage unit 21 stores “immediate action” and “action execution end time”.
- the domain in the domain storage unit 15 may be updated. [0082] 4. Examples
- the four domains a to d included in the robot in this embodiment are "request understanding domain a for calling a person a”, "information acquisition domain b for knowing a person's position”, “moving domain c”, “T, called information providing domain d”.
- the domain selection unit 13 transmits the word string to the speech understanding units 3 la to 3 Id of the domains a to d, and sets an utterance end flag in the domain storage unit 15 for a predetermined period.
- Each of the speech understanding units 31a to 31d adapts this word string to the sentence pattern in the speech knowledge 33a to 33d.
- the speech understanding units 31a to 31d adapts this word string to the sentence pattern in the speech knowledge 33a to 33d.
- the word fits into all (two) categories included in the sentence pattern, and the confidence of "Jidan”, “Ms.” The degree is calculated.
- the domain selection unit 13 calculates and compares the domain selection reliability based on the goodness of fit input from the speech understanding units 31a to 31d of the domains a to d, and selects the domain having the largest domain selection reliability. Stored in the domain storage unit 15 as a domain.
- the action selection unit 17 refers to the action history storage unit 21 at intervals of 100 milliseconds.
- the utterance end flag in the domain storage unit 15 is detected and it is determined that the utterance has ended.
- the action selection unit 17 performs action selection processing.
- the action selection unit 17 refers to the domain storage unit 15, and requests the action extraction unit 37a of the domain "request understanding domain a to call a person" to select an action.
- the behavior extraction unit 37a compares the speech recognition result in the state storage unit 35a with the behavior extraction rule in the behavior knowledge 39a.
- the task planning unit 23 receives the above task, refers to the subtask knowledge 25, decomposes it into the following subtask series, stores it in the task plan storage unit 27, and stores the first subtask (0 in the action selection unit 17). Output.
- the action selection unit 17 is a subtask (domain 0, “information acquisition domain that knows the location of people b
- the behavior extraction unit 37b of the domain stores the input subtask (0 in the state storage unit 37b.
- the action selection unit 17 again (after 100 milliseconds) detects the user utterance end flag with reference to the action history storage unit 21 and the domain storage unit 15 and performs an action selection process.
- the action selection unit 17 refers to the domain storage unit 15 to obtain the domain “information acquisition domain b for knowing the position of a person”, and requests the action extraction unit 37b of the domain to select an action.
- the behavior extraction unit 37b of the domain refers to the behavior selection rule in the behavior knowledge 39b and selects the speech understanding result and the subtask (the behavior corresponding to 0).
- the action selection unit 17 outputs this action (sentence) to the action execution unit 19.
- the action execution unit 19 speaks "Where is Mr. Zidane?" And stores the action and the execution end time as a question to the user in the action history storage unit 21.
- the speech recognition unit 11 recognizes “Zidan-San” with a low evaluation value.
- the domain selection unit 13 transmits the recognition result to the speech understanding units 31a to 31d of each domain, and sets an utterance end flag in the domain storage unit 15.
- the speech understanding unit of all domains detects misrecognition, stores it in the status storage units 35a to 35d together with the fitness level, and outputs the fitness level to the domain selection unit 13.
- the domain selection unit 13 refers to the domain stored in the domain storage unit 15.
- the domain selection reliability is calculated by assigning a high weight to this domain. As a result, “the information acquisition domain for knowing the position of the person has been selected, so the domain in the domain storage unit 15 should not be updated!
- the action selection unit 17 learns that the user utterance has ended immediately after the end of the action, and performs action selection processing.
- the behavior selection unit 17 refers to the domain storage unit 15, knows the domain as "information acquisition domain b that knows the position of a person", and requests the behavior extraction unit 37b of the domain to select the behavior.
- the action extraction unit 37b of the domain refers to the speech understanding result of “false recognition” and low fitness stored in the state storage unit 35b, and the action selection rule,
- the action extraction unit 37b refers to the knowledge of language generation in the action knowledge 39b, Action
- the action selection unit 17 outputs this to the action execution unit 19.
- the action execution unit 19 utters “Please ask again”, and stores the request (re-question) to the user, V, the action and the execution end time in the action history storage unit 21.
- U adapted sentence pattern is stored as speech understanding result with high degree of relevance.
- the domain selection unit 13 should not update the domain in the domain storage unit 15.
- the action selection unit 17 detects the utterance end flag in the domain storage unit 15, determines that the utterance has ended, and performs an action selection process.
- the behavior selection unit 17 knows that the domain is “information acquisition domain b that knows the position of a person”, and requests the behavior extraction unit 37b of the domain to select a behavior.
- sub-tasks are referred to as action selection rules, and the word matches all categories of sentence patterns, and the degree of match is high, so a subtask end flag is output to the action selection unit 17.
- the action selection unit 17 clears the domain “information acquisition domain b for knowing the position of the person” in the domain storage unit 15 and requests the task planning unit 23 for a subtask.
- the task plan unit 23 refers to the task plan storage unit 27.
- the behavior selection unit 17 stores “moving domain c” as the domain in the domain storage unit 15 and outputs the subtask GO to the behavior extraction unit 37c of the domain.
- the behavior extraction unit 37c of the domain stores the subtask GO in the state storage unit 35c.
- the action selection unit 17 again (after 100 milliseconds) detects the utterance end flag still standing with reference to the action history storage unit 21 and the domain storage unit 15 and performs action selection processing.
- the behavior selection unit 17 requests the behavior extraction unit 37c of the domain "moving domain c" that is the domain to select the behavior.
- the behavior extraction unit 37c of the domain is in the state storage unit 35c.
- the action selection unit 17 outputs this to the action execution unit 19.
- the robot moves the power robot to the dressing room, and when it arrives, the movement, the corresponding action, and the execution end time are stored in the action history storage unit 21.
- the action selection unit 17 After a few minutes, the action selection unit 17 detects the end of action and performs action selection processing.
- the action selection unit 17 goes to the action extraction unit 37c of "moving domain c" that is the domain. Request dynamic selection.
- the behavior extraction unit 37c of the domain is in the state storage unit 35c.
- the action history storage unit 21 selects the subtask end flag with reference to the action history of the action selection rule, and outputs it to the action selection unit 17.
- the action selection unit 17 clears the “moving domain c” in the domain storage unit 15 and requests the task planning unit 23 for a subtask.
- the task plan unit 23 refers to the task plan storage unit 27.
- the action selecting unit 17 stores “the information providing domain d when called” in the domain storage unit 15 and outputs the subtask (iii) to the action extracting unit 37 d of the domain.
- the behavior extraction unit 37d stores the subtask (iii) in the state storage unit 35d.
- the behavior selection unit 17 refers to the behavior history storage unit 21 to know that it is immediately after the execution of the behavior, and performs a behavior selection process.
- the behavior selection unit 17 requests the behavior extraction unit 37d of the domain "information domain d to be called” to select the behavior.
- the behavior extraction unit 37d of the domain is in the state storage unit 35d.
- the action extraction unit 37d refers to the knowledge of language generation in the action knowledge 39d
- the action selection unit 17 outputs this to the action execution unit 19. [0152]
- the action execution unit 19 utters "Henri is calling” and stores the action and the execution end time to convey information in the action history storage unit 21.
- the action selection unit 17 refers to the action history storage unit 21 to know the end of the action and performs an action selection process.
- the action selection unit 17 requests the action extraction unit 37d of the domain "information domain d to be called" to select an action.
- the behavior extraction unit 37d of the domain is in the state storage unit 35d.
- the action selection unit 17 clears the “domain for providing information d called” in the domain storage unit 15, and requests a subtask from the task plan unit 23.
- the task plan unit 23 refers to the task plan storage unit 27, and outputs no task flag to the action selection unit 17 because there is no subtask.
- the action selection unit 17 receives the no task flag and clears the data in all the storage units.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Manipulator (AREA)
Abstract
本発明は、ユーザと機械とのインタラクションを実施する装置を提供する。この装置は、インタラクションにおける複数の段階に対応する複数のドメインを有し、各ドメインは、ユーザの音声の内容を理解して音声理解結果を出力する音声理解手段を備えている。この装置は、ユーザの音声を認識する手段と、最良の音声理解結果をとるドメインを当該ドメインとして選択する手段と、当該ドメインのタスク知識を参照して音声理解結果に関連付けられたタスクを抽出する手段と、抽出されたタスクに関連付けられたサブタスク系列を求める手段と、サブタスク系列の先頭のサブタスクを当該サブタスクとし、当該サブタスクの属するドメインを当該ドメインとして更新する手段と、当該ドメインの行動知識を参照して、音声理解結果およびサブタスクに関連付けられた行動またはサブタスク終了フラグを抽出する手段と、抽出された行動を機械に実行させる手段と、を備える。
Description
明 細 書
ユーザと機械とのインタラクションを実施するための装置、方法、およびプ ログラム
技術分野
[0001] 本発明は、ユーザと機械とのインタラクションを実施するための装置、方法、および プログラムに関する。 背景技術
[0002] 従来、ロボットまたは力一'ナビゲーシヨンなどのような機械と、人間とのインターフエ ースとして、音声対話インターフェースが開発されている。対話インターフェースを有 する機械は、ユーザとの対話や、対話で得られた情報に基づいて実行される自身の 行動などによって、ユーザとのインタラクションを実施する。
[0003] 例えば、特開 2003-316385号公報には、ユーザと機械が自由に対話するために、 ユーザの発話を音声認識した結果に対応したタスク (ドメイン)を複数のタスクより選ん で対話シークェンスを自動生成し、さらにユーザが発話した場合は必要に応じて対 応したタスクの対話シークェンスに遷移し、もとの対話シークェンスに復帰する技術 が開示されている。
発明の開示
発明が解決しょうとする課題
[0004] し力しながら、従来技術では、ユーザ発話の音声認識結果に応じてタスク(ドメイン) を選択するので、車内の雑音などによって誤った認識が行われたときなどに、想定外 のタスク (ドメイン)に遷移して対話の文脈が齟齬をきたし、ユーザが戸惑う事態が考 えられる。
[0005] 本発明の目的は、対話の文脈を保って複数のドメインを遷移するようにユーザと機 械とのインタラクションを実施することが可能な手法を提供することである。
課題を解決するための手段
[0006] 本発明は、ユーザと機械とのインタラクションを実施する装置を提供する。この装置 は、インタラクションにおける複数の段階に対応する複数のドメインを有し、該複数の
ドメインのそれぞれは、ユーザの音声の内容を理解して音声理解結果を出力する音 声理解手段を備えている。この装置は、マイクロフォンで検出された信号カゝらユーザ の音声を認識する手段と、音声理解手段のそれぞれにユーザの音声を送り、音声理 解手段のそれぞれから音声理解結果を受け取り、最良の音声理解結果をとる音声理 解手段が含まれるドメインを当該ドメインとして選択する手段と、複数のドメインのそれ ぞれに含まれるタスク知識のうち当該ドメインのタスク知識を参照して、音声理解結果 に関連付けられたタスクを抽出する手段と、タスクの種類に関連付けられる複数のサ ブタスクを含むサブタスク知識を参照して、前記抽出されたタスクに関連付けられた サブタスク系列を求める手段と、サブタスク系列の先頭のサブタスクを当該サブタスク とし、当該サブタスクの属するドメインを当該ドメインとして更新する手段と、複数のドメ インのそれぞれに含まれる行動知識のうち当該ドメインの行動知識を参照して、音声 理解結果および前記サブタスクに関連付けられた行動またはサブタスク終了フラグを 抽出する手段と、抽出された行動を機械に実行させる手段と、を備える。
[0007] この発明により、複数のドメインに跨る人と機械のインタラクションを滑らかに実行で きる。
[0008] 本発明の一実施形態によると、サブタスク知識は、タスクに関連付けられる 1つ以上 のサブタスクに関する知識と、サブタスクに関連付けられるドメインに関する知識と、を 含む。これにより、タスクを達成する間、ドメインの文脈を保持することができる。
[0009] 本発明の一実施形態によると、音声理解手段のそれぞれは、対応するドメインに関 連性の高!、複数の文パターンを含む音声知識を参照して、音声と複数の文パターン のそれぞれとの適合度を算出し、適合度が最も高い文パターンを選択し、選択され た文パターンおよび該文パターンの適合度を音声理解結果として出力する。これに より、ドメインの文脈を保つことができる。
[0010] 本発明の一実施形態によると、選択する手段は、適合度に複数のドメインごとに設 定された重みを乗じて信頼度を算出し、最大の信頼度をとるドメインを当該ドメインと して選択する。これにより、ドメインの文脈を保つことができる。
[0011] 本発明の一実施形態によると、更新する手段は、行動またはサブタスク終了フラグ を抽出する手段がサブタスク終了フラグを抽出すると、サブタスク系列における当該
サブタスクの次のサブタスクを新たな当該サブタスクとして更新し、新たな当該サブタ スクの属するドメインを当該ドメインとして更新する。これによりタスクを円滑に達成す ることがでさる。
[0012] さらに、本発明は、ユーザと機械とのインタラクションを実施するための方法を提供 する。この方法は、マイクロフォンで検出された信号力もユーザの音声を認識するス テツプと、インタラクションにおける複数の段階に対応する複数のドメインのそれぞれ にユーザの音声を送るステップと、複数のドメインのそれぞれにおいて、音声の内容 を理解して音声理解結果を出力するステップと、複数のドメインのそれぞれから音声 理解結果を受け取るステップと、複数の音声理解結果のうち最良の音声理解結果を とるドメインを、当該ドメインとして選択するステップと、複数のドメインのそれぞれに含 まれるタスク知識のうち当該ドメインのタスク知識を参照して、音声理解結果に関連付 けられたタスクを抽出するステップと、タスクの種類に関連付けられた複数のサブタス クを含むサブタスク知識を参照して、抽出されたタスクに関連付けられたサブタスク系 列を求めるステップと、サブタスク系列の先頭のサブタスクを当該サブタスクとし、当 該サブタスクの属するドメインを当該ドメインとして更新するステップと、複数のドメイン のそれぞれに含まれる行動知識のうち当該ドメインの行動知識を参照して、音声理 解結果およびサブタスクに関連付けられた行動またはサブタスク終了フラグを抽出す るステップと、抽出された行動を機械に実行させるステップと、を含む。
[0013] さらに、本発明は、ユーザと機械とのインタラクションを実施するためのプログラムを 提供する。このプログラムは、マイクロフォンで検出された信号力もユーザの音声を認 識する機能と、ユーザとのインタラクションにおける複数の段階に対応する複数のドメ インのそれぞれにユーザの音声を送る機能と、複数のドメインのそれぞれにお 、て、 音声の内容を理解して音声理解結果を出力する機能と、複数のドメインのそれぞれ から、音声理解結果を受け取る機能と、複数の音声理解結果のうち最良の音声理解 結果をとるドメインを、当該ドメインとして選択する機能と、複数のドメインのそれぞれ に含まれるタスク知識のうち当該ドメインのタスク知識を参照して、音声理解結果に関 連付けられたタスクを抽出する機能と、タスクの種類に関連付けられる複数のサブタ スクを含むサブタスク知識を参照して、抽出されたタスクに関連付けられたサブタスク
系列を求める機能と、サブタスク系列の先頭のサブタスクを当該サブタスクとし、当該 サブタスクの属するドメインを当該ドメインとして更新する機能と、複数のドメインのそ れぞれに含まれる行動知識のうち当該ドメインの行動知識を参照して、音声理解結 果およびサブタスクに関連付けられた行動またはサブタスク終了フラグを抽出する機 能と、抽出された行動を機械に実行させる機能と、をコンピュータに実現させる。この プログラムは、コンピュータ読取り可能な記録媒体に記録される。 図面の簡単な説明
[0014] [図 1]音声インタラクティブ装置の機能ブロック図である。
[図 2]発話理解処理のフローチャートである。
[図 3]行動選択処理のフローチャートである。
[図 4]ステップ S209の行動実行'タスク抽出処理のフローチャートである。
符号の説明
[0015] 10 音声インタラクティブ装置
11 音声認識部
13 ドメイン選択部
17 行動選択部
19 行動実行部
23 タスク計画部
25 サブタスク知識
31a〜31n 音声理解部
37a〜37n 行動抽出部
41a〜41n タスク抽出部
43a〜43n タスク知識
発明を実施するための最良の形態
[0016] 1.概略
次に図面を参照して、この発明の実施の形態を説明する。図 1は、本発明の一実施 形態による音声インタラクティブ装置 10の機能ブロック図である。
[0017] 音声インタラクティブ装置 10は、例えば、種々の演算を実行する CPU、演算結果を
一時記憶するためのメモリ、学習結果等を記憶する ROM、データの入出力を行うィ ンターフェース等を備えるマイクロコンピュータにより実現される。図 1に示された音声 インタラクティブ装置 10の各機能ブロックの一部または全部は、ソフトウェア、ファーム ウェア、あるいはハードウェアの何れでも実現することができる。
[0018] 音声インタラクティブ装置 10は、人間と機械とのインタラクションを実施するための 装置である。音声インタラクティブ装置 10は、機械に備えられたマイクロフォンなどの 音声検知手段(図示せず)から人間の音声を受け取り、機械の発声手段または移動 手段など(図示せず)へ動作指令を送信する。
[0019] ここで、本発明における「機械」とは、ロボット、カー'ナビゲーシヨン、電化製品など 、インターフェースに音声を用いるもののことをいう。
[0020] 音声インタラクティブ装置 10は、機械の内部に組み込む形式でも、機械の外部から 有線または無線で機械と通信する形式でも良 ヽ。
[0021] 音声インタラクティブ装置 10は、複数のドメイン a〜nを備える。
[0022] ここで、本発明における「ドメイン」とは、人間と機械との間のインタラクションを構成 する複数の段階 (フェーズ)のことを!、う。
[0023] 本実施形態では、ドメイン a〜nは、人間の要求の種類を理解するために対話を行う 「要求理解ドメイン」と、人間の要求に応えるために行動を実行する「非要求理解ドメ イン」とに大別される。
[0024] 「要求理解ドメイン」は、人間の発話内容を推定したり、不明な点を質問するなどの 対話を通して、例えば「人を呼びに行く」というような人間からの要求を理解する。要 求理解ドメインは、「人を呼びに行く」の他にも、要求の内容に応じて別々なドメインが 用意されており、これら複数の要求理解ドメインの中力 ユーザの発話内容に最適な 1つが選択される。ドメインの選択は、後述する発話理解処理によって行われる。 1つ の要求理解ドメインを選択することにより、ユーザの要求の内容が理解されたことにな る。
[0025] 「非要求理解ドメイン」は、例えば「目標位置の情報を得る」、「目標位置へ移動する 」「メッセージを伝える」というような行動の内容に応じて別々なドメインが用意されてい る。
[0026] 複数のドメイン a〜nは、それぞれ、音声理解部 31a〜n、音声知識 33a〜n、状態 格納部 35a〜n、行動抽出部 37a〜n、行動知識 39a〜n、タスク抽出部 41a〜n、タ スク知識 43a〜nを備える。音声知識、行動知識、およびタスク知識は、ドメインの種 類に応じて関連性の高い文パターン、行動、およびタスクがそれぞれ記憶されている
[0027] 本実施形態では、階層的に「タスク」、「サブタスク」、および「行動」という言葉を使 い分ける。はじめに、ドメイン選択部 13が、ユーザの発話内容に最適な要求理解ドメ インを選択して、選択されたドメイン (a〜nの ヽずれか)(以下「当該ドメイン」 t 、う)の タスク抽出部(41a〜41nのいずれ力)力 ユーザの要求内容を満足するためにロボ ットが行うべき「タスク」を抽出する。次に、タスク計画部 23が、抽出された「タスク」を 行うための「サブタスク」の系列を決定する。そして、行動選択部 17が、「サブタスク」 系列にしたがって、「サブタスク」を行うための「行動」を選択する。つまり、「タスク」、「 サブタスク」、「行動」の内容は、タスク→サブタスク→行動の順で細分ィ匕される。
[0028] 音声インタラクティブ装置 10で行われる処理は、「発話理解処理」および「行動選択 処理」に分けられる。「発話理解処理」は、主に、音声認識部 11, ドメイン選択部 13, 各ドメインの音声理解部 31a〜n、当該ドメイン格納部 15によって実施される。「行動 選択処理」は、主に、行動選択部 17,行動実行部 19、行動履歴格納部 21, 当該ドメ イン格納部 15,当該ドメインの行動抽出部(37a〜37nのいずれか)、タスク抽出部( 41a〜41nのいずれか)、タスク計画部 23によって実施される。以下に、「発話理解 処理」および「行動選択処理」の詳細にっ 、て説明する。
[0029] 2.発話理解処理.
次に、図 2を参照して音声インタラクティブ装置 10の発話理解処理について説明す る。図 2は、発話理解処理のフローチャートである。
[0030] ステップ S101において、マイクロフォンなどの検知手段(図示せず)からユーザの 発話が入力されると、音声認識部 11が音声を認識する。音声認識部 11は、隠れマ ルコフモデルなど公知の手法を用いて、単語列および各単語の認識結果の信頼度 の形で音声認識結果を出力する。信頼度は、一般に 0〜1の値をとる。単語列に含ま れる単語のそれぞれは、複数の候補を有していても良い。雑音のある環境にいる場
合は、ビームフォーミングなどの公知の手法を用いて、マイクロフォン力もの入力信号 カゝら音声を抽出して、抽出された音声を認識しても良い。
[0031] ステップ S103において、ドメイン選択部 13が、音声認識結果を各ドメイン a〜nの音 声理解部 31a〜31nへ送信する。また、ドメイン選択部 13は、音声認識結果を音声 認識部 11から受け取った時刻から所定の期間 (たとえば 3秒間)、当該ドメイン選択 部 15に発話終了フラグを立てる。
[0032] ステップ S 105において、各ドメインの音声理解部 3 la〜3 In力 ドメイン選択部 13 より入力された音声認識結果に含まれる単語列と、ドメインに応じて用意された音声 知識 33a〜33nにある文パターンとの「適合度」を算出する。
[0033] 音声知識 33a〜33nは、音声認識結果を理解するためにドメインに応じて用意され た複数の「文パターン」から構成される。「文パターン」は、例えば、
「く日にち〉のく場所〉のく情報種別 >を教えて」
というものある。この例示した文パターンでは、く日にち〉、く場所〉、く情報種別 > t 、う 3つのカテゴリを含んで 、る。各カテゴリは対応したキーワードリストを持つ。
[0034] 音声認識結果に含まれる単語のそれぞれは、文パターンのカテゴリ別に用意され たキーワードと一致すると、そのカテゴリに適合される。「適合度」は、例えばある文パ ターンが含むカテゴリのうち、単語を適合されたカテゴリの数や割合である。
[0035] 例えば、「明日 の天気 を教えて」という音声認識結果を、
「く日にち〉のく場所〉のく情報種別 >を教えて」
t 、う文パターンに適合させると、
<日にち > =明日、 <場所 >= "空白"、 <情報種別 > =天気 という結果となる。このとき、 3つのカテゴリのうち 2つのカテゴリが音声認識結果と適合 して 、るので、適合度は「2」または「2Z3」と表される。
[0036] ステップ S107において、音声理解部 31a〜31nが、最も適合度の高い文パターン を選択する。そして、選択した文パターンの各カテゴリに適合する単語を当てはめた 文(以下「適合済み文パターン」という)と、この文パターンの適合度とを、「音声理解 結果」として状態格納部 35a〜35nに格納する。
[0037] 「適合済み文パターン」は、上記の例に従うと、
「く日にち =明日〉のく場所 ="空白"〉の
<情報種別 =天気 >を教えて」
のように表される。また、「適合済み文パターン」に各単語の信頼度を加えても良い。 例えば、「明日」という単語の音声認識の信頼度を 0.9、「天気」という単語の音声認識 の信頼度を 0.7とすると、適合済み文パターンは、
「く日にち =明日 (0.9) >のく場所 = "空白" (0.0) >の
<情報種別 =天気 (0.7) >を教えて」
のように表される。
[0038] ステップ S 109において、音声理解部 31a〜31nは、選択した文パターンの適合度 をドメイン選択部 13に送る。
[0039] ステップ S111において、ドメイン選択部 13が、各ドメインの音声理解部 3 la〜3 In 力も受け取った適合度から「選択信頼度」を算出する。
[0040] 「選択信頼度」は、ドメイン別に設定された「重み」を適合度に乗じて算出される。
[0041] 「重み」は、当該ドメイン格納部 15に格納されている当該ドメインに対して 1より大き い値が設定され、他のドメインに対しては 1が設定される。これは、当該ドメインの対 話や行動は連続して行われる可能性が高 、と仮定して 、るためである。当該ドメイン とは、直前のユーザ発話またはサブタスクの属するドメインである。
[0042] 当該ドメインのない場合は、全ての重みが等しい値 (たとえば 1)に設定される。
[0043] 当該ドメインの重みは、要求理解ドメインであれば他ドメインより少し大きい値、非要 求理解ドメインであれば大きな値としても良い。このように重み付けると、要求選択ドメ インは固定されにくぐそれ以外のドメインは固定されやすくなる。これは、ユーザの 要求を理解するには対話の試行錯誤が求められることが多いが、ひとたび要求を理 解すると、その後の対話や行動の文脈は固定されやすい、と仮定しているためである
[0044] ステップ S113にお 、て、ドメイン選択部 13は、選択信頼度が最も大き!、ドメインを 当該ドメインとして選択し、この選択したドメインの情報を当該ドメイン格納部 15に格 納する。複数のドメイン選択信頼度が同じだった場合は、当該ドメインを選択する。こ のようにドメインを推定すると、当該ドメインが選ばれやすくなる。選択信頼度を算出
せずに、適合度が最も大き ヽドメインを当該ドメインとしても良 、。
[0045] 以上に、音声インタラクティブ装置 10の音声理解処理について説明した。
[0046] 入力されたユーザ発話に対して以上の発話理解処理を行った後、当該ドメイン格 納部 15には、現在のシステムが行って 、る対話 ·行動のドメインを表す「当該ドメイン
」と、ユーザの発話の理解が終了したことを示す「発話終了フラグ」が格納される。
[0047] また、各ドメインの状態格納部 35a〜35nには、最も適合度の高力つた文パターン の適合済み文パターンおよび適合度を含む「音声理解結果」が格納される。
[0048] 3.行動選択処理.
次に、図 3および図 4を参照して音声インタラクティブ装置 10の行動選択処理につ いて説明する。図 3は、行動選択処理のフローチャートである。
[0049] 図 3に示す行動選択処理は、行動選択部 17によって、所定の周期(たとえば 100ミ リ秒)で実行される。
[0050] ステップ S201において、行動選択部 17は、行動履歴格納部 21を参照して、ロボッ トが行動を実行しているかどうかを確認する。行動履歴格納部 21は、「直前に実行さ れた行動」、「その行動の開始時刻」、「行動の終了時刻」を記録している。行動が実 行中の場合終了時刻は記録されていないので、行動選択部 17は、行動履歴格納部 21の「行動の終了時刻」の有無を確認することにより、行動が実行中かどうかを把握 する。行動が実行中でない場合、ステップ S203に進む。行動が実行中の場合、今 回の周期の処理は終了し、次の周期まで待機する。
[0051] ステップ S203において、行動選択部 17は、ロボットが行動を終了した直後かどうか を確認する。この処理は、たとえば、行動履歴格納部 21の「行動の終了時刻」を参照 して、現在の時刻が「行動の終了時刻」から所定時間経過しているかを確認する。行 動が終了した直後ではない場合、ステップ S205に進む。行動が終了した直後だつ た場合、ステップ S207に進む。
[0052] ステップ S205において、行動選択部 17は、当該ドメイン格納部 15の発話終了フラ グを参照して、ユーザの発話が終了しているかどうかを確認する。発話が終了してい る場合、ステップ S209〖こ進み、「行動選択'タスク抽出」処理を行う。発話が終了して いない場合、今回の周期の処理は終了し、次の周期まで待機する。
[0053] ステップ S207において、行動選択部 17は、行動履歴格納部 21の「直前に実行さ れた行動」を参照して、直前の行動が「ユーザへの質問」かどうかを確認する。直前の 行動が「ユーザへの質問」ではない場合、ステップ S209に進み、「行動選択'タスク 抽出」処理を行う。直前の行動が「ユーザへの質問」だった場合、今回の周期の処理 は終了し、次の周期まで待機する。
[0054] 図 4は、ステップ S209の行動実行'タスク抽出処理のフローチャートである。
[0055] なお、説明の便宜上、以下の処理では当該ドメインとしてドメイン aが選択されて ヽ る場合を扱っている。実際の処理では、当該ドメインは、ドメイン a〜nの中カゝら適宜選 択される。
[0056] 行動実行 ·タスク抽出処理では以下のステップが実行される。
[0057] (1)行動選択部 17が、当該ドメイン格納部 15を参照して当該ドメイン aを調べ、当該 ドメインの行動抽出部 37aに行動選択を要求する (ステップ S301)。
[0058] (2)行動選択部 17より行動選択が要求されると、当該ドメイン aの行動抽出部 37aが 以下の処理を行う。
[0059] (2- 1)当該ドメイン aが理解要求ドメインの場合 (ステップ S 303の YES)、
a)行動知識 39aの中の行動選択規則を参照して、状態格納部 35aの音声理解結 果に対応した行動またはサブタスク終了フラグを選択する (ステップ S305)。
[0060] ここで、行動選択規則とは、状態格納部 35a〜nに格納されて ヽる音声理解結果、 当該サブタスク、及び行動履歴のいずれか又は全てと、行動またはサブタスク終了フ ラグとの関係を表したものであり、音声対話の研究分野においてアクションセレクショ ンを行うために一般的に用いられる規則である。
[0061] 行動選択規則は、例えば、「音声理解結果で文パターンに"空白"のある場合に、 空白を問う行動を生成する」、「音声理解結果が良い場合 (適合状態が良く適合度が 高い)、サブタスク終了フラグを選択する」、「音声理解結果が良くなぐ行動履歴にあ る直前の行動がユーザに対する質問の場合は、繰り返し要求発話生成をする」、「音 声理解結果が良くなぐ行動履歴にある直前の行動がユーザへの了解発話の場合 は、再び発話を問う依頼発話生成」などである。
[0062] また、行動知識には、「言語生成の知識」も含まれる。選択された行動が上記の「空
白を問う行動を生成する」のような発話に関するものである場合、行動と発話内容の 文章とを対応付ける。
[0063] b)行動が選択された場合、行動選択部 17に行動を出力する (ステップ S315)。
[0064] c)サブタスク終了フラグが選択された場合、行動抽出部 37aからタスク抽出部 41a へタスク選択が要求される (ステップ S 309)。
[0065] d)タスク抽出部 41aが、タスク知識 43aの中のタスク抽出規則を参照して音声理解 結果に対応したタスクを、タスク計画部 23に出力する (ステップ S311)。
[0066] ここで、タスク抽出規則とは、状態格納部 35a〜nに格納されて 、る音声理解結果と 、タスク計画部に出力すべきタスクとの関係を表す規則である。例えば、「人を呼ぶ要 求理解のドメイン a」には、「く人〉を呼んできて」 t 、う文パターンのく人〉カテゴリ に単語が適合されて 、る適合済み文パターンを含む音声理解結果に対して、 <タス ク =人を呼びに行く、 人 = <人 > >という出力タスクが関連付けられて 、る。
[0067] e)タスク計画部 23は、サブタスク知識 25を利用してタスクをサブタスク系列に変換 し、タスク計画格納部 27に格納する(ステップ S313)。
[0068] ここで、サブタスク知識 25は、タスクをサブタスクに分解するための知識 (規則)を持 ち、サブタスクはそれぞれドメインと関連付けられて 、る。
[0069] タスクのサブタスクへの分解は、例えば以下のように行われる。
くタスク =呼ぶ、人 = <X> >
というタスクは、
(0 くサブタスク =人の位置を知る、人 =X>
(ii) <サブタスク =人に近づぐ人 =X>
(iii) <サブタスク =呼ばれて 、ることを伝える、人 =X>
というサブタスクの系列に分解される。
[0070] また、各サブタスクは、ドメインと対応付けられており、例えばサブタスク (0が「人の 位置を知る情報取得ドメイン」と対応し、 サブタスク GOが「移動するドメイン」と対応し、 サブタスク (iii)が「呼ばれて ヽると ヽぅ情報提供ドメイン」と対応するよう設定されて ヽる
[0071] (2- 2)当該ドメインが非理解要求ドメインの場合 (ステップ S303の NO)、行動知識
39aの中の行動選択規則(上記 (2-1)の a)に詳述)を参照して、状態格納部 35aの音 声理解結果、当該サブタスク及び行動履歴に対応した行動またはサブタスク終了フ ラグを選択し、行動選択部 17に出力する (ステップ S317)。
[0072] (3)行動抽出部 37aより行動またはサブタスク終了フラグが入力されると (ステップ S3 19)、行動選択部 17が、
(3- 1)行動が入力された場合は、その行動を行動実行部 19に出力する(S329)。 行動実行部 19は、行動選択部 17より行動が入力されるとそれを実行し、実行開始時 間を行動履歴格納部 21に格納する。実行を終了すると、当該行動と実行終了時間 を行動履歴格納部 21に格納する。
[0073] (3- 2)サブタスク終了フラグが入力された場合は、当該ドメイン格納部 15の当該ド メインをクリアし、 タスク計画部 23にサブタスクを要求する (ステップ S321)。
[0074] a)タスク計画部 23が、タスク計画格納部 27を参照して、サブタスク系列がある場合 は先頭のサブタスクを行動選択部 17に出力し、サブタスク系列がない場合はタスク 無しフラグを行動選択部 17に出力する (ステップ S323)。
[0075] b)サブタスクが入力された場合は、そのサブタスクのドメイン(a〜nの!、ずれか)を 当該ドメインとして当該ドメイン格納部 15に格納し、当該ドメインの行動抽出部(37a 〜37nのいずれ力)にそのサブタスクを出力する。当該ドメインの行動抽出部(37a〜 37ηのいずれ力)は、当該サブタスクを状態格納部(35a〜35nのいずれ力)に格納 する(ステップ S327)。
[0076] c)タスク無しフラグが送られてきた場合は、全ての格納部のデータをクリアする (ステ ップ S331)。
[0077] 以上に図 3および図 4を参照して、行動選択処理について説明した。
[0078] 行動選択処理が行われると、各ドメインの状態格納部 35a〜35nには、最も適合度 の高力つた文パターンの適合済み文パターンおよび適合度を含む「音声理解結果」 に加えて「サブタスク」が格納される。
[0079] タスク計画格納部 27には、サブタスク系列が格納される。
[0080] 行動履歴格納部 21には、「直前の行動」、「行動の実行終了時間」が格納される。
[0081] また、当該ドメイン格納部 15の当該ドメインが更新される場合がある。
[0082] 4.実施例
4. 1 概略
次に、 4つのドメイン a〜dを持つロボットとユーザ (アンリさん)との対話を通じたインタ ラタシヨンの実施例を示す。
[0083] この実施例でロボットが備える 4つのドメイン a〜dは、「人を呼びに行く要求理解ドメ イン a」、「人の位置を知る情報取得ドメイン b」、「移動するドメイン c」、「呼ばれている t 、う情報提供ドメイン d」である。
[0084] ロボットとユーザが次のような対話を行う場合を考える。
アンリさん 「ジダンさんを呼んできて」
ロ ッ卜 「ジダンさんはどこに!/、ます力
アンリさん 「ドレッシングルーム」
ロ ッ卜 「ジダンさんはどこに!/、ます力
アンリさん 「ドレッシングルーム」
ロ ッ卜 「わかりました」
(ジダンさんのとこ -ろに移動を始める)
ロ ッ卜 「アンリさんが呼んでいます」
[0086] このような対話の間に音声インタラクティブ装置 10で行われる処理について以下に 説明する。
[0087] 4. 2 発話理解処理
初期状態では、全ての格納部の中身は空である。
[0088] マイクロフォンよりアンリさんの発話「ジダンさんを呼んできて」が入力されると、音声 認識部 11は、 "ジダン"、 "さん"、 "を"、 "呼んで"、 "きて"という単語列と認識し、各単 語の信頼度 (0〜: L)と合わせてドメイン選択部に出力する。ここでは良好な音声認識 が行われ、各単語はそれぞれ高い信頼度で認識された。
[0089] ドメイン選択部 13は、単語列を各ドメイン a〜dの音声理解部 3 la〜3 Idへ送信し、 当該ドメイン格納部 15に所定の期間、発話終了フラグを立てる。
[0090] 音声理解部 31a〜31dのそれぞれは、音声知識 33a〜33dにある文パターンにこ の単語列を適合させる。
[0091] 例えば「人を呼びに行く要求理解ドメイン a」には、「く人 >を<呼んで〉きて」という 文パターンがあるので、この文パターンに適合させてみる。すると、 <人>カテゴリが 有するキーワードリストど,ジダン"、 "さん"が適合するため、「人 =ジダンさん」が入力 され、また、 <呼んで >が一致する。
[0092] この場合、文パターンが含む全て (2つ)のカテゴリに単語が適合しており、また"ジダ ン"、 "さん"、 "呼んで"の信頼度が高力つたので、高い適合度が算出される。
[0093] 「人を呼びに行く要求理解ドメイン a」の他の文パターンに適合させた結果、この文 パターンの適合度が最も高かったので、適合済み文パターン「 <人 =ジダンさん >を <呼んで >きて」と適合度とを音声認識結果として状態格納部 35aに格納し、適合度 をドメイン選択部 13に出力する。
[0094] 他の 3つのドメイン b〜dも同様に処理する。
[0095] ドメイン選択部 13は、各ドメイン a〜dの音声理解部 31a〜31dより入力された適合 度よりドメイン選択信頼度を算出して比較し、最も大きいドメイン選択信頼度を有する ドメインを当該ドメインとして当該ドメイン格納部 15に格納する。
[0096] この発話では、当該ドメイン格納部 15に当該ドメインが記録されておらず、「人を呼 びに行く要求理解ドメイン a」の適合度が最大だったので、これを当該ドメインとする。
[0097] 4. 3 タスク柚出処理
行動選択部 17は、 100ミリ秒間隔で行動履歴格納部 21を参照する。
[0098] この時、行動履歴格納部 21には何も格納されて 、な 、ため、ロボットは行動実行中 ではなぐまた行動終了直後ではないと判断する。
[0099] そして、当該ドメイン格納部 15の発話終了フラグを検出して発話終了と判断する。
そこで行動選択部 17は行動選択処理を行う。
[0100] 行動選択処理では、行動選択部 17が当該ドメイン格納部 15を参照し、当該ドメイ ンである「人を呼びに行く要求理解ドメイン a」の行動抽出部 37aに行動選択を要求 する。
[0101] 当該ドメインは要求理解ドメインなので、行動抽出部 37aは、状態格納部 35aにある 音声認識結果と、行動知識 39aにある行動抽出規則を照らし合わせる。
[0102] ここでは音声理解結果が良好なので、サブタスク終了フラグが選択される。
[0103] そこでタスク知識 43aのタスク抽出規則と照らし合わせ、くタスク =呼ぶ、 人 = < 人〉 >という規則を選択し、くタスク =呼ぶ、人 =ジダンさん〉というタスクを得て、 これをタスク計画部 23に出力する。
[0104] タスク計画部 23は、上記タスクを受け、サブタスク知識 25を参照して以下のサブタ スク系列に分解してタスク計画格納部 27に格納し、先頭のサブタスク (0を行動選択 部 17に出力する。
[0105] (0 くサブタスク =人の位置を知る、人 =ジダンさん〉 ドメイン b
(ii) <サブタスク =人に近づぐ人 =ジダンさん > ドメイン c
(iii)くサブタスク =呼ばれていることを伝える、人 =ジダンさん〉 · ·ドメイン d 行動選択部 17は、サブタスク (0のドメインである「人の位置を知る情報取得ドメイン b
」を当該ドメイン格納部 15に格納し、当該ドメインの行動抽出部 37bにサブタスク (0を 出力する。
[0106] 当該ドメインの行動抽出部 37bは、入力されたサブタスク (0を状態格納部 37bに格 納する。
[0107] 4. 4 行動選択処理 1
行動選択部 17は、再度(100ミリ秒後)、行動履歴格納部 21と当該ドメイン格納部 1 5を参照してユーザ発話終了フラグを検出し、行動選択処理を行う。
[0108] 行動選択部 17は、当該ドメイン格納部 15を参照して当該ドメイン「人の位置を知る 情報取得ドメイン b」を得、当該ドメインの行動抽出部 37bに行動選択を要求する。
[0109] 当該ドメインの行動抽出部 37bは、行動知識 39bにある行動選択規則を参照して 音声理解結果とサブタスク (0に対応する行動を選択する。
[0110] 当該ドメインの状態格納部 35bには
「く人 =ジダンさん >はくどこ = "空白" >」
という音声理解結果が格納されており、サブタスクが
(0くサブタスク =人の位置を知る、人 =ジダンさん〉
なので、
<行動 =位置を尋ねる、人 = <人 > >
という規則を選択し、
く行動 =位置を尋ねる、人 =ジダンさん〉
という行動を得る。
[0111] この行動を、行動知識 39bにある言語生成の知識を用いて
「ジダンさんはどこに!/、ますか?」
という文に変換し、行動選択部 17に出力する。
[0112] 行動選択部 17はこの行動 (文)を行動実行部 19に出力する。
[0113] 行動実行部 19は、「ジダンさんはどこにいますか?」と発話し、ユーザへの質問という 当該行動と実行終了時間を行動履歴格納部 21に格納する。
[0114] ユーザが「ドレッシングルーム」と応答発話をすると、音声認識部 11は "ジダンさ ん"と低!ゝ評価値で認識する。
[0115] ドメイン選択部 13はこの認識結果を各ドメインの音声理解部 31a〜31dに送信し、 当該ドメイン格納部 15に発話終了フラグを立てる。
[0116] この発話は評価値が低いため、全ドメインで低い適合度が算出される。
[0117] 適合度が低いため、全ドメインの音声理解部は誤認識を検出し、適合度と合わせて 状態格納部 35a〜35dに格納し、適合度をドメイン選択部 13に出力する。
[0118] ドメイン選択部 13は、当該ドメイン格納部 15に格納されて ヽる当該ドメインを参照し
、「人の位置を知る情報取得ドメイン b」であることを知り、このドメインに高い重みをつ けて、ドメイン選択信頼度を計算する。その結果、再び「人の位置を知る情報取得ドメ イン が選択されたため、当該ドメイン格納部 15の当該ドメインを更新しな!、。
[0119] 行動選択部 17は、行動終了直後でユーザ発話終了であることを知り、行動選択処 理を行う。
[0120] 行動選択部 17は当該ドメイン格納部 15を参照し、当該ドメインを「人の位置を知る 情報取得ドメイン b」と知り、当該ドメインの行動抽出部 37bに行動選択を要求する。
[0121] 当該ドメインの行動抽出部 37bは、状態格納部 35bに格納されている「誤認識」と低 い適合度という音声理解結果と、行動選択規則を参照し、
<行動 =繰り返し要求発話生成、相手 =ユーザ >
という行動を得る。
[0122] さらに、行動抽出部 37bは、行動知識 39bにある言語生成の知識を参照して、この
行動を、
「ジダンさんはどこに!/、ますか?」
という文に変換して行動選択部 17に出力する。
[0123] 行動選択部 17はこれを行動実行部 19に出力する。
[0124] 行動実行部 19は、「もう一度お願いします」と発話し、ユーザへのお願い (再質問)と V、う当該行動と実行終了時間を行動履歴格納部 21に格納する。
[0125] ユーザが再度、
「ドレッシングルーム」
と発話すると、今度は高い評価値で認識される。
[0126] 同様の処理が行われ、当該ドメイン格納部 15に発話終了フラグが立ち、状態格納 咅 35bに
「〈人 =ジダンさん >は〈どこ =ドレッシングルーム >」
t 、う適合済み文パターンが、高 、適合度で音声理解結果として格納される。
[0127] 当該ドメイン bの適合度が最も高いので、ドメイン選択部 13は当該ドメイン格納部 15 の当該ドメインを更新しな 、。
[0128] 行動選択部 17は、当該ドメイン格納部 15の発話終了フラグを検出して発話終了と 判断し、行動選択処理を行う。
[0129] 行動選択部 17は、当該ドメインが「人の位置を知る情報取得ドメイン b」であることを 知り、当該ドメインの行動抽出部 37bに行動選択を要求する。
[0130] 行動抽出部 37bは、
「〈人 =ジダンさん >は〈どこ =ドレッシングルーム >」
と 、う良好な音声理解結果と、
(0くサブタスク =人の位置を知る、人 =ジダンさん〉
t 、うサブタスクを行動選択規則と参照し、文パターンの全カテゴリに単語が適合し かつ適合度が高いことから、サブタスク終了フラグを行動選択部 17に出力する。
[0131] サブタスク終了フラグを受け、行動選択部 17は当該ドメイン格納部 15の当該ドメイ ン「人の位置を知る情報取得ドメイン b」をクリアし、タスク計画部 23にサブタスクを要 求する。
[0132] タスク計画部 23は、タスク計画格納部 27を参照して
GOくサブタスク =人に近づぐ人 =ジダンさん > 「移動するドメイン c」 t 、うサブタスクを行動選択部 17に出力する。
[0133] 行動選択部 17は、「移動するドメイン c」を当該ドメインとして当該ドメイン格納部 15 に格納し、当該ドメインの行動抽出部 37cにサブタスク GOを出力する。
[0134] 当該ドメインの行動抽出部 37cは、状態格納部 35cにサブタスク GOを格納する。
[0135] 4. 5 行動選択処理 2
行動選択部 17は再度(100ミリ秒後)、行動履歴格納部 21と当該ドメイン格納部 15 を参照してまだ立っている発話終了フラグを検出し、行動選択処理を行う。
[0136] 行動選択部 17は、当該ドメインである「移動するドメイン c」の行動抽出部 37cに行 動選択を要求する。
[0137] 当該ドメインの行動抽出部 37cは、状態格納部 35cにある、
「〈人 =ジダンさん >は〈どこ =ドレッシングルーム >」
という音声理解結果と、
(ii)<サブタスク =人に近づぐ人 =ジダンさん >
t ヽぅサブタスクを行動選択規則と参照し、
<行動 =了解発話生成後移動、位置 = <どこ > >
という規則を選択して、
<行動 =了解発話生成後移動、位置 =ドレッシングルーム > という行動を得、行動選択部 17に出力する。
[0138] 行動選択部 17は行動実行部 19にこれを出力する。
[0139] 行動実行部 19は、
「分力、りました」
と発話して力 ロボットをドレッシングルームに移動させ、到着したら移動と 、う当該行 動と実行終了時間を行動履歴格納部 21に格納する。
[0140] 4. 6 行動選択処理 3
数分の後、行動選択部 17は行動終了を検出し、行動選択処理を行う。
[0141] 行動選択部 17は、当該ドメインである「移動するドメイン c」の行動抽出部 37cに行
動選択を要求する。
[0142] 当該ドメインの行動抽出部 37cは、状態格納部 35cにある、
(ii) <サブタスク =人に近づぐ人 =ジダンさん >
と行動履歴格納部 21の行動履歴を行動選択規則と参照してサブタスク終了フラグを 選択し、行動選択部 17に出力する。
[0143] 行動選択部 17は当該ドメイン格納部 15にある「移動するドメイン c」をクリアし、タス ク計画部 23にサブタスクを要求する。
[0144] タスク計画部 23は、タスク計画格納部 27を参照して
(iii) <サブタスク =呼ばれて 、ることを伝える、人 =ジダンさん >
「呼ばれて 、ると!/、う情報の提供ドメイン d」
t 、うサブタスク (iii)を行動選択部 17に出力する。
[0145] 行動選択部 17は「呼ばれて 、ると 、う情報提供ドメイン d」を当該ドメイン格納部 15 に格納し、当該ドメインの行動抽出部 37dに上記 (iii)のサブタスクを出力する。
[0146] 行動抽出部 37dは状態格納部 35dにサブタスク (iii)を格納する。
[0147] 行動選択部 17は、行動履歴格納部 21を参照して行動実行直後であることを知り、 行動選択処理を行う。
[0148] 行動選択部 17は、当該ドメインである「呼ばれて 、ると 、う情報の提供ドメイン d」の 行動抽出部 37dに行動選択を要求する。
[0149] 当該ドメインの行動抽出部 37dは、状態格納部 35dにある、
(iii) <サブタスク =呼ばれて 、ることを伝える、人 =ジダンさん > を行動選択規則と照らし合わせ、
<行動 =人へ情報を伝える発話生成、人 =ジダンさん >
という行動を得る。
[0150] さらに、行動抽出部 37dは、行動知識 39dにある言語生成の知識を参照して、この 行動を、
「アンリさんが呼んで!/、ます」
、う発話文に変換して行動選択部 17に出力する。
[0151] 行動選択部 17はこれを行動実行部 19に出力する。
[0152] 行動実行部 19は、「アンリさんが呼んでいます」と発話し、情報を伝えるという当該 行動と実行終了時間を行動履歴格納部 21に格納する。
[0153] 4. 7 行動選択処理 4
行動選択部 17は、行動履歴格納部 21を参照して行動終了を知り、行動選択処理 を行う。
[0154] 行動選択部 17は、当該ドメインである「呼ばれて 、ると 、う情報の提供ドメイン d」の 行動抽出部 37dに行動選択を要求する。
[0155] 当該ドメインの行動抽出部 37dは、状態格納部 35dにある、
(iii) <サブタスク =呼ばれて 、ることを伝える、人 =ジダンさん > と、行動履歴を行動選択規則と照らし合わせ、サブタスク終了フラグを選択し、行動 選択部 17に出力する。
[0156] 行動選択部 17は当該ドメイン格納部 15にある「呼ばれているという情報の提供ドメ イン d」をクリアし、タスク計画部 23にサブタスクを要求する。
[0157] タスク計画部 23はタスク計画格納部 27を参照し、サブタスクがないのでタスク無し フラグを行動選択部 17に出力する。
[0158] 行動選択部 17はタスク無しフラグを受け、全格納部のデータをクリアする。
[0159] 以上にこの発明を特定の実施形態によって説明した力 この発明はこのような実施 形態に限定されるものではな 、。
Claims
[1] ユーザと機械とのインタラクションを実施する装置であって、
前記装置は、前記インタラクションにおける複数の段階に対応する複数のドメインを 有し、該複数のドメインのそれぞれは、前記ユーザの音声の内容を理解して音声理 解結果を出力する音声理解手段を備えており、
マイクロフォンで検出された信号から前記ユーザの音声を認識する手段と、 前記音声理解手段のそれぞれに前記ユーザの音声を送り、前記音声理解手段の それぞれから前記音声理解結果を受け取り、最良の音声理解結果をとる音声理解手 段が含まれるドメインを当該ドメインとして選択する手段と、
前記複数のドメインのそれぞれに含まれるタスク知識のうち前記当該ドメインのタス ク知識を参照して、前記音声理解結果に関連付けられたタスクを抽出する手段と、 タスクの種類に関連付けられる複数のサブタスクを含むサブタスク知識を参照して、 前記抽出されたタスクに関連付けられたサブタスク系列を求める手段と、
前記サブタスク系列の先頭のサブタスクを当該サブタスクとし、当該サブタスクの属 するドメインを当該ドメインとして更新する手段と、
前記複数のドメインのそれぞれに含まれる行動知識のうち当該ドメインの行動知識 を参照して、前記音声理解結果および前記サブタスクに関連付けられた行動または サブタスク終了フラグを抽出する手段と、
前記抽出された行動を前記機械に実行させる手段と、
を備える装置。
[2] 前記サブタスク知識は、前記タスクに関連付けられる 1つ以上のサブタスクに関する 知識と、前記サブタスクに関連付けられるドメインに関する知識と、を含む、請求項 1 に記載の装置。
[3] 前記音声理解手段のそれぞれは、対応するドメインに関連性の高い複数の文バタ ーンを含む音声知識を参照して、前記音声と前記複数の文パターンのそれぞれとの 適合度を算出し、適合度が最も高い文パターンを選択し、前記選択された文パター ンおよび該文パターンの適合度を音声理解結果として出力する、請求項 1に記載の 装置。
[4] 前記選択する手段は、前記適合度に前記複数のドメインごとに設定された重みを 乗じて信頼度を算出し、最大の信頼度をとるドメインを当該ドメインとして選択する、 請求項 3に記載の装置。
[5] 前記更新する手段は、前記行動またはサブタスク終了フラグを抽出する手段がサ ブタスク終了フラグを抽出すると、前記サブタスク系列における当該サブタスクの次の サブタスクを新たな当該サブタスクとして更新し、新たな当該サブタスクの属するドメイ ンを当該ドメインとして更新する、請求項 1に記載の装置。
[6] ユーザと機械とのインタラクションを実施するための方法であって、
マイクロフォンで検出された信号力 ユーザの音声を認識するステップと、 前記インタラクションにおける複数の段階に対応する複数のドメインのそれぞれに 前記ユーザの音声を送るステップと、
前記複数のドメインのそれぞれにおいて、前記音声の内容を理解して音声理解結 果を出力するステップと、
前記複数のドメインのそれぞれから前記音声理解結果を受け取るステップと、 前記複数の音声理解結果のうち最良の音声理解結果をとるドメインを、当該ドメイン として選択するステップと、
前記複数のドメインのそれぞれに含まれるタスク知識のうち前記当該ドメインのタス ク知識を参照して、前記音声理解結果に関連付けられたタスクを抽出するステップと タスクの種類に関連付けられた複数のサブタスクを含むサブタスク知識を参照して 、前記抽出されたタスクに関連付けられたサブタスク系列を求めるステップと、 前記サブタスク系列の先頭のサブタスクを当該サブタスクとし、当該サブタスクの属 するドメインを当該ドメインとして更新するステップと、
前記複数のドメインのそれぞれに含まれる行動知識のうち当該ドメインの行動知識 を参照して、前記音声理解結果および前記サブタスクに関連付けられた行動または サブタスク終了フラグを抽出するステップと、
前記抽出された行動を前記機械に実行させるステップと、
を含む方法。
[7] 前記サブタスク知識は、前記タスクに関連付けられる 1つ以上のサブタスクに関する 知識と、前記サブタスクに関連付けられるドメインに関する知識と、を含む、請求項 6 に記載の方法。
[8] 前記出力するステップは、
対応するドメインに関連性の高い複数の文パターンを含む音声知識を参照して、前 記音声と前記複数の文パターンのそれぞれとの適合度を算出するステップと、 前記適合度が最も高 ヽ文パターンを選択し、選択された文パターンおよび該文パ ターンの適合度を音声理解結果として出力するステップと、
を含む、請求項 6に記載の方法。
[9] 前記選択するステップは、前記適合度に前記複数のドメインごとに設定された重み を乗じて信頼度を算出し、最大の信頼度をとるドメインを当該ドメインとして選択する ステップを含む、請求項 8に記載の方法。
[10] 前記更新するステップは、前記行動またはサブタスク終了フラグを抽出するステツ プにおいてサブタスク終了フラグが抽出されると、前記サブタスク系列における当該 サブタスクの次のサブタスクを新たな当該サブタスクとして更新し、新たな当該サブタ スクの属するドメインを当該ドメインとして更新するステップを含む、請求項 6に記載の 方法。
[11] ユーザと機械とのインタラクションを実施するためのプログラムであって、
マイクロフォンで検出された信号カゝらユーザの音声を認識する機能と、 ユーザとのインタラクションにおける複数の段階に対応する複数のドメインのそれぞ れに前記ユーザの音声を送る機能と、
前記複数のドメインのそれぞれにおいて、前記音声の内容を理解して音声理解結 果を出力する機能と、
前記複数のドメインのそれぞれから、前記音声理解結果を受け取る機能と、 前記複数の音声理解結果のうち最良の音声理解結果をとるドメインを、当該ドメイン として選択する機能と、
前記複数のドメインのそれぞれに含まれるタスク知識のうち前記当該ドメインのタス ク知識を参照して、前記音声理解結果に関連付けられたタスクを抽出する機能と、
タスクの種類に関連付けられる複数のサブタスクを含むサブタスク知識を参照して、 前記抽出されたタスクに関連付けられたサブタスク系列を求める機能と、
前記サブタスク系列の先頭のサブタスクを当該サブタスクとし、当該サブタスクの属 するドメインを当該ドメインとして更新する機能と、
前記複数のドメインのそれぞれに含まれる行動知識のうち当該ドメインの行動知識 を参照して、前記音声理解結果および前記サブタスクに関連付けられた行動または サブタスク終了フラグを抽出する機能と、
前記抽出された行動を前記機械に実行させる機能と、
をコンピュータに実現させる、コンピュータ読取り可能な記録媒体に記録されたプログ ラム。
[12] 前記サブタスク知識は、前記タスクに関連付けられる 1つ以上のサブタスクに関する 知識と、前記サブタスクに関連付けられるドメインに関する知識と、を含む、請求項 11 に記載のプログラム。
[13] 前記出力する機能は、
対応するドメインに関連性の高い複数の文パターンを含む音声知識を参照して、前 記音声と前記複数の文パターンのそれぞれとの適合度を算出する機能と、
前記適合度が最も高 ヽ文パターンを選択し、選択された文パターンおよび該文パ ターンの適合度を音声理解結果として出力する機能と、
を含む、請求項 11に記載のプログラム。
[14] 前記選択する機能は、前記適合度に前記複数のドメインごとに設定された重みを 乗じて信頼度を算出し、最大の信頼度をとるドメインを当該ドメインとして選択する機 能を含む、請求項 13に記載のプログラム。
[15] 前記更新する機能は、前記行動またはサブタスク終了フラグを抽出する機能にお いてサブタスク終了フラグが抽出されると、前記サブタスク系列における当該サブタス クの次のサブタスクを新たな当該サブタスクとして更新し、新たな当該サブタスクの属 するドメインを当該ドメインとして更新する機能を含む、請求項 11に記載のプログラム
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007526878A JP4901736B2 (ja) | 2005-07-26 | 2006-07-26 | ユーザと機械とのインタラクションを実施するための装置、方法、およびプログラム |
US11/989,409 US8352273B2 (en) | 2005-07-26 | 2006-07-26 | Device, method, and program for performing interaction between user and machine |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US70305005P | 2005-07-26 | 2005-07-26 | |
US60/703,050 | 2005-07-26 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2007013521A1 true WO2007013521A1 (ja) | 2007-02-01 |
Family
ID=37683412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2006/314786 WO2007013521A1 (ja) | 2005-07-26 | 2006-07-26 | ユーザと機械とのインタラクションを実施するための装置、方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8352273B2 (ja) |
JP (1) | JP4901736B2 (ja) |
WO (1) | WO2007013521A1 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012042952A (ja) * | 2010-08-12 | 2012-03-01 | Honda Motor Co Ltd | 対話処理装置、対話処理方法、及び対話処理プログラム |
JP2014135543A (ja) * | 2013-01-08 | 2014-07-24 | Nakayo Telecommun Inc | 予定に係る音声メモ登録方法 |
JP2014191549A (ja) * | 2013-03-27 | 2014-10-06 | Intelligent Wave Inc | 口語解析サーバ、口語解析装置、口語解析プログラム及び口語解析方法 |
WO2015075975A1 (ja) * | 2013-11-25 | 2015-05-28 | 三菱電機株式会社 | 対話制御装置及び対話制御方法 |
JP2016195428A (ja) * | 2016-07-04 | 2016-11-17 | 株式会社ナカヨ | 予定に係る音声メモ蓄積方法 |
JP2018116728A (ja) * | 2010-01-18 | 2018-07-26 | アップル インコーポレイテッド | インテリジェント自動アシスタント |
US10741185B2 (en) | 2010-01-18 | 2020-08-11 | Apple Inc. | Intelligent automated assistant |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9424840B1 (en) * | 2012-08-31 | 2016-08-23 | Amazon Technologies, Inc. | Speech recognition platforms |
CN105027198B (zh) * | 2013-02-25 | 2018-11-20 | 三菱电机株式会社 | 语音识别系统以及语音识别装置 |
US10831996B2 (en) * | 2015-07-13 | 2020-11-10 | Teijin Limited | Information processing apparatus, information processing method and computer program |
JP6726388B2 (ja) * | 2016-03-16 | 2020-07-22 | 富士ゼロックス株式会社 | ロボット制御システム |
JP2018167339A (ja) * | 2017-03-29 | 2018-11-01 | 富士通株式会社 | 発話制御プログラム、情報処理装置及び発話制御方法 |
US20180315131A1 (en) * | 2017-04-28 | 2018-11-01 | Hrb Innovations, Inc. | User-aware interview engine |
US10453454B2 (en) * | 2017-10-26 | 2019-10-22 | Hitachi, Ltd. | Dialog system with self-learning natural language understanding |
JP7143665B2 (ja) * | 2018-07-27 | 2022-09-29 | 富士通株式会社 | 音声認識装置、音声認識プログラムおよび音声認識方法 |
CN109658926B (zh) * | 2018-11-28 | 2021-03-23 | 维沃移动通信有限公司 | 一种语音指令的更新方法及移动终端 |
WO2021029643A1 (en) * | 2019-08-13 | 2021-02-18 | Samsung Electronics Co., Ltd. | System and method for modifying speech recognition result |
CN114223029A (zh) | 2019-08-13 | 2022-03-22 | 三星电子株式会社 | 支持装置进行语音识别的服务器及服务器的操作方法 |
US11532310B2 (en) | 2019-08-13 | 2022-12-20 | Samsung Electronics Co., Ltd. | System and method for recognizing user's speech |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117921A (ja) * | 1999-10-15 | 2001-04-27 | Sony Corp | 翻訳装置および翻訳方法、並びに記録媒体 |
JP2001343993A (ja) * | 2000-05-30 | 2001-12-14 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 対話システムにおける音声認識方法、対話システムおよび対話プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2001356797A (ja) * | 2000-06-14 | 2001-12-26 | Nippon Telegr & Teleph Corp <Ntt> | 対話制御方法及びシステム及び対話制御プログラムを格納した記憶媒体 |
JP2003316385A (ja) * | 2002-04-24 | 2003-11-07 | Hitachi Ltd | 音声対話システム及び音声対話方法 |
JP2004526196A (ja) * | 2001-02-28 | 2004-08-26 | ヴォイス−インサイト | 情報システムにアクセスする自然言語問合せシステム |
JP2005164836A (ja) * | 2003-12-01 | 2005-06-23 | Advanced Telecommunication Research Institute International | ドメイン検証器のトレーニング装置、入力データのドメイン検証装置、及びコンピュータプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7398209B2 (en) * | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7640160B2 (en) * | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
-
2006
- 2006-07-26 WO PCT/JP2006/314786 patent/WO2007013521A1/ja active Application Filing
- 2006-07-26 US US11/989,409 patent/US8352273B2/en active Active
- 2006-07-26 JP JP2007526878A patent/JP4901736B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117921A (ja) * | 1999-10-15 | 2001-04-27 | Sony Corp | 翻訳装置および翻訳方法、並びに記録媒体 |
JP2001343993A (ja) * | 2000-05-30 | 2001-12-14 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 対話システムにおける音声認識方法、対話システムおよび対話プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2001356797A (ja) * | 2000-06-14 | 2001-12-26 | Nippon Telegr & Teleph Corp <Ntt> | 対話制御方法及びシステム及び対話制御プログラムを格納した記憶媒体 |
JP2004526196A (ja) * | 2001-02-28 | 2004-08-26 | ヴォイス−インサイト | 情報システムにアクセスする自然言語問合せシステム |
JP2003316385A (ja) * | 2002-04-24 | 2003-11-07 | Hitachi Ltd | 音声対話システム及び音声対話方法 |
JP2005164836A (ja) * | 2003-12-01 | 2005-06-23 | Advanced Telecommunication Research Institute International | ドメイン検証器のトレーニング装置、入力データのドメイン検証装置、及びコンピュータプログラム |
Non-Patent Citations (4)
Title |
---|
KANDA ET AL.: "Fusuku Domain Onsei Taiwa System ni Okeru Taiwa Rireki o Riyo shita Domain Sentaku no Koseidoka. (Robust Domain Selection using Dialogue History in Multi-Domain Spoken Dialogue System)", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU USPOKEN LANGUAGE PROCESSING], vol. 2006, no. 12, 3 February 2006 (2006-02-03), pages 55 - 60, XP003006074 * |
KAWAGUCHI ET AL.: "Fukusu no Onsei Taiwa System no Togo Seigyo Kiko to Sono Hyoka. (Design and Evaluation of A Unified Mamagement Archtecture for Multi-Domain Spoken Dialogue)", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU USPOKEN LANGUAGE PROCESSING], vol. 2001, no. 55, 1 June 2001 (2001-06-01), pages 63 - 70, XP003006073 * |
NAGAMORI ET AL.: "Multi Domain Onsei Taiwa System no Kochiku Shuho. (A Framework for Multi-Domain Conversational Systems)", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU USPOKEN LANGUAGE PROCESSING], vol. 2000, no. 54, 2 June 2000 (2000-06-02), pages 45 - 51, XP003006071 * |
YASUDA ET AL.: "Tan'itsu Domain System no Togo ni yoru Fukusu Domain Onsei Taiwa System. (Developing a Multi-Domain Dialogue System by the Integration of Single-Domain Systems)", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU USPOKEN LANGUAGE PROCESSING], vol. 2003, no. 14, 7 February 2003 (2003-02-07), pages 119 - 124, XP003006072 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018116728A (ja) * | 2010-01-18 | 2018-07-26 | アップル インコーポレイテッド | インテリジェント自動アシスタント |
US10706841B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Task flow identification based on user intent |
US10741185B2 (en) | 2010-01-18 | 2020-08-11 | Apple Inc. | Intelligent automated assistant |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US12087308B2 (en) | 2010-01-18 | 2024-09-10 | Apple Inc. | Intelligent automated assistant |
JP2012042952A (ja) * | 2010-08-12 | 2012-03-01 | Honda Motor Co Ltd | 対話処理装置、対話処理方法、及び対話処理プログラム |
JP2014135543A (ja) * | 2013-01-08 | 2014-07-24 | Nakayo Telecommun Inc | 予定に係る音声メモ登録方法 |
JP2014191549A (ja) * | 2013-03-27 | 2014-10-06 | Intelligent Wave Inc | 口語解析サーバ、口語解析装置、口語解析プログラム及び口語解析方法 |
WO2015075975A1 (ja) * | 2013-11-25 | 2015-05-28 | 三菱電機株式会社 | 対話制御装置及び対話制御方法 |
JP6073498B2 (ja) * | 2013-11-25 | 2017-02-01 | 三菱電機株式会社 | 対話制御装置及び対話制御方法 |
JP2016195428A (ja) * | 2016-07-04 | 2016-11-17 | 株式会社ナカヨ | 予定に係る音声メモ蓄積方法 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2007013521A1 (ja) | 2009-02-12 |
JP4901736B2 (ja) | 2012-03-21 |
US20100131277A1 (en) | 2010-05-27 |
US8352273B2 (en) | 2013-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4901736B2 (ja) | ユーザと機械とのインタラクションを実施するための装置、方法、およびプログラム | |
JP5386692B2 (ja) | 対話型学習装置 | |
KR101622111B1 (ko) | 대화 시스템 및 그의 대화 방법 | |
KR100826875B1 (ko) | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 | |
JP2010282199A (ja) | 語彙獲得装置、マルチ対話行動システム及び語彙獲得プログラム | |
JP4322785B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP5494468B2 (ja) | 状態検出装置、状態検出方法および状態検出のためのプログラム | |
JP2004090109A (ja) | ロボット装置およびロボット装置の対話方法 | |
JPH096389A (ja) | 音声認識対話処理方法および音声認識対話装置 | |
EP3841460B1 (en) | Electronic device and method for controlling the same | |
CN111968645B (zh) | 一种个性化的语音控制系统 | |
KR20210130024A (ko) | 대화 시스템 및 그 제어 방법 | |
JP2004198831A (ja) | 音声認識装置および方法、プログラム、並びに記録媒体 | |
JP2011215742A (ja) | 対話システム、対話フローの更新方法およびプログラム | |
EP1063635A2 (en) | Method and apparatus for improving speech command recognition accuracy using event-based constraints | |
JP4634156B2 (ja) | 音声対話方法および音声対話装置 | |
KR101548907B1 (ko) | 다중언어의 대화시스템 및 그 제어방법 | |
KR20110010233A (ko) | 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템 | |
JPWO2020044543A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2018155980A (ja) | 対話装置および対話方法 | |
JP2008145989A (ja) | 音声識別装置および音声識別方法 | |
JP4440502B2 (ja) | 話者認証システム及び方法 | |
JP2004251998A (ja) | 対話理解装置 | |
JP2009116075A (ja) | 音声認識装置 | |
KR20210130465A (ko) | 대화 시스템 및 그 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application | ||
WWE | Wipo information: entry into national phase |
Ref document number: 2007526878 Country of ref document: JP |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
WWE | Wipo information: entry into national phase |
Ref document number: 11989409 Country of ref document: US |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 06781698 Country of ref document: EP Kind code of ref document: A1 |