WO2015162953A1 - 情報処理装置および制御プログラム - Google Patents

情報処理装置および制御プログラム Download PDF

Info

Publication number
WO2015162953A1
WO2015162953A1 PCT/JP2015/051703 JP2015051703W WO2015162953A1 WO 2015162953 A1 WO2015162953 A1 WO 2015162953A1 JP 2015051703 W JP2015051703 W JP 2015051703W WO 2015162953 A1 WO2015162953 A1 WO 2015162953A1
Authority
WO
WIPO (PCT)
Prior art keywords
call
phrase
response
information processing
unit
Prior art date
Application number
PCT/JP2015/051703
Other languages
English (en)
French (fr)
Inventor
暁 本村
正徳 荻野
Original Assignee
シャープ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャープ株式会社 filed Critical シャープ株式会社
Priority to CN201580021261.4A priority Critical patent/CN106233377B/zh
Priority to US15/303,583 priority patent/US20170032788A1/en
Publication of WO2015162953A1 publication Critical patent/WO2015162953A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Definitions

  • the present invention relates to an information processing apparatus or the like that determines a phrase according to a voice uttered by a speaker.
  • Patent Document 1 when the input audio signal is accumulated, the input audio signal is accumulated, the analysis of the input audio signal, or the analysis of the accumulated input audio signal is switched, and the input audio signal is accumulated. It describes that speech recognition is performed by changing the order of input speech signals.
  • an information processing apparatus determines a phrase that responds to a voice that a user calls, and includes a target call for determining a response phrase. Depending on the response status specified by the response status specifying unit as a phrase responding to the target call, and a response status specifying unit for specifying the response status of the device for another call different from the target call when accepted And a phrase determination unit for determining a phrase.
  • FIG. 1 is a functional block diagram showing the configuration of the information processing apparatus 1.
  • the information processing apparatus 1 responds to a single call by a user's voice (hereinafter, the call is referred to as “call to be processed (target call)”) as a response other than the call to be processed (hereinafter referred to as “other call”).
  • This is a device that outputs a phrase generated based on the response status of the information processing device 1 to “call”.
  • the information processing apparatus 1 may be a device having a main function of dialogue with a user, such as a dialogue robot, or may be a device having another function as a main function, such as a cleaning robot. Good. As illustrated in FIG. 1, the information processing apparatus 1 includes a voice input unit 2, a voice output unit 3, a control unit 4, and a storage unit 5.
  • the voice input unit 2 converts the user's voice into a signal and outputs the signal to the control unit 4.
  • the voice input unit 2 may be a microphone or may include an A / D (Analog / Digital) converter.
  • the audio output unit 3 outputs audio based on the signal output from the control unit 4.
  • the audio output unit 3 may be a speaker or may include an amplifier circuit and a D / A (Digital / Analog) converter.
  • the control unit 4 includes a voice analysis unit 41, a pattern identification unit (corresponding situation identification unit) 42, a phrase generation unit (phrase determination unit) 43, and a phrase output control unit 44.
  • the voice analysis unit 41 analyzes the signal output from the voice input unit 2 and accepts it as a call.
  • the voice analysis unit 41 records the number indicating the order in which the call is accepted (hereinafter referred to as a receipt number) and the fact that the call is accepted in the correspondence status information 51, and the receipt number is also recorded.
  • the pattern specifying unit 42 is notified.
  • the voice analysis unit 41 records the result of analyzing the voice as the voice analysis information 53 in the storage unit 5 for each call.
  • the pattern specifying unit 42 refers to the response status information 51, so that the response status of the information processing apparatus 1 for each of a plurality of calls (hereinafter simply referred to as response status). ) Specifies which of the predetermined patterns is matched. More specifically, the pattern specifying unit 42 responds to other call processing (acceptance or response of another call) performed immediately before the time of specifying the pattern (after receiving the call to be processed and before responding). To identify the response status. Then, the pattern identification unit 42 notifies the phrase generation unit 43 of the identified correspondence status pattern together with the reception number.
  • the timing at which the pattern specifying unit 42 determines the response status is not limited to immediately after the receipt number is notified (immediately after the call to be processed is accepted).
  • the pattern specifying unit 42 may determine the response status when a predetermined time has elapsed after being notified of the receipt number.
  • the phrase generation unit 43 generates (determines) a phrase that becomes a response to the call according to the pattern of the correspondence status specified by the pattern specifying unit 42. Details of the process of generating a phrase by the phrase generator 43 will be described later.
  • the phrase generation unit 43 outputs the generated phrase to the phrase output control unit 44 together with the reception number.
  • the phrase output control unit 44 causes the audio output unit 3 to output the phrase output from the phrase generation unit 43 as audio. Also, the phrase output control unit 44 records the response to the call in the storage unit 5 as the correspondence status information 51 together with the reception number.
  • the storage unit 5 stores correspondence status information 51, template information 52, voice analysis information 53, and basic phrase information 54.
  • the storage unit 5 may be configured by a volatile recording medium and / or a non-volatile recording medium.
  • the correspondence status information 51 includes information indicating the order in which calls are received and information indicating the order in which responses are output to the calls.
  • Table 1 below is a table showing an example of the correspondence status information 51. In the table, the “#” line indicates the recording order, the “reception number” line indicates a call reception number, and the “processing” line outputs that the information processing apparatus 1 has performed a process for accepting a call or a response to the call. Indicates that processing has been performed.
  • the template information 52 is information in which a predetermined template used for the phrase generation unit 43 to generate a phrase that is a response to the call is determined for each pattern of the correspondence status.
  • the correspondence between the correspondence status pattern and the template will be described in detail later with reference to Table 4.
  • the template information 52 in the present embodiment includes information on templates A to E described below.
  • Template A is a template in which a phrase that is a direct response (response) to a call (a phrase determined based on the basic phrase information 54) is directly used as a response. Template A is used in a correspondence situation in which the user can recognize the correspondence between a call and a response to the call.
  • Template B is a template in which a word indicating which call is a response is included in a response phrase.
  • the template B is used in a situation where it is difficult for the user to recognize the correspondence between the call and the response to the call, such as when a plurality of calls are made continuously.
  • the wording indicating which of the calls is a response may be a predetermined wording such as “That's the story I said earlier”.
  • the wording which summarized the appeal may be sufficient. Specifically, for example, when the call is “What is your favorite animal?”, It may be a phrase such as “What is your favorite animal”, “What you like”, or “Your favorite animal”.
  • the wording which repeated calling and also added the fixed phrase may be sufficient.
  • Template C is a template for generating a phrase for calling again.
  • the template C may be a predetermined phrase such as “What was the previous story, what was it?”, “What did you say earlier?”, “Please tell us again”.
  • template C is also used in a situation where it is difficult for the user to recognize the correspondence between the call and the response to it.
  • the user is asked to call again. For example, in the corresponding situation where two calls are made in succession and no response is returned to either of them, the user is asked which call he wants to respond to. Can be selected.
  • Template D is a template for generating a phrase indicating that a direct response to the processing target call cannot be returned because processing related to the call received before the processing target call is performed. Similar to templates B and C, template D is also used in a situation where it is difficult for the user to recognize the correspondence between the call and the response to it. In template D, the correspondence between the call and the response to the call is notified by informing the user that the call received earlier is given priority and canceling the response to the subsequent call (call to be processed) (first win). Is recognized by the user.
  • the template D may be, for example, a predetermined phrase such as “I can't answer because I'm thinking about other things”, “Wait a minute”, or “I'll do it later”.
  • Template E is a template for generating a phrase indicating that it is no longer possible to return a response to a processing target call because processing for a call received after the processing target call has started.
  • the template E is used in a correspondence situation in which it is difficult for the user to recognize the correspondence between the call and the response to the response, like the templates B to D.
  • Template E informs the user that the call received later (call to be processed) is given priority, and cancels the response to the subsequent call (wins later), so that the correspondence between the call and the response to the call is determined. Let the user recognize.
  • the template E may be a predetermined phrase such as “I forgot what I was trying to say” or “I forgot what I had heard before.”
  • the voice analysis information 53 is information indicating the result of analyzing the voice call from the user.
  • the result of analyzing the voice call from the user is associated with the reception number.
  • the basic phrase information 54 is information for generating a phrase that is a direct answer to the call. Specifically, this is information in which a predetermined call wording is associated with a phrase that is a direct answer or information for generating a phrase that is a direct answer. Table 2 below is an example of the basic phrase information 54.
  • the basic phrase information 54 is the information shown in Table 2, the phrase (phrase when template A is used) that is a direct answer to the call “What is your favorite animal?” Is “Dog” .
  • the basic phrase information 54 may be stored in the storage unit 5 of the information processing apparatus 1 or may be stored in an external storage device attached to the information processing apparatus 1.
  • the basic phrase information 54 may be stored in a server (not shown). The same applies to other information.
  • FIG. 2 is a flowchart showing a process of outputting a response to the call in the information processing apparatus 1.
  • the voice input unit 2 converts the voice input into a signal and outputs the signal to the voice analysis unit 41.
  • the voice analysis unit 41 analyzes the signal output from the voice input unit 2 and accepts it as a call from the user (S1).
  • the voice analysis unit 41 records the receipt number of the call (call to be processed) and the receipt of the call to be processed in the correspondence status information 51, and the reception number is stored in the pattern specifying unit 42. To notify.
  • the voice analysis unit 41 records the result of analyzing the call voice to be processed as the voice analysis information 53 in the storage unit 5.
  • the pattern specifying unit 42 notified of the reception number from the voice analysis unit 41 refers to the response status information 51, and the response status immediately before the information processing device 1 for the call matches any predetermined response status pattern. Whether to do it is specified (S2). Subsequently, the pattern identification unit 42 notifies the phrase generation unit 43 of the identified correspondence status pattern together with the reception number.
  • the phrase generation unit 43 that has received the notification of the receipt number and the response status pattern from the pattern identification unit 42 selects a template corresponding to the response status pattern (S3). Subsequently, the pattern specifying unit 42 determines whether there are a plurality of selected templates (S4). When there are a plurality of selected templates (YES in S4), the phrase generating unit 43 selects one template from the selected templates (S5). The phrase generation unit 43 may determine one template to be selected based on the content of the call with reference to the voice analysis information 53 or may be determined based on other information regarding the information processing apparatus 1. .
  • the phrase generator 43 generates (determines) a phrase (response) for the call using the selected one template (S6).
  • the phrase generation unit 43 outputs the generated phrase to the phrase output control unit 44 together with the reception number.
  • the phrase output control unit 44 causes the audio output unit 3 to output the phrase output from the phrase generation unit 43 as a sound (S7).
  • the phrase output control unit 44 records the response to the call in the storage unit 5 as the correspondence status information 51 together with the reception number.
  • FIG. 3 is a diagram illustrating an example of a response status to a call.
  • Table 3 is a table showing the pattern of the call response status specified by the pattern specifying unit 42. In the example of Table 3, different patterns are used when a different call (call N + L) is received after receiving a process call and when a process call is received after receiving another call (call N ⁇ M). It is said.
  • both “ ⁇ ” and “ ⁇ ” indicate that processing (acceptance of a call or response to a call) is being performed when the pattern specifying unit 42 specifies a pattern. The difference between “ ⁇ ” and “ ⁇ ” indicates that “ ⁇ ” indicates that the process has already been performed when the call N is accepted, and “ ⁇ ” indicates that the process is performed when the call N is accepted. It is a point that indicates that it was not. “X” indicates that processing is not performed at the time when the pattern is specified.
  • ⁇ and “ ⁇ ” of the predetermined process indicate the value of the “#” row in the column indicating “acceptance” of the call to be processed and the value of the “#” row in the column indicating the predetermined process.
  • “Call a” indicates a call with the reception number “a”
  • “response a” indicates a response to “call a”.
  • the pattern specified by the pattern specifying unit 42 in the process shown in S2 of FIG. 2 is any one of patterns 1 to 5 shown in Table 3.
  • the pattern specifying unit 42 specifies a response status pattern based on the response status information 51.
  • the call to be processed is called call N.
  • the pattern specifying unit 42 determines that the “acceptance” and “response” of the call N + L are “ ⁇ ”. Therefore, in this case, the pattern specifying unit 42 specifies that the response status is the pattern 5.
  • a case where a corresponding situation pattern is specified at the time indicated by ⁇ in FIG. 3 will be exemplified.
  • the pattern may be specified in a period from the reception of the call N to a response (a generation period of a response to the call N), and the timing for specifying the pattern is not limited to ⁇ shown in the figure.
  • the immediately preceding call is a call N-1 (that is, the call NM accepting process is “ ⁇ ”).
  • the response N-1 to the call N-1 has already been output (that is, the response process of the call NM is “ ⁇ ”). Therefore, according to Table 3, the pattern specifying unit 42 specifies that the corresponding state at ⁇ in (1-2) of FIG.
  • the pattern specifying unit 42 specifies that the correspondence status in ⁇ in (2) of FIG.
  • the pattern specifying unit 42 specifies that the pattern 3 is ⁇ in FIG. 3 (3), the pattern 4 is in ⁇ in (4), and the pattern 5 is in ⁇ in (5).
  • the pattern specifying unit 42 is pattern 1 when such a previous call does not exist. Is specified.
  • FIG. 4 is a flowchart showing details of the process shown in S3 of FIG. Table 4 is a table showing the correspondence between each pattern and the selected template.
  • the phrase generation unit 43 confirms what the pattern notified from the pattern identification unit 42 is (S31). Subsequently, the phrase generator 43 selects a template corresponding to the notified pattern (S32 to S35).
  • the selected template is a template in which “ ⁇ ” is described in Table 4. For example, when the notified pattern is pattern 1, template A is selected (S32).
  • the phrase generation unit 43 determines to which response the response is. You may select the template (template B) which includes the wording shown in the phrase used as a response.
  • generation part 43 narrows down the calls made into the object of a response like the templates D and E. You may select the template which produces
  • the template B may be selected.
  • the method of the said determination is not specifically limited, For example, you may determine based on the word and / or phrase which are included in a call or its response (response phrase registered into the basic phrase information 54). For example, if you ask "What is your weak animal?" And “What is your favorite animal?", These calls are all similar calls that include the word "animal" and the responses are similar. Therefore, template B may be selected.
  • each of the other calls The correspondence status pattern may be specified.
  • a plurality of different patterns may be specified.
  • a template common to all the specified patterns may be selected. For example, when the pattern 2 and the pattern 4 are specified, the template B in which “ ⁇ ” is written in both the rows of the pattern 2 and the pattern 4 in Table 4 is selected.
  • the template E may be selected.
  • This dialog system may include, for example, a voice dialog device that receives a user's call and outputs a voice that responds to the call, and an information processing device that controls the voice output from the voice dialog device. Then, the voice interaction device may notify the information processing device of information indicating the user's call contents, and the information processing device may perform the same processing as the information processing device 1 based on the notification. . In this case, the information processing device only needs to have at least a function for determining a phrase to be output to the voice interaction device, and the information generation device may perform the phrase generation or the voice interaction device. May be.
  • FIG. 5 is a functional block diagram illustrating a configuration of the information processing apparatus 1A according to the second embodiment.
  • the difference between the information processing apparatus 1A according to the present embodiment and the information processing apparatus 1 according to the first embodiment is that a control unit 4A is provided instead of the control unit 4.
  • the difference between the control unit 4A and the control unit 4 is that a pattern specifying unit 42A and a phrase generating unit 43A are provided instead of the pattern specifying unit 42 and the phrase generating unit 43.
  • the difference between the pattern specifying unit 42A and the pattern specifying unit 42 is that the pattern specifying unit 42A receives a notification from the phrase generating unit 43A that a phrase serving as a response to the processing target call has been generated, and the correspondence status is any pattern. It is a point to specify again whether or not it matches.
  • the pattern identifying unit 42A notifies the phrase generating unit 43A again of the identified correspondence pattern together with the receipt number.
  • phrase generation unit 43A The difference between the phrase generation unit 43A and the phrase generation unit 43 is that the phrase generation unit 43A notifies the pattern identification unit 42A that the phrase has been generated when generating a phrase that is a response to the call to be processed. is there. Further, when the correspondence pattern is notified together with the same receipt number from the pattern specifying unit 42A, it is determined whether or not the correspondence situation pattern has changed, and the correspondence situation pattern has changed. Another difference is that a phrase is generated according to the pattern of the corresponding situation after the change.
  • FIG. 6 is a flowchart showing a process of outputting a response to the call in the information processing apparatus 1A.
  • the phrase generating unit 43A that has generated a response to the processing target call notifies the pattern specifying unit 42A that the phrase has been generated.
  • the pattern identification unit 42A receives the notification, confirms the response status of other calls (S6A), and notifies the phrase generation unit 43A of the response status together with the reception number.
  • the phrase generator 43A that has received the notification of the response status again determines whether or not the response status pattern has changed (S6B). If the response status pattern has changed (YES in S6B), the phrase generation unit 43A executes the process from S3 onwards again. That is, a phrase that is a response to the call to be processed is generated again. On the other hand, if the response status pattern has not changed (NO in S6B), the process from S7 is executed, so that the phrase generated in S6 is output as a response to the call to be processed.
  • an appropriate phrase can be output even when the response status of another call changes while the phrase corresponding to the call is generated.
  • the timing for reconfirming the response status is the period from the first response status check to the response output for the call to be processed, as long as the response status may change, It is not limited to the above example (at the completion of phrase generation).
  • the response status may be reconfirmed when a predetermined time has elapsed after the first response status check.
  • Each block of the information processing devices 1 and 1A may be realized by a logic circuit (hardware) formed in an integrated circuit (IC chip) or the like, or realized by software using a CPU (Central Processing Unit). Also good.
  • the information processing apparatuses 1 and 1A can be configured using a computer (electronic computer) as shown in FIG.
  • FIG. 7 is a block diagram illustrating a configuration of a computer that can be used as the information processing apparatuses 1 and 1A.
  • the information processing apparatuses 1 and 1 ⁇ / b> A include a calculation unit 11, a main storage unit 12, an auxiliary storage unit 13, a voice input unit 2, and the like connected to each other via a bus 14. And an audio output unit 3.
  • the calculation unit 11, the main storage unit 12, and the auxiliary storage unit 13 may be, for example, a CPU, a RAM (random access memory), and a hard disk drive, respectively.
  • the main storage unit 12 may be a computer-readable “non-temporary tangible medium”. For example, a tape, a disk, a card, a semiconductor memory, a programmable logic circuit, or the like can be used.
  • the auxiliary storage unit 13 stores various programs for operating the computer as the information processing apparatuses 1 and 1A. And the calculating part 11 expands each said program stored in the auxiliary storage part 13 on the main memory part 12, and executes the command contained in each said program expand
  • the configuration in which the computer is caused to function as the information processing apparatuses 1 and 1A using each of the programs recorded in the auxiliary storage unit 13 that is an internal recording medium has been described.
  • the configuration is recorded in an external recording medium.
  • a program may be used.
  • the program may be supplied to the computer via an arbitrary transmission medium (such as a communication network or a broadcast wave) that can transmit the program.
  • the present invention can also be realized in the form of a data signal embedded in a carrier wave in which the program is embodied by electronic transmission.
  • the information processing apparatus (1, 1A) is an information processing apparatus that determines a phrase that responds to a voice called by a user, and receives a target call for determining a response phrase.
  • the response status specifying unit (pattern specifying unit 42, 42A) for specifying the response status of the device to another call different from the target call, and the response status specifying unit specified as a phrase responding to the target call
  • a phrase determination unit (phrase generation unit 43) that determines the phrase according to the correspondence status.
  • a phrase corresponding to the response status of another call is output.
  • the other calls are calls that should be considered for determining a phrase that responds to the target call.
  • M calls received immediately before the target call may be accepted or received immediately after the target call.
  • L calls may be used, or both of them may be used (L and M are positive numbers).
  • the response status of other calls may be a response status to one of the other calls, or each response status of the other calls. It may be the correspondence situation specified by comprehensively.
  • the response status specifying unit determines the response status at any point in time from when the call is received until the phrase corresponding to the call is output.
  • the phrase determined by the information processing apparatus may be output from the information processing apparatus or may be output to another apparatus.
  • the information processing apparatus is the information processing apparatus according to aspect 1, wherein the response status specifying unit receives the other call after receiving the target call and the target call after receiving the other call. May be identified as different handling situations. According to this configuration, it is possible to determine an appropriate phrase according to each of a case where the other call is received after receiving the target call and a case where the target call is received after receiving the other call. It becomes possible. For example, when two calls are made in succession, it is also possible to output a phrase suitable for each corresponding situation: (1) only the first call has been answered, and (2) only the subsequent call has been answered. is there.
  • the information processing apparatus is the information processing apparatus according to Aspect 1 or 2, wherein the correspondence situation is a first correspondence in which the target call is accepted in a state where a phrase has already been determined for the other call. And a second response situation in which the target call has been accepted in a state in which a phrase for the other call has not yet been determined, and the phrase determination unit includes When it is specified that the situation is a response status, a phrase that is a combination of the phrase determined in the first response status and the phrase indicating the target call may be determined.
  • the information processing apparatus is the information processing apparatus according to aspects 1 to 3, wherein the correspondence situation specifying unit is configured to identify the correspondence situation after the identification of the correspondence situation and change to another correspondence situation.
  • the correspondence situation is identified again, and the phrase determination unit (phrase generation unit 43A) determines the correspondence situation identified later when the correspondence situation identified earlier by the correspondence situation identification unit is different from the correspondence situation identified later. You may determine the phrase according to a condition. According to this configuration, an appropriate phrase can be output even when the response status changes while generating a phrase according to a call.
  • the information processing apparatus may be realized by a computer.
  • the information processing apparatus is operated on each computer by causing the computer to operate as each unit (software element) included in the information processing apparatus.
  • the control program for the information processing apparatus to be realized in this way and a computer-readable recording medium on which the control program is recorded also fall within the scope of the present invention.
  • the present invention can be used for an information processing apparatus and an information processing system that output a predetermined phrase to a user according to a voice uttered by the user.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

 複数の呼びかけが連続してなされた場合であっても、適切な応答を行う。応答のフレーズを決定すべき対象呼びかけを受け付けた場合に、該対象呼びかけとは異なる他の呼びかけに対する対応状況を特定するパターン特定部(42)と、上記対象呼びかけに応答するフレーズとして、上記パターン特定部が特定した対応状況に応じたフレーズを決定するフレーズ生成部(43)と、を備える。

Description

情報処理装置および制御プログラム
 本発明は、発話者が発した音声に応じたフレーズを決定する情報処理装置等に関する。
 人間とロボットとが対話可能な対話システムが、従来から広く研究されている。例えば、特許文献1には、入力音声信号の蓄積と、入力音声信号の分析と、蓄積した入力音声信号の分析と、の何れの処理を行うかを切り換え、入力音声信号を蓄積する場合は、入力音声信号の順序を入れ替えて音声認識することが記載されている。
日本国公開特許公報「特開平10-124087号公報(1998年5月15日公開)」 日本国公開特許公報「特開2006-106761号公報(2006年4月20日公開)」 日本国公開特許公報「特開2006-171719号公報(2006年6月29日公開)」 日本国公開特許公報「特開2007-79397号公報(2007年3月29日公開)」
 特許文献1~4に開示された技術をはじめとして、従来技術においては、質問に対するロボットからの回答が終了するまで、発話者は待機するであろうことが想定される一問一答のコミュニケーションが前提とされている。そのため、複数の呼びかけが連続してなされた場合に不適切な応答をする場合があるという問題がある。なお、このような問題点は、ロボットに限られず、人間の発する音声を認識して、その音声に対する応答を決定する情報処理装置全般に生じる問題点である。本発明は、この問題に鑑みてなされたものであって、複数の呼びかけが連続してなされた場合であっても適切な応答を行うことのできる情報処理装置等を提供することにある。
 上記の課題を解決するために、本発明の一態様に係る情報処理装置は、ユーザが呼びかけた音声に応答するフレーズを決定する情報処理装置であって、応答のフレーズを決定すべき対象呼びかけを受け付けた場合に、該対象呼びかけとは異なる他の呼びかけに対する自装置の対応状況を特定する対応状況特定部と、上記対象呼びかけに応答するフレーズとして、上記対応状況特定部が特定した対応状況に応じたフレーズを決定するフレーズ決定部とを備えている。
 本発明の一態様によれば、複数の呼びかけが連続してなされた場合であっても、適切な応答を行うことができるという効果を奏する。
本発明の実施形態1に係る情報処理装置の構成を示す機能ブロック図である。 本発明の実施形態1に係る情報処理装置が呼びかけに対する応答を出力する処理を示すフローチャートである。 呼びかけに対する対応状況の例を示す図である。 特定された対応状況のパターンに応じたテンプレートを選択する処理の詳細を示すフローチャートである。 本発明の実施形態2に係る情報処理装置の構成を示す機能ブロック図である。 本発明の実施形態2に係る情報処理装置が呼びかけに対する応答を出力する処理を示すフローチャートである。 本発明の実施形態3に係る情報処理装置のハードウェア構成を示すブロック図である。
 〔実施形態1〕
 〔1.情報処理装置1の概要〕まず、情報処理装置1の構成について図1に基づいて説明する。図1は情報処理装置1の構成を示す機能ブロック図である。情報処理装置1は、ユーザの音声による一つの呼びかけ(以下、当該呼びかけを“処理対象の呼びかけ(対象呼びかけ)”と表す)に対する応答として、当該処理対象の呼びかけ以外の呼びかけ(以下、“他の呼びかけ”と表す。)に対する情報処理装置1の対応状況に基づいて生成したフレーズを出力する装置である。情報処理装置1は、例えば対話ロボットのように、ユーザとの対話を主機能とする装置であってもよいし、例えば掃除ロボットのように、他の機能を主機能とする装置であってもよい。また、図1に示すように、情報処理装置1は、音声入力部2、音声出力部3、制御部4、および記憶部5を備えている。
 音声入力部2は、ユーザの音声を信号に変換し、制御部4へ出力する。音声入力部2はマイクロフォンであってもよく、またA/D(Analog/Digital)コンバータを備えていてもよい。音声出力部3は、制御部4から出力される信号に基づき、音声を出力する。音声出力部3は、スピーカーであってもよく、また増幅回路やD/A(Digital/Analog)コンバータを備えていてもよい。制御部4は、図1に示す通り、音声解析部41、パターン特定部(対応状況特定部)42、フレーズ生成部(フレーズ決定部)43、およびフレーズ出力制御部44を含んでいる。
 音声解析部41は、音声入力部2から出力された信号を解析し、呼びかけとして受け付ける。呼びかけを受け付けた場合、音声解析部41は、当該呼びかけを受け付けた順番を示す番号(以下、受付番号と表す)および該呼びかけを受け付けたことを対応状況情報51へ記録し、また、受付番号をパターン特定部42へ通知する。また、音声解析部41は、音声を解析した結果を音声解析情報53として、呼びかけごとに記憶部5へ記録する。
 パターン特定部42は、受付番号を音声解析部41から通知された場合、対応状況情報51を参照することによって、複数の呼びかけのそれぞれに対する情報処理装置1の対応状況(以下、単に対応状況と表す)が、予め定められたパターンのいずれに合致するかを特定する。より詳細には、パターン特定部42は、パターンを特定する時点(処理対象の呼びかけの受付後、応答前)の直近に行われた他の呼びかけの処理(他の呼びかけの受付または応答)に応じて対応状況を特定する。そして、パターン特定部42は、特定された対応状況のパターンを、受付番号と合わせてフレーズ生成部43へ通知する。なお、パターン特定部42が対応状況を判断するタイミングは、受付番号を通知された直後(処理対象の呼びかけが受け付けられた直後)に限られない。例えば、パターン特定部42は、受付番号を通知された後、所定の時間経過時に対応状況を判断してもよい。
 フレーズ生成部43は、パターン特定部42が特定した対応状況のパターンに応じて、呼びかけに対する応答となるフレーズを生成(決定)する。フレーズ生成部43がフレーズを生成する処理の詳細は後述する。また、フレーズ生成部43は生成したフレーズを、受付番号と合わせてフレーズ出力制御部44へ出力する。
 フレーズ出力制御部44は、フレーズ生成部43から出力されたフレーズを、音声出力部3から音声として出力させる。また、フレーズ出力制御部44は、呼びかけに対して応答したことを、受付番号と合わせて、対応状況情報51として記憶部5へ記録させる。
 記憶部5は、対応状況情報51、テンプレート情報52、音声解析情報53、および基本フレーズ情報54を記憶する。記憶部5は、揮発性の記録媒体および/または不揮発性の記録媒体によって構成されていてもよい。対応状況情報51は、呼びかけの受付の順序を示す情報、および呼びかけに対する応答の出力の順序を示す情報を含んでいる。下記の表1は対応状況情報51の一例を示す表である。該表において、“#”行は記録した順番、“受付番号”行は呼びかけの受付番号、“処理”行は情報処理装置1が呼びかけを受け付ける処理を行ったことまたは呼びかけへの応答を出力する処理を行ったことを示す。
Figure JPOXMLDOC01-appb-T000001
 テンプレート情報52は、フレーズ生成部43が呼びかけに対する応答となるフレーズを生成するために用いる予め定められたテンプレートが対応状況のパターンごとに定められた情報である。なお、対応状況のパターンとテンプレートの対応付けについては、のちに表4を参照して詳細に説明する。本実施形態におけるテンプレート情報52は、下記に説明するテンプレートA~Eの情報を含んでいる。
 テンプレートAは、呼びかけに対して、呼びかけの直接の回答(応答)となるフレーズ(基本フレーズ情報54に基づいて決定されるフレーズ)を、そのまま応答となるフレーズとするというテンプレートである。テンプレートAは、呼びかけとそれに対する応答との対応関係をユーザが認識可能な対応状況にて用いられる。
 テンプレートBは、いずれの呼びかけに対する応答であるかを示す文言を、応答となるフレーズに含めるというテンプレートである。テンプレートBは、例えば複数の呼びかけが連続してなされた場合のように、呼びかけとそれに対する応答との対応関係を、ユーザが認識することが困難な対応状況にて用いられる。いずれの呼びかけに対する応答であるかを示す文言は、“そう言えばさっきの話だけど”などの予め定められた文言であってもよい。また、呼びかけを要約した文言であってもよい。具体的には、例えば呼びかけが「好きな動物は何?」であった場合、「好きな動物は」、「好きなのは」、「好きな動物」などの文言であってもよい。また、呼びかけを繰り返し、さらに、定型句を付した文言であってもよい。具体的には、例えば、呼びかけが「好きな動物は何?」であった場合は、「“好きな動物は何?”(呼びかけの繰り返し)“って聞いた?”(定型句)」という文言であってもよい。また、「一つ前の話題だけど」などの、応答を返す呼びかけの順序を特定する文言であってもよい。
 テンプレートCは、呼びかけを再度行ってもらうためのフレーズを生成するためのテンプレートである。テンプレートCは、例えば、「さっきの話、何でしたっけ?」、「さっきなんて言った?」、「もう一度さっきの話をして」などの予め定められたフレーズであってもよい。テンプレートCもテンプレートBと同様に、呼びかけとそれに対する応答との対応関係をユーザが認識することが困難な対応状況にて用いられる。テンプレートCの場合、ユーザに再度呼びかけを行わせるので、例えば2つの呼びかけが連続してなされ、そのいずれにも応答が返されていない対応状況において、応答させたい呼びかけを何れにするかをユーザに選択させることができる。
 テンプレートDは、処理対象の呼びかけより前に受け付けられた呼びかけに関する処理を行っているため、処理対象の呼びかけに対する直接的な応答を返すことができないことを示すフレーズを生成するためのテンプレートである。テンプレートDもテンプレートB、Cと同様に、呼びかけとそれに対する応答との対応関係をユーザが認識することが困難な対応状況にて用いられる。テンプレートDでは、先に受け付けた呼びかけを優先する旨をユーザに伝えて、後の呼びかけ(処理対象の呼びかけ)への応答をキャンセルする(先勝ち)ことにより、呼びかけとそれに対する応答との対応関係をユーザに認識させる。テンプレートDは、例えば、「他のことを考え中なので答えられないよ」、「ちょっと待ってね」、「あとにしてくれる」などの予め定められたフレーズであってもよい。
 テンプレートEは、処理対象の呼びかけより後に受け付けられた呼びかけに対する処理が開始されたために、処理対象の呼びかけに対する応答を返すことができなくなったことを示すフレーズを生成するためのテンプレートである。テンプレートEもテンプレートB~Dと同様に、呼びかけとそれに対する応答との対応関係をユーザが認識することが困難な対応状況にて用いられる。テンプレートEでは、後に受け付けた呼びかけ(処理対象の呼びかけ)を優先する旨をユーザに伝えて、後の呼びかけへの応答をキャンセルする(後勝ち)ことにより、呼びかけとそれに対する応答との対応関係をユーザに認識させる。テンプレートEは、例えば「何言おうとしていたのか忘れちゃった」、「続けて聞くから前になんて聞かれたのか忘れちゃったよ」などの予め定められたフレーズであってもよい。
 音声解析情報53は、ユーザからの音声による呼びかけを解析した結果を示す情報である。ユーザからの音声による呼びかけを解析した結果は受付番号と対応付けられている。基本フレーズ情報54は、呼びかけに対する直接の回答となるフレーズを生成するための情報である。具体的には、予め定められた呼びかけの文言と、直接の回答となるフレーズまたは直接の回答となるフレーズを生成するための情報とが対応付けられた情報である。下記の表2は、基本フレーズ情報54の一例である。基本フレーズ情報54が表2に示す情報である場合、“好きな動物は何?”という呼びかけに対する直接の回答となるフレーズ(テンプレートAが用いられた場合のフレーズ)は“犬だよ”である。また、“今日の天気は何?”という呼びかけに対する直接の回答となるフレーズは、図示しないサーバに、図示しない通信部を介して問い合わせた結果である。なお、基本フレーズ情報54は、情報処理装置1の記憶部5に格納されていてもよいが、情報処理装置1に外付けされた外部記憶装置に格納されていてもよい。また、図示しないサーバに基本フレーズ情報54を格納されていてもよい。他の情報についても同様である。
Figure JPOXMLDOC01-appb-T000002
 〔2.呼びかけに対する応答の生成に係る処理〕次に、情報処理装置1における呼びかけに対する応答を出力する処理を図2に基づいて説明する。図2は情報処理装置1における呼びかけに対する応答を出力する処理を示すフローチャートである。
 最初に、ユーザが呼びかけを音声によって発呼した場合(S0)、音声入力部2は当該音声の入力を信号に変換し、音声解析部41へ出力する。音声解析部41は、音声入力部2から出力された信号を解析し、ユーザからの呼びかけとして受け付ける(S1)。呼びかけを受け付けた場合、音声解析部41は、当該呼びかけ(処理対象の呼びかけ)の受付番号および処理対象の呼びかけを受け付けたことを対応状況情報51へ記録し、また、受付番号をパターン特定部42へ通知する。また、音声解析部41は、処理対象の呼びかけの音声を解析した結果を音声解析情報53として、記憶部5へ記録する。
 音声解析部41から受付番号を通知されたパターン特定部42は、対応状況情報51を参照し、呼びかけに対する情報処理装置1の直前の対応状況が、予め定められたいずれの対応状況のパターンに合致するかを特定する(S2)。続いて、パターン特定部42は、特定された対応状況のパターンを、受付番号と合わせてフレーズ生成部43へ通知する。
 パターン特定部42から受付番号および対応状況のパターンの通知を受けたフレーズ生成部43は、当該対応状況のパターンに応じたテンプレートを選択する(S3)。続いて、パターン特定部42は、選択されたテンプレートが複数であるか否かを判定する(S4)。選択されたテンプレートが複数であった場合(S4でYES)、フレーズ生成部43は、選択されたテンプレートから一つのテンプレートを選択する(S5)。フレーズ生成部43は、選択する一つのテンプレートを、音声解析情報53を参照して呼びかけの内容に基づいて決定してもよいし、情報処理装置1に関する他の情報に基づいて決定してもよい。
 続いて、フレーズ生成部43は、選択された一つのテンプレートを用いて呼びかけに対するフレーズ(応答)を生成(決定)する(S6)。また、フレーズ生成部43は生成したフレーズを、受付番号と合わせてフレーズ出力制御部44へ出力する。続いて、フレーズ出力制御部44は、フレーズ生成部43から出力されたフレーズを、音声出力部3から音声として出力させる(S7)。また、フレーズ出力制御部44は、呼びかけに対して応答したことを、受付番号と合わせて、対応状況情報51として記憶部5へ記録させる。
 〔2.1.対応状況のパターンの特定〕図2のS2に示す対応状況のパターンの特定に係る処理について、図3および下記の表3に基づき詳細に説明する。図3は呼びかけに対する対応状況の例を示す図である。また、表3は、パターン特定部42によって特定される呼びかけの対応状況のパターンを示す表である。表3の例では、処理対象呼びかけの受付後に他の呼びかけ(呼びかけN+L)を受け付けた場合と、他の呼びかけ(呼びかけN-M)の受付後に処理対象呼びかけを受け付けた場合とを、それぞれ異なるパターンとしている。
Figure JPOXMLDOC01-appb-T000003
 なお、N、M、Lはそれぞれ正の整数を示す。ただし、以下では簡単のため、M=1,L=1である例を説明する。また、“●”および“○”は共にパターン特定部42がパターンを特定する時点において、処理(呼びかけの受付または呼びかけへの応答)が行われていることを示す。“●”と“○”との差異は、“●”は呼びかけNが受け付けられた時点において既に処理が行われていたことを示し、“○”は呼びかけNが受け付けられた時点において処理が行われていなかったことを示す点である。“×”は、パターンが特定される時点において処理が行われていないことを示す。なお、所定の処理の“●”と“○”は、処理対象の呼びかけの“受付”を示す列の“#”行の値と、当該所定の処理を示す列の“#”行の値との大小関係に基づいて識別される。“呼びかけa”は、受付番号が“a”である呼びかけを示し、“応答a”は、“呼びかけa”に対する応答を示す。パターン特定部42が図2のS2に示す処理において特定するパターンは、表3に示すパターン1~5のいずれかである。
 まず、パターン特定部42が、対応状況情報51に基づいて対応状況のパターンを特定する方法について説明する。なお、処理対象の呼びかけを呼びかけNとする。例えば、表1の対応状況情報51のうち、#=2の処理の受付が完了した時点においては、呼びかけN-M(M=1)の受付が完了しており、該呼びかけN-Mについて未応答である。よって、この時点においては呼びかけN-Mの受付が“●”であり、応答が“×”であるから、パターン特定部42は、表3に従って対応状況がパターン2であると特定する。
 また、例えば、呼びかけNの受付後、応答前に、次の呼びかけN+L(L=1)がなされ、該呼びかけN+L(L=1)の方に先に応答した場合、対応状況情報51の最も“#”行の数値が大きい列が呼びかけN+1となり、この列の“処理”行は“応答”となる。これにより、パターン特定部42は、呼びかけN+Lの“受付”および“応答”が“●”であると判定する。よって、この場合、パターン特定部42は、対応状況がパターン5であると特定する。
 続いて、図3に基づき、図2のS1に示す処理において呼びかけNを受け付けた場合に、図3のαに示す時点において対応状況のパターンの特定が行われた場合について例示する。なお、パターンの特定は、呼びかけNの受付後、応答までの期間(呼びかけNに対する応答の生成期間)に行えばよく、パターンを特定するタイミングは、図示のαに限定されない。
 図3の(1-2)のαに示す時点では、直前の呼びかけは、呼びかけN-1である(つまり、呼びかけN-Mの受付処理が“●”)。また、呼びかけNが受け付けられた時点において、呼びかけN-1に対する応答N-1が出力済みである(つまり、呼びかけN-Mの応答処理が“●”)。よって、パターン特定部42は、表3に従い、図3の(1-2)のαにおける対応状況がパターン1であると特定する。
 図3の(2)のαに示す時点では、直前の呼びかけは、呼びかけN-1である(つまり、呼びかけN-Mの受付処理が“●”)。また、呼びかけN-1に対する応答は出力されていない(つまり、呼びかけN-Mの応答処理が“×”)。よって、パターン特定部42は、表3に従い、図3の(2)のαにおける対応状況がパターン2であると特定する。
 以下、同様に、パターン特定部42は、図3の(3)のαではパターン3、(4)のαではパターン4、(5)のαではパターン5であると特定する。なお、図3の(1-1)のαでは直前の呼びかけが存在しないが、本実施形態においては、パターン特定部42は、このような直前の呼びかけが存在しない場合には、パターン1であると特定する。
 〔2.2.対応状況のパターンに応じたテンプレートの選択〕図2のS3に示す、特定されたパターンに応じたテンプレートを選択する処理について、図4および下記の表4に基づき詳細に説明する。図4は図2のS3に示す処理の詳細を表すフローチャートである。また、表4は、各パターンと選択されるテンプレートの対応関係を示す表である。
Figure JPOXMLDOC01-appb-T000004
 フレーズ生成部43は、パターン特定部42から通知されたパターンが何であるかを確認する(S31)。続いて、フレーズ生成部43は、通知されたパターンと対応するテンプレートを選択する(S32~S35)。選択されるテンプレートは、表4において“○”が記載されたテンプレートである。例えば、通知されたパターンがパターン1であった場合、テンプレートAが選択される(S32)。
 上記の構成によれば、いずれの呼びかけに対する応答であるか明らかである場合(パターン1-1または1-2である場合)は、呼びかけに対する直接の回答となる簡潔なフレーズを生成するためのテンプレートが用いられる。一方、いずれの呼びかけに対する応答であるか必ずしも明らかではない場合(パターン2~5である場合)、他の呼びかけに対する対応状況が考慮されたテンプレート(テンプレートB~E)が用いられる。
 〔変形例〕
 上記実施形態において、図2のS2において特定された対応状況がパターン2~5のいずれか(第2の対応状況)であった場合、フレーズ生成部43は、いずれの呼びかけに対する応答であるかを示す文言を応答となるフレーズに含めるテンプレート(テンプレートB)を選択してもよい。
 上記の構成によれば、連続してなされた複数の呼びかけに対し、いずれの呼びかけに対する応答であるかが明らかな応答を行うことができる。これにより、ユーザは応答がどの呼びかけと対応するものであるかを知ることができる。また、対応状況がパターン1(第1の対応状況)である場合には、テンプレートBを用いない(テンプレートAを用いる)ので、常にテンプレートBを用いる場合と比較して、いずれの呼びかけに対する応答であるかが明らかである場合(パターン1の場合)に、簡潔なフレーズを応答として出力することができる。
 また、パターン2や4のように、受付後、未応答の呼びかけが複数併存した対応状況となった場合、フレーズ生成部43は、テンプレートDやEのような、応答の対象とする呼びかけを絞り込んだことを示すフレーズを生成するテンプレートを選択してもよい。そして、この場合、絞り込みの対象から外れた呼びかけ(応答をキャンセルした呼びかけ)については、音声解析等の処理をキャンセルしてもよい。また、情報処理装置1の処理の負荷が予め定めた閾値を超える場合に、未応答の呼びかけの少なくとも1つについて音声解析等の処理をキャンセルしてもよい。そして、この場合、処理がキャンセルされていない呼びかけに応じたテンプレートを選択してもよい。また、テンプレートDやE等のように、呼びかけの内容を解析することなく応答を生成することのできるテンプレートを用いる場合、すぐに応答を返すことができる。そのため、上記の構成をとる場合は、ユーザとのコミュニケーションがより円滑になる。
 また、応答の内容がいずれの呼びかけに対する応答であるかをユーザが認識することが困難であるか否かを判断し、困難であると判断した場合にテンプレートBを選択してもよい。上記判断の手法は特に限定されないが、例えば呼びかけまたはその応答(基本フレーズ情報54に登録された応答のフレーズ)に含まれる語および/またはフレーズに基づいて判断してもよい。例えば、「苦手な動物は何?」と「好きな動物は何?」の呼びかけがなされた場合、これらの呼びかけはいずれも「動物」の語を含む類似した呼びかけであり、応答も類似したものとなる可能性があるので、テンプレートBを選択してもよい。
 また、上記実施形態においては、他の呼びかけが1つである場合の例を説明したため、対応状況のパターンは1つのみ特定されたが、他の呼びかけが複数存在する場合、他の呼びかけのそれぞれについて対応状況のパターンを特定してもよい。この場合、複数の異なるパターンが特定される場合がある。複数のパターンが特定された場合は、特定されたすべてのパターンに共通するテンプレートを選択してもよい。例えば、パターン2およびパターン4が特定された場合、表4においてパターン2およびパターン4の行の両方において“○”が記されているテンプレートBが選択される。また、パターン1以外の複数のパターンが対応状況のパターンとして特定された場合、テンプレートEを選択してもよい。
 また、上記実施形態においては、情報処理装置1がユーザの呼びかけを直接受け付ける例を説明したが、情報処理装置1と、ユーザの呼びかけを受け付ける装置とを独立の装置とした対話システムであっても、上記実施形態と同様の機能を実現できる。この対話システムは、例えば、ユーザの呼びかけを受け付け、その呼びかけに応答する音声を出力する音声対話装置と、該音声対話装置の出力する音声を制御する情報処理装置とを含んでいてもよい。そして、音声対話装置は、ユーザの呼びかけ内容を示す情報を上記情報処理装置に通知し、該情報処理装置は、該通知に基づいて情報処理装置1と同様の処理を行うものであってもよい。なお、この場合、情報処理装置は、音声対話装置に出力させるフレーズを決定する機能を少なくとも備えていればよく、フレーズの生成は該情報処理装置が行ってもよいし、音声対話装置に行わせてもよい。
 〔実施形態2〕
 本発明の他の実施形態について、図5および6に基づいて説明すれば、以下の通りである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材および処理については、同じ符号を付記し、その説明を省略する。まず、図5に基づいて、本実施形態に係る情報処理装置1Aと、実施形態1に係る情報処理装置1との差異を説明する。図5は、実施形態2に係る情報処理装置1Aの構成を示す機能ブロック図である。
 本実施形態に係る情報処理装置1Aと、実施形態1に係る情報処理装置1との差異は、制御部4に替えて、制御部4Aを備えている点である。また、制御部4Aと、制御部4との差異は、パターン特定部42およびフレーズ生成部43に替えて、パターン特定部42Aおよびフレーズ生成部43Aを備えている点である。
 パターン特定部42Aとパターン特定部42の差異は、パターン特定部42Aは、フレーズ生成部43Aから処理対象の呼びかけに対する応答となるフレーズが生成されたことの通知を受けて、対応状況がいずれのパターンに合致するかを再度特定する点である。パターン特定部42Aは、特定した対応状況のパターンを受付番号と合わせてフレーズ生成部43Aへ再度通知する。
 フレーズ生成部43Aとフレーズ生成部43の差異は、フレーズ生成部43Aは、処理対象の呼びかけの応答となるフレーズを生成した場合に、パターン特定部42Aへ当該フレーズを生成したことを通知する点である。また、パターン特定部42Aから同一の受付番号と合わせて対応状況のパターンを通知された場合に、対応状況のパターンが変化しているか否かを判定し、対応状況のパターンが変化していた場合、変化後の対応状況のパターンに応じたフレーズを生成する点も異なる。
 続いて、情報処理装置1Aにおける呼びかけに対する応答を出力する処理を、図6に基づいて説明する。図6は情報処理装置1Aにおける呼びかけに対する応答を出力する処理を示すフローチャートである。
 S6に示す処理において、処理対象の呼びかけに対する応答を生成したフレーズ生成部43Aは、パターン特定部42Aへ当該フレーズを生成したことを通知する。パターン特定部42Aは、当該通知を受けて、他の呼びかけの対応状況を確認し(S6A)、当該対応状況を受付番号と合わせてフレーズ生成部43Aへ通知する。
 再度の対応状況の通知を受けたフレーズ生成部43Aは、対応状況のパターンが変化しているか否かを判定する(S6B)。対応状況のパターンが変化していた場合(S6BでYES)、フレーズ生成部43Aは、再度S3以下の処理を実行する。すなわち、処理対象の呼びかけに対する応答となるフレーズを再度生成する。一方、対応状況のパターンが変化していなかった場合(S6BでNO)、S7からの処理が実行されることにより、処理対象の呼びかけに対する応答として、S6で生成されたフレーズが出力される。
 上記の構成によれば、呼びかけに応じたフレーズを生成している間に、他の呼びかけの対応状況が変化していた場合であっても、適切なフレーズを出力することができる。なお、対応状況を再確認するタイミングは、1度目の対応状況の確認後、処理対象の呼びかけに対する応答出力までの期間であり、対応状況が変化している可能性のある時点であればよく、上記の例(フレーズの生成完了時)に限られない。例えば、1度目の対応状況の確認後、所定の時間が経過したときに、対応状況を再確認してもよい。
 〔実施形態3〕
 情報処理装置1および1Aの各ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、情報処理装置1および1Aを図7に示すようなコンピュータ(電子計算機)を用いて構成することができる。図7は、上記の情報処理装置1および1Aとして利用可能なコンピュータの構成を例示したブロック図である。
 この場合、情報処理装置1および1Aは、図7に示すように、バス14を介して互いに接続された演算部11と、主記憶部12と、補助記憶部13と、音声入力部2と、音声出力部3とを備えている。演算部11、主記憶部12、および補助記憶部13は、それぞれ、例えばCPU、RAM(random access memory)、ハードディスクドライブであってもよい。なお、主記憶部12は、コンピュータ読み取り可能な「一時的でない有形の媒体」であればよく、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブル論理回路などを用いることができる。
 補助記憶部13には、コンピュータを情報処理装置1および1Aとして動作させるための各種プログラムが格納されている。そして、演算部11は、補助記憶部13に格納された上記各プログラムを主記憶部12上に展開し、主記憶部12上に展開された上記各プログラムに含まれる命令を実行することによって、コンピュータを、情報処理装置1および1Aが備える各部として機能させる。
 なお、ここでは、内部記録媒体である補助記憶部13に記録されている上記各プログラムを用いてコンピュータを情報処理装置1および1Aとして機能させる構成について説明したが、外部記録媒体に記録されているプログラムを用いてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
 〔まとめ〕
 本発明の態様1に係る情報処理装置(1、1A)は、ユーザが呼びかけた音声に応答するフレーズを決定する情報処理装置であって、応答のフレーズを決定すべき対象呼びかけを受け付けた場合に、該対象呼びかけとは異なる他の呼びかけに対する自装置の対応状況を特定する対応状況特定部(パターン特定部42、42A)と、上記対象呼びかけに応答するフレーズとして、上記対応状況特定部が特定した対応状況に応じた上記フレーズを決定するフレーズ決定部(フレーズ生成部43)と、を備えている。
 上記の構成によれば、ユーザが発した呼びかけに対して、他の呼びかけの対応状況に応じたフレーズが出力される。なお、他の呼びかけは、対象呼びかけに応答するフレーズを決定するために考慮すべき呼びかけであり、例えば対象呼びかけの直前に受け付けたM個の呼びかけであってもよいし、対象呼びかけの直後に受け付けたL個の呼びかけであってもよく、これらの両方であってもよい(L,Mは正数)。また、他の呼びかけの対応状況は、他の呼びかけが複数存在する場合には、複数の他の呼びかけのうちの1つに対する対応状況であってもよいし、複数の他の呼びかけの各対応状況を総合して特定された対応状況であってもよい。よって、他の呼びかけに対する対応状況にかかわらず呼びかけに対して画一的なフレーズを出力する構成と比較して、複数の呼びかけに対して適切なフレーズを出力することができる。なお、対応状況特定部は、呼びかけが受け付けられてから、その呼びかけに応じたフレーズが出力されるまでのいずれかの時点において、対応状況を判断する。また、上記情報処理装置が決定したフレーズは、該情報処理装置から出力してもよいし、他の装置に出力させてもよい。
 本発明の態様2に係る情報処理装置は、上記態様1において、上記対応状況特定部は、上記対象呼びかけの受付後に上記他の呼びかけを受け付けた場合と、上記他の呼びかけの受付後に上記対象呼びかけを受け付けた場合とを、それぞれ異なる対応状況と特定してもよい。該構成によれば、上記対象呼びかけの受付後に上記他の呼びかけを受け付けた場合と、上記他の呼びかけの受付後に上記対象呼びかけを受け付けた場合とのそれぞれに応じた適切なフレーズを決定することが可能になる。例えば、2つの呼びかけが連続してなされた場合に、(1)先の呼びかけのみ応答済み、および(2)後の呼びかけのみ応答済み、の各対応状況に適したフレーズを出力することも可能である。
 本発明の態様3に係る情報処理装置は、上記態様1または2において、上記対応状況には、上記他の呼びかけに対してフレーズを決定済みである状態で上記対象呼びかけを受け付けた第1の対応状況と、上記他の呼びかけに対するフレーズが未決定である状態で上記対象呼びかけを受け付けた第2の対応状況とが含まれており、上記フレーズ決定部は、上記対応状況特定部が上記第2の対応状況であると特定した場合に、上記第1の対応状況で決定するフレーズと、上記対象呼びかけを示すフレーズとを組み合わせたフレーズを決定してもよい。該構成によれば、呼びかけとその応答との対応がユーザにとって認識困難な第2の対応状況において、呼びかけとその応答との対応がユーザにとって明らかな第1の対応状況で決定するフレーズと、対象呼びかけを示すフレーズとを組み合わせたフレーズを決定するので、出力されるフレーズが対象呼びかけに応答するものであることをユーザに認識させることができる。
 本発明の態様4に係る情報処理装置は、上記態様1から3において、上記対応状況特定部は、対応状況の特定後、特定した対応状況が他の対応状況に変化する可能性のある時点において再度対応状況を特定し、上記フレーズ決定部(フレーズ生成部43A)は、上記対応状況特定部が先に特定した対応状況と、後に特定した対応状況とが異なっていた場合、後に特定された対応状況に応じたフレーズを決定してもよい。該構成によれば、呼びかけに応じたフレーズを生成している間に、対応状況が変化した場合であっても、適切なフレーズを出力することができる。
 本発明の各態様に係る情報処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記情報処理装置が備える各部(ソフトウェア要素)として動作させることにより上記情報処理装置をコンピュータにて実現させる情報処理装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
 本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
 本発明は、ユーザが発した音声に応じて、当該ユーザに所定のフレーズを出力する情報処理装置および情報処理システムに利用することができる。
 1、1A   情報処理装置
 42、42A パターン特定部(対応状況特定部)
 43、43A フレーズ生成部(フレーズ決定部)

Claims (5)

  1.  ユーザが呼びかけた音声に応答するフレーズを決定する情報処理装置であって、
     応答のフレーズを決定すべき対象呼びかけを受け付けた場合に、該対象呼びかけとは異なる他の呼びかけに対する対応状況を特定する対応状況特定部と、
     上記対象呼びかけに応答するフレーズとして、上記対応状況特定部が特定した対応状況に応じたフレーズを決定するフレーズ決定部と、を備えていることを特徴とする情報処理装置。
  2.  上記対応状況特定部は、上記対象呼びかけの受付後に上記他の呼びかけを受け付けた場合と、上記他の呼びかけの受付後に上記対象呼びかけを受け付けた場合とを、それぞれ異なる対応状況と特定することを特徴とする請求項1に記載の情報処理装置。
  3.  上記対応状況には、上記他の呼びかけに対してフレーズを決定済みである状態で上記対象呼びかけを受け付けた第1の対応状況と、上記他の呼びかけに対するフレーズが未決定である状態で上記対象呼びかけを受け付けた第2の対応状況とが含まれており、
     上記フレーズ決定部は、上記対応状況特定部が上記第2の対応状況であると特定した場合に、上記第1の対応状況で決定するフレーズと、上記対象呼びかけを示すフレーズとを組み合わせたフレーズを決定することを特徴とする請求項1または2に記載の情報処理装置。
  4.  上記対応状況特定部は、対応状況の特定後、特定した対応状況が他の対応状況に変化する可能性のある時点において再度対応状況を特定し、
     上記フレーズ決定部は、上記対応状況特定部が先に特定した対応状況と、後に特定した対応状況とが異なっていた場合、後に特定された対応状況に応じたフレーズを決定することを特徴とする請求項1から3のいずれか1項に記載の情報処理装置。
  5.  請求項1に記載の情報処理装置としてコンピュータを機能させるための制御プログラムであって、上記対応状況特定部および上記フレーズ決定部としてコンピュータを機能させるための制御プログラム。
PCT/JP2015/051703 2014-04-25 2015-01-22 情報処理装置および制御プログラム WO2015162953A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201580021261.4A CN106233377B (zh) 2014-04-25 2015-01-22 信息处理装置
US15/303,583 US20170032788A1 (en) 2014-04-25 2015-01-22 Information processing device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014-091919 2014-04-25
JP2014091919A JP6359327B2 (ja) 2014-04-25 2014-04-25 情報処理装置および制御プログラム

Publications (1)

Publication Number Publication Date
WO2015162953A1 true WO2015162953A1 (ja) 2015-10-29

Family

ID=54332127

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/051703 WO2015162953A1 (ja) 2014-04-25 2015-01-22 情報処理装置および制御プログラム

Country Status (4)

Country Link
US (1) US20170032788A1 (ja)
JP (1) JP6359327B2 (ja)
CN (1) CN106233377B (ja)
WO (1) WO2015162953A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4407607A3 (en) 2018-11-21 2024-10-16 Google LLC Orchestrating execution of a series of actions requested to be performed via an automated assistant

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07311671A (ja) * 1994-05-17 1995-11-28 Oki Electric Ind Co Ltd 音声情報通信システム
JPH0991112A (ja) * 1995-07-19 1997-04-04 Toshiba Corp マルチモーダル対話装置及び対話方法

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2770747B2 (ja) * 1994-08-18 1998-07-02 日本電気株式会社 音声合成装置
US5483588A (en) * 1994-12-23 1996-01-09 Latitute Communications Voice processing interface for a teleconference system
JPH11296975A (ja) * 1998-04-06 1999-10-29 Sony Corp 編集装置および方法、並びに提供媒体
JP2000187435A (ja) * 1998-12-24 2000-07-04 Sony Corp 情報処理装置、携帯機器、電子ペット装置、情報処理手順を記録した記録媒体及び情報処理方法
TW501046B (en) * 1999-06-11 2002-09-01 Ind Tech Res Inst A portable dialogue manager
US7257537B2 (en) * 2001-01-12 2007-08-14 International Business Machines Corporation Method and apparatus for performing dialog management in a computer conversational interface
JP3762327B2 (ja) * 2002-04-24 2006-04-05 株式会社東芝 音声認識方法および音声認識装置および音声認識プログラム
US20060276230A1 (en) * 2002-10-01 2006-12-07 Mcconnell Christopher F System and method for wireless audio communication with a computer
CN1842788B (zh) * 2004-10-08 2012-04-04 松下电器产业株式会社 对话支援装置、系统及方法
US8447640B2 (en) * 2005-09-13 2013-05-21 Yedda, Inc. Device, system and method of handling user requests
JP2008203559A (ja) * 2007-02-20 2008-09-04 Toshiba Corp 対話装置及び方法
CN101075435B (zh) * 2007-04-19 2011-05-18 深圳先进技术研究院 一种智能聊天系统及其实现方法
US7962578B2 (en) * 2008-05-21 2011-06-14 The Delfin Project, Inc. Management system for a conversational system
CN101609671B (zh) * 2009-07-21 2011-09-07 北京邮电大学 一种连续语音识别结果评价的方法和装置
US8943094B2 (en) * 2009-09-22 2015-01-27 Next It Corporation Apparatus, system, and method for natural language processing
US8700405B2 (en) * 2010-02-16 2014-04-15 Honeywell International Inc Audio system and method for coordinating tasks
US9570086B1 (en) * 2011-11-18 2017-02-14 Google Inc. Intelligently canceling user input
US20140351228A1 (en) * 2011-11-28 2014-11-27 Kosuke Yamamoto Dialog system, redundant message removal method and redundant message removal program
CN202736475U (zh) * 2011-12-08 2013-02-13 华南理工大学 一种聊天机器人
US9934780B2 (en) * 2012-01-17 2018-04-03 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue's prompt pitch
US9236064B2 (en) * 2012-02-15 2016-01-12 Microsoft Technology Licensing, Llc Sample rate converter with automatic anti-aliasing filter
EP2822811B1 (en) * 2012-03-08 2021-01-27 Lumileds LLC Controllable high luminance illumination with moving light-sources
US9924002B1 (en) * 2012-06-21 2018-03-20 EMC IP Holding Company LLC Managing stateless processes
US9576574B2 (en) * 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
TWI557722B (zh) * 2012-11-15 2016-11-11 緯創資通股份有限公司 語音干擾的濾除方法、系統,與電腦可讀記錄媒體
CN103198831A (zh) * 2013-04-10 2013-07-10 威盛电子股份有限公司 语音操控方法与移动终端装置
CN103413549B (zh) * 2013-07-31 2016-07-06 深圳创维-Rgb电子有限公司 语音交互的方法、系统以及交互终端
JP6257368B2 (ja) * 2014-02-18 2018-01-10 シャープ株式会社 情報処理装置
US9589562B2 (en) * 2014-02-21 2017-03-07 Microsoft Technology Licensing, Llc Pronunciation learning through correction logs
US20150370787A1 (en) * 2014-06-18 2015-12-24 Microsoft Corporation Session Context Modeling For Conversational Understanding Systems
US9767794B2 (en) * 2014-08-11 2017-09-19 Nuance Communications, Inc. Dialog flow management in hierarchical task dialogs

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07311671A (ja) * 1994-05-17 1995-11-28 Oki Electric Ind Co Ltd 音声情報通信システム
JPH0991112A (ja) * 1995-07-19 1997-04-04 Toshiba Corp マルチモーダル対話装置及び対話方法

Also Published As

Publication number Publication date
CN106233377B (zh) 2019-08-20
CN106233377A (zh) 2016-12-14
US20170032788A1 (en) 2017-02-02
JP2015210390A (ja) 2015-11-24
JP6359327B2 (ja) 2018-07-18

Similar Documents

Publication Publication Date Title
US11074924B2 (en) Speech recognition method, device, apparatus and computer-readable storage medium
JP2020181566A (ja) マンマシン対話の方法、装置、および電子機器
JP6526399B2 (ja) 音声対話装置、音声対話装置の制御方法、および制御プログラム
JP2007232829A (ja) 音声対話装置とその方法及びプログラム
CN109147801B (zh) 语音交互方法、系统、终端及存储介质
JP6766675B2 (ja) 音声対話装置
WO2018135276A1 (ja) 言動制御装置、ロボット、制御プログラムおよび言動制御装置の制御方法
JP6359327B2 (ja) 情報処理装置および制御プログラム
JP2024109603A (ja) 音声制御方法及びサーバ装置
CN111801951B (zh) 啸叫抑制装置、其方法以及计算机可读取记录介质
WO2015125560A1 (ja) 情報処理装置、音声対話装置、および制御プログラム
US5483618A (en) Method and system for distinguishing between plural audio responses in a multimedia multitasking environment
CN111063356A (zh) 电子设备响应方法及系统、音箱和计算机可读存储介质
JP6772881B2 (ja) 音声対話装置
JP2017097160A (ja) 音声処理装置、音声処理方法、およびプログラム
US11386919B1 (en) Methods and systems for audio sample quality control
JP6265670B2 (ja) 情報処理装置、サーバ、および、制御プログラム
JP7172299B2 (ja) 情報処理装置、情報処理方法、プログラムおよび情報処理システム
CN113157245A (zh) 电子书呈现信息的播放交互方法、计算设备及存储介质
US20200258519A1 (en) Electronic apparatus, control device, control method, and non-transitory computer readable recording medium
US11275551B2 (en) System for voice-based alerting of person wearing an obstructive listening device
JP7303091B2 (ja) 制御装置、電子機器、制御装置の制御方法および制御プログラム
JP7509255B2 (ja) 連続発話推定装置、連続発話推定方法、およびプログラム
JP2018195894A (ja) 決定装置、決定方法及び決定プログラム
JP2020106746A (ja) 制御装置、制御方法、制御プログラム、及び対話装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15783508

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15303583

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15783508

Country of ref document: EP

Kind code of ref document: A1