WO2018207483A1 - 情報処理装置、電子機器、制御方法、および制御プログラム - Google Patents

情報処理装置、電子機器、制御方法、および制御プログラム Download PDF

Info

Publication number
WO2018207483A1
WO2018207483A1 PCT/JP2018/012384 JP2018012384W WO2018207483A1 WO 2018207483 A1 WO2018207483 A1 WO 2018207483A1 JP 2018012384 W JP2018012384 W JP 2018012384W WO 2018207483 A1 WO2018207483 A1 WO 2018207483A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
detection
noise
unit
response
Prior art date
Application number
PCT/JP2018/012384
Other languages
English (en)
French (fr)
Inventor
佐藤 義雄
善朗 石川
Original Assignee
シャープ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャープ株式会社 filed Critical シャープ株式会社
Priority to JP2019517487A priority Critical patent/JPWO2018207483A1/ja
Priority to US16/610,252 priority patent/US20200058319A1/en
Priority to CN201880030304.9A priority patent/CN110612569A/zh
Publication of WO2018207483A1 publication Critical patent/WO2018207483A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/01Noise reduction using microphones having different directional characteristics

Definitions

  • the present invention relates to an information processing apparatus that recognizes utterance content and causes an output unit to output a response corresponding to the utterance content.
  • Patent Document 1 reception of voice input is started when a predetermined signal from a user is detected, and an air conditioner is operated when the meaning of the voice input voice matches a pre-registered command.
  • An operation device that performs a predetermined operation such as the above is disclosed.
  • an interactive robot that interacts with a user returns a wide variety of responses to a very wide variety of utterance contents.
  • the possibility that an environmental sound such as a TV program sound is erroneously detected as the user's utterance increases.
  • One embodiment of the present invention is made in view of the above-described problems, and an object thereof is to realize an information processing apparatus or the like that prevents a response due to a malfunction.
  • an information processing apparatus is an information processing apparatus that recognizes utterance content and outputs a response corresponding to the utterance content to an output unit.
  • a sound acquisition unit that distinguishes and acquires detection sounds from microphones
  • a noise determination unit that determines that the detected sound is noise when the detected speech cannot be recognized for each of the detection sounds
  • a detection control unit configured to stop detection of sound by one or more microphones among the plurality of microphones when the noise determination unit determines that the detection sound is noise.
  • a method for controlling an information processing device is directed to a method for controlling an information processing device that recognizes utterance content and outputs a response corresponding to the utterance content to an output unit. Then, for each of the detected sounds, the voice acquisition step for separately acquiring the detected sounds from a plurality of microphones, and when the utterance content cannot be recognized from the detected sounds, the detected sound is determined to be noise.
  • a response due to a malfunction can be prevented.
  • FIG. 1 is a block diagram showing a main configuration of a dialogue robot 1 according to this embodiment.
  • the interactive robot 1 is an electronic device that recognizes a user's utterance content and outputs a response corresponding to the utterance content.
  • the “response” means a response to the utterance of the interactive robot 1 indicated by voice, action, light, or a combination thereof.
  • the interactive robot 1 outputs a response to speech content from a speaker 40 (described later).
  • the interactive robot 1 includes a storage unit 20, a microphone 30, a speaker (output unit) 40, and a control unit (information processing apparatus) 10.
  • the storage unit 20 is a memory that stores data necessary for processing executed by the control unit 10.
  • the storage unit 20 includes at least a response sentence table 21.
  • the response sentence table 21 is a data table in which response contents are stored in association with predetermined sentences or keywords.
  • a response content a character string of a message that is an answer to the sentence or keyword is stored.
  • the microphone 30 is an input device that detects sound.
  • the microphone 30 may be of any type, but has a detection accuracy and directivity to such an extent that the direction of the detected sound can be specified by the direction specifying unit 12 described later.
  • the microphone 30 is controlled to start and stop sound detection by a detection control unit 17 described later.
  • the dialogue robot 1 includes a plurality of microphones 30. Furthermore, it is desirable that the conversation robot 1 has a plurality of microphones 30 arranged in different directions. Thereby, the precision of the direction specification of the detection sound by the direction specific
  • the speaker 40 outputs a message as a response content by voice according to the control of the output control unit 16 described later.
  • the interactive robot 1 may include a plurality of speakers 40.
  • the control unit 10 is a CPU (Central Processing Unit) that controls the interactive robot 1 in an integrated manner.
  • the control unit 10 includes a voice acquisition unit 11, a noise determination unit 14, a response determination unit 15, an output control unit 16, and a detection control unit 17 as functional blocks.
  • the voice acquisition unit 11 acquires the detection sound of the microphone 30.
  • the sound acquisition unit 11 distinguishes and acquires each detected sound from the plurality of microphones 30. Moreover, the sound acquisition unit 11 divides the detection sound of each microphone 30 by an arbitrary length and acquires the sound multiple times.
  • the voice acquisition unit 11 includes a direction specifying unit 12 and a character string conversion unit 13.
  • the direction specifying unit 12 specifies the direction in which the detection sound of the microphone 30 is emitted.
  • the direction specifying unit 12 may comprehensively specify the generation direction of the detection sound from the detection sounds of the plurality of microphones 30.
  • the direction specifying unit 12 sends information indicating the direction of the specified detected sound to the noise determining unit 14.
  • the character string converter 13 converts the sound detected by the microphone 30 into a character string.
  • the character string conversion unit 13 sends the converted character string to the response determination unit 15.
  • the character string conversion unit 13 notifies the noise determination unit 14 that conversion is impossible when the detection sound cannot be converted into a character string, for example, when the detection sound is not a language.
  • the character string conversion unit 13 determines whether each detection sound can be converted into a character string.
  • the detected sound that can be converted into the character string is transmitted to the response determining unit 15, and the detected sound that cannot be converted into the character string is transmitted to the noise determining unit 14 that conversion is impossible. To do.
  • the character string conversion unit 13 determines whether or not any one of a plurality of detection sounds (for example, the detection sound having the largest input) can be converted into a character string. If it is impossible, a notification indicating that conversion is impossible may be sent to the noise determination unit 14.
  • the noise determination unit 14 determines whether or not the detection sound of the microphone 30 is noise. When the noise determination unit 14 obtains a notification that conversion is impossible from the character string conversion unit 13, that is, when the utterance content cannot be recognized by the character string conversion unit 13, the detection sound of the microphone 30 is noise. judge. When it is determined that the detected sound is noise, the noise determination unit 14 transmits an instruction (OFF instruction) to stop detection of sound by the one or more microphones 30 to the detection control unit 17.
  • the noise determination unit 14 determines the sound from the information indicating the direction of the detection sound acquired from the direction specifying unit 12 and the arrangement and directivity of the microphone 30 in the interactive robot 1.
  • One or more microphones 30 for stopping detection may be determined.
  • the noise determination unit 14 may specify the microphone 30 to be stopped in the OFF instruction.
  • the noise determination unit 14 determines that the detected sound of the microphone 30 is noise when receiving notification that conversion is impossible within a predetermined period (for example, twice) continuously. Good. In this case, the noise determination unit 14 does not have to transmit an OFF instruction when the speech content cannot be recognized for the first time.
  • the response determination unit 15 determines a response corresponding to the character string in response to a response instruction.
  • the response determination unit 15 receives the character string from the character string conversion unit 13
  • the response determination unit 15 refers to the response sentence table 21 of the storage unit 20 and searches for the response content (message) corresponding to the sentence or keyword included in the character string.
  • the response determination unit 15 determines one or more messages from the messages obtained from the search results as output messages and sends them to the output control unit 16.
  • the output control unit 16 causes the speaker 40 to output the output message received from the response determination unit 15.
  • the detection control unit 17 stops detecting the sound of the microphone 30 specified by the noise determination unit 14 according to the instruction according to the OFF instruction from the noise determination unit 14.
  • the detection control unit 17 restarts the detection of the sound of the microphone 30 after a predetermined time has elapsed or when receiving an instruction (ON instruction) to start detection of the sound of the microphone 30 from the noise determination unit 14. Also good.
  • FIG. 2 is a diagram illustrating an operation example of the dialogue robot 1.
  • the noise determination unit 14 determines that the detected sound is noise when the utterance content cannot be recognized twice in succession.
  • the voice acquisition unit 11 of the control unit 10 acquires this, and the character string conversion unit 13 detects the detected sound. Attempts to convert to a string. Since noise or BGM cannot be recognized as a language, the character string conversion unit 13 notifies the noise determination unit 14 that conversion is impossible. In this case, since the response determination unit 15 does not acquire a character string, the response determination unit 15 does not determine a response, and thus the interactive robot 1 does not respond ((b) of FIG. 2).
  • the right microphone 30 detects TV noise or BGM again ((c) in FIG. 2).
  • the character string conversion unit 13 of the voice acquisition unit 11 notifies the noise determination unit 14 and the response determination unit 15 again that conversion is impossible.
  • the noise determination unit 14 determines that the detected sound is noise because the utterance content could not be recognized twice in succession for the detected sound from the same microphone. Based on the information indicating the direction received from the direction specifying unit 12, the noise determination unit 14 specifies the microphone 30 (in this example, the right microphone 30) that faces the detection sound generation direction.
  • the noise determination unit 14 transmits an OFF instruction to the detection control unit 17 by designating the specified right microphone 30.
  • the detection control unit 17 stops the right microphone 30 ((d) in FIG. 2).
  • the dialogue robot 1 does not detect the sound from the television itself ((e) in FIG. 2).
  • the noise determination unit 14 cancels the OFF instruction when a response instruction is sent to the response determination unit 15 according to the detection sound of the left microphone 30 or when a predetermined period has elapsed from the transmission of the OFF instruction. May be.
  • the noise determination unit 14 sends a response instruction to the response determination unit 15 according to the detection sound of the left microphone 30, or when a predetermined period has elapsed from the transmission of the OFF instruction, the noise determination unit 14 stops with the OFF instruction.
  • an ON instruction for resuming the sound detection of the right microphone 30 may be transmitted. And the detection control part 17 may restart the detection of the sound of the right microphone 30 according to cancellation
  • FIG. 3 is a flowchart showing an example of the processing flow of the interactive robot 1.
  • the sound acquisition unit 11 distinguishes and acquires the detected sound (S10, sound acquisition step).
  • the voice acquisition unit 11 specifies the direction in which each detection sound is emitted in the direction specifying unit 12 (S12), and transmits information indicating the direction to the noise determination unit 14.
  • the character string conversion unit 13 converts each detected sound into a character string (S14).
  • the response determination unit 15 acquires a character string from the character string conversion unit 13 and determines a response corresponding to the character string ( S18).
  • the output control unit 16 instructs the speaker 40 to output the determined response, and the speaker 40 outputs the response as a sound (S20).
  • the character string conversion unit 13 fails in the character string conversion (NO in S16)
  • the character string conversion unit 13 notifies the noise determination unit 14 that conversion is impossible.
  • the noise determination unit 14 determines whether or not the notification has been received twice in succession for the detected sound from the same microphone 30 (S22). When it is the first notification (NO in S22), the noise determination unit 14 stands by without transmitting an OFF instruction.
  • the noise determination unit 14 determines the detected sound as noise (S24, noise determination step), and information indicating the direction received from the direction specifying unit 12 Based on the above, one or more microphones 30 facing in the direction in which the noise is generated are specified. Then, the noise determination unit 14 instructs the detection control unit 17 to stop the specified microphone 30, and the detection control unit 17 stops the microphone 30 (S26, detection control step).
  • the order of the process of S12 and the process of S14 may be reversed, or may be performed simultaneously.
  • the process of S22 is not essential. That is, when the noise determination unit 14 is notified from the character string conversion unit 13 that conversion is not possible, the noise determination unit 14 may perform the processes of S24 and S26 even if this is the first notification.
  • the interactive robot 1 can determine whether or not the detection sound of each microphone 30 is noise. Specifically, whether or not the detected sound is noise can be determined according to whether or not the detected sound of each microphone 30 is a sound that can be recognized as a language. Thereby, since the dialogue robot 1 can determine whether the detected sound is an utterance intended by the user, it is possible to prevent a malfunction of erroneously responding to noise.
  • the dialogue robot 1 identifies the direction in which noise is generated and stops the microphone 30 in the direction, noise detection thereafter can be reduced. Therefore, useless processing such as determination processing and operation performed when noise is detected as the detection sound can be omitted. Thereby, while being able to reduce the load of the interactive robot 1, wasteful power consumption can be reduced. Therefore, the operation time of the interactive robot 1 can be lengthened.
  • FIG. 4 is a block diagram illustrating a main configuration of the interactive robot 2 according to the second embodiment.
  • the dialogue robot 2 is different from the dialogue robot 1 according to the first embodiment in that an answer sentence table 22 is stored in the storage unit 20.
  • the response sentence table 22 is information in which a character string indicating the content of the user's response is associated with the response.
  • the response of the response text table 22 is the same as the response stored in the response text table 21.
  • the character string conversion unit 13 also transmits the character string converted from the detected sound to the noise determination unit 14. Further, the response determination unit 15 according to the present embodiment transmits the determined response to the noise determination unit 14.
  • the noise determination unit 14 stores the response received from the response determination unit 15.
  • the noise determination unit 14 may delete the stored response when the predetermined period has elapsed.
  • the noise determination unit 14 acquires a character string from the character string conversion unit 13
  • the noise determination unit 14 refers to the answer sentence table 22, and at least a part of the character string includes a character string indicating the user's answer content in the answer sentence table 22. It is determined whether or not they match. That is, the noise determination unit 14 determines whether or not at least a part of the character string acquired from the character string conversion unit 13 is associated with the response obtained from the response determination unit 15 in the answer sentence table 22. .
  • the noise determination unit 14 determines whether or not the acquired character string, that is, the utterance content indicated by the detected sound is the content expected as a response to the response content output from the speaker 40.
  • the noise determination unit 14 permits the response determination unit 15 to respond. Send an instruction to that effect.
  • the response determination unit 15 determines the response after receiving the instruction.
  • the noise determination unit 14 instructs the detection control unit 17 to turn OFF. Send. In this case, the noise determination unit 14 does not need to transmit an instruction to permit the response to the response determination unit 15. As a result, the dialogue robot 2 does not respond.
  • the noise determination unit 14 may transmit an instruction to permit the response to the response determination unit 15.
  • FIG. 5 is a diagram illustrating an operation example of the dialogue robot 2.
  • FIG. 5 as an example, a case will be described in which one microphone 30 is arranged in each of the left and right directions of the housing of the interactive robot 2 and the right microphone 30 detects the sound of the television program.
  • the response determination unit 15 determines a response, and the output control unit 16 outputs a response (in the illustrated example, a message “Where are you going today?”) (FIG. 5B). .
  • the noise determination unit 14 is notified of the output response from the response determination unit 15.
  • the right side of the microphone 30 detects the "Hello” again television audio (in FIG. 5 (c)). Also in this case, the character string conversion unit 13 transmits the character string to the noise determination unit 14 and the response determination unit 15.
  • the noise determination unit 14 determines whether at least a part of the received character string is associated with the stored response in the answer sentence table 22. When at least a part of the received character string is associated with the response, the noise determination unit 14 transmits an instruction to permit the response to the response determination unit 15 as in the previous case. On the other hand, if any part of the received character string is not associated with the response, the noise determination unit 14 determines that the received character string does not indicate the expected user response content. In this case, the noise determination unit 14 determines the character string, that is, the detected sound, as noise. In this case, similarly to the interactive robot 1 shown in the first embodiment, the noise determination unit 14 designates the right microphone 30 and transmits an OFF instruction to the detection control unit 17. In this case, since the instruction to permit the response is not transmitted to the response determination unit 15, the interactive robot 2 does not respond ((d) in FIG. 5).
  • the dialogue robot 2 does not detect the sound from the television itself ((e) in FIG. 5).
  • FIG. 6 is a flowchart showing an example of the processing flow of the interactive robot 2.
  • the interactive robot 2 outputs a response spontaneously or in response to the user's utterance (S40).
  • the response determination unit 15 transmits the response (or spontaneous message) determined by itself to the noise determination unit 14.
  • the flow of response output here is the same as the flow of S10 to S14, YES in S16 of FIG. 3, and the flow of S18 to S20.
  • the dialogue robot 2 acquires the detection sound (S42, voice acquisition step), specifies the direction in which the detection sound is emitted (S44), and applies the detection sound to the character string, as in S10 to S14 of FIG. Conversion (S46) is executed for each detected sound. If the character string conversion is successful (YES in S18), the character string conversion unit 13 transmits the character string to the noise determination unit 14 and the response determination unit 15. The noise determination unit 14 determines the utterance content indicated by the character string from the response transmitted from the response determination unit 15, the character string received from the character string conversion unit 13, and the response sentence table 22. Alternatively, it is determined whether or not the response is expected from the spontaneous message (S50).
  • the noise determination unit 14 transmits an instruction to permit the response to the response determination unit 15.
  • the response determination unit 15 determines a response in the same manner as S18 and S20 in FIG. 3 (S52), and the speaker 40 outputs the response according to the control of the output control unit 16 (S54).
  • the noise determination unit 14 determines that the detected sound converted to the character string is noise (S56, noise determination step). . In this case, the noise determination unit 14 instructs the detection control unit 17 to stop the microphone 30 as in S26 of FIG. 3, and the detection control unit 17 stops the microphone 30 (S58, detection control step).
  • the process of S22 in FIG. 3 may be performed between the process of S48 and the process of S56, or between the process of S50 and the process of S56. That is, the noise determination unit 14 may determine that the detected sound is noise when notified that the detected sound from the same microphone 30 cannot be converted twice consecutively. The noise determination unit 14 may determine that the detected sound is noise when an expected answer is not obtained twice consecutively.
  • the interactive robot 2 can determine whether or not the detection sound of the microphone 30 is noise. Specifically, it is determined whether or not the detected sound is noise according to the determination of whether or not the detected sound of the microphone 30 is a response to a response (or a spontaneous message) issued by the own device. . Thereby, since the dialogue robot 2 can determine whether the detected sound is an utterance intended by the user, it is possible to prevent a malfunction of erroneously responding to noise.
  • the dialogue robot 2 identifies the noise generation direction and stops the microphone 30 directed in the direction, the subsequent noise detection can be reduced. Therefore, useless processing such as determination processing and operation performed when noise is detected as the detection sound can be omitted. Thereby, while being able to reduce the load of the interactive robot 2, useless power consumption can be reduced. Therefore, the operating time of the interactive robot 2 can be lengthened.
  • control unit 10 is configured integrally with the storage unit 20, the microphone 30, and the speaker 40 in the interactive robots 1 and 2.
  • the control unit 10, the storage unit 20, the microphone 30, and the speaker 40 may be separate devices. These devices may be connected by wired or wireless communication.
  • the interactive robots 1 and 2 may include the microphone 30 and the speaker 40, and a server separate from the interactive robots 1 and 2 may include the control unit 10 and the storage unit 20.
  • the interactive robots 1 and 2 may transmit the detection sound of the microphone 30 to the server, and may receive instruction control related to the stop and start of detection of the sound of the microphone 30 and the output of the speaker 40 from the server.
  • the present disclosure may be applied to other than the interactive robots 1 and 2.
  • the dialogue robots 1 and 2 may indicate the response by a method other than the voice output.
  • information for designating a predetermined operation (such as a gesture) of the interactive robots 1 and 2 as a response may be stored in the response sentence table 21 in advance.
  • the response determination unit 15 determines the operation specified by the information as a response, and the output control unit 16 controls the motors of the dialog robots 1 and 2 to show the operation, that is, the response to the user. Good.
  • control block of the control unit 10 may be realized by a logic circuit (hardware) formed in an integrated circuit (IC chip) or the like, or may be realized by software using a CPU (Central Processing Unit).
  • IC chip integrated circuit
  • CPU Central Processing Unit
  • the control unit 10 includes a CPU that executes instructions of a program that is software that implements each function, a ROM (Read Only Memory) in which the program and various data are recorded so as to be readable by a computer (or CPU), or A storage device (these are referred to as “recording media”), a RAM (Random Access Memory) for expanding the program, and the like are provided.
  • a computer or CPU
  • the recording medium a “non-temporary tangible medium” such as a tape, a disk, a card, a semiconductor memory, a programmable logic circuit, or the like can be used.
  • the program may be supplied to the computer via an arbitrary transmission medium (such as a communication network or a broadcast wave) that can transmit the program.
  • an arbitrary transmission medium such as a communication network or a broadcast wave
  • one embodiment of the present invention can also be realized in the form of a data signal embedded in a carrier wave, in which the program is embodied by electronic transmission.
  • An information processing apparatus (control unit 10) is an information processing apparatus that recognizes utterance content and outputs a response corresponding to the utterance content to an output unit (speaker 40). For each of the sound acquisition unit (speech acquisition unit 11) that separately acquires the detection sound from the microphone (microphone 30) and the detection sound, if the utterance content cannot be recognized from the detection sound, the detection sound is noise. If the detected sound is determined to be noise by the noise determining unit (noise determining unit 14) that determines that there is noise, the sound is detected by one or more microphones among the plurality of microphones. A detection control unit (detection control unit 17) to be stopped.
  • the information processing apparatus can determine whether or not the detection sound of each microphone is noise. Therefore, since the information processing apparatus can determine whether the detected sound is an utterance intended by the user, it is possible to prevent an erroneous operation of responding erroneously to noise.
  • the information processing apparatus can stop some of the microphones including the microphone that detects the detection sound determined as the noise. Therefore, while reducing the possibility of detecting noise with a microphone, it is possible to continue trying to detect the speech from the user with a microphone that has not detected noise. Therefore, both prevention of malfunction and usability can be achieved.
  • the sound acquisition unit acquires the detection sound of each microphone a plurality of times, and the noise determination unit performs a predetermined number of times for the detection sound of the same microphone. If the utterance content cannot be recognized continuously, the detected sound may be determined to be noise.
  • the information processing apparatus is the information processing apparatus according to aspect 1 or 2, wherein the plurality of microphones are directional microphones, and the generation direction of the detection sound is specified from the detection sounds of the plurality of microphones.
  • the noise determination unit determines that the detection sound of any of the microphones is noise
  • the detection control unit faces the direction in which the detection sound is generated. Detection of sound by one or more microphones may be stopped.
  • the information processing apparatus identifies the noise generation direction and stops one or more microphones facing the direction. As a result, the possibility of detecting noise with the microphone can be further reduced.
  • the information processing apparatus is the information processing apparatus according to any one of the aspects 1 to 3, wherein the noise determination unit is able to recognize the utterance content from the detection sound, and the utterance content is When the response from the own device is not supported, the detected sound may be determined as noise.
  • the information processing apparatus determines whether or not the detected sound is noise according to whether or not the detected sound of the microphone is the utterance content corresponding to the response of the own apparatus. To do. Thereby, since the information processing apparatus can determine whether the detected sound is an utterance intended by the user, it is possible to prevent an erroneous operation of responding erroneously to noise.
  • An electronic apparatus (dialogue robot 1 or 2) according to aspect 5 of the present invention includes an information processing device (control unit 10) according to any one of aspects 1 to 4, the microphone (microphone 30), and the output. (Speaker 40). According to the above configuration, the same effect as the information processing apparatus according to any one of the first to fourth aspects can be obtained.
  • An information processing device control method is a method for controlling an information processing device that recognizes utterance content and causes an output unit to output a response corresponding to the utterance content.
  • the information processing apparatus may be realized by a computer.
  • the information processing apparatus is operated on each computer by causing the computer to operate as each unit (software element) included in the information processing apparatus.
  • the control program for the information processing apparatus to be realized in this way and a computer-readable recording medium on which the control program is recorded also fall within the scope of the present invention.
  • Dialogue robot electronic equipment
  • Control unit information processing device
  • DESCRIPTION OF SYMBOLS 11
  • Voice acquisition part 12
  • Direction specific part 13
  • Character string conversion part 14
  • Noise determination part 15
  • Response determination part 16
  • Output control part 17
  • Detection control part 20
  • Storage part 21
  • Answer sentence table 30
  • Microphone 40 Speaker (output part)

Abstract

誤動作による応答を防止する。制御部(10)は、複数のマイク(30)から検出音をそれぞれ区別して取得する音声取得部(11)と、検出音それぞれについて、該検出音から発話内容を認識できなかった場合、検出音がノイズであると判定するノイズ判定部(14)と、ノイズであると判定された場合、1つ以上のマイク(30)による音の検出を停止させる検出制御部(17)と、を備える。

Description

情報処理装置、電子機器、制御方法、および制御プログラム
 本発明は、発話内容を認識して、該発話内容に対応する応答を出力部に出力させる情報処理装置等に関する。
 近年、センサまたはマイク等で発話を検出し、該発話の内容に応じた応答(例えば、所定の動作またはメッセージ)を出力する情報処理装置が種々開発されている。
 このような情報処理装置に係る技術として、ユーザの発話以外で誤動作することを防ぐための技術が開示されている。例えば、特許文献1には、使用者からの所定の合図を検出した場合に音声入力の受け付けを開始し、音声入力された音声の意味が予め登録された命令に一致した場合、エアコンを操作する等の所定の動作を行う操作装置が開示されている。
日本国公開特許公報「特開2007-121579号公報(公開日:2007年05月17日)」
 しかしながら、特許文献1に記載の操作装置の技術を用いた上で、より多くの音声による命令を受け付けられるようにした場合に、思わぬ誤動作が生じる虞がある。
 例えば、ユーザと対話する対話ロボット等では、非常に多種類の発話内容に対し、多岐にわたる応答を返すこととなる。このように、発話内容に応じてより細やかな応答を返そうとするほど、例えばテレビ番組の音等の環境音を、ユーザの発話であると誤検出してしまう可能性が増す。
 本発明の一態様は、上述の問題点に鑑みたものであり、誤動作による応答を防止する情報処理装置等を実現することを目的とする。
 上記の課題を解決するために、本発明の一態様に係る情報処理装置は、発話内容を認識して、該発話内容に対応する応答を出力部に出力させる情報処理装置であって、複数のマイクから検出音をそれぞれ区別して取得する音声取得部と、上記検出音それぞれについて、該検出音から発話内容を認識できなかった場合、上記検出音がノイズであると判定するノイズ判定部と、上記ノイズ判定部により上記検出音がノイズであると判定された場合、上記複数のマイクのうち、1つ以上のマイクによる音の検出を停止させる検出制御部と、を備えることを特徴とする。
 上記の課題を解決するために、本発明の一態様に係る情報処理装置の制御方法は、発話内容を認識して、該発話内容に対応する応答を出力部に出力させる情報処理装置の制御方法であって、複数のマイクから検出音をそれぞれ区別して取得する音声取得ステップと、上記検出音それぞれについて、該検出音から発話内容を認識できなかった場合、上記検出音がノイズであると判定するノイズ判定ステップと、上記ノイズ判定ステップにおいて上記検出音がノイズであると判定された場合、上記複数のマイクのうち、1つ以上のマイクによる音の検出を停止させる検出制御ステップと、を含むことを特徴とする。
 本発明の一態様によれば、誤動作による応答を防止することができる。
本発明の実施形態1に係る対話ロボットの要部構成を示すブロック図である。 上記対話ロボットの動作例を示す図である。 上記対話ロボットの処理の流れの一例を示すフローチャートである。 本発明の実施形態2に係る対話ロボットの要部構成を示すブロック図である。 上記対話ロボットの動作例を示す図である。 上記対話ロボットの処理の流れの一例を示すフローチャートである。
 〔実施形態1〕
 本開示の実施形態1において、図1~3を用いて説明する。図1は、本実施形態に係る対話ロボット1の要部構成を示すブロック図である。対話ロボット1は、ユーザの発話内容を認識して、該発話内容に対応する応答を出力する電子機器である。ここで、「応答」とは、音声、動作、光、またはこれらの組み合わせで示される、対話ロボット1の、発話に対する反応を意味する。本実施形態では一例として、対話ロボット1がスピーカ40(後述)から発話内容に対する応答を音声出力する場合について説明する。対話ロボット1は図示の通り、記憶部20と、マイク30と、スピーカ(出力部)40と、制御部(情報処理装置)10とを備える。
 記憶部20は、制御部10が実行する処理に必要なデータを格納するメモリである。記憶部20は少なくとも、応答文テーブル21を含む。応答文テーブル21は、所定の文またはキーワードに、応答内容が対応付けて記憶されたデータテーブルである。本実施形態では、応答内容として、上記文またはキーワードに対する回答となるメッセージの文字列を記憶しておくこととする。
 マイク30は、音を検出する入力装置である。マイク30は、その種類は問わないが、後述する方向特定部12で、検出音の方向を特定できる程度の検出精度および指向性を有している。マイク30は、後述する検出制御部17により音検出の開始および停止が制御される。対話ロボット1は、マイク30を複数個備えている。さらに言えば、対話ロボット1には、複数個のマイク30が、それぞれ異なる方向に向けて配置されていることが望ましい。これにより、後述する方向特定部12による検出音の方向特定の精度を向上させることができる。
 スピーカ40は、後述する出力制御部16の制御に従って、応答内容であるメッセージを音声出力するものである。対話ロボット1はスピーカ40を複数備えていてもよい。
 制御部10は、対話ロボット1を統括的に制御するCPU(Central Processing Unit)である。制御部10は、機能ブロックとして、音声取得部11と、ノイズ判定部14と、応答決定部15と、出力制御部16と、検出制御部17を含む。
 音声取得部11は、マイク30の検出音を取得するものである。音声取得部11は、複数のマイク30からそれぞれの検出音を区別して取得する。また、音声取得部11は、各マイク30の検出音を任意の長さで区切って、複数回にわたり取得する。音声取得部11は方向特定部12および文字列変換部13を含む。
 方向特定部12は、マイク30の検出音が発せられた方向を特定するものである。方向特定部12は、複数のマイク30の検出音から検出音の発生方向を総合的に特定してもよい。方向特定部12は特定した検出音の方向を示す情報をノイズ判定部14に送る。
 文字列変換部13は、マイク30の検出音を文字列に変換するものである。文字列変換部13は、変換した文字列を応答決定部15に送る。なお、文字列変換部13は、例えば検出音が言語でない場合等、検出音を文字列に変換できなかった場合、変換不能である旨をノイズ判定部14に通知する。
 文字列変換部13は各検出音それぞれについて文字列への変換可否を判定する。そして、文字列に変換できた検出音については該文字列を応答決定部15に送信し、文字列に変換できなかった検出音については、変換不能である旨の通知をノイズ判定部14に送信する。もしくは、文字列変換部13は複数の検出音のいずれか1つ(例えば、最も入力の大きい検出音)について文字列への変換可否を判定し、変換可能な場合は文字列を応答決定部15に送信し、不可能な場合は変換不能な旨の通知をノイズ判定部14に送信してもよい。
 ノイズ判定部14は、マイク30の検出音がノイズであるか否かを判定するものである。ノイズ判定部14は、文字列変換部13から変換不能の旨の通知を取得した場合、すなわち、文字列変換部13において発話内容を認識できなかった場合、マイク30の検出音がノイズであると判定する。検出音がノイズであると判定した場合、ノイズ判定部14は、1つ以上のマイク30による音の検出を停止させる旨の指示(OFF指示)を、検出制御部17に送信する。
 なお、ノイズ判定部14は、検出音がノイズであると判定した場合、方向特定部12から取得した検出音の方向を示す情報と、対話ロボット1におけるマイク30の配置および指向性とから、音の検出を停止させるマイク30を1つ以上決定してもよい。この場合、ノイズ判定部14は、OFF指示において停止させるマイク30を指定してもよい。
 なお、ノイズ判定部14は、所定期間内に所定の回数(例えば、2回)連続して変換不能の旨の通知を受信した場合に、マイク30の検出音がノイズであると判定してもよい。この場合、ノイズ判定部14は最初に発話内容を認識できなかった時点では、OFF指示を送信しなくてよい。
 応答決定部15は、応答指示に応じて、文字列に対応する応答を決定するものである。応答決定部15は文字列変換部13から文字列を受信すると、記憶部20の応答文テーブル21を参照し、該文字列に含まれる文またはキーワードに対応する応答内容(メッセージ)を検索する。応答決定部15は検索結果で得られたメッセージの中から1つ以上のメッセージを出力メッセージとして決定し、出力制御部16に送る。
 出力制御部16は、応答決定部15から受信した出力メッセージをスピーカ40に出力させる。
 検出制御部17は、ノイズ判定部14からのOFF指示に従って、該指示によりノイズ判定部14が指定するマイク30の音の検出を停止させる。なお、検出制御部17は所定時間が経過した後、またはノイズ判定部14からマイク30の音の検出を開始させる指示(ON指示)を受信した場合に、マイク30の音の検出を再開させてもよい。
 次に、対話ロボット1の具体的な動作について、図2を用いて説明する。図2は、対話ロボット1の動作例を示す図である。図2では一例として、対話ロボット1の筐体の左右方向にそれぞれ1つずつマイク30が配置されており、かつ右側のマイク30がテレビのノイズまたはBGMを検出した場合について説明する。また、以降の説明では、ノイズ判定部14は2回連続して発話内容を認識できなかった場合に、検出音をノイズと判定することとする。
 対話ロボット1の右側のマイク30がテレビ番組のノイズまたはBGMを検出すると(図2の(a))、制御部10の音声取得部11はこれを取得し、文字列変換部13は検出音の文字列への変換を試みる。ノイズまたはBGMは言語として認識できないため、文字列変換部13は変換不能の旨をノイズ判定部14に通知する。この場合、応答決定部15は文字列を取得しないため応答を決定せず、よって対話ロボット1は応答しない(図2の(b))。
 次に、右側のマイク30が再度テレビのノイズまたはBGMを検出したとする(図2の(c))。この場合、音声取得部11の文字列変換部13は変換不能の旨を再度ノイズ判定部14および応答決定部15に通知する。ノイズ判定部14は同じマイクからの検出音について、2回連続で発話内容を認識できなかったため、検出音をノイズであると判定する。ノイズ判定部14は、方向特定部12から受信した方向を示す情報に基づき、検出音の発生方向に向いたマイク30(本例では、右側のマイク30)を特定する。ノイズ判定部14は検出制御部17に、特定した右側のマイク30を指定してOFF指示を送信する。検出制御部17は右側のマイク30を停止させる(図2の(d))。
 以降、テレビのある方向の音を検出する右側のマイク30は停止しているため、対話ロボット1はテレビからの音自体を検知しない状態になる(図2の(e))。
 なお、ノイズ判定部14は、左側のマイク30の検出音に応じて応答決定部15に応答指示を送った場合、もしくは、OFF指示の送信から所定期間が経過した場合に、該OFF指示を解除してもよい。または、ノイズ判定部14は、左側のマイク30の検出音に応じて応答決定部15に応答指示を送った場合、もしくは、OFF指示の送信から所定期間が経過した場合に、OFF指示で停止させた右側のマイク30の音の検出を再開させるためのON指示を送信してもよい。そして、検出制御部17はOFF指示の解除、またはON指示に従って、右側のマイク30の音の検出を再開させてもよい。
 最後に、対話ロボット1の処理の流れについて、図3を用いて説明する。図3は、対話ロボット1の処理の流れの一例を示すフローチャートである。複数のマイク30が音を検出すると、音声取得部11は検出音をそれぞれ区別して取得する(S10、音声取得ステップ)。音声取得部11は方向特定部12において、各検出音が発せられた方向を特定し(S12)、該方向を示す情報をノイズ判定部14に送信する。また、文字列変換部13は各検出音を文字列に変換する(S14)。
 ここで、文字列変換部13が文字列変換に成功した場合(S16でYES)、応答決定部15は文字列変換部13から文字列を取得し、該文字列に対応する応答を決定する(S18)。出力制御部16は決定された応答を出力するようスピーカ40に指示し、スピーカ40は該応答を音声出力する(S20)。
 一方、文字列変換部13が文字列変換に失敗した場合(S16でNO)、文字列変換部13はノイズ判定部14に変換不能の旨を通知する。ノイズ判定部14は、該通知を受信した場合、同じマイク30からの検出音について、連続して2回該通知を受信したか否かを判定する(S22)。1回目の通知である場合(S22でNO)、ノイズ判定部14はOFF指示を送信せずに待機する。一方、連続した2回目の通知であった場合(S22でYES)、ノイズ判定部14は検出音をノイズと判定し(S24、ノイズ判定ステップ)、方向特定部12から受信した、方向を示す情報に基づいて、該ノイズが発せられた方向に向いたマイク30を1つ以上特定する。そして、ノイズ判定部14は、特定したマイク30を停止させるよう検出制御部17に指示し、検出制御部17は該マイク30を停止させる(S26、検出制御ステップ)。
 なお、S12の処理とS14の処理との順序は逆であってもよいし、同時進行であってもよい。また、S22の処理は必須ではない。すなわち、ノイズ判定部14は、文字列変換部13から変換不能の旨を通知されたら、それが1回目の通知であってもS24およびS26の処理を行ってもよい。
 以上の処理によれば、対話ロボット1は、各マイク30の検出音がノイズであるか否かを判定することができる。具体的には、各マイク30の検出音が、言語として認識できる音であるか否かに応じて、該検出音がノイズであるか否かを判定することができる。これにより、対話ロボット1は、検出音がユーザの意図した発話かどうかを判断することができるため、ノイズに対し誤って応答するという誤動作を防止できる。
 また、対話ロボット1は、ノイズの発生方向を特定し、該方向に向けたマイク30を停止させるため、以降のノイズ検出を低減することができる。したがって、検出音としてノイズを検出した場合に実行する判定処理や動作等の、無駄な処理を省略することができる。これにより、対話ロボット1の負荷を低減することができるとともに、無駄な消費電力を削減することができる。よって、対話ロボット1の稼働時間を長くすることができる。
 〔実施形態2〕
 本開示の実施形態2について、図4~6を用いて説明する。なお、説明の便宜上、実施形態1で説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
 図4は、実施形態2に係る対話ロボット2の要部構成を示すブロック図である。対話ロボット2は、記憶部20に回答文テーブル22が格納されている点において、実施形態1に係る対話ロボット1と異なる。
 回答文テーブル22は、応答に対し、ユーザの回答内容を示す文字列が対応付けられた情報である。なお、回答文テーブル22の応答は、応答文テーブル21に記憶された応答と同一のものである。
 本実施形態に係る文字列変換部13は、検出音から変換した文字列を、ノイズ判定部14にも送信する。また、本実施形態に係る応答決定部15は、決定した応答をノイズ判定部14に伝える。
 本実施形態に係るノイズ判定部14は、応答決定部15から受信した応答を記憶する。なお、ノイズ判定部14は所定期間が経過した場合、記憶している応答を削除してもよい。ノイズ判定部14は、文字列変換部13から文字列を取得した場合、回答文テーブル22を参照して、該文字列の少なくとも一部分が、回答文テーブル22におけるユーザの回答内容を示す文字列と一致するか否かを判定する。すなわち、ノイズ判定部14は、回答文テーブル22において、文字列変換部13から取得した文字列の少なくとも一部分と、応答決定部15から得ていた応答とが対応付けられているか否かを判定する。換言すると、ノイズ判定部14は、取得した文字列、すなわち検出音が示す発話内容が、スピーカ40から出力した応答内容への回答として期待される内容であるか否かを判定する。
 回答文テーブル22において、取得した文字列の少なくとも一部分が応答と対応付けられている場合、すなわち、発話内容が期待の回答であった場合、ノイズ判定部14は応答決定部15に応答を許可する旨の指示を送信する。応答決定部15は該指示を受けてから、応答の決定を行う。
 一方、回答文テーブル22において、取得した文字列のいずれの部分も応答と対応付けられていない場合、すなわち、発話内容が期待の回答でない場合、ノイズ判定部14は検出制御部17にOFF指示を送信する。この場合、ノイズ判定部14は応答決定部15には応答を許可する旨の指示を送信しなくてよい。結果、対話ロボット2は応答を行わない。
 なお、ノイズ判定部14は、応答決定部15からの応答を記憶していない状態で文字列を取得した場合、応答決定部15に応答を許可する旨の指示を送信してよい。
 次に、対話ロボット2の具体的な動作について、図5を用いて説明する。図5は、対話ロボット2の動作例を示す図である。図5では一例として、対話ロボット2の筐体の左右方向にそれぞれ1つずつマイク30が配置されており、かつ右側のマイク30がテレビ番組の音声を検出した場合について説明する。
 右側のマイク30がテレビ番組の音声「こんにちは」を検出すると(図5の(a))、制御部10の音声取得部11はこれを取得し、文字列変換部13において文字列変換を試みる。図2の例と異なり、テレビ番組の音声「こんにちは」は言語として認識可能であるため、文字列変換部13は該音声を文字列に変換する。文字列変換部13は変換した文字列をノイズ判定部14および応答決定部15に通知する。ノイズ判定部14は、応答決定部15からの応答を記憶していない状態で文字列を受信すると、応答決定部15に応答を許可する旨の指示を送信する。これにより、応答決定部15は応答を決定し、出力制御部16はスピーカ40から応答(図示の例では、「今日はどこか行く?」というメッセージ)を出力させる(図5の(b))。そして、ノイズ判定部14は出力された応答を応答決定部15から伝えられる。
 次に、右側のマイク30が再度テレビの音声「こんにちは」を検出したとする(図5の(c))。この場合も文字列変換部13は文字列をノイズ判定部14および応答決定部15に送信する。
 ノイズ判定部14は、受信した文字列の少なくとも一部分が、回答文テーブル22において、記憶している応答と対応付けられているか否かを判定する。受信した文字列の少なくとも一部分が応答と対応付けられている場合、ノイズ判定部14は前回と同様に、応答決定部15に対し応答を許可する旨の指示を送信する。一方、受信した文字列のいずれの部分も応答と対応付けられていない場合、ノイズ判定部14は、受信した文字列が、期待されるユーザの回答内容を示していないと判断する。この場合、ノイズ判定部14は、該文字列、すなわち検出音をノイズと判定する。この場合、実施形態1に示す対話ロボット1と同様に、ノイズ判定部14は右側のマイク30を指定してOFF指示を検出制御部17に送信する。またこの場合、応答決定部15に応答を許可する旨の指示は送信されないため、対話ロボット2は応答しない(図5の(d))。
 以降、テレビのある方向の音を検出する右側のマイク30は停止しているため、対話ロボット2はテレビからの音自体を検知しない状態になる(図5の(e))。
 最後に、対話ロボット2の処理の流れについて、図6を用いて説明する。図6は、対話ロボット2の処理の流れの一例を示すフローチャートである。
 対話ロボット2は、自発的に、またはユーザの発話に対し応答を出力する(S40)。このとき、応答決定部15は、自身が決定した応答(または自発的メッセージ)をノイズ判定部14に伝える。なお、ここでの応答出力の流れは、図3のS10~S14、S16でYES、およびS18~S20の流れと同様である。
 その後、対話ロボット2は、図3のS10~S14と同様、検出音の取得(S42、音声取得ステップ)、検出音が発せられた方向の特定(S44)、および、検出音の文字列への変換(S46)を検出音毎に実行する。文字列変換に成功した場合、(S18でYES)、文字列変換部13はノイズ判定部14および応答決定部15に文字列を送信する。ノイズ判定部14は、応答決定部15から伝えられていた応答と、文字列変換部13から受信した文字列と、回答文テーブル22とから、文字列が示す発話内容が、対話ロボット2の応答または自発的メッセージから期待される回答か否か判定する(S50)。
 文字列が示す発話内容が期待される回答である場合(S50でYES)、ノイズ判定部14は応答決定部15に対し、応答を許可する旨の指示を送信する。応答決定部15は、図3のS18およびS20と同様に、応答を決定し(S52)、スピーカ40は出力制御部16の制御に応じて該応答を出力する(S54)。
 一方、文字列が示す発話内容が期待される回答でない場合(S50でNO)、ノイズ判定部14は該文字列に変換された検出音が、ノイズであると判定する(S56、ノイズ判定ステップ)。ノイズ判定部14はこの場合、図3のS26と同様に、マイク30を停止させるよう検出制御部17に指示し、検出制御部17は該マイク30を停止させる(S58、検出制御ステップ)。
 なお、本実施形態においても、図3のS22の処理を、S48の処理とS56の処理との間、S50の処理とS56の処理との間に行ってもよい。つまり、ノイズ判定部14は、同じマイク30からの検出音について2回連続して変換不能の旨を通知された場合に、該検出音をノイズと判定してもよい。またノイズ判定部14は、2回連続して期待の回答が得られなかった場合に、該検出音をノイズと判定してもよい。
 以上の処理によれば、対話ロボット2は、マイク30の検出音がノイズであるか否かを判定することができる。具体的には、マイク30の検出音が、自機が発した応答(または自発的メッセージ)に対する反応であるか否かの判断に応じて、該検出音がノイズであるか否かを判定する。これにより、対話ロボット2は、検出音がユーザの意図した発話かどうかを判断することができるため、ノイズに対し誤って応答するという誤動作を防止できる。
 また、対話ロボット2は、ノイズの発生方向を特定し、該方向に向けたマイク30を停止させるため、以降のノイズ検出を低減することができる。したがって、検出音としてノイズを検出した場合に実行する判定処理や動作等の、無駄な処理を省略することができる。これにより、対話ロボット2の負荷を低減することができるとともに、無駄な消費電力を削減することができる。よって、対話ロボット2の稼働時間を長くすることができる。
 〔変形例〕
 上記各実施形態では、制御部10は対話ロボット1および2において、記憶部20、マイク30、およびスピーカ40と一体に構成されていた。しかしながら、制御部10と記憶部20、マイク30、およびスピーカ40はそれぞれ別個の装置であってもよい。そして、これらの装置は有線または無線通信で接続されていてもよい。
 例えば、対話ロボット1および2がマイク30およびスピーカ40を備え、対話ロボット1および2と別のサーバが制御部10および記憶部20を備えていてもよい。この場合、対話ロボット1および2はマイク30の検出音をサーバに送信し、サーバからマイク30の音の検出の停止および開始、ならびにスピーカ40の出力に係る指示制御を受けてもよい。
 また、本開示は対話ロボット1および2以外に適用してもよい。例えば、本開示に係る各種構成を、スマートフォン、家電製品、およびパーソナルコンピュータ等において実現してもよい。
 また、対話ロボット1および2は、応答を音声出力以外の方法で示してもよい。例えば、応答文テーブル21に、応答として対話ロボット1および2の所定の動作(ジェスチャ等)を指定する情報を予め記憶しておいてもよい。そして、応答決定部15は該情報で指定される動作を応答として決定し、出力制御部16は対話ロボット1および2のモータ等を制御することで、該動作、すなわち応答をユーザに示してもよい。
 〔ソフトウェアによる実現例〕
 制御部10の制御ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
 後者の場合、制御部10は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
 〔まとめ〕
 本発明の態様1に係る情報処理装置(制御部10)は、発話内容を認識して、該発話内容に対応する応答を出力部(スピーカ40)に出力させる情報処理装置であって、複数のマイク(マイク30)から検出音をそれぞれ区別して取得する音声取得部(音声取得部11)と、上記検出音それぞれについて、該検出音から発話内容を認識できなかった場合、上記検出音がノイズであると判定するノイズ判定部(ノイズ判定部14)と、上記ノイズ判定部により上記検出音がノイズであると判定された場合、上記複数のマイクのうち、1つ以上のマイクによる音の検出を停止させる検出制御部(検出制御部17)と、を備える。
 前記の構成によれば、情報処理装置は、各マイクの検出音がノイズであるか否かを判定することができる。これにより、情報処理装置は、検出音がユーザの意図した発話かどうかを判断することができるため、ノイズに対し誤って応答するという誤動作を防止できる。
 また、前記の構成によれば、情報処理装置は、上記ノイズと判定された検出音を検出したマイクを含む一部のマイクを停止させることができる。したがって、マイクでノイズを検出する可能性を低減しつつも、ノイズを検出していないマイクで、ユーザからの発話音声の検出を引き続き試みることができる。よって、誤動作の防止と、ユーザビリティとを両立させることができる。
 また、ノイズと判定された検出音を検出したマイクを停止させることで、ノイズを検出した場合に実行する判定処理や動作等の、無駄な処理を省略することができる。これにより、自装置にかかる負荷を低減することができるとともに、無駄な消費電力を削減することができる。よって、自装置の稼働時間を長くすることができる。
 本発明の態様2に係る情報処理装置は、前記態様1において、上記音声取得部は、各マイクの検出音を複数回取得し、上記ノイズ判定部は、同じマイクの検出音について、所定の回数連続して発話内容を認識できなかった場合に、上記検出音がノイズであると判定してもよい。
 繰り返し、発話内容が認識できない検出音を検出する場合、該検出音はノイズである可能性が高いといえる。したがって、前記の構成によれば、検出音がノイズであるか否かの判定を精度よく行うことができる。
 本発明の態様3に係る情報処理装置は、前記態様1または2において、上記複数のマイクは指向性を有するマイクであって、上記複数のマイクの検出音から、該検出音の発生方向を特定する方向特定部(方向特定部12)を備え、上記検出制御部は、上記ノイズ判定部がいずれかのマイクの検出音がノイズであると判定した場合、該検出音の発生方向に向いている1つ以上のマイクによる音の検出を停止させてもよい。
 前記の構成によれば、情報処理装置は、ノイズの発生方向を特定し、該方向に向いているマイクを1つ以上停止させる。これにより、以降、マイクでノイズを検出する可能性をさらに低減することができる。
 本発明の態様4に係る情報処理装置は、前記態様1~3のいずれか一態様において、上記ノイズ判定部は、上記検出音から発話内容を認識できた場合であって、上記発話内容が、自装置から応答した内容に対応していない場合に、上記検出音がノイズであると判定してもよい。
 前記の構成によれば、情報処理装置は、マイクの検出音が、自装置の応答に対応している発話内容であるか否かに応じて、該検出音がノイズであるか否かを判定する。これにより、情報処理装置は、検出音がユーザの意図した発話かどうかを判断することができるため、ノイズに対し誤って応答するという誤動作を防止できる。
 本発明の態様5に係る電子機器(対話ロボット1または2)は、態様1~4のいずれか一態様に記載の情報処理装置(制御部10)と、上記マイク(マイク30)と、上記出力部(スピーカ40)と、を備える。前記の構成によれば、前記態様1~4のいずれか一態様に記載の情報処理装置と同様の効果を奏する。
 本発明の態様6に係る、情報処理装置の制御方法は、発話内容を認識して、該発話内容に対応する応答を出力部に出力させる情報処理装置の制御方法であって、複数のマイクから検出音をそれぞれ区別して取得する音声取得ステップ(S10およびS42)と、上記検出音それぞれについて、該検出音から発話内容を認識できなかった場合、上記検出音がノイズであると判定するノイズ判定ステップ(S24およびS56)と、上記ノイズ判定ステップにおいて上記検出音がノイズであると判定された場合、上記複数のマイクのうち、1つ以上のマイクによる音の検出を停止させる検出制御ステップ(S26およびS58)と、を含む。前記の処理によれば、前記態様1に記載の情報処理装置と同様の効果を奏する。
 本発明の各態様に係る情報処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記情報処理装置が備える各部(ソフトウェア要素)として動作させることにより上記情報処理装置をコンピュータにて実現させる情報処理装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
 本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
 1、2 対話ロボット(電子機器)
 10 制御部(情報処理装置)
 11 音声取得部
 12 方向特定部
 13 文字列変換部
 14 ノイズ判定部
 15 応答決定部
 16 出力制御部
 17 検出制御部
 20 記憶部
 21 応答文テーブル
 22 回答文テーブル
 30 マイク
 40 スピーカ(出力部)

Claims (7)

  1.  発話内容を認識して、該発話内容に対応する応答を出力部に出力させる情報処理装置であって、
     複数のマイクから検出音をそれぞれ区別して取得する音声取得部と、
     上記検出音それぞれについて、該検出音から発話内容を認識できなかった場合、上記検出音がノイズであると判定するノイズ判定部と、
     上記ノイズ判定部により上記検出音がノイズであると判定された場合、上記複数のマイクのうち、1つ以上のマイクによる音の検出を停止させる検出制御部と、を備えることを特徴とする、情報処理装置。
  2.  上記音声取得部は各マイクの検出音を複数回取得し、
     上記ノイズ判定部は、同じマイクの検出音について、所定の回数連続して発話内容を認識できなかった場合に、上記検出音がノイズであると判定することを特徴とする、請求項1に記載の情報処理装置。
  3.  上記複数のマイクは指向性を有するマイクであって、
     上記複数のマイクの検出音から、該検出音の発生方向を特定する方向特定部を備え、
     上記検出制御部は、上記ノイズ判定部がいずれかのマイクの検出音がノイズであると判定した場合、該検出音の発生方向に向いている1つ以上のマイクによる音の検出を停止させることを特徴とする、請求項1または2に記載の情報処理装置。
  4.  上記ノイズ判定部は、上記検出音から発話内容を認識できた場合であって、上記発話内容が、自装置から応答した内容に対応していない場合に、上記検出音がノイズであると判定することを特徴とする、請求項1~3のいずれか1項に記載の情報処理装置。
  5.  請求項1~4のいずれか1項に記載の情報処理装置と、
     上記マイクと、
     上記出力部と、を備えることを特徴とする、電子機器。
  6.  発話内容を認識して、該発話内容に対応する応答を出力部に出力させる情報処理装置の制御方法であって、
     複数のマイクから検出音をそれぞれ区別して取得する音声取得ステップと、
     上記検出音それぞれについて、該検出音から発話内容を認識できなかった場合、上記検出音がノイズであると判定するノイズ判定ステップと、
     上記ノイズ判定ステップにおいて上記検出音がノイズであると判定された場合、上記複数のマイクのうち、1つ以上のマイクによる音の検出を停止させる検出制御ステップと、を含むことを特徴とする、情報処理装置の制御方法。
  7.  請求項1に記載の情報処理装置としてコンピュータを機能させるための制御プログラムであって、上記音声取得部、上記ノイズ判定部、および上記検出制御部としてコンピュータを機能させるための制御プログラム。
PCT/JP2018/012384 2017-05-11 2018-03-27 情報処理装置、電子機器、制御方法、および制御プログラム WO2018207483A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019517487A JPWO2018207483A1 (ja) 2017-05-11 2018-03-27 情報処理装置、電子機器、制御方法、および制御プログラム
US16/610,252 US20200058319A1 (en) 2017-05-11 2018-03-27 Information processing device, electronic apparatus, control method, and storage medium
CN201880030304.9A CN110612569A (zh) 2017-05-11 2018-03-27 信息处理装置、电子设备、控制方法及控制程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017094942 2017-05-11
JP2017-094942 2017-05-11

Publications (1)

Publication Number Publication Date
WO2018207483A1 true WO2018207483A1 (ja) 2018-11-15

Family

ID=64102760

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/012384 WO2018207483A1 (ja) 2017-05-11 2018-03-27 情報処理装置、電子機器、制御方法、および制御プログラム

Country Status (4)

Country Link
US (1) US20200058319A1 (ja)
JP (1) JPWO2018207483A1 (ja)
CN (1) CN110612569A (ja)
WO (1) WO2018207483A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0792988A (ja) * 1993-09-27 1995-04-07 Matsushita Electric Ind Co Ltd 音声検出装置と映像切り替え装置
JP2014203024A (ja) * 2013-04-09 2014-10-27 コニカミノルタ株式会社 制御装置、画像形成装置、端末装置、制御方法、および制御プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100392723C (zh) * 2002-12-11 2008-06-04 索夫塔马克斯公司 在稳定性约束下使用独立分量分析的语音处理系统和方法
JP4048492B2 (ja) * 2003-07-03 2008-02-20 ソニー株式会社 音声対話装置及び方法並びにロボット装置
JP5431282B2 (ja) * 2010-09-28 2014-03-05 株式会社東芝 音声対話装置、方法、プログラム
US10229697B2 (en) * 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals
US9245527B2 (en) * 2013-10-11 2016-01-26 Apple Inc. Speech recognition wake-up of a handheld portable electronic device
KR101643560B1 (ko) * 2014-12-17 2016-08-10 현대자동차주식회사 음성 인식 장치, 그를 가지는 차량 및 그 방법
JP6582514B2 (ja) * 2015-04-23 2019-10-02 富士通株式会社 コンテンツ再生装置、コンテンツ再生プログラム及びコンテンツ再生方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0792988A (ja) * 1993-09-27 1995-04-07 Matsushita Electric Ind Co Ltd 音声検出装置と映像切り替え装置
JP2014203024A (ja) * 2013-04-09 2014-10-27 コニカミノルタ株式会社 制御装置、画像形成装置、端末装置、制御方法、および制御プログラム

Also Published As

Publication number Publication date
CN110612569A (zh) 2019-12-24
US20200058319A1 (en) 2020-02-20
JPWO2018207483A1 (ja) 2020-01-23

Similar Documents

Publication Publication Date Title
JP5996603B2 (ja) サーバ、発話制御方法、発話装置、発話システムおよびプログラム
KR20190075800A (ko) 지능형 개인 보조 인터페이스 시스템
US11514905B2 (en) Information processing apparatus and information processing method
CN108735207B (zh) 声音对话系统、声音对话方法及计算机可读存储介质
JP2015011170A (ja) ローカルな音声認識を行なう音声認識クライアント装置
JP6636303B2 (ja) 対話装置、対話機器、対話装置の制御方法、制御プログラム、および記録媒体
JP2016080750A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
EP3769303B1 (en) Modifying spoken commands
JP2018109663A (ja) 音声処理装置、対話システム、端末装置、プログラム及び音声処理方法
WO2018135276A1 (ja) 言動制御装置、ロボット、制御プログラムおよび言動制御装置の制御方法
US10896677B2 (en) Voice interaction system that generates interjection words
JP7133969B2 (ja) 音声入力装置、及び遠隔対話システム
JP6559417B2 (ja) 情報処理装置、情報処理方法、対話システム、および制御プログラム
WO2018207483A1 (ja) 情報処理装置、電子機器、制御方法、および制御プログラム
US20220122600A1 (en) Information processing device and information processing method
JP6265670B2 (ja) 情報処理装置、サーバ、および、制御プログラム
WO2016043182A1 (ja) 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム
JP7303091B2 (ja) 制御装置、電子機器、制御装置の制御方法および制御プログラム
US11367436B2 (en) Communication apparatuses
JP2019164286A (ja) 音声入力装置、及び遠隔対話システム
TWI718513B (zh) 電子裝置與語音辨識切換方法
JP5973030B2 (ja) 音声認識システム、および音声処理装置
WO2019221001A1 (ja) 処理システム、プログラム
JP2021152589A (ja) 電子機器の制御装置、制御プログラム、制御方法、電子機器
KR20220037299A (ko) 전자 장치 및 그 제어 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18798082

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019517487

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18798082

Country of ref document: EP

Kind code of ref document: A1