WO2019181218A1 - 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム - Google Patents

情報処理装置、情報処理システム、および情報処理方法、並びにプログラム Download PDF

Info

Publication number
WO2019181218A1
WO2019181218A1 PCT/JP2019/003032 JP2019003032W WO2019181218A1 WO 2019181218 A1 WO2019181218 A1 WO 2019181218A1 JP 2019003032 W JP2019003032 W JP 2019003032W WO 2019181218 A1 WO2019181218 A1 WO 2019181218A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound source
source direction
user
unit
speech
Prior art date
Application number
PCT/JP2019/003032
Other languages
English (en)
French (fr)
Inventor
山田 敬一
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/979,766 priority Critical patent/US20210020179A1/en
Publication of WO2019181218A1 publication Critical patent/WO2019181218A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Definitions

  • the present disclosure relates to an information processing apparatus, an information processing system, an information processing method, and a program. More specifically, the present invention relates to an information processing apparatus, an information processing system, an information processing method, and a program that perform voice recognition of user utterances and perform various processes and responses based on recognition results.
  • the weather information is acquired from the weather information providing server, a system response based on the acquired information is generated, and the generated response is output from the speaker.
  • System utterance “Tomorrow's weather is sunny. However, there may be a thunderstorm in the evening.”
  • the voice recognition device outputs such a system utterance.
  • noise reduction is performed using beam forming processing that selects only sound in a specific direction, echo cancellation processing that identifies echo sound and reduces echo sound, etc. It is possible to reduce the degradation of recognition performance to some extent by performing voice recognition by inputting.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 2014-153663
  • Patent Document 1 Japanese Patent Application Laid-Open No. 2014-153663
  • Some voice recognition devices have a configuration that does not perform voice recognition of all user utterances and starts voice recognition in response to detection of a predefined “activation word” such as a call to the device. is there.
  • the speech recognition apparatus starts speech recognition of the user utterance.
  • the user needs to utter the activation word in advance in addition to the utterance corresponding to the original user request.
  • the voice recognition device starts voice recognition after inputting the activation word, but after a certain period of time has elapsed, the voice recognition function is turned off (sleep mode). Therefore, the user needs to utter the activation word every time the voice recognition function is turned off. There is also a problem that the voice recognition function cannot be used if the user does not know or forgets the activation word.
  • An object of the present invention is to provide an information processing apparatus, an information processing system, an information processing method, and a program that realize highly accurate speech recognition.
  • the first aspect of the present disclosure is: A speech processing unit that performs speech recognition processing for user utterances;
  • the sound processing unit is a sound source direction / speech section determining unit that determines a sound source direction and a speech section of the user utterance;
  • a voice recognition unit that performs voice recognition processing on the voice data of the sound source direction and voice section determined by the sound source direction / speech section determination unit;
  • the sound source direction / speech section determining unit The information processing apparatus executes a determination process of a sound source direction and a voice section for the user utterance on condition that it is determined that the user who has performed the user utterance is looking at a specific area defined in advance.
  • the second aspect of the present disclosure is: An information processing system having a user terminal and a data processing server,
  • the user terminal is A voice input unit for inputting user utterances;
  • An image input unit for inputting a user image;
  • the data processing server A speech processing unit that performs speech recognition processing on the user utterance received from the user terminal;
  • the sound processing unit is a sound source direction / speech section determining unit that determines a sound source direction and a speech section of the user utterance;
  • a voice recognition unit that performs voice recognition processing on the voice data of the sound source direction and voice section determined by the sound source direction / speech section determination unit;
  • the sound source direction / speech section determining unit The information processing system executes a determination process of a sound source direction and a voice section for the user utterance on condition that it is determined that the user who has executed the user utterance is looking at a specific area defined in advance.
  • the third aspect of the present disclosure is: An information processing method executed in an information processing apparatus, A sound source direction / speech section determining unit, wherein a sound source direction / speech section determining step for executing a process of determining a sound source direction and a speech section of a user utterance;
  • the voice recognition unit performs a voice recognition step of performing voice recognition processing on the voice data of the sound source direction and the voice section determined by the sound source direction / speech section determination unit,
  • the sound source direction / speech section determining step and the speech recognition step include
  • the information processing method is a step that is executed on the condition that it is determined that the user who executed the user utterance is looking at a specific area defined in advance.
  • the fourth aspect of the present disclosure is: An information processing method executed in an information processing system having a user terminal and a data processing server, In the user terminal, Voice input processing to input user utterance; Execute the image input process to input the user image, In the data processing server, A sound source direction / speech section determining unit, wherein a sound source direction / speech section determining step for executing a process of determining a sound source direction and a speech section of a user utterance; The voice recognition unit performs a voice recognition step of performing voice recognition processing on the voice data of the sound source direction and the voice section determined by the sound source direction / speech section determination unit, The data processing server In the information processing method, the sound source direction / speech section determining step and the speech recognition step are performed on condition that it is determined that the user who has performed the user utterance is looking at a specific area defined in advance.
  • the fifth aspect of the present disclosure is: A program for executing information processing in an information processing apparatus; A sound source direction / speech segment determination step for causing the sound source direction / speech segment determination unit to execute a process of determining a sound source direction and a speech segment of the user utterance; Causing the speech recognition unit to execute a speech recognition step for executing speech recognition processing on the sound source direction and the speech data of the speech interval determined by the sound source direction / speech interval determining unit; The sound source direction / speech section determining step and the speech recognition step, In the program to be executed on condition that it is determined that the user who executed the user utterance is looking at a specific area defined in advance.
  • the program of the present disclosure is a program that can be provided by, for example, a storage medium or a communication medium provided in a computer-readable format to an information processing apparatus or a computer system that can execute various program codes.
  • a program in a computer-readable format, processing corresponding to the program is realized on the information processing apparatus or the computer system.
  • system is a logical set configuration of a plurality of devices, and is not limited to one in which the devices of each configuration are in the same casing.
  • high-accuracy speech recognition processing based on analysis of a sound source direction and a speech section to which an image and sound are applied is realized.
  • the voice processing unit has a voice processing unit that executes voice recognition processing for a user utterance, and the voice processing unit includes a sound source direction / speech section determining unit that determines a sound source direction and a voice section of the user utterance, and a sound source direction.
  • a speech recognition unit that performs speech recognition processing on the sound source direction determined by the speech segment determination unit and the speech data of the speech segment.
  • the sound source direction / speech segment determination unit and the speech recognition unit determine the sound source direction and the speech segment for the user utterance on condition that it is determined that the user who has performed the user utterance is looking at the specific area defined in advance. And execute voice recognition processing.
  • voice recognition processing high-accuracy voice recognition processing based on analysis of a sound source direction and a voice section to which an image and voice are applied is realized. Note that the effects described in the present specification are merely examples and are not limited, and may have additional effects.
  • FIG. 2 is a diagram illustrating a configuration example and a usage example of an information processing device.
  • FIG. 25 is a diagram for describing a specific configuration example of an information processing device.
  • FIG. 25 is a diagram for describing a configuration example of an information processing device. It is a figure explaining the structural example of the image processing part and audio
  • FIG. 25 is a diagram for describing an example hardware configuration of an information processing device.
  • FIG. 1 is a diagram illustrating a processing example of an information processing apparatus 10 that recognizes and responds to a user utterance made by a speaker 1.
  • the information processing apparatus 10 executes processing based on the speech recognition result of the user utterance.
  • the information processing apparatus 10 displays an image indicating weather information and performs the following system response.
  • System response “Tomorrow in Osaka, the afternoon weather is fine, but there may be a shower in the evening.”
  • the information processing apparatus 10 executes speech synthesis processing (TTS: Text To Speech) to generate and output the system response.
  • TTS Text To Speech
  • the information processing apparatus 10 generates and outputs a response using knowledge data acquired from a storage unit in the apparatus or knowledge data acquired via a network.
  • An information processing apparatus 10 illustrated in FIG. 1 includes a camera 11, a microphone 12, a display unit 13, and a speaker 14, and has a configuration capable of audio input / output and image input / output.
  • the camera 11 is, for example, an omnidirectional camera that can capture an image of approximately 360 ° around.
  • the microphone 12 is configured as a microphone array including a plurality of microphones that can specify the sound source direction.
  • the display unit 13 is an example using a projector-type display unit. However, the display unit 13 may be a display type display unit, or may be configured to output display information to a display unit such as a TV or a PC connected to the information processing device 19.
  • the information processing apparatus 10 illustrated in FIG. 1 is called, for example, a smart speaker or an agent device.
  • the information processing apparatus 10 according to the present disclosure is not limited to the agent device 10 a but may be various device forms such as a smartphone 10 b and a PC 10 c, or a signage device installed in a public place. Is possible.
  • the information processing apparatus 10 recognizes the utterance of the speaker 1 and makes a response based on the user's utterance, and also executes control of the external device 30 such as a television and an air conditioner shown in FIG. 2 according to the user's utterance. For example, when the user utterance is a request such as “change the TV channel to 1” or “set the air conditioner temperature to 20 degrees”, the information processing apparatus 10 determines whether the user utterance is based on the voice recognition result of the user utterance. A control signal (Wi-Fi, infrared light, etc.) is output to the external device 30 to execute control according to the user utterance.
  • Wi-Fi Wi-Fi, infrared light, etc.
  • the information processing apparatus 10 is connected to the server 20 via the network, and can acquire information necessary for generating a response to the user utterance from the server 20. Moreover, it is good also as a structure which makes a server perform a speech recognition process and a semantic analysis process.
  • FIG. 3 is a diagram illustrating a configuration example of the information processing apparatus 10 that recognizes a user utterance and performs processing and a response corresponding to the user utterance.
  • the information processing apparatus 10 includes an input unit 110, an output unit 120, and a data processing unit 130.
  • the data processing unit 130 may be configured in the information processing apparatus 10, but may not be configured in the information processing apparatus 10 and may use a data processing unit of an external server.
  • the information processing apparatus 10 transmits the input data input from the input unit 110 to the server via the network, receives the processing result of the data processing unit 130 of the server, and outputs the output unit 120. Output via.
  • the input unit 110 includes an image input unit (camera) 111 and an audio input unit (microphone) 112.
  • the output unit 120 includes an audio output unit (speaker) 121 and an image output unit (display unit) 122.
  • the information processing apparatus 10 has at least these components.
  • the image input unit (camera) 111 corresponds to the camera 11 of the information processing apparatus 10 illustrated in FIG. For example, it is an omnidirectional camera that can capture an image of approximately 360 ° around.
  • the voice input unit (microphone) 112 corresponds to the microphone 12 of the information processing apparatus 10 illustrated in FIG.
  • the voice input unit (microphone) 112 is configured as a microphone array including a plurality of microphones that can specify the sound source direction.
  • the audio output unit (speaker) 121 corresponds to the speaker 14 of the information processing apparatus 10 illustrated in FIG.
  • the image output unit (display unit) 122 corresponds to the display unit 13 of the information processing apparatus 10 illustrated in FIG.
  • it can be configured by a projector or the like, and can also be configured using a television display unit of an external device.
  • the data processing unit 130 is configured in either the information processing apparatus 10 or a server that can communicate with the information processing apparatus 10.
  • the data processing unit 130 includes an input data processing unit 140, an output information generation unit 180, and a storage unit 190.
  • the input data processing unit 140 includes an image processing unit 150 and an audio processing unit 160.
  • the output information generation unit 180 includes an output audio generation unit 181 and a display information generation unit 182.
  • the user's uttered voice is input to a voice input unit 112 such as a microphone.
  • the voice input unit (microphone) 112 inputs the input user uttered voice to the voice processing unit 160.
  • the configuration and processing of the image processing unit 150 and the audio processing unit 160 will be described in detail later with reference to FIG.
  • the speech processing unit 160 has, for example, an ASR (Automatic Speech Recognition) function, and converts speech data into text data composed of a plurality of words. Furthermore, an utterance semantic analysis process is performed on the text data.
  • the speech processing unit 160 has a natural language understanding function such as NLU (Natural Language Understanding), for example, and the intention (intent) of a user utterance from text data and a meaningful element (significant element) included in the utterance ) Which is entity information (entity: Entity).
  • NLU Natural Language Understanding
  • the information processing apparatus 10 can perform an accurate process on the user utterance. For example, in the above example, tomorrow's afternoon weather in Osaka can be obtained and output as a response.
  • the user utterance analysis information acquired by the voice processing unit 160 is stored in the storage unit 190 and output to the output information generation unit 180.
  • the image input unit 111 captures an image of the talking user and the surrounding image and inputs the captured image to the image processing unit 150.
  • the image processing unit 150 analyzes the facial expression of the uttering user, the user's behavior, the line-of-sight information, the surrounding information of the uttering user, and the like, and stores the analysis result in the storage unit 190 and outputs it to the output information generation unit 180. To do. As described above, the detailed configuration and processing of the image processing unit 150 and the audio processing unit 160 will be described later with reference to FIG.
  • the storage unit 190 stores contents of user utterances, learning data based on user utterances, display data to be output to the image output unit (display unit) 122, and the like.
  • the output information generation unit 180 includes an output audio generation unit 181 and a display information generation unit 182.
  • the output voice generation unit 181 generates a system utterance for the user based on the user utterance analysis information that is the analysis result of the voice processing unit 160.
  • the response sound information generated by the output sound generation unit 181 is output via the sound output unit 121 such as a speaker.
  • the display information generation unit 182 displays text information related to the system utterance to the user and other presentation information. For example, when a user utters that the user shows a world map, the world map is displayed.
  • the world map can be acquired from a service providing server, for example.
  • FIG. 4 is a diagram illustrating an external configuration example of the information processing apparatus 10.
  • the image input unit (camera) 111 is an omnidirectional camera that can capture an image of approximately 360 ° around.
  • the voice input unit (microphone) 112 is configured as a microphone array including a plurality of microphones that can specify the sound source direction.
  • the audio output unit (speaker) 121 includes a speaker.
  • the image output unit (display unit) 122 is, for example, a projector image projector. However, this is merely an example, and a configuration in which a display unit such as an LCD is set in the information processing apparatus 10 may be configured, or an image display may be performed using a display unit of an external television.
  • the information processing apparatus 10 has a configuration that enables speech recognition under conditions that are difficult to handle when only speech is used by appropriately using various recognition results obtained from images.
  • specific examples (types) of information obtained from sound and information obtained from images are as follows.
  • (A) Information obtained from voice (a1) Voice section information (information consisting of start time and end time of voice section) (A2) Sound source direction estimation information (V) Information obtained from an image (v1) Face area information (v2) Face identification information (v3) Face direction estimation information (v4) Gaze direction estimation information (v5) Voice segment detection by lip movement information
  • FIG. 5 is a block diagram illustrating the detailed configuration of the image processing unit 150 and the audio processing unit 160.
  • the image processing unit 150 illustrated in FIG. 5 inputs a camera captured image from the image input unit 111.
  • the input image is a moving image.
  • the voice processing unit 160 illustrated in FIG. 5 inputs voice information from the voice input unit 112.
  • the audio input unit 112 is a microphone array including a plurality of microphones that can specify the sound source direction.
  • the voice input unit 112 inputs microphone acquisition sound from each microphone constituting the microphone array.
  • the acquired sound of the voice input unit 112 of the voice processing unit 160 is acquired sound of a plurality of microphones arranged at a plurality of different positions.
  • the sound source direction estimation unit 161 estimates the sound source direction based on the acquired sounds of the plurality of microphones.
  • a microphone array 201 composed of a plurality of microphones 1 to 4 arranged at different positions acquires sound from a sound source 202 in a specific direction.
  • the arrival time of the sound from the sound source 202 with respect to each microphone of the microphone array 201 is slightly shifted.
  • the sound that reaches the microphone 1 at time t6 reaches the microphone 4 at time t7.
  • each microphone acquires a sound signal having a phase difference according to the sound source direction.
  • This phase difference differs depending on the sound source direction, and the sound source direction can be obtained by analyzing the phase difference of the audio signal acquired by each microphone.
  • the sound source direction is indicated by an angle ⁇ formed with a vertical line 203 with respect to the microphone array direction of the microphone array as shown in FIG. That is, the angle ⁇ with respect to the vertical direction line 203 shown in FIG.
  • the sound source direction estimation unit 161 of the sound processing unit 160 is thus based on the acquired sounds of a plurality of microphones arranged at different positions that are input via the sound input unit 112 that inputs sound from the microphone array. To estimate the sound source direction.
  • the speech section detection unit 162 of the speech processing unit 160 shown in FIG. 5 determines the speech start time and speech end time from the specific sound source direction estimated by the sound source direction estimation unit 161.
  • each microphone is configured to acquire a delay corresponding to the phase difference for each input sound from a specific sound source direction having a phase difference acquired by a plurality of microphones constituting the microphone array. The process of summing up each observation signal with the phase of the sound aligned.
  • This process executes the target sound enhancement process. That is, only the sound in the direction of the specific sound source is emphasized by this observation signal summation process, and the sound level of other ambient environmental sounds can be reduced.
  • the voice section detection unit 162 uses the sum signal of the observation signals of the plurality of microphones as described above to determine the voice level rising position as the voice section start time, and uses the voice level falling position as the voice section end time. Performs voice segment determination processing.
  • analysis data as illustrated in FIG. 7 can be acquired.
  • the sound source direction ( ⁇ ) is an angle ( ⁇ ) formed with a vertical line with respect to the microphone array direction of the microphone array, as described with reference to FIG.
  • the voice section is information indicating a start time and an end time of a voice utterance section from the sound source direction.
  • the voice start time indicating the start of utterance is 5.34 sec.
  • the voice end time indicating the end of utterance is 6.80 sec. It is.
  • the measurement start time is set to 0.
  • Voice recognition processing using only voice signals has been used conventionally. That is, there is a conventional system that executes a voice recognition process using only the voice processing unit 160 without using the image processing unit 150 shown in FIG. Before describing the speech recognition processing using the image processing unit 150 which is one of the features of the configuration of the present disclosure, first, a general speech recognition processing sequence using only the speech processing unit 160 will be described with reference to FIG. This will be described with reference to the flowchart shown.
  • step S101 the sound source direction is estimated.
  • This process is a process executed in the sound source direction estimation unit 161 shown in FIG. 5, for example, a process executed according to the process described above with reference to FIG.
  • step S102 a speech section is detected.
  • This process is a process executed by the speech segment detection unit 162 shown in FIG.
  • the speech section detection unit 162 gives a delay corresponding to the phase difference to each of the input sounds from the specific sound source direction having the phase difference acquired by the plurality of microphones constituting the microphone array.
  • processing for summing up the respective observation signals is performed by aligning the phases of the acquired sounds of the respective microphones.
  • an emphasis signal of the target sound is acquired, a voice position determination process is performed in which the rising position of the voice level of the enhancement signal is determined as the voice section start time, and the falling position of the voice level is the voice section end time.
  • step S103 a sound source waveform is extracted.
  • This process is the process of the sound source extraction unit 164 shown in FIG.
  • the flow shown in FIG. 6 is an example of speech recognition processing using only sound, and the processing of the sound source direction / speech section determining unit 163 using the input signal from the image processing unit 150 shown in FIG. 3 is omitted. It is.
  • the sound source extraction unit 164 of the audio processing unit 160 shown in FIG. 5 performs the sound source direction estimated by the sound source direction estimation unit 161 of the audio processing unit 160 shown in FIG.
  • the sound source extraction process is executed using only the voice section information detected by 162.
  • the sound source extraction unit 164 executes the sound source waveform extraction process in step S103 shown in FIG.
  • This sound source waveform is a process of analyzing a change in frequency level or the like with an audio signal selected based on the sound source direction estimated by the sound source direction estimating unit 161 and the audio section information detected by the audio section detecting unit 162 being analyzed. Yes, this is a process conventionally performed in the voice recognition process.
  • step S104 voice recognition processing is executed.
  • This process is a process executed in the voice recognition unit 135 shown in FIG.
  • the voice recognition unit 135 has dictionary data in which frequency change patterns in various utterances registered in advance are registered.
  • the voice recognition unit 135 uses this dictionary data, collates the frequency change pattern of the acquired sound analyzed by the sound source extraction unit 164 based on the acquired sound with the dictionary data, and selects dictionary registration data having a high degree of coincidence.
  • the voice recognition unit 165 determines words registered in the selected dictionary data as utterance contents.
  • the voice data is converted into text data composed of a plurality of words by the ASR function. Further, an utterance semantic analysis process is performed on the text data, and the intention (intent) of the user utterance from the text data, and entity information (entity: Entity) that is a meaningful element (significant element) included in the utterance Is estimated.
  • entity information entity: Entity
  • the sequence in the case of performing voice recognition using only the voice acquired using the microphone is almost the process according to the flow shown in FIG.
  • processing using only speech there is a limit to the accuracy of sound source direction determination and speech segment analysis.
  • the level of noise (environmental sound) other than the target sound is high, there is a problem that the sound source direction and the accuracy of determining the speech section are lowered, and as a result, sufficient speech recognition processing cannot be performed.
  • the configuration of the present disclosure includes an image processing unit 150 as illustrated in FIG. 5, and information acquired by the image processing unit 150 is used as a sound source direction / sound section determination unit in the sound processing unit 160. It is set as the structure output to H.163.
  • the sound source direction / speech section determination unit 163 adds the analysis information of the image processing unit 150 in addition to the sound source direction information estimated by the sound source direction estimation unit 161 of the sound processing unit 160 and the sound section information detected by the sound section detection unit 162. Utilizing this, processing for determining the sound source direction and the voice section is performed. As described above, in the speech recognition device according to the present disclosure, it is possible to determine the sound source direction and the voice section with high accuracy by determining the sound source direction and the voice section using the image analysis result as well as the voice. As a result, highly accurate speech recognition is realized.
  • the image processing unit 150 in the speech recognition device of the present disclosure inputs a camera captured image of the image input unit (camera) 111 and outputs the input image to the face area detection unit 151.
  • the image input unit (camera) 111 captures a moving image and sequentially outputs consecutively captured image frames.
  • the face area detection unit 151 shown in FIG. 5 detects a human face area from each image frame of the input image. This area detection process is a process that can be executed using existing technology.
  • the face area detection unit 151 holds face pattern information including shape data and luminance data indicating facial features registered in advance.
  • the face area detection unit 151 detects a face area in the image by executing a process of detecting an area similar to the registered pattern from the image area in the image frame using the face pattern information as reference information.
  • the face area detection information of the face area detection unit 151 is input to the face identification unit 152, the face direction estimation unit 153, and the lip region detection unit 155 together with the image information of each image frame.
  • the face identifying unit 152 identifies who the face included in the face region in the image frame detected by the face region detecting unit 151 is.
  • the face identification unit 152 compares the registered information of the user information DB 152b storing the face image information of each user with the photographed image information, and identifies who the face in the face area in the image frame is. Face identification information 171 generated by the face identification unit 152 and indicating who the face is is output to the output information generation unit 180.
  • the face direction estimation unit 153 determines which direction the face included in the face region in the image frame detected by the face region detection unit 151 is facing.
  • the face direction estimation unit 153 determines the position of each part of the face, such as the position of the eyes and the mouth, from the face area detected by the face area detection unit 151, and based on the positional relationship between these face parts, Estimate the direction that is facing. Further, the face direction estimation information estimated by the face direction estimation unit 153 is output to the gaze direction estimation unit 154.
  • the gaze direction estimation unit 154 estimates the gaze direction of the face included in the face area based on the face direction estimation information estimated by the face direction estimation unit 153.
  • At least one of the face direction information estimated by the face direction estimation unit 153 and / or the gaze direction information estimated by the gaze direction estimation unit 154, or the face / gaze direction information 172 including both of the information is the sound source direction / speech section determination unit. It is output to 163.
  • the line-of-sight direction estimation unit 154 may be omitted, and only face direction information may be generated and output to the sound source direction / speech section determination unit 163. Alternatively, only the line-of-sight direction information generated by the line-of-sight direction estimation unit 154 may be output to the sound source direction / speech section determination unit 163.
  • the lip area detection unit 155 detects a mouth area in the face included in the face area in each image frame detected by the face area detection unit 151, that is, a lip area. For example, an area similar to the registered pattern is detected as a lip area from the face area in the image frame detected by the face area detection unit 151 using the lip shape pattern registered in the memory in advance as reference information.
  • the lip area information detected by the lip area detection unit 155 is output to the lip motion-based audio section detection unit 156.
  • the lip motion-based audio section detection unit 156 estimates the utterance section based on the movement of the lip area. That is, based on the movement of the mouth, the time when the utterance is started (voice section start time) and the time when the utterance is ended (voice section end time) are determined. This determination information is output to the sound source direction / speech segment determination unit 163 as lip motion-based speech segment detection information 173.
  • Patent Document 2 Japanese Patent Laid-Open No. 2012-003326
  • the processing described in Japanese Unexamined Patent Application Publication No. 2012-003326) is performed to determine the speech section.
  • FIG. 9 is a process executed by the voice recognition apparatus having the image processing unit 150 and the voice processing unit 160 shown in FIG. Note that this processing can be executed by reading a program recording a processing sequence according to the flow shown in FIG. 12 from the memory under the control of a data processing unit including a CPU having a program execution function, for example. .
  • Step S201 face detection and face identification processing from a camera-captured image input from the image input unit 111 is executed.
  • This process is a process executed by the face area detection unit 151 and the face identification unit 152 of the image processing unit 150 shown in FIG.
  • the face area detection unit 151 detects a face area in the image based on face pattern information including shape data and luminance data indicating facial features registered in advance.
  • the face identification unit 152 compares the registered information of the user information DB 152b storing the face image information of each user with the photographed image information, and identifies who the face in the face area in the image frame is.
  • face identification processing is executed in units of the plurality of face regions.
  • step S202 it is determined whether the face detection and face identification processing from the camera-captured image in step S201 has succeeded. If the face identification process is successful and it is possible to identify the face of the face area included in the camera-captured image, the process proceeds to step S203. On the other hand, if the face identification process fails and the face of the face area included in the camera-captured image cannot be identified, the process returns to the start. When a plurality of face regions are included in the camera-captured image input from the image input unit 111, it is determined that success is achieved when even one face is successfully identified.
  • Step S203 If it is determined in step S202 that the face identification process has succeeded and the face of the face area included in the camera-captured image has been identified, the process proceeds to step S203.
  • step S ⁇ b> 203 the identified user-corresponding character image for each user is displayed on the display unit via the image output unit 122.
  • This processing is executed by outputting face identification information 171 that is output information of the face identification unit 152 shown in FIG. 5 to the output information generation unit 180.
  • the display information generation unit 182 of the output information generation unit 180 displays the specified user-corresponding character image for each user on the display unit via the image output unit 122.
  • FIG. 10 shows a display image (projection image) 250 displayed by the image output unit 122 of the information processing apparatus 10.
  • FIG. 10 shows display images in the following states. (1) Initial state (2) Execution state of processing in step S203 (3) Execution state of processing in step S213
  • the character image 251 is displayed.
  • the character image 251 is an image of a character associated with the identified user 252 identified from the camera photographed image. This character association process can be executed in advance by the user.
  • the information processing apparatus may be configured to automatically register a plurality of character images stored in advance in association with each identified user. The registration information is held in the storage unit 190 of the information processing apparatus 10.
  • the identified user 252 shown in the figure knows that he / she has been detected by the information processing apparatus 10 and has been identified by the fact that the character image 251 associated with him / her is displayed on the display image. Can do. 10 is performed under the control of the display information generation unit 182 of the output information generation unit 180. (3) The image in the execution state of the process in step S213 will be described later.
  • the display image is not limited to a character image, and may be a user-specific image that can be identified as a user-corresponding image.
  • step S211 the face direction or the line-of-sight direction is estimated.
  • This process is a process executed by the face direction estimation unit 153 and the gaze direction estimation unit 154 of the image processing unit 150 shown in FIG. 5, and corresponds to the generation process of the face / gaze direction information 172 shown in FIG.
  • the face direction estimation unit 153 and the gaze direction estimation unit 154 determine the face direction based on the positional relationship of the face parts included in the face area, and determine the face direction direction as the gaze direction.
  • Face / line-of-sight direction information 172 including at least one of the face direction and the line-of-sight direction generated by these determination processes is output to the sound source direction / speech section determining unit 163.
  • Step S212 When the estimation of the face direction or line-of-sight direction in step S211 is completed, it is next determined in step S212 whether the user's face or line-of-sight direction is facing the displayed character image display area.
  • step S213 If the user's face or line-of-sight direction faces the character image display area in the display image, the process proceeds to step S213. On the other hand, when the user's face or line-of-sight direction does not face the character image display area of the display image, the process returns to the start.
  • Step S213 In step S212, if the user's face or line-of-sight direction is facing the character image display area of the display image, the process proceeds to step S213. In step S213, processing for changing the display mode of the character image in the display image is performed. This process is performed under the control of the display information generation unit 182 of the output information generation unit 180.
  • the image shown in FIG. 10 (3) is an image corresponding to the execution state of the process in step S213.
  • a circle is added around the image in which the display mode of the character image 251 shown in FIG. 10 (2) is changed, that is, around the character image.
  • This is an image that indicates to the identified user 252 that the character image and the user can interact with each other, and is an interaction-permitted character image 253.
  • the identification user 252 knows that the display of the character image 251 shown in FIG. 10 (2) has been changed to the dialog-allowable state character image 253 shown in FIG. be able to. Specifically, this display change is executed in synchronization with the completion of the transition to a state where the speech recognition process can be executed in the information processing apparatus 10.
  • Step S221 Next, the process of step S221 in the flow shown in FIG. 9 will be described.
  • step S221 the sound source direction and the voice section are detected based on the lip movement. This process corresponds to the generation process of the lip movement-based sound section detection information 173 executed by the lip movement-based sound section detection unit 156 of the image processing unit 150 shown in FIG.
  • the lip motion-based speech segment detection unit 156 estimates the speech segment based on the movement of the lip region. That is, based on the movement of the mouth, the time when the utterance is started (voice section start time) and the time when the utterance is ended (voice section end time) are determined. This determination information is output to the sound source direction / speech segment determination unit 163 as lip motion-based speech segment detection information 173.
  • the sound source direction is determined based on the face direction of the face image of the user who detected the lip movement, the position of the mouth region, and the like. For example, the direction of the face and the direction of the mouth are determined as the sound source direction.
  • Step S231 the sound source direction and the voice section are detected based on the voice information.
  • This process is a process executed by the sound source direction estimation unit 161 and the voice section detection unit 162 of the voice processing unit 160 shown in FIG. 5, and the sound source based on only the sound described above with reference to FIGS. This corresponds to the direction and voice section detection processing.
  • the sound from the sound source 202 is acquired by the microphone array 201 including the plurality of microphones 1 to 4 arranged at different positions.
  • Each microphone acquires a sound signal having a phase difference according to the sound source direction. This phase difference varies depending on the sound source direction, and the sound source direction is obtained by analyzing the phase difference of the audio signal acquired by each microphone.
  • the voice section detection unit 162 determines a voice start time and a voice end time from a specific sound source direction estimated by the sound source direction estimation unit 161. In this process, a process is performed in which the phases of the acquired sounds of the plurality of microphones constituting the microphone array are aligned and the respective observation signals are summed. The voice section detection unit 162 uses the sum signal of the observation signals of the plurality of microphones as described above to determine the voice level rising position as the voice section start time, and uses the voice level falling position as the voice section end time. Performs voice segment determination processing.
  • Step S241 it is determined whether the sound source direction and the voice section have been determined.
  • This process is a process executed by the sound source direction / speech section determining unit 163 of the sound processing unit 160 shown in FIG.
  • the sound source direction / speech section determination unit 163 performs a determination process as to whether or not the sound source direction and the sound section can be determined when it is confirmed in step S212 that the user is looking at the character image. That is, only when the user is looking at the character image, the sound source direction and the voice section are determined, and then the voice recognition process is performed on the sound of the determined sound source direction and the voice section. When the user is not looking at the character image, the sound source direction and the voice segment determination process are not performed, and the subsequent voice recognition process is not performed.
  • the sound source direction / speech section determination unit 163 detects the sound source direction and the speech section from the lip movement in step S221 and the sound source direction based on the sound in step S231. Using the two detection results, it is determined whether the sound source direction and the voice section can be determined.
  • step S221 the sound source direction and the voice section are detected from the image information (lip motion), but only one of the sound source direction and the voice section may be successfully detected.
  • step S231 the sound source direction and the voice section are detected from the voice information, but only one of the sound source direction and the voice section may be successfully detected.
  • step S241 the sound source direction / voice section determination unit 163 verifies whether the sound source direction and the voice section can be determined by combining the detection results in step S221 and step S231, and determines if it can be determined. .
  • step S221 and step S231 When the sound source direction and the speech section are determined by combining the detection results in step S221 and step S231, the processing according to this flow, that is, the sound source direction and speech section determination processing ends. If it is determined that the sound source direction and the voice section cannot be determined even by combining the detection results in step S221 and step S231, the process returns to the start and the process is repeated.
  • step S241 only when the sound source direction / speech section determination unit 163 determines the sound source direction and the sound section, the sound source extraction process in the sound source extraction unit 164 and the voice recognition process in the speech recognition unit 165 are performed. These processes are executed as a process for the sound of the sound source direction and the sound section determined by the sound source direction / speech section determining unit 163.
  • the sound source extraction unit 164 is a process of analyzing a change in frequency level or the like using the sound source direction determined by the sound source direction / speech section determination unit 163 and the sound signal selected based on the sound section information as an analysis target. This is a conventional process.
  • the voice recognizing unit 135 uses the dictionary data in which the frequency change patterns in various utterances registered in advance are registered, and the frequency change pattern of the acquired sound analyzed by the sound source extracting unit 164 based on the acquired sound. Check the data and select dictionary registration data with a high degree of matching.
  • the voice recognition unit 165 determines words registered in the selected dictionary data as utterance contents.
  • the information processing apparatus 10 of the present disclosure performs the sound source direction / speech section determination processing in the sound source direction / speech section determination unit 163 when it is confirmed that the user is looking at the character image, Voice recognition is performed on the determined sound source direction and the voice in the voice section. That is, the interaction between the user and the information processing apparatus 10 is executed so as to perform an interaction between the user and the character image displayed on the display unit.
  • FIG. 11 shows a display image similar to that described above with reference to FIG.
  • a dialogue allowable state character image 253 viewed by the identified user 252 is displayed.
  • the displayed character image is a character image corresponding to the user that is defined in advance corresponding to the identified user 252.
  • a display mode in the example shown in the figure, a circle is displayed around the character indicating that the user can interact with the character image. ) Is displayed.
  • the identification user 252 sees the dialogue allowable state character image 253, knows that the dialogue between the character image and the user is possible, and executes the utterance. For example, the following user utterance is executed.
  • User utterance "Tell me the weather tomorrow"
  • the information processing apparatus 10 executes a response based on the voice recognition result for the user utterance, for example, processing for displaying weather information obtained by executing the weather information providing application, voice output of the weather information, and the like.
  • the character image displayed on the display unit is a character image associated with each user in advance, and when there are a plurality of registered users, a different character image is associated with each registered user. .
  • FIG. 12 shows a display example when there are a plurality of registered users.
  • FIG. 12 illustrates an example in which there are two users identified by the information processing apparatus 10, an identified user A 261 and an identified user B 271. In this case, a character image corresponding to each user is displayed on the display unit.
  • the example illustrated in FIG. 12 is a state where the identified user A is looking at the character image associated with the user A, and the identified user B is not viewing the character image associated with the user B. .
  • the character image associated with the user A is displayed as the identified user A-corresponding dialogue permission state character image 262.
  • the character image associated with the user B is displayed as the identified user B-corresponding character image 272.
  • the information processing apparatus 10 determines the identified user as the sound source direction, Since the speech recognition is performed by focusing on the sound from the direction of the sound source, it is possible to efficiently eliminate noise from other directions and perform highly accurate speech recognition.
  • the user can interact with the information processing apparatus 10 in the form of interacting with the character image displayed as display information, and can perform a natural conversation in a style close to the real world. .
  • step S241 The sound source direction and the voice section detection processing result from the image information (lip motion) in step S221 and the sound source direction and the voice section detection processing result from the voice information in step S231 can be combined to determine the sound source direction and the voice section. Whether or not it can be determined and, if it can be determined, is determined.
  • step S240 is executed before the process of step S241.
  • the process of step S240 will be described.
  • Step S240 a final sound source direction and speech section determination process used for the speech recognition process is executed. This process is a process executed by the sound source direction / speech section determining unit 163 of the sound processing unit 160 shown in FIG.
  • the sound source direction / speech section determination unit 163 executes sound source direction and sound section determination processing when the following conditions are satisfied.
  • (Condition 1) In step S212, it is confirmed that the user is looking at the character image.
  • (Condition 2) The detection result of the sound source direction and the voice section from the lip movement in step S221, the detection result of the sound source direction and the voice section based on the voice in step S231, and these detection results are input.
  • the sound source direction / speech section determination unit 163 detects the sound source direction and the sound section from the lip movement in step S221, and the sound source direction and sound section based on the sound in step S231. Using these two detection results, the sound source direction and the voice section are determined.
  • this determination process for example, one of two detection results is selected, an intermediate value or an average value of the two detection results is adopted, or a weighted average using a predetermined weight is calculated. Processing is possible. In addition, it is good also as a structure which uses machine learning for this determination process.
  • FIG. 14 shows the following figures.
  • the voice section obtained from the voice shown in FIG. 14 (A) includes the actual voice corresponding to the user's utterance due to the influence of the surrounding environmental sounds (for example, the sound of the television or the sound of the vacuum cleaner). A speech segment longer in time is extracted.
  • the voice section obtained from the image (lip motion) shown in FIG. 14B is included in the voice section obtained from the voice and shorter than the voice section obtained from the voice. It has become. In such a case, shorter speech segment information is selected from the speech-based speech segment detection information and the image-based speech segment information, and this is finally determined as the speech segment (FIG. 14C). To do.
  • FIG. 15 is a diagram illustrating a specific example of the final sound source direction determination process executed in step S240.
  • FIG. 15 shows a photographed image of the image input unit (camera) 111 of the information processing apparatus 10 as FIG. Further, FIG. 15B shows a top view showing the positional relationship between the information processing apparatus 10 and the user as the sound source.
  • the face area is detected from the camera image, and the image processing unit 150 detects the sound source direction based on the image of the face area and the lip area image.
  • a vector indicating the sound source direction obtained by this image analysis processing is a vector V in FIG.
  • the sound source direction estimating unit 161 of the sound processing unit 160 receives from the sound source 202 by the microphone array 201 including a plurality of microphones 1 to 4 arranged at different positions. Get the sound. Each microphone acquires a sound signal having a phase difference according to the sound source direction. This phase difference varies depending on the sound source direction, and the sound source direction is obtained by analyzing the phase difference of the audio signal acquired by each microphone.
  • a vector indicating the sound source direction obtained by the voice analysis processing is a vector A in FIG.
  • the sound source direction obtained from speech depends on the performance of the direction estimation technology using a microphone array, and it is not always sufficient in terms of direction resolution and estimation performance compared to the sound source direction (position information) obtained from an image. It may not be.
  • the example shown in FIG. 15 shows a case where the sound source direction obtained from the sound is slightly incorrect (displaced) in the estimation performance as compared with the sound source direction (position information) obtained from the image.
  • the sound source direction obtained from the image is determined as the final sound source direction.
  • the sound source direction / speech section determining unit 163 of the sound processing unit 160 shown in FIG. The detection result of the sound source direction and the voice section from the lip movement in step S221; The detection result of the sound source direction and the voice section based on the voice in step S231; When these two types of detection results are input, The final sound source direction and voice section are determined by the processing described with reference to FIGS. In step S240 of the flow shown in FIG. 12, such processing is executed.
  • step S240 After the final sound source direction and voice section determination processing in step S240, the process proceeds to step S241.
  • step S241 it is determined whether or not a sound source direction and a speech section have been determined. Only when they are determined, a sound source extraction process in the sound source extraction unit 164 and a speech recognition process in the speech recognition unit 165 are subsequently performed.
  • the sound source extraction unit 164 is a process of analyzing a change in frequency level or the like using the sound source direction determined by the sound source direction / speech section determination unit 163 and the sound signal selected based on the sound section information as an analysis target. This is a conventional process.
  • the voice recognizing unit 135 uses the dictionary data in which the frequency change patterns in various utterances registered in advance are registered, and the frequency change pattern of the acquired sound analyzed by the sound source extracting unit 164 based on the acquired sound. Check the data and select dictionary registration data with a high degree of matching.
  • the voice recognition unit 165 determines words registered in the selected dictionary data as utterance contents.
  • the information processing apparatus 10 of the present disclosure performs the sound source direction / speech section determination processing in the sound source direction / speech section determination unit 163 when it is confirmed that the user is looking at the character image, The voice data corresponding to this decision information is extracted and voice recognition is performed. This process realizes highly accurate speech recognition by selectively extracting user utterances. Furthermore, the interaction between the user and the information processing apparatus 10 is executed so as to perform an interaction between the user and the character image displayed on the display unit.
  • 16 and 17 show time-sequential states at times t1 to t4.
  • the user A301 and the user B302 are identified by the process of the face identifying unit 152 of the image processing unit 150 of the information processing apparatus 10, and the character image corresponding to each user is displayed on the display unit. That is, a state is shown in which a user A-compatible character image 311 and a user B-compatible character image 312 are displayed.
  • user A301 and user B302 have the following conversation.
  • User A's utterance to user B Let's go to a picnic on Sunday tomorrow?
  • User B's utterance to user A weather tomorrow?
  • the user A301 makes the following inquiry to the user A corresponding character image 311 displayed as display information.
  • User A utterance teach tomorrow's weather
  • the device 10 performs voice recognition of the user utterance and performs processing for displaying weather forecast information based on the voice recognition result.
  • the display mode of the character image 311 corresponding to the user A is changed (a circle is drawn around) according to the detection that the user A is looking.
  • User B302 sees the displayed weather forecast information and makes the following utterance to user A301.
  • User B's utterance to user A sorry, is it raining tomorrow?
  • the state at time t3 in FIG. 17 (3) is a state in which the user A301 is talking while looking away from the user A corresponding character image 311 and looking at the user B302.
  • the display mode of the character image 311 corresponding to the user A is changed (the surrounding circle is deleted) in response to detection that the user A is not looking.
  • user A301 and user B302 have the following conversation.
  • User A's utterance to user B So, what about another day?
  • User B's utterance to user A when was it free?
  • the user B302 makes the following inquiry to the user B-corresponding character image 312 displayed as the display information.
  • User B utterance Show the schedule for this month
  • the device 10 performs voice recognition of the user utterance and performs processing for displaying calendar information based on the voice recognition result. Note that the display mode of the user B-corresponding character image 312 is changed (a circle is drawn around) in response to detection that the user B is looking.
  • 16 (1) and 17 (3) are normal conversations between users A and B. At that time, each user speaks without looking at the character image. Yes. In this case, the information processing apparatus 10 does not set these user utterances as speech recognition targets. That is, in these states, for example, the determination in step S212 in the flow of FIG. 9 is No, the sound source direction and voice segment determination processing is not executed, and the subsequent voice recognition processing is not executed.
  • the information processing apparatus 10 Speech recognition is performed as a speech recognition target, and processing corresponding to the recognition result is executed.
  • the determination in step S212 in the flow of FIG. 9 is Yes, and the sound source direction and speech section determination processing is executed, and the subsequent speech recognition processing is executed.
  • the embodiment in which the information processing apparatus performs voice recognition only when the user is looking at the character image area associated with the user has been described. It is good also as such a setting. (1) When the user is looking at any region of the entire display image region, the information processing apparatus 10 performs voice recognition. (2) When the user is looking at any area of the entire display area or the information processing apparatus 10, the information processing apparatus 10 performs voice recognition.
  • this setting may be configured to be switched in units of applications executed in the information processing apparatus 10, or may be configured to be freely set by the user.
  • FIG. 18 shows a system configuration example.
  • Information processing system configuration example 1 has almost all the functions of the information processing apparatus shown in FIG. 3 as one apparatus, for example, a smartphone or PC owned by the user, or voice input / output and image input / output functions.
  • the information processing apparatus 410 is a user terminal such as an agent device.
  • the information processing apparatus 410 corresponding to the user terminal executes communication with the service providing server 420 only when an external service is used when generating a response sentence, for example.
  • the service providing server 420 is, for example, a music providing server, a content providing server such as a movie, a game server, a weather information providing server, a traffic information providing server, a medical information providing server, a tourism information providing server, etc. And a server group capable of providing information necessary for generating a response.
  • FIG. 18 (2) information processing system configuration example 2 includes a part of the functions of the information processing apparatus shown in FIG. This is an example of a system that is configured and configured to be executed by a data processing server 460 that can partially communicate with an information processing apparatus.
  • FIG. 19 is an example of the hardware configuration of the information processing apparatus described above with reference to FIG. 3, and constitutes the data processing server 460 described with reference to FIG. It is an example of the hardware constitutions of information processing apparatus.
  • a CPU (Central Processing Unit) 501 functions as a control unit or a data processing unit that executes various processes according to a program stored in a ROM (Read Only Memory) 502 or a storage unit 508. For example, processing according to the sequence described in the above-described embodiment is executed.
  • a RAM (Random Access Memory) 503 stores programs executed by the CPU 501 and data.
  • the CPU 501, ROM 502, and RAM 503 are connected to each other by a bus 504.
  • the CPU 501 is connected to an input / output interface 505 via a bus 504.
  • An input unit 506 including various switches, a keyboard, a mouse, a microphone, and a sensor, and an output unit 507 including a display and a speaker are connected to the input / output interface 505.
  • the CPU 501 executes various processes in response to a command input from the input unit 506 and outputs a processing result to the output unit 507, for example.
  • the storage unit 508 connected to the input / output interface 505 includes, for example, a hard disk and stores programs executed by the CPU 501 and various data.
  • a communication unit 509 functions as a transmission / reception unit for Wi-Fi communication, Bluetooth (BT) communication, and other data communication via a network such as the Internet or a local area network, and communicates with an external device.
  • BT Bluetooth
  • the drive 510 connected to the input / output interface 505 drives a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card, and executes data recording or reading.
  • a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card
  • the technology disclosed in this specification can take the following configurations. (1) having a speech processing unit for executing speech recognition processing for user utterances;
  • the sound processing unit is a sound source direction / speech section determining unit that determines a sound source direction and a speech section of the user utterance;
  • a voice recognition unit that performs voice recognition processing on the voice data of the sound source direction and voice section determined by the sound source direction / speech section determination unit;
  • the sound source direction / speech section determining unit An information processing apparatus that executes a sound source direction and voice segment determination process for a user utterance on the condition that the user who executed the user utterance is determined to be viewing a specific area defined in advance.
  • the voice recognition unit The information processing apparatus according to (1), wherein a speech recognition process for the user utterance is executed on condition that the user who executed the user utterance is determined to be viewing the specific area.
  • the information processing apparatus includes an image processing unit that inputs an image captured by a camera and determines whether the user is viewing the specific area based on the input image.
  • the information processing apparatus An image processing unit that inputs a camera-captured image and executes a user identification process included in the captured image based on the input image;
  • the information processing apparatus according to any one of (1) to (3), further including a display information generation unit that displays a user-corresponding image identified by the image processing unit in the specific area.
  • the display information generation unit The information processing apparatus according to (4), wherein the user-corresponding image displayed in the specific area is changed according to whether or not the user is viewing the specific area.
  • the specific area is: The information processing apparatus according to any one of (1) to (5), which is a character image area included in an output image of the information processing apparatus.
  • the specific area is: The information processing apparatus according to any one of (1) to (5), which is an image area of an output image of the information processing apparatus.
  • the specific area is: The information processing apparatus according to any one of (1) to (5), which is an apparatus area of the information processing apparatus.
  • the sound source direction / speech section determining unit Detection result of sound source direction and voice section based on input voice The information processing apparatus according to any one of (1) to (9), wherein two detection results of a sound source direction and a voice section detection result based on an input image are input to determine a sound source direction and a voice section of the user utterance.
  • the detection result of the sound source direction and the voice section based on the input image is information obtained from the analysis result of the user's face direction and lip movement included in the camera-captured image, as described in (10) or (10) Information processing device.
  • An information processing system having a user terminal and a data processing server,
  • the user terminal is A voice input unit for inputting user utterances;
  • An image input unit for inputting a user image;
  • the data processing server A speech processing unit that performs speech recognition processing on the user utterance received from the user terminal;
  • the sound processing unit is a sound source direction / speech section determining unit that determines a sound source direction and a speech section of the user utterance;
  • a voice recognition unit that performs voice recognition processing on the voice data of the sound source direction and voice section determined by the sound source direction / speech section determination unit;
  • the sound source direction / speech section determining unit An information processing system that executes a sound source direction and speech section determination process for a user utterance on the condition that the user who has performed the user utterance is determined to be viewing a specific area defined in advance.
  • An information processing method executed in the information processing apparatus A sound source direction / speech section determining unit, wherein a sound source direction / speech section determining step for executing a process of determining a sound source direction and a speech section of a user utterance;
  • the voice recognition unit performs a voice recognition step of performing voice recognition processing on the voice data of the sound source direction and the voice section determined by the sound source direction / speech section determination unit,
  • the sound source direction / speech section determining step and the speech recognition step include An information processing method, which is a step executed on condition that it is determined that a user who has executed the user utterance is looking at a specific area defined in advance.
  • a program for executing information processing in an information processing device A sound source direction / speech segment determination step for causing the sound source direction / speech segment determination unit to execute a process of determining a sound source direction and a speech segment of the user utterance; Causing the speech recognition unit to execute a speech recognition step for executing speech recognition processing on the sound source direction and the speech data of the speech interval determined by the sound source direction / speech interval determining unit; The sound source direction / speech section determining step and the speech recognition step, A program to be executed on condition that it is determined that a user who has executed the user utterance is looking at a specific area defined in advance.
  • the series of processes described in the specification can be executed by hardware, software, or a combined configuration of both.
  • the program recording the processing sequence is installed in a memory in a computer incorporated in dedicated hardware and executed, or the program is executed on a general-purpose computer capable of executing various processing. It can be installed and run.
  • the program can be recorded in advance on a recording medium.
  • the program can be received via a network such as a LAN (Local Area Network) or the Internet and installed on a recording medium such as a built-in hard disk.
  • the various processes described in the specification are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary.
  • the system is a logical set configuration of a plurality of devices, and the devices of each configuration are not limited to being in the same casing.
  • the voice processing unit that executes voice recognition processing for a user utterance
  • the voice processing unit includes a sound source direction / speech section determining unit that determines a sound source direction and a voice section of the user utterance, and a sound source direction.
  • a speech recognition unit that performs speech recognition processing on the sound source direction determined by the speech segment determination unit and the speech data of the speech segment.
  • the sound source direction / speech segment determination unit and the speech recognition unit determine the sound source direction and the speech segment for the user utterance on condition that it is determined that the user who has performed the user utterance is looking at the specific area defined in advance. And execute voice recognition processing.
  • voice recognition processing based on analysis of a sound source direction and a voice section to which an image and voice are applied is realized.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

画像と音声を適用した音源方向と音声区間の解析に基づく精度の高い音声認識処理を実現する装置、方法を提供する。ユーザ発話に対する音声認識処理を実行する音声処理部を有し、音声処理部は、ユーザ発話の音源方向と音声区間を決定する音源方向・音声区間決定部と、音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識部を有する。音源方向・音声区間決定部、および音声認識部は、ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として、ユーザ発話に対する音源方向と音声区間の決定処理と音声認識処理を実行する。

Description

情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
 本開示は、情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。さらに詳細には、ユーザ発話の音声認識を行い、認識結果に基づく様々な処理や応答を行う情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。
 昨今、ユーザ発話の音声認識を行い、認識結果に基づく様々な処理や応答を行う音声認識装置の利用が増大している。
 この音声認識装置においては、マイクを介して入力するユーザ発話の解析を行い、解析結果に応じた処理を行う。
 例えばユーザが、「明日の天気を教えて」と発話した場合、天気情報提供サーバから天気情報を取得して、取得情報に基づくシステム応答を生成して、生成した応答をスピーカーから出力する。具体的には、例えば、
 システム発話=「明日の天気は晴れです。ただし、夕方、雷雨があるかもしれません」
 音声認識装置は、このようなシステム発話を出力する。
 一般的な音声認識装置では、周囲の環境音等のノイズレベルが相対的に大きい場合には、正しく認識することが困難になる。
 ノイズ低減のために、特定方向の音のみを選択するビームフォーミング処理や、反響音を識別して反響音を削減するエコーキャンセル処理等を利用してノイズ低減を行ない、ユーザ発話音声を選択的に入力させて音声認識を行うことで認識性能の低下をある程度、軽減することが可能となる。
 なお、ノイズの影響を低減させ精度の高い音声認識を可能とする構成を開示した従来技術として、例えば特許文献1(特開2014-153663号公報)がある。
 しかし、このような処理を行ってもノイズの影響が大きい場合は、正確な音声認識ができない場合がある。
 また、音声認識装置の中には、全てのユーザ発話の音声認識を行わず、装置に対する呼びかけ等、予め規定された「起動ワード」の検出に応じて、音声認識を開始する構成を有するものもある。
 すなわち、ユーザが音声入力を行う際、ユーザは、まず、初めに予め規定された「起動ワード」を発話する。
 音声認識装置は、この「起動ワード」の入力検出に応じて音声入力待ち受け状態に移行する。この状態移行後に、音声認識装置は、ユーザ発話の音声認識を開始する。
 しかし、このような装置では、ユーザは、本来のユーザ要求に対応する発話以外に、起動ワードの発声を事前に行うことが必要となる。音声認識装置は、起動ワードの入力後、音声認識を開始するが、その後、一定時間経過すると、また音声認識機能をオフ(スリープモード)にしてしまう。従って、ユーザは音声認識機能がオフになる度に、起動ワードの発声を行うことが必要となる。ユーザが起動ワードを知らない、あるいは忘れた場合には、音声認識機能を使えないという問題もある。
特開2014-153663号公報 特開2012-003326号公報
 本件は、例えば上記問題点に鑑みてなされたものであり、音声解析に併せて画像解析を実行することで、ノイズ音の多い環境下においても、目的とするユーザの発話を正確に判断して精度の高い音声認識を実現する情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供することを目的とする。
 本開示の第1の側面は、
 ユーザ発話に対する音声認識処理を実行する音声処理部を有し、
 前記音声処理部は、前記ユーザ発話の音源方向と音声区間を決定する音源方向・音声区間決定部と、
 前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識部を有し、
 前記音源方向・音声区間決定部は、
 前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として、前記ユーザ発話に対する音源方向と音声区間の決定処理を実行する情報処理装置にある。
 さらに、本開示の第2の側面は、
 ユーザ端末と、データ処理サーバを有する情報処理システムであり、
 前記ユーザ端末は、
 ユーザ発話を入力する音声入力部と、
 ユーザ画像を入力する画像入力部を有し、
 前記データ処理サーバは、
 前記ユーザ端末から受信する前記ユーザ発話に対する音声認識処理を実行する音声処理部を有し、
 前記音声処理部は、前記ユーザ発話の音源方向と音声区間を決定する音源方向・音声区間決定部と、
 前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識部を有し、
 前記音源方向・音声区間決定部は、
 前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として、前記ユーザ発話に対する音源方向と音声区間の決定処理を実行する情報処理システムにある。
 さらに、本開示の第3の側面は、
 情報処理装置において実行する情報処理方法であり、
 音源方向・音声区間決定部が、ユーザ発話の音源方向と音声区間を決定する処理を実行する音源方向・音声区間決定ステップと、
 音声認識部が、前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識ステップを実行し、
 前記音源方向・音声区間決定ステップ、および前記音声認識ステップは、
 前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として実行するステップである情報処理方法にある。
 さらに、本開示の第4の側面は、
 ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
 前記ユーザ端末において、
 ユーザ発話を入力する音声入力処理と、
 ユーザ画像を入力する画像入力処理を実行し、
 前記データ処理サーバにおいて、
 音源方向・音声区間決定部が、ユーザ発話の音源方向と音声区間を決定する処理を実行する音源方向・音声区間決定ステップと、
 音声認識部が、前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識ステップを実行し、
 前記データ処理サーバは、
 前記音源方向・音声区間決定ステップ、および前記音声認識ステップを、前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として実行する情報処理方法にある。
 さらに、本開示の第5の側面は、
 情報処理装置において情報処理を実行させるプログラムであり、
 音源方向・音声区間決定部に、ユーザ発話の音源方向と音声区間を決定する処理を実行させる音源方向・音声区間決定ステップと、
 音声認識部に、前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行させる音声認識ステップを実行させ、
 前記音源方向・音声区間決定ステップ、および前記音声認識ステップを、
 前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として実行させるプログラムにある。
 なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
 本開示のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 本開示の一実施例の構成によれば、画像と音声を適用した音源方向と音声区間の解析に基づく精度の高い音声認識処理が実現される。
 具体的には、例えば、ユーザ発話に対する音声認識処理を実行する音声処理部を有し、音声処理部は、ユーザ発話の音源方向と音声区間を決定する音源方向・音声区間決定部と、音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識部を有する。音源方向・音声区間決定部、および音声認識部は、ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として、ユーザ発話に対する音源方向と音声区間の決定処理と音声認識処理を実行する。
 これらの構成により、画像と音声を適用した音源方向と音声区間の解析に基づく精度の高い音声認識処理が実現される。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
ユーザ発話に基づく応答や処理を行う情報処理装置の例について説明する図である。 情報処理装置の構成例と利用例について説明する図である。 情報処理装置の具体的な構成例について説明する図である。 情報処理装置の構成例について説明する図である。 情報処理装置の画像処理部と音声処理部の構成例について説明する図である。 音声に基づく音源方向推定処理について説明する図である。 音声に基づく音源方向推定処理について説明する図である。 音声を利用した音声認識処理のシーケンスについて説明するフローチャートを示す図である。 画像と音声を利用した音源方向、音声区間検出処理のシーケンスについて説明するフローチャートを示す図である。 情報処理装置の表示情報の具体例について説明する図である。 情報処理装置の表示情報の具体例について説明する図である。 情報処理装置の表示情報の具体例について説明する図である。 画像と音声を利用した音源方向、音声区間検出処理のシーケンスについて説明するフローチャートを示す図である。 画像と音声を利用した音声区間検出処理の一例について説明する図である。 画像と音声を利用した音源方向推定処理の一例について説明する図である。 情報処理装置の表示情報の具体例について説明する図である。 情報処理装置の表示情報の具体例について説明する図である。 情報処理システムの構成例について説明する図である。 情報処理装置のハードウェア構成例について説明する図である。
 以下、図面を参照しながら本開示の情報処理装置、情報処理システム、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
 1.情報処理装置の実行する処理の概要について
 2.情報処理装置の構成例について
 3.画像処理部と音声処理部の詳細構成と処理について
 4.画像情報と音声情報を適用した音源方向、音声区間の決定処理シーケンスについて
 5.音声と画像の双方から得られた音源方向と音声区間の各情報を用いた処理例について
 6.情報処理装置の周囲に複数の発話者がいる環境での処理例について
 7.情報処理装置、および情報処理システムの構成例について
 8.情報処理装置のハードウェア構成例について
 9.本開示の構成のまとめ
  [1.情報処理装置の実行する処理の概要について]
 まず、図1以下を参照して、本開示の情報処理装置の実行する処理の概要についてについて説明する。
 図1は、発話者1の発するユーザ発話を認識して応答を行う情報処理装置10の一処理例を示す図である。
 情報処理装置10は、発話者1のユーザ発話、例えば、
 ユーザ発話=「大阪の明日、午後の天気を教えて」
 このユーザ発話の音声認識処理を実行する。
 さらに、情報処理装置10は、ユーザ発話の音声認識結果に基づく処理を実行する。
 図1に示す例では、ユーザ発話=「大阪の明日、午後の天気を教えて」に応答するためのデータを取得し、取得データに基づいて応答を生成して、生成した応答をスピーカー14を介して出力する。
 図1に示す例では、情報処理装置10は、天気情報を示す画像表示を行うとともに、以下のシステム応答を行っている。
 システム応答=「大阪の明日、午後の天気は晴れですが、夕方、にわか雨がある可能性があります。」
 情報処理装置10は、音声合成処理(TTS:Text To Speech)を実行して上記のシステム応答を生成して出力する。
 情報処理装置10は、装置内の記憶部から取得した知識データ、またはネットワークを介して取得した知識データを利用して応答を生成して出力する。
 図1に示す情報処理装置10は、カメラ11、マイク12、表示部13、スピーカー14を有しており、音声入出力と画像入出力が可能な構成を有する。
 カメラ11は、例えば、ほぼ周囲360°の画像を撮影可能な全方位カメラである。また、マイク12は、音源方向を特定可能とした複数のマイクロフォンから構成されるマイクロフォン・アレイとして構成されている。
 表示部13は、図に示す例ではプロジェクタ型の表示部を用いた例を示している。ただし、表示部13は、ディスプレイ型の表示部としてもよいし、あるいは情報処理装置19に接続されたTV、PC等の表示部に表示情報を出力する構成としてもよい、
 図1に示す情報処理装置10は、例えばスマートスピーカーあるいはエージェント機器と呼ばれる。
 本開示の情報処理装置10は、図2に示すように、エージェント機器10aに限らず、スマホ10bやPC10c等、あるいは公共の場所に設置されたサイネージ機器のような様々な装置形態とすることが可能である。
 情報処理装置10は、発話者1の発話を認識して、ユーザ発話に基づく応答を行う他、例えば、ユーザ発話に応じて図2に示すテレビ、エアコン等の外部機器30の制御も実行する。
 例えばユーザ発話が「テレビのチャンネルを1に変えて」、あるいは「エアコンの設定温度を20度にして」といった要求である場合、情報処理装置10は、このユーザ発話の音声認識結果に基づいて、外部機器30に対して制御信号(Wi-Fi、赤外光など)を出力して、ユーザ発話に従った制御を実行する。
 なお、情報処理装置10は、ネットワークを介してサーバ20と接続され、サーバ20から、ユーザ発話に対する応答を生成するために必要となる情報を取得することが可能である。また、音声認識処理や意味解析処理をサーバに行わせる構成としてもよい。
  [2.情報処理装置の構成例について]
 次に、図3を参照して、情報処理装置の具体的な構成例について説明する。
 図3は、ユーザ発話を認識して、ユーザ発話に対応する処理や応答を行う情報処理装置10の一構成例を示す図である。
 図3に示すように、情報処理装置10は、入力部110、出力部120、データ処理部130を有する。
 なお、データ処理部130は、情報処理装置10内に構成することも可能であるが、情報処理装置10内に構成せず、外部サーバのデータ処理部を利用してもよい。サーバを利用した構成の場合、情報処理装置10は、入力部110から入力した入力データを、ネットワークを介してサーバに送信し、サーバのデータ処理部130の処理結果を受信して、出力部120を介して出力する。
 次に、図3に示す情報処理装置10の構成要素について説明する。
 入力部110は、画像入力部(カメラ)111、音声入力部(マイク)112を有する。
 出力部120は、音声出力部(スピーカー)121、画像出力部(表示部)122を有する。
 情報処理装置10は、最低限、これらの構成要素を有する。
 画像入力部(カメラ)111は、図1に示す情報処理装置10のカメラ11に対応する。例えば、ほぼ周囲360°の画像を撮影可能な全方位カメラである。
 音声入力部(マイク)112は、図1に示す情報処理装置10のマイク12に対応する。音声入力部(マイク)112は、音源方向を特定可能とした複数のマイクロフォンから構成されるマイクロフォン・アレイとして構成されている。
 音声出力部(スピーカー)121は、図1に示す情報処理装置10のスピーカー14に対応する。
 画像出力部(表示部)122は、図1に示す情報処理装置10の表示部13に対応する。例えば、プロジェクタ等によって構成可能であり、また外部装置のテレビの表示部を利用した構成とすることも可能である。
 データ処理部130は、前述したように情報処理装置10、または情報処理装置10と通信可能なサーバのいずれかに構成される。
 データ処理部130は、入力データ処理部140、出力情報生成部180、記憶部190を有する。
 入力データ処理部140は、画像処理部150と、音声処理部160を有する。
 出力情報生成部180は、出力音声生成部181、表示情報生成部182を有する。
 ユーザの発話音声はマイクなどの音声入力部112に入力される。
 音声入力部(マイク)112は、入力したユーザ発話音声を音声処理部160に入力する。
 なお、画像処理部150と、音声処理部160の構成と処理については、図5以下を参照して、後段で詳細に説明するので、ここでは簡略化して説明する。
 音声処理部160は、例えばASR(Automatic Speech Recognition)機能を有し、音声データを複数の単語から構成されるテキストデータに変換する。
 さらに、テキストデータに対する発話意味解析処理を実行する。
 音声処理部160は、例えば、NLU(Natural Language Understanding)等の自然言語理解機能を有し、テキストデータからユーザ発話の意図(インテント:Intent)や、発話に含まれる意味のある要素(有意要素)である実体情報(エンティティ:Entity)を推定する。
 具体例について説明する。例えば以下のユーザ発話が入力されたとする。
 ユーザ発話=明日の大阪の午後の天気を教えて
 このユーザ発話の、
 意図(インテント)は、天気を知りたいであり、
 実体情報(エンティティ)は、大阪、明日、午後、これらのワードである。
 ユーザ発話から、意図(インテント)と、実体情報(エンティティ)を正確に推定、取得することができれば、情報処理装置10は、ユーザ発話に対する正確な処理を行うことができる。
 例えば、上記の例では、明日の大阪の午後の天気を取得して、応答として出力することができる。
 音声処理部160によって取得されたユーザ発話解析情報は、記憶部190に格納されるとともに、出力情報生成部180に出力される。
 画像入力部111は、発話ユーザおよびその周囲の画像を撮影して、画像処理部150に入力する。
 画像処理部150は、発話ユーザの顔の表情やユーザの行動、視線情報、発話ユーザの周囲情報等の解析を行い、この解析結果を記憶部190に格納するとともに、出力情報生成部180に出力する。
 なお、前述したように、画像処理部150と、音声処理部160の詳細構成と処理については、後段において、図5以下を参照して説明する。
 記憶部190には、ユーザ発話の内容や、ユーザ発話に基づく学習データや、画像出力部(表示部)122に出力する表示用データ等が格納される。
 出力情報生成部180は、出力音声生成部181、表示情報生成部182を有する。
 出力音声生成部181は、音声処理部160の解析結果であるユーザ発話解析情報に基づいて、ユーザに対するシステム発話を生成する。
 出力音声生成部181の生成した応答音声情報は、スピーカー等の音声出力部121を介して出力される。
 表示情報生成部182は、ユーザに対するシステム発話に関するテキスト情報や、その他の提示情報を表示する。
 例えばユーザが世界地図を見せてというユーザ発話を行った場合、世界地図を表示する。
 世界地図は、例えばサービス提供サーバから取得可能である。
 なお、情報処理装置10は、ユーザ発話に対する処理実行機能も有する。
 例えば、
 ユーザ発話=音楽を再生して
 ユーザ発話=面白い動画を見せて
 このような発話である場合、情報処理装置10は、ユーザ発話に対する処理、すなわち音楽再生処理や、動画再生処理を行う。
 図3には示していないが、情報処理装置10は、このような様々な処理実行機能も有する。
 図4は、情報処理装置10の外観構成例を示す図である。
 画像入力部(カメラ)111は、ほぼ周囲360°の画像を撮影可能な全方位カメラである。
 音声入力部(マイク)112は、音源方向を特定可能とした複数のマイクロフォンから構成されるマイクロフォン・アレイとして構成されている。
 音声出力部(スピーカー)121は、スピーカーによって構成されている。
 画像出力部(表示部)122は、例えば、プロジェクタ画像の投光部である。ただしこれは一例であり、情報処理装置10にLCD等の表示部を設定する構成としてもよいし、外部のテレビの表示部を利用して画像表示を行う構成としてもよい。
  [3.画像処理部と音声処理部の詳細構成と処理について]
 次に、図5以下を参照して、画像処理部150と音声処理部160の詳細構成と処理について説明する。
 本開示の情報処理装置10は、画像から得られる様々な認識結果を適宜利用することによって、音声のみを用いる場合では対応が困難な条件下における音声認識を可能にした構成を有する。
 例えば、音声から得られる情報と、画像から得られる情報の具体例(種類)は、以下の通りである。
 (A)音声から得られる情報
 (a1)音声区間情報(音声区間の開始時刻と終了時刻から成る情報)
 (a2)音源方向推定情報
 (V)画像から得られる情報
 (v1)顔領域情報
 (v2)顔識別情報
 (v3)顔方向推定情報
 (v4)視線方向推定情報
 (v5)口唇動作による音声区間検出情報
 画像処理部150と音声処理部160は、これらの情報を検出し、検出情報を利用して高精度な音声認識を行う。
 図5は、画像処理部150、音声処理部160の詳細構成を示すブロック図である。
 図5に示す画像処理部150は、画像入力部111から、カメラ撮影画像を入力する。なお、入力画像は動画像である。
 また、図5に示す音声処理部160は、音声入力部112から音声情報を入力する。
 なお、前述したように、音声入力部112は、音源方向を特定可能な複数のマイクから構成されるマイクロフォン・アレイである。音声入力部112は、マイクロフォン・アレイを構成する各マイクからマイクの取得音を入力する。
 音声処理部160の音声入力部112の取得音は、複数の異なる位置に配置された複数のマイクの取得音である。音源方向推定部161は、この複数マイクの取得音に基づいて音源方向を推定する。
 音源方向推定処理について、図6を参照して説明する。
 例えば図6に示すように、異なる位置に配置した複数のマイクロフォン1~4からなるマイクロフォン・アレイ201が、特定方向にある音源202からの音を取得する。マイクロフォン・アレイ201の各マイクに対する音源202からの音の到達時間は少しずつ、ずれることになる。図に示す例では、マイクロフォン1に時間t6で到達した音は、マイクロフォン4には時間t7で到達する。
 このように、各マイクロフォンは音源方向に応じて位相差を持った音信号を取得する。この位相差は、音源方向に応じて異なるものとなり、各マイクロフォンの取得した音声信号の位相差を解析することで、音源方向を求めることができる。
 なお、本実施例において、音源方向は、図6に示すようにマイクロフォン・アレイのマイクロフォン配列方向に対する垂直ライン203となす角度θによって示すものとする。すなわち、図6に示す垂直方向ライン203に対する角度θを音源方向θ204とする。
 音声処理部160の音源方向推定部161は、このように、マイクロフォン・アレイからの音を入力する音声入力部112を介して入力する複数の異なる位置に配置された複数のマイクの取得音に基づいて、音源方向を推定する。
 図5に示す音声処理部160の音声区間検出部162は、音源方向推定部161によって推定された特定の音源方向からの音声開始時間と音声終了時間を判定する。
 この処理に際しては、マイクロフォン・アレイを構成する複数のマイクロフォンによって取得された位相差を持つ特定音源方向からの入力音の各々に対して、位相差に応じた遅延を付与して、各マイクロフォンの取得音の位相を揃えて各観測信号を総和する処理を行なう。
 この処理によって目的音の強調処理が実行される。すなわち、この観測信号総和処理によって特定音源方向の音のみが強調され、その他の周囲の環境音の音レベルを低減させることが可能となる。
 音声区間検出部162は、このように複数のマイクロフォンの観測信号の加算信号を用いて、音声レベルの立ち上がり位置を音声区間開始時間と判定し、音声レベルの立下り位置を音声区間終了時間とする音声区間判定処理を行なう。
 これら、音声処理部160の音源方向推定部161と音声区間検出部162の処理によって、例えば、図7に示すような解析データを取得することができる。
 図7に示す解析データは以下の通りである。
 音源方向=0.40radian
 音声区間(開始時刻)=5.34sec
 音声区間(終了時刻)=6.80sec
 音源方向(θ)は、図6を参照して説明したように、マイクロフォン・アレイのマイク配列方向に対する垂直ラインとなす角度(θ)である。
 音声区間は、音源方向からの音声の発話区間の開始時刻と終了時刻を示す情報である。
 図7に示す例では、
 発話開始を示す音声開始時刻が5.34sec、
 発話終了を示す音声終了時刻が、6.80sec、
 である。なお、測定開始時刻を0とした設定である。
 音声信号のみを利用した音声認識処理は従来から利用されている。すなわち、図5に示す画像処理部150を利用せず、音声処理部160のみを利用した音声認識処理を実行するシステムは従来から存在する。
 本開示の構成における特徴の1つである画像処理部150を利用した音声認識処理の説明の前に、まず、この音声処理部160のみを利用した一般的な音声認識処理シーケンスについて、図8に示すフローチャートを参照して説明する。
 まず、ステップS101において、音源方向を推定する。
 この処理は、図5に示す音源方向推定部161において実行される処理であり、例えば、先に図6を参照して説明した処理に従って実行する処理である。
 次に、ステップS102において、音声区間を検出する。この処理は、図5に示す音声区間検出部162の実行する処理である。
 前述したように、音声区間検出部162は、マイクロフォン・アレイを構成する複数のマイクロフォンによって取得された位相差を持つ特定音源方向からの入力音の各々に対して、位相差に応じた遅延を付与して、各マイクロフォンの取得音の位相を揃えて各観測信号を総和する処理を行なう。この処理によって目的音の強調信号を取得し、強調信号の音声レベルの立ち上がり位置を音声区間開始時間と判定し、音声レベルの立下り位置を音声区間終了時間とする音声区間判定処理を行なう。
 次に、ステップS103において、音源波形を抽出する。この処理は、図5に示す音源抽出部164の処理となる。
 なお、図6に示すフローは、音声のみを利用した音声認識処理例であり、図3に示す画像処理部150からの入力信号を利用した音源方向・音声区間決定部163の処理は省略した例である。
 音声信号のみを利用した処理の場合、図5に示す音声処理部160の音源抽出部164は、図5に示す音声処理部160の音源方向推定部161の推定した音源方向と、音声区間検出部162の検出した音声区間情報のみを利用して、音源抽出処理を実行する。
 音源抽出部164は、図8に示すステップS103の音源波形抽出処理を実行する。この音源波形は、音源方向推定部161の推定した音源方向と、音声区間検出部162の検出した音声区間情報に基づいて選択された音声信号を解析対象として周波数レベルの変化等を解析する処理であり、音声認識処理において従来から行われている処理である。
 次に、ステップS104において、音声認識処理を実行する。この処理は、図5に示す音声認識部135において実行する処理である。
 音声認識部135は、予め登録された様々な発話における周波数変化パターンを登録した辞書データを有する。音声認識部135はこの辞書データを利用し、音源抽出部164が取得音に基づいて解析した取得音の周波数変化パターン等を辞書データと照合し、一致度の高い辞書登録データを選択する。音声認識部165は、選択した辞書データに登録された言葉を発話内容として判定する。
 具体的には、例えば先に説明したように、ASR機能により、音声データを複数の単語から構成されるテキストデータに変換する。さらに、テキストデータに対する発話意味解析処理を実行して、テキストデータからユーザ発話の意図(インテント:Intent)や、発話に含まれる意味のある要素(有意要素)である実体情報(エンティティ:Entity)を推定する。
 マイクロフォンを利用して取得した音声のみを利用した音声認識を行なう場合のシーケンスは、ほぼこの図8に示すフローに従った処理となる。
 しかし、音声のみを利用した処理においては、音源方向の判定や音声区間の解析精度に限界がある。特に目的とする音以外のノイズ(環境音)のレベルが高い場合、音源方向や音声区間の判定精度が低下してしまい、結果として十分な音声認識処理が行えなくなるという問題がある。
 本開示の構成は、このような問題を解決するため、図5に示すように画像処理部150を設け、画像処理部150において取得した情報を音声処理部160内の音源方向・音声区間決定部163に出力する構成としている。
 音源方向・音声区間決定部163は、音声処理部160の音源方向推定部161の推定した音源方向情報と、音声区間検出部162の検出した音声区間情報に加え、画像処理部150の解析情報を利用して、音源方向と音声区間を決定する処理を行なう。
 このように、本開示の音声認識装置では、音声のみならず、画像解析結果を利用して音源方向と音声区間を決定することで、精度の高い音源方向と音声区間を判定することを可能とし、結果として、高精度な音声認識を実現する。
 以下、図5に示す音声認識装置の画像処理部150を利用した音声認識処理について説明する。
 本開示の音声認識装置における画像処理部150は、画像入力部(カメラ)111のカメラ撮影画像を入力し、入力画像を顔領域検出部151に出力する。
 なお、画像入力部(カメラ)111は動画像を撮影し、連続した撮影された画像フレームを順次出力する。
 図5に示す顔領域検出部151は、入力画像の各画像フレームから人の顔領域を検出する。この領域検出処理は、既存の技術を利用して実行可能な処理である。
 例えば、顔領域検出部151は、予め登録された顔の特徴を示す形状データや輝度データからなる顔パターン情報を保持する。顔領域検出部151は、この顔パターン情報を参照情報として、画像フレーム中の画像領域から登録パターンに類似した領域を検出する処理を実行して、画像中の顔領域を検出する。
 顔領域検出部151の顔領域検出情報は、各画像フレームの画像情報とともに、顔識別部152と、顔方向推定部153と、口唇領域検出部155に入力される。
 顔識別部152は、顔領域検出部151の検出した画像フレーム中の顔領域に含まれる顔が、だれの顔であるかを識別する。顔識別部152は、各ユーザの顔画像情報を格納したユーザ情報DB152bの登録情報と、撮影画像情報を比較して、画像フレーム中の顔領域の顔が、だれの顔であるかを識別する
 顔識別部152が生成した、だれの顔であるかを示す顔識別情報171は、出力情報生成部180に出力される。
 顔方向推定部153は、顔領域検出部151の検出した画像フレーム中の顔領域に含まれる顔が、どの方向を向いているかを判定する。
 顔方向推定部153は、顔領域検出部151の検出した顔領域から、目の位置や口の位置など、顔の各パーツの位置を判定し、これらの顔パーツの位置関係に基づいて、顔の向いている方向を推定する。
 さらに、顔方向推定部153の推定した顔方向推定情報が視線方向推定部154に出力される。
 視線方向推定部154は、顔方向推定部153の推定した顔方向推定情報に基づいて、顔領域に含まれる顔の視線方向を推定する。
 顔方向推定部153の推定した顔方向情報、または視線方向推定部154の推定した視線方向情報の少なくともいずれか、あるいは両者の情報からなる顔/視線方向情報172は、音源方向・音声区間決定部163に出力される。
 なお、視線方向推定部154を省略し、顔方向情報のみを生成して音源方向・音声区間決定部163に出力する構成としてもよい。また、視線方向推定部154の生成した視線方向情報のみを音源方向・音声区間決定部163に出力する構成としてもよい。
 口唇領域検出部155は、顔領域検出部151の検出した各画像フレーム中の顔領域に含まれる顔の中の口の領域、すなわち口唇領域を検出する。例えば予めメモリに登録された口唇形状パターンを参照情報として、顔領域検出部151の検出した画像フレーム中の顔領域から、登録パターンに類似した領域を口唇領域として検出する。
 口唇領域検出部155の検出した口唇領域情報は、口唇動作ベース音声区間検出部156に出力される。
 口唇動作ベース音声区間検出部156は、口唇領域の動きに基づいて、発話区間を推定する。すなわち、口の動きに基づいて、発話を開始した時間(音声区間開始時間)と、発話を終了した時間(音声区間終了時間)を判定する。この判定情報を、口唇動作ベース音声区間検出情報173として、音源方向・音声区間決定部163に出力する。
 なお、口唇動作に基づく発話区間の解析処理については、例えば特許文献2(特開2012-003326号公報)に記載されており、口唇動作ベース音声区間検出部156は、例えばこの特許文献2(特開2012-003326号公報)に記載された処理を行なって発話区間を判定する。
  [4.画像情報と音声情報を適用した音源方向、音声区間の決定処理シーケンスについて]
 次に、図9に示すフローチャートを参照して本開示の音声認識装置の実行する音源方向と音声区間の決定処理シーケンスについて説明する。
 この図9に示す処理は、図5に示す画像処理部150と音声処理部160を有する音声認識装置が実行する処理である。
 なお、この処理は、例えばプログラム実行機能を持つCPU等を有するデータ処理部の制御の下で図12に示すフローに従った処理シーケンスを記録したプログラムをメモリから読み出して実行することが可能である。
 図9に示す処理フローに示す各ステップの処理について、順次説明する。
 (ステップS201)
 ステップS201、S211、S221、S231、これらの4つの処理は、並列に実行される。あるいは、短時間ごとのシーケンシャル処理として繰り返し実行される。
 まず、ステップS201において、画像入力部111から入力するカメラ撮影画像からの顔検出と顔識別処理を実行する。
 この処理は、図5に示す画像処理部150の顔領域検出部151と、顔識別部152の実行する処理である。
 顔領域検出部151は、予め登録された顔の特徴を示す形状データや輝度データからなる顔パターン情報に基づいて、画像中の顔領域を検出する。顔識別部152は、各ユーザの顔画像情報を格納したユーザ情報DB152bの登録情報と、撮影画像情報を比較して、画像フレーム中の顔領域の顔が、だれの顔であるかを識別する
 なお、画像入力部111から入力するカメラ撮影画像に複数の顔領域が含まれる場合は、それら複数の顔領域単位で顔識別処理を実行する。
  (ステップS202)
 ステップS202では、ステップS201のカメラ撮影画像からの顔検出と顔識別処理に成功したか否かを判定する。
 顔識別処理に成功し、カメラ撮影画像に含まれる顔領域の顔が誰の顔かが特定できた場合は、ステップS203に進む。
 一方、顔識別処理に失敗し、カメラ撮影画像に含まれる顔領域の顔が誰の顔かが特定できなかった場合は、スタートに戻る。
 なお、画像入力部111から入力するカメラ撮影画像に複数の顔領域が含まれる場合は、1つでも顔識別に成功した場合は成功と判定する。
  (ステップS203)
 ステップS202において、顔識別処理に成功し、カメラ撮影画像に含まれる顔領域の顔が誰の顔かが特定できたと判定した場合は、ステップS203に進む。
 ステップS203では、特定できたユーザ単位のユーザ対応キャラクタ画像を、画像出力部122を介して表示部に表示する。
 この処理は、図5に示す顔識別部152の出力情報である顔識別情報171を出力情報生成部180に出力することで実行される。
 出力情報生成部180の表示情報生成部182は、特定できたユーザ単位のユーザ対応キャラクタ画像を、画像出力部122を介して表示部に表示する。
 具体的な画像表示例について、図10を参照して説明する。図10には情報処理装置10の画像出力部122によって表示される表示画像(プロジェクション画像)250を示している。図10には以下の各状態における表示画像を示している。
 (1)初期状態
 (2)ステップS203の処理の実行状態
 (3)ステップS213の処理の実行状態
 (1)初期状態では、表示画像には何も表示されていない。
 (2)ステップS203の処理の実行状態では、キャラクタ画像251が表示されている。このキャラクタ画像251は、カメラ撮影画像から識別された識別ユーザ252に対応づけられたキャラクタの画像である。
 このキャラクタ対応付け処理は、予めユーザが実行することができる。
 あるいは、情報処理装置が、予め保持する複数のキャラクタ画像を識別ユーザ単位で自動的に対応付けて自動登録する構成としてもよい。登録情報は、情報処理装置10の記憶部190に保持される。
 図に示す識別ユーザ252は、表示画像に自分に対応付けられたキャラクタ画像251が表示されたことで自分が情報処理装置10によって検出され、かつ誰であるかの識別がなされたことを知ることができる。
 なお、図10に示すキャラクタの表示処理は、出力情報生成部180の表示情報生成部182の制御によって行われる。
 (3)ステップS213の処理の実行状態の画像については、後段で説明する。
 なお、本実施例では、ユーザ対応のキャラクタ画像を表示する例として説明するが、表示画像は、キャラクタ画像に限らず、ユーザ対応画像であることが識別可能なユーザ対応特定画像であればよい。
  (ステップS211)
 次に、図9に示すフローのステップS211の処理について説明する。
 ステップS211において、顔方向または視線方向を推定する。この処理は、図5に示す画像処理部150の顔方向推定部153と視線方向推定部154の実行する処理であり、図5に示す顔/視線方向情報172の生成処理に相当する。
 顔方向推定部153と視線方向推定部154は、例えば、顔領域に含まれる顔パーツの位置関係に基づいて顔の向きを判定し、顔の向きの方向を視線方向と判定する。
 これらの判定処理によって生成された顔方向または視線方向の少なくともいずれかの情報を含む顔/視線方向情報172が、音源方向・音声区間決定部163に出力される。
  (ステップS212)
 ステップS211における顔方向または視線方向の推定が終了すると、次に、ステップS212において、ユーザの顔、または視線方向が、表示されたキャラクタ画像表示領域を向いているか否かを判定する。
 ユーザの顔、または視線方向が、表示画像中のキャラクタ画像表示領域を向いている場合、ステップS213に進む。
 一方、ユーザの顔、または視線方向が、表示画像のキャラクタ画像表示領域を向いていない場合、スタートに戻る。
  (ステップS213)
 ステップS212において、ユーザの顔、または視線方向が、表示画像のキャラクタ画像表示領域を向いている場合、ステップS213に進む。
 ステップS213において、表示画像内のキャラクタ画像の表示態様を変更する処理を行う。
 この処理は、出力情報生成部180の表示情報生成部182の制御によって行われる。
 具体例について、図10を参照して説明する。
 図10(3)に示す画像が、ステップS213の処理の実行状態に対応する画像である。
 図10(3)に示す表示画像には、図10(2)に示すキャラクタ画像251の表示態様が変更された画像、すなわちキャラクタ画像の回りに円が追加されている。これはキャラクタ画像とユーザとの対話が可能であることを識別ユーザ252に示す画像であり、対話許容状態キャラクタ画像253である。
 識別ユーザ252は、図10(2)に示すキャラクタ画像251の表示が、図10(3)に示す対話許容状態キャラクタ画像253に変更されたことで、対話が可能な状態に移行したことを知ることができる。
 この表示変更は、具体的には、情報処理装置10において、音声認識処理が実行可能な状態への移行完了と同期して実行される。
  (ステップS221)
 次に、図9に示すフローのステップS221の処理について説明する。
 ステップS221において、口唇動作に基づく音源方向と音声区間の検出処理を行なう。
 この処理は、図5に示す画像処理部150の口唇動作ベース音声区間検出部156において実行される口唇動作ベース音声区間検出情報173の生成処理に相当する。
 先に説明したように、口唇動作ベース音声区間検出部156は、口唇領域の動きに基づいて、発話区間を推定する。すなわち、口の動きに基づいて、発話を開始した時間(音声区間開始時間)と、発話を終了した時間(音声区間終了時間)を判定する。この判定情報を、口唇動作ベース音声区間検出情報173として、音源方向・音声区間決定部163に出力する。また、音源方向については、口唇動作を検出したユーザの顔画像の顔の向きや、口領域の位置等に基づいて決定する。例えば顔の向きや、口の方向を音源方向と判定する。
  (ステップS231)
 ステップS231では、音声情報に基づく音源方向と音声区間の検出処理を行なう。
 この処理は、図5に示す音声処理部160の音源方向推定部161と、音声区間検出部162の実行する処理であり、先に図6~図8を参照して説明した音声のみに基づく音源方向と音声区間の検出処理に相当する。
 先に図6を参照して説明したように、異なる位置に配置した複数のマイクロフォン1~4からなるマイクロフォン・アレイ201により、音源202からの音を取得する。各マイクロフォンは音源方向に応じて位相差を持った音信号を取得する。この位相差は、音源方向に応じて異なるものとなり、各マイクロフォンの取得した音声信号の位相差を解析することで、音源方向を求める。
 音声区間検出部162は、音源方向推定部161によって推定された特定の音源方向からの音声開始時間と音声終了時間を判定する。この処理に際しては、マイクロフォン・アレイを構成する複数のマイクロフォンの取得音の位相を揃えて各観測信号を総和する処理を行なう。音声区間検出部162は、このように複数のマイクロフォンの観測信号の加算信号を用いて、音声レベルの立ち上がり位置を音声区間開始時間と判定し、音声レベルの立下り位置を音声区間終了時間とする音声区間判定処理を行なう。
  (ステップS241)
 ステップS241では、音源方向と音声区間が決定されたか否かを判定する。
 この処理は、図5に示す音声処理部160の音源方向・音声区間決定部163が実行する処理である。
 音源方向・音声区間決定部163は、ステップS212において、ユーザがキャラクタ画像を見ていることが確認された場合に、音源方向と音声区間が決定できるか否かの判定処理を実行する。
 すなわち、ユーザがキャラクタ画像を見ている場合にのみ、音源方向と音声区間の決定処理を行い、その後、決定した音源方向と音声区間の音声に対する音声認識処理を実行する。ユーザがキャラクタ画像を見ていない場合には、音源方向と音声区間の決定処理を行わず、その後の音声認識処理も実行しない。
 ユーザがキャラクタ画像を見ていることが確認された場合、音源方向・音声区間決定部163は、ステップS221における口唇動作からの音源方向と音声区間の検出結果と、ステップS231における音声に基づく音源方向と音声区間の検出結果、これら2つの検出結果を用いて、音源方向と音声区間を決定することができるか否かを判定する。
 ステップS221では、画像情報(口唇動作)から音源方向と音声区間の検出を行うが、音源方向と音声区間のいずれか一方のみの検出に成功する場合がある。
 同様に、ステップS231でも、音声情報から音源方向と音声区間の検出を行うが、音源方向と音声区間のいずれか一方のみの検出に成功する場合がある。
 音源方向・音声区間決定部163は、ステップS241において、これらステップS221と、ステップS231における検出結果を組み合わせて、音源方向と音声区間が決定できるか否かを検証して、決定できる場合は決定する。
 ステップS221と、ステップS231における検出結果を組み合わせて、音源方向と音声区間が決定した場合は、このフローに従った処理、すなわち、音源方向と音声区間の決定処理は終了する。
 ステップS221と、ステップS231における検出結果を組み合わせても、音源方向と音声区間が決定できないと判定した場合は、スタートに戻り、処理を繰り返す。
 このステップS241において、音源方向・音声区間決定部163が音源方向と音声区間を決定した場合に限り、続いて音源抽出部164における音源抽出処理と、音声認識部165における音声認識処理が行われる。
 これらの処理は、音源方向・音声区間決定部163が決定した音源方向と音声区間の音声に対する処理として実行される。
 音源抽出部164は、音源方向・音声区間決定部163が決定した音源方向と、音声区間情報に基づいて選択された音声信号を解析対象として周波数レベルの変化等を解析する処理であり、音声認識処理において従来から行われている処理である。
 次に、音声認識部135は、予め登録された様々な発話における周波数変化パターンを登録した辞書データを利用し、音源抽出部164が取得音に基づいて解析した取得音の周波数変化パターン等を辞書データと照合し、一致度の高い辞書登録データを選択する。音声認識部165は、選択した辞書データに登録された言葉を発話内容として判定する。
 上述したように、本開示の情報処理装置10は、ユーザがキャラクタ画像を見ていることが確認された場合に、音源方向・音声区間決定部163における音源方向・音声区間決定処理が実行され、決定した音源方向と音声区間の音声に対する音声認識が行われる。
 すなわち、ユーザと情報処理装置10間の対話は、ユーザと、表示部に表示されるキャラクタ画像との対話を行うように実行される。
 具体例を図11に示す。
 図11には、先に図10(3)を参照して説明したと同様の表示画像を示している。
 表示画像には、識別ユーザ252が見ている対話許容状態キャラクタ画像253が表示されている。
 表示されるキャラクタ画像は、識別ユーザ252に対応して予め規定されたユーザ対応のキャラクタ画像である。また、識別ユーザ252がキャラクタ画像を見ていることが検出されている間は、キャラクタ画像とユーザとの対話が可能であることを示す表示態様(図に示す例ではキャラクタの周囲に円を表示)に設定されたキャラクタ画像が表示される。
 識別ユーザ252は、対話許容状態キャラクタ画像253を見て、キャラクタ画像とユーザとの対話が可能であることを知り、発話を実行する。例えば以下のユーザ発話を実行する。
 ユーザ発話=「明日の天気を教えて」
 情報処理装置10は、このユーザ発話に対する音声認識結果に基づく応答、例えば天気情報提供アプリケーションの実行によって得られた天気情報を表示する処理や、天気情報の音声出力等を実行する。
 なお、前述したように、表示部に表示されるキャラクタ画像は、各ユーザに予め対応付けられたキャラクタ画像であり、複数の登録ユーザが存在する場合、各登録ユーザに異なるキャラクタ画像が対応付けられる。
 図12に複数の登録ユーザが存在する場合の表示例を示す。図12には、情報処理装置10によって識別された2人のユーザ、識別ユーザA261、識別ユーザB271がいる例である。
 この場合、表示部には、各ユーザ対応のキャラクタ画像が表示される。
 図12に示す例は、識別ユーザAが、ユーザAに対応付けられたキャラクタ画像を見ている状態であり、識別ユーザBは、ユーザBに対応付けられたキャラクタ画像を見ていない状態である。
 この場合、ユーザAに対応付けられたキャラクタ画像は、識別ユーザA対応対話許容状態キャラクタ画像262として表示される。一方、ユーザBに対応付けられたキャラクタ画像は、識別ユーザB対応キャラクタ画像272として表示される。
 このように、本開示の情報処理装置10は、情報処理装置10によって識別されたユーザが、表示情報として表示されたキャラクタ画像を見ている場合に、その識別ユーザを音源方向と決定し、その音源方向からの音声に絞り込んだ音声認識を実行する構成としたので、他の方向からのノイズを効率的に排除し、高精度な音声認識を行うことが可能となる。
 また、ユーザも表示情報として表示されたキャラクタ画像との対話を行う形で、情報処理装置10との対話を行うことが可能となり、実世界に近いスタイルで自然な対話を行うことが可能となる。
  [5.音声と画像の双方から得られた音源方向と音声区間の各情報を用いた処理例について]
 図9に示すフローチャートを参照して説明した処理では、ステップS241において、以下の処理を実行していた。
 ステップS221の画像情報(口唇動作)からの音源方向と音声区間の検出処理結果と、ステップS231の音声情報からの音源方向と音声区間の検出処理結果を組み合わせて、音源方向と音声区間が決定できるか否かを検証し、決定できる場合は決定するという処理を行っていた。
 図12に示すフローにおいては、このステップS241の処理の前に、ステップS240の処理を実行する。ステップS240の処理について説明する。
  (ステップS240)
 ステップS240では、音声認識処理に利用する最終的な音源方向と音声区間の決定処理を実行する。この処理は、図5に示す音声処理部160の音源方向・音声区間決定部163が実行する処理である。
 音源方向・音声区間決定部163は、以下の条件が満足された場合に、音源方向と音声区間の決定処理を実行する。
 (条件1)ステップS212において、ユーザがキャラクタ画像を見ていることが確認された。
 (条件2)ステップS221における口唇動作からの音源方向と音声区間の検出結果と、ステップS231における音声に基づく音源方向と音声区間の検出結果、これらの検出結果が入力された。
 これら2つの条件が満足された場合に、音源方向・音声区間決定部163は、ステップS221における口唇動作からの音源方向と音声区間の検出結果と、ステップS231における音声に基づく音源方向と音声区間の検出結果、これら2つの検出結果を用いて、音源方向と音声区間を決定する。
 この決定処理においては、例えば、2つの検出結果のうちいずれかを選択、あるいは2つの検出結果の中間値、または平均値を採用、あるいは、予め規定した重みを用いた重み付け平均を算出する等の処理が可能である。なお、この決定処理に機械学習を用いる構成としてもよい。
 このステップS240において実行する最終的な音声区間の決定処理の具体例について、図14を参照して説明する。
 図14には、以下の各図を示している。
 (A)音声から取得される音声区間
 (B)画像(口唇動作)から得られる音声区間
 (C)最終的な音声区間
 図14(A)に示す音声から得られた音声区間では、周囲の環境音(例えば、テレビの音や、掃除機による音等)に影響されて、ユーザ発話に対応した実際の音声を含めて、それよりも時間的に長めの音声区間が抽出されている。
 この音声から得られた音声区間に対して、図14(B)に示す画像(口唇動作)から得られた音声区間は、音声から得られた音声区間に含まれ、且つそれよりも短い区間となっている。
 このような場合、音声ベースの音声区間検出情報と、画像ベースの音声区間情報から、より短い音声区間情報を選択して、これを最終的に決定された音声区間(図14(C))とする。
 図15は、ステップS240において実行する最終的な音源方向の決定処理の具体例について説明する図である。
 図15には、図15(A)として情報処理装置10の画像入力部(カメラ)111の撮影画像を示している。
 さらに、図15(B)として、情報処理装置10と、音源となるユーザの位置関係を示す上から見た図を示している。
 (A)カメラ画像から顔領域が検出されており、画像処理部150は、この顔領域の画像や口唇領域画像に基づいて音源方向を検出する。
 この画像の解析処理によって得られる音源方向を示すベクトルが、図15(B)のベクトルVである。
 一方、音声処理部160の音源方向推定部161は、先に図6を参照して説明したように、異なる位置に配置した複数のマイクロフォン1~4からなるマイクロフォン・アレイ201により、音源202からの音を取得する。各マイクロフォンは音源方向に応じて位相差を持った音信号を取得する。この位相差は、音源方向に応じて異なるものとなり、各マイクロフォンの取得した音声信号の位相差を解析することで、音源方向を求める。
 この音声の解析処理によって得られる音源方向を示すベクトルが、図15(B)のベクトルAである。
 音声から得られる音源方向は、マイクロフォン・アレイを利用した方向推定技術の性能に依存することになり、画像から得られる音源方向(位置情報)に比べて、方向解像度や推定性能の面で必ずしも十分ではない場合がある。
 図15に示す例では、画像から得られる音源方向(位置情報)と比較して、音声から得られた音源方向が推定性能的に若干誤っている(ずれている)場合を示している。
 このように、画像から得られる音源方向と、音声から得られる音源方向に差がある場合は、画像から得られる音源方向を最終的な音源方向として決定する。
 図5に示す音声処理部160の音源方向・音声区間決定部163は、
 ステップS221における口唇動作からの音源方向と音声区間の検出結果と、
 ステップS231における音声に基づく音源方向と音声区間の検出結果、
 これらの2種類の検出結果が入力された場合、
 図14、図15を参照して説明した処理により、最終的な音源方向と音声区間を決定する。
 図12に示すフローのステップS240では、このような処理を実行する。
 ステップS240における最終的な音源方向と音声区間の決定処理の後、ステップS241に進む。
 ステップS241では、音源方向と音声区間が決定されたか否かを判定し、決定された場合に限り、続いて音源抽出部164における音源抽出処理と、音声認識部165における音声認識処理が行われる。
 音源抽出部164は、音源方向・音声区間決定部163が決定した音源方向と、音声区間情報に基づいて選択された音声信号を解析対象として周波数レベルの変化等を解析する処理であり、音声認識処理において従来から行われている処理である。
 次に、音声認識部135は、予め登録された様々な発話における周波数変化パターンを登録した辞書データを利用し、音源抽出部164が取得音に基づいて解析した取得音の周波数変化パターン等を辞書データと照合し、一致度の高い辞書登録データを選択する。音声認識部165は、選択した辞書データに登録された言葉を発話内容として判定する。
 上述したように、本開示の情報処理装置10は、ユーザがキャラクタ画像を見ていることが確認された場合に、音源方向・音声区間決定部163における音源方向・音声区間決定処理が実行され、この決定情報に対応する音声データを抽出して音声認識を行う。この処理により、ユーザ発話を選択的に抽出した高精度な音声認識が実現される。
 さらに、ユーザと情報処理装置10間の対話は、ユーザと、表示部に表示されるキャラクタ画像との対話を行うように実行される。
  [6.情報処理装置の周囲に複数の発話者がいる環境での処理例について]
 次に、情報処理装置の周囲に複数の発話者がいる環境での処理例について説明する。
 図16、図17を参照して、情報処理装置10の周囲に複数の発話者がいる環境での処理例について説明する。
 図16、図17には、時間t1~t4の時系列順の状態を示している。
 まず、図16(1)時間t1の状態は、情報処理装置10の画像処理部150の顔識別部152の処理によってユーザA301、ユーザB302の識別が実行され、表示部に各ユーザ対応のキャラクタ画像、すなわち、ユーザA対応キャラクタ画像311、ユーザB対応キャラクタ画像312が表示された状態を示している。
 この状態で、ユーザA301とユーザB302は以下の会話を行っている。
 ユーザAからユーザBに対する発話=明日の日曜、ピクニックに行こうか
 ユーザBからユーザAに対する発話=明日は天気、大丈夫?
 次に、図16(2)時間t2において、ユーザA301が、表示情報として表示されたユーザA対応キャラクタ画像311に対して以下の問いかけを行っている
 ユーザA発話=明日の天気を教えて
 情報処理装置10は、このユーザ発話の音声認識を行い、音声認識結果に基づいて、天気予報情報を表示する処理を行う。
 なお、ユーザA対応キャラクタ画像311は、ユーザAが見ていることの検出に応じて、表示態様が変更(周囲にサークルを描画)されている。
 ユーザB302は、表示された天気予報情報を見て、ユーザA301に対して以下の発話を行っている。
 ユーザBからユーザAに対する発話=残念、明日は雨だね?
 次に、図17(3)時間t3の状態は、ユーザA301がユーザA対応キャラクタ画像311から目をそらしてユーザB302を見て会話を行っている状態である。
 なお、ユーザA対応キャラクタ画像311は、ユーザAが見ていないことの検出に応じて、表示態様が変更(周囲のサークルを削除)されている。
 この状態で、ユーザA301とユーザB302は以下の会話を行っている。
 ユーザAからユーザBに対する発話=じゃあ、別の日はどう
 ユーザBからユーザAに対する発話=いつが空いてたかなあ?
 次に、図17(4)時間t4において、ユーザB302が、表示情報として表示されたユーザB対応キャラクタ画像312に対して以下の問いかけを行っている
 ユーザB発話=今月の予定を見せて
 情報処理装置10は、このユーザ発話の音声認識を行い、音声認識結果に基づいて、カレンダー情報を表示する処理を行う。
 なお、ユーザB対応キャラクタ画像312は、ユーザBが見ていることの検出に応じて、表示態様が変更(周囲にサークルを描画)されている。
 図16(1)や図17(3)の状態は、ユ-ザA,B間で普通の会話を行っており、その際には、各ユーザは、キャラクタ画像を見つめずに発話を行っている。この場合、情報処理装置10は、これらのユーザ発話を音声認識対象としない。
 すなわち、これらの状態は、例えば図9のフローのステップS212の判定がNoとなり、音源方向、音声区間の決定処理が実行されず、その後の音声認識処理も実行されない状態である。
 一方、図16(2)や図17(4)の状態では、ユーザが画面内の各ユーザ対応キャラクタ画像を見ながら発話を行っており、この場合、情報処理装置10は、これらのユーザ発話を音声認識対象として音声認識を行い、その認識結果に応じた処理を実行する。
 これらの状態は、例えば図9のフローのステップS212の判定がYesとなり、音源方向、音声区間の決定処理が実行され、その後の音声認識処理が実行される状態に想到する。
 このように本開示の情報処理装置は、ユーザ間の発話と、ユーザが情報処理装置に向けて行った発話(=キャラクタ画像を見て実行した発話)を明確に区別して、処理を行うことができる。
 なお、上述した実施例では、ユーザがユーザに対応付けられたキャラクタ画像領域を見ている場合に限り、情報処理装置が音声認識を実行するという実施例を説明したが、例えば、その他、以下のような設定としてもよい。
 (1)ユーザが表示画像領域全体のいずれかの領域を見ている場合に、情報処理装置10が音声認識を実行する。
 (2)ユーザが表示領域全体のいずれかの領域、あるいは情報処理装置10を見ている場合に、情報処理装置10が音声認識を実行する。
 なお、この設定は、情報処理装置10において実行するアプリケーション単位で切り替える構成としてもよいし、ユーザが自由に設定できる構成としてもよい。
  [7.情報処理装置、および情報処理システムの構成例について]
 本開示の情報処理装置10の実行する処理について説明したが、図3に示す情報処理装置10の各構成要素の処理機能は、すべて一つの装置、例えばユーザの所有するエージェント機器、あるいはスマホやPC等の装置内に構成することも可能であるが、その一部をサーバ等において実行する構成とすることも可能である。
 図18にシステム構成例を示す。
 図18(1)情報処理システム構成例1は、図3に示す情報処理装置のほぼ全ての機能を一つの装置、例えばユーザの所有するスマホやPC、あるいは音声入出力と画像入出力機能を持つエージェント機器等のユーザ端末である情報処理装置410内に構成した例である。
 ユーザ端末に相当する情報処理装置410は、例えば応答文生成時に外部サービスを利用する場合にのみ、サービス提供サーバ420と通信を実行する。
 サービス提供サーバ420は、例えば音楽提供サーバ、映画等のコンテンツ提供サーバ、ゲームサーバ、天気情報提供サーバ、交通情報提供サーバ、医療情報提供サーバ、観光情報提供サーバ等であり、ユーザ発話に対する処理の実行や応答生成に必要となる情報を提供可能なサーバ群によって構成される。
 一方、図18(2)情報処理システム構成例2は、図3に示す情報処理装置の機能の一部をユーザの所有するスマホやPC、エージェント機器等のユーザ端末である情報処理装置410内に構成し、一部を情報処理装置と通信可能なデータ処理サーバ460において実行する構成としたシステム例である。
 例えば、図3に示す装置中の入力部110、出力部120のみをユーザ端末側の情報処理装置410側に設け、その他の機能をすべてサーバ側で実行するといった構成等が可能である。
 なお、ユーザ端末側の機能と、サーバ側の機能の機能分割態様は、様々な異なる設定が可能であり、また、1つの機能を双方で実行する構成も可能である。
  [8.情報処理装置のハードウェア構成例について]
 次に、図19を参照して、情報処理装置のハードウェア構成例について説明する。
 図19を参照して説明するハードウェアは、先に図3を参照して説明した情報処理装置のハードウェア構成例であり、また、図18を参照して説明したデータ処理サーバ460を構成する情報処理装置のハードウェア構成の一例である。
 CPU(Central Processing Unit)501は、ROM(Read Only Memory)502、または記憶部508に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。RAM(Random Access Memory)503には、CPU501が実行するプログラムやデータなどが記憶される。これらのCPU501、ROM502、およびRAM503は、バス504により相互に接続されている。
 CPU501はバス504を介して入出力インタフェース505に接続され、入出力インタフェース505には、各種スイッチ、キーボード、マウス、マイクロフォン、センサーなどよりなる入力部506、ディスプレイ、スピーカーなどよりなる出力部507が接続されている。CPU501は、入力部506から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部507に出力する。
 入出力インタフェース505に接続されている記憶部508は、例えばハードディスク等からなり、CPU501が実行するプログラムや各種のデータを記憶する。通信部509は、Wi-Fi通信、ブルートゥース(登録商標)(BT)通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。
 入出力インタフェース505に接続されているドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア511を駆動し、データの記録あるいは読み取りを実行する。
  [9.本開示の構成のまとめ]
 以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
 なお、本明細書において開示した技術は、以下のような構成をとることができる。
 (1) ユーザ発話に対する音声認識処理を実行する音声処理部を有し、
 前記音声処理部は、前記ユーザ発話の音源方向と音声区間を決定する音源方向・音声区間決定部と、
 前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識部を有し、
 前記音源方向・音声区間決定部は、
 前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として、前記ユーザ発話に対する音源方向と音声区間の決定処理を実行する情報処理装置。
 (2) 前記音声認識部は、
 前記ユーザ発話を実行したユーザが前記特定領域を見ていると判定されたことを条件として、前記ユーザ発話に対する音声認識処理を実行する(1)に記載の情報処理装置。
 (3) 前記情報処理装置は、
 カメラ撮影画像を入力し、入力画像に基づいてユーザが前記特定領域を見ているか否かを判定する画像処理部を有する(1)または(2)に記載の情報処理装置。
 (4) 前記情報処理装置は、
 カメラ撮影画像を入力し、入力画像に基づいて撮影画像に含まれるユーザの識別処理を実行する画像処理部と、
 前記画像処理部において識別されたユーザ対応の画像を前記特定領域に表示する表示情報生成部を有する(1)~(3)いずれかに記載の情報処理装置。
 (5) 前記表示情報生成部は、
 前記特定領域に表示するユーザ対応画像を、前記ユーザが前記特定領域を見ているか否かに応じて変更する(4)に記載の情報処理装置。
 (6) 前記特定領域は、
 前記情報処理装置の出力画像に含まれるキャラクタ画像領域である(1)~(5)いずれかに記載の情報処理装置。
 (7) 前記キャラクタ画像領域に表示されるキャラクタ画像は、各ユーザ対応のキャラクタ画像である(6)に記載の情報処理装置。
 (8) 前記特定領域は、
 前記情報処理装置の出力画像の画像領域である(1)~(5)いずれかに記載の情報処理装置。
 (9) 前記特定領域は、
 前記情報処理装置の装置領域である(1)~(5)いずれかに記載の情報処理装置。
 (10) 前記音源方向・音声区間決定部は、
 入力音声に基づく音源方向と音声区間の検出結果と、
 入力画像に基づく音源方向と音声区間の検出結果の2つの検出結果を入力して、前記ユーザ発話の音源方向と音声区間を決定する(1)~(9)いずれかに記載の情報処理装置。
 (11) 入力音声に基づく音源方向と音声区間の検出結果は、マイクロフォン・アレイによって取得された音声信号の解析結果から得られる情報である(10)に記載の情報処理装置。
 (12) 入力画像に基づく音源方向と音声区間の検出結果は、カメラ撮影画像に含まれるユーザの顔方向と、口唇動作の解析結果から得られる情報である(10)または(10)に記載の情報処理装置。
 (13) ユーザ端末と、データ処理サーバを有する情報処理システムであり、
 前記ユーザ端末は、
 ユーザ発話を入力する音声入力部と、
 ユーザ画像を入力する画像入力部を有し、
 前記データ処理サーバは、
 前記ユーザ端末から受信する前記ユーザ発話に対する音声認識処理を実行する音声処理部を有し、
 前記音声処理部は、前記ユーザ発話の音源方向と音声区間を決定する音源方向・音声区間決定部と、
 前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識部を有し、
 前記音源方向・音声区間決定部は、
 前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として、前記ユーザ発話に対する音源方向と音声区間の決定処理を実行する情報処理システム。
 (14) 情報処理装置において実行する情報処理方法であり、
 音源方向・音声区間決定部が、ユーザ発話の音源方向と音声区間を決定する処理を実行する音源方向・音声区間決定ステップと、
 音声認識部が、前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識ステップを実行し、
 前記音源方向・音声区間決定ステップ、および前記音声認識ステップは、
 前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として実行するステップである情報処理方法。
 (15) ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
 前記ユーザ端末において、
 ユーザ発話を入力する音声入力処理と、
 ユーザ画像を入力する画像入力処理を実行し、
 前記データ処理サーバにおいて、
 音源方向・音声区間決定部が、ユーザ発話の音源方向と音声区間を決定する処理を実行する音源方向・音声区間決定ステップと、
 音声認識部が、前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識ステップを実行し、
 前記データ処理サーバは、
 前記音源方向・音声区間決定ステップ、および前記音声認識ステップを、前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として実行する情報処理方法。
 (16) 情報処理装置において情報処理を実行させるプログラムであり、
 音源方向・音声区間決定部に、ユーザ発話の音源方向と音声区間を決定する処理を実行させる音源方向・音声区間決定ステップと、
 音声認識部に、前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行させる音声認識ステップを実行させ、
 前記音源方向・音声区間決定ステップ、および前記音声認識ステップを、
 前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として実行させるプログラム。
 また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
 なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 以上、説明したように、本開示の一実施例の構成によれば、画像と音声を適用した音源方向と音声区間の解析に基づく精度の高い音声認識処理が実現される。
 具体的には、例えば、ユーザ発話に対する音声認識処理を実行する音声処理部を有し、音声処理部は、ユーザ発話の音源方向と音声区間を決定する音源方向・音声区間決定部と、音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識部を有する。音源方向・音声区間決定部、および音声認識部は、ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として、ユーザ発話に対する音源方向と音声区間の決定処理と音声認識処理を実行する。
 これらの構成により、画像と音声を適用した音源方向と音声区間の解析に基づく精度の高い音声認識処理が実現される。
  10 情報処理装置
  11 カメラ
  12 マイク
  13 表示部
  14 スピーカー
  20 サーバ
  30 外部機器
 110 入力部
 111 音声入力部
 112 画像入力部
 120 出力部
 121 音声出力部
 122 画像出力部
 130 データ処理部
 140 入力データ解析部
 150 画像処理部
 160 音声処理部
 151 顔領域検出部
 152 顔識別部
 153 顔方向推定部
 154 視線方向推定部
 155 口唇領域検出部
 161 音源方向推定部
 162 音声区間検出部
 163 音源方向・音声区間決定部
 164 音源抽出部
 165 音声認識部
 171 顔識別情報
 172 顔/視線方向情報
 173 口唇動作ベース音声区間検出情報
 180 出力情報生成部
 181 出力音声生成部
 182 表示情報生成部
 190 記憶部
 410 情報処理装置
 420 サービス提供サーバ
 460 データ処理サーバ
 501 CPU
 502 ROM
 503 RAM
 504 バス
 505 入出力インタフェース
 506 入力部
 507 出力部
 508 記憶部
 509 通信部
 510 ドライブ
 511 リムーバブルメディア

Claims (16)

  1.  ユーザ発話に対する音声認識処理を実行する音声処理部を有し、
     前記音声処理部は、前記ユーザ発話の音源方向と音声区間を決定する音源方向・音声区間決定部と、
     前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識部を有し、
     前記音源方向・音声区間決定部は、
     前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として、前記ユーザ発話に対する音源方向と音声区間の決定処理を実行する情報処理装置。
  2.  前記音声認識部は、
     前記ユーザ発話を実行したユーザが前記特定領域を見ていると判定されたことを条件として、前記ユーザ発話に対する音声認識処理を実行する請求項1に記載の情報処理装置。
  3.  前記情報処理装置は、
     カメラ撮影画像を入力し、入力画像に基づいてユーザが前記特定領域を見ているか否かを判定する画像処理部を有する請求項1に記載の情報処理装置。
  4.  前記情報処理装置は、
     カメラ撮影画像を入力し、入力画像に基づいて撮影画像に含まれるユーザの識別処理を実行する画像処理部と、
     前記画像処理部において識別されたユーザ対応の画像を前記特定領域に表示する表示情報生成部を有する請求項1に記載の情報処理装置。
  5.  前記表示情報生成部は、
     前記特定領域に表示するユーザ対応画像を、前記ユーザが前記特定領域を見ているか否かに応じて変更する請求項4に記載の情報処理装置。
  6.  前記特定領域は、
     前記情報処理装置の出力画像に含まれるキャラクタ画像領域である請求項1に記載の情報処理装置。
  7.  前記キャラクタ画像領域に表示されるキャラクタ画像は、各ユーザ対応のキャラクタ画像である請求項6に記載の情報処理装置。
  8.  前記特定領域は、
     前記情報処理装置の出力画像の画像領域である請求項1に記載の情報処理装置。
  9.  前記特定領域は、
     前記情報処理装置の装置領域である請求項1に記載の情報処理装置。
  10.  前記音源方向・音声区間決定部は、
     入力音声に基づく音源方向と音声区間の検出結果と、
     入力画像に基づく音源方向と音声区間の検出結果の2つの検出結果を入力して、前記ユーザ発話の音源方向と音声区間を決定する請求項1に記載の情報処理装置。
  11.  入力音声に基づく音源方向と音声区間の検出結果は、マイクロフォン・アレイによって取得された音声信号の解析結果から得られる情報である請求項10に記載の情報処理装置。
  12.  入力画像に基づく音源方向と音声区間の検出結果は、カメラ撮影画像に含まれるユーザの顔方向と、口唇動作の解析結果から得られる情報である請求項10に記載の情報処理装置。
  13.  ユーザ端末と、データ処理サーバを有する情報処理システムであり、
     前記ユーザ端末は、
     ユーザ発話を入力する音声入力部と、
     ユーザ画像を入力する画像入力部を有し、
     前記データ処理サーバは、
     前記ユーザ端末から受信する前記ユーザ発話に対する音声認識処理を実行する音声処理部を有し、
     前記音声処理部は、前記ユーザ発話の音源方向と音声区間を決定する音源方向・音声区間決定部と、
     前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識部を有し、
     前記音源方向・音声区間決定部は、
     前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として、前記ユーザ発話に対する音源方向と音声区間の決定処理を実行する情報処理システム。
  14.  情報処理装置において実行する情報処理方法であり、
     音源方向・音声区間決定部が、ユーザ発話の音源方向と音声区間を決定する処理を実行する音源方向・音声区間決定ステップと、
     音声認識部が、前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識ステップを実行し、
     前記音源方向・音声区間決定ステップ、および前記音声認識ステップは、
     前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として実行するステップである情報処理方法。
  15.  ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
     前記ユーザ端末において、
     ユーザ発話を入力する音声入力処理と、
     ユーザ画像を入力する画像入力処理を実行し、
     前記データ処理サーバにおいて、
     音源方向・音声区間決定部が、ユーザ発話の音源方向と音声区間を決定する処理を実行する音源方向・音声区間決定ステップと、
     音声認識部が、前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識ステップを実行し、
     前記データ処理サーバは、
     前記音源方向・音声区間決定ステップ、および前記音声認識ステップを、前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として実行する情報処理方法。
  16.  情報処理装置において情報処理を実行させるプログラムであり、
     音源方向・音声区間決定部に、ユーザ発話の音源方向と音声区間を決定する処理を実行させる音源方向・音声区間決定ステップと、
     音声認識部に、前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行させる音声認識ステップを実行させ、
     前記音源方向・音声区間決定ステップ、および前記音声認識ステップを、
     前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として実行させるプログラム。
PCT/JP2019/003032 2018-03-19 2019-01-29 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム WO2019181218A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/979,766 US20210020179A1 (en) 2018-03-19 2019-01-29 Information processing apparatus, information processing system, information processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-050772 2018-03-19
JP2018050772 2018-03-19

Publications (1)

Publication Number Publication Date
WO2019181218A1 true WO2019181218A1 (ja) 2019-09-26

Family

ID=67986144

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/003032 WO2019181218A1 (ja) 2018-03-19 2019-01-29 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Country Status (2)

Country Link
US (1) US20210020179A1 (ja)
WO (1) WO2019181218A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111883130A (zh) * 2020-08-03 2020-11-03 上海茂声智能科技有限公司 一种融合式语音识别方法、装置、系统、设备和存储介质
JPWO2021161377A1 (ja) * 2020-02-10 2021-08-19

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014153663A (ja) * 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
JP2015055718A (ja) * 2013-09-11 2015-03-23 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014153663A (ja) * 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
JP2015055718A (ja) * 2013-09-11 2015-03-23 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021161377A1 (ja) * 2020-02-10 2021-08-19
WO2021161377A1 (ja) * 2020-02-10 2021-08-19 三菱電機株式会社 発話者推定装置および発話者推定方法
JP7337965B2 (ja) 2020-02-10 2023-09-04 三菱電機株式会社 発話者推定装置
CN111883130A (zh) * 2020-08-03 2020-11-03 上海茂声智能科技有限公司 一种融合式语音识别方法、装置、系统、设备和存储介质

Also Published As

Publication number Publication date
US20210020179A1 (en) 2021-01-21

Similar Documents

Publication Publication Date Title
US11823679B2 (en) Method and system of audio false keyphrase rejection using speaker recognition
Czyzewski et al. An audio-visual corpus for multimodal automatic speech recognition
US10878824B2 (en) Speech-to-text generation using video-speech matching from a primary speaker
KR100586767B1 (ko) 다중모드 입력을 이용한 다중모드 초점 탐지, 기준 모호성해명 및 기분 분류를 위한 시스템 및 방법
CN105096935B (zh) 一种语音输入方法、装置和系统
US9837068B2 (en) Sound sample verification for generating sound detection model
CN111164676A (zh) 经由环境语境采集进行的语音模型个性化
JP2011203992A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2014153663A (ja) 音声認識装置、および音声認識方法、並びにプログラム
Mirzaei et al. Combining augmented reality and speech technologies to help deaf and hard of hearing people
Ivanko et al. Multimodal speech recognition: increasing accuracy using high speed video data
CN109784128A (zh) 具有文本及语音处理功能的混合现实智能眼镜
CN112017633B (zh) 语音识别方法、装置、存储介质及电子设备
WO2019181218A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2019155716A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
Rajavel et al. Adaptive reliability measure and optimum integration weight for decision fusion audio-visual speech recognition
WO2019150708A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
Lucey et al. Continuous pose-invariant lipreading
KR20210042520A (ko) 전자 장치 및 이의 제어 방법
US20200388268A1 (en) Information processing apparatus, information processing system, and information processing method, and program
KR20200056754A (ko) 개인화 립 리딩 모델 생성 방법 및 장치
WO2020003820A1 (ja) 複数の処理を並列実行する情報処理装置
Rajavel et al. A new GA optimised reliability ratio based integration weight estimation scheme for decision fusion audio-visual speech recognition
US11501208B2 (en) Rehearsal-based presentation assistance
CN113205797A (zh) 虚拟主播生成方法、装置、计算机设备及可读存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19771977

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19771977

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP