WO2020240789A1 - 音声対話制御装置及び音声対話制御方法 - Google Patents

音声対話制御装置及び音声対話制御方法 Download PDF

Info

Publication number
WO2020240789A1
WO2020240789A1 PCT/JP2019/021599 JP2019021599W WO2020240789A1 WO 2020240789 A1 WO2020240789 A1 WO 2020240789A1 JP 2019021599 W JP2019021599 W JP 2019021599W WO 2020240789 A1 WO2020240789 A1 WO 2020240789A1
Authority
WO
WIPO (PCT)
Prior art keywords
speaker
voice
unit
control device
execution location
Prior art date
Application number
PCT/JP2019/021599
Other languages
English (en)
French (fr)
Inventor
直哉 馬場
真 宗平
政信 大澤
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2019/021599 priority Critical patent/WO2020240789A1/ja
Publication of WO2020240789A1 publication Critical patent/WO2020240789A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Definitions

  • the present invention relates to a voice dialogue control device and a voice dialogue control method.
  • a voice dialogue control device for controlling voice operations on information devices.
  • a user who speaks a voice for operating an information device to a voice dialogue control device is referred to as a "speaker”.
  • spoke voice the voice of the speaker who has spoken to the voice dialogue control device.
  • voice dialogue control devices have been used not only for operating car navigation devices but also for operating vehicle devices such as air conditioners.
  • operating devices For devices such as air conditioners, power windows, and heat theta that can be operated independently at each seat in the vehicle (hereinafter referred to as "operating devices"), the voice dialogue control device accurately understands the speaker's requirements. Therefore, it is necessary to grasp the seat position of the speaker and appropriately control which seat the device corresponds to.
  • the execution place of the operating device the place where the operation of the operating device is executed.
  • Patent Document 1 by determining the seat position of the speaker based on voice signals input from a plurality of microphones, each occupant can appropriately operate the operating device by the spoken voice.
  • the device is described.
  • the operating device is a power window
  • the speaker is a passenger in the driver's seat
  • only the window on the driver's seat side opens and closes
  • the speaker is a passenger in the passenger seat. Only the window on the passenger seat side opens and closes.
  • a conventional voice dialogue control device such as Patent Document 1
  • utterance commands for operating the operating device are limited, and the speaker who operates the operating device remembers the utterance command. It was necessary to adjust to the convenience of the operating device, such as leaving it.
  • the voice dialogue control device has become able to perform voice recognition processing of the speaker's free wording as the performance of voice recognition processing has improved.
  • the voice dialogue control device can obtain the expected result in the voice recognition process, it cannot cope with the utterance of ambiguous contents in the intention recognition process for interpreting the intention of the speaker's utterance in the subsequent stage. It may not be possible to execute the operation of the operating device as intended by the person.
  • utterances in which the execution location of the operating devices is ambiguous may occur.
  • Examples of utterances in which the specification of the execution location of the operating device is ambiguous include utterances that omit the speaker's own position, such as "Turn on the heat theta,” and “Turn on the heat theta on the opposite side.”
  • the utterance of the content using the position of the relative expression can be mentioned.
  • the voice dialogue control device described in Patent Document 1 determines the seat position of the speaker, and determines the speaker when the speaker omits the content indicating his / her position, such as the former "attach a heat theta".
  • the ambiguity of the relative position expression was eliminated by complementing the seat position of the above as it is as the execution place of the operation device.
  • the voice dialogue control device described in Patent Document 1 is described above for utterances containing words indicating a relative positional relationship such as "opposite” such as "attach the heat theta on the opposite side” of the latter. It was not possible to supplement the execution location of the operating device by using the seat position of the speaker determined as described above, and it was not possible to eliminate the ambiguity of the relative position expression.
  • the present invention has been made to solve the above-mentioned problems, and even when the uttered voice of the speaker includes a relative position expression, the voice can execute the operation of the operation device as the speaker intends.
  • An object of the present invention is to provide a dialogue control device.
  • the voice dialogue control device is a voice dialogue control device that controls voice operations with respect to a plurality of operating devices that can operate independently at each of a plurality of execution locations, and is a position of a speaker who utters a voice.
  • the voice recognition unit that recognizes the content of the voice spoken by the speaker, and the content of the voice recognized by the voice recognition unit.
  • the intention understanding unit and the speaker position determination unit identify the operating device to be operated by the speaker and the operation content, and extract words indicating the relative positional relationship between the speaker's position and the operating device from the voice.
  • the execution location of the operation device determined by the intention understanding unit is specified, and the operation device of the specified execution location is assigned. It is provided with a dialogue management unit that outputs a control signal for executing an operation corresponding to the operation content.
  • a word indicating the relative positional relationship between the position of the speaker and the operating device is extracted, and the execution location of the operating device is specified based on the word indicating the position of the speaker and the relative positional relationship. Therefore, even if the uttered voice of the speaker includes a relative position expression, the operation of the operating device can be executed as the speaker intended.
  • FIG. 2 is a plan view showing an angle range in the arrival direction of the utterance voice of the front seat defined by the speaker position determination table of FIG. 2A.
  • FIG. 2 is a plan view showing an angle range in the arrival direction of the spoken voice in the rear seats defined by the speaker position determination table of FIG. 2A.
  • It is a side view which shows the angle range of the arrival direction of the utterance voice defined by the speaker position determination table of FIG. 2A.
  • FIG. 5 is a diagram showing an example of a relative positional relationship interpretation table in which a correspondence relationship between a speaker's position, a word indicating a relative positional relationship, and an execution location of an operating device is defined in the first embodiment. It is a figure which shows an example of the hardware composition of the voice dialogue control device which concerns on Embodiment 1. FIG. It is a figure which shows another example of the hardware composition of the voice dialogue control device which concerns on Embodiment 1. FIG. It is a flowchart which shows the speaker position determination operation example by the voice dialogue control device which concerns on Embodiment 1. FIG.
  • FIG. 5 is a plan view showing a configuration example of a vehicle equipped with the voice dialogue control device according to the second embodiment.
  • FIG. 5 is a diagram showing an example of a relative positional relationship interpretation table in which a correspondence relationship between a speaker's position, a word indicating a relative positional relationship, and an execution location of an operating device is defined in the second embodiment.
  • It is a flowchart which shows the occupant detection operation example by the voice dialogue control device which concerns on Embodiment 2.
  • It is a flowchart which shows the speaker position determination operation example by the voice dialogue control device which concerns on Embodiment 2.
  • It is a flowchart which shows the voice operation example of the vehicle control device by the voice dialogue control device which concerns on Embodiment 2.
  • FIG. 1 is a block diagram showing a configuration example of the voice dialogue control device 10 according to the first embodiment.
  • the voice dialogue control device 10 will be described on the premise that the voice dialogue control device 10 is mounted on the vehicle.
  • the seats subject to voice recognition will be referred to as "seats subject to voice recognition”.
  • the occupant seated in the voice recognition target seat corresponds to the "user" who uses the voice dialogue control device 10.
  • the user who utters the wake-up command described later is referred to as a "speaker”.
  • the voice spoken by the speaker is called "spoken voice”.
  • the voice dialogue control device 10 is not only applied to the control of voice operation of the operation device mounted on the vehicle, but is also installed in a place other than the vehicle such as a conference room or a home room. It may be applied to the control of the operation by voice for the operating device.
  • the voice dialogue control device 10 includes a voice input unit 11, a speaker position determination unit 12, a voice signal processing unit 13, a voice recognition unit 14, an intention understanding unit 15, a dialogue management unit 16, and a relative.
  • the positional relationship interpretation table 17 is provided.
  • a sound collecting device 20 and a vehicle control device 30 are connected to the voice dialogue control device 10.
  • the voice dialogue control device 10, the sound collecting device 20, and the vehicle control device 30 are mounted on the vehicle.
  • the functions of the voice input unit 11, the speaker position determination unit 12, the voice signal processing unit 13, the voice recognition unit 14, the intention understanding unit 15, the dialogue management unit 16, and the relative positional relationship interpretation table 17 are shown.
  • the configuration is integrated in the voice dialogue control device 10 which is an in-vehicle device, it may be distributed to a server on the network, a mobile terminal such as a smartphone, an in-vehicle device, a robot, a home appliance, and the like.
  • the in-vehicle device includes a voice input unit 11
  • the server on the network includes a speaker position determination unit 12, a voice signal processing unit 13, a voice recognition unit 14, an intention understanding unit 15, a dialogue management unit 16, and a relative positional relationship interpretation.
  • a table 17 is provided. In this configuration, the vehicle-mounted device and the server exchange information by wireless communication.
  • the sound collecting device 20 is composed of N (N ⁇ 2) microphones 20-1 to 20-N.
  • the sound collecting device 20 may be an array microphone in which omnidirectional microphones 20-1 to 20-N are arranged at regular intervals, or directional microphones 20-1 to 20-N are voice recognition targets.
  • the configuration may be arranged in front of the seat. Further, the sound collecting device 20 may be installed at any position as long as it can collect the sound spoken by all the occupants seated in the voice recognition target seat.
  • the sound collecting device 20 is an array microphone in which omnidirectional microphones 20-1 to 20-N are arranged at regular intervals.
  • the sound collecting device 20 outputs analog signals (hereinafter, referred to as “analog voice signals”) S1A to SNA corresponding to the sound collected by the microphones 20-1 to 20-N. That is, the analog audio signals S1A to SNA have a one-to-one correspondence with the microphones 20-1 to 20-N.
  • the audio input unit 11 converts the analog audio signals S1A to SNA output by the sound collecting device 20 into analog digital (hereinafter referred to as "A / D conversion"), and the digital audio signals S1D to SND after the A / D conversion. Is output to the speaker position determination unit 12.
  • the speaker position determination unit 12 uses the spoken voice corresponding to the command (hereinafter referred to as “wake-up command”) for activating the voice recognition function of the voice dialogue control device 10 spoken by the speaker. Determine the position of the speaker. For example, the speaker position determination unit 12 first calculates the direction of arrival of the audio signal component having the highest power for each microphone by using the digital audio signals S1D to SND. Subsequently, the speaker position determination unit 12 estimates the angle at which the speaker exists with respect to the sound collecting device 20 by using a method such as a cross-correlation method for calculating the time difference between the arrival of voices between microphones. The speaker position determination unit 12 outputs the estimated angle of the speaker to the audio signal processing unit 13.
  • a method such as a cross-correlation method for calculating the time difference between the arrival of voices between microphones.
  • the audio signal processing unit 13 performs audio signal processing estimated by the speaker position determination unit 12 to give directionality in the angular direction of the speaker and emphasize the voice in the angular direction, from the digital audio signals S1D to SND. Is performed, and the voice signal S after the voice signal processing is output to the voice recognition unit 14.
  • the voice recognition unit 14 executes voice recognition processing on the voice signal S output by the voice signal processing unit 13. The details of the voice recognition process will be described later.
  • the voice recognition unit 14 recognizes the wake-up command
  • the voice recognition unit 14 notifies the speaker position determination unit 12 that the wake-up command has been recognized.
  • the speaker position determination unit 12 determines the angle in the arrival direction of the spoken voice when the voice recognition unit 14 recognizes the wake-up command as an angle corresponding to the speaker. Further, the speaker position determination unit 12 determines the position of the speaker by using a table in which the voice recognition target seat and the angle range in the arrival direction of the uttered voice are defined. In the case of a vehicle, the position of the speaker is the seat in which the speaker is seated.
  • FIG. 2A is a diagram showing an example of a speaker position determination table included in the speaker position determination unit 12 according to the first embodiment.
  • FIG. 2B is a plan view showing an angle range in the arrival direction of the utterance voice of the front seat defined by the speaker position determination table of FIG. 2A.
  • FIG. 2C is a plan view showing an angle range in the arrival direction of the utterance voice in the rear seat defined by the speaker position determination table of FIG. 2A.
  • FIG. 2D is a side view showing an angle range in the arrival direction of the spoken voice defined by the speaker position determination table of FIG. 2A.
  • the speaker position determination unit 12 has a speaker position determination table in which a voice recognition target seat and an angle range in the arrival direction of the uttered voice are defined as shown in FIG. 2A.
  • the voice recognition target seats are the driver's seat a, the passenger seat b, the rear seat right c, and the rear seat left d.
  • the speaker position determination unit 12 has a left-right angle of 100 degrees to 135 degrees in the arrival direction of the uttered voice and a front-rear angle of 90 degrees or more. If it is within the range of 110 degrees, it is determined that the position of the speaker is the driver's seat a.
  • the sound collecting device 20 is installed in front of the vehicle 1, as shown in FIGS.
  • the driver's seat a and the rear seat right c can be discriminated from each other only by the left-right angle, and the passenger seat b and the rear seat can be distinguished. It is difficult to distinguish the left d. Therefore, the speaker position determination unit 12 determines the position of the speaker by using the front-back angle as shown in FIG. 2D.
  • the audio signal processing unit 13 After the position of the speaker is determined by the speaker position determination unit 12, the audio signal processing unit 13 performs audio signal processing using the digital audio signals S1D to SND as in the case of wake-up command recognition.
  • the audio signal S that emphasizes the utterance voice arriving from the position direction of the speaker is voiced by removing the component corresponding to the voice arriving from the direction different from the position direction of the speaker (hereinafter referred to as “noise component”).
  • noise component the component corresponding to the voice arriving from the direction different from the position direction of the speaker
  • the noise component includes, for example, a component corresponding to the noise generated by the running of the vehicle 1, a component corresponding to a voice uttered by an occupant different from the speaker among the occupants, and the like.
  • a method for removing noise components in the audio signal processing unit 13 various known methods such as a beamforming method and a spectral subtraction method can be used. Therefore, a detailed description of the noise component removing method in the audio signal processing unit 13 will be omitted.
  • the speaker position determination unit 12 determines the position of the speaker, and then the voice signal processing unit 13 processes the voice signal so as to leave only the utterance voice component corresponding to the position direction of the speaker. I tried to execute, but it is not limited to this.
  • the voice dialogue control device 10 includes M voice signal processing units 13 and M voice recognition units 14, and the speaker position determination unit 12 is connected to the subsequent stage of the M voice recognition units 14.
  • M is an integer less than or equal to N, and corresponds to, for example, the number of seats subject to voice recognition.
  • M voice signal processing units 13 and M voice recognition units 14 handle driver's seat voice signal processing and driver's seat voice, respectively. Perform processing corresponding to each seat, such as recognition processing.
  • the M voice signal processing units 13 simultaneously output M voice signals S1 to SM extracted only the voices spoken by the occupants seated in the seats to be voice-recognized.
  • the M voice recognition units 14 perform voice recognition processing on the M voice signals S1 to SM simultaneously output by the M voice signal processing units 13, and determine the voice recognition result and the seat position corresponding to the voice recognition result. Output.
  • the speaker position determination unit 12 determines the position of the speaker by using the seat position output by the voice recognition unit 14. In the case of this configuration, for example, even if the occupant in the driver's seat and the occupant in the passenger seat speak at the same time, the voice recognition result and the seat position corresponding to the voice recognition result can be output for each seat.
  • the sound collecting device 20 may be composed of L (L ⁇ 1) microphones 20-1 to 20-L arranged in front of each voice recognition target seat.
  • Each of the microphones 20-1 to 20-L arranged in front of each speech recognition target seat may be one directional microphone or is composed of two or more omnidirectional microphones to emphasize the speaker direction. It may be voice-enhanced as in.
  • the position of the speaker is determined based on the positions of the microphones 20-1 to 20-L to which the voice is input.
  • the voice recognition unit 14 first detects a voice section (hereinafter, referred to as “spoken section”) corresponding to the spoken voice in the voice signal S. Subsequently, the voice recognition unit 14 extracts a feature amount for voice recognition for the utterance section, and executes voice recognition using the feature amount. The voice recognition unit 14 outputs the voice recognition result for the utterance section to the intention understanding unit 15.
  • spoke section a voice section
  • the voice recognition unit 14 outputs the voice recognition result for the utterance section to the intention understanding unit 15.
  • HMM Hidden Markov Model
  • the intention understanding unit 15 executes an intention understanding process on the voice recognition result from the voice recognition unit 14, and determines the operation device and the intention representing the operation content. For example, the intention understanding unit 15 outputs the intention understanding result, which is a set of the operation device and the operation content, of "open_PowerWindow” to the dialogue management unit 16 in response to the voice recognition result of "open the window".
  • "PowerWindow” is the operating device and "open” is the operating content.
  • the operating device is, for example, a power window 31.
  • the power window 31 is provided for each seat of the vehicle 1, and can operate independently for each seat.
  • the operating device may be an air conditioner 32, a heat theta 33, a display 34, or the like.
  • the air conditioner 32, the heat theta 33, and the display 34 are also provided for each seat of the vehicle 1, and can operate independently for each seat.
  • the operations of the power window 31, the air conditioner 32, the heat theta 33, and the display 34 provided for each seat are controlled by the vehicle control device 30.
  • the power window 31 which is a kind of operating device, has a power window 31a provided beside the driver's seat a and a power window 31 provided beside the passenger seat b. It is composed of 31b, a power window 31c provided on the side of the rear seat right c, and a power window 31d provided on the side of the rear seat left d.
  • the power windows 31a to 31d can operate independently at each location.
  • the heat theta 33 which is one of the operating devices, also includes the heat theta 33a provided in the driver's seat a, the heat theta 33b provided in the passenger seat b, the heat theta 33c provided in the right c of the rear seat, and the rear seat. It is composed of a heat theta 33d provided on the left d.
  • the heat theta 33a to 33d can operate independently at each location.
  • the intention understanding unit 15 For understanding the intention in the intention understanding unit 15, for example, a learning model in which the utterance sentence example corresponding to the intention is divided into word units and the degree of relevance between the intention and the word is learned is created in advance.
  • the intention understanding unit 15 estimates the utterance intention of the speaker by using the learning model created in advance and selecting the intention having the highest relevance to the word string appearing in the speech recognition result.
  • the intention understanding unit 15 extracts words indicating a relative positional relationship included in the speech recognition result. For example, the intention understanding unit 15 extracts the intention of "open_PowerWindow, opposite" and the word indicating the relative positional relationship from the voice recognition result of "open the opposite window”.
  • the intention understanding unit 15 outputs to the dialogue management unit 16 the intention of the operation device and the operation content as a set, the word indicating the relative positional relationship, and the position of the speaker determined by the speaker position determination unit 12. ..
  • FIG. 3 is a diagram showing an example of a table in which words indicating relative positional relationships are defined in the first embodiment.
  • the intention understanding unit 15 refers to a table as shown in FIG. 3, and extracts the word when the voice recognition result includes a word indicating a relative positional relationship.
  • the dialogue management unit 16 is an operation determined by the intention understanding unit 15 based on the position of the speaker determined by the speaker position determination unit 12 and the words indicating the relative positional relationship extracted by the intention understanding unit 15. Specify the execution location of the operation content for the device.
  • FIG. 4 is a diagram showing an example of a relative positional relationship interpretation table 17 in which the correspondence between the position of the speaker, the word indicating the relative positional relationship, and the execution location of the operating device is defined in the first embodiment.
  • the intention understanding unit 15 says “speaker's position: driver's seat”, “word indicating relative positional relationship: opposite”, and “ Intention: "turnon_HeatSeater” is output to the dialogue management unit 16.
  • the dialogue management unit 16 refers to the relative positional relationship interpretation table 17, and sets the "passenger seat b" corresponding to the "speaker's position: driver's seat” and the "word indicating the relative positional relationship: opposite” to the operating device. Specify as the execution location. Then, the dialogue management unit 16 outputs a control signal for turning on the heat theta 33b mounted on the passenger seat b, which is the execution location, to the vehicle control device 30.
  • the dialogue management unit 16 If there is no operating device corresponding to the execution location specified based on the position of the speaker and the word indicating the relative positional relationship, the dialogue management unit 16 operates the operation closest to the execution location among the plurality of operating devices. You may choose the device. For example, when the speaker in the driver's seat a speaks “diagonally in front”, there is no seat in the "diagonally in front” of the driver's seat a, and therefore there is no operating device "diagonally in front”. In this case, the dialogue management unit 16 selects the operating device provided in the passenger seat b closest to the "diagonal front" of the driver's seat a in the vehicle 1. In the relative positional relationship interpretation table 17 shown in FIG. 4, the execution location of the operating device closest to the execution location is defined for the execution location where the operating device does not exist.
  • the dialogue management unit 16 includes a word indicating a relative positional relationship in the voice recognition result, or a word indicating a relative positional relationship indicating the position of the speaker itself such as "here".
  • the position of the speaker may be specified as the execution location of the operating device.
  • the dialogue management unit 16 operates the execution location when the operation content for the operation device of the execution location specified by the intention understanding unit 15 is permitted by the speaker determined by the speaker position determination unit 12.
  • a control signal for causing the device to execute an operation corresponding to the operation content may be output.
  • a display 34 is provided in each seat of the vehicle 1, operations such as switching the display of the display 34 are permitted only on the display 34 provided in the speaker's own seat, and the operation contents of the other seats are permitted. It is conceivable not to allow the speaker.
  • the information regarding the permission may be given to the dialogue management unit 16 in advance, or may be set by the occupant.
  • the vehicle control device 30 causes the operation device to perform an operation corresponding to the operation content according to the operation device and the operation content included in the control signal from the dialogue management unit 16.
  • the operating device is a power window 31a to 31d provided for each seat.
  • FIG. 5A is a diagram showing an example of the hardware configuration of the voice dialogue control device 10 according to the first embodiment.
  • the functions of the voice input unit 11, the speaker position determination unit 12, the voice signal processing unit 13, the voice recognition unit 14, the intention understanding unit 15, and the dialogue management unit 16 in the voice dialogue control device 10 are programs stored in the memory 102. Is realized by the processor 101 that executes the above. In this case, the functions of the voice input unit 11, the speaker position determination unit 12, the voice signal processing unit 13, the voice recognition unit 14, the intention understanding unit 15, and the dialogue management unit 16 are software, firmware, or software and firmware. It is realized by the combination.
  • the software or firmware is described as a program and stored in the memory 102.
  • the processor 101 realizes the functions of each part by reading and executing the program stored in the memory 102.
  • the voice dialogue control device 10 stores a memory 102 for storing a program in which the steps shown in the flowcharts of FIGS. 6A and 6B described later will be executed as a result when executed by the processor 101. Be prepared. Further, this program causes a computer to execute the procedures or methods of the voice input unit 11, the speaker position determination unit 12, the voice signal processing unit 13, the voice recognition unit 14, the intention understanding unit 15, and the dialogue management unit 16. It can be said that there is.
  • the processor 101 is a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), a microprocessor, a microcontroller, a DSP (Digital Signal Processor), or the like.
  • CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • DSP Digital Signal Processor
  • the memory 102 may be a non-volatile or volatile semiconductor memory such as a RAM (Random Access Memory), a ROM (Read Only Memory), an EPROM (Erasable Programmable ROM), or a flash memory, and may be a hard disk, a flexible disk, or the like. It may be a magnetic disk of the above, or an optical disk such as a CD (Compact Disc) or a DVD (Digital Versaille Disc).
  • the relative positional relationship interpretation table 17 is realized by the memory 102.
  • FIG. 5B is a diagram showing another example of the hardware configuration of the voice dialogue control device 10 according to the first embodiment.
  • the functions of the voice input unit 11, the speaker position determination unit 12, the voice signal processing unit 13, the voice recognition unit 14, the intention understanding unit 15, the dialogue management unit 16, and the relative positional relationship interpretation table 17 in the voice dialogue control device 10 are It may be realized by a dedicated processing circuit 100.
  • the processing circuit 100 includes, for example, an ASIC (Application Specific Integrated Circuit), a PLD (Programmable Logic Device), an FPGA (Field-Programmable Gate Array), an FPGA (Field-Programmable Gate Array), a System-System (System) System, a System ) Etc.
  • the functions of the voice input unit 11, the speaker position determination unit 12, the voice signal processing unit 13, the voice recognition unit 14, the intention understanding unit 15, the dialogue management unit 16, and the relative positional relationship interpretation table 17 are performed by a plurality of processing circuits 100. It may be realized, or the functions of each part may be collectively realized by one processing circuit 100.
  • the functions may be realized by the processor 101 and the memory 102, and the remaining functions may be realized by the processing circuit 100.
  • FIG. 6A is a flowchart showing an example of a speaker position determination operation by the voice dialogue control device 10 according to the first embodiment.
  • FIG. 6B is a flowchart showing an example of voice operation of the vehicle control device 30 by the voice dialogue control device 10 according to the first embodiment.
  • step ST001 the audio input unit 11 acquires the analog audio signals S1A to SNA output by the sound collecting device 20, performs A / D conversion, and outputs the digital audio signals S1D to SND.
  • step ST002 the speaker position determination unit 12 calculates the direction of arrival of the audio signal component having the highest power by using the digital audio signals S1D to SND. Further, the audio signal processing unit 13 uses the digital audio signals S1D to SND to remove the noise component so as to emphasize the arrival direction of the voice calculated by the speaker position determination unit 12, that is, the angular direction of the speaker. The voice signal processing is executed, and the voice signal S after the voice signal processing is output to the voice recognition unit 14.
  • step ST003 the voice recognition unit 14 detects the utterance section of the voice signal S.
  • step ST004 the voice recognition unit 14 extracts the feature amount corresponding to the voice corresponding to the detected utterance section, and recognizes the utterance voice of the utterance section using the feature amount.
  • step ST005 when the voice recognition result for the utterance section is a wakeup command (step ST005 “YES”), the voice recognition unit 14 performs the process of step ST006. If the voice recognition result for the utterance section is not a wake-up command (step ST005 “NO”), the voice dialogue control device 10 does not perform the processing after step ST006, and starts the processing of step ST001 again.
  • step ST006 the speaker position determination unit 12 determines the position of the speaker who uttered the wake-up command based on the arrival direction of the voice calculated in step ST002.
  • step ST007 the audio input unit 11 acquires the analog audio signals S1A to SNA output by the sound collector 20 and performs A / D conversion, and outputs the digital audio signals S1D to SND.
  • the speaker position determination unit 12 uses the digital voice signals S1D to SND to perform voice signal processing for removing noise components so as to emphasize the position direction of the speaker who uttered the wake-up command, and after the voice signal processing.
  • the voice signal S of is output to the voice recognition unit 14.
  • step ST008 the voice recognition unit 14 detects the utterance section of the voice signal S.
  • step ST009 the voice recognition unit 14 extracts the feature amount corresponding to the voice corresponding to the detected utterance section, and recognizes the utterance voice of the utterance section using the feature amount.
  • the voice recognition unit 14 outputs the voice recognition result of the spoken voice and the position of the speaker determined by the speaker position determination unit 12 to the intention understanding unit 15.
  • step ST010 the intention understanding unit 15 executes an intention understanding process on the voice recognition result, and determines the operating device and the intention representing the operation content.
  • the intention understanding unit 15 outputs an intention as a set of an operation device called "turnon_HeatSeater" and an operation content.
  • step ST011 the intention understanding unit 15 extracts a word indicating a relative positional relationship included in the speech recognition result.
  • the intention understanding unit 15 extracts a word indicating a relative positional relationship of "opposite”.
  • the intention understanding unit 15 outputs the intention, the word indicating the relative positional relationship, and the position of the speaker to the dialogue management unit 16.
  • step ST012 the dialogue management unit 16 refers to the relative positional relationship interpretation table 17 and specifies the execution location of the operating device corresponding to the position of the speaker and the word indicating the relative positional relationship.
  • the execution location of the operating device corresponding to “speaker position: driver's seat a” and “word indicating relative positional relationship: opposite” is determined. It will be the execution place corresponding to the passenger seat b.
  • step ST013 the dialogue management unit 16 outputs a control signal for turning on the heat theta 33b mounted on the passenger seat b, which is the execution location, to the vehicle control device 30.
  • step ST013 the voice dialogue control device 10 starts the process of step ST001 again.
  • the voice dialogue control device 10 includes a speaker position determination unit 12, a voice recognition unit 14, an intention understanding unit 15, and a dialogue management unit 16.
  • the speaker position determination unit 12 determines the position of the speaker who has spoken the voice.
  • the voice recognition unit 14 recognizes the content of the voice spoken by the speaker.
  • the intention understanding unit 15 determines the operation device and the operation content to be operated by the speaker by understanding the utterance intention of the speaker based on the content of the voice recognized by the voice recognition unit 14, and also determines the operation content of the voice. Extract words that indicate the relative positional relationship between the speaker's position and the operating device.
  • the dialogue management unit 16 is an operation device determined by the intention understanding unit 15 based on the position of the speaker determined by the speaker position determination unit 12 and the words indicating the relative positional relationship extracted by the intention understanding unit 15.
  • the execution location of is specified, and a control signal for causing the operating device at the specified execution location to execute an operation corresponding to the operation content is output.
  • the voice dialogue control device 10 can execute the operation of the operating device as the speaker intends even when the spoken voice of the speaker includes a relative position expression.
  • the dialogue management unit 16 of the first embodiment when the dialogue management unit 16 of the first embodiment does not have an operating device corresponding to the execution location specified based on the position of the speaker and the word indicating the relative positional relationship, the dialogue management unit 16 executes the execution among the plurality of operating devices. Select the operating device closest to the location. As a result, the voice dialogue control device 10 can execute the operation of the operation device with the intention of the speaker even when the word indicating the relative positional relationship spoken by the speaker is not appropriate.
  • the dialogue management unit 16 of the first embodiment sets the operation device at the execution location. Outputs a control signal for executing the operation for the operation content.
  • the voice dialogue control device 10 can prevent the operating device provided in the driver's seat a from performing an unintended operation by the driver due to the utterance of an occupant other than the driver.
  • the execution location may not be uniquely specified. For example, when the speaker in the driver's seat a utters "Open the rear window", the intention of the speaker is whether to open the power window 31c only on the right c side of the rear seat or only on the left d side of the rear seat. It is ambiguous whether to open the power windows 31d or the power windows 31c and 31d of both the rear seat right c and the rear seat left d, and the dialogue management unit 16 cannot accurately determine the speaker's request.
  • the dialogue management unit 16 when specifying the execution location of the operation device for the utterance. You may ask the speaker, "Which window do you want to open?"
  • the dialogue management unit 16 holds as an operation history the decision-making results such as "the right side of the rear seat” that the speaker utters in response to this question.
  • the dialogue management unit 16 does not ask a question after that, and uses the operation history to specify the execution location of the operation device.
  • the dialogue management unit 16 makes a subsequent utterance "open the back window” by the speaker in the driver's seat a. Without asking a question, a control signal corresponding to the intention of "opening the window on the right side of the rear seat” is output to the vehicle control device 30.
  • the dialogue management unit 16 may ask questions by voice or display.
  • the dialogue management unit 16 includes the past operation history of the speaker, the position of the speaker determined by the speaker position determination unit 12, and the word indicating the relative positional relationship extracted by the intention understanding unit 15.
  • the execution location of the operating device determined by the intention understanding unit 15 may be specified based on the above.
  • the voice dialogue control device 10 can operate the operation device at the execution location requested by the speaker even for a more ambiguous utterance such as when the execution location of the operation device cannot be uniquely specified.
  • FIG. 7 is a block diagram showing a configuration example of the voice dialogue control device 10 according to the second embodiment.
  • the voice dialogue control device 10 according to the second embodiment has a configuration in which an image analysis unit 18 and an occupant detection unit 19 are added to the voice dialogue control device 10 of the first embodiment shown in FIG. Further, the camera 40 is connected to the voice dialogue control device 10 of the second embodiment.
  • the same or corresponding parts as those in FIG. 1 are designated by the same reference numerals, and the description thereof will be omitted.
  • the on-board unit includes a voice input unit 11, and the server on the network has a speaker position determination unit 12, a voice signal processing unit 13, a voice recognition unit 14, an intention understanding unit 15, a dialogue management unit 16, and a relative positional relationship interpretation table. 17, an image analysis unit 18, and an occupant detection unit 19 are provided. In this configuration, the vehicle-mounted device and the server exchange information by wireless communication.
  • the camera 40 is an imaging device for imaging the interior of the vehicle.
  • the camera 40 is composed of, for example, at least one of an infrared camera and a visible light camera, and has an angle of view capable of capturing at least a range including the face of an occupant seated in a voice recognition target seat. It should be noted that a plurality of cameras 40 may be installed in the vehicle interior in order to accurately image the faces of the occupants seated in all the voice recognition target seats.
  • the image analysis unit 18 acquires image data captured by the camera 40 at a fixed cycle (for example, a cycle of 30 FPS (Frames Per Second)).
  • the image analysis unit 18 detects each part on the face, body, and the like of each occupant by analyzing the acquired image data. Then, the image analysis unit 18 calculates coordinate information or the like indicating the position of each detected part, and outputs the calculated coordinate information or the like as a feature amount to the occupant detection unit 19.
  • the occupant detection unit 19 detects the voice recognition target seat in which the occupant is seated using the feature amount of each occupant calculated by the image analysis unit 18, and outputs the occupant detection result to the dialogue management unit 16.
  • the camera 40 is used for occupant detection by the occupant detection unit 19, a sensor capable of detecting an occupant such as a pressure sensor, an ultrasonic sensor, or a thermo camera may be used. Further, the occupant detection unit 19 may detect an occupant by combining the detection results of these sensors.
  • the occupant detection unit 19 calculates the position of the head of each occupant, the degree of opening of the mouth, and the like, and outputs the calculated information to the audio signal processing unit 13 or the speaker position determination unit 12. Good.
  • the voice signal processing unit 13 adjusts the voice arrival direction according to the position of the head of each occupant, and removes the voice from other than the position direction of the speaker as a noise component.
  • the speaker position determination unit 12 uses the degree of opening of each occupant's mouth from the occupant detection unit 19 to determine which occupant is speaking. judge. Then, the speaker position determination unit 12 determines the position of the speaker by using the position of the head of the occupant who has determined that the speaker is speaking.
  • the dialogue management unit 16 intends based on the position of the speaker determined by the speaker position determination unit 12 and the word indicating the relative positional relationship extracted by the intention understanding unit 15.
  • the execution location of the operation content for the operation device determined by the understanding unit 15 is specified.
  • the dialogue management unit 16 considers the seated state of the occupant detected by the occupant detection unit 19 in specifying the execution location of the operating device.
  • FIG. 8A is a plan view showing a configuration example of a vehicle 1 equipped with the voice dialogue control device 10 according to the second embodiment.
  • FIG. 8B is a diagram showing an example of the relative positional relationship interpretation table 17 in which the correspondence between the word indicating the relative positional relationship between the position of the speaker and the operating device in the second embodiment and the execution location of the operating device is defined. Is.
  • the execution location of the operation device closest to the execution location is defined for the execution location where the operation device does not exist.
  • the dialogue management unit 16 of the first embodiment uses the relative positional relationship interpretation table 17 of FIG. 8B as the execution location of the operating device.
  • the rear seat right c and the rear seat left d are specified.
  • the dialogue management unit 16 of the second embodiment excludes the rear seat left d from the target of the execution place of the operation device because the occupant (that is, the user) is not seated on the rear seat left d.
  • the right c of the rear seat is specified as the execution location of the operating device. Therefore, the dialogue management unit 16 of the second embodiment outputs a control signal for turning on the heat theta 33d mounted on the left rear seat d to the vehicle control device 30.
  • the occupant detection unit 19 detects the sensible temperature such as dozing, cold and hot, and the occupant's condition such as poor physical condition, and outputs the detected information indicating the occupant's condition to the dialogue management unit 16.
  • the occupant detection unit 19 detects the occupant's doze, for example, based on the degree of eye opening detected from the image data captured by the camera 40. Further, the occupant detection unit 19 detects the sensible temperature such as cold and hot based on the occupant surface temperature detected by the thermo camera, for example. In addition, the occupant detection unit 19 detects poor physical condition such as heat generation of the occupant based on, for example, the occupant surface temperature.
  • the dialogue management unit 16 may specify the execution location of the operating device according to the state of the occupant detected by the occupant detection unit 19.
  • the dialogue management unit 16 operates the rear seat left d so as not to disturb the sleep of the occupant in the rear seat left d. Exclude from the target of the execution location of the device. Therefore, the dialogue management unit 16 has a power window 31b provided on the passenger seat b side of the passenger seat b and the rear seat left d corresponding to the “opposite” of the driver's seat a in the relative positional relationship interpretation table 17 of FIG. 8B.
  • a control signal for opening the car is output to the vehicle control device 30.
  • the dialogue management unit 16 determines the passenger seat so as not to make the hot occupant in the passenger seat b uncomfortable. Exclude b from the target of the execution location of the operating device. Therefore, the dialogue management unit 16 has only the heat theta 33d provided on the rear seat left d of the passenger seat b and the rear seat left d corresponding to the “opposite” of the driver seat a in the relative positional relationship interpretation table 17 of FIG. 8B.
  • a control signal for turning on is output to the vehicle control device 30.
  • FIGS. 5A and 5B are incorporated.
  • the functions of the image analysis unit 18 and the occupant detection unit 19 in the voice dialogue control device 10 of the second embodiment are realized by the processor 101 that executes the program stored in the memory 102.
  • the functions of the image analysis unit 18 and the occupant detection unit 19 in the voice dialogue control device 10 of the second embodiment may be realized by a dedicated processing circuit 100.
  • FIG. 9 is a flowchart showing an example of an occupant detection operation by the voice dialogue control device 10 according to the second embodiment.
  • FIG. 10A is a flowchart showing an example of a speaker position determination operation by the voice dialogue control device 10 according to the second embodiment.
  • FIG. 10B is a flowchart showing an example of voice operation of the vehicle control device 30 by the voice dialogue control device 10 according to the second embodiment.
  • step ST101 the image analysis unit 18 acquires the image data captured by the camera 40 at regular intervals.
  • step ST102 the image analysis unit 18 calculates the feature amount of each part in the face and body of each occupant from the acquired image data, and outputs the feature amount to the occupant detection unit 19.
  • step ST103 the occupant detection unit 19 detects which voice recognition target seat the occupant is seated on by using the feature amount of each occupant calculated by the image analysis unit 18, and outputs the occupant detection result to the dialogue management unit. Output to 16.
  • the voice dialogue control device 10 performs the operation shown in the flowchart of FIG. 9 and the operation shown in FIGS. 10A and 10B in parallel.
  • the dialogue management unit 16 has already acquired the occupant detection result from the occupant detection unit 19 before performing the process of step ST212.
  • step ST212 the dialogue management unit 16 refers to the relative positional relationship interpretation table 17 and specifies the execution location of the operating device corresponding to the position of the speaker and the word indicating the relative positional relationship.
  • the dialogue management unit 16 uses the occupant detection result acquired from the occupant detection unit 19, and when the occupant is not seated in the seat corresponding to the execution location of the operation device, the dialogue management unit 16 targets the seat as the execution location of the operation device. After excluding from, specify the execution location of the operating device.
  • step ST213 the dialogue management unit 16 outputs a control signal to the vehicle control device 30 for causing the operation device at the specified execution location to execute an operation corresponding to the operation content.
  • the dialogue management unit 16 of the second embodiment operates the specified execution location. Exclude from the target of the execution location of the device.
  • the voice dialogue control device 10 can prevent the operation device corresponding to the execution location where there is no user and the operation of the operation device is not required to operate.
  • the dialogue management unit 16 of the second embodiment is specified according to the state (for example, dozing state) of the user at the specified execution place based on the position of the speaker and the word indicating the relative positional relationship.
  • the execution location is excluded from the target of the execution location of the operating device.
  • the speaker position determination unit 12 of the second embodiment determines the position of the speaker who has spoken the voice based on the movement of the speaker's mouth detected from the image captured by the camera 40.
  • the image captured by the camera 40 is not affected by voice noise. Therefore, the voice dialogue control device 10 can determine the position of the speaker without being affected by noise.
  • the voice dialogue control device is designed to execute the operation of the operating device as intended by the speaker even when the spoken voice of the speaker includes a relative position expression. Therefore, the voice dialogue control device can be used in vehicles, conference rooms, and homes. It is suitable for use in a voice dialogue control device or the like that controls voice operations on operating devices installed in a room or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

発話者位置判定部(12)は、音声を発話した発話者の位置を判定する。音声認識部(14)は、発話者が発話した音声の内容を認識する。意図理解部(15)は、音声認識部(14)により認識された音声の内容に基づいて発話者の発話の意図を理解することにより発話者が操作しようとする操作機器と操作内容を判別すると共に、音声の中から発話者の位置と操作機器との相対位置関係を示す単語を抽出する。対話管理部(16)は、発話者位置判定部(12)により判定された発話者の位置と意図理解部(15)により抽出された相対位置関係を示す単語とに基づいて、意図理解部(15)により判別された操作機器の実行場所を特定し、特定した実行場所の操作機器に操作内容に対応する動作を実行させるための制御信号を出力する。

Description

音声対話制御装置及び音声対話制御方法
 この発明は、音声対話制御装置及び音声対話制御方法に関するものである。
 従来、情報機器に対する音声による操作を制御する音声対話制御装置が開発されている。以下、情報機器を操作するための音声を、音声対話制御装置に対して発話した利用者を、「発話者」という。また、音声対話制御装置に対して発話した発話者の音声を、「発話音声」という。
 近年、例えば車両向けでは、カーナビゲーション装置の操作に留まらず、エアコン等の車両機器の操作にも、音声対話制御装置が用いられてきている。エアコン、パワーウインドウ、及びヒートシータ等、車内の各座席で独立して操作できるような機器(以下、「操作機器」という)に対して、音声対話制御装置は、発話者の要求を正確に理解するために、発話者の座席位置を把握し、機器をどの座席に対応する場所で実行させるかまで適切に制御する必要がある。以下、操作機器の動作を実行させる場所を、「操作機器の実行場所」という。
 そこで、特許文献1には、複数のマイクロホンから入力される音声信号に基づいて発話者の座席位置を判定することで、各乗員が発話音声により操作機器を適切に操作できるようにした音声対話制御装置が記載されている。この特許文献1によれば、例えば、操作機器がパワーウインドウである場合、発話者が運転席の乗員であれば運転席側のウインドウのみが開閉動作し、発話者が助手席の乗員であれば助手席側のウインドウのみが開閉動作する。
特開平11-65587号公報
 特許文献1のような従来の音声対話制御装置は、音声認識性能を担保するため、操作機器を操作するための発話コマンドが限られており、操作機器を操作する発話者が発話コマンドを覚えておく等、操作機器側の都合に合わせる必要があった。しかし、近年、音声対話制御装置は、音声認識処理の高性能化に伴い、発話者の自由な言い回しを音声認識処理することが可能となった。ただし、音声対話制御装置は、音声認識処理に関しては期待通りの結果を得られるが、その後段において発話者の発話の意図を解釈する意図認識処理において、曖昧な内容の発話に対応できず、発話者の意図通りに操作機器の動作を実行させることができない場合がある。
 特に車載の操作機器に関する音声操作においては、操作機器の実行場所の指定が曖昧な発話が発生し得る。操作機器の実行場所の指定が曖昧な発話の例として、「ヒートシータをつけて」のように発話者自身の位置を省略した内容の発話、及び、「反対側のヒートシータをつけて」のように相対表現の位置を用いた内容の発話等が挙げられる。
 特許文献1記載の音声対話制御装置は、発話者の座席位置を判定し、前者の「ヒートシータをつけて」のように発話者が自身の位置を示す内容を省略した場合に、判定した発話者の座席位置をそのまま操作機器の実行場所として補完することで相対位置表現の曖昧性を解消していた。しかし、特許文献1記載の音声対話制御装置は、後者の「反対側のヒートシータをつけて」のように「反対」等の相対位置関係を示す単語が含まれた発話に対しては、上記のように判定した発話者の座席位置を用いて操作機器の実行場所を補完することはできず、相対位置表現の曖昧性を解消することができなかった。
 この発明は、上記のような課題を解決するためになされたもので、発話者の発話音声に相対位置表現が含まれる場合でも発話者の意図通りに操作機器の動作を実行させることができる音声対話制御装置を提供することを目的とする。
 この発明に係る音声対話制御装置は、複数の実行場所それぞれで独立して動作可能な複数の操作機器に対する、音声による操作を制御する音声対話制御装置であって、音声を発話した発話者の位置を判定する発話者位置判定部と、発話者が発話した音声の内容を認識する音声認識部と、音声認識部により認識された音声の内容に基づいて発話者の発話の意図を理解することにより発話者が操作しようとする操作機器と操作内容を判別すると共に、音声の中から発話者の位置と操作機器との相対位置関係を示す単語を抽出する意図理解部と、発話者位置判定部により判定された発話者の位置と意図理解部により抽出された相対位置関係を示す単語とに基づいて、意図理解部により判別された操作機器の実行場所を特定し、特定した実行場所の操作機器に操作内容に対応する動作を実行させるための制御信号を出力する対話管理部とを備えるものである。
 この発明によれば、発話者の位置と操作機器との相対位置関係を示す単語を抽出し、発話者の位置と相対位置関係を示す単語とに基づいて操作機器の実行場所を特定するようにしたので、発話者の発話音声に相対位置表現が含まれる場合でも発話者の意図通りに操作機器の動作を実行させることができる。
実施の形態1に係る音声対話制御装置の構成例を示すブロック図である。 実施の形態1に係る発話者位置判定部が有する発話者位置判定テーブルの一例を示す図である。 図2Aの発話者位置判定テーブルにより定義された前席の発話音声の到来方向の角度範囲を示す平面図である。 図2Aの発話者位置判定テーブルにより定義された後席の発話音声の到来方向の角度範囲を示す平面図である。 図2Aの発話者位置判定テーブルにより定義された発話音声の到来方向の角度範囲を示す側面図である。 実施の形態1において相対位置関係を示す単語が定義されたテーブルの一例を示す図である。 実施の形態1において発話者の位置と、相対位置関係を示す単語と、操作機器の実行場所との対応関係が定義された相対位置関係解釈テーブルの一例を示す図である。 実施の形態1に係る音声対話制御装置のハードウェア構成の一例を示す図である。 実施の形態1に係る音声対話制御装置のハードウェア構成の別の例を示す図である。 実施の形態1に係る音声対話制御装置による発話者位置判定動作例を示すフローチャートである。 実施の形態1に係る音声対話制御装置による車両制御装置の音声操作例を示すフローチャートである。 実施の形態2に係る音声対話制御装置の構成例を示すブロック図である。 実施の形態2に係る音声対話制御装置が搭載された車両の構成例を示す平面図である。 実施の形態2において発話者の位置と、相対位置関係を示す単語と、操作機器の実行場所との対応関係が定義された相対位置関係解釈テーブルの一例を示す図である。 実施の形態2に係る音声対話制御装置による乗員検知動作例を示すフローチャートである。 実施の形態2に係る音声対話制御装置による発話者位置判定動作例を示すフローチャートである。 実施の形態2に係る音声対話制御装置による車両制御装置の音声操作例を示すフローチャートである。
 以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 図1は、実施の形態1に係る音声対話制御装置10の構成例を示すブロック図である。実施の形態1では、音声対話制御装置10が車両に搭載される前提で、音声対話制御装置10を説明する。以下、音声認識の対象となる座席を「音声認識対象座席」という。音声認識対象座席に着座している乗員は、音声対話制御装置10を利用する「利用者」に該当する。また、音声認識対象座席に着座している利用者のうち、後述するウェイクアップコマンドを発話した利用者を、「発話者」という。発話者が発話した音声を「発話音声」という。
 なお、音声対話制御装置10は、車両に搭載されている操作機器に対する音声による操作の制御に対して適用されるだけに留まらず、会議室又は家庭の部屋等、車両以外の場所に設置されている操作機器に対する音声による操作の制御に対して適用されてもよい。
 図1に示されるように、音声対話制御装置10は、音声入力部11、発話者位置判定部12、音声信号処理部13、音声認識部14、意図理解部15、対話管理部16、及び相対位置関係解釈テーブル17を備えている。また、音声対話制御装置10には、集音装置20、及び車両制御装置30が接続されている。音声対話制御装置10、集音装置20、及び車両制御装置30は、車両に搭載されている。
 なお、図1では、音声入力部11、発話者位置判定部12、音声信号処理部13、音声認識部14、意図理解部15、対話管理部16、及び相対位置関係解釈テーブル17の機能が、車載器である音声対話制御装置10に集約された構成であるが、ネットワーク上のサーバ、スマートフォン等の携帯端末、車載器、ロボット、及び家電機器等に分散されてもよい。例えば、車載器が音声入力部11を備え、ネットワーク上のサーバが発話者位置判定部12、音声信号処理部13、音声認識部14、意図理解部15、対話管理部16、及び相対位置関係解釈テーブル17を備える。この構成において、車載器とサーバは、無線通信により情報をやり取りする。
 集音装置20は、N個(N≧2)のマイクロホン20-1~20-Nにより構成されている。集音装置20は、無指向性のマイクロホン20-1~20-Nが一定間隔に配置されたアレイマイクであってもよいし、指向性のマイクロホン20-1~20-Nが各音声認識対象座席の前に配置された構成であってもよい。また、集音装置20は、音声認識対象座席に着座する全乗員が発話する音声を集音できる位置であれば、設置場所を問わない。
 実施の形態1においては、集音装置20は、無指向性のマイクロホン20-1~20-Nが一定間隔に配置されたアレイマイクであるものとする。集音装置20は、マイクロホン20-1~20-Nにより集音された音声に対応するアナログ信号(以下、「アナログ音声信号」という。)S1A~SNAを出力する。すなわち、アナログ音声信号S1A~SNAは、マイクロホン20-1~20-Nと一対一に対応する。
 音声入力部11は、集音装置20により出力されたアナログ音声信号S1A~SNAをアナログデジタル変換(以下、「A/D変換」という。)し、A/D変換後のデジタル音声信号S1D~SNDを、発話者位置判定部12に出力する。
 発話者位置判定部12は、発話者が発話した、音声対話制御装置10の音声認識機能を起動するためのコマンド(以下、「ウェイクアップコマンド」という。)に対応する発話音声を用いて、この発話者の位置を判定する。発話者位置判定部12は、例えば、まず、マイクロホンごとに、最もパワーが大きい音声信号成分の到来方向を、デジタル音声信号S1D~SNDを用いて算出する。続いて、発話者位置判定部12は、相互相関法等のマイクロホン間の音声到来の時間差を算出する方法を用いて、集音装置20に対して発話者が存在する角度を推定する。発話者位置判定部12は、推定した発話者の角度を、音声信号処理部13に出力する。
 音声信号処理部13は、発話者位置判定部12により推定された発話者の角度方向に指向性を持たせてその角度方向の音声を強調するような音声信号処理を、デジタル音声信号S1D~SNDを用いて実施し、音声信号処理後の音声信号Sを音声認識部14に出力する。
 音声認識部14は、音声信号処理部13により出力された音声信号Sに対して音声認識処理を実行する。音声認識処理の詳細は後述する。音声認識部14は、ウェイクアップコマンドを認識した場合、ウェイクアップコマンドを認識したことを発話者位置判定部12に通知する。この通知を受けた発話者位置判定部12は、音声認識部14がウェイクアップコマンドを認識した際の発話音声の到来方向の角度を発話者に対応する角度として確定する。さらに、発話者位置判定部12は、音声認識対象座席と発話音声の到来方向の角度範囲とが定義されたテーブルを用いて、発話者の位置を判定する。車両の場合、発話者の位置は、発話者が着座している座席とされる。
 図2Aは、実施の形態1に係る発話者位置判定部12が有する発話者位置判定テーブルの一例を示す図である。図2Bは、図2Aの発話者位置判定テーブルにより定義された前席の発話音声の到来方向の角度範囲を示す平面図である。図2Cは、図2Aの発話者位置判定テーブルにより定義された後席の発話音声の到来方向の角度範囲を示す平面図である。図2Dは、図2Aの発話者位置判定テーブルにより定義された発話音声の到来方向の角度範囲を示す側面図である。発話者位置判定部12は、図2Aに示されるような音声認識対象座席と発話音声の到来方向の角度範囲とが定義された発話者位置判定テーブルを有する。図2A~図2Dの例では、音声認識対象座席は、運転席a、助手席b、後席右c、及び後席左dである。集音装置20が車両1の前方に設置されている場合、発話者位置判定部12は、発話音声の到来方向の左右角度が100度~135度の範囲内、かつ、前後角度が90度~110度の範囲内であれば、発話者の位置が運転席aであると判定する。なお、集音装置20が車両1の前方に設置されている場合、図2B及び図2Cに示されるように左右角度のみでは運転席aと後席右cの判別、及び助手席bと後席左dの判別が困難である。そのため、発話者位置判定部12は、図2Dに示されるような前後角度も用いて、発話者の位置を判定する。
 発話者位置判定部12により発話者の位置が判定された後、音声信号処理部13は、ウェイクアップコマンド認識時と同様に、デジタル音声信号S1D~SNDを用いた音声信号処理を行うことにより、発話者の位置方向とは異なる方向から到来した音声に対応する成分(以下、「ノイズ成分」という。)を除去し、当該発話者の位置方向から到来した発話音声を強調した音声信号Sを音声認識部14に出力する。
 上記ノイズ成分は、例えば、車両1の走行により発生した騒音に相当する成分、及び乗員のうちの発話者と異なる乗員により発話された音声に相当する成分等を含むものである。音声信号処理部13におけるノイズ成分の除去方法としては、ビームフォーミング法及びスペクトルサブトラクション法等の公知の種々の方法を用いることができる。このため、音声信号処理部13におけるノイズ成分の除去方法についての詳細な説明は省略する。
 なお、上記説明では、まず、発話者位置判定部12が発話者の位置を判定してから、発話者の位置方向に対応する発話音声成分のみを残すように音声信号処理部13が音声信号処理を実行するようにしたが、これに限定されない。例えば、音声対話制御装置10が、音声信号処理部13をM個、及び音声認識部14をM個備え、M個の音声認識部14の後段に発話者位置判定部12が接続される。Mは、N以下の整数であり、例えば音声認識対象座席の数に対応し、M個の音声信号処理部13及びM個の音声認識部14がそれぞれ運転席用音声信号処理及び運転席用音声認識処理等のように各座席に対応する処理を行うようにする。M個の音声信号処理部13は、各音声認識対象座席に着座している乗員が発話した音声のみを抽出したM個の音声信号S1~SMを同時に出力する。M個の音声認識部14は、M個の音声信号処理部13が同時出力したM個の音声信号S1~SMをそれぞれ音声認識処理し、音声認識結果と当該音声認識結果に対応する座席位置を出力する。発話者位置判定部12は、音声認識部14が出力する座席位置を利用し、発話者の位置を判定する。この構成の場合、例えば運転席の乗員と助手席の乗員が同時に発話したとしても、座席ごとに、音声認識結果と当該音声認識結果に対応する座席位置を出力可能である。
 また、集音装置20は、各音声認識対象座席の前に配置されているL個(L≧1)のマイクロホン20-1~20-Lにより構成されてもよい。各音声認識対象座席の前に配置されるマイクロホン20-1~20-Lのそれぞれは、1つの指向性マイクでもよいし、2つ以上の無指向性マイクにより構成されて発話者方向を強調するように音声強調するものでもよい。この構成の場合、発話者の位置は、音声が入力されたマイクロホン20-1~20-Lの位置に基づいて判定される。
 ここで、音声認識処理について説明する。音声認識部14は、まず、音声信号Sのうちの発話音声に対応する音声区間(以下、「発話区間」という。)を検出する。続いて、音声認識部14は、当該発話区間に対し、音声認識用の特徴量を抽出し、当該特徴量を用いて音声認識を実行する。音声認識部14は、発話区間に対する音声認識結果を意図理解部15に出力する。
 音声認識部14における音声認識処理には、HMM(Hidden Markov Model)法等の公知の種々の方法を用いることができる。このため、音声認識部14における音声認識処理についての詳細な説明は省略する。
 意図理解部15は、音声認識部14からの音声認識結果に対し、意図理解処理を実行し、操作機器及び操作内容を表す意図を判別する。意図理解部15は、例えば、「窓を開けて」という音声認識結果に対して、「open_PowerWindow」という操作機器と操作内容とをセットとした意図理解結果を、対話管理部16に出力する。この例では、「PowerWindow」が操作機器であり、「open」が操作内容である。
 図1の例では、操作機器は、例えばパワーウインドウ31である。パワーウインドウ31は、車両1の座席ごとに設けられており、座席ごとに独立して動作することができる。また、操作機器は、エアコン32、ヒートシータ33、又はディスプレイ34等であってもよい。エアコン32、ヒートシータ33、及びディスプレイ34も、車両1の座席ごとに設けられており、座席ごとに独立して動作することができる。さらに、図1の例では、座席ごとに設けられたパワーウインドウ31、エアコン32、ヒートシータ33、及びディスプレイ34の動作は、車両制御装置30により制御される。
 図2B~図2Dに示されるように、例えば、操作機器の1種であるパワーウインドウ31は、運転席aの脇に設けられたパワーウインドウ31aと、助手席bの脇に設けられたパワーウインドウ31bと、後席右cの脇に設けられたパワーウインドウ31cと、後席左dの脇に設けられたパワーウインドウ31dとにより構成される。パワーウインドウ31a~31dは、それぞれの場所で独立した動作が可能である。
 同様に、操作機器の1種であるヒートシータ33も、運転席aに設けられたヒートシータ33aと、助手席bに設けられたヒートシータ33bと、後席右cに設けられたヒートシータ33cと、後席左dに設けられたヒートシータ33dとにより構成される。ヒートシータ33a~33dは、それぞれの場所で独立した動作が可能である。
 意図理解部15における意図理解のために、例えば、意図と対応づく発話文例を単語単位に分割し、意図と単語との関連度を学習した学習モデルが事前に作成される。意図理解部15は、事前に作成された当該学習モデルを用い、音声認識結果に出現した単語列との関連度が最も高い意図を選択することで、発話者の発話の意図を推定する。
 また、意図理解部15は、音声認識結果に含まれる相対位置関係を示す単語を抽出する。意図理解部15は、例えば、「反対の窓を開けて」という音声認識結果に対して、「open_PowerWindow,反対」という意図と相対位置関係を示す単語とを抽出する。意図理解部15は、操作機器及び操作内容をセットとした意図と、相対位置関係を示す単語と、発話者位置判定部12により判定された発話者の位置とを、対話管理部16に出力する。
 意図理解部15における相対位置関係を示す単語抽出のために、例えば、相対位置関係を示す単語が事前に定義される。図3は、実施の形態1において相対位置関係を示す単語が定義されたテーブルの一例を示す図である。意図理解部15は、図3に示されるようなテーブルを参照し、音声認識結果に相対位置関係を示す単語が含まれている場合に当該単語を抽出する。
 対話管理部16は、発話者位置判定部12により判定された発話者の位置と、意図理解部15により抽出された相対位置関係を示す単語とに基づいて、意図理解部15により判別された操作機器に対する操作内容の実行場所を特定する。
 対話管理部16による操作機器の実行場所特定のために、例えば、発話者の位置と、操作機器の相対位置関係を示す単語と、操作機器の実行場所との対応関係が事前に定義される。図4は、実施の形態1において発話者の位置と、相対位置関係を示す単語と、操作機器の実行場所との対応関係が定義された相対位置関係解釈テーブル17の一例を示す図である。運転席aの発話者が「反対側のヒートシータをつけて」と発話した場合、意図理解部15は、「発話者の位置:運転席」、「相対位置関係を示す単語:反対」、及び「意図:turnon_HeatSeater」を対話管理部16に出力する。対話管理部16は、相対位置関係解釈テーブル17を参照し、「発話者の位置:運転席」と「相対位置関係を示す単語:反対」とに対応する「助手席b」を、操作機器の実行場所として特定する。そして、対話管理部16は、実行場所である助手席bに搭載されたヒートシータ33bをオンするための制御信号を、車両制御装置30に出力する。
 なお、対話管理部16は、発話者の位置と相対位置関係を示す単語とに基づいて特定した実行場所に対応する操作機器が存在しない場合、複数の操作機器のうちの実行場所に最も近い操作機器を選択するようにしてもよい。例えば、運転席aの発話者が「斜め前」と発話した場合、運転席aの「斜め前」には座席が存在せず、したがって「斜め前」の操作機器も存在しない。この場合、対話管理部16は、車両1において運転席aの「斜め前」に最も近い助手席bに設けられた操作機器を選択する。図4に示される相対位置関係解釈テーブル17では、操作機器が存在しない実行場所については、当該実行場所に最も近い操作機器の実行場所が定義されている。
 また、対話管理部16は、音声認識結果に相対位置関係を示す単語が含まれていない場合、又は、「ここ」等の発話者自身の位置を示す相対位置関係を示す単語が含まれている場合、発話者の位置を動作機器の実行場所として特定するようにしてもよい。
 また、対話管理部16は、意図理解部15により特定された実行場所の操作機器に対する操作内容が、発話者位置判定部12により判定された発話者に許可されている場合、当該実行場所の操作機器に操作内容に対応する動作を実行させるための制御信号を出力するようにしてもよい。例えば、車両1の各座席にディスプレイ34が設けられている場合において、ディスプレイ34の表示切り替え等の操作内容は、発話者自身の座席に設けられているディスプレイ34でのみ許可され、他の座席の発話者に対しては許可しないことが考えられる。当該許可に関する情報は、例えば、対話管理部16に対して予め与えられていてもよいし、乗員により設定されてもよい。
 車両制御装置30は、対話管理部16からの制御信号に含まれる操作機器と操作内容とに従い、当該操作内容に対応する動作を当該操作機器に実行させる。操作機器は、上述したように、座席ごとに設けられたパワーウインドウ31a~31d等である。
 次に、図5A及び図5Bを参照し、音声対話制御装置10のハードウェア構成について説明する。
 図5Aは、実施の形態1に係る音声対話制御装置10のハードウェア構成の一例を示す図である。音声対話制御装置10における音声入力部11、発話者位置判定部12、音声信号処理部13、音声認識部14、意図理解部15、及び対話管理部16の機能は、メモリ102に格納されるプログラムを実行するプロセッサ101により実現される。この場合、音声入力部11、発話者位置判定部12、音声信号処理部13、音声認識部14、意図理解部15、及び対話管理部16の機能は、ソフトウェア、ファームウェア、又はソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェア又はファームウェアはプログラムとして記述され、メモリ102に格納される。プロセッサ101は、メモリ102に格納されたプログラムを読みだして実行することにより、各部の機能を実現する。即ち、音声対話制御装置10は、プロセッサ101により実行されるときに、後述する図6A及び図6Bのフローチャートで示されるステップが結果的に実行されることになるプログラムを格納するためのメモリ102を備える。また、このプログラムは、音声入力部11、発話者位置判定部12、音声信号処理部13、音声認識部14、意図理解部15、及び対話管理部16の手順又は方法をコンピュータに実行させるものであるとも言える。
 ここで、プロセッサ101とは、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、マイクロプロセッサ、マイクロコントローラ、又はDSP(Digital Signal Processor)等である。
 メモリ102は、RAM(Random Access Memory)、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、又はフラッシュメモリ等の不揮発性もしくは揮発性の半導体メモリであってもよいし、ハードディスク又はフレキシブルディスク等の磁気ディスクであってもよいし、CD(Compact Disc)又はDVD(Digital Versatile Disc)等の光ディスクである。
 相対位置関係解釈テーブル17は、当該メモリ102により実現される。
 図5Bは、実施の形態1に係る音声対話制御装置10のハードウェア構成の別の例を示す図である。音声対話制御装置10における音声入力部11、発話者位置判定部12、音声信号処理部13、音声認識部14、意図理解部15、対話管理部16、及び相対位置関係解釈テーブル17の機能は、専用の処理回路100により実現されてもよい。処理回路100は、例えば、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field-Programmable Gate Array)、SoC(System-on-a-Chip)、又はシステムLSI(Large-Scale Integration)等である。
 音声入力部11、発話者位置判定部12、音声信号処理部13、音声認識部14、意図理解部15、対話管理部16、及び相対位置関係解釈テーブル17の機能は、複数の処理回路100で実現されてもよいし、各部の機能がまとめて1つの処理回路100で実現されてもよい。
 なお、音声入力部11、発話者位置判定部12、音声信号処理部13、音声認識部14、意図理解部15、対話管理部16、及び相対位置関係解釈テーブル17の機能のうち、一部の機能がプロセッサ101及びメモリ102により実現され、残余の機能が処理回路100により実現されてもよい。
 次に、図6A及び図6Bを参照して、音声対話制御装置10の動作について説明する。
 図6Aは、実施の形態1に係る音声対話制御装置10による発話者位置判定動作例を示すフローチャートである。図6Bは、実施の形態1に係る音声対話制御装置10による車両制御装置30の音声操作例を示すフローチャートである。
 まず、図6Aに示される、発話者位置判定動作例について説明する。
 ステップST001において、音声入力部11は、集音装置20により出力されたアナログ音声信号S1A~SNAを取得してA/D変換し、デジタル音声信号S1D~SNDを出力する。
 ステップST002において、発話者位置判定部12は、デジタル音声信号S1D~SNDを用いて、最もパワーが大きい音声信号成分の到来方向を算出する。また、音声信号処理部13は、デジタル音声信号S1D~SNDを用いて、発話者位置判定部12により算出された音声の到来方向、つまり発話者の角度方向を強調するようにノイズ成分を除去する音声信号処理を実行し、音声信号処理後の音声信号Sを音声認識部14に出力する。
 ステップST003において、音声認識部14は、音声信号Sのうちの発話区間を検出する。ステップST004において、音声認識部14は、検出した発話区間に対応する音声に対応する特徴量を抽出し、当該特徴量を用いて発話区間の発話音声を認識する。ステップST005において、音声認識部14は、当該発話区間に対する音声認識結果がウェイクアップコマンドである場合(ステップST005“YES”)、ステップST006の処理を行う。当該発話区間に対する音声認識結果がウェイクアップコマンドでない場合(ステップST005“NO”)、音声対話制御装置10は、ステップST006以降の処理を行わず、再びステップST001の処理を開始する。
 ステップST006において、発話者位置判定部12は、ステップST002で算出した音声の到来方向に基づいて、ウェイクアップコマンドを発話した発話者の位置を判定する。
 続いて、図6Bのフローチャートに示される、車両制御装置30の音声操作例について説明する。ここでは、運転席aに着座している乗員がウェイクアップコマンドを発話後、続けて「反対側のヒートシータをつけて」と発話したとする。この運転席aは、発話者位置判定部12により発話者の位置と判定済みである。
 ステップST007において、音声入力部11は、集音装置20により出力されたアナログ音声信号S1A~SNAを取得してA/D変換し、デジタル音声信号S1D~SNDを出力する。発話者位置判定部12は、デジタル音声信号S1D~SNDを用いて、ウェイクアップコマンドを発話した発話者の位置方向を強調するようにノイズ成分を除去する音声信号処理を実行し、音声信号処理後の音声信号Sを音声認識部14に出力する。
 ステップST008において、音声認識部14は、音声信号Sのうちの発話区間を検出する。ステップST009において、音声認識部14は、検出した発話区間に対応する音声に対応する特徴量を抽出し、当該特徴量を用いて発話区間の発話音声を認識する。音声認識部14は、当該発話音声の音声認識結果と、発話者位置判定部12により判定された発話者の位置とを、意図理解部15に出力する。
 ステップST010において、意図理解部15は、音声認識結果に対して意図理解処理を実行し、操作機器と操作内容を表す意図を判別する。この例では、意図理解部15は、「turnon_HeatSeater」という操作機器と操作内容とをセットとした意図を出力する。ステップST011において、意図理解部15は、音声認識結果に含まれる相対位置関係を示す単語を抽出する。この例では、意図理解部15は、「反対」という相対位置関係を示す単語を抽出する。意図理解部15は、意図と、相対位置関係を示す単語と、発話者の位置とを、対話管理部16に出力する。
 ステップST012において、対話管理部16は、相対位置関係解釈テーブル17を参照し、発話者の位置と相対位置関係を示す単語とに対応する操作機器の実行場所を特定する。この例では、図4に示される相対位置関係解釈テーブル17に基づき、「発話者の位置:運転席a」と「相対位置関係を示す単語:反対」とに対応する操作機器の実行場所が、助手席bに対応する実行場所となる。
 ステップST013において、対話管理部16は、実行場所である助手席bに搭載されたヒートシータ33bをオンするための制御信号を、車両制御装置30に出力する。
 なお、音声対話制御装置10は、ステップST013の処理を終えると、再びステップST001の処理を開始する。
 以上のように、実施の形態1に係る音声対話制御装置10は、発話者位置判定部12と、音声認識部14と、意図理解部15と、対話管理部16とを備える。発話者位置判定部12は、音声を発話した発話者の位置を判定する。音声認識部14は、発話者が発話した音声の内容を認識する。意図理解部15は、音声認識部14により認識された音声の内容に基づいて発話者の発話の意図を理解することにより発話者が操作しようとする操作機器と操作内容を判別すると共に、音声の中から発話者の位置と操作機器との相対位置関係を示す単語を抽出する。対話管理部16は、発話者位置判定部12により判定された発話者の位置と意図理解部15により抽出された相対位置関係を示す単語とに基づいて、意図理解部15により判別された操作機器の実行場所を特定し、特定した実行場所の操作機器に操作内容に対応する動作を実行させるための制御信号を出力する。これにより、音声対話制御装置10は、発話者の発話音声に相対位置表現が含まれる場合でも発話者の意図通りに操作機器の動作を実行させることができる。
 また、実施の形態1の対話管理部16は、発話者の位置と相対位置関係を示す単語とに基づいて特定した実行場所に対応する操作機器が存在しない場合、複数の操作機器のうちの実行場所に最も近い操作機器を選択する。これにより、音声対話制御装置10は、発話者が発話した相対位置関係を示す単語が適切でない場合であっても発話者の意図を汲んで操作機器の動作を実行させることができる。
 また、実施の形態1の対話管理部16は、実行場所の操作機器に対する操作内容が、発話者位置判定部12により判定された位置の発話者に許可されている場合、実行場所の操作機器に操作内容に対する動作を実行させるための制御信号を出力する。これにより、音声対話制御装置10は、例えば、運転席aに設けられている操作機器が、運転者以外の乗員の発話によって運転者の意図しない動作を行うことを防止できる。
 なお、対話管理部16が操作機器の実行場所を特定する場合に、当該実行場所を一意に特定できないことがある。例えば、運転席aの発話者が「後ろの窓を開けて」と発話した場合、当該発話者の意図が、後席右c側のみのパワーウインドウ31cを開けるのか、後席左d側のみのパワーウインドウ31dを開けるのか、又は、後席右cと後席左dの両方のパワーウインドウ31c,31dを開けるのか曖昧であり、対話管理部16が発話者の要求を正確に判断できない。
 上記の場合、例えば、対話管理部16は、運転席aの発話者の「後ろの窓を開けて」という発話の後、当該発話に対する操作機器の実行場所を特定する際に、「後席のどの窓を開けますか?」という問いかけを当該発話者に対して行ってもよい。対話管理部16は、発話者がこの問いかけに対して発話した「後席右側」等の意思決定結果を、操作履歴として保持する。対話管理部16は、当該発話者が一定数同じ意思決定を繰り返した場合、それ以降は問いかけを行わず、当該操作履歴を用いて操作機器の実行場所を特定する。
 例えば、運転席aの発話者が「後席右側」という発話を3回繰り返した場合、対話管理部16は、これ以降の運転席aの発話者による「後ろの窓を開けて」という発話に対して問いかけを行わず、「後席右側の窓を開ける」という意図に対応する制御信号を車両制御装置30に出力する。なお、対話管理部16は、問いかけを、音声と表示のどちらで行なってもよい。
 このように、対話管理部16は、発話者の過去の操作履歴と、発話者位置判定部12により判定された発話者の位置と、意図理解部15により抽出された相対位置関係を示す単語とに基づいて、意図理解部15により判別された操作機器の実行場所を特定してもよい。これにより、音声対話制御装置10は、操作機器の実行場所を一意に特定できない場合のようなより曖昧な発話に対しても、発話者が要求する実行場所の操作機器を動作させることができる。
実施の形態2.
 図7は、実施の形態2に係る音声対話制御装置10の構成例を示すブロック図である。実施の形態2に係る音声対話制御装置10は、図1に示された実施の形態1の音声対話制御装置10に対して画像解析部18と乗員検知部19とが追加された構成である。また、実施の形態2の音声対話制御装置10に対して、カメラ40が接続されている。図7において図1と同一又は相当する部分は、同一の符号を付し説明を省略する。
 なお、図7では、音声入力部11、発話者位置判定部12、音声信号処理部13、音声認識部14、意図理解部15、対話管理部16、相対位置関係解釈テーブル17、画像解析部18、及び乗員検知部19の機能が、車載器である音声対話制御装置10に集約された構成であるが、ネットワーク上のサーバ、スマートフォン等の携帯端末、車載器、ロボット、及び家電機器等に分散されてもよい。例えば、車載器が音声入力部11を備え、ネットワーク上のサーバが発話者位置判定部12、音声信号処理部13、音声認識部14、意図理解部15、対話管理部16、相対位置関係解釈テーブル17、画像解析部18、及び乗員検知部19を備える。この構成において、車載器とサーバは、無線通信により情報をやり取りする。
 カメラ40は、車室内を撮像するための撮像装置である。カメラ40は、例えば、赤外線カメラ又は可視光カメラの少なくとも一方により構成されており、少なくとも、音声認識対象座席に着座している乗員の顔を含む範囲を撮像可能な画角を有している。なお、全ての音声認識対象座席に着席している乗員の顔を精度良く撮像するために、車室内に複数のカメラ40が設置されていてもよい。
 画像解析部18は、一定周期(例えば、30FPS(Frames Per Second)の周期)にて、カメラ40が撮像した画像データを取得する。画像解析部18は、取得した画像データを解析することによって、各乗員の顔及び胴体等における各パーツを検出する。そして、画像解析部18は、検出した各パーツの位置を示す座標情報等を算出し、算出した座標情報等を特徴量として乗員検知部19に出力する。
 乗員検知部19は、画像解析部18により算出された各乗員の特徴量を用いて、乗員が着座している音声認識対象座席を検知し、乗員検知結果を対話管理部16に出力する。なお、乗員検知部19による乗員検知には、カメラ40が用いられているが、圧力センサ、超音波センサ、又はサーモカメラ等の乗員を検知できるセンサが用いられてもよい。また、乗員検知部19は、これらのセンサの検知結果を組み合わせて、乗員を検知してもよい。
 なお、乗員検知部19は、各乗員の頭部の位置及び口の開き度合い等を算出し、算出したこれらの情報を音声信号処理部13又は発話者位置判定部12に出力するようにしてもよい。
 音声信号処理部13は、各乗員の頭部の位置に合わせて音声到来方向を調整し、発話者の位置方向以外からの音声をノイズ成分として除去する。
 発話者位置判定部12は、音声認識部14によりウェイクアップコマンドが認識された際に、乗員検知部19からの各乗員の口の開き度合いを用いて、どの乗員が発話しているか否かを判定する。そして、発話者位置判定部12は、発話していると判定した乗員の頭部の位置を用いて、発話者の位置を判定する。
 対話管理部16は、実施の形態1と同様に、発話者位置判定部12により判定された発話者の位置と、意図理解部15により抽出された相対位置関係を示す単語とに基づいて、意図理解部15により判別された操作機器に対する操作内容の実行場所を特定する。この際、実施の形態2では、対話管理部16は、操作機器の実行場所特定において、乗員検知部19により検知された乗員の着座状態を考慮する。
 図8Aは、実施の形態2に係る音声対話制御装置10が搭載された車両1の構成例を示す平面図である。図8Bは、実施の形態2において発話者の位置と操作機器との相対位置関係を示す単語と、操作機器の実行場所との対応関係が定義された相対位置関係解釈テーブル17の一例を示す図である。なお、図8Bの相対位置関係解釈テーブル17では、実施の形態1と同様に、操作機器が存在しない実行場所については、当該実行場所に最も近い操作機器の実行場所が定義されている。
 図8Aに示されるように、車両1の後部には、後席左dのみに乗員が着座している状態である。この状態において運転席aの発話者が「後ろのヒートシータをつけて」と発話した場合、実施の形態1の対話管理部16は、操作機器の実行場所として、図8Bの相対位置関係解釈テーブル17が示す通り、後席右cと後席左dを特定する。これに対し、実施の形態2の対話管理部16は、後席左dに乗員(つまり、利用者)が着座していないため、後席左dを操作機器の実行場所の対象から除外し、後席右cを操作機器の実行場所として特定する。したがって、実施の形態2の対話管理部16は、後席左dに搭載されたヒートシータ33dをオンするための制御信号を、車両制御装置30に出力する。
 なお、乗員検知部19が、居眠り、寒い及び暑い等の体感温度、並びに体調不良等の乗員の状態を検知し、検知した乗員の状態を示す情報を対話管理部16に出力するようにしてもよい。乗員検知部19は、例えば、カメラ40が撮像した画像データから検知された目の開き度合いに基づいて、乗員の居眠りを検知する。また、乗員検知部19は、例えば、サーモカメラが検知した乗員表面温度に基づいて、寒い及び暑い等の体感温度を検知する。また、乗員検知部19は、例えば、当該乗員表面温度に基づいて、乗員の発熱等の体調不良を検知する。この構成において、対話管理部16は、乗員検知部19により検知された乗員の状態に応じて、操作機器の実行場所を特定するようにしてもよい。
 例えば、図8Aの例において、後席左dの乗員のみが居眠り状態にあるとする。この状態において運転席aの発話者が「反対側の窓を開けて」と発話した場合、対話管理部16は、後席左dの乗員の睡眠を妨げないように、後席左dを操作機器の実行場所の対象から除外する。そのため、対話管理部16は、図8Bの相対位置関係解釈テーブル17において運転席aの「反対」に対応する助手席bと後席左dのうち、助手席b側に設けられたパワーウインドウ31bのみを開けるための制御信号を、車両制御装置30に出力する。
 例えば、図8Aの例において、助手席bの乗員が暑がっており、後席左dの乗員が寒がっている状態とする。この状態において運転席aの発話者が「反対側のシートヒータをつけて」と発話した場合、対話管理部16は、助手席bの暑がっている乗員を不快にさせないように、助手席bを操作機器の実行場所の対象から除外する。そのため、対話管理部16は、図8Bの相対位置関係解釈テーブル17において運転席aの「反対」に対応する助手席bと後席左dのうち、後席左dに設けられたヒートシータ33dのみをオンにするための制御信号を、車両制御装置30に出力する。
 次に、実施の形態2に係る音声対話制御装置10のハードウェア構成について説明する。実施の形態2に係る音声対話制御装置10のハードウェア構成は、実施の形態1の図5A及び図5Bに示された構成と図面上は同一であるため、図5A及び図5Bを援用する。
 実施の形態2の音声対話制御装置10における画像解析部18及び乗員検知部19の機能は、メモリ102に格納されるプログラムを実行するプロセッサ101により実現される。または、実施の形態2の音声対話制御装置10における画像解析部18及び乗員検知部19の機能は、専用の処理回路100により実現されてもよい。
 次に、図9、図10A、及び図10Bを参照して、音声対話制御装置10の動作について説明する。
 図9は、実施の形態2に係る音声対話制御装置10による乗員検知動作例を示すフローチャートである。図10Aは、実施の形態2に係る音声対話制御装置10による発話者位置判定動作例を示すフローチャートである。図10Bは、実施の形態2に係る音声対話制御装置10による車両制御装置30の音声操作例を示すフローチャートである。
 まず、図9に示される、乗員検知動作例について説明する。
 ステップST101において、画像解析部18は、一定周期にて、カメラ40が撮像した画像データを取得する。ステップST102において、画像解析部18は、取得した画像データから各乗員の顔及び胴体等における各パーツの特徴量を算出し、乗員検知部19に出力する。
 ステップST103において、乗員検知部19は、画像解析部18により算出された各乗員の特徴量を用いて、どの音声認識対象座席に乗員が着座しているかを検知し、乗員検知結果を対話管理部16に出力する。
 続いて、図10Aに示される、実施の形態2における発話者位置判定動作例について説明する。図10Aのフローチャートに示されるステップST201~ST206の処理は、図6Aのフローチャートに示されるステップST001~ST006の処理と同じであるため、説明を省略する。
 続いて、図10Bに示される、実施の形態2における車両制御装置30の音声操作例について説明する。図10Bのフローチャートに示されるステップST207~ST211の処理は、図6Bのフローチャートに示されるステップST007~ST011の処理と同じであるため、説明を省略する。
 なお、音声対話制御装置10は、図9のフローチャートに示される動作と、図10A及び図10Bに示される動作とを、並行して行う。ここでは、対話管理部16は、ステップST212の処理を行う前に、乗員検知部19から乗員検知結果を取得済みであるものとする。
 ステップST212において、対話管理部16は、相対位置関係解釈テーブル17を参照し、発話者の位置と相対位置関係を示す単語とに対応する操作機器の実行場所を特定する。その際、対話管理部16は、乗員検知部19から取得した乗員検知結果を用い、操作機器の実行場所に対応する座席に乗員が着座していない場合、当該座席を操作機器の実行場所の対象から除外した上で、操作機器の実行場所を特定する。
 ステップST213において、対話管理部16は、特定した実行場所の操作機器に操作内容に対応する動作を実行させるための制御信号を、車両制御装置30に出力する。
 以上のように、実施の形態2の対話管理部16は、発話者の位置と相対位置関係を示す単語とに基づいて特定した実行場所に利用者がいない場合、特定した当該実行場所を、操作機器の実行場所の対象から除外する。これにより、音声対話制御装置10は、利用者がおらず操作機器の動作が必要ない実行場所に対応する操作機器を、動作させないようにすることができる。
 また、実施の形態2の対話管理部16は、発話者の位置と相対位置関係を示す単語とに基づいて特定した実行場所にいる利用者の状態(例えば、居眠り状態)に応じて、特定した当該実行場所を、操作機器の実行場所の対象から除外する。これにより、音声対話制御装置10は、発話者の操作内容に対応する動作を操作機器が実行した場合に、当該操作機器の実行場所にいる利用者に不快な思い(例えば、睡眠妨害)をさせることを防止することができる。
 また、実施の形態2の発話者位置判定部12は、カメラ40によって撮像された画像から検知される発話者の口の動きに基づいて、音声を発話した発話者の位置を判定する。カメラ40によって撮像された画像は、音声ノイズの影響を受けない。そのため、音声対話制御装置10は、騒音の影響を受けずに発話者の位置を判定することができる。
 なお、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、各実施の形態の任意の構成要素の変形、又は各実施の形態の任意の構成要素の省略が可能である。
 この発明に係る音声対話制御装置は、発話者の発話音声に相対位置表現が含まれる場合でも発話者の意図通りに操作機器の動作を実行させるようにしたので、車両、会議室、及び家庭の部屋等に設置されている操作機器に対する音声による操作を制御する音声対話制御装置等に用いるのに適している。
 1 車両、10 音声対話制御装置、11 音声入力部、12 発話者位置判定部、13 音声信号処理部、14 音声認識部、15 意図理解部、16 対話管理部、17 相対位置関係解釈テーブル、18 画像解析部、19 乗員検知部、20 集音装置、20-1~20-N マイクロホン、30 車両制御装置、31,31a~31d パワーウインドウ(操作機器)、32 エアコン(操作機器)、33,33a~33d ヒートシータ(操作機器)、34 ディスプレイ(操作機器)、40 カメラ(撮像装置)、100 処理回路、101 プロセッサ、102 メモリ、a 運転席、b 助手席、c 後席右、d 後席左。

Claims (10)

  1.  複数の実行場所それぞれで独立して動作可能な複数の操作機器に対する、音声による操作を制御する音声対話制御装置であって、
     音声を発話した発話者の位置を判定する発話者位置判定部と、
     前記発話者が発話した前記音声の内容を認識する音声認識部と、
     前記音声認識部により認識された前記音声の内容に基づいて前記発話者の発話の意図を理解することにより前記発話者が操作しようとする操作機器と操作内容を判別すると共に、前記音声の中から前記発話者の位置と前記操作機器との相対位置関係を示す単語を抽出する意図理解部と、
     前記発話者位置判定部により判定された前記発話者の位置と前記意図理解部により抽出された前記相対位置関係を示す単語とに基づいて、前記意図理解部により判別された前記操作機器の実行場所を特定し、特定した前記実行場所の前記操作機器に前記操作内容に対応する動作を実行させるための制御信号を出力する対話管理部とを備えることを特徴とする音声対話制御装置。
  2.  前記発話者の位置と前記操作機器との相対位置関係を示す単語と、前記操作機器の実行場所との対応関係が定義されたテーブルを備え、
     前記対話管理部は、前記テーブルを参照して前記意図理解部により判別された前記操作機器の実行場所を特定することを特徴とする請求項1記載の音声対話制御装置。
  3.  前記対話管理部は、前記発話者の位置と前記相対位置関係を示す単語とに基づいて特定した実行場所に対応する操作機器が存在しない場合、前記複数の操作機器のうちの前記実行場所に最も近い操作機器を選択することを特徴とする請求項1記載の音声対話制御装置。
  4.  前記発話者位置判定部は、発話者が発話する音声を集音するマイクロホンの位置、発話者が発話する音声を集音するアレイマイクから得られる当該音声の到来方向、又は撮像装置によって撮像された画像から検知される発話者の口の動きに基づいて、音声を発話した発話者の位置を判定することを特徴とする請求項1記載の音声対話制御装置。
  5.  前記対話管理部は、前記実行場所の前記操作機器に対する前記操作内容が、前記発話者位置判定部により判定された位置の前記発話者に許可されている場合、前記実行場所の前記操作機器に前記操作内容に対応する動作を実行させるための制御信号を出力することを特徴とする請求項1記載の音声対話制御装置。
  6.  前記対話管理部は、前記発話者の過去の操作履歴と、前記発話者位置判定部により判定された前記発話者の位置と、前記意図理解部により抽出された前記相対位置関係を示す単語とに基づいて、前記意図理解部により判別された前記操作機器の実行場所を特定することを特徴とする請求項1記載の音声対話制御装置。
  7.  前記対話管理部は、前記発話者の位置と前記相対位置関係を示す単語とに基づいて特定した実行場所に利用者がいない場合、特定した前記実行場所を、操作機器の実行場所の対象から除外することを特徴とする請求項1記載の音声対話制御装置。
  8.  前記対話管理部は、前記発話者の位置と前記相対位置関係を示す単語とに基づいて特定した実行場所にいる利用者の状態に応じて、特定した前記実行場所を、操作機器の実行場所の対象から除外することを特徴とする請求項1記載の音声対話制御装置。
  9.  前記対話管理部は、前記発話者の位置と前記相対位置関係を示す単語とに基づいて特定した実行場所にいる利用者が居眠り状態にある場合、前記居眠り状態にある前記利用者がいる実行場所を、操作機器の実行場所の対象から除外することを特徴とする請求項1記載の音声対話制御装置。
  10.  複数の実行場所それぞれで独立して動作可能な複数の操作機器に対する、音声による操作を制御する音声対話制御方法であって、
     発話者位置判定部が、音声を発話した発話者の位置を判定し、
     音声認識部が、前記発話者が発話した前記音声の内容を認識し、
     意図理解部が、前記音声認識部により認識された前記音声の内容に基づいて前記発話者の発話の意図を理解することにより前記発話者が操作しようとする操作機器と操作内容を判別すると共に、前記音声の中から前記発話者の位置と前記操作機器との相対位置関係を示す単語を抽出し、
     対話管理部が、前記発話者位置判定部により判定された前記発話者の位置と前記意図理解部により抽出された前記相対位置関係を示す単語とに基づいて、前記意図理解部により判別された前記操作機器の実行場所を特定し、特定した前記実行場所に対応する前記操作機器に対して、前記意図理解部により判別された前記操作内容に対応する制御信号を出力することを特徴とする音声対話制御方法。
PCT/JP2019/021599 2019-05-30 2019-05-30 音声対話制御装置及び音声対話制御方法 WO2020240789A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/021599 WO2020240789A1 (ja) 2019-05-30 2019-05-30 音声対話制御装置及び音声対話制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/021599 WO2020240789A1 (ja) 2019-05-30 2019-05-30 音声対話制御装置及び音声対話制御方法

Publications (1)

Publication Number Publication Date
WO2020240789A1 true WO2020240789A1 (ja) 2020-12-03

Family

ID=73552766

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/021599 WO2020240789A1 (ja) 2019-05-30 2019-05-30 音声対話制御装置及び音声対話制御方法

Country Status (1)

Country Link
WO (1) WO2020240789A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022116285A (ja) * 2021-06-03 2022-08-09 阿波▲羅▼智▲聯▼(北京)科技有限公司 車両に対する音声処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014196038A1 (ja) * 2013-06-05 2014-12-11 三菱電機株式会社 視線検知による情報処理装置および情報処理方法
JP2018194810A (ja) * 2017-05-15 2018-12-06 ネイバー コーポレーションNAVER Corporation デバイス制御方法及び電子機器
JP2019061334A (ja) * 2017-09-25 2019-04-18 Kddi株式会社 機器制御装置、機器制御方法及び機器制御システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014196038A1 (ja) * 2013-06-05 2014-12-11 三菱電機株式会社 視線検知による情報処理装置および情報処理方法
JP2018194810A (ja) * 2017-05-15 2018-12-06 ネイバー コーポレーションNAVER Corporation デバイス制御方法及び電子機器
JP2019061334A (ja) * 2017-09-25 2019-04-18 Kddi株式会社 機器制御装置、機器制御方法及び機器制御システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022116285A (ja) * 2021-06-03 2022-08-09 阿波▲羅▼智▲聯▼(北京)科技有限公司 車両に対する音声処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム
JP7383761B2 (ja) 2021-06-03 2023-11-20 阿波▲羅▼智▲聯▼(北京)科技有限公司 車両に対する音声処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム

Similar Documents

Publication Publication Date Title
EP3414759B1 (en) Techniques for spatially selective wake-up word recognition and related systems and methods
US20230178077A1 (en) Techniques for wake-up work recognition and related systems and methods
KR102293063B1 (ko) 사용자 정의 가능한 웨이크업 음성 명령
JP4086280B2 (ja) 音声入力システム、音声入力方法及び音声入力プログラム
US11348581B2 (en) Multi-modal user interface
US20180090138A1 (en) System and method for localization and acoustic voice interface
CN111370014B (zh) 多流目标-语音检测和信道融合的系统和方法
JP3910898B2 (ja) 指向性設定装置、指向性設定方法及び指向性設定プログラム
CN108320739B (zh) 根据位置信息辅助语音指令识别方法和装置
WO2020173156A1 (zh) 用于控制多个扬声器播放音频的方法、装置和电子设备
WO2007138503A1 (en) Method of driving a speech recognition system
JP2006251266A (ja) 視聴覚連携認識方法および装置
CN110402584A (zh) 车内通话控制装置、车内通话系统以及车内通话控制方法
EP3654170B1 (en) Electronic apparatus and wifi connecting method thereof
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP6847324B2 (ja) 音声認識装置、音声認識システム、及び音声認識方法
WO2020240789A1 (ja) 音声対話制御装置及び音声対話制御方法
CN109243457B (zh) 基于语音的控制方法、装置、设备及存储介质
JP2005354223A (ja) 音源情報処理装置、音源情報処理方法、音源情報処理プログラム
JP2023545981A (ja) 動的分類器を使用したユーザ音声アクティビティ検出
WO2019175960A1 (ja) 音声処理装置および音声処理方法
KR101710695B1 (ko) 차량용 음성 인식을 위한 마이크로폰 제어 시스템 및 그 제어 방법
WO2022038724A1 (ja) 音声対話装置、および、音声対話装置における対話対象判定方法
KR20230092180A (ko) 차량 및 그의 제어방법
US20240212689A1 (en) Speaker-specific speech filtering for multiple users

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19931094

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19931094

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP