WO2021161377A1 - 発話者推定装置および発話者推定方法 - Google Patents
発話者推定装置および発話者推定方法 Download PDFInfo
- Publication number
- WO2021161377A1 WO2021161377A1 PCT/JP2020/005115 JP2020005115W WO2021161377A1 WO 2021161377 A1 WO2021161377 A1 WO 2021161377A1 JP 2020005115 W JP2020005115 W JP 2020005115W WO 2021161377 A1 WO2021161377 A1 WO 2021161377A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- speaker
- occupant
- voice
- opening degree
- unit
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 66
- 238000001514 detection method Methods 0.000 claims abstract description 18
- 230000005236 sound signal Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 description 50
- 230000006870 function Effects 0.000 description 13
- 230000008859 change Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Definitions
- the present disclosure relates to a speaker estimation device that estimates a speaker.
- Patent Document 1 proposes a voice recognition control system that controls an in-vehicle device based on a voice emitted by an occupant in a vehicle and a position and direction in which the voice is emitted.
- a method of estimating a speaker from among the occupants of a vehicle a method of estimating a speaker based on a difference in magnitude and phase of a plurality of voice signals detected by a microphone array composed of a plurality of microphones.
- a method of estimating the speaker by analyzing the image in the vehicle taken by the camera and comparing the timing at which the sound is detected with the movement of the lips of each occupant is mentioned.
- the voice outside the vehicle or the voice of an audio device may be erroneously detected, and the speaker may be erroneously detected. There is.
- a person since a person may open his / her mouth even when he / she is not speaking, it may not be possible to correctly estimate the speaker even if the timing at which the voice is detected is compared with the movement of the mouth of each occupant.
- the present disclosure has been made to solve the above problems, and an object of the present disclosure is to provide a speaker estimation device and a speaker estimation method with high speaker estimation accuracy.
- the speaker estimation device includes a voice signal acquisition unit that acquires a voice signal from a microphone array installed in a vehicle, a voice section detection unit that detects a voice section from the voice signal, and a microphone based on the voice signal.
- the voice arrival direction calculation unit that calculates the voice arrival direction acquired by the array, the image acquisition unit that acquires the image of each occupant of the vehicle taken by the camera, and the opening degree of each occupant's mouth based on the image of each occupant.
- An opening degree calculation unit that calculates the opening degree representing the above, and a speaker estimation unit that estimates the occupant who is the speaker based on the arrival direction of the voice in the voice section and the statistics of the opening degree of each occupant in the voice section. , Equipped with.
- the speaker is estimated by taking into account not only the direction of arrival of the voice but also the statistic of the opening degree of each occupant, erroneous detection of the speaker is prevented.
- the difference between the utterance time and the non-speaking time is likely to appear in the opening degree statistic, it is possible to judge with high accuracy whether or not each occupant is speaking, thereby estimating the speaker with high accuracy. be able to.
- FIG. It is a figure which shows the structure of the speaker estimation apparatus which concerns on Embodiment 1.
- FIG. It is a figure for demonstrating an example of definition of a voice arrival direction. It is a figure which shows the structure of the speaker estimation part in Embodiment 1.
- FIG. It is a flowchart which shows the operation of the speaker estimation apparatus which concerns on Embodiment 1.
- FIG. It is a flowchart which shows the speaker estimation process in Embodiment 1.
- FIG. It is a flowchart which shows the modification of the speaker estimation process in Embodiment 1.
- FIG. It is a flowchart which shows the modification of the speaker estimation process in Embodiment 1.
- FIG. It is a flowchart which shows the modification of the speaker estimation process in Embodiment 1.
- FIG. It is a flowchart which shows the modification of the speaker estimation process in Embodiment 1.
- FIG. It is a flowchart which shows the modification of the speaker estimation process in Embodiment 1.
- FIG. It is
- FIG. 1 It is a figure which shows the hardware configuration example of the speaker estimation device. It is a figure which shows the hardware configuration example of the speaker estimation device. It is a figure which shows the structure of the speaker estimation apparatus which concerns on Embodiment 2.
- FIG. It is a figure which shows the structure of the speaker estimation part in Embodiment 2.
- FIG. It is a flowchart which shows the operation of the speaker estimation apparatus which concerns on Embodiment 2.
- FIG. It is a flowchart which shows the modification of the speaker estimation process in Embodiment 2.
- FIG. 1 It is a flowchart which shows the operation of the threshold
- FIG. It is a flowchart which shows the change example of the operation of the threshold value update part in Embodiment 3. It is a figure which shows the structure of the speaker estimation part in Embodiment 4.
- FIG. 1 It is a flowchart which shows the operation of the threshold
- FIG. 1 It is a flowchart which shows the change example of the operation of the threshold value update part in Embodiment 3. It is a figure which shows the structure of the speaker estimation part in Embodiment 4.
- FIG. 1 is a diagram showing a configuration of an utterance estimation device 10 according to the first embodiment.
- the speaker estimation device 10 is mounted on the vehicle.
- the speaker estimation device 10 may be realized on a portable device that can be brought into a vehicle, such as a mobile phone or a smartphone. Further, a part or all of the processing performed by the speaker estimation device 10 may be performed on a server installed outside the vehicle and capable of communicating with the speaker estimation device 10 mounted on the vehicle.
- the speaker estimation device 10 is connected to the microphone array 21 and the camera 22 installed in the vehicle.
- the microphone array 21 is composed of a plurality of microphones, acquires a voice emitted by a vehicle occupant, and outputs a voice signal corresponding to the acquired voice.
- the camera 22 is installed at a position where the face of the occupant in the vehicle can be photographed, and outputs an image of the photographed occupant's face.
- the camera 22 may be provided for each seat, or one camera 22 may photograph the occupants of all the seats in the vehicle.
- the speaker estimation device 10 includes a voice signal acquisition unit 11, a voice section detection unit 12, a voice arrival direction calculation unit 13, an image acquisition unit 14, an aperture degree calculation unit 15, and a speaker estimation unit 16. ing.
- the voice signal acquisition unit 11 acquires a voice signal corresponding to the voice acquired by the microphone array 21 from the microphone array 21.
- the voice section detection unit 12 analyzes the voice signal acquired by the voice signal acquisition unit 11 and detects a voice section which is a section including the voice emitted by the occupant of the vehicle.
- voice section detection VAD
- VAD voice section detection
- the voice arrival direction calculation unit 13 calculates the voice arrival direction (Direction Of Arrival: DOA) acquired by the microphone array 21 based on the voice signal acquired by the voice signal acquisition unit 11.
- DOA Directed Of Arrival
- the microphone array 21 is provided in the center of the front part of the vehicle interior (for example, near the center panel and the rear view mirror), and the direction of arrival of the sound is from the right side of the vehicle. It is assumed that the direction of arrival at 21 is 0 °, the direction of arrival at the microphone array 21 from directly behind the vehicle is 90 °, and the direction of arrival at the microphone array 21 from the left side of the vehicle is 180 °.
- the image acquisition unit 14 acquires images of each occupant taken by the camera 22.
- the opening degree calculation unit 15 analyzes the image of each occupant acquired by the image acquisition unit 14 and calculates the opening degree indicating the degree of opening of the mouth of each occupant. Any method may be used for calculating the opening degree. For example, the distance between the central portion of the upper lip and the central portion of the lower lip may be used as the opening degree.
- the speaker estimation unit 16 includes information on the voice section detected by the voice section detection unit 12, information on the voice arrival direction calculated by the voice arrival direction calculation unit 13, and the opening of each occupant calculated by the opening degree calculation unit 15. Estimate the occupant who is the speaker based on the information of the degree. More specifically, the speaker estimation unit 16 estimates the speaker based on the arrival direction of the voice in the voice section and the statistic of the opening degree of each occupant in the voice section. In the first embodiment, the average value is used as the statistic. That is, the speaker estimation unit 16 of the first embodiment estimates the speaker based on the arrival direction of the voice in the voice section and the average value of the opening degree of each occupant.
- FIG. 3 is a diagram showing the configuration of the speaker estimation unit 16.
- the speaker estimation unit 16 includes a speaker seat candidate calculation unit 161, an opening degree statistic calculation unit 162, and a speaker seat estimation unit 163.
- the speaker seat candidate calculation unit 161 acquires the information of the voice section detected by the voice section detection unit 12 and the information of the voice arrival direction calculated by the voice arrival direction calculation unit 13, and the voice arrival direction in the voice section. Based on, the seat candidates estimated as the speaker's seat (hereinafter referred to as "speaker's seat candidate") are narrowed down.
- the vehicle has five seats: right front seat FR (driver's seat), left front seat FL (passenger seat), right rear seat RR, right rear seat RR, middle rear seat RC, and left rear seat RL.
- the voice arrival direction is ⁇
- the speaker seat candidate calculation unit 161 has three speaker seat candidates: right front seat FR, right rear seat RR, and middle / rear seat RC.
- the speaker seat candidate calculation unit 161 has three speaker seat candidates: right front seat FR, right rear seat RR, and middle / rear seat RC.
- 60 ° ⁇ ⁇ ⁇ 120 ° there are three speaker seat candidates: right rear seat RR, middle rear seat RC, and left rear seat RL, and when 120 ° ⁇ ⁇ 180 °, speaker seat candidates.
- the method of narrowing down speaker seat candidates is not limited to the above example.
- the threshold value of the voice arrival direction (60 ° and 120 ° in the above example) may be appropriately changed according to the positional relationship between the microphone array 21 and the seat, and if the vehicle has more seats, the threshold value may be changed as appropriate.
- the number of thresholds may be increased to further subdivide the speaker seat candidates.
- the voice arrival direction calculation unit 13 may detect a plurality of voice arrival directions. In that case, all the corresponding seats in the plurality of voice arrival directions may be candidates for speaker seats. For example, in the above example, when two voice arrival directions ⁇ , 45 ° and 90 °, are detected, the speaker seat candidate calculation unit 161 selects the speaker seat candidates as the right front seat FR, the right rear seat RR, and the middle rear. There may be four seats RC and left rear seat RL.
- the opening degree statistic calculation unit 162 acquires the information of the voice section detected by the voice section detection unit 12 and the information of the opening degree of each occupant calculated by the opening degree calculation unit 15, and the opening of each occupant in the voice section. Statistic of degree, here average value is calculated.
- the speaker seat estimation unit 163 uses the speaker seat candidate information calculated by the speaker seat candidate calculation unit 161 and the opening degree statistic (average value) of each occupant calculated by the opening degree statistic calculation unit 162. Based on this, the occupant who is the speaker is estimated by estimating the seat of the speaker. More specifically, the speaker seat estimation unit 163 estimates the occupants in the speaker seat candidates whose average value of the opening degree in the voice section is larger than a predetermined threshold value as the speaker. When there are two or more occupants whose average opening degree in the voice section is larger than the threshold value, the speaker seat estimation unit 163 may estimate only the occupant having the largest average opening degree in the voice section as the speaker. Alternatively, it may be determined that there are a plurality of speakers, and all the occupants whose average value of the opening degree in the voice section is larger than the threshold value may be estimated as speakers.
- the speaker seat estimation unit 163 estimates the speaker based on the statistic (average value) of the opening degree of each occupant in the voice section. Since a person opens his mouth more when speaking than when not speaking, the average value of the degree of opening tends to show a difference between when speaking and when not speaking. Therefore, the speaker seat candidate calculation unit 161 can determine with high accuracy whether or not each occupant is a speaker, and it is possible to prevent an occupant who is not speaking from being mistakenly estimated as a speaker.
- the speaker seat candidate calculation unit 161 estimates the seat as the speaker's seat by the speaker seat estimation unit 163 based on the arrival direction of the voice in the voice section. Candidates (speaker seat candidates) are narrowed down in advance, which further suppresses false detection of the speaker. Therefore, according to the speaker estimation device 10 according to the first embodiment, the speaker can be estimated with high accuracy.
- the speaker estimation result by the speaker estimation device 10 is output to an in-vehicle device that supports the voice recognition function.
- the speaker estimation device 10 may be built in an in-vehicle device that supports the voice recognition function.
- An air conditioner, an audio device, or the like can be considered as an in-vehicle device to which the speaker estimation device 10 is effectively applied.
- the speaker estimation device 10 when the speaker estimation device 10 is applied to a voice-operable air conditioner, it is possible to change the temperature setting only for the seat of the occupant by specifying the seat of the occupant who has performed the voice operation by the air conditioner. ..
- the speaker estimation device 10 when the speaker estimation device 10 is applied to an audio device capable of voice operation, the volume of the speaker or headphones is adjusted only for the seat of the occupant by specifying the seat of the occupant who has performed the voice operation by the audio device. Etc. become possible. Further, when the speaker estimation device 10 has a function of recognizing individual occupants as in the second embodiment described later, a simple voice operation (for example, a voice operation of "playing usual music") Therefore, it is possible to contribute to the improvement of convenience, such as playing the favorite music of the occupant who performed the voice operation.
- FIG. 4 is a flowchart showing the operation of the speaker estimation device 10 according to the first embodiment.
- the audio signal acquisition unit 11 acquires an audio signal from the microphone array 21 installed in the vehicle (step S101). Then, the voice section detection unit 12 detects the voice section from the voice signal (step S102), and the voice arrival direction calculation unit 13 calculates the voice arrival direction acquired by the microphone array 21 based on the voice signal (step S102). S103).
- the image acquisition unit 14 acquires images of each occupant of the vehicle taken by the camera 22 (step S104). Then, the opening degree calculation unit 15 calculates the opening degree indicating the opening degree of each occupant's mouth based on the image of each occupant (step S105).
- the speaker estimation unit 16 performs a process of estimating the occupant who is the speaker (speaker estimation process) based on the arrival direction of the voice in the voice section and the statistic of the opening degree of each occupant in the voice section. (Step S106).
- FIG. 5 is a flowchart of the speaker estimation process.
- the speaker seat candidate calculation unit 161 determines the seat candidate (speaker) that the speaker seat estimation unit 163 estimates as the speaker's seat based on the arrival direction of the voice in the voice section. (Seat candidates) are narrowed down (step S201). Further, the opening degree statistic calculation unit 162 calculates the average value of the opening degree of each occupant in the voice section (step S202).
- the speaker seat estimation unit 163 estimates the occupant who is the speaker based on the information of the speaker seat candidate and the average value of the opening degree of each occupant.
- the speaker seat estimation unit 163 confirms whether or not there is an occupant who is a speaker seat candidate and whose average opening degree is larger than the threshold value (step S203). If there is such an occupant (YES in step S203), the speaker seat estimation unit 163 estimates the occupant as the speaker (step S204). If there is no such occupant (NO in step S203), the speaker seat estimation unit 163 determines that there is no speaker in the vehicle (step S205). The speaker seat estimation unit 163 outputs the estimation result of the speaker (step S206), and the speaker estimation process ends.
- the speaker estimation device 10 repeatedly executes the operations shown in FIGS. 4 and 5. If the voice section is not detected in step S102 of FIG. 4, the processes of steps S103 to S106 may be omitted. That is, the processing of steps S103 to S106 may be performed only when the voice section is not detected in step S102.
- the statistic of the opening degree of the occupant used in the speaker estimation process is used as the average value, but it may be used as the standard deviation. Since a person moves his or her mouth more frequently when speaking than when not speaking, the standard deviation of the opening degree tends to show a difference between when speaking and when not speaking. Therefore, even if the standard deviation is used as the statistic of the opening degree, the speaker seat estimation unit 163 can determine with high accuracy whether or not each occupant is a speaker, and the occupant who is not speaking is erroneously estimated as the speaker. Is suppressed.
- FIG. 6 shows a flowchart of the speaker estimation process when the aperture statistic is used as the standard deviation.
- the speaker seat candidate calculation unit 161 narrows down the speaker seat candidates based on the arrival direction of the voice in the voice section (step S211), and the opening degree statistic calculation unit 162. Calculates the standard deviation of the opening degree of each occupant in the voice section (step S212).
- the speaker seat estimation unit 163 confirms whether or not there is a occupant who is a speaker seat candidate and whose standard deviation of the opening degree in the voice section is larger than the threshold value (step S213). If there is such an occupant (YES in step S213), the speaker seat estimation unit 163 estimates the occupant as the speaker (step S214). If there is no such occupant (NO in step S213), the speaker seat estimation unit 163 determines that there is no speaker in the vehicle (step S215). The speaker seat estimation unit 163 outputs the estimation result of the speaker (step S216), and the speaker estimation process ends.
- the statistic of the opening degree of the occupant used in the speaker estimation process may be both the average value and the standard deviation.
- FIG. 7 shows a flowchart of the speaker estimation process when the aperture statistic is both the average value and the standard deviation.
- the speaker seat candidate calculation unit 161 narrows down the speaker seat candidates based on the arrival direction of the voice in the voice section (step S221), and the opening degree statistic calculation unit 162. Calculates the average value and standard deviation of the opening degree of each occupant in the voice section (step S222).
- the speaker seat estimation unit 163 confirms whether or not there is an occupant who is a speaker seat candidate and whose both the average value and the standard deviation of the opening degree in the voice section are larger than the respective threshold values (step S223). If there is such an occupant (YES in step S223), the speaker seat estimation unit 163 estimates the occupant as the speaker (step S224). If there is no such occupant (NO in step S223), the speaker seat estimation unit 163 determines that there is no speaker in the vehicle (step S225). The speaker seat estimation unit 163 outputs the speaker estimation result (step S226), and the speaker estimation process ends.
- FIG. 7 an example is shown in which an occupant whose both the average value and the standard deviation of the opening degree in the voice section are larger than the respective thresholds is estimated as the speaker, but the average value and the standard deviation of the opening degree in the voice section are estimated. An occupant whose only one is greater than the threshold may also be presumed to be the speaker.
- FIG. 8 shows a flowchart of the speaker estimation process in the case where an occupant whose average value and standard deviation of the opening degree in the voice section is larger than the threshold value is estimated as the speaker.
- the speaker seat candidate calculation unit 161 narrows down the speaker seat candidates based on the arrival direction of the voice in the voice section (step S231), and the opening degree statistic calculation unit 162. Calculates the average value and standard deviation of the opening degree of each occupant in the voice section (step S232).
- the speaker seat estimation unit 163 confirms whether or not there is an occupant who is a speaker seat candidate and at least one of the average value and the standard deviation of the opening degree in the voice section is larger than the threshold value (step S233). If there is such an occupant (YES in step S233), the speaker seat estimation unit 163 estimates the occupant as the speaker (step S234). If there is no such occupant (NO in step S233), the speaker seat estimation unit 163 determines that there is no speaker in the vehicle (step S235). The speaker seat estimation unit 163 outputs the estimation result of the speaker (step S236), and the speaker estimation process ends.
- FIG. 9 and 10 are diagrams showing an example of the hardware configuration of the speaker estimation device 10, respectively.
- Each function of the component of the speaker estimation device 10 shown in FIG. 1 is realized by, for example, the processing circuit 50 shown in FIG. That is, the speaker estimation device 10 acquires a voice signal from the microphone array 21 installed in the vehicle, detects a voice section from the voice signal, and determines the arrival direction of the voice acquired by the microphone array 21 based on the voice signal. Calculated, the image of each occupant of the vehicle taken by the camera 22 is acquired, the opening degree indicating the degree of opening of each occupant's mouth is calculated based on the image of each occupant, and the voice arrival direction and the voice section in the voice section.
- the processing circuit 50 for estimating the occupant who is the speaker based on the statistic of the opening degree of each occupant in the above is provided.
- the processing circuit 50 may be dedicated hardware, or may be a processor (Central Processing Unit (CPU), processing unit, arithmetic unit, microprocessor, microprocessor, etc.) that executes a program stored in the memory. It may be configured by using a DSP (also called a Digital Signal Processor).
- CPU Central Processing Unit
- DSP also called a Digital Signal Processor
- the processing circuit 50 may be, for example, a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, an ASIC (Application Specific Integrated Circuit), or an FPGA (Field-Programmable). GateArray), or a combination of these, etc.
- the functions of the components of the speaker estimation device 10 may be realized by individual processing circuits, or these functions may be collectively realized by one processing circuit.
- FIG. 10 shows an example of the hardware configuration of the speaker estimation device 10 when the processing circuit 50 is configured by using the processor 51 that executes the program.
- the function of the component of the speaker estimation device 10 is realized by software (software, firmware, or a combination of software and firmware).
- the software or the like is described as a program and stored in the memory 52.
- the processor 51 realizes the functions of each part by reading and executing the program stored in the memory 52.
- the speaker estimation device 10 when executed by the processor 51, the process of acquiring a voice signal from the microphone array 21 installed in the vehicle, the process of detecting a voice section from the voice signal, and the voice signal The process of calculating the arrival direction of the voice acquired by the microphone array 21 based on the process, the process of acquiring the image of each occupant of the vehicle taken by the camera 22, and the opening degree of each occupant's mouth based on the image of each occupant.
- the process of calculating the represented opening degree and the process of estimating the occupant who is the speaker based on the arrival direction of the voice in the voice section and the statistics of the opening degree of each occupant in the voice section are executed.
- a memory 52 for storing a program to be used is provided. In other words, it can be said that this program causes the computer to execute the procedure or method of operation of the components of the speaker estimation device 10.
- the memory 52 is a non-volatile or non-volatile memory such as a RAM (RandomAccessMemory), a ROM (ReadOnlyMemory), a flash memory, an EPROM (ErasableProgrammableReadOnlyMemory), and an EEPROM (ElectricallyErasableProgrammableReadOnlyMemory). Volatile semiconductor memory, HDD (Hard Disk Drive), magnetic disk, flexible disk, optical disk, compact disk, mini disk, DVD (Digital Versatile Disc) and its drive device, etc., or any storage medium used in the future. You may.
- the present invention is not limited to this, and a configuration in which a part of the components of the speaker estimation device 10 is realized by dedicated hardware and another part of the components is realized by software or the like may be used.
- the function is realized by the processing circuit 50 as dedicated hardware, and for some other components, the processing circuit 50 as the processor 51 is stored in the memory 52. It is possible to realize the function by reading and executing it.
- the speaker estimation device 10 can realize each of the above-mentioned functions by hardware, software, or a combination thereof.
- FIG. 11 is a diagram showing the configuration of the speaker estimation device 10 according to the second embodiment.
- the configuration of the speaker estimation device 10 of FIG. 11 is the configuration of FIG. 1 with the addition of the occupant recognition unit 17.
- the occupant recognition unit 17 recognizes individual occupants based on the images of each occupant taken by the camera 22.
- An image of a user of a vehicle equipped with the speaker estimation device 10 (a person who is expected to board the vehicle) is registered in advance in the occupant recognition unit 17, and the occupant recognition unit 17 is photographed by the camera 22.
- collating the image of each occupant of the vehicle with the image of the registered user it is possible to recognize who each occupant is.
- FIG. 12 is a diagram showing the configuration of the speaker estimation unit 16 in the second embodiment.
- the configuration of the speaker estimation unit 16 in FIG. 12 is a configuration in which a threshold value setting unit 164 is added to the configuration of FIG.
- the threshold value setting unit 164 sets the threshold value of the opening degree statistic used in the speaker estimation process for each occupant based on the recognition result of the occupant by the occupant recognition unit 17.
- a threshold value for each user of the vehicle is registered in advance in the threshold value setting unit 164, and the threshold value setting unit 164 assigns a threshold value corresponding to the occupant to each occupant based on the recognition result of the occupant.
- a predetermined threshold value for an unregistered user is assigned to an occupant (for example, an unregistered occupant) that cannot be recognized by the occupant recognition unit 17.
- the estimation accuracy of the speaker can be further improved by setting a threshold value suitable for each occupant of the vehicle.
- the threshold value of the user may be set to a predetermined initial value so that the user can adjust the threshold value as needed. For example, a user who is judged to be a speaker even though he / she is not speaking raises his / her own threshold, and a user who is not judged to be a speaker even though he / she speaks lowers his / her own threshold to improve the estimation accuracy of the speaker. Can be made to.
- the past image of the user taken by the camera 22 is analyzed to calculate the statistic of the opening degree in the voice section of the user and the statistic of the opening degree in the non-voice section, and the value of both is used to calculate the statistic of the opening degree of the user.
- the speaker estimation device 10 or an external device may have a function of setting an appropriate threshold value (for example, an intermediate value between the two).
- FIG. 13 is a flowchart showing the operation of the speaker estimation device 10 according to the second embodiment.
- the flow of FIG. 13 is obtained by adding step S107 after step S104 with respect to the flow of FIG.
- the occupant recognition unit 17 performs a process of recognizing each occupant based on the image of each occupant of the vehicle acquired by the image acquisition unit 14. Since steps S101 to S104 are the same as the flow of FIG. 4, the description here will be omitted.
- FIG. 14 is a flowchart showing the speaker estimation process according to the second embodiment.
- the flow of FIG. 14 is obtained by adding step S207 after step S201 to the flow of FIG.
- an average value is used as a statistic of the opening degree of the occupant used in the speaker estimation process.
- step S207 the threshold value setting unit 164 sets the threshold value of the average value of the opening degree used in the speaker estimation process for each occupant based on the recognition result of the occupant by the occupant recognition unit 17.
- Steps S201 to S206 are the same as the flow of FIG. However, the determination process in step S203 is performed using the threshold value for each occupant set in step S207.
- the statistic of the opening degree of the occupant used in the speaker estimation process may be a standard deviation.
- FIG. 15 shows a flowchart of the speaker estimation process when the aperture statistic is the standard deviation. The flow of FIG. 15 is obtained by adding step S217 after step S201 to the flow of FIG.
- the threshold value setting unit 164 sets the threshold value of the standard deviation of the opening degree used in the speaker estimation process for each occupant based on the recognition result of the occupant by the occupant recognition unit 17.
- Steps S211 to S216 are the same as the flow of FIG. However, the determination process in step S213 is performed using the threshold value for each occupant set in step S217.
- the statistic of the opening degree of the occupant used in the speaker estimation process may be both the average value and the standard deviation. ..
- FIG. 16 is a diagram showing the configuration of the speaker estimation unit 16 in the third embodiment.
- the configuration of the speaker estimation unit 16 in FIG. 16 is the configuration in which the threshold value update unit 165 is added to the configuration of FIG.
- the overall configuration of the speaker estimation device 10 is the same as that of the first embodiment (FIG. 1).
- the threshold value update unit 165 updates the threshold value of the aperture statistic used in the speaker estimation process.
- the threshold value update by the threshold value update unit 165 is performed when there is an occupant among the occupants in the speaker seat candidate who satisfies the condition for which the statistic of the opening degree in the voice section satisfies a predetermined condition. Specifically, when there is an occupant whose opening degree statistic in the voice section is larger than the threshold value, or when there is an occupant whose difference between the opening degree statistic and the threshold value in the voice section is smaller than a certain value.
- the threshold is updated. That is, the threshold is updated when there is an occupant who is presumed to be the speaker, or when there is an occupant who is not presumed to be the speaker but whose aperture statistic is close to the threshold.
- the threshold value update unit 165 updates the threshold value based on the statistic of the opening degree of the occupant satisfying the above conditions. Specifically, the threshold value update unit 165 updates the threshold value by setting a weighted average value of the current value of the threshold value and the statistic of the opening degree of the occupant satisfying the above conditions as a new value of the threshold value. do.
- ⁇ (0 ⁇ ⁇ 1) in the equation (1) is a coefficient that defines the degree of influence that S has on the update of the threshold value, and the larger ⁇ is, the larger the amount of change in the threshold value at the time of update is.
- the threshold value When the threshold value is updated based on the equation (1), the threshold value increases every time there is an occupant whose opening degree statistic exceeds the threshold value, and although it was not estimated as a speaker, the opening degree statistic is the threshold value. The threshold is lowered each time there is an occupant approaching. As a result, the detection sensitivity of the speaker (the degree to which the occupant is estimated as the speaker) is appropriately adjusted.
- the detection sensitivity of the speaker may fluctuate due to the influence of the surrounding environment such as brightness.
- the threshold value updating unit 165 By updating the threshold value by the threshold value updating unit 165, the detection sensitivity of the speaker is stabilized, and the estimation accuracy of the speaker can be further improved.
- FIG. 17 is a flowchart showing the operation of the threshold value update unit 165.
- the threshold value update unit 165 executes the process of FIG. 17 every time the speaker estimation process is performed.
- FIG. 17 is an example in which the statistic of the opening degree of the occupant used in the speaker estimation process is an average value.
- the speaker seat estimation unit 163 determines whether or not there is an occupant whose average opening degree in the voice section is larger than the threshold value (that is, the occupant estimated as the speaker). Is confirmed (step S301). If there is no occupant satisfying the condition of step S301 (NO in step S301), it is confirmed whether or not there is an occupant whose difference between the average value of the opening degree and the threshold value in the voice section is smaller than a certain value (step S302). ..
- the threshold value update unit 165 sets the threshold value using the equation (1) based on the average value of the opening degree of the occupant. Update (step S303). If there is no occupant satisfying the conditions of step S301 or step S302 (NO in step S302), the threshold value is not updated.
- the statistic of the opening degree of the occupant used in the speaker estimation process may be a standard deviation.
- FIG. 18 shows a flowchart showing the operation of the threshold value update unit 165 when the aperture statistic is the standard deviation.
- the speaker seat estimation unit 163 determines whether or not there is an occupant whose standard deviation of the opening degree in the voice section is larger than the threshold value (that is, the occupant estimated as the speaker). Is confirmed (step S311). If there is no occupant satisfying the condition of step S311 (NO in step S311), it is confirmed whether or not there is an occupant whose difference between the standard deviation of the opening degree and the threshold value in the voice section is smaller than a certain value (step S312). ..
- the threshold value update unit 165 sets the threshold value using the equation (1) based on the standard deviation of the opening degree of the occupant. Update (step S313). If there is no occupant satisfying the conditions of step S311 or step S312 (NO in step S312), the threshold value is not updated.
- the statistic of the opening degree of the occupant used in the speaker estimation process is both the average value and the standard deviation as in the flow of FIG. 7 or FIG. Both of FIG. 18 may be performed to update both the mean threshold and the standard deviation threshold.
- FIG. 19 is a diagram showing the configuration of the speaker estimation unit 16 in the fourth embodiment.
- the configuration of the speaker estimation unit 16 in FIG. 19 is the configuration in which the threshold value update unit 165 is added to the configuration of FIG.
- the overall configuration of the speaker estimation device 10 according to the fourth embodiment is the same as that of the second embodiment (FIG. 11).
- the threshold value update unit 165 of the fourth embodiment also updates the threshold value of the aperture statistic used in the speaker estimation process.
- the threshold value updating unit 165 of the fourth embodiment updates the threshold value for each user of the vehicle stored in the threshold value setting unit 164.
- the update processing of the threshold value of each user is performed using only the statistic of the opening degree of the user corresponding to the threshold value to be updated. Therefore, the timing at which the threshold value is updated, and the direction and amount of change in the threshold value due to the update differ from user to user.
- the threshold value is updated according to the individual difference in the opening degree and the change in the environment, so that the estimation accuracy of the speaker can be further improved.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
発話者推定装置(10)において、音声信号取得部(11)は、車両内に設置されたマイクロホンアレイ(21)から音声信号を取得する。音声区間検出部(12)は、音声信号から音声区間を検出する。音声到来方向算出部(13)は、音声信号に基づいてマイクロホンアレイ(21)が取得した音声の到来方向を算出する。画像取得部(14)は、カメラ(22)が撮影した車両の各乗員の画像を取得する。開口度算出部(15)は、各乗員の画像に基づいて各乗員の口の開き具合を表す開口度を算出する。発話者推定部(16)は、音声区間における音声の到来方向および音声区間における各乗員の開口度の統計量に基づいて、発話者である乗員を推定する。
Description
本開示は、発話者を推定する発話者推定装置に関するものである。
例えば下記の特許文献1には、車両内の乗員が発した音声と、当該音声が発せられた位置および方向とに基づいて車載装置を制御する音声認識制御システムが提案されている。特許文献1においては、車両の乗員のうちから発話者を推定する方法として、複数のマイクからなるマイクロホンアレイが検出した複数の音声信号の大きさや位相の差に基づいて発話者を推定する方法、あるいは、カメラで撮影した車両内の映像を解析し、音声が検出されたタイミングと各乗員の唇の動きとを比較することで発話者を推定する方法が挙げられている。
マイクロホンアレイが検出した複数の音声信号の大きさや位相の差に基づいて発話者を推定する方法では、例えば車両外の音声やオーディオ機器の音声が誤って検出され、発話者が誤検出されるおそれがある。また、人は発話してない場合も口を開くことがあるため、音声が検出されたタイミングと各乗員の口の動きとを比較しても正しく発話者を推定できないことがある。
本開示は以上のような課題を解決するためになされたものであり、発話者の推定精度の高い発話者推定装置および発話者推定方法を提供することを目的とする。
本開示に係る発話者推定装置は、車両内に設置されたマイクロホンアレイから音声信号を取得する音声信号取得部と、音声信号から音声区間を検出する音声区間検出部と、音声信号に基づいてマイクロホンアレイが取得した音声の到来方向を算出する音声到来方向算出部と、カメラが撮影した車両の各乗員の画像を取得する画像取得部と、各乗員の画像に基づいて各乗員の口の開き具合を表す開口度を算出する開口度算出部と、音声区間における音声の到来方向と音声区間における各乗員の開口度の統計量とに基づいて、発話者である乗員を推定する発話者推定部と、を備える。
本開示によれば、音声の到来方向だけでなく各乗員の開口度の統計量を加味して発話者が推定されるため、発話者の誤検出が防止される。また、開口度の統計量には発話時と非発話時との差が現れやすいため、各乗員が発話中か否かを高い精度で判定でき、それにより、発話者の推定を高い精度で行うことができる。
本開示の目的、特徴、態様、および利点は、以下の詳細な説明と添付図面とによって、より明白となる。
<実施の形態1>
図1は、実施の形態1に係る発話者推定装置10の構成を示す図である。ここでは、発話者推定装置10が車両に搭載されているものと仮定する。ただし、発話者推定装置10は、例えば携帯電話やスマートフォンなど、車両に持ち込み可能な携帯型の機器上で実現されていてもよい。また、発話者推定装置10が行う処理の一部または全部が、車両の外部に設置され、車両に搭載された発話者推定装置10と通信可能なサーバー上で行われてもよい。
図1は、実施の形態1に係る発話者推定装置10の構成を示す図である。ここでは、発話者推定装置10が車両に搭載されているものと仮定する。ただし、発話者推定装置10は、例えば携帯電話やスマートフォンなど、車両に持ち込み可能な携帯型の機器上で実現されていてもよい。また、発話者推定装置10が行う処理の一部または全部が、車両の外部に設置され、車両に搭載された発話者推定装置10と通信可能なサーバー上で行われてもよい。
発話者推定装置10は、車両内に設置されたマイクロホンアレイ21およびカメラ22に接続されている。マイクロホンアレイ21は、複数のマイクから構成されており、車両の乗員が発した音声を取得して、取得した音声に対応する音声信号を出力する。カメラ22は、車両内の乗員の顔を撮影可能な位置に設置されており、撮影した乗員の顔の画像を出力する。カメラ22は座席ごとに設けられてもよいし、1台のカメラ22で車両内の全座席の乗員を撮影してもよい。
図1のように、発話者推定装置10は、音声信号取得部11、音声区間検出部12、音声到来方向算出部13、画像取得部14、開口度算出部15および発話者推定部16を備えている。
音声信号取得部11は、マイクロホンアレイ21が取得した音声に対応する音声信号を、マイクロホンアレイ21から取得する。音声区間検出部12は、音声信号取得部11が取得した音声信号を解析して、車両の乗員が発した音声が含まれる区間である音声区間を検出する。音声区間検出(Voice Activity Detection;VAD)技術としては、例えば音声信号の振幅パワーに基づくものや、音声信号のパターンマッチングによるものなど様々なものがあるが、音声区間検出部12が用いるVAD技術に制約はなく、どのようなものでもよい。
音声到来方向算出部13は、音声信号取得部11が取得した音声信号に基づいて、マイクロホンアレイ21が取得した音声の到来方向(Direction Of Arrival:DOA)を算出する。音声到来方向を算出する技術としては、マイクロホンアレイ21を構成する複数のマイクが取得した音声の大きさの差や位相の差を基づいて音声の到来方向を算出するのが一般的であるが、音声到来方向算出部13が用いる技術にも制約はなく、どのようなものでもよい。
本実施の形態では、図2のように、マイクロホンアレイ21が、車室内の前部中央(例えばセンターパネルやリアビューミラー付近)に設けられおり、音声の到来方向は、車両の右真横からマイクロホンアレイ21へ到来する方向を0°、車両の真後ろからマイクロホンアレイ21へ到来する方向を90°、車両の左真横からマイクロホンアレイ21へ到来する方向を180°とする角度として表されるものとする。
画像取得部14は、カメラ22が撮影した各乗員の画像を取得する。開口度算出部15は、画像取得部14が取得した各乗員の画像を解析して、各乗員の口の開き具合を表す開口度を算出する。開口度の算出方法も任意の方法でよい。例えば、例えば上唇の中央部と下唇の中央部との間の距離を、開口度としてもよい。
発話者推定部16は、音声区間検出部12が検出した音声区間の情報と、音声到来方向算出部13が算出した音声の到来方向の情報と、開口度算出部15が算出した各乗員の開口度の情報とに基づいて、発話者である乗員を推定する。より具体的には、発話者推定部16は、音声区間における音声の到来方向と、音声区間における各乗員の開口度の統計量とに基づいて発話者を推定する。実施の形態1では、統計量として平均値を用いる。すなわち、実施の形態1の発話者推定部16は、音声区間における音声の到来方向および各乗員の開口度の平均値に基づいて、発話者を推定する。
図3は、発話者推定部16の構成を示す図である。図3のように、発話者推定部16は、発話者座席候補算出部161、開口度統計量算出部162および発話者座席推定部163を備えている。
発話者座席候補算出部161は、音声区間検出部12が検出した音声区間の情報と、音声到来方向算出部13が算出した音声の到来方向の情報とを取得し、音声区間における音声の到来方向に基づいて、発話者の座席として推定する座席の候補(以下「発話者座席候補」という)を絞り込む。
ここで、車両が図2のように右前席FR(運転席)、左前席FL(助手席)、右後席RR、右後席RR、中後席RC、左後席RLの5つの座席を備えると仮定する。音声到来方向をθとすると、例えば、発話者座席候補算出部161は、0°≦θ<60°のときは発話者座席候補を右前席FR、右後席RRおよび中後席RCの3つにし、60°≦θ≦120°のときは発話者座席候補を右後席RR、中後席RCおよび左後席RLの3つにし、120°<θ≦180°のときは発話者座席候補を中後席RC、左後席RLおよび左前席FLの3つにする。
発話者座席候補を絞り込む方法は上の例に限られない。例えば、マイクロホンアレイ21と座席との位置関係に応じて音声到来方向の閾値(上の例では60°と120°)を適宜変更してもよいし、さらに多くの座席を持つ車両であれば、閾値の個数を増やして、発話者座席候補をさらに細分化してもよい。
また、複数の乗員が同時に発話したときなど、音声到来方向算出部13が複数の音声到来方向を検出する場合もある。その場合には、複数の音声到来方向の対応する全ての座席を発話者座席候補とすればよい。例えば、上の例において、音声到来方向θとして45°と90°の2つが検出された場合、発話者座席候補算出部161は、発話者座席候補を右前席FR、右後席RR、中後席RCおよび左後席RLの4つにすればよい。
開口度統計量算出部162は、音声区間検出部12が検出した音声区間の情報と、開口度算出部15が算出した各乗員の開口度の情報とを取得し、音声区間における各乗員の開口度の統計量、ここでは平均値を算出する。
発話者座席推定部163は、発話者座席候補算出部161が算出した発話者座席候補の情報と、開口度統計量算出部162が算出した各乗員の開口度の統計量(平均値)とに基づいて、発話者の座席を推定することで、発話者である乗員を推定する。より具体的には、発話者座席推定部163は、発話者座席候補にいる乗員のうち、音声区間における開口度の平均値が予め定められた閾値よりも大きい乗員を、発話者として推定する。音声区間における開口度の平均値が閾値よりも大きい乗員が2人以上いた場合、発話者座席推定部163は、音声区間における開口度の平均値が最も大きい乗員だけを発話者として推定してもよいし、発話者が複数存在すると判断して、音声区間における開口度の平均値が閾値よりも大きい乗員の全員を発話者として推定してもよい。
上述したように、人は発話してない場合も口を開くことがある。そのため、発話者の推定を各乗員の開口度に基づいて行うと、発話していない乗員が誤って発話者として推定されるおそれがある。それに対し、実施の形態1の発話者推定装置10では、発話者座席推定部163が、音声区間における各乗員の開口度の統計量(平均値)に基づいて発話者を推定する。人は発話時には非発話時よりも多く口を開くため、開口度の平均値には発話時と非発話時との差が現れやすい。そのため、発話者座席候補算出部161は、各乗員が発話者か否かを高い精度で判定でき、発話していない乗員が誤って発話者として推定されることが抑制される。
また、実施の形態1の発話者推定装置10では、発話者座席候補算出部161が、音声区間における音声の到来方向に基づいて、発話者座席推定部163が発話者の座席として推定する座席の候補(発話者座席候補)を予め絞り込んでおり、それによって、発話者の誤検出がさらに抑制される。よって、実施の形態1に係る発話者推定装置10によれば、発話者の推定を高い精度で行うことができる。
図示は省略するが、発話者推定装置10による発話者の推定結果は、音声認識機能に対応した車載機器へと出力される。あるいは、発話者推定装置10が、音声認識機能に対応した車載機器に内蔵されていてもよい。
発話者推定装置10の適用が有効な車載機器としては、エアコンやオーディオ機器などが考えられる。例えば、音声操作可能なエアコンに発話者推定装置10を適用した場合、エアコンが音声操作を行った乗員の座席を特定することで、その乗員の座席のみ温度設定を変更することなどが可能になる。
また、音声操作可能なオーディオ機器に発話者推定装置10を適用した場合、オーディオ機器が音声操作を行った乗員の座席を特定することで、その乗員の座席のみスピーカまたはヘッドフォンの音量を調節することなどが可能になる。さらに、後述する実施の形態2のように、発話者推定装置10が個々の乗員を認識する機能を有する場合には、簡単な音声操作(例えば「いつもの音楽をかけて」という音声操作など)で、その音声操作を行った乗員の好みの音楽を再生するなど、利便性の向上に寄与できる。
以下、実施の形態1に係る発話者推定装置10の動作をフローチャートを参照しつつ説明する。図4は、実施の形態1に係る発話者推定装置10の動作を示すフローチャートである。
発話者推定装置10が起動すると、音声信号取得部11が、車両内に設置されたマイクロホンアレイ21から音声信号を取得する(ステップS101)。そして、音声区間検出部12が、音声信号から音声区間を検出し(ステップS102)、音声到来方向算出部13が、音声信号に基づいてマイクロホンアレイ21が取得した音声の到来方向を算出する(ステップS103)。
その一方で、画像取得部14は、カメラ22が撮影した車両の各乗員の画像を取得する(ステップS104)。そして、開口度算出部15が、各乗員の画像に基づいて各乗員の口の開き具合を表す開口度を算出する(ステップS105)。
その後、発話者推定部16が、音声区間における音声の到来方向および音声区間における各乗員の開口度の統計量に基づいて、発話者である乗員を推定する処理(発話者推定処理)を実施する(ステップS106)。
図5は、発話者推定処理のフローチャートである。発話者推定処理が開始されると、発話者座席候補算出部161は、音声区間における音声の到来方向に基づいて、発話者座席推定部163が発話者の座席として推定する座席の候補(発話者座席候補)を絞り込む(ステップS201)。また、開口度統計量算出部162は、音声区間における各乗員の開口度の平均値を算出する(ステップS202)。
その後、発話者座席推定部163が、発話者座席候補の情報と各乗員の開口度の平均値とに基づいて、発話者である乗員を推定する。まず、発話者座席推定部163は、発話者座席候補におり、且つ、開口度の平均値が閾値より大きい乗員がいるか否かを確認する(ステップS203)。そのような乗員がいれば(ステップS203でYES)、発話者座席推定部163は、当該乗員を発話者として推定する(ステップS204)。そのような乗員がいなければ(ステップS203でNO)、発話者座席推定部163は車両内に発話者はいないと判断する(ステップS205)。発話者座席推定部163が、発話者の推定結果を出力して(ステップS206)、発話者推定処理は終了する。
発話者推定装置10は、図4および図5に示した動作を繰り返し実行する。なお、図4のステップS102で音声区間が検出されなかった場合には、ステップS103~ステップS106の処理は省略されてもよい。すなわち、ステップS103~ステップS106の処理は、ステップS102で音声区間が検出されなかった場合にだけ行われてもよい。
[変更例]
実施の形態1では、発話者推定処理で用いる乗員の開口度の統計量を平均値としたが、標準偏差としてもよい。人は発話時には非発話時よりも頻繁に口を動かすため、開口度の標準偏差には発話時と非発話時との差が現れやすい。そのため、開口度の統計量として標準偏差を用いても、発話者座席推定部163は、各乗員が発話者か否かを高い精度で判定でき、発話していない乗員が誤って発話者として推定されることが抑制される。
実施の形態1では、発話者推定処理で用いる乗員の開口度の統計量を平均値としたが、標準偏差としてもよい。人は発話時には非発話時よりも頻繁に口を動かすため、開口度の標準偏差には発話時と非発話時との差が現れやすい。そのため、開口度の統計量として標準偏差を用いても、発話者座席推定部163は、各乗員が発話者か否かを高い精度で判定でき、発話していない乗員が誤って発話者として推定されることが抑制される。
開口度の統計量を標準偏差とした場合の発話者推定処理のフローチャートを図6に示す。この場合、発話者推定処理が開始されると、発話者座席候補算出部161が、音声区間における音声の到来方向に基づいて発話者座席候補を絞り込み(ステップS211)、開口度統計量算出部162が、音声区間における各乗員の開口度の標準偏差を算出する(ステップS212)。
発話者座席推定部163は、発話者座席候補におり、且つ、音声区間における開口度の標準偏差が閾値より大きい乗員がいるか否かを確認する(ステップS213)。そのような乗員がいれば(ステップS213でYES)、発話者座席推定部163は、当該乗員を発話者として推定する(ステップS214)。そのような乗員がいなければ(ステップS213でNO)、発話者座席推定部163は車両内に発話者はいないと判断する(ステップS215)。発話者座席推定部163が、発話者の推定結果を出力して(ステップS216)、発話者推定処理は終了する。
また、発話者推定処理で用いる乗員の開口度の統計量は、平均値と標準偏差の両方でもよい。開口度の統計量を平均値および標準偏差の両方とする場合の発話者推定処理のフローチャートを図7に示す。
この場合、発話者推定処理が開始されると、発話者座席候補算出部161が、音声区間における音声の到来方向に基づいて発話者座席候補を絞り込み(ステップS221)、開口度統計量算出部162が、音声区間における各乗員の開口度の平均値および標準偏差を算出する(ステップS222)。
発話者座席推定部163は、発話者座席候補におり、且つ、音声区間における開口度の平均値および標準偏差の両方がそれぞれの閾値より大きい乗員がいるか否かを確認する(ステップS223)。そのような乗員がいれば(ステップS223でYES)、発話者座席推定部163は、当該乗員を発話者として推定する(ステップS224)。そのような乗員がいなければ(ステップS223でNO)、発話者座席推定部163は車両内に発話者はいないと判断する(ステップS225)。発話者座席推定部163が、発話者の推定結果を出力して(ステップS226)、発話者推定処理は終了する。
図7においては、音声区間における開口度の平均値および標準偏差の両方がそれぞれの閾値より大きい乗員が発話者として推定される例を示したが、音声区間における開口度の平均値および標準偏差の片方だけが閾値より大きい乗員も、発話者として推定されるようにしてもよい。音声区間における開口度の平均値および標準偏差の少なくとも片方が閾値より大きい乗員を発話者として推定する場合の発話者推定処理のフローチャートを図8に示す。
この場合、発話者推定処理が開始されると、発話者座席候補算出部161が、音声区間における音声の到来方向に基づいて発話者座席候補を絞り込み(ステップS231)、開口度統計量算出部162が、音声区間における各乗員の開口度の平均値および標準偏差を算出する(ステップS232)。
発話者座席推定部163は、発話者座席候補におり、且つ、音声区間における開口度の平均値および標準偏差の少なくとも片方が閾値より大きい乗員がいるか否かを確認する(ステップS233)。そのような乗員がいれば(ステップS233でYES)、発話者座席推定部163は、当該乗員を発話者として推定する(ステップS234)。そのような乗員がいなければ(ステップS233でNO)、発話者座席推定部163は車両内に発話者はいないと判断する(ステップS235)。発話者座席推定部163が、発話者の推定結果を出力して(ステップS236)、発話者推定処理は終了する。
[ハードウェア構成例]
図9および図10は、それぞれ発話者推定装置10のハードウェア構成の例を示す図である。図1に示した発話者推定装置10の構成要素の各機能は、例えば図9に示す処理回路50により実現される。すなわち、発話者推定装置10は、車両内に設置されたマイクロホンアレイ21から音声信号を取得し、音声信号から音声区間を検出し、音声信号に基づいてマイクロホンアレイ21が取得した音声の到来方向を算出し、カメラ22が撮影した車両の各乗員の画像を取得し、各乗員の画像に基づいて各乗員の口の開き具合を表す開口度を算出し、音声区間における音声の到来方向および音声区間における各乗員の開口度の統計量に基づいて、発話者である乗員を推定する、ための処理回路50を備える。処理回路50は、専用のハードウェアであってもよいし、メモリに格納されたプログラムを実行するプロセッサ(中央処理装置(CPU:Central Processing Unit)、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSP(Digital Signal Processor)とも呼ばれる)を用いて構成されていてもよい。
図9および図10は、それぞれ発話者推定装置10のハードウェア構成の例を示す図である。図1に示した発話者推定装置10の構成要素の各機能は、例えば図9に示す処理回路50により実現される。すなわち、発話者推定装置10は、車両内に設置されたマイクロホンアレイ21から音声信号を取得し、音声信号から音声区間を検出し、音声信号に基づいてマイクロホンアレイ21が取得した音声の到来方向を算出し、カメラ22が撮影した車両の各乗員の画像を取得し、各乗員の画像に基づいて各乗員の口の開き具合を表す開口度を算出し、音声区間における音声の到来方向および音声区間における各乗員の開口度の統計量に基づいて、発話者である乗員を推定する、ための処理回路50を備える。処理回路50は、専用のハードウェアであってもよいし、メモリに格納されたプログラムを実行するプロセッサ(中央処理装置(CPU:Central Processing Unit)、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSP(Digital Signal Processor)とも呼ばれる)を用いて構成されていてもよい。
処理回路50が専用のハードウェアである場合、処理回路50は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、またはこれらを組み合わせたものなどが該当する。発話者推定装置10の構成要素の各々の機能が個別の処理回路で実現されてもよいし、それらの機能がまとめて一つの処理回路で実現されてもよい。
図10は、処理回路50がプログラムを実行するプロセッサ51を用いて構成されている場合における発話者推定装置10のハードウェア構成の例を示している。この場合、発話者推定装置10の構成要素の機能は、ソフトウェア等(ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせ)により実現される。ソフトウェア等はプログラムとして記述され、メモリ52に格納される。プロセッサ51は、メモリ52に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち、発話者推定装置10は、プロセッサ51により実行されるときに、車両内に設置されたマイクロホンアレイ21から音声信号を取得する処理と、音声信号から音声区間を検出する処理と、音声信号に基づいてマイクロホンアレイ21が取得した音声の到来方向を算出する処理と、カメラ22が撮影した車両の各乗員の画像を取得する処理と、各乗員の画像に基づいて各乗員の口の開き具合を表す開口度を算出する処理と、音声区間における音声の到来方向および音声区間における各乗員の開口度の統計量に基づいて、発話者である乗員を推定する処理と、が結果的に実行されることになるプログラムを格納するためのメモリ52を備える。換言すれば、このプログラムは、発話者推定装置10の構成要素の動作の手順や方法をコンピュータに実行させるものであるともいえる。
ここで、メモリ52は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)などの、不揮発性または揮発性の半導体メモリ、HDD(Hard Disk Drive)、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD(Digital Versatile Disc)およびそのドライブ装置等、または、今後使用されるあらゆる記憶媒体であってもよい。
以上、発話者推定装置10の構成要素の機能が、ハードウェアおよびソフトウェア等のいずれか一方で実現される構成について説明した。しかしこれに限ったものではなく、発話者推定装置10の一部の構成要素を専用のハードウェアで実現し、別の一部の構成要素をソフトウェア等で実現する構成であってもよい。例えば、一部の構成要素については専用のハードウェアとしての処理回路50でその機能を実現し、他の一部の構成要素についてはプロセッサ51としての処理回路50がメモリ52に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。
以上のように、発話者推定装置10は、ハードウェア、ソフトウェア等、またはこれらの組み合わせによって、上述の各機能を実現することができる。
<実施の形態2>
図11は、実施の形態2に係る発話者推定装置10の構成を示す図である。図11の発話者推定装置10の構成は、図1の構成に対し、乗員認識部17を追加したものである。
図11は、実施の形態2に係る発話者推定装置10の構成を示す図である。図11の発話者推定装置10の構成は、図1の構成に対し、乗員認識部17を追加したものである。
乗員認識部17は、カメラ22が撮影した各乗員の画像に基づいて、個々の乗員を認識する。乗員認識部17には、発話者推定装置10を搭載する車両のユーザ(当該車両に搭乗することが想定される人物)の画像が予め登録されており、乗員認識部17は、カメラ22が撮影した車両の各乗員の画像と、登録されたユーザの画像とを照合することにより、それぞれの乗員が誰であるかを認識することができる。
図12は、実施の形態2における発話者推定部16の構成を示す図である。図12の発話者推定部16の構成は、図2の構成に対し、閾値設定部164を追加したものである。
閾値設定部164は、乗員認識部17による乗員の認識結果に基づいて、発話者推定処理で用いられる開口度の統計量の閾値を、乗員ごとに設定する。閾値設定部164には、車両のユーザごとの閾値が予め登録されており、閾値設定部164は、乗員の認識結果に基づいて、それぞれの乗員に対し当該乗員に対応する閾値を割り当てる。乗員認識部17が認識できなかった乗員(例えば未登録の乗員)に対しては、予め定められた未登録ユーザ用の閾値が割り当てられる。
実施の形態2に係る発話者推定装置10によれば、車両の乗員ごとに適した閾値が設定されることで、発話者の推定精度をさらに向上させることができる。
ユーザごとの閾値の決め方は任意の方法でよい。例えば、ユーザの登録時には当該ユーザの閾値を予め定められた初期値に設定しておき、ユーザが必要に応じて閾値を調整できるようにしてもよい。例えば、発話していないのに発話者と判断されたユーザは自己の閾値を上げ、発話したのに発話者と判断されなかったユーザは自己の閾値を下げることで、発話者の推定精度を向上させることができる。
また例えば、カメラ22が撮影したユーザの過去の画像を解析して当該ユーザの音声区間における開口度の統計量と非音声区間における開口度の統計量とを算出し、両者の値から当該ユーザの適切な閾値(例えば両者の中間値)を設定する機能を、発話者推定装置10あるいは外部機器(例えばユーザの携帯端末やパーソナルコンピュータなど)に持たせてもよい。
図13は、実施の形態2に係る発話者推定装置10の動作を示すフローチャートである。図13のフローは、図4のフローに対し、ステップS104の後に、ステップS107を追加したものである。ステップS107では、乗員認識部17が、画像取得部14が取得した車両の各乗員の画像に基づいて、個々の乗員を認識する処理が行われる。ステップS101~S104は、図4のフローと同様であるため、ここでの説明は省略する。
図14は、実施の形態2における発話者推定処理を示すフローチャートである。図14のフローは、図5のフローに対し、ステップS201の後に、ステップS207を追加したものである。なお、図14では、発話者推定処理で用いる乗員の開口度の統計量として、平均値が用いられている。
ステップS207では、閾値設定部164が、乗員認識部17による乗員の認識結果に基づいて、発話者推定処理で用いられる開口度の平均値の閾値を、乗員ごとに設定する処理が行われる。ステップS201~S206は、図4のフローと同様である。ただし、ステップS203の判断処理は、ステップS207で設定された乗員ごとの閾値を用いて行われる。
[変更例]
実施の形態2においても、発話者推定処理で用いる乗員の開口度の統計量は、標準偏差でもよい。開口度の統計量を標準偏差とした場合の発話者推定処理のフローチャートを図15に示す。図15のフローは、図6のフローに対し、ステップS201の後に、ステップS217を追加したものである。ステップS217では、閾値設定部164が、乗員認識部17による乗員の認識結果に基づいて、発話者推定処理で用いられる開口度の標準偏差の閾値を、乗員ごとに設定する処理が行われる。ステップS211~S216は、図6のフローと同様である。ただし、ステップS213の判断処理は、ステップS217で設定された乗員ごとの閾値を用いて行われる。
実施の形態2においても、発話者推定処理で用いる乗員の開口度の統計量は、標準偏差でもよい。開口度の統計量を標準偏差とした場合の発話者推定処理のフローチャートを図15に示す。図15のフローは、図6のフローに対し、ステップS201の後に、ステップS217を追加したものである。ステップS217では、閾値設定部164が、乗員認識部17による乗員の認識結果に基づいて、発話者推定処理で用いられる開口度の標準偏差の閾値を、乗員ごとに設定する処理が行われる。ステップS211~S216は、図6のフローと同様である。ただし、ステップS213の判断処理は、ステップS217で設定された乗員ごとの閾値を用いて行われる。
また、フローチャートの図示は省略するが、実施の形態2においても図7または図8と同様に、発話者推定処理で用いる乗員の開口度の統計量を、平均値と標準偏差の両方としてもよい。
<実施の形態3>
図16は、実施の形態3における発話者推定部16の構成を示す図である。図16の発話者推定部16の構成は、図2の構成に対し、閾値更新部165を追加したものである。なお、本実施の形態において、発話者推定装置10の全体構成は実施の形態1(図1)と同様である。閾値更新部165は、発話者推定処理で用いられる開口度の統計量の閾値を更新する。
図16は、実施の形態3における発話者推定部16の構成を示す図である。図16の発話者推定部16の構成は、図2の構成に対し、閾値更新部165を追加したものである。なお、本実施の形態において、発話者推定装置10の全体構成は実施の形態1(図1)と同様である。閾値更新部165は、発話者推定処理で用いられる開口度の統計量の閾値を更新する。
閾値更新部165による閾値の更新は、発話者座席候補にいる乗員の中に、音声区間における開口度の統計量が予め定められた条件を満たす乗員が存在した場合に実施される。具体的には、音声区間における開口度の統計量が閾値よりも大きい乗員が存在した場合、または、音声区間における開口度の統計量と閾値との差が一定値よりも小さい乗員が存在した場合に、閾値が更新される。つまり、発話者として推定された乗員が存在した場合、または、発話者として推定されなかったが開口度の統計量が閾値に接近した乗員が存在した場合に、閾値が更新される。
また、閾値更新部165による閾値の更新は、上記の条件を満たす乗員の開口度の統計量に基づいて行われる。具体的には、閾値更新部165は、閾値の現在の値と上記の条件を満たす乗員の開口度の統計量との加重平均値を、閾値の新たな値として設定することで、閾値を更新する。つまり、更新前の閾値(現在の値)をTB、上記の条件を満たす乗員の開口度の統計量Sとすると、閾値更新部165は、更新後の閾値(新たな値)TAを、
TA=(1-α)TB+αS ・・・(1)
として算出する。式(1)のα(0<α<1)は、Sが閾値の更新に与える影響度を規定する係数であり、αが大きいほど更新時の閾値の変化量が大きくなる。
TA=(1-α)TB+αS ・・・(1)
として算出する。式(1)のα(0<α<1)は、Sが閾値の更新に与える影響度を規定する係数であり、αが大きいほど更新時の閾値の変化量が大きくなる。
式(1)に基づいて閾値の更新が行われる場合、開口度の統計量が閾値を超えた乗員が存在するごとに閾値が上がり、発話者として推定されなかったが開口度の統計量が閾値に接近した乗員が存在するごとに閾値が下がる。それにより、発話者の検出感度(乗員を発話者として推定する度合い)が適切に調整される。
発話者推定装置10は、カメラ22が撮影した画像を用いて発話者を推定するため、例えば明るさなどの周囲の環境の影響により、発話者の検出感度が変動するおそれがある。閾値更新部165が閾値を更新することで、発話者の検出感度が安定し、発話者の推定精度をさらに向上させることができる。
図17は、閾値更新部165の動作を示すフローチャートである。以下、図17のフローチャートを参照しつつ閾値更新部165の動作を説明する。閾値更新部165は、図17の処理を、発話者推定処理が行われるごとに実施する。なお、図17は、発話者推定処理で用いる乗員の開口度の統計量が、平均値である場合の例である。
発話者推定部16が発話者推定処理を実施すると、発話者座席推定部163は、音声区間における開口度の平均値が閾値より大きい乗員(つまり、発話者として推定された乗員)がいたか否かを確認する(ステップS301)。ステップS301の条件を満たす乗員がいなかった場合は(ステップS301でNO)、音声区間における開口度の平均値と閾値との差が一定値より小さい乗員がいたか否かを確認する(ステップS302)。
ステップS301またはステップS302の条件を満たす乗員がいた場合は(ステップS301またはステップS302でYES)、閾値更新部165が、当該乗員の開口度の平均値に基づき、式(1)を用いて閾値を更新する(ステップS303)。ステップS301またはステップS302の条件を満たす乗員がいなかった場合は(ステップS302でNO)、閾値は更新されない。
[変更例]
実施の形態3においても、発話者推定処理で用いる乗員の開口度の統計量は、標準偏差でもよい。開口度の統計量を標準偏差とした場合の閾値更新部165の動作を示すフローチャートを図18に示す。
実施の形態3においても、発話者推定処理で用いる乗員の開口度の統計量は、標準偏差でもよい。開口度の統計量を標準偏差とした場合の閾値更新部165の動作を示すフローチャートを図18に示す。
発話者推定部16が発話者推定処理を実施すると、発話者座席推定部163は、音声区間における開口度の標準偏差が閾値より大きい乗員(つまり、発話者として推定された乗員)がいたか否かを確認する(ステップS311)。ステップS311の条件を満たす乗員がいなかった場合は(ステップS311でNO)、音声区間における開口度の標準偏差と閾値との差が一定値より小さい乗員がいたか否かを確認する(ステップS312)。
ステップS311またはステップS312の条件を満たす乗員がいた場合は(ステップS311またはステップS312でYES)、閾値更新部165が、当該乗員の開口度の標準偏差に基づき、式(1)を用いて閾値を更新する(ステップS313)。ステップS311またはステップS312の条件を満たす乗員がいなかった場合は(ステップS312でNO)、閾値は更新されない。
また、図7または図8のフローのように、発話者推定処理で用いられる乗員の開口度の統計量が平均値と標準偏差の両方である場合には、閾値更新部165は、図17および図18の両方を実施して、平均値の閾値および標準偏差の閾値の両方を更新すればよい。
<実施の形態4>
実施の形態4では、実施の形態2と実施の形態3とを組み合わせる。図19は、実施の形態4における発話者推定部16の構成を示す図である。図19の発話者推定部16の構成は、図12の構成に対し、閾値更新部165を追加したものである。なお、実施の形態4に係る発話者推定装置10の全体構成は実施の形態2(図11)と同様である。
実施の形態4では、実施の形態2と実施の形態3とを組み合わせる。図19は、実施の形態4における発話者推定部16の構成を示す図である。図19の発話者推定部16の構成は、図12の構成に対し、閾値更新部165を追加したものである。なお、実施の形態4に係る発話者推定装置10の全体構成は実施の形態2(図11)と同様である。
実施の形態4の閾値更新部165も、発話者推定処理で用いられる開口度の統計量の閾値を更新する。ただし、実施の形態4の閾値更新部165は、閾値設定部164に記憶されている車両のユーザごとの閾値を更新する。また、各ユーザの閾値の更新処理は、更新する閾値に対応するユーザの開口度の統計量だけを用いて行われる。よって、閾値が更新されるタイミング、ならびに、更新による閾値の変化の方向および変化量は、ユーザごとに異なる。
実施の形態4に係る発話者推定装置10によれば、開口度の個人差や環境の変化に応じて閾値が更新されるため、発話者の推定精度をさらに向上させることができる。
なお、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略したりすることが可能である。
上記した説明は、すべての態様において、例示であって、例示されていない無数の変形例が想定され得るものと解される。
10 発話者推定装置、11 音声信号取得部、12 音声区間検出部、13 音声到来方向算出部、14 画像取得部、15 開口度算出部、16 発話者推定部、17 乗員認識部、21 マイクロホンアレイ、22 カメラ、161 発話者座席候補算出部、162 開口度統計量算出部、163 発話者座席推定部、164 閾値設定部、165 閾値更新部、FR 右前席、FL 左前席、RR 右後席、RC 中後席、RL 左後席。
Claims (10)
- 車両内に設置されたマイクロホンアレイから音声信号を取得する音声信号取得部と、
前記音声信号から音声区間を検出する音声区間検出部と、
前記音声信号に基づいて前記マイクロホンアレイが取得した音声の到来方向を算出する音声到来方向算出部と、
カメラが撮影した前記車両の各乗員の画像を取得する画像取得部と、
前記各乗員の画像に基づいて前記各乗員の口の開き具合を表す開口度を算出する開口度算出部と、
前記音声区間における音声の到来方向と前記音声区間における前記各乗員の開口度の統計量とに基づいて、発話者である乗員を推定する発話者推定部と、
を備える発話者推定装置。 - 前記発話者推定部は、
前記音声区間における音声の到来方向に基づいて発話者の座席の候補を絞り込み、
発話者の座席の候補にいる乗員のうち、前記音声区間における前記開口度の前記統計量が予め定められた閾値よりも大きい乗員を発話者として推定する、
請求項1に記載の発話者推定装置。 - 前記車両の各乗員の画像に基づいて、個々の乗員を認識する乗員認識部と、
前記閾値を乗員ごとに設定する閾値設定部と、
をさらに備える、
請求項2に記載の発話者推定装置。 - 発話者の座席の候補にいる乗員の中に、前記音声区間における前記開口度の前記統計量が予め定められた条件を満たす乗員が存在した場合に、前記条件を満たす乗員の前記開口度の前記統計量に基づいて前記閾値を更新する閾値更新部をさらに備える、
請求項2に記載の発話者推定装置。 - 前記閾値更新部は、前記閾値の現在の値と前記条件を満たす乗員の前記開口度の前記統計量との加重平均値を、前記閾値の新たな値として設定する、
請求項4に記載の発話者推定装置。 - 前記条件は、前記音声区間における前記開口度の前記統計量が前記閾値よりも大きい、または、前記音声区間における前記開口度の前記統計量と前記閾値との差が一定値よりも小さいことである、
請求項4に記載の発話者推定装置。 - 前記統計量は、平均値である、
請求項1に記載の発話者推定装置。 - 前記統計量は、標準偏差である、
請求項1に記載の発話者推定装置。 - 前記統計量は、平均値および標準偏差の両方を含み、
前記発話者推定部は、前記音声区間における前記各乗員の前記開口度の平均値および標準偏差の少なくとも片方に基づいて、発話者である乗員を推定する、
請求項1に記載の発話者推定装置。 - 発話者推定装置により実行される発話者推定方法であって、
前記発話者推定装置の音声信号取得部が、車両内に設置されたマイクロホンアレイから音声信号を取得し、
前記発話者推定装置の音声区間検出部が、前記音声信号から音声区間を検出し、
前記発話者推定装置の音声到来方向算出部が、前記音声信号に基づいて前記マイクロホンアレイが取得した音声の到来方向を算出し、
前記発話者推定装置の画像取得部が、カメラが撮影した前記車両の各乗員の画像を取得し、
前記発話者推定装置の開口度算出部が、前記各乗員の画像に基づいて前記各乗員の口の開き具合を表す開口度を算出し、
前記発話者推定装置の発話者推定部が、前記音声区間における音声の到来方向および前記音声区間における前記各乗員の開口度の統計量に基づいて、発話者である乗員を推定する、
発話者推定方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/005115 WO2021161377A1 (ja) | 2020-02-10 | 2020-02-10 | 発話者推定装置および発話者推定方法 |
JP2021577727A JP7337965B2 (ja) | 2020-02-10 | 2020-02-10 | 発話者推定装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/005115 WO2021161377A1 (ja) | 2020-02-10 | 2020-02-10 | 発話者推定装置および発話者推定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021161377A1 true WO2021161377A1 (ja) | 2021-08-19 |
Family
ID=77292177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/005115 WO2021161377A1 (ja) | 2020-02-10 | 2020-02-10 | 発話者推定装置および発話者推定方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7337965B2 (ja) |
WO (1) | WO2021161377A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06301393A (ja) * | 1993-04-13 | 1994-10-28 | Matsushita Electric Ind Co Ltd | 音声区間検出装置及び音声認識装置 |
JP2017134577A (ja) * | 2016-01-27 | 2017-08-03 | 三菱電機株式会社 | 情報処理装置、情報処理サーバおよび情報処理方法 |
WO2019181218A1 (ja) * | 2018-03-19 | 2019-09-26 | ソニー株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003195883A (ja) * | 2001-12-26 | 2003-07-09 | Toshiba Corp | 雑音除去装置およびその装置を備えた通信端末 |
JP2009222969A (ja) * | 2008-03-17 | 2009-10-01 | Toyota Motor Corp | 音声認識ロボットおよび音声認識ロボットの制御方法 |
WO2020016927A1 (ja) | 2018-07-17 | 2020-01-23 | 三菱電機株式会社 | 音場制御装置および音場制御方法 |
-
2020
- 2020-02-10 JP JP2021577727A patent/JP7337965B2/ja active Active
- 2020-02-10 WO PCT/JP2020/005115 patent/WO2021161377A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06301393A (ja) * | 1993-04-13 | 1994-10-28 | Matsushita Electric Ind Co Ltd | 音声区間検出装置及び音声認識装置 |
JP2017134577A (ja) * | 2016-01-27 | 2017-08-03 | 三菱電機株式会社 | 情報処理装置、情報処理サーバおよび情報処理方法 |
WO2019181218A1 (ja) * | 2018-03-19 | 2019-09-26 | ソニー株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7337965B2 (ja) | 2023-09-04 |
JPWO2021161377A1 (ja) | 2021-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11437020B2 (en) | Techniques for spatially selective wake-up word recognition and related systems and methods | |
WO2017081960A1 (ja) | 音声認識制御システム | |
JP5018773B2 (ja) | 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム | |
US9311930B2 (en) | Audio based system and method for in-vehicle context classification | |
US9786295B2 (en) | Voice processing apparatus and voice processing method | |
CN112397065A (zh) | 语音交互方法、装置、计算机可读存储介质及电子设备 | |
JP2010156825A (ja) | 音声出力装置 | |
US11211080B2 (en) | Conversation dependent volume control | |
CN115223594A (zh) | 用于车辆外部语音助手的情景感知信号调节 | |
US10645494B1 (en) | Active control system for a vehicular dual microphone and a control method thereof | |
JP6847324B2 (ja) | 音声認識装置、音声認識システム、及び音声認識方法 | |
WO2021161377A1 (ja) | 発話者推定装置および発話者推定方法 | |
US11580958B2 (en) | Method and device for recognizing speech in vehicle | |
JP7065964B2 (ja) | 音場制御装置および音場制御方法 | |
JP2008250236A (ja) | 音声認識装置および音声認識方法 | |
US20180115851A1 (en) | Apparatus and Method for Intelligent Audio Levels for Car, Home or Public Entertainment | |
WO2021156946A1 (ja) | 音声分離装置及び音声分離方法 | |
KR20230084154A (ko) | 동적 분류기를 사용한 사용자 음성 활동 검출 | |
KR101710695B1 (ko) | 차량용 음성 인식을 위한 마이크로폰 제어 시스템 및 그 제어 방법 | |
US20220262389A1 (en) | Method and apparatus for improving speech intelligibility in a room | |
WO2022239142A1 (ja) | 音声認識装置及び音声認識方法 | |
JP7407665B2 (ja) | 音声出力制御装置および音声出力制御プログラム | |
WO2021156945A1 (ja) | 音声分離装置及び音声分離方法 | |
JPS6242197A (ja) | 音声区間検出方法 | |
US20230402049A1 (en) | Microphone system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20918496 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2021577727 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20918496 Country of ref document: EP Kind code of ref document: A1 |