WO2021156946A1 - 音声分離装置及び音声分離方法 - Google Patents

音声分離装置及び音声分離方法 Download PDF

Info

Publication number
WO2021156946A1
WO2021156946A1 PCT/JP2020/004162 JP2020004162W WO2021156946A1 WO 2021156946 A1 WO2021156946 A1 WO 2021156946A1 JP 2020004162 W JP2020004162 W JP 2020004162W WO 2021156946 A1 WO2021156946 A1 WO 2021156946A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
unit
voice separation
speakers
sound information
Prior art date
Application number
PCT/JP2020/004162
Other languages
English (en)
French (fr)
Inventor
真 宗平
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2020/004162 priority Critical patent/WO2021156946A1/ja
Publication of WO2021156946A1 publication Critical patent/WO2021156946A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Definitions

  • This disclosure relates to a voice separation device and a voice separation method.
  • Non-Patent Document 1 there is a voice separation method based on voice quality such as deep clustering, which separates voices for each speaker based on the characteristics of voice quality learned in advance (see, for example, Non-Patent Document 1).
  • the voice separation method based on voice quality can also be applied to voice separation in which the direction of arrival is unknown.
  • the voice separation method has a problem that the separation accuracy decreases as the number of speakers who speak at the same time increases.
  • the present disclosure has been made to solve the above-mentioned problems, and uses a voice separation method based on the direction of arrival and a voice separation method based on voice quality to enable more voices to be separated while distorting the distortion.
  • the purpose is to realize less voice separation.
  • the sound separation device includes an image acquisition unit that acquires an image captured by a camera, a position detection unit that detects the position of a person using the image, and a mouth movement of each person using the image.
  • a speaker number detection unit that detects the number of people whose mouth is moving as the number of speakers
  • a sound acquisition unit that acquires a plurality of sound information collected by a plurality of microphones
  • a plurality of sound acquisition units using a plurality of sound information Using the arrival direction estimation unit that calculates the difference in the arrival time of the voice that has arrived at the microphone and estimates the arrival direction of the voice based on the difference in the arrival time, and the sound information of any one of a plurality of sound information.
  • a second voice separation unit that separates as many sounds as the number of speakers from one sound information, and either the method of the first voice separation unit or the method of the second voice separation unit based on the position of each speaker, or It is provided with a method selection unit that separates sounds by both.
  • one or both of the voice separation method based on the direction of arrival and the voice separation method based on the voice quality are selected based on the position of each speaker whose mouth is moving. It is possible to realize voice separation with less distortion while making it possible to separate many voices.
  • FIG. It is a block diagram which shows the structural example of the voice separation apparatus which concerns on Embodiment 1.
  • FIG. It is a top view which shows the state of the vehicle interior of a vehicle. It is a figure which shows the selection example of the voice separation method by a method selection part. It is a figure which shows the arrival direction estimation example of voice by the arrival direction estimation unit. It is a figure explaining an example of the voice separation method by the 1st voice separation part.
  • It is a flowchart which shows the operation example of the voice separation apparatus which concerns on Embodiment 1.
  • FIG. It is a flowchart which shows the detailed operation example of voice separation method selection in FIG. It is a figure which shows an example of the hardware composition of the voice separation apparatus which concerns on Embodiment 1.
  • FIG. It is a figure which shows another example of the hardware composition of the voice separation apparatus which concerns on Embodiment 1.
  • FIG. 1 is a block diagram showing a configuration example of the voice separation device 20 according to the first embodiment.
  • the voice separation device 20 according to the first embodiment is mounted on the vehicle 10 and is used for the purpose of separating the voice uttered by the occupants on the vehicle 10 for each occupant.
  • the audio separation device 20 includes a video acquisition unit 21, a sound acquisition unit 22, a position detection unit 23, a number of speakers detection unit 24, a method selection unit 25, an arrival direction estimation unit 26, a first audio separation unit 27, and a second audio.
  • a separation unit 28 is provided.
  • the vehicle 10 is equipped with a camera 11, an array microphone 12, and a voice recognition device 13.
  • the voice recognition device 13 may be on the network instead of the vehicle 10.
  • the camera 11 images the interior of the vehicle 10 and outputs the captured image to the image acquisition unit 21.
  • one camera 11 can image the faces of all the occupants in the vehicle interior, but if one camera 11 cannot image the faces of all the occupants in the vehicle interior, a plurality of cameras 11 can be imaged.
  • the camera 11 may be used.
  • the camera 11 is installed near the overhead console, for example.
  • the array microphone 12 is composed of a plurality of microphones. Each of the plurality of microphones collects the sound in the vehicle interior of the vehicle 10 and outputs it as sound information to the sound acquisition unit 22. In order to simplify the configuration, wiring, and the like, the array microphone 12 is preferably installed in the same location as the camera 11.
  • FIG. 2 is a top view showing the inside of the vehicle 10.
  • the camera 11 and the array microphone 12 are installed near the overhead console of the vehicle 10.
  • the array microphone 12 in this example is composed of four microphones.
  • the seats on the right side of the paper in FIG. 2 are referred to as the right front seat 31 and the right rear seat 33, and the seats on the left side of the paper are referred to as the left front seat 32 and the left rear seat 34.
  • the circles filled with diagonal lines indicate the occupants.
  • an occupant is seated in each of the right front seat 31, the left front seat 32, and the right rear seat 33.
  • the array microphone 12 When three occupants sitting in the right front seat 31, the left front seat 32, and the right rear seat 33 are speaking, the array microphone 12 is equipped with the voices 31a, 32a spoken by these three people. , 33a are input at the same time. Further, noise such as a blowing sound of an air conditioner included in the vehicle 10 and a running sound of the vehicle 10 is also input to the array microphone 12.
  • the vehicle 10 is provided with two seats on the left and right and two seats on the front and rear, for a total of four seats, but the number and positions of the seats are not limited to this example.
  • the voice recognition device 13 recognizes the voice of each occupant separated by the voice separation device 20.
  • the voice recognition result of the voice recognition device 13 is used for voice operation of a car navigation device or an air conditioner (not shown).
  • the image acquisition unit 21 acquires the image captured by the camera 11 from the camera 11 and outputs it to the position detection unit 23 and the number of speakers detection unit 24.
  • the sound acquisition unit 22 acquires a plurality of sound information collected by the array microphone 12 from the array microphone 12 and outputs the sound information to the arrival direction estimation unit 26 and the first voice separation unit 27.
  • the position detection unit 23 detects the position where the occupant is present by using the image acquired by the image acquisition unit 21.
  • the position detection unit 23 outputs the detected position to the number of speakers detection unit 24.
  • the position detection unit 23 may detect the position of the seat on which the occupant is sitting by using the image acquired by the image acquisition unit 21.
  • the number of speakers detection unit 24 detects the movement of the mouth of each occupant detected by the position detection unit 23 using the image acquired by the image acquisition unit 21, and uses the number of occupants whose mouth is moving as the number of speakers. To detect.
  • the number of speakers detection unit 24 outputs the detected number of speakers and the position of each speaker to the method selection unit 25.
  • the method selection unit 25 uses one or both of the method of the first voice separation unit 27 and the method of the second voice separation unit 28 based on the position of each speaker detected by the number of speakers detection unit 24, or both. To separate.
  • the method selection unit 25 selects the method of the first voice separation unit 27 (hereinafter, also referred to as “first voice separation method”)
  • the method selection unit 25 instructs the first voice separation unit 27 to perform voice separation.
  • the method selection unit 25 selects the method of the second voice separation unit 28 (hereinafter, also referred to as “second voice separation method”)
  • the method selection unit 25 instructs the second voice separation unit 28 to perform voice separation. At that time, the method selection unit 25 notifies the second voice separation unit 28 of the number of speakers detected by the speaker number detection unit 24.
  • the method of the first voice separation unit 27 is a method of separating the voice for each speaker based on the difference in the arrival direction of the voice.
  • the method of the second voice separation unit 28 is a method of separating the voice for each speaker based on the characteristics of the voice quality learned in advance.
  • the method selection unit 25 uses the position of the occupant detected by the position detection unit 23 and the angle between speakers with respect to the position where the array microphone 12 is installed is equal to or greater than a predetermined threshold value.
  • the method of the first voice separation unit 27 is selected.
  • the method selection unit 25 selects the method of the second voice separation unit 28 when the angle between speakers with respect to the position where the array microphone 12 is installed is less than the predetermined threshold value.
  • the angle between the occupant of the right front seat 31 and the occupant of the left front seat 32 with respect to the array microphone 12, that is, the arrow indicating the arrival direction of the voice 31a and the arrow indicating the arrival direction of the voice 32a are formed.
  • the angle is greater than or equal to the threshold. Therefore, the method selection unit 25 determines that the voice uttered by the occupant of the right front seat 31 and the voice uttered by the occupant of the left front seat 32 are separated by the method of the first voice separation unit 27.
  • the angle between the occupant of the left front seat 32 and the occupant of the right rear seat 33 that is, the angle formed by the arrow indicating the arrival direction of the voice 32a and the arrow indicating the arrival direction of the voice 33a is also equal to or more than the threshold value. Therefore, the method selection unit 25 determines that the voice uttered by the occupant of the left front seat 32 and the voice uttered by the occupant of the right rear seat 33 are separated by the method of the first voice separation unit 27.
  • the method selection unit 25 determines that the voice uttered by the occupant of the right front seat 31 and the voice uttered by the occupant of the right rear seat 33 are separated by the method of the second voice separation unit 28.
  • the method selection unit 25 has information indicating a combination of the pattern of the seat position where the occupant with a moving mouth (that is, the speaker) is present and the method of selection, and the number of speakers detection unit 24 detects the pattern.
  • a method may be selected that corresponds to the pattern of seat position of the occupant with a moving mouth.
  • FIG. 3 is a diagram showing an example of selection of a voice separation method by the method selection unit 25.
  • FIG. 3 a view of the interior of the vehicle 10 shown in FIG. 2 is shown. Due to space limitations, the camera 11, the array microphone 12, and the right side are shown in FIG. The symbols of the front seat 31, the left front seat 32, the right rear seat 33, and the left rear seat 34 are omitted.
  • the "No. 1" pattern shown in FIG. 3 is a pattern when the speaker is "one person". In this pattern, the method selection unit 25 determines that voice separation is unnecessary.
  • the speakers are "two people", the first person is present in either the right front seat 31 or the right rear seat 33, and the second person is the left front seat 32 or This is the case when it is present in either one of the left rear seats 34.
  • the first voice separation unit 27 can separate the voice in each direction of arrival. Therefore, the method selection unit 25 determines that the voice of the speaker on the right side of the vehicle 10 and the voice of the speaker on the left side of the vehicle 10 are separated by the method of the first voice separation unit 27.
  • the pattern of "No. 3" is that the speaker is “two people” and exists in the right front seat 31 and the right rear seat 33, or the speaker is “two people” and the left front part. It is one of the cases where it is present in the seat 32 and the left rear seat 34. In this pattern, the positions of the two speakers are not separated from each other to the left and right, and the first voice separation unit 27 cannot separate the voice for each direction of arrival. Therefore, the method selection unit 25 determines that the voice of the speaker at the front of the vehicle 10 and the voice of the speaker at the rear of the vehicle 10 are separated by the method of the second voice separation unit 28.
  • the pattern of "No. 4" is a case where there are "three" speakers.
  • the method selection unit 25 uses the method of the first voice separation unit 27 to perform the voice of one or more speakers on the right side of the vehicle 10 and the voice of one or more speakers on the left side of the vehicle 10. And are determined to be separated.
  • the voice coming from the right side of the vehicle 10 separated by the first voice separating unit 27 is referred to as "right side voice”
  • the voice coming from the left side of the vehicle 10 separated by the first voice separating unit 27 is referred to as "left side voice”. Called "voice".
  • the method selection unit 25 uses the method of the second voice separation unit 28 to transmit the separated voice on the side with two speakers in front of the vehicle 10. It is determined that the voice of the speaker in the section and the voice of the speaker in the rear of the vehicle 10 are separated. For example, in the pattern of "No. 4" shown in FIG. 3, speakers are present in the right front seat 31, the left front seat 32, and the left rear seat 34.
  • the method selection unit 25 includes the voice uttered by the occupants of the right front seat 31 and the voice uttered by each occupant of the left front seat 32 and the left rear seat 34 by the method of the first voice separation unit 27. Is determined to be separated.
  • the method selection unit 25 separates the separated left voice into a voice uttered by the occupant of the left front seat 32 and a voice uttered by the occupant of the left rear seat 34 by the method of the second voice separation unit 28. Then it is determined.
  • the pattern of "No. 5" is when there are "4" speakers.
  • the method selection unit 25 uses the method of the first voice separation unit 27 to select the voices of the two speakers on the right side of the vehicle 10 and the voices of the two speakers on the left side of the vehicle 10. Determined to be separated. Further, the method selection unit 25 separates the separated right voice into a voice uttered by the occupant of the right front seat 31 and a voice uttered by the occupant of the right rear seat 33 by the method of the second voice separation unit 28. Then it is determined.
  • the method selection unit 25 separates the separated left voice into a voice uttered by the occupant of the left front seat 32 and a voice uttered by the occupant of the left rear seat 34 by the method of the second voice separation unit 28. Then it is determined.
  • the arrival direction estimation unit 26 calculates the difference in the arrival time of the voices arriving at the plurality of microphones constituting the array microphone 12 by using the plurality of sound information acquired by the sound acquisition unit 22, and is based on the difference in the arrival time. Estimate the direction of arrival of the lever voice. The arrival direction estimation unit 26 outputs the estimated arrival direction for each voice to the first voice separation unit 27.
  • FIG. 4 is a diagram showing an example of estimating the arrival direction of voice by the arrival direction estimation unit 26.
  • the voice 31a uttered by the occupant of the right front seat 31 is first picked up by the microphone on the rightmost side of the paper in FIG. 4, and finally picked up by the microphone on the leftmost side of the paper in FIG. ..
  • the arrival direction estimation unit 26 detects each of the voices 31a included in the four sound information acquired from the four microphones, and obtains the arrival time difference of the voices 31a. Then, the arrival direction estimation unit 26 estimates the arrival direction of each frequency component of the voice 31a for each time based on the arrival time difference of the voice 31a.
  • the arrival direction estimation unit 26 outputs the estimation result to the first voice separation unit 27.
  • the first voice separation unit 27 uses the sound information of any one of the plurality of sound information acquired by the sound acquisition unit 22 to estimate the arrival direction. The sound is separated for each direction of arrival estimated by 26.
  • the first voice separation unit 27 uses, for example, the sound information collected by the microphones arranged near the center in the left-right direction of the vehicle 10 among the plurality of microphones constituting the array microphone 12.
  • the first voice separation unit 27 outputs the voice separated for each arrival direction to the second voice separation unit 28.
  • the first voice separation unit 27 has at least sound information including only the right side voice coming from the right seat of the vehicle 10 or sound information including only the left side voice coming from the left seat of the vehicle 10. One is output to the second audio separation unit 28.
  • FIG. 5 is a diagram illustrating an example of a voice separation method by the first voice separation unit 27.
  • the first voice separation unit 27 decomposes the sound information of any one of the plurality of sound information collected by the array microphone 12 for each time and each frequency, and generates the graph of FIG.
  • One cell of the graph is a time frequency bin, which is an audio component decomposed by time and frequency.
  • the first voice separation unit 27 classifies the voice for each arrival direction by classifying each time frequency bin according to the arrival direction estimated by the arrival direction estimation unit 26.
  • FIG. 1 is a diagram illustrating an example of a voice separation method by the first voice separation unit 27.
  • the first voice separation unit 27 decomposes the sound information of any one of the plurality of sound information collected by the array microphone 12 for each time and each frequency, and generates the graph of FIG.
  • One cell of the graph is a time frequency bin, which is an audio component decomposed by time and frequency.
  • the first voice separation unit 27 classifies the voice for each arrival direction by
  • the time frequency bins filled with vertical lines are the time frequency bins classified as voices arriving from at least one of the right front seat 31 and the right rear seat 33, and the time frequency bins filled with black. Is a time frequency bin classified as audio coming from at least one of the left front seat 32 or the left rear seat 34.
  • the second voice separation unit 28 When the second voice separation unit 28 receives the voice separation instruction and the notification of the number of speakers from the method selection unit 25, the second voice separation unit 28 is one of the number of speakers and the plurality of sound information acquired by the sound acquisition unit 22. Using the voice quality based on one sound information, the voices for the number of speakers are separated from this one sound information. The second voice separation unit 28 outputs the voices for the number of separated speakers to the voice recognition device 13.
  • the first voice separation unit 27 first separates the voice to the left and right, and then the second voice separation unit 28 separates the voice back and forth. Therefore, the second voice separation unit 28 does not directly use the sound information of any one of the plurality of sound information acquired by the sound acquisition unit 22, but includes the right side voice separated by the first voice separation unit 27.
  • At least one of the sound information and the sound information including the left side sound separated by the first voice separation unit 27 is used for voice separation.
  • the second voice separation unit 28 transfers the sound information of any one of the plurality of sound information acquired by the sound acquisition unit 22 to the first voice separation unit 27. It is acquired via and used for voice separation.
  • the second voice separation unit 28 performs voice separation based on voice quality using a learned learning device such as deep clustering described in Non-Patent Document 1 described above.
  • this learner calculates the feature amount of the voice quality included in the sound information, and separates and outputs the sound in the sound information for the number of speakers based on the difference in the feature amount of the voice quality.
  • FIG. 6 is a flowchart showing an operation example of the voice separation device 20 according to the first embodiment.
  • the voice separation device 20 repeats the operation shown in the flowchart of FIG. 6 at a predetermined cycle, for example.
  • step ST1 the image acquisition unit 21 acquires the image captured by the camera 11.
  • step ST2 the position detection unit 23 detects the position where the occupant is present by using the image acquired by the image acquisition unit 21.
  • step ST3 the number of speakers detecting unit 24 detects the movement of the mouth of each occupant detected by the position detecting unit 23, and detects the number of occupants whose mouth is moving.
  • step ST4 the sound acquisition unit 22 acquires the sound information collected by the array microphone 12.
  • the sound acquisition unit 22 performs the operation of step ST4 in parallel with steps ST1 to ST3.
  • step ST5 the method selection unit 25 selects either or both of the first voice separation method and the second voice separation method based on the position of each speaker detected by the number of speakers detection unit 24.
  • the arrival direction estimation unit 26 estimates the arrival direction of the voice using the plurality of sound information acquired by the sound acquisition unit 22.
  • the first voice separation unit 27 separates the voice for each arrival direction estimated by the arrival direction estimation unit 26 by using any one of the plurality of sound information acquired by the sound acquisition unit 22.
  • the second voice separation unit 28 uses the number of speakers detected by the number of speakers detection unit 24 and the sound output by the first voice separation unit 27. Enter the information into the trained learner. The learner outputs voices separated by the number of speakers. The second voice separation unit 28 acquires the voice separated by the number of speakers from the learning device and outputs it to the voice recognition device 13.
  • the method selection unit 25 does not need to separate the voices, so that the sound information is output to the voice recognition device 13 as it is. 1 Instructs the voice separation unit 27 and the second voice separation unit 28.
  • FIG. 7 is a flowchart showing a detailed operation example of the voice separation method selection (step ST5) in FIG.
  • the method selection unit 25 determines whether or not the number of speakers detected by the number of speakers detection unit 24 is two or more. When the number of speakers is one (step ST11 “NO”), the method selection unit 25 determines that voice separation by the first voice separation method and the second voice separation method is unnecessary (step ST12). In this case, the method selection unit 25 instructs the first voice separation unit 27 and the second voice separation unit 28 to output the sound information acquired by the sound acquisition unit 22 to the voice recognition device 13 as it is.
  • step ST11 “YES” the method selection unit 25 compares the positions of each speaker detected by the number of speakers detection unit 24, and the speakers whose positions are separated are compared. Whether or not it is determined (step ST13).
  • the method selection unit 25 states that when there is one or more speakers whose angle between speakers with respect to the position where the array microphone 12 is installed is equal to or greater than a threshold value, there are speakers who are separated from each other. Judgment (step ST13 “YES”). The method selection unit 25 determines that there are no speakers who are separated from each other when the angle between the speakers with respect to the position where the array microphone 12 is installed is less than the threshold value for all the speakers (step). ST13 "NO").
  • the pattern of the seat position where the speaker is present is any one of the patterns of "No. 2", “No. 4", or "No. 5" shown in FIG. If the above is true, it is determined that there is a speaker whose position is far away (step ST13 “YES”).
  • the method selection unit 25 determines that there is no speaker who is away from the position (step ST13 ". NO ").
  • the method selection unit 25 determines that voice separation by the first voice separation method is unnecessary (step ST14). Further, the method selection unit 25 determines that voice separation by the second voice separation method is necessary (step ST15). In this case, the method selection unit 25 instructs the first voice separation unit 27 to output one of the sound information acquired by the sound acquisition unit 22 as it is to the second voice separation unit 28, and 2 from the sound information. The second voice separation unit 28 is instructed to separate human voices. The second voice separation unit 28 separates the voice spoken by the speaker at the front of the vehicle 10 and the voice spoken by the speaker at the rear of the vehicle 10 from the sound information output by the first voice separation unit 27. ..
  • the method selection unit 25 determines that there are speakers who are separated from each other (step ST13 “YES”), the method selection unit 25 first determines that voice separation by the first voice separation method is necessary, and the first voice separation unit 27 determines. Instruct voice separation (step ST16). In this case, there is one or more speakers on the right side of the vehicle 10 and one or more speakers on the left side of the vehicle 10. Therefore, the first voice separation unit 27 separates the right side voice and the left side voice from the sound information acquired by the sound acquisition unit 22.
  • step ST17 the method selection unit 25 determines whether or not a plurality of speakers whose positions are close to each other are on the right side of the vehicle 10.
  • the case where a plurality of speakers who are close to each other are on the right side means that there are speakers on the right front seat 31 and the right rear seat 33, respectively.
  • the method selection unit 25 uses the second voice separation method for the voice on the right side separated by the first voice separation unit 27. It is determined that the separation is necessary, and the second voice separation unit 28 is instructed to separate the voice (step ST18). In this case, the second voice separation unit 28 inputs the right side voice output by the first voice separation unit 27 into the learned learner, and acquires the voices separated for two people.
  • the method selection unit 25 uses the second voice separation method for the right voice separated by the first voice separation unit 27. It is determined that separation is unnecessary (step ST19). In this case, since there is only one speaker on the right side of the vehicle 10, the right voice separated by the first voice separation unit 27 includes only the voice spoken by this speaker. Therefore, the method selection unit 25 instructs the second voice separation unit 28 to output the right side voice to the voice recognition device 13 as it is.
  • step ST20 the method selection unit 25 determines whether or not a plurality of speakers whose positions are close to each other are on the left side of the vehicle 10.
  • the case where a plurality of speakers who are close to each other are on the left side means that there are speakers in the left front seat 32 and the left rear seat 34, respectively.
  • the method selection unit 25 determines that a plurality of speakers having close positions are on the left side (step ST20 “YES”), the method selection unit 25 requires a second voice separation method for the left voice separated by the first voice separation unit 27. Is determined, and the second voice separation unit 28 is instructed to separate the voice (step ST21). In this case, the second voice separation unit 28 inputs the left side voice output by the first voice separation unit 27 into the learned learner, and acquires the voices separated for two people.
  • the method selection unit 25 uses the second voice separation method for the left voice separated by the first voice separation unit 27. It is determined that separation is unnecessary (step ST22). In this case, since there is only one speaker on the left side of the vehicle 10, the left side voice separated by the first voice separation unit 27 includes only the voice spoken by this speaker. Therefore, the method selection unit 25 instructs the second voice separation unit 28 to output the left voice as it is to the voice recognition device 13.
  • FIGS. 8 and 9 are diagrams showing a hardware configuration example of the voice separation device 20 according to the first embodiment.
  • the function of unit 28 is realized by a processing circuit. That is, the voice separation device 20 includes a processing circuit for realizing the above functions.
  • the processing circuit may be a processing circuit 100 as dedicated hardware, or a processor 101 that executes a program stored in the memory 102.
  • the processing circuit 100 may be, for example, a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, or an ASIC (Application Specific Integrated Circuit). ), FPGA (Field Processor Gate Array), or a combination thereof.
  • the processing circuit is the processor 101
  • the functions of the first voice separation unit 27 and the second voice separation unit 28 are realized by software, firmware, or a combination of software and firmware.
  • the software or firmware is described as a program and stored in the memory 102.
  • the processor 101 realizes the functions of each part by reading and executing the program stored in the memory 102. That is, the voice separation device 20 includes a memory 102 for storing a program in which the step shown in the flowchart of FIG. 6 or the like is eventually executed when executed by the processor 101.
  • this program includes a video acquisition unit 21, a sound acquisition unit 22, a position detection unit 23, a number of speakers detection unit 24, a method selection unit 25, an arrival direction estimation unit 26, a first audio separation unit 27, and a second audio system. It can also be said that the procedure or method of the separation unit 28 is executed by a computer.
  • the processor 101 is a CPU (Central Processing Unit), a processing device, an arithmetic unit, a microprocessor, or the like.
  • the memory 102 may be a non-volatile or volatile semiconductor memory such as a RAM (Random Access Memory), a ROM (Read Only Memory), an EPROM (Erasable Program ROM), or a flash memory, and may be a non-volatile or volatile semiconductor memory such as a hard disk or a flexible disk. It may be an optical disc such as a CD (Compact Disc) or a DVD (Digital Versaille Disc).
  • Some of the functions may be realized by dedicated hardware, and some may be realized by software or firmware.
  • the processing circuit in the voice separation device 20 can realize the above-mentioned functions by hardware, software, firmware, or a combination thereof.
  • the audio separation device 20 includes a video acquisition unit 21, a position detection unit 23, a number of speakers detection unit 24, a sound acquisition unit 22, an arrival direction estimation unit 26, and a first audio separation unit. 27, a second voice separation unit 28, and a method selection unit 25 are provided.
  • the image acquisition unit 21 acquires the image captured by the camera 11.
  • the position detection unit 23 detects the position where the occupant is present by using the image.
  • the number of speakers detection unit 24 detects the movement of the mouth of each occupant detected by the position detection unit 23 using a video, and detects the number of occupants whose mouth is moving as the number of speakers.
  • the sound acquisition unit 22 acquires a plurality of sound information collected by a plurality of microphones constituting the array microphone 12.
  • the arrival direction estimation unit 26 calculates the difference in the arrival time of the voices arriving at the plurality of microphones using the plurality of sound information, and estimates the arrival direction of the voice based on the difference in the arrival times.
  • the first voice separation unit 27 uses the sound information of any one of the plurality of sound information to separate the voice for each arrival direction estimated by the arrival direction estimation unit 26.
  • the second voice separation unit 28 separates the voices for the number of speakers from the one sound information by using the number of speakers and the voice quality based on any one of the plurality of sound information.
  • the method selection unit 25 separates the voice by one or both of the method of the first voice separation unit 27 and the method of the second voice separation unit 28 based on the position of each speaker.
  • the method selection unit 25 separates the voice of the occupant at a position where the voice can be separated based on the difference in the arrival direction by the method of the first voice separation unit 27, so that the first voice separation unit 27 It is possible to realize voice separation with less distortion by the method of. Further, since the method selection unit 25 applies the method of the second voice separation unit 28 to the voice of the occupant at a position where the voice cannot be separated based on the difference in the arrival direction, the voice separation is performed by the method of the second voice separation unit 28. The number of speakers can be reduced, and voice separation with less distortion can be realized by the method of the second voice separation unit 28.
  • the method selection unit 25 can realize voice separation with less distortion while separating more voices by appropriately combining the method of the first voice separation unit 27 and the method of the second voice separation unit 28. Further, since the voice separation device 20 realizes voice separation with less distortion, a decrease in recognition accuracy in the voice recognition device 13 is suppressed.
  • the method selection unit 25 of the first embodiment is the first when the angle between speakers with respect to the position where a plurality of microphones constituting the array microphone 12 are installed is equal to or more than a predetermined threshold value.
  • the method of the voice separation unit 27 may be selected, and the method of the second voice separation unit 28 may be selected when the threshold value is less than the predetermined threshold value.
  • the occupant speaks at a position other than the seat position, such as a scene in which the occupant of the right rear seat 33 leans forward and speaks between the right front seat 31 and the left front seat 32. Even in the situation where you are doing, you can select an appropriate voice separation method based on the position of the speaker rather than the position of the seat.
  • the method selection unit 25 of the first embodiment has information indicating a combination of the pattern of the seat position where the occupant with the moving mouth is present and the selection method, and the mouth detected by the speaker number detection unit 24 has information.
  • the configuration may be such that a method corresponding to the pattern of the seat position of the moving occupant is selected. Since the method selection unit 25 having this configuration does not need to compare the angle between speakers and the threshold value as in the above configuration, it is possible to more easily select an appropriate voice separation method.
  • the second sound separation unit 28 of the first embodiment uses a learned learner that outputs the sound separated by the number of speakers when the sound information is input, and obtains the sound information acquired by the sound acquisition unit 22.
  • the sound input to the learner and separated by the number of speakers detected by the speaker number detection unit 24 is acquired from the learner.
  • the second voice separation unit 28 does not need to register the voice quality for each occupant in advance for voice separation.
  • the voice separation device 20 is used for separating the voices of the occupants on the vehicle 10, but it may be used for other purposes.
  • the voice separation device 20 may be used for separating the voice of a person in an elevator, a room, or a moving body including a railroad, a ship, an aircraft, or the like.
  • the camera 11 may take an image of a person in the elevator or the like
  • the array microphone 12 may collect the sound in the elevator or the like.
  • the functions of the voice separation unit 28 were integrated in the voice separation device 20 mounted on the vehicle 10, but even if they are distributed to a server device on the network, a mobile terminal such as a smartphone, an in-vehicle device, or the like. good.
  • the voice separation device separates the voices of a plurality of speakers collected by the array microphone, it is suitable for use in a voice separation device or the like that generates voice data to be input to the voice recognition device. There is.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

手法選択部(25)は、話者ごとの位置に基づいて、第1音声分離部(27)の手法と第2音声分離部(28)の手法のいずれか一方、又は両方により音声を分離させる。第1音声分離部(27)は、音情報を用いて、到来方向推定部(26)により推定された到来方向ごとに音声を分離する。第2音声分離部(28)は、話者数と音情報に基づく声質とを用いて、音情報から話者数分の音声を分離する。

Description

音声分離装置及び音声分離方法
 本開示は、音声分離装置及び音声分離方法に関するものである。
 従来、複数の話者が同時に発話した場合に、音声の到来方向の違いを基に話者ごとの音声に分離する手法がある。到来方向に基づく音声分離手法は、同一方向から到来した音声の分離が困難であった。
 また、従来、予め学習した声質の特徴を基に話者ごとの音声に分離する、ディープクラスタリング等の声質による音声分離手法がある(例えば、非特許文献1参照)。声質に基づく音声分離手法は、到来方向が不明な音声の分離にも適用できる。ただし、当該音声分離手法は、同時に発話する話者数が増えると分離精度が低下する問題があった。
三菱電機株式会社、"マイク1本で録音した複数話者の同時音声の分離・再現に成功"、[online]、2017年5月24日、[2019年11月13日検索]、インターネット<URL:http://www.mitsubishielectric.co.jp/news/2017/0524-e.html>
 上述した到来方向に基づく音声分離手法と声質に基づく音声分離手法とを組み合わせることにより、より多くの音声を分離できるようになる。しかしながら、到来方向に基づく音声分離手法と声質に基づく音声分離手法には、それぞれ、一長一短がある。そのため、到来方向に基づく音声分離手法を適用する場面が適切でない場合、又は、声質に基づく音声分離手法を適用する場面が適切でない場合、分離後の音声が歪み、分離前よりも分離後の音声が劣化するという課題があった。
 本開示は、上記のような課題を解決するためになされたもので、到来方向に基づく音声分離手法と声質に基づく音声分離手法とを用いて、より多くの音声を分離可能にしつつ、歪の少ない音声分離を実現することを目的とする。
 本開示に係る音声分離装置は、カメラが撮像した映像を取得する映像取得部と、映像を用いて人がいる位置を検出する位置検出部と、映像を用いて人ごとの口の動きを検出し、口が動いている人数を話者数として検出する話者数検出部と、複数のマイクが収音した複数の音情報を取得する音取得部と、複数の音情報を用いて複数のマイクに到来した音声の到来時間の差を算出し、到来時間の差に基づいて音声の到来方向を推定する到来方向推定部と、複数の音情報のうちのいずれか1つの音情報を用いて、到来方向推定部により推定された到来方向ごとに音声を分離する第1音声分離部と、話者数と複数の音情報のうちのいずれか1つの音情報に基づく声質とを用いて、1つの音情報から話者数分の音声を分離する第2音声分離部と、話者ごとの位置に基づいて、第1音声分離部の手法と第2音声分離部の手法のいずれか一方、又は両方により音声を分離させる手法選択部とを備えるものである。
 本開示によれば、口が動いている話者ごとの位置に基づいて、到来方向に基づく音声分離手法と声質に基づく音声分離手法のいずれか一方、又は両方を選択するようにしたので、より多くの音声を分離可能にしつつ、歪の少ない音声分離を実現できる。
実施の形態1に係る音声分離装置の構成例を示すブロック図である。 車両の車室内の様子を示す上面図である。 手法選択部による音声分離手法の選択例を示す図である。 到来方向推定部による音声の到来方向推定例を示す図である。 第1音声分離部による音声分離手法の一例を説明する図である。 実施の形態1に係る音声分離装置の動作例を示すフローチャートである。 図6における音声分離手法選択の詳細な動作例を示すフローチャートである。 実施の形態1に係る音声分離装置のハードウェア構成の一例を示す図である。 実施の形態1に係る音声分離装置のハードウェア構成の別の例を示す図である。
 以下、本開示をより詳細に説明するために、本開示を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 図1は、実施の形態1に係る音声分離装置20の構成例を示すブロック図である。実施の形態1に係る音声分離装置20は、車両10に搭載され、車両10に搭乗している乗員が発話した音声を乗員ごとに分離する用途に用いられるものとする。音声分離装置20は、映像取得部21、音取得部22、位置検出部23、話者数検出部24、手法選択部25、到来方向推定部26、第1音声分離部27、及び第2音声分離部28を備える。この車両10には、音声分離装置20に加え、カメラ11、アレイマイク12、及び音声認識装置13が搭載されている。なお、音声認識装置13は、車両10ではなく、ネットワーク上にあってもよい。
 カメラ11は、車両10の車室内を撮像し、撮像した映像を映像取得部21へ出力する。構成及び配線等を簡素化するために、1つのカメラ11が車室内の全乗員の顔を撮像できることが好ましいが、1つのカメラ11が車室内の全乗員の顔を撮像できないのであれば複数のカメラ11が使用されてもよい。このカメラ11は、例えば、オーバヘッドコンソール付近に設置される。
 アレイマイク12は、複数のマイクで構成される。複数のマイクのそれぞれは、車両10の車室内の音を収音し、音情報として音取得部22へ出力する。構成及び配線等を簡素化するために、アレイマイク12の設置場所は、カメラ11と同じ場所が好ましい。
 図2は、車両10の車室内の様子を示す上面図である。図2の例では、車両10のオーバヘッドコンソール付近に、カメラ11とアレイマイク12とが設置されている。この例のアレイマイク12は、4本のマイクで構成されている。以下では、図2の紙面右側の座席を右側前部座席31と右側後部座席33と呼び、紙面左側の座席を左側前部座席32と左側後部座席34と呼ぶ。また、斜線で塗りつぶされた丸は、乗員を示す。図2の例では、右側前部座席31、左側前部座席32、及び右側後部座席33のそれぞれに乗員が座っている。右側前部座席31、左側前部座席32、及び右側後部座席33に座っている3人の乗員が発話している場合、アレイマイク12には、この3人が発話している音声31a,32a,33aが同時に入力される。また、このアレイマイク12には、車両10が備えるエアコンディショナの送風音、及び車両10の走行音等といった騒音も入力される。
 なお、図2の例では、車両10に左右2座席及び前後2座席の合計4座席が設けられているが、座席の数及び位置はこの例に限定されない。
 音声認識装置13は、音声分離装置20により分離された乗員ごとの音声を認識する。音声認識装置13の音声認識結果は、図示しないカーナビゲーション装置又はエアコンディショナ等の音声操作に利用される。
 映像取得部21は、カメラ11が撮像した映像を、カメラ11から取得し、位置検出部23及び話者数検出部24へ出力する。
 音取得部22は、アレイマイク12が収音した複数の音情報を、アレイマイク12から取得し、到来方向推定部26及び第1音声分離部27へ出力する。
 位置検出部23は、映像取得部21が取得した映像を用いて、乗員がいる位置を検出する。位置検出部23は、検出した位置を話者数検出部24へ出力する。
 なお、位置検出部23は、映像取得部21が取得した映像を用いて、乗員が座っている座席の位置を検出してもよい。
 話者数検出部24は、映像取得部21が取得した映像を用いて、位置検出部23が検出した乗員ごとの口の動きを検出し、口が動いている乗員の人数を話者数として検出する。話者数検出部24は、検出した話者数と話者ごとの位置とを手法選択部25へ出力する。
 手法選択部25は、話者数検出部24が検出した話者ごとの位置に基づいて、第1音声分離部27の手法と第2音声分離部28の手法のいずれか一方、又は両方により音声を分離させる。手法選択部25は、第1音声分離部27の手法(以下、「第1音声分離手法」とも言う)を選択した場合、第1音声分離部27に対して音声分離を指示する。また、手法選択部25は、第2音声分離部28の手法(以下、「第2音声分離手法」とも言う)を選択した場合、第2音声分離部28に対して音声分離を指示する。その際、手法選択部25は、話者数検出部24が検出した話者数を、第2音声分離部28に対して通知する。
 第1音声分離部27の手法は、音声の到来方向の違いを基に話者ごとの音声に分離する手法である。第2音声分離部28の手法は、予め学習した声質の特徴を基に話者ごとの音声に分離する手法である。
 例えば、手法選択部25は、位置検出部23が検出した乗員の位置を用いて、アレイマイク12が設置された位置を基準とした話者間の角度が、予め定められた閾値以上である場合に第1音声分離部27の手法を選択する。手法選択部25は、アレイマイク12が設置された位置を基準とした話者間の角度が、上記予め定められた閾値未満である場合に第2音声分離部28の手法を選択する。具体例を以下に説明する。
 図2において、アレイマイク12を基準とした右側前部座席31の乗員と左側前部座席32の乗員の角度、つまり音声31aの到来方向を示す矢印と音声32aの到来方向を示す矢印とが成す角度は、閾値以上である。そのため、手法選択部25は、右側前部座席31の乗員が発話した音声と左側前部座席32の乗員が発話した音声とを、第1音声分離部27の手法により分離すると判定する。また、左側前部座席32の乗員と右側後部座席33の乗員の角度、つまり音声32aの到来方向を示す矢印と音声33aの到来方向を示す矢印とが成す角度も、閾値以上である。そのため、手法選択部25は、左側前部座席32の乗員が発話した音声と右側後部座席33の乗員が発話した音声とを、第1音声分離部27の手法により分離すると判定する。一方、右側前部座席31の乗員と右側後部座席33の乗員の角度、つまり音声31aの到来方向を示す矢印と音声33aの到来方向を示す矢印とが成す角度は、閾値未満である。そのため、手法選択部25は、右側前部座席31の乗員が発話した音声と右側後部座席33の乗員が発話した音声とを、第2音声分離部28の手法により分離すると判定する。
 また、例えば、手法選択部25は、口が動いている乗員(つまり、話者)がいる座席位置のパターンと選択する手法との組み合わせを示す情報を有し、話者数検出部24が検出した口が動いている乗員の座席位置のパターンに対応する手法を選択してもよい。具体例を以下に説明する。
 図3は、手法選択部25による音声分離手法の選択例を示す図である。図3における「話している人の配置例」には、図2に示された車両10の車室内の図が示されており、紙面の都合上、図3ではカメラ11、アレイマイク12、右側前部座席31、左側前部座席32、右側後部座席33、及び左側後部座席34の符号が省略されている。
 図3に示される「No.1」のパターンは、話者が「1人」である場合のパターンである。このパターンでは、手法選択部25は、音声分離が不要であると判定する。
 「No.2」のパターンは、話者が「2人」であって、1人目が右側前部座席31又は右側後部座席33のいずれか一方に存在し、2人目が左側前部座席32又は左側後部座席34のいずれか一方に存在する場合である。このパターンでは、話者2人の位置が左右に離れているため、第1音声分離部27が音声を到来方向ごとに分離できる。したがって、手法選択部25は、第1音声分離部27の手法により、車両10の右側にいる話者の音声と車両10の左側にいる話者の音声とを分離すると判定する。
 「No.3」のパターンは、話者が「2人」であって右側前部座席31と右側後部座席33とに存在する場合、又は、話者が「2人」であって左側前部座席32と左側後部座席34とに存在する場合のいずれか一方である。このパターンでは、話者2人の位置が左右に離れていない、第1音声分離部27が音声を到来方向ごとに分離できない。したがって、手法選択部25は、第2音声分離部28の手法により、車両10の前部にいる話者の音声と車両10の後部にいる話者の音声とを分離すると判定する。
 「No.4」のパターンは、話者が「3人」存在する場合である。このパターンでは、手法選択部25は、第1音声分離部27の手法により、車両10の右側にいる1人以上の話者の音声と、車両10の左側にいる1人以上の話者の音声とを分離すると判定する。ここで、第1音声分離部27が分離した、車両10の右側から到来した音声を「右側音声」と称し、第1音声分離部27が分離した、車両10の左側から到来した音声を「左側音声」と称する。車両10の右側又は左側には話者が2人いるため、手法選択部25は、第2音声分離部28の手法により、話者が2人いる側の分離後の音声を、車両10の前部にいる話者の音声と車両10の後部にいる話者の音声とに分離すると判定する。
 例えば、図3に示される「No.4」のパターンでは、話者が、右側前部座席31と左側前部座席32と左側後部座席34とに存在する。この場合、手法選択部25は、第1音声分離部27の手法により、右側前部座席31の乗員が発話した音声と、左側前部座席32及び左側後部座席34の各乗員が発話した音声とを分離すると判定する。さらに、手法選択部25は、第2音声分離部28の手法により、分離後の左側音声を、左側前部座席32の乗員が発話した音声と左側後部座席34の乗員が発話した音声とに分離すると判定する。
 「No.5」のパターンは、話者が「4人」存在する場合である。このパターンでは、手法選択部25は、第1音声分離部27の手法により、車両10の右側にいる2人の話者の音声と、車両10の左側にいる2人の話者の音声とを分離すると判定する。さらに、手法選択部25は、第2音声分離部28の手法により、分離後の右側音声を、右側前部座席31の乗員が発話した音声と右側後部座席33の乗員が発話した音声とに分離すると判定する。また、手法選択部25は、第2音声分離部28の手法により、分離後の左側音声を、左側前部座席32の乗員が発話した音声と左側後部座席34の乗員が発話した音声とに分離すると判定する。
 到来方向推定部26は、音取得部22が取得した複数の音情報を用いて、アレイマイク12を構成する複数のマイクに到来した音声の到来時間の差を算出し、到来時間の差に基づいてこの音声の到来方向を推定する。到来方向推定部26は、推定した音声ごとの到来方向を、第1音声分離部27へ出力する。
 図4は、到来方向推定部26による音声の到来方向推定例を示す図である。例えば、右側前部座席31の乗員が発話した音声31aは、最初に、図4の紙面一番右側のマイクで収音され、最後に、図4の紙面一番左側のマイクで収音される。到来方向推定部26は、4本のマイクから取得した4つの音情報に含まれる音声31aをそれぞれ検出し、音声31aの到来時間差を求める。そして、到来方向推定部26は、音声31aの到来時間差を基に、時間ごとに音声31aの各周波数成分の到来方向を推定する。到来方向推定部26は、推定結果を第1音声分離部27へ出力する。
 第1音声分離部27は、手法選択部25から音声分離の指示を受けた場合、音取得部22が取得した複数の音情報のうちのいずれか1つの音情報を用いて、到来方向推定部26により推定された到来方向ごとに音声を分離する。第1音声分離部27は、例えば、アレイマイク12を構成する複数のマイクのうち、車両10の左右方向における中央付近に配置されたマイクが収音した音情報を用いる。第1音声分離部27は、到来方向ごとに分離した音声を、第2音声分離部28へ出力する。
 実施の形態1では、第1音声分離部27は、車両10の右側の座席から到来した右側音声のみを含む音情報、又は車両10の左側の座席から到来した左側音声のみを含む音情報の少なくとも一方を、第2音声分離部28へ出力する。
 図5は、第1音声分離部27による音声分離手法の一例を説明する図である。ここでは、バイナリマスクを用いた音声分離手法を説明する。第1音声分離部27は、アレイマイク12が収音した複数の音情報のうちのいずれか1つの音情報を、時間ごと及び周波数ごとに分解し、図5のグラフを生成する。グラフの1マスは、時間ごと及び周波数ごとに分解された音声成分である時間周波数ビンである。第1音声分離部27は、到来方向推定部26により推定された到来方向に応じて各時間周波数ビンを分類することで、到来方向ごとに音声を分類する。図5では、縦線で塗りつぶされた時間周波数ビンが、右側前部座席31又は右側後部座席33の少なくとも一方から到来した音声に分類された時間周波数ビンであり、黒色で塗りつぶされた時間周波数ビンが、左側前部座席32又は左側後部座席34の少なくとも一方から到来した音声に分類された時間周波数ビンである。
 第2音声分離部28は、手法選択部25から音声分離の指示及び話者数の通知を受けた場合、話者数と、音取得部22が取得した複数の音情報のうちのいずれか1つの音情報に基づく声質とを用いて、この1つの音情報から話者数分の音声を分離する。第2音声分離部28は、分離した話者数分の音声を音声認識装置13へ出力する。
 なお、実施の形態1では、まず第1音声分離部27が音声を左右に分離し、次に第2音声分離部28が音声を前後に分離する。そのため、第2音声分離部28は、音取得部22が取得した複数の音情報のうちのいずれか1つの音情報を直接用いるのではなく、第1音声分離部27が分離した右側音声を含む音情報、又は第1音声分離部27が分離した左側音声を含む音情報の少なくとも一方を、音声分離に用いる。第1音声分離部27が音声分離を行わない場合、第2音声分離部28は、音取得部22が取得した複数の音情報のうちのいずれか1つの音情報を、第1音声分離部27を介して取得して音声分離に用いる。
 例えば、第2音声分離部28は、上述した非特許文献1に記載されているディープクラスタリング等の、学習済みの学習器を用いて、声質に基づく音声分離を行う。この学習器は、音情報を入力すると、音情報に含まれる声質の特徴量を算出し、声質の特徴量の違いに基づいて音情報中の音声を話者数分に分離して出力する。
 次に、音声分離装置20の動作を説明する。
 図6は、実施の形態1に係る音声分離装置20の動作例を示すフローチャートである。音声分離装置20は、例えば、予め定められた周期で図6のフローチャートに示される動作を繰り返す。
 ステップST1において、映像取得部21は、カメラ11が撮像した映像を取得する。ステップST2において、位置検出部23は、映像取得部21が取得した映像を用いて、乗員がいる位置を検出する。ステップST3において、話者数検出部24は、位置検出部23が検出した乗員ごとの口の動きを検出し、口が動いている乗員の人数を検出する。
 ステップST4において、音取得部22は、アレイマイク12が収音した音情報を取得する。音取得部22は、ステップST4の動作を、ステップST1~ST3と並行して行う。
 ステップST5において、手法選択部25は、話者数検出部24が検出した話者ごとの位置に基づいて、第1音声分離手法と第2音声分離手法のいずれか一方、又は両方を選択する。
 手法選択部25が第1音声分離手法を選択した場合、ステップST6において、到来方向推定部26は、音取得部22が取得した複数の音情報を用いて、音声の到来方向を推定する。第1音声分離部27は、音取得部22が取得した複数の音情報のうちのいずれか1つの音情報を用いて、到来方向推定部26により推定された到来方向ごとに音声を分離する。
 手法選択部25が第2音声分離手法を選択した場合、ステップST6において、第2音声分離部28は、話者数検出部24が検出した話者数と第1音声分離部27が出力した音情報を、学習済みの学習器に入力する。学習器は、話者数分に分離した音声を出力する。第2音声分離部28は、話者数分に分離された音声を、学習器から取得して音声認識装置13へ出力する。
 なお、手法選択部25は、話者数検出部24が検出した話者数が1人である場合、音声を分離する必要がないため、音情報をそのまま音声認識装置13へ出力するように第1音声分離部27及び第2音声分離部28に指示する。
 図7は、図6における音声分離手法選択(ステップST5)の詳細な動作例を示すフローチャートである。
 ステップST11において、手法選択部25は、話者数検出部24が検出した話者数が2人以上であるか否かを判定する。話者数が1人である場合(ステップST11“NO”)、手法選択部25は、第1音声分離手法及び第2音声分離手法による音声分離が不要と判定する(ステップST12)。この場合、手法選択部25は、音取得部22が取得した音情報をそのまま音声認識装置13へ出力するように、第1音声分離部27及び第2音声分離部28に指示する。
 話者数が2人以上である場合(ステップST11“YES”)、手法選択部25は、話者数検出部24が検出した話者ごとの位置を比較し、位置が離れている話者がいるか否かを判定する(ステップST13)。
 例えば、手法選択部25は、アレイマイク12が設置された位置を基準とした話者間の角度が閾値以上となる話者が1人以上いる場合に、位置が離れている話者がいると判定する(ステップST13“YES”)。手法選択部25は、全話者について、アレイマイク12が設置された位置を基準とした話者間の角度が閾値未満となる場合に、位置が離れている話者がいないと判定する(ステップST13“NO”)。
 また、例えば、手法選択部25は、話者がいる座席位置のパターンが、図3に示される「No.2」、「No.4」、又は「No.5」のパターンのうちのいずれかに該当する場合に、位置が離れている話者がいると判定する(ステップST13“YES”)。手法選択部25は、話者がいる座席位置のパターンが、図3に示される「No.3」のパターンに該当する場合に、位置が離れている話者がいないと判定する(ステップST13“NO”)。
 手法選択部25は、位置が離れている話者がいないと判定した場合(ステップST13“NO”)、第1音声分離手法による音声分離が不要と判定する(ステップST14)。また、手法選択部25は、第2音声分離手法による音声分離が必要と判定する(ステップST15)。この場合、手法選択部25は、音取得部22が取得した音情報の1つをそのまま第2音声分離部28へ出力するように、第1音声分離部27に指示すると共に、音情報から2人分の音声を分離するように、第2音声分離部28に指示する。第2音声分離部28は、第1音声分離部27が出力した音情報から、車両10の前部の話者が発話した音声と、車両10の後部の話者が発話した音声とを分離する。
 手法選択部25は、位置が離れている話者がいると判定した場合(ステップST13“YES”)、まず、第1音声分離手法による音声分離が必要と判定し、第1音声分離部27に音声分離を指示する(ステップST16)。この場合、車両10の右側に1人以上の話者がいると共に、車両10の左側にも1人以上の話者がいる。したがって、第1音声分離部27は、音取得部22が取得した音情報から、右側音声と左側音声とを分離する。
 ステップST17において、手法選択部25は、位置が近い複数の話者が車両10の右側にいるか否かを判定する。位置が近い複数の話者が右側にいる場合とは、右側前部座席31と右側後部座席33とにそれぞれ話者がいる場合をさす。
 手法選択部25は、位置が近い複数の話者が右側にいると判定した場合(ステップST17“YES”)、第1音声分離部27が分離した右側音声に対して第2音声分離手法による音声分離が必要と判定し、第2音声分離部28に音声分離を指示する(ステップST18)。この場合、第2音声分離部28は、第1音声分離部27が出力した右側音声を学習済みの学習器に入力し、2人分に分離した音声を取得する。
 手法選択部25は、位置が近い複数の話者が右側にいないと判定した場合(ステップST17“NO”)、第1音声分離部27が分離した右側音声に対して第2音声分離手法による音声分離が不要と判定する(ステップST19)。この場合、車両10の右側には話者が1人しかいないため、第1音声分離部27が分離した右側音声には、この話者が発話した音声しか含まれていない。よって、手法選択部25は、第2音声分離部28に対して、右側音声をそのまま音声認識装置13へ出力するように指示する。
 ステップST20において、手法選択部25は、位置が近い複数の話者が車両10の左側にいるか否かを判定する。位置が近い複数の話者が左側にいる場合とは、左側前部座席32と左側後部座席34とにそれぞれ話者がいる場合をさす。
 手法選択部25は、位置が近い複数の話者が左側にいると判定した場合(ステップST20“YES”)、第1音声分離部27が分離した左側音声に対して第2音声分離手法が必要と判定し、第2音声分離部28に音声分離を指示する(ステップST21)。この場合、第2音声分離部28は、第1音声分離部27が出力した左側音声を学習済みの学習器に入力し、2人分に分離した音声を取得する。
 手法選択部25は、位置が近い複数の話者が左側にいないと判定した場合(ステップST20“NO”)、第1音声分離部27が分離した左側音声に対して第2音声分離手法による音声分離が不要と判定する(ステップST22)。この場合、車両10の左側には話者が1人しかいないため、第1音声分離部27が分離した左側音声には、この話者が発話した音声しか含まれていない。よって、手法選択部25は、第2音声分離部28に対して、左側音声をそのまま音声認識装置13へ出力するように指示する。
 次に、音声分離装置20のハードウェア構成を説明する。
 図8及び図9は、実施の形態1に係る音声分離装置20のハードウェア構成例を示す図である。音声分離装置20における映像取得部21、音取得部22、位置検出部23、話者数検出部24、手法選択部25、到来方向推定部26、第1音声分離部27、及び第2音声分離部28の機能は、処理回路により実現される。即ち、音声分離装置20は、上記機能を実現するための処理回路を備える。処理回路は、専用のハードウェアとしての処理回路100であってもよいし、メモリ102に格納されるプログラムを実行するプロセッサ101であってもよい。
 図8に示されるように、処理回路が専用のハードウェアである場合、処理回路100は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、又はこれらを組み合わせたものが該当する。映像取得部21、音取得部22、位置検出部23、話者数検出部24、手法選択部25、到来方向推定部26、第1音声分離部27、及び第2音声分離部28の機能を複数の処理回路100で実現してもよいし、各部の機能をまとめて1つの処理回路100で実現してもよい。
 図9に示されるように、処理回路がプロセッサ101である場合、映像取得部21、音取得部22、位置検出部23、話者数検出部24、手法選択部25、到来方向推定部26、第1音声分離部27、及び第2音声分離部28の機能は、ソフトウェア、ファームウェア、又はソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェア又はファームウェアはプログラムとして記述され、メモリ102に格納される。プロセッサ101は、メモリ102に格納されたプログラムを読みだして実行することにより、各部の機能を実現する。即ち、音声分離装置20は、プロセッサ101により実行されるときに、図6等のフローチャートで示されるステップが結果的に実行されることになるプログラムを格納するためのメモリ102を備える。また、このプログラムは、映像取得部21、音取得部22、位置検出部23、話者数検出部24、手法選択部25、到来方向推定部26、第1音声分離部27、及び第2音声分離部28の手順又は方法をコンピュータに実行させるものであるとも言える。
 ここで、プロセッサ101とは、CPU(Central Processing Unit)、処理装置、演算装置、又はマイクロプロセッサ等のことである。
 メモリ102は、RAM(Random Access Memory)、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、又はフラッシュメモリ等の不揮発性もしくは揮発性の半導体メモリであってもよいし、ハードディスク又はフレキシブルディスク等の磁気ディスクであってもよいし、CD(Compact Disc)又はDVD(Digital Versatile Disc)等の光ディスクであってもよい。
 なお、映像取得部21、音取得部22、位置検出部23、話者数検出部24、手法選択部25、到来方向推定部26、第1音声分離部27、及び第2音声分離部28の機能について、一部を専用のハードウェアで実現し、一部をソフトウェア又はファームウェアで実現するようにしてもよい。このように、音声分離装置20における処理回路は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせによって、上述の機能を実現することができる。
 以上のように、実施の形態1に係る音声分離装置20は、映像取得部21、位置検出部23、話者数検出部24、音取得部22、到来方向推定部26、第1音声分離部27、第2音声分離部28、及び手法選択部25を備える。映像取得部21は、カメラ11が撮像した映像を取得する。位置検出部23は、映像を用いて乗員がいる位置を検出する。話者数検出部24は、映像を用いて、位置検出部23が検出した乗員ごとの口の動きを検出し、口が動いている乗員数を話者数として検出する。音取得部22は、アレイマイク12を構成する複数のマイクが収音した複数の音情報を取得する。到来方向推定部26は、複数の音情報を用いて複数のマイクに到来した音声の到来時間の差を算出し、到来時間の差に基づいて上記音声の到来方向を推定する。第1音声分離部27は、複数の音情報のうちのいずれか1つの音情報を用いて、到来方向推定部26により推定された到来方向ごとに音声を分離する。第2音声分離部28は、話者数と、複数の音情報のうちのいずれか1つの音情報に基づく声質とを用いて、上記1つの音情報から話者数分の音声を分離する。手法選択部25は、話者ごとの位置に基づいて、第1音声分離部27の手法と第2音声分離部28の手法のいずれか一方、又は両方により音声を分離させる。このように、手法選択部25は、到来方向の違いを基に音声を分離できる位置にいる乗員の音声については第1音声分離部27の手法により音声を分離させるので、第1音声分離部27の手法による歪の少ない音声分離を実現することができる。また、手法選択部25は、到来方向の違いを基に音声を分離できない位置にいる乗員の音声について第2音声分離部28の手法を適用するので、第2音声分離部28の手法により音声分離する話者数を低減でき、第2音声分離部28の手法による歪の少ない音声分離を実現できる。したがって、手法選択部25は、第1音声分離部27の手法と第2音声分離部28の手法とを適切に組み合わせてより多くの音声を分離しつつ、歪の少ない音声分離を実現できる。また、音声分離装置20が歪の少ない音声分離を実現することにより、音声認識装置13における認識精度の低下が抑制される。
 また、実施の形態1の手法選択部25は、アレイマイク12を構成する複数のマイクが設置された位置を基準とした話者間の角度が、予め定められた閾値以上である場合に第1音声分離部27の手法を選択し、上記予め定められた閾値未満である場合に第2音声分離部28の手法を選択する構成であってもよい。この構成の手法選択部25は、右側後部座席33の乗員が身を乗り出して右側前部座席31と左側前部座席32の間で発話している場面等、座席位置以外の位置で乗員が発話している場面であっても、座席位置ではなく話者の位置に基づいて、適切な音声分離手法を選択できる。
 また、実施の形態1の手法選択部25は、口が動いている乗員がいる座席位置のパターンと選択する手法との組み合わせを示す情報を有し、話者数検出部24が検出した口が動いている乗員の座席位置のパターンに対応する手法を選択する構成であってもよい。この構成の手法選択部25は、上記構成のように話者間の角度と閾値とを比較する必要がないため、より簡易に適切な音声分離手法を選択できる。
 また、実施の形態1の第2音声分離部28は、音情報を入力すると話者数分に分離した音声を出力する学習済みの学習器を用いて、音取得部22が取得した音情報を上記学習器に入力し、話者数検出部24が検出した話者数分に分離した音声を上記学習器から取得する。これにより、第2音声分離部28は、音声分離のために、乗員ごとの声質を事前に登録する必要がない。
 なお、実施の形態1では、音声分離装置20が、車両10に搭乗している乗員の音声を分離する用途に使用されたが、これ以外の用途に使用されてもよい。例えば、音声分離装置20は、エレベータ、部屋、又は、鉄道、船舶若しくは航空機等を含む移動体等にいる人の音声を分離する用途に使用されてもよい。この場合、カメラ11は、エレベータ内等にいる人を撮像し、アレイマイク12は、エレベータ内等の音を収音すればよい。
 また、実施の形態1では映像取得部21、音取得部22、位置検出部23、話者数検出部24、手法選択部25、到来方向推定部26、第1音声分離部27、及び第2音声分離部28の機能が、車両10に搭載される音声分離装置20に集約された構成であったが、ネットワーク上のサーバ装置、スマートフォン等の携帯端末、及び車載器等に分散されていてもよい。
 また、本開示はその開示の範囲内において、実施の形態の任意の構成要素の変形、又は実施の形態の任意の構成要素の省略が可能である。
 本開示に係る音声分離装置は、アレイマイクが収音した複数の話者の音声を分離するようにしたので、音声認識装置に入力する音声データを生成する音声分離装置等に用いるのに適している。
 10 車両、11 カメラ、12 アレイマイク、13 、音声認識装置、20 音声分離装置、21 映像取得部、22 音取得部、23 位置検出部、24 話者数検出部、25 手法選択部、26 到来方向推定部、27 第1音声分離部、28 第2音声分離部、31 右側前部座席、32 左側前部座席、33 右側後部座席、34 左側後部座席、31a,32a,33a 音声、100 処理回路、101 プロセッサ、102 メモリ。

Claims (6)

  1.  カメラが撮像した映像を取得する映像取得部と、
     前記映像を用いて人がいる位置を検出する位置検出部と、
     前記映像を用いて人ごとの口の動きを検出し、口が動いている人数を話者数として検出する話者数検出部と、
     複数のマイクが収音した複数の音情報を取得する音取得部と、
     前記複数の音情報を用いて前記複数のマイクに到来した音声の到来時間の差を算出し、前記到来時間の差に基づいて前記音声の到来方向を推定する到来方向推定部と、
     前記複数の音情報のうちのいずれか1つの音情報を用いて、前記到来方向推定部により推定された到来方向ごとに音声を分離する第1音声分離部と、
     前記話者数と前記複数の音情報のうちのいずれか1つの音情報に基づく声質とを用いて、前記1つの音情報から前記話者数分の音声を分離する第2音声分離部と、
     前記話者ごとの位置に基づいて、前記第1音声分離部の手法と前記第2音声分離部の手法のいずれか一方、又は両方により音声を分離させる手法選択部とを備える音声分離装置。
  2.  前記手法選択部は、前記複数のマイクが設置された位置を基準とした前記話者間の角度が、予め定められた閾値以上である場合に前記第1音声分離部の手法を選択し、前記予め定められた閾値未満である場合に前記第2音声分離部の手法を選択することを特徴とする請求項1記載の音声分離装置。
  3.  前記人は、車両に搭乗している乗員であることを特徴とする請求項1記載の音声分離装置。
  4.  前記位置検出部は、前記映像を用いて乗員がいる座席位置を検出し、
     前記話者数検出部は、前記映像を用いて、前記位置検出部が検出した各座席位置の乗員の口の動きを検出し、口が動いている話者数を検出し、
     前記手法選択部は、口が動いている乗員がいる座席位置のパターンと選択する手法との組み合わせを示す情報を有し、前記話者数検出部が検出した口が動いている乗員の座席位置のパターンに対応する手法を選択することを特徴とする請求項3記載の音声分離装置。
  5.  前記第2音声分離部は、1つの音情報を入力すると話者数分に分離した音声を出力する学習済みの学習器を用いて、前記音取得部が取得した前記1つの音情報を前記学習器に入力し、前記話者数検出部が検出した前記話者数分に分離した音声を前記学習器から取得することを特徴とする請求項1記載の音声分離装置。
  6.  映像取得部が、カメラが撮像した映像を取得し、
     位置検出部が、前記映像を用いて人がいる位置を検出し、
     話者数検出部が、前記映像を用いて人ごとの口の動きを検出し、口が動いている人数を話者数として検出し、
     音取得部が、複数のマイクが収音した複数の音情報を取得し、
     手法選択部が、前記話者ごとの位置に基づいて、第1音声分離手法と第2音声分離手法のいずれか一方、又は両方を選択し、
     前記手法選択部により前記第1音声分離手法が選択された場合、到来方向推定部が、前記複数の音情報を用いて前記複数のマイクに到来した音声の到来時間の差を算出し、前記到来時間の差に基づいて前記音声の到来方向を推定し、第1音声分離部が、前記複数の音情報のうちのいずれか1つの音情報を用いて、前記到来方向推定部により推定された到来方向ごとに音声を分離し、
     前記手法選択部により前記第2音声分離手法が選択された場合、第2音声分離部が、前記話者数と前記複数の音情報のうちのいずれか1つの音情報に基づく声質とを用いて、前記1つの音情報から前記話者数分の音声を分離する音声分離方法。
PCT/JP2020/004162 2020-02-04 2020-02-04 音声分離装置及び音声分離方法 WO2021156946A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/004162 WO2021156946A1 (ja) 2020-02-04 2020-02-04 音声分離装置及び音声分離方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/004162 WO2021156946A1 (ja) 2020-02-04 2020-02-04 音声分離装置及び音声分離方法

Publications (1)

Publication Number Publication Date
WO2021156946A1 true WO2021156946A1 (ja) 2021-08-12

Family

ID=77199833

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/004162 WO2021156946A1 (ja) 2020-02-04 2020-02-04 音声分離装置及び音声分離方法

Country Status (1)

Country Link
WO (1) WO2021156946A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115359789A (zh) * 2022-08-02 2022-11-18 科大讯飞股份有限公司 语音交互方法及相关装置、设备和存储介质
CN115881125A (zh) * 2023-01-19 2023-03-31 小米汽车科技有限公司 车载多音区语音交互方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0683384A (ja) * 1992-08-31 1994-03-25 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声中の複数話者の発話区間自動検出同定装置
WO2019207912A1 (ja) * 2018-04-23 2019-10-31 ソニー株式会社 情報処理装置及び情報処理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0683384A (ja) * 1992-08-31 1994-03-25 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声中の複数話者の発話区間自動検出同定装置
WO2019207912A1 (ja) * 2018-04-23 2019-10-31 ソニー株式会社 情報処理装置及び情報処理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115359789A (zh) * 2022-08-02 2022-11-18 科大讯飞股份有限公司 语音交互方法及相关装置、设备和存储介质
CN115881125A (zh) * 2023-01-19 2023-03-31 小米汽车科技有限公司 车载多音区语音交互方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
JP3910898B2 (ja) 指向性設定装置、指向性設定方法及び指向性設定プログラム
WO2021156946A1 (ja) 音声分離装置及び音声分離方法
JP6466385B2 (ja) サービス提供装置、サービス提供方法およびサービス提供プログラム
US11089404B2 (en) Sound processing apparatus and sound processing method
JP7049803B2 (ja) 車載装置および音声出力方法
JP2008299221A (ja) 発話検知装置
JP5018773B2 (ja) 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム
CN110120217B (zh) 一种音频数据处理方法及装置
JP2009225379A (ja) 音声処理装置、音声処理方法、音声処理プログラム
WO2015086895A1 (en) Spatial audio processing apparatus
EP3623936A2 (en) Sound input/output device for vehicle
JP2010156825A (ja) 音声出力装置
US11676617B2 (en) Acoustic noise suppressing apparatus and acoustic noise suppressing method
JP6847324B2 (ja) 音声認識装置、音声認識システム、及び音声認識方法
JP4561222B2 (ja) 音声入力装置
US10645494B1 (en) Active control system for a vehicular dual microphone and a control method thereof
WO2021156945A1 (ja) 音声分離装置及び音声分離方法
US20230178093A1 (en) Audio processing system, audio processing device, and audio processing method
JP7065964B2 (ja) 音場制御装置および音場制御方法
WO2020027061A1 (ja) 会話サポートシステム、その方法、およびプログラム
JP2019053785A (ja) サービス提供装置
JP7337965B2 (ja) 発話者推定装置
JP7023131B2 (ja) 音声出力制御装置、及び音声出力制御プログラム
JP2006047447A (ja) 音声入力装置
JP6775897B2 (ja) 車内会話支援装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20917638

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: JP

122 Ep: pct application non-entry in european phase

Ref document number: 20917638

Country of ref document: EP

Kind code of ref document: A1