WO2021156945A1 - 音声分離装置及び音声分離方法 - Google Patents

音声分離装置及び音声分離方法 Download PDF

Info

Publication number
WO2021156945A1
WO2021156945A1 PCT/JP2020/004161 JP2020004161W WO2021156945A1 WO 2021156945 A1 WO2021156945 A1 WO 2021156945A1 JP 2020004161 W JP2020004161 W JP 2020004161W WO 2021156945 A1 WO2021156945 A1 WO 2021156945A1
Authority
WO
WIPO (PCT)
Prior art keywords
speakers
voice
sound
acquisition unit
sound information
Prior art date
Application number
PCT/JP2020/004161
Other languages
English (en)
French (fr)
Inventor
真 宗平
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2020/004161 priority Critical patent/WO2021156945A1/ja
Publication of WO2021156945A1 publication Critical patent/WO2021156945A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source

Definitions

  • This disclosure relates to a voice separation device and a voice separation method.
  • Non-Patent Document 1 there is a voice separation method based on voice quality such as deep clustering, in which voices uttered by a plurality of speakers at the same time are separated for each speaker based on the characteristics of the voice quality learned in advance (see, for example, Non-Patent Document 1).
  • the voice separation method based on voice quality separates the voice into two groups if there are two speakers, and separates the voice into three groups if there are three speakers.
  • the target sound source estimation device described in Patent Document 1 estimates the embedded vector for each time frequency point using the acoustic features extracted from the sound signal, and estimates the number of speakers based on the embedded vector. Was there.
  • This disclosure was made to solve the above problems, and aims to estimate the number of speakers and separate voices even in a noisy environment.
  • the voice separation device has a video acquisition unit that acquires an image captured by a camera, detects the movement of the mouth of each person using the image, and detects the number of people who are moving the mouth as the number of speakers.
  • a voice separation unit that separates the number of speakers from the sound information by using the number of people detection unit, the sound acquisition unit that acquires the sound information collected by the microphone, and the voice quality based on the number of speakers and the sound information. It is equipped with.
  • the number of speakers is estimated even in a noisy environment because the movement of the mouth of each person is detected by using the image captured by the camera and the number of speakers with the moving mouth is detected. And the voice can be separated.
  • FIG. 1 It is a block diagram which shows the structural example of the voice separation apparatus which concerns on Embodiment 1.
  • FIG. It is a top view which shows the state of the vehicle interior of a vehicle.
  • FIG. It is a figure which shows an example of the hardware composition of the voice separation apparatus which concerns on Embodiment 1.
  • FIG. It is a figure which shows another example of the hardware composition of the voice separation apparatus which concerns on Embodiment 1.
  • FIG. 1 is a block diagram showing a configuration example of the voice separation device 20 according to the first embodiment.
  • the voice separation device 20 according to the first embodiment is mounted on the vehicle 10 and is used for the purpose of separating the voice spoken by the occupants on the vehicle 10 for each occupant.
  • the audio separation device 20 includes a video acquisition unit 21, a sound acquisition unit 22, a speaker number detection unit 23, and an audio separation unit 24.
  • the vehicle 10 is equipped with a camera 11, a microphone 12, and a voice recognition device 13.
  • the voice recognition device 13 may be on the network instead of the vehicle 10.
  • the camera 11 images the interior of the vehicle 10 and outputs the captured image to the image acquisition unit 21.
  • one camera 11 can image the faces of all the occupants in the vehicle interior, but if one camera 11 cannot image the faces of all the occupants in the vehicle interior, a plurality of cameras 11 can be imaged.
  • the camera 11 may be used.
  • the camera 11 is installed near the overhead console, for example.
  • the microphone 12 collects the sound in the vehicle interior of the vehicle 10 and outputs it as sound information to the sound acquisition unit 22.
  • the microphone 12 is preferably installed in the same place as the camera 11.
  • FIG. 2 is a top view showing the inside of the vehicle 10.
  • the camera 11 and the microphone 12 are installed near the overhead console of the vehicle 10.
  • the seats on the right side of the paper in FIG. 2 are referred to as the right front seat 31 and the right rear seat 33
  • the seats on the left side of the paper are referred to as the left front seat 32 and the left rear seat 34.
  • the circles filled with diagonal lines indicate the occupants.
  • an occupant is seated in each of the right front seat 31, the left front seat 32, and the right rear seat 33.
  • the voices spoken by the two or more occupants are simultaneously input to the microphone 12.
  • noise such as a blowing sound of an air conditioner included in the vehicle 10 and a running sound of the vehicle 10 is also input to the microphone 12.
  • the vehicle 10 is provided with two seats on the left and right and two seats on the front and rear, for a total of four seats, but the number and positions of the seats are not limited to this example.
  • the voice recognition device 13 recognizes the voice of each occupant separated by the voice separation device 20.
  • the voice recognition result of the voice recognition device 13 is used for voice operation of a car navigation device or an air conditioner (not shown).
  • the image acquisition unit 21 acquires the image captured by the camera 11 from the camera 11 and outputs it to the speaker number detection unit 23.
  • the sound acquisition unit 22 acquires the sound information collected by the microphone 12 from the microphone 12 and outputs it to the voice separation unit 24.
  • the sound acquisition unit 22 may perform noise removal processing, echo canceling processing, or the like for removing sound that has sneak into the microphone 12 from a speaker (not shown) with respect to the sound information collected by the microphone 12.
  • the number of speakers detection unit 23 detects the movement of the mouth for each occupant using the video acquired by the image acquisition unit 21, and detects the number of occupants with the moving mouth as the number of speakers.
  • the number of speakers detection unit 23 outputs the detected number of speakers to the voice separation unit 24.
  • the voice separation unit 24 uses the number of speakers detected by the number of speakers detection unit 23 and the voice quality based on the sound information acquired by the sound acquisition unit 22, and the number of speakers from the sound information acquired by the sound acquisition unit 22. Separate the minute voice.
  • the voice separation unit 24 outputs the voices for the number of separated speakers to the voice recognition device 13.
  • the voice separation unit 24 performs voice separation based on voice quality by using a learned learning device such as deep clustering described in Non-Patent Document 1 described above. When the sound information is input, this learner calculates the feature amount of the voice quality included in the sound information, and separates and outputs the sound in the sound information for the number of speakers based on the difference in the feature amount of the voice quality.
  • FIG. 3 is a flowchart showing an operation example of the voice separation device 20 according to the first embodiment.
  • the voice separation device 20 repeats the operation shown in the flowchart of FIG. 3 at a predetermined cycle, for example.
  • step ST1 the image acquisition unit 21 acquires the image captured by the camera 11.
  • step ST2 the number of speakers detection unit 23 detects the occupant using the video acquired by the video acquisition unit 21.
  • the speaker number detection unit 23 detects the movement of the mouth for each of the three detected occupants, and detects the number of occupants with the moving mouth.
  • step ST3 the sound acquisition unit 22 acquires the sound information collected by the microphone 12.
  • the sound acquisition unit 22 performs the operation of step ST3 in parallel with steps ST1 and ST2.
  • step ST4 the voice separation unit 24 inputs the number of speakers detected by the number of speakers detection unit 23 and the sound information acquired by the sound acquisition unit 22 into the learned learner.
  • the learner outputs voices separated by the number of speakers.
  • the voice separation unit 24 acquires the separated voice from the learning device and outputs it to the voice recognition device 13. For example, in FIG. 2, when the mouths of the occupant of the right front seat 31 and the occupant of the left front seat 32 are moving, the voice separation unit 24 transmits the voice included in the sound information to the occupant of the right front seat 31. Is separated into the voice uttered by the occupant of the left front seat 32 and the voice uttered by the occupant of the left front seat 32.
  • the voice separation unit 24 outputs the sound information as it is to the voice recognition device 13 because it is not necessary to separate the voice when the number of speakers detected by the speaker number detection unit 23 is one.
  • FIGS. 4 and 5 are diagrams showing a hardware configuration example of the voice separation device 20 according to the first embodiment.
  • the functions of the video acquisition unit 21, the sound acquisition unit 22, the number of speakers detection unit 23, and the audio separation unit 24 in the audio separation device 20 are realized by a processing circuit. That is, the voice separation device 20 includes a processing circuit for realizing the above functions.
  • the processing circuit may be a processing circuit 100 as dedicated hardware, or a processor 101 that executes a program stored in the memory 102.
  • the processing circuit 100 may be, for example, a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, or an ASIC (Application Specific Integrated Circuit). ), FPGA (Field Processor Gate Array), or a combination thereof.
  • the functions of the video acquisition unit 21, the sound acquisition unit 22, the number of speakers detection unit 23, and the audio separation unit 24 may be realized by a plurality of processing circuits 100, or the functions of each unit may be combined into one processing circuit 100. It may be realized.
  • the functions of the video acquisition unit 21, the sound acquisition unit 22, the number of speakers detection unit 23, and the audio separation unit 24 are software, firmware, or software. It is realized by combining with firmware.
  • the software or firmware is described as a program and stored in the memory 102.
  • the processor 101 realizes the functions of each part by reading and executing the program stored in the memory 102. That is, the voice separation device 20 includes a memory 102 for storing a program in which the step shown in the flowchart of FIG. 3 is eventually executed when executed by the processor 101. Further, it can be said that this program causes the computer to execute the procedure or method of the video acquisition unit 21, the sound acquisition unit 22, the number of speakers detection unit 23, and the audio separation unit 24.
  • the processor 101 is a CPU (Central Processing Unit), a processing device, an arithmetic unit, a microprocessor, or the like.
  • the memory 102 may be a non-volatile or volatile semiconductor memory such as a RAM (Random Access Memory), a ROM (Read Only Memory), an EPROM (Erasable Program ROM), or a flash memory, and may be a non-volatile or volatile semiconductor memory such as a hard disk or a flexible disk. It may be an optical disc such as a CD (Compact Disc) or a DVD (Digital Versaille Disc).
  • the functions of the video acquisition unit 21, the sound acquisition unit 22, the number of speakers detection unit 23, and the audio separation unit 24 are partially realized by dedicated hardware and partly realized by software or firmware. You may.
  • the processing circuit in the voice separation device 20 can realize the above-mentioned functions by hardware, software, firmware, or a combination thereof.
  • the audio separation device 20 includes a video acquisition unit 21, a speaker number detection unit 23, a sound acquisition unit 22, and an audio separation unit 24.
  • the image acquisition unit 21 acquires the image captured by the camera 11.
  • the number of speakers detection unit 23 detects the movement of the mouth of each occupant using a video, and detects the number of occupants with the moving mouth as the number of speakers.
  • the sound acquisition unit 22 acquires the sound information collected by the microphone 12.
  • the voice separation unit 24 separates the voices for the number of speakers from the sound information by using the number of speakers and the voice quality based on the sound information. In this way, the number of speakers detection unit 23 detects the number of speakers using the image captured by the camera 11, so that the number of speakers can be estimated even in a noisy environment. Therefore, the voice separation unit 24 can separate the voices for the number of speakers even if the sound information is collected in a noisy environment.
  • the voice separation unit 24 of the first embodiment learns the sound information acquired by the sound acquisition unit 22 by using a learned learning device that outputs the voice separated by the number of speakers when the sound information is input.
  • the sound input to the device and separated by the number of speakers detected by the speaker number detection unit 23 is acquired from the learner.
  • the voice separation unit 24 does not need to register the voice quality for each occupant in advance for voice separation.
  • the voice separation device 20 is used for separating the voices of the occupants on the vehicle 10, but it may be used for other purposes.
  • the voice separation device 20 may be used for separating the voice of a person in an elevator, a room, or a moving body including a railroad, a ship, an aircraft, or the like.
  • the camera 11 may take an image of a person in the elevator or the like
  • the microphone 12 may collect the sound in the elevator or the like.
  • the functions of the video acquisition unit 21, the sound acquisition unit 22, the number of speakers detection unit 23, and the audio separation unit 24 are integrated in the audio separation device 20 mounted on the vehicle 10. However, it may be distributed to server devices on the network, mobile terminals such as smartphones, and in-vehicle devices.
  • the voice separation device separates the voices of a plurality of speakers collected by the microphone, it is suitable for use in a voice separation device or the like that generates voice data to be input to the voice recognition device. ..

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

映像取得部(21)は、カメラ(11)が撮像した映像を取得する。話者数検出部(23)は、映像を用いて乗員ごとの口の動きを検出し、口が動いている乗員数を話者数として検出する。音取得部(22)は、マイク(12)が収音した音情報を取得する。音声分離部(24)は、話者数と音情報に基づく声質とを用いて、音情報から話者数分の音声を分離する。

Description

音声分離装置及び音声分離方法
 本開示は、音声分離装置及び音声分離方法に関するものである。
 従来、複数の話者が同時に発話した音声を、予め学習した声質の特徴を基に話者ごとに分離する、ディープクラスタリング等の声質による音声分離手法がある(例えば、非特許文献1参照)。声質に基づく音声分離手法は、話者が2人であれば音声を2グループに分離し、話者が3人であれば音声を3グループに分離する。このように、声質に基づく音声分離手法では、話者数が既知である必要があった。そこで、例えば特許文献1に記載されている目的音源推定装置は、音信号から抽出した音響特徴量を用いて時間周波数点ごとの埋め込みベクトルを推定し、埋め込みベクトルを基に話者数を推定していた。
三菱電機株式会社、"マイク1本で録音した複数話者の同時音声の分離・再現に成功"、[online]、2017年5月24日、[2019年11月13日検索]、インターネット<URL:http://www.mitsubishielectric.co.jp/news/2017/0524-e.html>
特開2019-35851号公報
 特許文献1に記載されている目的音源推定装置のように、音信号を用いて話者数を推定する場合、騒音がある環境では推定精度が低下するという課題があった。
 本開示は、上記のような課題を解決するためになされたもので、騒音がある環境でも話者数を推定して音声を分離することを目的とする。
 本開示に係る音声分離装置は、カメラが撮像した映像を取得する映像取得部と、映像を用いて人ごとの口の動きを検出し、口が動いている人数を話者数として検出する話者数検出部と、マイクが収音した音情報を取得する音取得部と、話者数と音情報に基づく声質とを用いて、音情報から話者数分の音声を分離する音声分離部とを備えるものである。
 本開示によれば、カメラが撮像した映像を用いて人ごとの口の動きを検出し、口が動いている話者数を検出するようにしたので、騒音がある環境でも話者数を推定して音声を分離できる。
実施の形態1に係る音声分離装置の構成例を示すブロック図である。 車両の車室内の様子を示す上面図である。 実施の形態1に係る音声分離装置の動作例を示すフローチャートである。 実施の形態1に係る音声分離装置のハードウェア構成の一例を示す図である。 実施の形態1に係る音声分離装置のハードウェア構成の別の例を示す図である。
 以下、本開示をより詳細に説明するために、本開示を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 図1は、実施の形態1に係る音声分離装置20の構成例を示すブロック図である。実施の形態1に係る音声分離装置20は、車両10に搭載され、車両10に搭乗している乗員が発話した音声を乗員ごとに分離する用途に用いられるものとする。音声分離装置20は、映像取得部21、音取得部22、話者数検出部23、及び音声分離部24を備える。この車両10には、音声分離装置20に加え、カメラ11、マイク12、及び音声認識装置13が搭載されている。なお、音声認識装置13は、車両10ではなく、ネットワーク上にあってもよい。
 カメラ11は、車両10の車室内を撮像し、撮像した映像を映像取得部21へ出力する。構成及び配線等を簡素化するために、1つのカメラ11が車室内の全乗員の顔を撮像できることが好ましいが、1つのカメラ11が車室内の全乗員の顔を撮像できないのであれば複数のカメラ11が使用されてもよい。このカメラ11は、例えば、オーバヘッドコンソール付近に設置される。
 マイク12は、車両10の車室内の音を収音し、音情報として音取得部22へ出力する。構成及び配線等を簡素化するために、マイク12の設置場所は、カメラ11と同じ場所が好ましい。
 図2は、車両10の車室内の様子を示す上面図である。図2の例では、車両10のオーバヘッドコンソール付近に、カメラ11とマイク12とが設置されている。以下では、図2の紙面右側の座席を右側前部座席31と右側後部座席33と呼び、紙面左側の座席を左側前部座席32と左側後部座席34と呼ぶ。また、斜線で塗りつぶされた丸は、乗員を示す。図2の例では、右側前部座席31、左側前部座席32、及び右側後部座席33のそれぞれに乗員が座っている。2人以上の乗員が発話している場合、マイク12には、2人以上の乗員が発話している音声が同時に入力される。また、このマイク12には、車両10が備えるエアコンディショナの送風音、及び車両10の走行音等といった騒音も入力される。
 なお、図2の例では、車両10に左右2座席及び前後2座席の合計4座席が設けられているが、座席の数及び位置はこの例に限定されない。
 音声認識装置13は、音声分離装置20により分離された乗員ごとの音声を認識する。音声認識装置13の音声認識結果は、図示しないカーナビゲーション装置又はエアコンディショナ等の音声操作に利用される。
 映像取得部21は、カメラ11が撮像した映像を、カメラ11から取得し、話者数検出部23へ出力する。
 音取得部22は、マイク12が収音した音情報を、マイク12から取得し、音声分離部24へ出力する。なお、音取得部22は、マイク12が収音した音情報に対して、雑音除去処理、及び図示しないスピーカからマイク12に回り込んだ音を除去するエコーキャンセリング処理等を行ってもよい。
 話者数検出部23は、映像取得部21が取得した映像を用いて、乗員ごとの口の動きを検出し、口が動いている乗員の人数を話者数として検出する。話者数検出部23は、検出した話者数を音声分離部24へ出力する。
 音声分離部24は、話者数検出部23が検出した話者数と、音取得部22が取得した音情報に基づく声質とを用いて、音取得部22が取得した音情報から話者数分の音声を分離する。音声分離部24は、分離した話者数分の音声を音声認識装置13へ出力する。
 例えば、音声分離部24は、上述した非特許文献1に記載されているディープクラスタリング等の、学習済みの学習器を用いて、声質に基づく音声分離を行う。この学習器は、音情報を入力すると、音情報に含まれる声質の特徴量を算出し、声質の特徴量の違いに基づいて音情報中の音声を話者数分に分離して出力する。
 次に、音声分離装置20の動作を説明する。
 図3は、実施の形態1に係る音声分離装置20の動作例を示すフローチャートである。音声分離装置20は、例えば、予め定められた周期で図3のフローチャートに示される動作を繰り返す。
 ステップST1において、映像取得部21は、カメラ11が撮像した映像を取得する。ステップST2において、話者数検出部23は、映像取得部21が取得した映像を用いて、乗員を検出する。ここでは、図2に示されるように、右側前部座席31、左側前部座席32、及び右側後部座席33のそれぞれに乗員がいるものとする。話者数検出部23は、検出した3人の乗員それぞれについて、口の動きを検出し、口が動いている乗員の人数を検出する。
 ステップST3において、音取得部22は、マイク12が収音した音情報を取得する。音取得部22は、ステップST3の動作を、ステップST1,ST2と並行して行う。
 ステップST4において、音声分離部24は、話者数検出部23が検出した話者数と音取得部22が取得した音情報を、学習済みの学習器に入力する。学習器は、話者数分に分離した音声を出力する。音声分離部24は、分離された音声を学習器から取得して音声認識装置13へ出力する。例えば、図2において、右側前部座席31の乗員と左側前部座席32の乗員の口が動いていた場合、音声分離部24は、音情報に含まれる音声を、右側前部座席31の乗員が発話した音声と、左側前部座席32の乗員が発話した音声とに分離する。
 なお、音声分離部24は、話者数検出部23が検出した話者数が1人である場合、音声を分離する必要がないため、音情報をそのまま音声認識装置13へ出力する。
 次に、音声分離装置20のハードウェア構成を説明する。
 図4及び図5は、実施の形態1に係る音声分離装置20のハードウェア構成例を示す図である。音声分離装置20における映像取得部21、音取得部22、話者数検出部23、及び音声分離部24の機能は、処理回路により実現される。即ち、音声分離装置20は、上記機能を実現するための処理回路を備える。処理回路は、専用のハードウェアとしての処理回路100であってもよいし、メモリ102に格納されるプログラムを実行するプロセッサ101であってもよい。
 図4に示されるように、処理回路が専用のハードウェアである場合、処理回路100は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、又はこれらを組み合わせたものが該当する。映像取得部21、音取得部22、話者数検出部23、及び音声分離部24の機能を複数の処理回路100で実現してもよいし、各部の機能をまとめて1つの処理回路100で実現してもよい。
 図5に示されるように、処理回路がプロセッサ101である場合、映像取得部21、音取得部22、話者数検出部23、及び音声分離部24の機能は、ソフトウェア、ファームウェア、又はソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェア又はファームウェアはプログラムとして記述され、メモリ102に格納される。プロセッサ101は、メモリ102に格納されたプログラムを読みだして実行することにより、各部の機能を実現する。即ち、音声分離装置20は、プロセッサ101により実行されるときに、図3のフローチャートで示されるステップが結果的に実行されることになるプログラムを格納するためのメモリ102を備える。また、このプログラムは、映像取得部21、音取得部22、話者数検出部23、及び音声分離部24の手順又は方法をコンピュータに実行させるものであるとも言える。
 ここで、プロセッサ101とは、CPU(Central Processing Unit)、処理装置、演算装置、又はマイクロプロセッサ等のことである。
 メモリ102は、RAM(Random Access Memory)、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、又はフラッシュメモリ等の不揮発性もしくは揮発性の半導体メモリであってもよいし、ハードディスク又はフレキシブルディスク等の磁気ディスクであってもよいし、CD(Compact Disc)又はDVD(Digital Versatile Disc)等の光ディスクであってもよい。
 なお、映像取得部21、音取得部22、話者数検出部23、及び音声分離部24の機能について、一部を専用のハードウェアで実現し、一部をソフトウェア又はファームウェアで実現するようにしてもよい。このように、音声分離装置20における処理回路は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせによって、上述の機能を実現することができる。
 以上のように、実施の形態1に係る音声分離装置20は、映像取得部21、話者数検出部23、音取得部22、及び音声分離部24を備える。映像取得部21は、カメラ11が撮像した映像を取得する。話者数検出部23は、映像を用いて乗員ごとの口の動きを検出し、口が動いている乗員数を話者数として検出する。音取得部22は、マイク12が収音した音情報を取得する。音声分離部24は、話者数と音情報に基づく声質とを用いて、音情報から話者数分の音声を分離する。このように、話者数検出部23は、カメラ11が撮像した映像を用いて話者数を検出するようにしたので、騒音がある環境でも話者数を推定することができる。したがって、音声分離部24は、騒音がある環境で音情報が収音されたとしても、話者数分の音声を分離することができる。
 また、実施の形態1の音声分離部24は、音情報を入力すると話者数分に分離した音声を出力する学習済みの学習器を用いて、音取得部22が取得した音情報を上記学習器に入力し、話者数検出部23が検出した話者数分に分離した音声を上記学習器から取得する。これにより、音声分離部24は、音声分離のために、乗員ごとの声質を事前に登録する必要がない。
 なお、実施の形態1では、音声分離装置20が、車両10に搭乗している乗員の音声を分離する用途に使用されたが、これ以外の用途に使用されてもよい。例えば、音声分離装置20は、エレベータ、部屋、又は、鉄道、船舶若しくは航空機等を含む移動体等にいる人の音声を分離する用途に使用されてもよい。この場合、カメラ11は、エレベータ内等にいる人を撮像し、マイク12は、エレベータ内等の音を収音すればよい。
 また、実施の形態1では、映像取得部21、音取得部22、話者数検出部23、及び音声分離部24の機能が、車両10に搭載される音声分離装置20に集約された構成であったが、ネットワーク上のサーバ装置、スマートフォン等の携帯端末、及び車載器等に分散されていてもよい。
 また、本開示はその開示の範囲内において、実施の形態の任意の構成要素の変形、又は実施の形態の任意の構成要素の省略が可能である。
 本開示に係る音声分離装置は、マイクが収音した複数の話者の音声を分離するようにしたので、音声認識装置に入力する音声データを生成する音声分離装置等に用いるのに適している。
 10 車両、11 カメラ、12 マイク、13 音声認識装置、20 音声分離装置、21 映像取得部、22 音取得部、23 話者数検出部、24 音声分離部、31 右側前部座席、32 左側前部座席、33 右側後部座席、34 左側後部座席、100 処理回路、101 プロセッサ、102 メモリ。

Claims (4)

  1.  カメラが撮像した映像を取得する映像取得部と、
     前記映像を用いて人ごとの口の動きを検出し、口が動いている人数を話者数として検出する話者数検出部と、
     マイクが収音した音情報を取得する音取得部と、
     前記話者数と前記音情報に基づく声質とを用いて、前記音情報から前記話者数分の音声を分離する音声分離部とを備える音声分離装置。
  2.  前記音声分離部は、音情報を入力すると話者数分に分離した音声を出力する学習済みの学習器を用いて、前記音取得部が取得した前記音情報を前記学習器に入力し、前記話者数検出部が検出した前記話者数分に分離した音声を前記学習器から取得することを特徴とする請求項1記載の音声分離装置。
  3.  前記人は、車両に搭乗している乗員であることを特徴とする請求項1記載の音声分離装置。
  4.  映像取得部が、カメラが撮像した映像を取得し、
     話者数検出部が、前記映像を用いて人ごとの口の動きを検出し、口が動いている人数を話者数として検出し、
     音取得部が、マイクが収音した音情報を取得し、
     音声分離部が、前記話者数と前記音情報に基づく声質とを用いて、前記音情報から前記話者数分の音声を分離する音声分離方法。
PCT/JP2020/004161 2020-02-04 2020-02-04 音声分離装置及び音声分離方法 WO2021156945A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/004161 WO2021156945A1 (ja) 2020-02-04 2020-02-04 音声分離装置及び音声分離方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/004161 WO2021156945A1 (ja) 2020-02-04 2020-02-04 音声分離装置及び音声分離方法

Publications (1)

Publication Number Publication Date
WO2021156945A1 true WO2021156945A1 (ja) 2021-08-12

Family

ID=77199904

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/004161 WO2021156945A1 (ja) 2020-02-04 2020-02-04 音声分離装置及び音声分離方法

Country Status (1)

Country Link
WO (1) WO2021156945A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012105199A (ja) * 2010-11-12 2012-05-31 Toshiba Corp 音響信号処理装置、テレビジョン装置及びプログラム
US8855295B1 (en) * 2012-06-25 2014-10-07 Rawles Llc Acoustic echo cancellation using blind source separation
WO2019171457A1 (ja) * 2018-03-06 2019-09-12 日本電気株式会社 音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012105199A (ja) * 2010-11-12 2012-05-31 Toshiba Corp 音響信号処理装置、テレビジョン装置及びプログラム
US8855295B1 (en) * 2012-06-25 2014-10-07 Rawles Llc Acoustic echo cancellation using blind source separation
WO2019171457A1 (ja) * 2018-03-06 2019-09-12 日本電気株式会社 音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NAKADAI, KAZUHIRO ET AL.: "Development of open source software HARK for robot hearing '', ''5.1 HARK application example", JOURNAL OF DIGITAL PRACTICES, vol. 2, no. 2, 15 April 2011 (2011-04-15), pages 133 - 140 *
SHINDOH, TOMONORI: "World's first separation of voices of multiple speakers with only one microphone, Realized by Mitsubishi Electric with deep learning", NIKKEI ROBOTIC, 10 July 2017 (2017-07-10), pages 14 - 16 *

Similar Documents

Publication Publication Date Title
Afouras et al. My lips are concealed: Audio-visual speech enhancement through obstructions
JP2008299221A (ja) 発話検知装置
EP1400814A2 (en) Directional setting apparatus, directional setting system, directional setting method and directional setting program
JP6466385B2 (ja) サービス提供装置、サービス提供方法およびサービス提供プログラム
WO2005036530A1 (en) Speech recognizer using novel multiple microphone configurations
US10805730B2 (en) Sound input/output device for vehicle
JP7049803B2 (ja) 車載装置および音声出力方法
GB2521175A (en) Spatial audio processing apparatus
JP6767082B2 (ja) 車内通話制御装置、車内通話システムおよび車内通話制御方法
JP2010156825A (ja) 音声出力装置
JP2009225379A (ja) 音声処理装置、音声処理方法、音声処理プログラム
WO2021156946A1 (ja) 音声分離装置及び音声分離方法
JP2023011945A (ja) 音声処理装置、音声処理方法および音声処理システム
JP6847324B2 (ja) 音声認識装置、音声認識システム、及び音声認識方法
JP2005316704A (ja) 周囲状況通知装置、周囲状況通知方法
WO2021156945A1 (ja) 音声分離装置及び音声分離方法
JP7065964B2 (ja) 音場制御装置および音場制御方法
JP2010130411A (ja) 複数信号区間推定装置とその方法とプログラム
JPH11352987A (ja) 音声認識装置
JP6332072B2 (ja) 対話装置
JP2019053785A (ja) サービス提供装置
JP2005354223A (ja) 音源情報処理装置、音源情報処理方法、音源情報処理プログラム
JP6995254B2 (ja) 音場制御装置及び音場制御方法
CN110550037B (zh) 用于车辆的驾驶辅助系统及驾驶辅助系统方法
WO2013098983A1 (ja) 音制御装置、音制御方法、音制御プログラム、及び、当該音制御プログラムが記録された記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20917526

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: JP

122 Ep: pct application non-entry in european phase

Ref document number: 20917526

Country of ref document: EP

Kind code of ref document: A1