WO2021156946A1

WO2021156946A1 - 音声分離装置及び音声分離方法

Info

Publication number: WO2021156946A1
Application number: PCT/JP2020/004162
Authority: WO
Inventors: 真宗平
Original assignee: 三菱電機株式会社
Priority date: 2020-02-04
Filing date: 2020-02-04
Publication date: 2021-08-12

Abstract

手法選択部（２５）は、話者ごとの位置に基づいて、第１音声分離部（２７）の手法と第２音声分離部（２８）の手法のいずれか一方、又は両方により音声を分離させる。第１音声分離部（２７）は、音情報を用いて、到来方向推定部（２６）により推定された到来方向ごとに音声を分離する。第２音声分離部（２８）は、話者数と音情報に基づく声質とを用いて、音情報から話者数分の音声を分離する。

Description

音声分離装置及び音声分離方法

　本開示は、音声分離装置及び音声分離方法に関するものである。

　従来、複数の話者が同時に発話した場合に、音声の到来方向の違いを基に話者ごとの音声に分離する手法がある。到来方向に基づく音声分離手法は、同一方向から到来した音声の分離が困難であった。

　また、従来、予め学習した声質の特徴を基に話者ごとの音声に分離する、ディープクラスタリング等の声質による音声分離手法がある（例えば、非特許文献１参照）。声質に基づく音声分離手法は、到来方向が不明な音声の分離にも適用できる。ただし、当該音声分離手法は、同時に発話する話者数が増えると分離精度が低下する問題があった。

三菱電機株式会社、"マイク１本で録音した複数話者の同時音声の分離・再現に成功"、［online］、２０１７年５月２４日、［２０１９年１１月１３日検索］、インターネット＜URL：http://www.mitsubishielectric.co.jp/news/2017/0524-e.html＞

　上述した到来方向に基づく音声分離手法と声質に基づく音声分離手法とを組み合わせることにより、より多くの音声を分離できるようになる。しかしながら、到来方向に基づく音声分離手法と声質に基づく音声分離手法には、それぞれ、一長一短がある。そのため、到来方向に基づく音声分離手法を適用する場面が適切でない場合、又は、声質に基づく音声分離手法を適用する場面が適切でない場合、分離後の音声が歪み、分離前よりも分離後の音声が劣化するという課題があった。

　本開示は、上記のような課題を解決するためになされたもので、到来方向に基づく音声分離手法と声質に基づく音声分離手法とを用いて、より多くの音声を分離可能にしつつ、歪の少ない音声分離を実現することを目的とする。

　本開示に係る音声分離装置は、カメラが撮像した映像を取得する映像取得部と、映像を用いて人がいる位置を検出する位置検出部と、映像を用いて人ごとの口の動きを検出し、口が動いている人数を話者数として検出する話者数検出部と、複数のマイクが収音した複数の音情報を取得する音取得部と、複数の音情報を用いて複数のマイクに到来した音声の到来時間の差を算出し、到来時間の差に基づいて音声の到来方向を推定する到来方向推定部と、複数の音情報のうちのいずれか１つの音情報を用いて、到来方向推定部により推定された到来方向ごとに音声を分離する第１音声分離部と、話者数と複数の音情報のうちのいずれか１つの音情報に基づく声質とを用いて、１つの音情報から話者数分の音声を分離する第２音声分離部と、話者ごとの位置に基づいて、第１音声分離部の手法と第２音声分離部の手法のいずれか一方、又は両方により音声を分離させる手法選択部とを備えるものである。

　本開示によれば、口が動いている話者ごとの位置に基づいて、到来方向に基づく音声分離手法と声質に基づく音声分離手法のいずれか一方、又は両方を選択するようにしたので、より多くの音声を分離可能にしつつ、歪の少ない音声分離を実現できる。

実施の形態１に係る音声分離装置の構成例を示すブロック図である。車両の車室内の様子を示す上面図である。手法選択部による音声分離手法の選択例を示す図である。到来方向推定部による音声の到来方向推定例を示す図である。第１音声分離部による音声分離手法の一例を説明する図である。実施の形態１に係る音声分離装置の動作例を示すフローチャートである。図６における音声分離手法選択の詳細な動作例を示すフローチャートである。実施の形態１に係る音声分離装置のハードウェア構成の一例を示す図である。実施の形態１に係る音声分離装置のハードウェア構成の別の例を示す図である。

　以下、本開示をより詳細に説明するために、本開示を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
　図１は、実施の形態１に係る音声分離装置２０の構成例を示すブロック図である。実施の形態１に係る音声分離装置２０は、車両１０に搭載され、車両１０に搭乗している乗員が発話した音声を乗員ごとに分離する用途に用いられるものとする。音声分離装置２０は、映像取得部２１、音取得部２２、位置検出部２３、話者数検出部２４、手法選択部２５、到来方向推定部２６、第１音声分離部２７、及び第２音声分離部２８を備える。この車両１０には、音声分離装置２０に加え、カメラ１１、アレイマイク１２、及び音声認識装置１３が搭載されている。なお、音声認識装置１３は、車両１０ではなく、ネットワーク上にあってもよい。

　カメラ１１は、車両１０の車室内を撮像し、撮像した映像を映像取得部２１へ出力する。構成及び配線等を簡素化するために、１つのカメラ１１が車室内の全乗員の顔を撮像できることが好ましいが、１つのカメラ１１が車室内の全乗員の顔を撮像できないのであれば複数のカメラ１１が使用されてもよい。このカメラ１１は、例えば、オーバヘッドコンソール付近に設置される。

　アレイマイク１２は、複数のマイクで構成される。複数のマイクのそれぞれは、車両１０の車室内の音を収音し、音情報として音取得部２２へ出力する。構成及び配線等を簡素化するために、アレイマイク１２の設置場所は、カメラ１１と同じ場所が好ましい。

　図２は、車両１０の車室内の様子を示す上面図である。図２の例では、車両１０のオーバヘッドコンソール付近に、カメラ１１とアレイマイク１２とが設置されている。この例のアレイマイク１２は、４本のマイクで構成されている。以下では、図２の紙面右側の座席を右側前部座席３１と右側後部座席３３と呼び、紙面左側の座席を左側前部座席３２と左側後部座席３４と呼ぶ。また、斜線で塗りつぶされた丸は、乗員を示す。図２の例では、右側前部座席３１、左側前部座席３２、及び右側後部座席３３のそれぞれに乗員が座っている。右側前部座席３１、左側前部座席３２、及び右側後部座席３３に座っている３人の乗員が発話している場合、アレイマイク１２には、この３人が発話している音声３１ａ，３２ａ，３３ａが同時に入力される。また、このアレイマイク１２には、車両１０が備えるエアコンディショナの送風音、及び車両１０の走行音等といった騒音も入力される。
　なお、図２の例では、車両１０に左右２座席及び前後２座席の合計４座席が設けられているが、座席の数及び位置はこの例に限定されない。

　音声認識装置１３は、音声分離装置２０により分離された乗員ごとの音声を認識する。音声認識装置１３の音声認識結果は、図示しないカーナビゲーション装置又はエアコンディショナ等の音声操作に利用される。

　映像取得部２１は、カメラ１１が撮像した映像を、カメラ１１から取得し、位置検出部２３及び話者数検出部２４へ出力する。

　音取得部２２は、アレイマイク１２が収音した複数の音情報を、アレイマイク１２から取得し、到来方向推定部２６及び第１音声分離部２７へ出力する。

　位置検出部２３は、映像取得部２１が取得した映像を用いて、乗員がいる位置を検出する。位置検出部２３は、検出した位置を話者数検出部２４へ出力する。
　なお、位置検出部２３は、映像取得部２１が取得した映像を用いて、乗員が座っている座席の位置を検出してもよい。

　話者数検出部２４は、映像取得部２１が取得した映像を用いて、位置検出部２３が検出した乗員ごとの口の動きを検出し、口が動いている乗員の人数を話者数として検出する。話者数検出部２４は、検出した話者数と話者ごとの位置とを手法選択部２５へ出力する。

　手法選択部２５は、話者数検出部２４が検出した話者ごとの位置に基づいて、第１音声分離部２７の手法と第２音声分離部２８の手法のいずれか一方、又は両方により音声を分離させる。手法選択部２５は、第１音声分離部２７の手法（以下、「第１音声分離手法」とも言う）を選択した場合、第１音声分離部２７に対して音声分離を指示する。また、手法選択部２５は、第２音声分離部２８の手法（以下、「第２音声分離手法」とも言う）を選択した場合、第２音声分離部２８に対して音声分離を指示する。その際、手法選択部２５は、話者数検出部２４が検出した話者数を、第２音声分離部２８に対して通知する。
　第１音声分離部２７の手法は、音声の到来方向の違いを基に話者ごとの音声に分離する手法である。第２音声分離部２８の手法は、予め学習した声質の特徴を基に話者ごとの音声に分離する手法である。

　例えば、手法選択部２５は、位置検出部２３が検出した乗員の位置を用いて、アレイマイク１２が設置された位置を基準とした話者間の角度が、予め定められた閾値以上である場合に第１音声分離部２７の手法を選択する。手法選択部２５は、アレイマイク１２が設置された位置を基準とした話者間の角度が、上記予め定められた閾値未満である場合に第２音声分離部２８の手法を選択する。具体例を以下に説明する。

　図２において、アレイマイク１２を基準とした右側前部座席３１の乗員と左側前部座席３２の乗員の角度、つまり音声３１ａの到来方向を示す矢印と音声３２ａの到来方向を示す矢印とが成す角度は、閾値以上である。そのため、手法選択部２５は、右側前部座席３１の乗員が発話した音声と左側前部座席３２の乗員が発話した音声とを、第１音声分離部２７の手法により分離すると判定する。また、左側前部座席３２の乗員と右側後部座席３３の乗員の角度、つまり音声３２ａの到来方向を示す矢印と音声３３ａの到来方向を示す矢印とが成す角度も、閾値以上である。そのため、手法選択部２５は、左側前部座席３２の乗員が発話した音声と右側後部座席３３の乗員が発話した音声とを、第１音声分離部２７の手法により分離すると判定する。一方、右側前部座席３１の乗員と右側後部座席３３の乗員の角度、つまり音声３１ａの到来方向を示す矢印と音声３３ａの到来方向を示す矢印とが成す角度は、閾値未満である。そのため、手法選択部２５は、右側前部座席３１の乗員が発話した音声と右側後部座席３３の乗員が発話した音声とを、第２音声分離部２８の手法により分離すると判定する。

　また、例えば、手法選択部２５は、口が動いている乗員（つまり、話者）がいる座席位置のパターンと選択する手法との組み合わせを示す情報を有し、話者数検出部２４が検出した口が動いている乗員の座席位置のパターンに対応する手法を選択してもよい。具体例を以下に説明する。

　図３は、手法選択部２５による音声分離手法の選択例を示す図である。図３における「話している人の配置例」には、図２に示された車両１０の車室内の図が示されており、紙面の都合上、図３ではカメラ１１、アレイマイク１２、右側前部座席３１、左側前部座席３２、右側後部座席３３、及び左側後部座席３４の符号が省略されている。

　図３に示される「Ｎｏ．１」のパターンは、話者が「１人」である場合のパターンである。このパターンでは、手法選択部２５は、音声分離が不要であると判定する。

　「Ｎｏ．２」のパターンは、話者が「２人」であって、１人目が右側前部座席３１又は右側後部座席３３のいずれか一方に存在し、２人目が左側前部座席３２又は左側後部座席３４のいずれか一方に存在する場合である。このパターンでは、話者２人の位置が左右に離れているため、第１音声分離部２７が音声を到来方向ごとに分離できる。したがって、手法選択部２５は、第１音声分離部２７の手法により、車両１０の右側にいる話者の音声と車両１０の左側にいる話者の音声とを分離すると判定する。

　「Ｎｏ．３」のパターンは、話者が「２人」であって右側前部座席３１と右側後部座席３３とに存在する場合、又は、話者が「２人」であって左側前部座席３２と左側後部座席３４とに存在する場合のいずれか一方である。このパターンでは、話者２人の位置が左右に離れていない、第１音声分離部２７が音声を到来方向ごとに分離できない。したがって、手法選択部２５は、第２音声分離部２８の手法により、車両１０の前部にいる話者の音声と車両１０の後部にいる話者の音声とを分離すると判定する。

　「Ｎｏ．４」のパターンは、話者が「３人」存在する場合である。このパターンでは、手法選択部２５は、第１音声分離部２７の手法により、車両１０の右側にいる１人以上の話者の音声と、車両１０の左側にいる１人以上の話者の音声とを分離すると判定する。ここで、第１音声分離部２７が分離した、車両１０の右側から到来した音声を「右側音声」と称し、第１音声分離部２７が分離した、車両１０の左側から到来した音声を「左側音声」と称する。車両１０の右側又は左側には話者が２人いるため、手法選択部２５は、第２音声分離部２８の手法により、話者が２人いる側の分離後の音声を、車両１０の前部にいる話者の音声と車両１０の後部にいる話者の音声とに分離すると判定する。
　例えば、図３に示される「Ｎｏ．４」のパターンでは、話者が、右側前部座席３１と左側前部座席３２と左側後部座席３４とに存在する。この場合、手法選択部２５は、第１音声分離部２７の手法により、右側前部座席３１の乗員が発話した音声と、左側前部座席３２及び左側後部座席３４の各乗員が発話した音声とを分離すると判定する。さらに、手法選択部２５は、第２音声分離部２８の手法により、分離後の左側音声を、左側前部座席３２の乗員が発話した音声と左側後部座席３４の乗員が発話した音声とに分離すると判定する。

　「Ｎｏ．５」のパターンは、話者が「４人」存在する場合である。このパターンでは、手法選択部２５は、第１音声分離部２７の手法により、車両１０の右側にいる２人の話者の音声と、車両１０の左側にいる２人の話者の音声とを分離すると判定する。さらに、手法選択部２５は、第２音声分離部２８の手法により、分離後の右側音声を、右側前部座席３１の乗員が発話した音声と右側後部座席３３の乗員が発話した音声とに分離すると判定する。また、手法選択部２５は、第２音声分離部２８の手法により、分離後の左側音声を、左側前部座席３２の乗員が発話した音声と左側後部座席３４の乗員が発話した音声とに分離すると判定する。

　到来方向推定部２６は、音取得部２２が取得した複数の音情報を用いて、アレイマイク１２を構成する複数のマイクに到来した音声の到来時間の差を算出し、到来時間の差に基づいてこの音声の到来方向を推定する。到来方向推定部２６は、推定した音声ごとの到来方向を、第１音声分離部２７へ出力する。

　図４は、到来方向推定部２６による音声の到来方向推定例を示す図である。例えば、右側前部座席３１の乗員が発話した音声３１ａは、最初に、図４の紙面一番右側のマイクで収音され、最後に、図４の紙面一番左側のマイクで収音される。到来方向推定部２６は、４本のマイクから取得した４つの音情報に含まれる音声３１ａをそれぞれ検出し、音声３１ａの到来時間差を求める。そして、到来方向推定部２６は、音声３１ａの到来時間差を基に、時間ごとに音声３１ａの各周波数成分の到来方向を推定する。到来方向推定部２６は、推定結果を第１音声分離部２７へ出力する。

　第１音声分離部２７は、手法選択部２５から音声分離の指示を受けた場合、音取得部２２が取得した複数の音情報のうちのいずれか１つの音情報を用いて、到来方向推定部２６により推定された到来方向ごとに音声を分離する。第１音声分離部２７は、例えば、アレイマイク１２を構成する複数のマイクのうち、車両１０の左右方向における中央付近に配置されたマイクが収音した音情報を用いる。第１音声分離部２７は、到来方向ごとに分離した音声を、第２音声分離部２８へ出力する。
　実施の形態１では、第１音声分離部２７は、車両１０の右側の座席から到来した右側音声のみを含む音情報、又は車両１０の左側の座席から到来した左側音声のみを含む音情報の少なくとも一方を、第２音声分離部２８へ出力する。

　図５は、第１音声分離部２７による音声分離手法の一例を説明する図である。ここでは、バイナリマスクを用いた音声分離手法を説明する。第１音声分離部２７は、アレイマイク１２が収音した複数の音情報のうちのいずれか１つの音情報を、時間ごと及び周波数ごとに分解し、図５のグラフを生成する。グラフの１マスは、時間ごと及び周波数ごとに分解された音声成分である時間周波数ビンである。第１音声分離部２７は、到来方向推定部２６により推定された到来方向に応じて各時間周波数ビンを分類することで、到来方向ごとに音声を分類する。図５では、縦線で塗りつぶされた時間周波数ビンが、右側前部座席３１又は右側後部座席３３の少なくとも一方から到来した音声に分類された時間周波数ビンであり、黒色で塗りつぶされた時間周波数ビンが、左側前部座席３２又は左側後部座席３４の少なくとも一方から到来した音声に分類された時間周波数ビンである。

　第２音声分離部２８は、手法選択部２５から音声分離の指示及び話者数の通知を受けた場合、話者数と、音取得部２２が取得した複数の音情報のうちのいずれか１つの音情報に基づく声質とを用いて、この１つの音情報から話者数分の音声を分離する。第２音声分離部２８は、分離した話者数分の音声を音声認識装置１３へ出力する。
　なお、実施の形態１では、まず第１音声分離部２７が音声を左右に分離し、次に第２音声分離部２８が音声を前後に分離する。そのため、第２音声分離部２８は、音取得部２２が取得した複数の音情報のうちのいずれか１つの音情報を直接用いるのではなく、第１音声分離部２７が分離した右側音声を含む音情報、又は第１音声分離部２７が分離した左側音声を含む音情報の少なくとも一方を、音声分離に用いる。第１音声分離部２７が音声分離を行わない場合、第２音声分離部２８は、音取得部２２が取得した複数の音情報のうちのいずれか１つの音情報を、第１音声分離部２７を介して取得して音声分離に用いる。

　例えば、第２音声分離部２８は、上述した非特許文献１に記載されているディープクラスタリング等の、学習済みの学習器を用いて、声質に基づく音声分離を行う。この学習器は、音情報を入力すると、音情報に含まれる声質の特徴量を算出し、声質の特徴量の違いに基づいて音情報中の音声を話者数分に分離して出力する。

　次に、音声分離装置２０の動作を説明する。
　図６は、実施の形態１に係る音声分離装置２０の動作例を示すフローチャートである。音声分離装置２０は、例えば、予め定められた周期で図６のフローチャートに示される動作を繰り返す。

　ステップＳＴ１において、映像取得部２１は、カメラ１１が撮像した映像を取得する。ステップＳＴ２において、位置検出部２３は、映像取得部２１が取得した映像を用いて、乗員がいる位置を検出する。ステップＳＴ３において、話者数検出部２４は、位置検出部２３が検出した乗員ごとの口の動きを検出し、口が動いている乗員の人数を検出する。

　ステップＳＴ４において、音取得部２２は、アレイマイク１２が収音した音情報を取得する。音取得部２２は、ステップＳＴ４の動作を、ステップＳＴ１～ＳＴ３と並行して行う。

　ステップＳＴ５において、手法選択部２５は、話者数検出部２４が検出した話者ごとの位置に基づいて、第１音声分離手法と第２音声分離手法のいずれか一方、又は両方を選択する。

　手法選択部２５が第１音声分離手法を選択した場合、ステップＳＴ６において、到来方向推定部２６は、音取得部２２が取得した複数の音情報を用いて、音声の到来方向を推定する。第１音声分離部２７は、音取得部２２が取得した複数の音情報のうちのいずれか１つの音情報を用いて、到来方向推定部２６により推定された到来方向ごとに音声を分離する。

　手法選択部２５が第２音声分離手法を選択した場合、ステップＳＴ６において、第２音声分離部２８は、話者数検出部２４が検出した話者数と第１音声分離部２７が出力した音情報を、学習済みの学習器に入力する。学習器は、話者数分に分離した音声を出力する。第２音声分離部２８は、話者数分に分離された音声を、学習器から取得して音声認識装置１３へ出力する。

　なお、手法選択部２５は、話者数検出部２４が検出した話者数が１人である場合、音声を分離する必要がないため、音情報をそのまま音声認識装置１３へ出力するように第１音声分離部２７及び第２音声分離部２８に指示する。

　図７は、図６における音声分離手法選択（ステップＳＴ５）の詳細な動作例を示すフローチャートである。
　ステップＳＴ１１において、手法選択部２５は、話者数検出部２４が検出した話者数が２人以上であるか否かを判定する。話者数が１人である場合（ステップＳＴ１１“ＮＯ”）、手法選択部２５は、第１音声分離手法及び第２音声分離手法による音声分離が不要と判定する（ステップＳＴ１２）。この場合、手法選択部２５は、音取得部２２が取得した音情報をそのまま音声認識装置１３へ出力するように、第１音声分離部２７及び第２音声分離部２８に指示する。

　話者数が２人以上である場合（ステップＳＴ１１“ＹＥＳ”）、手法選択部２５は、話者数検出部２４が検出した話者ごとの位置を比較し、位置が離れている話者がいるか否かを判定する（ステップＳＴ１３）。

　例えば、手法選択部２５は、アレイマイク１２が設置された位置を基準とした話者間の角度が閾値以上となる話者が１人以上いる場合に、位置が離れている話者がいると判定する（ステップＳＴ１３“ＹＥＳ”）。手法選択部２５は、全話者について、アレイマイク１２が設置された位置を基準とした話者間の角度が閾値未満となる場合に、位置が離れている話者がいないと判定する（ステップＳＴ１３“ＮＯ”）。

　また、例えば、手法選択部２５は、話者がいる座席位置のパターンが、図３に示される「Ｎｏ．２」、「Ｎｏ．４」、又は「Ｎｏ．５」のパターンのうちのいずれかに該当する場合に、位置が離れている話者がいると判定する（ステップＳＴ１３“ＹＥＳ”）。手法選択部２５は、話者がいる座席位置のパターンが、図３に示される「Ｎｏ．３」のパターンに該当する場合に、位置が離れている話者がいないと判定する（ステップＳＴ１３“ＮＯ”）。

　手法選択部２５は、位置が離れている話者がいないと判定した場合（ステップＳＴ１３“ＮＯ”）、第１音声分離手法による音声分離が不要と判定する（ステップＳＴ１４）。また、手法選択部２５は、第２音声分離手法による音声分離が必要と判定する（ステップＳＴ１５）。この場合、手法選択部２５は、音取得部２２が取得した音情報の１つをそのまま第２音声分離部２８へ出力するように、第１音声分離部２７に指示すると共に、音情報から２人分の音声を分離するように、第２音声分離部２８に指示する。第２音声分離部２８は、第１音声分離部２７が出力した音情報から、車両１０の前部の話者が発話した音声と、車両１０の後部の話者が発話した音声とを分離する。

　手法選択部２５は、位置が離れている話者がいると判定した場合（ステップＳＴ１３“ＹＥＳ”）、まず、第１音声分離手法による音声分離が必要と判定し、第１音声分離部２７に音声分離を指示する（ステップＳＴ１６）。この場合、車両１０の右側に１人以上の話者がいると共に、車両１０の左側にも１人以上の話者がいる。したがって、第１音声分離部２７は、音取得部２２が取得した音情報から、右側音声と左側音声とを分離する。

　ステップＳＴ１７において、手法選択部２５は、位置が近い複数の話者が車両１０の右側にいるか否かを判定する。位置が近い複数の話者が右側にいる場合とは、右側前部座席３１と右側後部座席３３とにそれぞれ話者がいる場合をさす。

　手法選択部２５は、位置が近い複数の話者が右側にいると判定した場合（ステップＳＴ１７“ＹＥＳ”）、第１音声分離部２７が分離した右側音声に対して第２音声分離手法による音声分離が必要と判定し、第２音声分離部２８に音声分離を指示する（ステップＳＴ１８）。この場合、第２音声分離部２８は、第１音声分離部２７が出力した右側音声を学習済みの学習器に入力し、２人分に分離した音声を取得する。

　手法選択部２５は、位置が近い複数の話者が右側にいないと判定した場合（ステップＳＴ１７“ＮＯ”）、第１音声分離部２７が分離した右側音声に対して第２音声分離手法による音声分離が不要と判定する（ステップＳＴ１９）。この場合、車両１０の右側には話者が１人しかいないため、第１音声分離部２７が分離した右側音声には、この話者が発話した音声しか含まれていない。よって、手法選択部２５は、第２音声分離部２８に対して、右側音声をそのまま音声認識装置１３へ出力するように指示する。

　ステップＳＴ２０において、手法選択部２５は、位置が近い複数の話者が車両１０の左側にいるか否かを判定する。位置が近い複数の話者が左側にいる場合とは、左側前部座席３２と左側後部座席３４とにそれぞれ話者がいる場合をさす。

　手法選択部２５は、位置が近い複数の話者が左側にいると判定した場合（ステップＳＴ２０“ＹＥＳ”）、第１音声分離部２７が分離した左側音声に対して第２音声分離手法が必要と判定し、第２音声分離部２８に音声分離を指示する（ステップＳＴ２１）。この場合、第２音声分離部２８は、第１音声分離部２７が出力した左側音声を学習済みの学習器に入力し、２人分に分離した音声を取得する。

　手法選択部２５は、位置が近い複数の話者が左側にいないと判定した場合（ステップＳＴ２０“ＮＯ”）、第１音声分離部２７が分離した左側音声に対して第２音声分離手法による音声分離が不要と判定する（ステップＳＴ２２）。この場合、車両１０の左側には話者が１人しかいないため、第１音声分離部２７が分離した左側音声には、この話者が発話した音声しか含まれていない。よって、手法選択部２５は、第２音声分離部２８に対して、左側音声をそのまま音声認識装置１３へ出力するように指示する。

　次に、音声分離装置２０のハードウェア構成を説明する。
　図８及び図９は、実施の形態１に係る音声分離装置２０のハードウェア構成例を示す図である。音声分離装置２０における映像取得部２１、音取得部２２、位置検出部２３、話者数検出部２４、手法選択部２５、到来方向推定部２６、第１音声分離部２７、及び第２音声分離部２８の機能は、処理回路により実現される。即ち、音声分離装置２０は、上記機能を実現するための処理回路を備える。処理回路は、専用のハードウェアとしての処理回路１００であってもよいし、メモリ１０２に格納されるプログラムを実行するプロセッサ１０１であってもよい。

　図８に示されるように、処理回路が専用のハードウェアである場合、処理回路１００は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、又はこれらを組み合わせたものが該当する。映像取得部２１、音取得部２２、位置検出部２３、話者数検出部２４、手法選択部２５、到来方向推定部２６、第１音声分離部２７、及び第２音声分離部２８の機能を複数の処理回路１００で実現してもよいし、各部の機能をまとめて１つの処理回路１００で実現してもよい。

　図９に示されるように、処理回路がプロセッサ１０１である場合、映像取得部２１、音取得部２２、位置検出部２３、話者数検出部２４、手法選択部２５、到来方向推定部２６、第１音声分離部２７、及び第２音声分離部２８の機能は、ソフトウェア、ファームウェア、又はソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェア又はファームウェアはプログラムとして記述され、メモリ１０２に格納される。プロセッサ１０１は、メモリ１０２に格納されたプログラムを読みだして実行することにより、各部の機能を実現する。即ち、音声分離装置２０は、プロセッサ１０１により実行されるときに、図６等のフローチャートで示されるステップが結果的に実行されることになるプログラムを格納するためのメモリ１０２を備える。また、このプログラムは、映像取得部２１、音取得部２２、位置検出部２３、話者数検出部２４、手法選択部２５、到来方向推定部２６、第１音声分離部２７、及び第２音声分離部２８の手順又は方法をコンピュータに実行させるものであるとも言える。

　ここで、プロセッサ１０１とは、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、処理装置、演算装置、又はマイクロプロセッサ等のことである。
　メモリ１０２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＥＰＲＯＭ（Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　ＲＯＭ）、又はフラッシュメモリ等の不揮発性もしくは揮発性の半導体メモリであってもよいし、ハードディスク又はフレキシブルディスク等の磁気ディスクであってもよいし、ＣＤ（Ｃｏｍｐａｃｔ　Ｄｉｓｃ）又はＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）等の光ディスクであってもよい。

　なお、映像取得部２１、音取得部２２、位置検出部２３、話者数検出部２４、手法選択部２５、到来方向推定部２６、第１音声分離部２７、及び第２音声分離部２８の機能について、一部を専用のハードウェアで実現し、一部をソフトウェア又はファームウェアで実現するようにしてもよい。このように、音声分離装置２０における処理回路は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせによって、上述の機能を実現することができる。

　以上のように、実施の形態１に係る音声分離装置２０は、映像取得部２１、位置検出部２３、話者数検出部２４、音取得部２２、到来方向推定部２６、第１音声分離部２７、第２音声分離部２８、及び手法選択部２５を備える。映像取得部２１は、カメラ１１が撮像した映像を取得する。位置検出部２３は、映像を用いて乗員がいる位置を検出する。話者数検出部２４は、映像を用いて、位置検出部２３が検出した乗員ごとの口の動きを検出し、口が動いている乗員数を話者数として検出する。音取得部２２は、アレイマイク１２を構成する複数のマイクが収音した複数の音情報を取得する。到来方向推定部２６は、複数の音情報を用いて複数のマイクに到来した音声の到来時間の差を算出し、到来時間の差に基づいて上記音声の到来方向を推定する。第１音声分離部２７は、複数の音情報のうちのいずれか１つの音情報を用いて、到来方向推定部２６により推定された到来方向ごとに音声を分離する。第２音声分離部２８は、話者数と、複数の音情報のうちのいずれか１つの音情報に基づく声質とを用いて、上記１つの音情報から話者数分の音声を分離する。手法選択部２５は、話者ごとの位置に基づいて、第１音声分離部２７の手法と第２音声分離部２８の手法のいずれか一方、又は両方により音声を分離させる。このように、手法選択部２５は、到来方向の違いを基に音声を分離できる位置にいる乗員の音声については第１音声分離部２７の手法により音声を分離させるので、第１音声分離部２７の手法による歪の少ない音声分離を実現することができる。また、手法選択部２５は、到来方向の違いを基に音声を分離できない位置にいる乗員の音声について第２音声分離部２８の手法を適用するので、第２音声分離部２８の手法により音声分離する話者数を低減でき、第２音声分離部２８の手法による歪の少ない音声分離を実現できる。したがって、手法選択部２５は、第１音声分離部２７の手法と第２音声分離部２８の手法とを適切に組み合わせてより多くの音声を分離しつつ、歪の少ない音声分離を実現できる。また、音声分離装置２０が歪の少ない音声分離を実現することにより、音声認識装置１３における認識精度の低下が抑制される。

　また、実施の形態１の手法選択部２５は、アレイマイク１２を構成する複数のマイクが設置された位置を基準とした話者間の角度が、予め定められた閾値以上である場合に第１音声分離部２７の手法を選択し、上記予め定められた閾値未満である場合に第２音声分離部２８の手法を選択する構成であってもよい。この構成の手法選択部２５は、右側後部座席３３の乗員が身を乗り出して右側前部座席３１と左側前部座席３２の間で発話している場面等、座席位置以外の位置で乗員が発話している場面であっても、座席位置ではなく話者の位置に基づいて、適切な音声分離手法を選択できる。

　また、実施の形態１の手法選択部２５は、口が動いている乗員がいる座席位置のパターンと選択する手法との組み合わせを示す情報を有し、話者数検出部２４が検出した口が動いている乗員の座席位置のパターンに対応する手法を選択する構成であってもよい。この構成の手法選択部２５は、上記構成のように話者間の角度と閾値とを比較する必要がないため、より簡易に適切な音声分離手法を選択できる。

　また、実施の形態１の第２音声分離部２８は、音情報を入力すると話者数分に分離した音声を出力する学習済みの学習器を用いて、音取得部２２が取得した音情報を上記学習器に入力し、話者数検出部２４が検出した話者数分に分離した音声を上記学習器から取得する。これにより、第２音声分離部２８は、音声分離のために、乗員ごとの声質を事前に登録する必要がない。

　なお、実施の形態１では、音声分離装置２０が、車両１０に搭乗している乗員の音声を分離する用途に使用されたが、これ以外の用途に使用されてもよい。例えば、音声分離装置２０は、エレベータ、部屋、又は、鉄道、船舶若しくは航空機等を含む移動体等にいる人の音声を分離する用途に使用されてもよい。この場合、カメラ１１は、エレベータ内等にいる人を撮像し、アレイマイク１２は、エレベータ内等の音を収音すればよい。

　また、実施の形態１では映像取得部２１、音取得部２２、位置検出部２３、話者数検出部２４、手法選択部２５、到来方向推定部２６、第１音声分離部２７、及び第２音声分離部２８の機能が、車両１０に搭載される音声分離装置２０に集約された構成であったが、ネットワーク上のサーバ装置、スマートフォン等の携帯端末、及び車載器等に分散されていてもよい。

　また、本開示はその開示の範囲内において、実施の形態の任意の構成要素の変形、又は実施の形態の任意の構成要素の省略が可能である。

　本開示に係る音声分離装置は、アレイマイクが収音した複数の話者の音声を分離するようにしたので、音声認識装置に入力する音声データを生成する音声分離装置等に用いるのに適している。

　１０　車両、１１　カメラ、１２　アレイマイク、１３　、音声認識装置、２０　音声分離装置、２１　映像取得部、２２　音取得部、２３　位置検出部、２４　話者数検出部、２５　手法選択部、２６　到来方向推定部、２７　第１音声分離部、２８　第２音声分離部、３１　右側前部座席、３２　左側前部座席、３３　右側後部座席、３４　左側後部座席、３１ａ，３２ａ，３３ａ　音声、１００　処理回路、１０１　プロセッサ、１０２　メモリ。

Claims

　カメラが撮像した映像を取得する映像取得部と、
　前記映像を用いて人がいる位置を検出する位置検出部と、
　前記映像を用いて人ごとの口の動きを検出し、口が動いている人数を話者数として検出する話者数検出部と、
　複数のマイクが収音した複数の音情報を取得する音取得部と、
　前記複数の音情報を用いて前記複数のマイクに到来した音声の到来時間の差を算出し、前記到来時間の差に基づいて前記音声の到来方向を推定する到来方向推定部と、
　前記複数の音情報のうちのいずれか１つの音情報を用いて、前記到来方向推定部により推定された到来方向ごとに音声を分離する第１音声分離部と、
　前記話者数と前記複数の音情報のうちのいずれか１つの音情報に基づく声質とを用いて、前記１つの音情報から前記話者数分の音声を分離する第２音声分離部と、
　前記話者ごとの位置に基づいて、前記第１音声分離部の手法と前記第２音声分離部の手法のいずれか一方、又は両方により音声を分離させる手法選択部とを備える音声分離装置。
　前記手法選択部は、前記複数のマイクが設置された位置を基準とした前記話者間の角度が、予め定められた閾値以上である場合に前記第１音声分離部の手法を選択し、前記予め定められた閾値未満である場合に前記第２音声分離部の手法を選択することを特徴とする請求項１記載の音声分離装置。
　前記人は、車両に搭乗している乗員であることを特徴とする請求項１記載の音声分離装置。
　前記位置検出部は、前記映像を用いて乗員がいる座席位置を検出し、
　前記話者数検出部は、前記映像を用いて、前記位置検出部が検出した各座席位置の乗員の口の動きを検出し、口が動いている話者数を検出し、
　前記手法選択部は、口が動いている乗員がいる座席位置のパターンと選択する手法との組み合わせを示す情報を有し、前記話者数検出部が検出した口が動いている乗員の座席位置のパターンに対応する手法を選択することを特徴とする請求項３記載の音声分離装置。
　前記第２音声分離部は、１つの音情報を入力すると話者数分に分離した音声を出力する学習済みの学習器を用いて、前記音取得部が取得した前記１つの音情報を前記学習器に入力し、前記話者数検出部が検出した前記話者数分に分離した音声を前記学習器から取得することを特徴とする請求項１記載の音声分離装置。
　映像取得部が、カメラが撮像した映像を取得し、
　位置検出部が、前記映像を用いて人がいる位置を検出し、
　話者数検出部が、前記映像を用いて人ごとの口の動きを検出し、口が動いている人数を話者数として検出し、
　音取得部が、複数のマイクが収音した複数の音情報を取得し、
　手法選択部が、前記話者ごとの位置に基づいて、第１音声分離手法と第２音声分離手法のいずれか一方、又は両方を選択し、
　前記手法選択部により前記第１音声分離手法が選択された場合、到来方向推定部が、前記複数の音情報を用いて前記複数のマイクに到来した音声の到来時間の差を算出し、前記到来時間の差に基づいて前記音声の到来方向を推定し、第１音声分離部が、前記複数の音情報のうちのいずれか１つの音情報を用いて、前記到来方向推定部により推定された到来方向ごとに音声を分離し、
　前記手法選択部により前記第２音声分離手法が選択された場合、第２音声分離部が、前記話者数と前記複数の音情報のうちのいずれか１つの音情報に基づく声質とを用いて、前記１つの音情報から前記話者数分の音声を分離する音声分離方法。