WO2021156945A1

WO2021156945A1 - 音声分離装置及び音声分離方法

Info

Publication number: WO2021156945A1
Application number: PCT/JP2020/004161
Authority: WO
Inventors: 真宗平
Original assignee: 三菱電機株式会社
Priority date: 2020-02-04
Filing date: 2020-02-04
Publication date: 2021-08-12

Abstract

映像取得部（２１）は、カメラ（１１）が撮像した映像を取得する。話者数検出部（２３）は、映像を用いて乗員ごとの口の動きを検出し、口が動いている乗員数を話者数として検出する。音取得部（２２）は、マイク（１２）が収音した音情報を取得する。音声分離部（２４）は、話者数と音情報に基づく声質とを用いて、音情報から話者数分の音声を分離する。

Description

音声分離装置及び音声分離方法

　本開示は、音声分離装置及び音声分離方法に関するものである。

　従来、複数の話者が同時に発話した音声を、予め学習した声質の特徴を基に話者ごとに分離する、ディープクラスタリング等の声質による音声分離手法がある（例えば、非特許文献１参照）。声質に基づく音声分離手法は、話者が２人であれば音声を２グループに分離し、話者が３人であれば音声を３グループに分離する。このように、声質に基づく音声分離手法では、話者数が既知である必要があった。そこで、例えば特許文献１に記載されている目的音源推定装置は、音信号から抽出した音響特徴量を用いて時間周波数点ごとの埋め込みベクトルを推定し、埋め込みベクトルを基に話者数を推定していた。

三菱電機株式会社、"マイク１本で録音した複数話者の同時音声の分離・再現に成功"、［online］、２０１７年５月２４日、［２０１９年１１月１３日検索］、インターネット＜URL：http://www.mitsubishielectric.co.jp/news/2017/0524-e.html＞

特開２０１９－３５８５１号公報

　特許文献１に記載されている目的音源推定装置のように、音信号を用いて話者数を推定する場合、騒音がある環境では推定精度が低下するという課題があった。

　本開示は、上記のような課題を解決するためになされたもので、騒音がある環境でも話者数を推定して音声を分離することを目的とする。

　本開示に係る音声分離装置は、カメラが撮像した映像を取得する映像取得部と、映像を用いて人ごとの口の動きを検出し、口が動いている人数を話者数として検出する話者数検出部と、マイクが収音した音情報を取得する音取得部と、話者数と音情報に基づく声質とを用いて、音情報から話者数分の音声を分離する音声分離部とを備えるものである。

　本開示によれば、カメラが撮像した映像を用いて人ごとの口の動きを検出し、口が動いている話者数を検出するようにしたので、騒音がある環境でも話者数を推定して音声を分離できる。

実施の形態１に係る音声分離装置の構成例を示すブロック図である。車両の車室内の様子を示す上面図である。実施の形態１に係る音声分離装置の動作例を示すフローチャートである。実施の形態１に係る音声分離装置のハードウェア構成の一例を示す図である。実施の形態１に係る音声分離装置のハードウェア構成の別の例を示す図である。

　以下、本開示をより詳細に説明するために、本開示を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
　図１は、実施の形態１に係る音声分離装置２０の構成例を示すブロック図である。実施の形態１に係る音声分離装置２０は、車両１０に搭載され、車両１０に搭乗している乗員が発話した音声を乗員ごとに分離する用途に用いられるものとする。音声分離装置２０は、映像取得部２１、音取得部２２、話者数検出部２３、及び音声分離部２４を備える。この車両１０には、音声分離装置２０に加え、カメラ１１、マイク１２、及び音声認識装置１３が搭載されている。なお、音声認識装置１３は、車両１０ではなく、ネットワーク上にあってもよい。

　カメラ１１は、車両１０の車室内を撮像し、撮像した映像を映像取得部２１へ出力する。構成及び配線等を簡素化するために、１つのカメラ１１が車室内の全乗員の顔を撮像できることが好ましいが、１つのカメラ１１が車室内の全乗員の顔を撮像できないのであれば複数のカメラ１１が使用されてもよい。このカメラ１１は、例えば、オーバヘッドコンソール付近に設置される。

　マイク１２は、車両１０の車室内の音を収音し、音情報として音取得部２２へ出力する。構成及び配線等を簡素化するために、マイク１２の設置場所は、カメラ１１と同じ場所が好ましい。

　図２は、車両１０の車室内の様子を示す上面図である。図２の例では、車両１０のオーバヘッドコンソール付近に、カメラ１１とマイク１２とが設置されている。以下では、図２の紙面右側の座席を右側前部座席３１と右側後部座席３３と呼び、紙面左側の座席を左側前部座席３２と左側後部座席３４と呼ぶ。また、斜線で塗りつぶされた丸は、乗員を示す。図２の例では、右側前部座席３１、左側前部座席３２、及び右側後部座席３３のそれぞれに乗員が座っている。２人以上の乗員が発話している場合、マイク１２には、２人以上の乗員が発話している音声が同時に入力される。また、このマイク１２には、車両１０が備えるエアコンディショナの送風音、及び車両１０の走行音等といった騒音も入力される。
　なお、図２の例では、車両１０に左右２座席及び前後２座席の合計４座席が設けられているが、座席の数及び位置はこの例に限定されない。

　音声認識装置１３は、音声分離装置２０により分離された乗員ごとの音声を認識する。音声認識装置１３の音声認識結果は、図示しないカーナビゲーション装置又はエアコンディショナ等の音声操作に利用される。

　映像取得部２１は、カメラ１１が撮像した映像を、カメラ１１から取得し、話者数検出部２３へ出力する。

　音取得部２２は、マイク１２が収音した音情報を、マイク１２から取得し、音声分離部２４へ出力する。なお、音取得部２２は、マイク１２が収音した音情報に対して、雑音除去処理、及び図示しないスピーカからマイク１２に回り込んだ音を除去するエコーキャンセリング処理等を行ってもよい。

　話者数検出部２３は、映像取得部２１が取得した映像を用いて、乗員ごとの口の動きを検出し、口が動いている乗員の人数を話者数として検出する。話者数検出部２３は、検出した話者数を音声分離部２４へ出力する。

　音声分離部２４は、話者数検出部２３が検出した話者数と、音取得部２２が取得した音情報に基づく声質とを用いて、音取得部２２が取得した音情報から話者数分の音声を分離する。音声分離部２４は、分離した話者数分の音声を音声認識装置１３へ出力する。
　例えば、音声分離部２４は、上述した非特許文献１に記載されているディープクラスタリング等の、学習済みの学習器を用いて、声質に基づく音声分離を行う。この学習器は、音情報を入力すると、音情報に含まれる声質の特徴量を算出し、声質の特徴量の違いに基づいて音情報中の音声を話者数分に分離して出力する。

　次に、音声分離装置２０の動作を説明する。
　図３は、実施の形態１に係る音声分離装置２０の動作例を示すフローチャートである。音声分離装置２０は、例えば、予め定められた周期で図３のフローチャートに示される動作を繰り返す。

　ステップＳＴ１において、映像取得部２１は、カメラ１１が撮像した映像を取得する。ステップＳＴ２において、話者数検出部２３は、映像取得部２１が取得した映像を用いて、乗員を検出する。ここでは、図２に示されるように、右側前部座席３１、左側前部座席３２、及び右側後部座席３３のそれぞれに乗員がいるものとする。話者数検出部２３は、検出した３人の乗員それぞれについて、口の動きを検出し、口が動いている乗員の人数を検出する。

　ステップＳＴ３において、音取得部２２は、マイク１２が収音した音情報を取得する。音取得部２２は、ステップＳＴ３の動作を、ステップＳＴ１，ＳＴ２と並行して行う。

　ステップＳＴ４において、音声分離部２４は、話者数検出部２３が検出した話者数と音取得部２２が取得した音情報を、学習済みの学習器に入力する。学習器は、話者数分に分離した音声を出力する。音声分離部２４は、分離された音声を学習器から取得して音声認識装置１３へ出力する。例えば、図２において、右側前部座席３１の乗員と左側前部座席３２の乗員の口が動いていた場合、音声分離部２４は、音情報に含まれる音声を、右側前部座席３１の乗員が発話した音声と、左側前部座席３２の乗員が発話した音声とに分離する。

　なお、音声分離部２４は、話者数検出部２３が検出した話者数が１人である場合、音声を分離する必要がないため、音情報をそのまま音声認識装置１３へ出力する。

　次に、音声分離装置２０のハードウェア構成を説明する。
　図４及び図５は、実施の形態１に係る音声分離装置２０のハードウェア構成例を示す図である。音声分離装置２０における映像取得部２１、音取得部２２、話者数検出部２３、及び音声分離部２４の機能は、処理回路により実現される。即ち、音声分離装置２０は、上記機能を実現するための処理回路を備える。処理回路は、専用のハードウェアとしての処理回路１００であってもよいし、メモリ１０２に格納されるプログラムを実行するプロセッサ１０１であってもよい。

　図４に示されるように、処理回路が専用のハードウェアである場合、処理回路１００は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、又はこれらを組み合わせたものが該当する。映像取得部２１、音取得部２２、話者数検出部２３、及び音声分離部２４の機能を複数の処理回路１００で実現してもよいし、各部の機能をまとめて１つの処理回路１００で実現してもよい。

　図５に示されるように、処理回路がプロセッサ１０１である場合、映像取得部２１、音取得部２２、話者数検出部２３、及び音声分離部２４の機能は、ソフトウェア、ファームウェア、又はソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェア又はファームウェアはプログラムとして記述され、メモリ１０２に格納される。プロセッサ１０１は、メモリ１０２に格納されたプログラムを読みだして実行することにより、各部の機能を実現する。即ち、音声分離装置２０は、プロセッサ１０１により実行されるときに、図３のフローチャートで示されるステップが結果的に実行されることになるプログラムを格納するためのメモリ１０２を備える。また、このプログラムは、映像取得部２１、音取得部２２、話者数検出部２３、及び音声分離部２４の手順又は方法をコンピュータに実行させるものであるとも言える。

　ここで、プロセッサ１０１とは、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、処理装置、演算装置、又はマイクロプロセッサ等のことである。
　メモリ１０２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＥＰＲＯＭ（Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　ＲＯＭ）、又はフラッシュメモリ等の不揮発性もしくは揮発性の半導体メモリであってもよいし、ハードディスク又はフレキシブルディスク等の磁気ディスクであってもよいし、ＣＤ（Ｃｏｍｐａｃｔ　Ｄｉｓｃ）又はＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）等の光ディスクであってもよい。

　なお、映像取得部２１、音取得部２２、話者数検出部２３、及び音声分離部２４の機能について、一部を専用のハードウェアで実現し、一部をソフトウェア又はファームウェアで実現するようにしてもよい。このように、音声分離装置２０における処理回路は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせによって、上述の機能を実現することができる。

　以上のように、実施の形態１に係る音声分離装置２０は、映像取得部２１、話者数検出部２３、音取得部２２、及び音声分離部２４を備える。映像取得部２１は、カメラ１１が撮像した映像を取得する。話者数検出部２３は、映像を用いて乗員ごとの口の動きを検出し、口が動いている乗員数を話者数として検出する。音取得部２２は、マイク１２が収音した音情報を取得する。音声分離部２４は、話者数と音情報に基づく声質とを用いて、音情報から話者数分の音声を分離する。このように、話者数検出部２３は、カメラ１１が撮像した映像を用いて話者数を検出するようにしたので、騒音がある環境でも話者数を推定することができる。したがって、音声分離部２４は、騒音がある環境で音情報が収音されたとしても、話者数分の音声を分離することができる。

　また、実施の形態１の音声分離部２４は、音情報を入力すると話者数分に分離した音声を出力する学習済みの学習器を用いて、音取得部２２が取得した音情報を上記学習器に入力し、話者数検出部２３が検出した話者数分に分離した音声を上記学習器から取得する。これにより、音声分離部２４は、音声分離のために、乗員ごとの声質を事前に登録する必要がない。

　なお、実施の形態１では、音声分離装置２０が、車両１０に搭乗している乗員の音声を分離する用途に使用されたが、これ以外の用途に使用されてもよい。例えば、音声分離装置２０は、エレベータ、部屋、又は、鉄道、船舶若しくは航空機等を含む移動体等にいる人の音声を分離する用途に使用されてもよい。この場合、カメラ１１は、エレベータ内等にいる人を撮像し、マイク１２は、エレベータ内等の音を収音すればよい。

　また、実施の形態１では、映像取得部２１、音取得部２２、話者数検出部２３、及び音声分離部２４の機能が、車両１０に搭載される音声分離装置２０に集約された構成であったが、ネットワーク上のサーバ装置、スマートフォン等の携帯端末、及び車載器等に分散されていてもよい。

　また、本開示はその開示の範囲内において、実施の形態の任意の構成要素の変形、又は実施の形態の任意の構成要素の省略が可能である。

　本開示に係る音声分離装置は、マイクが収音した複数の話者の音声を分離するようにしたので、音声認識装置に入力する音声データを生成する音声分離装置等に用いるのに適している。

　１０　車両、１１　カメラ、１２　マイク、１３　音声認識装置、２０　音声分離装置、２１　映像取得部、２２　音取得部、２３　話者数検出部、２４　音声分離部、３１　右側前部座席、３２　左側前部座席、３３　右側後部座席、３４　左側後部座席、１００　処理回路、１０１　プロセッサ、１０２　メモリ。

Claims

　カメラが撮像した映像を取得する映像取得部と、
　前記映像を用いて人ごとの口の動きを検出し、口が動いている人数を話者数として検出する話者数検出部と、
　マイクが収音した音情報を取得する音取得部と、
　前記話者数と前記音情報に基づく声質とを用いて、前記音情報から前記話者数分の音声を分離する音声分離部とを備える音声分離装置。
　前記音声分離部は、音情報を入力すると話者数分に分離した音声を出力する学習済みの学習器を用いて、前記音取得部が取得した前記音情報を前記学習器に入力し、前記話者数検出部が検出した前記話者数分に分離した音声を前記学習器から取得することを特徴とする請求項１記載の音声分離装置。
　前記人は、車両に搭乗している乗員であることを特徴とする請求項１記載の音声分離装置。
　映像取得部が、カメラが撮像した映像を取得し、
　話者数検出部が、前記映像を用いて人ごとの口の動きを検出し、口が動いている人数を話者数として検出し、
　音取得部が、マイクが収音した音情報を取得し、
　音声分離部が、前記話者数と前記音情報に基づく声質とを用いて、前記音情報から前記話者数分の音声を分離する音声分離方法。