WO2021161377A1

WO2021161377A1 - 発話者推定装置および発話者推定方法

Info

Publication number: WO2021161377A1
Application number: PCT/JP2020/005115
Authority: WO
Inventors: 知宏成田
Original assignee: 三菱電機株式会社
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2021-08-19
Also published as: JP7337965B2; JPWO2021161377A1

Abstract

発話者推定装置（１０）において、音声信号取得部（１１）は、車両内に設置されたマイクロホンアレイ（２１）から音声信号を取得する。音声区間検出部（１２）は、音声信号から音声区間を検出する。音声到来方向算出部（１３）は、音声信号に基づいてマイクロホンアレイ（２１）が取得した音声の到来方向を算出する。画像取得部（１４）は、カメラ（２２）が撮影した車両の各乗員の画像を取得する。開口度算出部（１５）は、各乗員の画像に基づいて各乗員の口の開き具合を表す開口度を算出する。発話者推定部（１６）は、音声区間における音声の到来方向および音声区間における各乗員の開口度の統計量に基づいて、発話者である乗員を推定する。

Description

発話者推定装置および発話者推定方法

　本開示は、発話者を推定する発話者推定装置に関するものである。

　例えば下記の特許文献１には、車両内の乗員が発した音声と、当該音声が発せられた位置および方向とに基づいて車載装置を制御する音声認識制御システムが提案されている。特許文献１においては、車両の乗員のうちから発話者を推定する方法として、複数のマイクからなるマイクロホンアレイが検出した複数の音声信号の大きさや位相の差に基づいて発話者を推定する方法、あるいは、カメラで撮影した車両内の映像を解析し、音声が検出されたタイミングと各乗員の唇の動きとを比較することで発話者を推定する方法が挙げられている。

特開２０１７－９０６１１号公報

　マイクロホンアレイが検出した複数の音声信号の大きさや位相の差に基づいて発話者を推定する方法では、例えば車両外の音声やオーディオ機器の音声が誤って検出され、発話者が誤検出されるおそれがある。また、人は発話してない場合も口を開くことがあるため、音声が検出されたタイミングと各乗員の口の動きとを比較しても正しく発話者を推定できないことがある。

　本開示は以上のような課題を解決するためになされたものであり、発話者の推定精度の高い発話者推定装置および発話者推定方法を提供することを目的とする。

　本開示に係る発話者推定装置は、車両内に設置されたマイクロホンアレイから音声信号を取得する音声信号取得部と、音声信号から音声区間を検出する音声区間検出部と、音声信号に基づいてマイクロホンアレイが取得した音声の到来方向を算出する音声到来方向算出部と、カメラが撮影した車両の各乗員の画像を取得する画像取得部と、各乗員の画像に基づいて各乗員の口の開き具合を表す開口度を算出する開口度算出部と、音声区間における音声の到来方向と音声区間における各乗員の開口度の統計量とに基づいて、発話者である乗員を推定する発話者推定部と、を備える。

　本開示によれば、音声の到来方向だけでなく各乗員の開口度の統計量を加味して発話者が推定されるため、発話者の誤検出が防止される。また、開口度の統計量には発話時と非発話時との差が現れやすいため、各乗員が発話中か否かを高い精度で判定でき、それにより、発話者の推定を高い精度で行うことができる。

　本開示の目的、特徴、態様、および利点は、以下の詳細な説明と添付図面とによって、より明白となる。

実施の形態１に係る発話者推定装置の構成を示す図である。音声到来方向の定義の例を説明するための図である。実施の形態１における発話者推定部の構成を示す図である。実施の形態１に係る発話者推定装置の動作を示すフローチャートである。実施の形態１における発話者推定処理を示すフローチャートである。実施の形態１における発話者推定処理の変更例を示すフローチャートである。実施の形態１における発話者推定処理の変更例を示すフローチャートである。実施の形態１における発話者推定処理の変更例を示すフローチャートである。発話者推定装置のハードウェア構成例を示す図である。発話者推定装置のハードウェア構成例を示す図である。実施の形態２に係る発話者推定装置の構成を示す図である。実施の形態２における発話者推定部の構成を示す図である。実施の形態２に係る発話者推定装置の動作を示すフローチャートである。実施の形態２における発話者推定処理を示すフローチャートである。実施の形態２における発話者推定処理の変更例を示すフローチャートである。実施の形態３における発話者推定部の構成を示す図である。実施の形態３における閾値更新部の動作を示すフローチャートである。実施の形態３における閾値更新部の動作の変更例を示すフローチャートである。実施の形態４における発話者推定部の構成を示す図である。

　＜実施の形態１＞
　図１は、実施の形態１に係る発話者推定装置１０の構成を示す図である。ここでは、発話者推定装置１０が車両に搭載されているものと仮定する。ただし、発話者推定装置１０は、例えば携帯電話やスマートフォンなど、車両に持ち込み可能な携帯型の機器上で実現されていてもよい。また、発話者推定装置１０が行う処理の一部または全部が、車両の外部に設置され、車両に搭載された発話者推定装置１０と通信可能なサーバー上で行われてもよい。

　発話者推定装置１０は、車両内に設置されたマイクロホンアレイ２１およびカメラ２２に接続されている。マイクロホンアレイ２１は、複数のマイクから構成されており、車両の乗員が発した音声を取得して、取得した音声に対応する音声信号を出力する。カメラ２２は、車両内の乗員の顔を撮影可能な位置に設置されており、撮影した乗員の顔の画像を出力する。カメラ２２は座席ごとに設けられてもよいし、１台のカメラ２２で車両内の全座席の乗員を撮影してもよい。

　図１のように、発話者推定装置１０は、音声信号取得部１１、音声区間検出部１２、音声到来方向算出部１３、画像取得部１４、開口度算出部１５および発話者推定部１６を備えている。

　音声信号取得部１１は、マイクロホンアレイ２１が取得した音声に対応する音声信号を、マイクロホンアレイ２１から取得する。音声区間検出部１２は、音声信号取得部１１が取得した音声信号を解析して、車両の乗員が発した音声が含まれる区間である音声区間を検出する。音声区間検出（Voice Activity Detection；ＶＡＤ）技術としては、例えば音声信号の振幅パワーに基づくものや、音声信号のパターンマッチングによるものなど様々なものがあるが、音声区間検出部１２が用いるＶＡＤ技術に制約はなく、どのようなものでもよい。

　音声到来方向算出部１３は、音声信号取得部１１が取得した音声信号に基づいて、マイクロホンアレイ２１が取得した音声の到来方向（Direction Of Arrival：ＤＯＡ）を算出する。音声到来方向を算出する技術としては、マイクロホンアレイ２１を構成する複数のマイクが取得した音声の大きさの差や位相の差を基づいて音声の到来方向を算出するのが一般的であるが、音声到来方向算出部１３が用いる技術にも制約はなく、どのようなものでもよい。

　本実施の形態では、図２のように、マイクロホンアレイ２１が、車室内の前部中央（例えばセンターパネルやリアビューミラー付近）に設けられおり、音声の到来方向は、車両の右真横からマイクロホンアレイ２１へ到来する方向を０°、車両の真後ろからマイクロホンアレイ２１へ到来する方向を９０°、車両の左真横からマイクロホンアレイ２１へ到来する方向を１８０°とする角度として表されるものとする。

　画像取得部１４は、カメラ２２が撮影した各乗員の画像を取得する。開口度算出部１５は、画像取得部１４が取得した各乗員の画像を解析して、各乗員の口の開き具合を表す開口度を算出する。開口度の算出方法も任意の方法でよい。例えば、例えば上唇の中央部と下唇の中央部との間の距離を、開口度としてもよい。

　発話者推定部１６は、音声区間検出部１２が検出した音声区間の情報と、音声到来方向算出部１３が算出した音声の到来方向の情報と、開口度算出部１５が算出した各乗員の開口度の情報とに基づいて、発話者である乗員を推定する。より具体的には、発話者推定部１６は、音声区間における音声の到来方向と、音声区間における各乗員の開口度の統計量とに基づいて発話者を推定する。実施の形態１では、統計量として平均値を用いる。すなわち、実施の形態１の発話者推定部１６は、音声区間における音声の到来方向および各乗員の開口度の平均値に基づいて、発話者を推定する。

　図３は、発話者推定部１６の構成を示す図である。図３のように、発話者推定部１６は、発話者座席候補算出部１６１、開口度統計量算出部１６２および発話者座席推定部１６３を備えている。

　発話者座席候補算出部１６１は、音声区間検出部１２が検出した音声区間の情報と、音声到来方向算出部１３が算出した音声の到来方向の情報とを取得し、音声区間における音声の到来方向に基づいて、発話者の座席として推定する座席の候補（以下「発話者座席候補」という）を絞り込む。

　ここで、車両が図２のように右前席ＦＲ（運転席）、左前席ＦＬ（助手席）、右後席ＲＲ、右後席ＲＲ、中後席ＲＣ、左後席ＲＬの５つの座席を備えると仮定する。音声到来方向をθとすると、例えば、発話者座席候補算出部１６１は、０°≦θ＜６０°のときは発話者座席候補を右前席ＦＲ、右後席ＲＲおよび中後席ＲＣの３つにし、６０°≦θ≦１２０°のときは発話者座席候補を右後席ＲＲ、中後席ＲＣおよび左後席ＲＬの３つにし、１２０°＜θ≦１８０°のときは発話者座席候補を中後席ＲＣ、左後席ＲＬおよび左前席ＦＬの３つにする。

　発話者座席候補を絞り込む方法は上の例に限られない。例えば、マイクロホンアレイ２１と座席との位置関係に応じて音声到来方向の閾値（上の例では６０°と１２０°）を適宜変更してもよいし、さらに多くの座席を持つ車両であれば、閾値の個数を増やして、発話者座席候補をさらに細分化してもよい。

　また、複数の乗員が同時に発話したときなど、音声到来方向算出部１３が複数の音声到来方向を検出する場合もある。その場合には、複数の音声到来方向の対応する全ての座席を発話者座席候補とすればよい。例えば、上の例において、音声到来方向θとして４５°と９０°の２つが検出された場合、発話者座席候補算出部１６１は、発話者座席候補を右前席ＦＲ、右後席ＲＲ、中後席ＲＣおよび左後席ＲＬの４つにすればよい。

　開口度統計量算出部１６２は、音声区間検出部１２が検出した音声区間の情報と、開口度算出部１５が算出した各乗員の開口度の情報とを取得し、音声区間における各乗員の開口度の統計量、ここでは平均値を算出する。

　発話者座席推定部１６３は、発話者座席候補算出部１６１が算出した発話者座席候補の情報と、開口度統計量算出部１６２が算出した各乗員の開口度の統計量（平均値）とに基づいて、発話者の座席を推定することで、発話者である乗員を推定する。より具体的には、発話者座席推定部１６３は、発話者座席候補にいる乗員のうち、音声区間における開口度の平均値が予め定められた閾値よりも大きい乗員を、発話者として推定する。音声区間における開口度の平均値が閾値よりも大きい乗員が２人以上いた場合、発話者座席推定部１６３は、音声区間における開口度の平均値が最も大きい乗員だけを発話者として推定してもよいし、発話者が複数存在すると判断して、音声区間における開口度の平均値が閾値よりも大きい乗員の全員を発話者として推定してもよい。

　上述したように、人は発話してない場合も口を開くことがある。そのため、発話者の推定を各乗員の開口度に基づいて行うと、発話していない乗員が誤って発話者として推定されるおそれがある。それに対し、実施の形態１の発話者推定装置１０では、発話者座席推定部１６３が、音声区間における各乗員の開口度の統計量（平均値）に基づいて発話者を推定する。人は発話時には非発話時よりも多く口を開くため、開口度の平均値には発話時と非発話時との差が現れやすい。そのため、発話者座席候補算出部１６１は、各乗員が発話者か否かを高い精度で判定でき、発話していない乗員が誤って発話者として推定されることが抑制される。

　また、実施の形態１の発話者推定装置１０では、発話者座席候補算出部１６１が、音声区間における音声の到来方向に基づいて、発話者座席推定部１６３が発話者の座席として推定する座席の候補（発話者座席候補）を予め絞り込んでおり、それによって、発話者の誤検出がさらに抑制される。よって、実施の形態１に係る発話者推定装置１０によれば、発話者の推定を高い精度で行うことができる。

　図示は省略するが、発話者推定装置１０による発話者の推定結果は、音声認識機能に対応した車載機器へと出力される。あるいは、発話者推定装置１０が、音声認識機能に対応した車載機器に内蔵されていてもよい。

　発話者推定装置１０の適用が有効な車載機器としては、エアコンやオーディオ機器などが考えられる。例えば、音声操作可能なエアコンに発話者推定装置１０を適用した場合、エアコンが音声操作を行った乗員の座席を特定することで、その乗員の座席のみ温度設定を変更することなどが可能になる。

　また、音声操作可能なオーディオ機器に発話者推定装置１０を適用した場合、オーディオ機器が音声操作を行った乗員の座席を特定することで、その乗員の座席のみスピーカまたはヘッドフォンの音量を調節することなどが可能になる。さらに、後述する実施の形態２のように、発話者推定装置１０が個々の乗員を認識する機能を有する場合には、簡単な音声操作（例えば「いつもの音楽をかけて」という音声操作など）で、その音声操作を行った乗員の好みの音楽を再生するなど、利便性の向上に寄与できる。

　以下、実施の形態１に係る発話者推定装置１０の動作をフローチャートを参照しつつ説明する。図４は、実施の形態１に係る発話者推定装置１０の動作を示すフローチャートである。

　発話者推定装置１０が起動すると、音声信号取得部１１が、車両内に設置されたマイクロホンアレイ２１から音声信号を取得する（ステップＳ１０１）。そして、音声区間検出部１２が、音声信号から音声区間を検出し（ステップＳ１０２）、音声到来方向算出部１３が、音声信号に基づいてマイクロホンアレイ２１が取得した音声の到来方向を算出する（ステップＳ１０３）。

　その一方で、画像取得部１４は、カメラ２２が撮影した車両の各乗員の画像を取得する（ステップＳ１０４）。そして、開口度算出部１５が、各乗員の画像に基づいて各乗員の口の開き具合を表す開口度を算出する（ステップＳ１０５）。

　その後、発話者推定部１６が、音声区間における音声の到来方向および音声区間における各乗員の開口度の統計量に基づいて、発話者である乗員を推定する処理（発話者推定処理）を実施する（ステップＳ１０６）。

　図５は、発話者推定処理のフローチャートである。発話者推定処理が開始されると、発話者座席候補算出部１６１は、音声区間における音声の到来方向に基づいて、発話者座席推定部１６３が発話者の座席として推定する座席の候補（発話者座席候補）を絞り込む（ステップＳ２０１）。また、開口度統計量算出部１６２は、音声区間における各乗員の開口度の平均値を算出する（ステップＳ２０２）。

　その後、発話者座席推定部１６３が、発話者座席候補の情報と各乗員の開口度の平均値とに基づいて、発話者である乗員を推定する。まず、発話者座席推定部１６３は、発話者座席候補におり、且つ、開口度の平均値が閾値より大きい乗員がいるか否かを確認する（ステップＳ２０３）。そのような乗員がいれば（ステップＳ２０３でＹＥＳ）、発話者座席推定部１６３は、当該乗員を発話者として推定する（ステップＳ２０４）。そのような乗員がいなければ（ステップＳ２０３でＮＯ）、発話者座席推定部１６３は車両内に発話者はいないと判断する（ステップＳ２０５）。発話者座席推定部１６３が、発話者の推定結果を出力して（ステップＳ２０６）、発話者推定処理は終了する。

　発話者推定装置１０は、図４および図５に示した動作を繰り返し実行する。なお、図４のステップＳ１０２で音声区間が検出されなかった場合には、ステップＳ１０３～ステップＳ１０６の処理は省略されてもよい。すなわち、ステップＳ１０３～ステップＳ１０６の処理は、ステップＳ１０２で音声区間が検出されなかった場合にだけ行われてもよい。

　［変更例］
　実施の形態１では、発話者推定処理で用いる乗員の開口度の統計量を平均値としたが、標準偏差としてもよい。人は発話時には非発話時よりも頻繁に口を動かすため、開口度の標準偏差には発話時と非発話時との差が現れやすい。そのため、開口度の統計量として標準偏差を用いても、発話者座席推定部１６３は、各乗員が発話者か否かを高い精度で判定でき、発話していない乗員が誤って発話者として推定されることが抑制される。

　開口度の統計量を標準偏差とした場合の発話者推定処理のフローチャートを図６に示す。この場合、発話者推定処理が開始されると、発話者座席候補算出部１６１が、音声区間における音声の到来方向に基づいて発話者座席候補を絞り込み（ステップＳ２１１）、開口度統計量算出部１６２が、音声区間における各乗員の開口度の標準偏差を算出する（ステップＳ２１２）。

　発話者座席推定部１６３は、発話者座席候補におり、且つ、音声区間における開口度の標準偏差が閾値より大きい乗員がいるか否かを確認する（ステップＳ２１３）。そのような乗員がいれば（ステップＳ２１３でＹＥＳ）、発話者座席推定部１６３は、当該乗員を発話者として推定する（ステップＳ２１４）。そのような乗員がいなければ（ステップＳ２１３でＮＯ）、発話者座席推定部１６３は車両内に発話者はいないと判断する（ステップＳ２１５）。発話者座席推定部１６３が、発話者の推定結果を出力して（ステップＳ２１６）、発話者推定処理は終了する。

　また、発話者推定処理で用いる乗員の開口度の統計量は、平均値と標準偏差の両方でもよい。開口度の統計量を平均値および標準偏差の両方とする場合の発話者推定処理のフローチャートを図７に示す。

　この場合、発話者推定処理が開始されると、発話者座席候補算出部１６１が、音声区間における音声の到来方向に基づいて発話者座席候補を絞り込み（ステップＳ２２１）、開口度統計量算出部１６２が、音声区間における各乗員の開口度の平均値および標準偏差を算出する（ステップＳ２２２）。

　発話者座席推定部１６３は、発話者座席候補におり、且つ、音声区間における開口度の平均値および標準偏差の両方がそれぞれの閾値より大きい乗員がいるか否かを確認する（ステップＳ２２３）。そのような乗員がいれば（ステップＳ２２３でＹＥＳ）、発話者座席推定部１６３は、当該乗員を発話者として推定する（ステップＳ２２４）。そのような乗員がいなければ（ステップＳ２２３でＮＯ）、発話者座席推定部１６３は車両内に発話者はいないと判断する（ステップＳ２２５）。発話者座席推定部１６３が、発話者の推定結果を出力して（ステップＳ２２６）、発話者推定処理は終了する。

　図７においては、音声区間における開口度の平均値および標準偏差の両方がそれぞれの閾値より大きい乗員が発話者として推定される例を示したが、音声区間における開口度の平均値および標準偏差の片方だけが閾値より大きい乗員も、発話者として推定されるようにしてもよい。音声区間における開口度の平均値および標準偏差の少なくとも片方が閾値より大きい乗員を発話者として推定する場合の発話者推定処理のフローチャートを図８に示す。

　この場合、発話者推定処理が開始されると、発話者座席候補算出部１６１が、音声区間における音声の到来方向に基づいて発話者座席候補を絞り込み（ステップＳ２３１）、開口度統計量算出部１６２が、音声区間における各乗員の開口度の平均値および標準偏差を算出する（ステップＳ２３２）。

　発話者座席推定部１６３は、発話者座席候補におり、且つ、音声区間における開口度の平均値および標準偏差の少なくとも片方が閾値より大きい乗員がいるか否かを確認する（ステップＳ２３３）。そのような乗員がいれば（ステップＳ２３３でＹＥＳ）、発話者座席推定部１６３は、当該乗員を発話者として推定する（ステップＳ２３４）。そのような乗員がいなければ（ステップＳ２３３でＮＯ）、発話者座席推定部１６３は車両内に発話者はいないと判断する（ステップＳ２３５）。発話者座席推定部１６３が、発話者の推定結果を出力して（ステップＳ２３６）、発話者推定処理は終了する。

　［ハードウェア構成例］
　図９および図１０は、それぞれ発話者推定装置１０のハードウェア構成の例を示す図である。図１に示した発話者推定装置１０の構成要素の各機能は、例えば図９に示す処理回路５０により実現される。すなわち、発話者推定装置１０は、車両内に設置されたマイクロホンアレイ２１から音声信号を取得し、音声信号から音声区間を検出し、音声信号に基づいてマイクロホンアレイ２１が取得した音声の到来方向を算出し、カメラ２２が撮影した車両の各乗員の画像を取得し、各乗員の画像に基づいて各乗員の口の開き具合を表す開口度を算出し、音声区間における音声の到来方向および音声区間における各乗員の開口度の統計量に基づいて、発話者である乗員を推定する、ための処理回路５０を備える。処理回路５０は、専用のハードウェアであってもよいし、メモリに格納されたプログラムを実行するプロセッサ（中央処理装置（ＣＰＵ：Central Processing Unit）、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、ＤＳＰ（Digital Signal Processor）とも呼ばれる）を用いて構成されていてもよい。

　処理回路５０が専用のハードウェアである場合、処理回路５０は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、またはこれらを組み合わせたものなどが該当する。発話者推定装置１０の構成要素の各々の機能が個別の処理回路で実現されてもよいし、それらの機能がまとめて一つの処理回路で実現されてもよい。

　図１０は、処理回路５０がプログラムを実行するプロセッサ５１を用いて構成されている場合における発話者推定装置１０のハードウェア構成の例を示している。この場合、発話者推定装置１０の構成要素の機能は、ソフトウェア等（ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせ）により実現される。ソフトウェア等はプログラムとして記述され、メモリ５２に格納される。プロセッサ５１は、メモリ５２に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち、発話者推定装置１０は、プロセッサ５１により実行されるときに、車両内に設置されたマイクロホンアレイ２１から音声信号を取得する処理と、音声信号から音声区間を検出する処理と、音声信号に基づいてマイクロホンアレイ２１が取得した音声の到来方向を算出する処理と、カメラ２２が撮影した車両の各乗員の画像を取得する処理と、各乗員の画像に基づいて各乗員の口の開き具合を表す開口度を算出する処理と、音声区間における音声の到来方向および音声区間における各乗員の開口度の統計量に基づいて、発話者である乗員を推定する処理と、が結果的に実行されることになるプログラムを格納するためのメモリ５２を備える。換言すれば、このプログラムは、発話者推定装置１０の構成要素の動作の手順や方法をコンピュータに実行させるものであるともいえる。

　ここで、メモリ５２は、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）などの、不揮発性または揮発性の半導体メモリ、ＨＤＤ（Hard Disk Drive）、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ（Digital Versatile Disc）およびそのドライブ装置等、または、今後使用されるあらゆる記憶媒体であってもよい。

　以上、発話者推定装置１０の構成要素の機能が、ハードウェアおよびソフトウェア等のいずれか一方で実現される構成について説明した。しかしこれに限ったものではなく、発話者推定装置１０の一部の構成要素を専用のハードウェアで実現し、別の一部の構成要素をソフトウェア等で実現する構成であってもよい。例えば、一部の構成要素については専用のハードウェアとしての処理回路５０でその機能を実現し、他の一部の構成要素についてはプロセッサ５１としての処理回路５０がメモリ５２に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。

　以上のように、発話者推定装置１０は、ハードウェア、ソフトウェア等、またはこれらの組み合わせによって、上述の各機能を実現することができる。

　＜実施の形態２＞
　図１１は、実施の形態２に係る発話者推定装置１０の構成を示す図である。図１１の発話者推定装置１０の構成は、図１の構成に対し、乗員認識部１７を追加したものである。

　乗員認識部１７は、カメラ２２が撮影した各乗員の画像に基づいて、個々の乗員を認識する。乗員認識部１７には、発話者推定装置１０を搭載する車両のユーザ（当該車両に搭乗することが想定される人物）の画像が予め登録されており、乗員認識部１７は、カメラ２２が撮影した車両の各乗員の画像と、登録されたユーザの画像とを照合することにより、それぞれの乗員が誰であるかを認識することができる。

　図１２は、実施の形態２における発話者推定部１６の構成を示す図である。図１２の発話者推定部１６の構成は、図２の構成に対し、閾値設定部１６４を追加したものである。

　閾値設定部１６４は、乗員認識部１７による乗員の認識結果に基づいて、発話者推定処理で用いられる開口度の統計量の閾値を、乗員ごとに設定する。閾値設定部１６４には、車両のユーザごとの閾値が予め登録されており、閾値設定部１６４は、乗員の認識結果に基づいて、それぞれの乗員に対し当該乗員に対応する閾値を割り当てる。乗員認識部１７が認識できなかった乗員（例えば未登録の乗員）に対しては、予め定められた未登録ユーザ用の閾値が割り当てられる。

　実施の形態２に係る発話者推定装置１０によれば、車両の乗員ごとに適した閾値が設定されることで、発話者の推定精度をさらに向上させることができる。

　ユーザごとの閾値の決め方は任意の方法でよい。例えば、ユーザの登録時には当該ユーザの閾値を予め定められた初期値に設定しておき、ユーザが必要に応じて閾値を調整できるようにしてもよい。例えば、発話していないのに発話者と判断されたユーザは自己の閾値を上げ、発話したのに発話者と判断されなかったユーザは自己の閾値を下げることで、発話者の推定精度を向上させることができる。

　また例えば、カメラ２２が撮影したユーザの過去の画像を解析して当該ユーザの音声区間における開口度の統計量と非音声区間における開口度の統計量とを算出し、両者の値から当該ユーザの適切な閾値（例えば両者の中間値）を設定する機能を、発話者推定装置１０あるいは外部機器（例えばユーザの携帯端末やパーソナルコンピュータなど）に持たせてもよい。

　図１３は、実施の形態２に係る発話者推定装置１０の動作を示すフローチャートである。図１３のフローは、図４のフローに対し、ステップＳ１０４の後に、ステップＳ１０７を追加したものである。ステップＳ１０７では、乗員認識部１７が、画像取得部１４が取得した車両の各乗員の画像に基づいて、個々の乗員を認識する処理が行われる。ステップＳ１０１～Ｓ１０４は、図４のフローと同様であるため、ここでの説明は省略する。

　図１４は、実施の形態２における発話者推定処理を示すフローチャートである。図１４のフローは、図５のフローに対し、ステップＳ２０１の後に、ステップＳ２０７を追加したものである。なお、図１４では、発話者推定処理で用いる乗員の開口度の統計量として、平均値が用いられている。

　ステップＳ２０７では、閾値設定部１６４が、乗員認識部１７による乗員の認識結果に基づいて、発話者推定処理で用いられる開口度の平均値の閾値を、乗員ごとに設定する処理が行われる。ステップＳ２０１～Ｓ２０６は、図４のフローと同様である。ただし、ステップＳ２０３の判断処理は、ステップＳ２０７で設定された乗員ごとの閾値を用いて行われる。

　［変更例］
　実施の形態２においても、発話者推定処理で用いる乗員の開口度の統計量は、標準偏差でもよい。開口度の統計量を標準偏差とした場合の発話者推定処理のフローチャートを図１５に示す。図１５のフローは、図６のフローに対し、ステップＳ２０１の後に、ステップＳ２１７を追加したものである。ステップＳ２１７では、閾値設定部１６４が、乗員認識部１７による乗員の認識結果に基づいて、発話者推定処理で用いられる開口度の標準偏差の閾値を、乗員ごとに設定する処理が行われる。ステップＳ２１１～Ｓ２１６は、図６のフローと同様である。ただし、ステップＳ２１３の判断処理は、ステップＳ２１７で設定された乗員ごとの閾値を用いて行われる。

　また、フローチャートの図示は省略するが、実施の形態２においても図７または図８と同様に、発話者推定処理で用いる乗員の開口度の統計量を、平均値と標準偏差の両方としてもよい。

　＜実施の形態３＞
　図１６は、実施の形態３における発話者推定部１６の構成を示す図である。図１６の発話者推定部１６の構成は、図２の構成に対し、閾値更新部１６５を追加したものである。なお、本実施の形態において、発話者推定装置１０の全体構成は実施の形態１（図１）と同様である。閾値更新部１６５は、発話者推定処理で用いられる開口度の統計量の閾値を更新する。

　閾値更新部１６５による閾値の更新は、発話者座席候補にいる乗員の中に、音声区間における開口度の統計量が予め定められた条件を満たす乗員が存在した場合に実施される。具体的には、音声区間における開口度の統計量が閾値よりも大きい乗員が存在した場合、または、音声区間における開口度の統計量と閾値との差が一定値よりも小さい乗員が存在した場合に、閾値が更新される。つまり、発話者として推定された乗員が存在した場合、または、発話者として推定されなかったが開口度の統計量が閾値に接近した乗員が存在した場合に、閾値が更新される。

　また、閾値更新部１６５による閾値の更新は、上記の条件を満たす乗員の開口度の統計量に基づいて行われる。具体的には、閾値更新部１６５は、閾値の現在の値と上記の条件を満たす乗員の開口度の統計量との加重平均値を、閾値の新たな値として設定することで、閾値を更新する。つまり、更新前の閾値（現在の値）をＴ_Ｂ、上記の条件を満たす乗員の開口度の統計量Ｓとすると、閾値更新部１６５は、更新後の閾値（新たな値）Ｔ_Ａを、
Ｔ_Ａ＝（１－α）Ｔ_Ｂ＋αＳ　　　・・・（１）
として算出する。式（１）のα（０＜α＜１）は、Ｓが閾値の更新に与える影響度を規定する係数であり、αが大きいほど更新時の閾値の変化量が大きくなる。

　式（１）に基づいて閾値の更新が行われる場合、開口度の統計量が閾値を超えた乗員が存在するごとに閾値が上がり、発話者として推定されなかったが開口度の統計量が閾値に接近した乗員が存在するごとに閾値が下がる。それにより、発話者の検出感度（乗員を発話者として推定する度合い）が適切に調整される。

　発話者推定装置１０は、カメラ２２が撮影した画像を用いて発話者を推定するため、例えば明るさなどの周囲の環境の影響により、発話者の検出感度が変動するおそれがある。閾値更新部１６５が閾値を更新することで、発話者の検出感度が安定し、発話者の推定精度をさらに向上させることができる。

　図１７は、閾値更新部１６５の動作を示すフローチャートである。以下、図１７のフローチャートを参照しつつ閾値更新部１６５の動作を説明する。閾値更新部１６５は、図１７の処理を、発話者推定処理が行われるごとに実施する。なお、図１７は、発話者推定処理で用いる乗員の開口度の統計量が、平均値である場合の例である。

　発話者推定部１６が発話者推定処理を実施すると、発話者座席推定部１６３は、音声区間における開口度の平均値が閾値より大きい乗員（つまり、発話者として推定された乗員）がいたか否かを確認する（ステップＳ３０１）。ステップＳ３０１の条件を満たす乗員がいなかった場合は（ステップＳ３０１でＮＯ）、音声区間における開口度の平均値と閾値との差が一定値より小さい乗員がいたか否かを確認する（ステップＳ３０２）。

　ステップＳ３０１またはステップＳ３０２の条件を満たす乗員がいた場合は（ステップＳ３０１またはステップＳ３０２でＹＥＳ）、閾値更新部１６５が、当該乗員の開口度の平均値に基づき、式（１）を用いて閾値を更新する（ステップＳ３０３）。ステップＳ３０１またはステップＳ３０２の条件を満たす乗員がいなかった場合は（ステップＳ３０２でＮＯ）、閾値は更新されない。

　［変更例］
　実施の形態３においても、発話者推定処理で用いる乗員の開口度の統計量は、標準偏差でもよい。開口度の統計量を標準偏差とした場合の閾値更新部１６５の動作を示すフローチャートを図１８に示す。

　発話者推定部１６が発話者推定処理を実施すると、発話者座席推定部１６３は、音声区間における開口度の標準偏差が閾値より大きい乗員（つまり、発話者として推定された乗員）がいたか否かを確認する（ステップＳ３１１）。ステップＳ３１１の条件を満たす乗員がいなかった場合は（ステップＳ３１１でＮＯ）、音声区間における開口度の標準偏差と閾値との差が一定値より小さい乗員がいたか否かを確認する（ステップＳ３１２）。

　ステップＳ３１１またはステップＳ３１２の条件を満たす乗員がいた場合は（ステップＳ３１１またはステップＳ３１２でＹＥＳ）、閾値更新部１６５が、当該乗員の開口度の標準偏差に基づき、式（１）を用いて閾値を更新する（ステップＳ３１３）。ステップＳ３１１またはステップＳ３１２の条件を満たす乗員がいなかった場合は（ステップＳ３１２でＮＯ）、閾値は更新されない。

　また、図７または図８のフローのように、発話者推定処理で用いられる乗員の開口度の統計量が平均値と標準偏差の両方である場合には、閾値更新部１６５は、図１７および図１８の両方を実施して、平均値の閾値および標準偏差の閾値の両方を更新すればよい。

　＜実施の形態４＞
　実施の形態４では、実施の形態２と実施の形態３とを組み合わせる。図１９は、実施の形態４における発話者推定部１６の構成を示す図である。図１９の発話者推定部１６の構成は、図１２の構成に対し、閾値更新部１６５を追加したものである。なお、実施の形態４に係る発話者推定装置１０の全体構成は実施の形態２（図１１）と同様である。

　実施の形態４の閾値更新部１６５も、発話者推定処理で用いられる開口度の統計量の閾値を更新する。ただし、実施の形態４の閾値更新部１６５は、閾値設定部１６４に記憶されている車両のユーザごとの閾値を更新する。また、各ユーザの閾値の更新処理は、更新する閾値に対応するユーザの開口度の統計量だけを用いて行われる。よって、閾値が更新されるタイミング、ならびに、更新による閾値の変化の方向および変化量は、ユーザごとに異なる。

　実施の形態４に係る発話者推定装置１０によれば、開口度の個人差や環境の変化に応じて閾値が更新されるため、発話者の推定精度をさらに向上させることができる。

　なお、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略したりすることが可能である。

　上記した説明は、すべての態様において、例示であって、例示されていない無数の変形例が想定され得るものと解される。

　１０　発話者推定装置、１１　音声信号取得部、１２　音声区間検出部、１３　音声到来方向算出部、１４　画像取得部、１５　開口度算出部、１６　発話者推定部、１７　乗員認識部、２１　マイクロホンアレイ、２２　カメラ、１６１　発話者座席候補算出部、１６２　開口度統計量算出部、１６３　発話者座席推定部、１６４　閾値設定部、１６５　閾値更新部、ＦＲ　右前席、ＦＬ　左前席、ＲＲ　右後席、ＲＣ　中後席、ＲＬ　左後席。

Claims

　車両内に設置されたマイクロホンアレイから音声信号を取得する音声信号取得部と、
　前記音声信号から音声区間を検出する音声区間検出部と、
　前記音声信号に基づいて前記マイクロホンアレイが取得した音声の到来方向を算出する音声到来方向算出部と、
　カメラが撮影した前記車両の各乗員の画像を取得する画像取得部と、
　前記各乗員の画像に基づいて前記各乗員の口の開き具合を表す開口度を算出する開口度算出部と、
　前記音声区間における音声の到来方向と前記音声区間における前記各乗員の開口度の統計量とに基づいて、発話者である乗員を推定する発話者推定部と、
を備える発話者推定装置。
　前記発話者推定部は、
　前記音声区間における音声の到来方向に基づいて発話者の座席の候補を絞り込み、
　発話者の座席の候補にいる乗員のうち、前記音声区間における前記開口度の前記統計量が予め定められた閾値よりも大きい乗員を発話者として推定する、
請求項１に記載の発話者推定装置。
　前記車両の各乗員の画像に基づいて、個々の乗員を認識する乗員認識部と、
　前記閾値を乗員ごとに設定する閾値設定部と、
をさらに備える、
請求項２に記載の発話者推定装置。
　発話者の座席の候補にいる乗員の中に、前記音声区間における前記開口度の前記統計量が予め定められた条件を満たす乗員が存在した場合に、前記条件を満たす乗員の前記開口度の前記統計量に基づいて前記閾値を更新する閾値更新部をさらに備える、
請求項２に記載の発話者推定装置。
　前記閾値更新部は、前記閾値の現在の値と前記条件を満たす乗員の前記開口度の前記統計量との加重平均値を、前記閾値の新たな値として設定する、
請求項４に記載の発話者推定装置。
　前記条件は、前記音声区間における前記開口度の前記統計量が前記閾値よりも大きい、または、前記音声区間における前記開口度の前記統計量と前記閾値との差が一定値よりも小さいことである、
請求項４に記載の発話者推定装置。
　前記統計量は、平均値である、
請求項１に記載の発話者推定装置。
　前記統計量は、標準偏差である、
請求項１に記載の発話者推定装置。
　前記統計量は、平均値および標準偏差の両方を含み、
　前記発話者推定部は、前記音声区間における前記各乗員の前記開口度の平均値および標準偏差の少なくとも片方に基づいて、発話者である乗員を推定する、
請求項１に記載の発話者推定装置。
　発話者推定装置により実行される発話者推定方法であって、
　前記発話者推定装置の音声信号取得部が、車両内に設置されたマイクロホンアレイから音声信号を取得し、
　前記発話者推定装置の音声区間検出部が、前記音声信号から音声区間を検出し、
　前記発話者推定装置の音声到来方向算出部が、前記音声信号に基づいて前記マイクロホンアレイが取得した音声の到来方向を算出し、
　前記発話者推定装置の画像取得部が、カメラが撮影した前記車両の各乗員の画像を取得し、
　前記発話者推定装置の開口度算出部が、前記各乗員の画像に基づいて前記各乗員の口の開き具合を表す開口度を算出し、
　前記発話者推定装置の発話者推定部が、前記音声区間における音声の到来方向および前記音声区間における前記各乗員の開口度の統計量に基づいて、発話者である乗員を推定する、
発話者推定方法。