WO2023276701A1

WO2023276701A1 - 話者ダイアライゼーションシステム、コミュニケーション解析システム、及び、発話量推定方法

Info

Publication number: WO2023276701A1
Application number: PCT/JP2022/024138
Authority: WO
Inventors: 一樹北村; 直毅吉川; ジャマルムリアナユスフビン; プラティックプラネイ; ジアリマ
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2021-06-28
Filing date: 2022-06-16
Publication date: 2023-01-05

Abstract

話者ダイアライゼーションシステム（３８）は、空間に滞在する対象者が映る映像の映像情報を取得し、取得した映像情報に基づいて空間における対象者の位置である第一位置を検知する人検知ユニット（３２）と、空間において取得された音の音情報を取得し、取得した音情報に基づいて空間における音源の位置である第二位置を検知する音源検知ユニット（３１）と、検知された第一位置、及び、検知された第二位置に基づいて、対象者を追跡し、かつ、追跡中の対象者の発話量を推定する発話量推定ユニット（３４）とを備える。

Description

話者ダイアライゼーションシステム、コミュニケーション解析システム、及び、発話量推定方法

　本発明は、話者ダイアライゼーションシステム、コミュニケーション解析システム、及び、発話量推定方法に関する。

　会社などの組織においては、従業員同士がコミュニケーションを密にとって各自のタスクに取り組むことが重要である。このようなコミュニケーションに関する技術として、特許文献１には、会議や打ち合わせなどの場における知的活動に対する評価をするために対象者の心理状態を情報として提供する情報提供装置が開示されている。

特開２００４－１１２５１８号公報

　本発明は、移動する対象者の発話量を推定することができる話者ダイアライゼーションシステム等を提供する。

　本発明の一態様に係る話者ダイアライゼーションシステムは、空間に滞在する対象者が映る映像の映像情報を取得し、取得した前記映像情報に基づいて前記空間における前記対象者の位置である第一位置を検知する人検知ユニットと、前記空間において取得された音の音情報を取得し、取得した前記音情報に基づいて前記空間における音源の位置である第二位置を検知する音源検知ユニットと、検知された前記第一位置、及び、検知された前記第二位置に基づいて、前記対象者を追跡し、かつ、追跡中の前記対象者の発話量を推定する発話量推定ユニットとを備える。

　本発明の一態様に係るコミュニケーション解析システムは、前記話者ダイアライゼーションシステムと、推定された前記対象者の発話量に基づいて、前記空間において前記対象者を含む複数の人によって行われるコミュニケーションの品質を解析するコミュニケーション解析ユニットとを備える。

　本発明の一態様に係る発話量推定方法は、空間に滞在する対象者が映る映像の映像情報を取得し、取得した映像情報に基づいて前記空間における対象者の位置である第一位置を検知する第一検知ステップと、前記空間において取得された音の音情報を取得し、取得した前記音情報に基づいて前記空間における音源の位置である第二位置を検知する第二検知ステップと、検知された前記第一位置、及び、検知された前記第二位置に基づいて、前記対象者を追跡し、かつ、追跡中の前記対象者の発話量を推定する発話量推定ステップとを含む。

　本発明の一態様に係るプログラムは、前記発話量推定方法をコンピュータに実行させるためのプログラムである。

　本発明の話者ダイアライゼーションシステム等は、移動する対象者の発話量を推定することができる。

図１は、実施の形態に係るコミュニケーション解析システムの機能構成を示すブロック図である。図２は、実施の形態に係るコミュニケーション解析システムが適用される空間の一例を示す図である。図３は、実施の形態に係るセンシング装置の外観図である。図４は、実施の形態に係るコミュニケーション解析システムが備える音源検知ユニットの動作のフローチャートである。図５は、音源の位置の検知結果を模式的に示す図である。図６は、実施の形態に係るコミュニケーション解析システムが備える人検知ユニットの動作のフローチャートである。図７は、人の位置の検知結果を模式的に示す図である。図８は、実施の形態に係るコミュニケーション解析システムが備える発話量推定ユニットの動作のフローチャートである。図９は、発話者の位置の検知結果を模式的に示す図である。図１０は、発話量を示す情報の一例を示す図である。図１１は、実施の形態に係るコミュニケーション解析システムが備える頭部向き検知ユニットの動作のフローチャートである。図１２は、実施の形態に係るコミュニケーション解析システムが備える頭部向き検知ユニットの動作を説明するための三次元座標空間を示す図である。図１３は、頭部の向きの角度の補正を説明するための図である。図１４は、実施の形態に係るコミュニケーション解析システムが備える注力判定ユニットの動作のフローチャートである。図１５は、対象者の目的方向を説明するための図である。図１６は、注力期間を示す情報の一例を示す図である。図１７は、実施の形態に係るコミュニケーション解析システムが備えるコミュニケーション解析ユニットの動作のフローチャートである。図１８は、情報端末に表示される、コミュニケーションの品質を示すスコアの表示画面の一例を示す図である。

　以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

　なお、各図は模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付し、重複する説明は省略または簡略化される場合がある。

　（実施の形態）
　［構成］
　まず、実施の形態に係るコミュニケーション解析システムの構成について説明する。図１は、実施の形態に係るコミュニケーション解析システムの機能構成を示すブロック図である。図２は、コミュニケーション解析システムが適用される空間の一例を示す図である。

　図１及び図２に示されるように、コミュニケーション解析システム１０は、会議室などの空間７０を有するオフィスなどで使用される、空間７０内に位置する複数の人のコミュニケーションの品質を解析するためのシステムである。空間７０は、例えば、閉空間であるが、開放空間であってもよい。空間７０としては、会議室のほかに、オフィス空間内の開放的休憩所（オフィス空間の一部に椅子及びテーブルが置かれている場所）が例示される。また、空間７０は、物理的に区切られている必要は無く、全体空間のうち照明光または気流などで区切られた場所であってもよい。例えば、色温度５０００Ｋの昼光色で照明されたオフィス空間の一角に、色温度３０００Ｋの暖色の領域が設けられ、この領域が空間７０とされてもよい。

　コミュニケーション解析システム１０は、センシング装置２０と、情報処理システム３０とを備える。まず、センシング装置２０について図１及び図２に加えて図３を参照しながら説明する。図３は、センシング装置２０の外観図である。図３の（ａ）は、センシング装置２０の上面図であり、図３の（ｂ）は、センシング装置２０の側面図である。なお、図３では測距センサ２３は図示されていない。

　センシング装置２０は、空間７０に設置された机４０の上に設置され、空間７０における音及び映像などをセンシングする。センシング装置２０は、具体的には、机４０の上の中央部に設置される。センシング装置２０は、マイクロフォンアレイ２１と、複数のカメラ２２と、測距センサ２３とを備える。

　マイクロフォンアレイ２１は、空間７０における音を取得し、取得した音の音情報（複数の音信号）を出力する。マイクロフォンアレイ２１は、具体的には、複数のマイクロフォン素子を含み、複数のマイクロフォン素子のそれぞれは、空間７０における音を取得し、取得した音の音信号を出力する。

　複数のカメラ２２のそれぞれは、空間７０に滞在する人が映る映像（言い換えれば、動画像）を撮影し、当該映像の映像情報を出力する。カメラ２２は、ＣＭＯＳイメージセンサなどによって実現される一般的なカメラであるが、魚眼カメラなどであってもよい。センシング装置２０は、机４０の上からセンシング装置２０の周囲の全体を撮影できるように４つのカメラを備えているが、空間７０に滞在する人の全員を撮影することができる少なくとも１つのカメラを備えていればよい。

　測距センサ２３は、センシング装置２０（カメラ２２）から対象物までの距離を計測し、計測した対象物までの距離を示す距離情報を出力する。対象物は、空間７０に滞在する人などである。測距センサ２３は、例えば、ＴＯＦ（Ｔｉｍｅ　Ｏｆ　Ｆｌｉｇｈｔ）方式のＬｉＤＡＲ（Ｌｉｇｈｔ　Ｄｅｔｅｃｔｉｏｎ　ａｎｄ　Ｒａｎｇｉｎｇ）であるが、距離画像センサなどであってもよい。センシング装置２０は、少なくとも１つの測距センサ２３を備えていればよいが、カメラ２２と対応して複数の測距センサ２３を備えてもよい。

　次に、情報処理システム３０について説明する。情報処理システム３０は、センシング装置２０と有線または無線の通信を行い、当該通信によってセンシング装置２０から取得したセンシング情報（具体的には、音情報、映像情報、及び、距離情報など）に基づいて、コミュニケーションの品質を解析する。情報処理システム３０は、例えば、空間７０を有する施設に設置されるエッジコンピュータであるが、当該施設の外に設置されるクラウドコンピュータであってもよい。情報処理システム３０がエッジコンピュータである場合、センシング装置２０及び情報処理システム３０は、一体的な１つの装置として実現されてもよい。また、情報処理システム３０の一部の機能がエッジコンピュータとして実現され、他の一部の機能がクラウドコンピュータによって実現されてもよい。

　情報処理システム３０は、具体的には、音源検知ユニット３１、人検知ユニット３２、頭部向き検知ユニット３３、発話量推定ユニット３４、注力判定ユニット３５、コミュニケーション解析ユニット３６、及び、記憶ユニット３７を備える。

　音源検知ユニット３１は、空間７０において取得された音の音情報をセンシング装置２０から取得し、取得した音情報に基づいて空間７０における音源の位置である第二位置を検知する。

　人検知ユニット３２は、空間７０に滞在する人が映る映像の映像情報をセンシング装置２０から取得し、取得した映像情報に基づいて空間７０における人の位置である第一位置を検知する。

　頭部向き検知ユニット３３は、空間７０に滞在する人が映る映像の映像情報をセンシング装置２０から取得し、取得した映像情報に基づいて人の頭部の向き（言い換えれば、顔の向き）を検知する。頭部向き検知ユニット３３は、取得した映像情報に基づいて、人の目線の向きを検知してもよい。

　発話量推定ユニット３４は、人検知ユニット３２によって検知された第一位置、及び、音源検知ユニット３１によって検知された第二位置に基づいて、人の発話量を推定する。

　注力判定ユニット３５は、人検知ユニット３２によって検知された第一位置、及び、頭部向き検知ユニット３３によって検知された人の頭部の向きに基づいて、空間７０において当該人を含む複数の人によって行われるコミュニケーションに対する人の注力を判定する。

　コミュニケーション解析ユニット３６は、発話量推定ユニット３４によって推定された人の発話量、及び、注力判定ユニット３５によって判定された人の注力の少なくとも一方に基づいて、コミュニケーションの品質を解析する。また、コミュニケーション解析ユニット３６は、解析結果を出力する。

　以上説明した、音源検知ユニット３１、人検知ユニット３２、頭部向き検知ユニット３３、発話量推定ユニット３４、注力判定ユニット３５、及び、コミュニケーション解析ユニット３６のそれぞれは、マイクロコンピュータまたはプロセッサによって実現される。音源検知ユニット３１、人検知ユニット３２、頭部向き検知ユニット３３、発話量推定ユニット３４、注力判定ユニット３５、及び、コミュニケーション解析ユニット３６の機能は、例えば、上記マイクロコンピュータまたはプロセッサが記憶ユニット３７に記憶されたコンピュータプログラムを実行することによって実現される。

　記憶ユニット３７は、上記コンピュータプログラム、及び、上記各構成要素の機能を実現するために必要な情報などが記憶される記憶装置である。記憶ユニット３７は、例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）によって実現されるが、半導体メモリによって実現されてもよい。

　なお、音源検知ユニット３１、人検知ユニット３２、及び、発話量推定ユニット３４を含むシステムは、話者ダイアライゼーションシステム３８とも記載される。つまり、話者ダイアライゼーションシステム３８は、音源検知ユニット３１、人検知ユニット３２、及び、発話量推定ユニット３４を備える。話者ダイアライゼーションシステム３８は、さらに、頭部向き検知ユニット３３または注力判定ユニット３５を備えてもよい。

　また、人検知ユニット３２、頭部向き検知ユニット３３、及び、注力判定ユニット３５を含むシステムは、注力判定システム３９とも記載される。つまり、注力判定システム３９は、人検知ユニット３２、頭部向き検知ユニット３３、及び、注力判定ユニット３５を備える。注力判定システム３９は、さらに、音源検知ユニット３１または発話量推定ユニット３４を備えてもよい。

　［音源検知ユニットの動作］
　次に、音源検知ユニット３１の動作についてより具体的に説明する。図４は、音源検知ユニット３１の動作のフローチャートである。

　まず、音源検知ユニット３１は、空間７０において取得された音の音情報をセンシング装置２０のマイクロフォンアレイ２１から取得する（Ｓ１１）。音源検知ユニット３１は、具体的には、マイクロフォンアレイ２１に含まれる複数のマイクロフォン素子が出力する複数の音信号を取得する。

　ここで、取得された複数の音信号のそれぞれは、時間領域の信号である。音源検知ユニット３１は、複数の音信号のそれぞれをフーリエ変換することにより、時間領域の信号から周波数領域の信号に変換する（Ｓ１２）。

　次に、音源検知ユニット３１は、周波数領域に変換された後の複数の音信号に基づいて定まる入力ベクトルから、空間相関行列を算出する（Ｓ１３）。ここで、マイクロフォンアレイ２１がマイクロフォン素子をＭ個備え、このうちｍ番目のフーリエ変換後の音信号をＸ_ｍ（ω，ｔ）とすると、入力ベクトルｘ（ω，ｔ）は以下の式で表される。Ｔは転置を意味する。

　また、空間相関行列Ｒは、以下の式で表される。Ｈは、共役転置を意味する。なお、以降は説明の簡略化のため周波数のインデックスωは省略される。

　次に、音源検知ユニット３１は、上記の空間相関行列を固有値分解することにより、固有ベクトルを算出する（Ｓ１４）。音源検知ユニット３１は、具体的には、以下の式に基づいて上記の空間相関行列を固有値分解することにより、固有値ベクトルｅ_１、・・・ｅ_Ｍと、固有値λ_１・・・λ_Ｍとを算出することができる。

　次に、音源検知ユニット３１は、固有ベクトルから音源の位置を検知する（Ｓ１５）。音源検知ユニット３１は、具体的には、固有ベクトルによって音の大きさとその音が到来する方向を特定することができ、比較的大きい音が到来する方向を音源の方向（位置）として検知することができる。

　この結果、図５に示されるように、音源検知ユニット３１は、センシング装置２０の位置Ｏを基準にどの方向（角度）に音源が位置するかを検知することができる。図５は、音源の位置の検知結果を模式的に示す図（机４０を上方から見た図）である。図５の例では、音源Ｓ１及び音源Ｓ２の２つが検知されている。なお、音源検知ユニット３１は、少なくとも図５に示されるような二次元的な音源の位置（上面視において角度で表される方向）を検知すればよいが、三次元的な音源の位置を検知してもよい。以下の実施の形態では、音源検知ユニット３１によって検知された音源の位置は、第二位置とも記載される。

　音源検知ユニット３１は、図４の動作を単位時間ごとに繰り返すことにより、音源の位置（第二位置）を追跡することができる。なお、音源とは、具体的には、空間７０内に滞在する発話者（人）であるが、空間７０内に設置された機器である可能性もある。

　［人検知ユニットの動作］
　次に、人検知ユニット３２の動作についてより具体的に説明する。図６は、人検知ユニット３２の動作のフローチャートである。なお、以下の動作は、実際には４つのカメラ２２のそれぞれから取得された映像情報について行われるが、以下では、便宜上、１つのカメラ２２から映像情報が取得されるものとして説明が行われる。

　まず、人検知ユニット３２は、空間７０において取得された映像の映像情報をセンシング装置２０のカメラ２２から取得する（Ｓ２１）。

　次に、人検知ユニット３２は、取得された映像情報に基づいて、映像内で人が映っている領域を特定する（Ｓ２２）。人検知ユニット３２は、パターンマッチングを用いた手法、または、機械学習モデルを用いた手法などにより、映像内で人が映っている領域を特定することができる。

　次に、人検知ユニット３２は、特定した領域（つまり、人がいる領域）に識別情報を割り当てる（Ｓ２３）。例えば、人検知ユニット３２は、３つの領域を特定し、特定した３つの領域にＡ、Ｂ、Ｃの識別情報を割り当てる。以下では、領域Ａに対応する人を人Ａ、領域Ｂに対応する人を人Ｂ、領域Ｃに対応する人を人Ｃとも記載する。

　次に、人検知ユニット３２は、ステップＳ２３で特定した領域の映像内での位置に基づいて、人がいる方向を特定する（Ｓ２４）。記憶ユニット３７には、カメラ２２の設置位置（机４０の上の中央）と、カメラ２２の撮影範囲（画角）とを示す情報があらかじめ記憶されており、人検知ユニット３２は、映像内の位置がどの方向に相当するかを特定することができる。

　次に、人検知ユニット３２は、ステップＳ２３で特定した領域の大きさに基づいて、センシング装置２０（カメラ２２）から人までの距離を推定する（Ｓ２５）。この場合、ステップＳ２３で特定した領域が大きいほど、センシング装置２０（カメラ２２）から人までの距離は近いと推定される。なお、ステップＳ２５では、測距センサ２３から取得される距離情報（距離の実測値）によってセンシング装置２０（カメラ２２）から人までの距離が特定されてもよい。

　以上のステップＳ２４及びステップＳ２５の結果、図７に示されるように、人検知ユニット３２は、空間７０における人の位置を検知することができる。図７は、人の位置の検知結果を模式的に示す図（机４０を上方から見た図）である。図７の例では、人Ａ、人Ｂ、及び、人Ｃの三人の位置が検知されている。なお、人検知ユニット３２は、三次元的な人の位置（人の位置の三次元座標）を検知するが、少なくとも図７に示されるような二次元的な音源の位置（上面視において角度で表される方向）を検知すればよい。以下の実施の形態では、人検知ユニット３２によって検知された人の位置は、第一位置とも記載される。

　人検知ユニット３２は、図６の動作を単位時間ごとに繰り返すことにより、人の位置（第一位置）を追跡することができる。このときステップＳ２３の識別情報の割り当ては、最初の１回のみ行われればよい。

　［発話量推定ユニットの動作］
　次に、発話量推定ユニット３４の動作についてより具体的に説明する。図８は、発話量推定ユニット３４の動作のフローチャートである。

　発話量推定ユニット３４は、人検知ユニット３２によって検知された第一位置、及び、音源検知ユニット３１によって検知された第二位置を取得する（Ｓ３１）。このとき取得される第一位置及び第二位置は、実質的に同一のタイミングで検知されたものである。実質的に同一とは、多少のずれを含んでもよいことを意味する。

　次に、発話量推定ユニット３４は、三次元座標で表される第一位置を、第二位置相当の二次元座標（角度）に変換する（Ｓ３２）。なお、マイクロフォンアレイ２１の位置とカメラ２２の位置とが異なる場合には、これらの位置の差分に基づいて、二次元座標に変換された後の第一位置が補正される。

　次に、発話量推定ユニット３４は、変換後の第一位置と、第二位置とを照合することにより、発話者（発話者の位置）を検知する（Ｓ３３）。図９は、発話者の位置の検知結果を模式的に示す図である。図９は、第二位置（図５）と、第一位置（図７）とを重畳した図である。

　発話量推定ユニット３４は、例えば、音源Ｓ１の第二位置と人Ａの第一位置との角度差Δθ１が所定値以下であるときに、音源Ｓ１が人Ａであると検知する。つまり、人Ａは発話者として検知される。また、発話量推定ユニット３４は、例えば、音源Ｓ２の第二位置と人Ｃの第一位置との角度差Δθ２が所定値以下であるときに、音源Ｓ２が人Ｃであると検知する。つまり、人Ｃは発話者として検知される。

　発話量推定ユニット３４は、図８の動作を単位時間ごとに繰り返すことにより、人Ａ、人Ｂ、及び、人Ｃのそれぞれを追跡し、人Ａ、人Ｂ、及び、人Ｃそれぞれの発話量を推定することができる。発話量推定ユニット３４は、具体的には、人Ａ、人Ｂ、及び、人Ｃのそれぞれが発話者として検知された期間を、人Ａ、人Ｂ、及び、人Ｃのそれぞれが発話している期間と推定することができる。つまり、発話量推定ユニット３４は、人Ａ、人Ｂ、及び、人Ｃのそれぞれが発話している期間を示す情報（発話量を示す情報）を記憶ユニット３７に記憶することができる。図１０は、発話量を示す情報の一例を示す図である。図１０に示されるように、発話量を示す情報は、上記ステップＳ２３で割り当てられた識別情報のそれぞれに、発話量（発話時間）が紐づけられた情報である。

　このように、発話量推定ユニット３４は、人検知ユニット３２によって検知された第一位置、及び、音源検知ユニット３１によって検知された第二位置に基づいて、複数の人それぞれを追跡し、かつ、空間７０に滞在する複数の人のそれぞれの発話量（対象者の発話量）を推定することができる。このような発話量推定ユニット３４による発話量の推定方法は、複数の人の座席の移動を伴う会議等におけるコミュニケーションの品質の解析に有用である。この場合の複数の人の座席の移動とは、例えば、ホワイトボード６０を使うために移動することなどを意味する。

　また、発話量推定ユニット３４は、音声認識による個人特定、及び、画像認識による個人特定を行うのではなく、複数の人の匿名性を維持したまま、複数の人それぞれの発話量を推定することができる。

　［頭部向き推定ユニットの動作］
　次に、頭部向き検知ユニット３３の動作についてより具体的に説明する。図１１は、頭部向き検知ユニット３３の動作のフローチャートである。図１２は、頭部向き検知ユニット３３の動作を説明するための三次元座標空間を示す図である。なお、図１２に示されるように、以下の頭部向き検知ユニット３３の動作の説明においては、カメラ２２は、机４０の中心位置Ｏ（０，０，０）ではなく、机４０上の位置Ｃ（ｘ０，ｙ０，ｚ０）に設置されているものとして説明が行われる。なお、図１２には、Ｘ－Ｙ－Ｚで示される空間７０における三次元座標に加えて、Ｕ－Ｖで示される映像中の座標も合わせて図示されている。

　まず、頭部向き検知ユニット３３は、空間７０において取得された映像の映像情報をセンシング装置２０のカメラ２２から取得する（Ｓ４１）。

　次に、頭部向き検知ユニット３３は、取得された映像情報に基づいて、映像に映る人の頭部の向きを特定する（Ｓ４２）。頭部向き検知ユニット３３は、例えば、顔認識処理により、映像における人の頭部に相当する領域を特定し、特定した領域に機械学習モデルを適用することにより、人の頭部の向きを検知することができる。図１２に示されるように、このときの頭部の向きを示すベクトルは、当該人の位置Ｐとカメラの位置Ｃとを結ぶ線分（直線）に対してＡ°の角度をなすものとする。

　次に、頭部向き検知ユニット３３は、人検知ユニット３２によって検知される上記人の位置（より詳細には、人の頭部の位置）を取得する（Ｓ４３）。図１２に示されるように、このときの人の位置は、Ｐ（ｘ１，ｙ１，ｚ１）とされる。

　例えば、机４０の実際のサイズによって定まるｚ１－ｚ０と、カメラ２２の水平方向の視野角αと、映像中の映像内の人の位置（ｕ、ｖ）と、映像の横幅ｗとを用いると、ｘ１は、以下の式で表現できる。なお、机４０のサイズ、カメラ２２の水平方向の視野角α、及び、映像の横幅ｗなどの情報は、あらかじめ記憶ユニット３７に記憶される。

　ｘ１＝ｘ０＋（（ｕ－ｗ／２）／ｗ）×（ｚ１－ｚ０）×ｔａｎ（α）

　次に、頭部向き検知ユニット３３は、ステップＳ４２において特定されたカメラ２２の位置を基準とした頭部の向き（角度Ａ）を、ステップＳ４３において取得した人の位置（具体的には、座標ｘ１の値）に基づいて補正する（Ｓ４４）。図１３は、このような角度の補正を説明するための図（机４０を上方から見た図）である。

　頭部向き検知ユニット３３は、ステップＳ４３において取得されたｘ１の座標に基づいて、図１３における∠ＯＰＣを算出することができ、Ａ＋∠ＯＰＣを補正後の角度とすることができる。

　頭部向き検知ユニット３３は、図１１の動作を単位時間ごとに繰り返すことにより、人の頭部の向きを追跡することができる。

　［注力判定ユニットの動作］
　次に、注力判定ユニット３５の動作についてより具体的に説明する。図１４は、注力判定ユニット３５の動作のフローチャートである。

　注力判定ユニット３５は、人検知ユニット３２によって検知された第一位置、及び、頭部向き検知ユニット３３によって検知された人の頭部の向きを取得する（Ｓ５１）。このとき取得される第一位置は、より詳細には、空間７０に滞在する複数の人それぞれの第一位置であり、人の頭部の向きは、当該複数の人それぞれの頭部の向きである。

　次に、注力判定ユニット３５は、複数の人の１人を対象者として、対象者の目的方向を決定する（Ｓ５２）。図１５は、対象者の目的方向を説明するための図（机４０を上方から見た図）である。

　注力判定ユニット３５は、例えば、位置Ｐにいる人が対象者である場合、位置Ｐから他の人がいる位置Ｇを結ぶ方向を目的方向に決定する。なお、目的方向は、必ずしも人に対して決定される必要はなく、後述のようにディスプレイ５０及びホワイトボード６０に対して決定されてもよい。

　次に、注力判定ユニット３５は、目的方向を中心として許容範囲を決定する（Ｓ５３）。例えば、図１５の例では、∠ＧＰＯ－βから∠ＧＰＯ＋βまでの範囲が許容範囲として決定される。βは許容範囲を定めるための係数である。なお、βの値は、目的方向が向かう先が、人であるか、ディスプレイ５０であるか、ホワイトボード６０であるかによって異なる値とされる。

　次に、注力判定ユニット３５は、ステップＳ５１で取得した対象者の頭部の向きと、ステップＳ５３で決定した許容範囲とを比較することにより、対象者の注力を判定する（Ｓ５４）。ここでの注力は、空間７０において対象者を含む複数の人によって行われるコミュニケーションに対する注力を意味する。注力判定ユニット３５は、対象者の頭部の向きが許容範囲内であるときには、対象者が他の人を見ていると考えられることから、コミュニケーションに注力していると判定する。一方、注力判定ユニット３５は、対象者の頭部の向きが許容範囲外であるときには、対象者が他の人を見ていないと考えられることからコミュニケーションに注力していないと判定する。

　注力判定ユニット３５は、図１４の動作を単位時間ごとに複数の人（人Ａ、人Ｂ、及び、人Ｃとする）それぞれを対象者として繰り返すことにより、人Ａ、人Ｂ、及び、人Ｃそれぞれの注力を判定することができる。注力判定ユニット３５は、具体的には、人Ａ、人Ｂ、及び、人Ｃのそれぞれが注力していると判定された期間を積算し、複数の人がコミュニケーションに注力している期間を示す情報を記憶ユニット３７に記憶することができる。図１６は、注力期間を示す情報の一例を示す図である。図１６に示されるように、発話量を示す情報は、上記ステップＳ２３で割り当てられた識別情報のそれぞれに、注力期間が紐づけられた情報である。

　このように、注力判定ユニット３５は、人検知ユニット３２によって検知された第一位置、及び、頭部向き検知ユニット３３によって検知された頭部の向きに基づいて、空間７０において複数の人によって行われるコミュニケーションに対する対象者の注力を判定することができる。

　なお、注力判定ユニット３５は、音源検知ユニット３１によって検知された第二位置をさらに取得して発話者の位置を検知するか、あるいは、発話量推定ユニット３４によって検知される発話者の位置を取得してもよい。いずれの場合も、注力判定ユニット３５は、複数の人のそれぞれが発話者であるか否かを考慮して注力を判定することができる。例えば、対象者の頭部が発話者の方向を向いているときのみ対象者がコミュニケーションに注力していると判定し、発話していない人の方向を見ているときは対象者がコミュニケーションに注力していないと判定することができる。

　また、複数の人のそれぞれが発話者であるか否かを考慮する場合、注力判定ユニット３５は、以下のように注力を判定してもよい。

　例えば、空間７０において複数の人によって会議が行われているような場合、対象者（人Ｃとする）は、当該対象者の真横に位置している人Ａが発話していても、真横に位置している人のほうは向きづらい。したがって、他の人Ｂのほうを見ると考えられる。また、対象者は、会議の報告資料等が表示されているディスプレイ５０（図２に図示）、及び、ホワイトボード６０（図２に図示）のほうを向くことも考えられる。このような場合、上記のように対象者の頭部が発話者の方向を向いているときのみ対象者がコミュニケーションに注力していると判定されると、実際にはコミュニケーションに注力している対象者がコミュニケーションに注力していないと判定されてしまうという課題がある。

　そこで、このような場合、人Ａが発話している間は、（１）対象者が人Ａの方向を向いている期間、（２）対象者がディスプレイ５０の方向を向いている期間、（３）対象者が人Ａ以外の人（人Ｂ）の方向を向いている期間、（４）対象者がホワイトボード６０の方向を向いている期間のいずれも、対象者がコミュニケーションに注力していると判定されてもよい。つまり、注力判定ユニット３５は、複数の人のうち対象者以外の人が発話しているときに、検知された対象者の頭部の向きが、複数の人のうち対象者以外の人、ディスプレイ５０、及び、ホワイトボード６０のいずれかを向いている期間を、人がコミュニケーションに対して注力している期間であると判定してもよい。なお、対象者がホワイトボード６０のほうを向いている期間は、人Ａがホワイトボード付近で発話しているという条件の下で、対象者がコミュニケーションに注力している期間と判定されてもよい。

　［コミュニケーション解析ユニットの動作］
　次に、コミュニケーション解析ユニット３６の動作についてより具体的に説明する。図１７は、コミュニケーション解析ユニット３６の動作のフローチャートである。

　コミュニケーション解析ユニット３６は、記憶ユニット３７に記憶された、発話量を示す情報（図１０）、及び、注力期間を示す情報（図１６）を記憶ユニット３７から読み出す（Ｓ６１）。

　次に、コミュニケーション解析ユニット３６は、取得した発話量を示す情報、及び、取得した注力期間を示す情報に基づいて、空間７０におけるコミュニケーションの品質を解析する。例えば、コミュニケーション解析ユニットは、以下の採点基準でコミュニケーションの品質をスコア化する。

　コミュニケーション解析ユニット３６は、例えば、取得した発話量を示す情報に基づいて、人Ａ～人Ｃの発話量の比率を算出し、この比率の最小値／最大値が１に近い（つまり、人Ａ～人Ｃがまんべんなく発言している）ほど、発話量に関する第一スコアを大きい値にする。コミュニケーション解析ユニット３６は、具体的には、人Ａ～人Ｃの発話量の比率が１：１．２：１．５である場合、１（最小値）／１．５（最大値）と１との差分に基づいて第一スコアを算出する。

　また、コミュニケーション解析ユニット３６は、例えば、取得した注力期間を示す情報に基づいて、人Ａ～人Ｃの注力期間の平均値が大きいほど、注力に関する第二スコアを大きい値にする。

　そして、コミュニケーション解析ユニット３６は、第一スコア及び第二スコアの合計を、空間７０におけるコミュニケーションの品質を示す最終スコアとして算出する。人Ａ～人Ｃのそれぞれは、例えば、スマートフォンまたはパーソナルコンピュータなどの情報端末を用いてコミュニケーション解析システム１０（情報処理システム３０）にアクセスすることにより、コミュニケーションの品質を示す最終スコア（つまり、コミュニケーションの品質の解析結果）を確認することができる。図１８は、情報端末に表示される、コミュニケーションの品質を示すスコアの表示画面の一例を示す図である。

　このように、コミュニケーション解析ユニット３６は、発話量の推定結果、及び、注力の判定結果に基づいて、空間７０において複数の人によって行われるコミュニケーションの品質を解析することができる。なお、コミュニケーション解析ユニット３６は、発話量の推定結果、及び、注力の判定結果の少なくとも一方に基づいて、空間７０において複数の人によって行われるコミュニケーションの品質を解析すればよい。また、上記のようなスコアの算出基準は一例であり、スコアは空間７０におけるコミュニケーションに求められる内容に応じて適宜定められればよい。

　［変形例］
　上記実施の形態では、マイクロフォンアレイ２１、カメラ２２、及び、測距センサ２３は机４０の上に設置された。しかしながら、マイクロフォンアレイ２１、カメラ２２、及び、測距センサ２３は、天井に設置されてもよい。また、マイクロフォンアレイ２１、カメラ２２、及び、測距センサ２３が１か所に集約される必要はなく、マイクロフォンアレイ２１、カメラ２２、及び、測距センサ２３は互いに異なる場所に設置されていてもよい。

　また、上記実施の形態では、発話者を検知するために音源検知ユニット３１と人検知ユニット３２とが併用されたが、人検知ユニット３２のみで発話者を検知することもできる。例えば、人検知ユニット３２は、映像に映る人の動きなどから当該人が発話中であるか否かを検知することができる。

　また、上記実施の形態において、コミュニケーション解析ユニット３６は、コミュニケーションの品質を示す最終スコア（つまり、コミュニケーションの品質の解析結果）を空間７０において会議等が行われているときにリアルタイムに算出し、算出した最終スコアに基づいて空間７０における環境をリアルタイムに制御してもよい。

　例えば、コミュニケーション解析ユニット３６は、算出された最終スコアが所定値未満である（つまり、コミュニケーションが活発でない）と判定すると、空間７０に設置された環境制御機器（図示せず）へ制御信号を送信することにより、空間７０の環境を制御する。

　環境制御機器は、具体的には、空間７０の温度環境を制御する空気調和機、空間７０の光環境を制御する照明機器、空間７０のにおいを制御する香り発生機、及び、空間７０の音環境を制御する楽曲再生装置などである。

　例えば、コミュニケーション解析ユニット３６は、空気調和機の設定温度を高くする、または、照明機器を現在よりも明るくすることにより、空間７０におけるコミュニケーションの活性化を図ることができる。また、コミュニケーション解析ユニット３６は、空間７０に設置された香り発生機を作動させる、または、空間７０に設置された楽曲再生装置に楽曲を再生させることにより、空間７０におけるコミュニケーションの活性化を図ってもよい。

　［効果等］
　以上説明したように、話者ダイアライゼーションシステム３８は、空間７０に滞在する対象者が映る映像の映像情報を取得し、取得した映像情報に基づいて空間７０における対象者の位置である第一位置を検知する人検知ユニット３２と、空間７０において取得された音の音情報を取得し、取得した音情報に基づいて空間７０における音源の位置である第二位置を検知する音源検知ユニット３１と、検知された第一位置、及び、検知された第二位置に基づいて、対象者を追跡し、かつ、追跡中の対象者の発話量を推定する発話量推定ユニット３４とを備える。

　このような話者ダイアライゼーションシステム３８は、映像と音声とを併用することにより対象者の発話を他の人の発話と区別することで、移動する対象者の発話量を推定することができる。

　また、例えば、空間７０には机４０が設置され、人検知ユニット３２は、机４０の上に設置されたカメラ２２から映像情報を取得する。

　このような話者ダイアライゼーションシステム３８は、机４０の上に設置されたカメラ２２から映像情報を取得することができる。

　また、例えば、空間７０には、複数のカメラ２２が設置され、人検知ユニット３２によって取得される映像情報には、複数のカメラ２２のそれぞれによって撮影された映像の映像情報が含まれる。

　このような話者ダイアライゼーションシステム３８は、机４０の上に設置された複数のカメラ２２から映像情報を取得することができる。

　また、例えば、空間７０には、カメラ２２から対象者までの距離を計測する測距センサ２３が設置され、人検知ユニット３２は、取得した映像情報、及び、測距センサ２３の検知結果に基づいて第一位置を検知する。

　このような話者ダイアライゼーションシステム３８は、測距センサ２３の検知結果に基づいて第一位置を検知することができる。

　また、例えば、人検知ユニット３２は、第一位置を検知するために、映像における対象者の大きさに基づいて人検知ユニット３２から対象者までの距離を推定する。

　このような話者ダイアライゼーションシステム３８は、映像における対象者の大きさに基づいて人検知ユニット３２から対象者までの距離を推定することができる。

　また、コミュニケーション解析システム１０は、話者ダイアライゼーションシステム３８と、推定された対象者の発話量に基づいて、空間７０において対象者を含む複数の人によって行われるコミュニケーションの品質を解析するコミュニケーション解析ユニット３６とを備える。

　このようなコミュニケーション解析システム１０は、対象者の発話量に基づいてコミュニケーションの品質を解析することができる。

　また、例えば、コミュニケーション解析システム１０は、さらに、映像情報を取得し、取得した映像情報に基づいて対象者の頭部の向きを検知する頭部向き検知ユニット３３と、検知された第一位置、及び、検知された対象者の頭部の向きに基づいて、空間７０において対象者を含む複数の人によって行われるコミュニケーションに対する対象者の注力を判定する注力判定ユニット３５とを備える。コミュニケーション解析ユニット３６は、推定された対象者の発話量、及び、判定された対象者の注力に基づいて、コミュニケーションの品質を解析する。

　このようなコミュニケーション解析システム１０は、対象者の発話量、及び、対象者の注力に基づいてコミュニケーションの品質を解析することができる。

　また、例えば、空間７０には、ディスプレイ５０及びホワイトボード６０が設置される。注力判定ユニット３５は、複数の人のうち対象者以外の人が発話しているときに、検知された対象者の頭部の向きが、複数の人のうち対象者以外の人、ディスプレイ５０、及び、ホワイトボード６０のいずれかを向いている期間を、人がコミュニケーションに対して注力している期間であると判定する。

　このようなコミュニケーション解析システム１０は、対象者が発話者以外の方向を向いているときも注力があると判定することができる。

　また、話者ダイアライゼーションシステム３８などのコンピュータが実行する発話量推定方法は、空間７０に滞在する対象者が映る映像の映像情報を取得し、取得した映像情報に基づいて空間７０における対象者の位置である第一位置を検知する第一検知ステップと、空間７０において取得された音の音情報を取得し、取得した音情報に基づいて空間７０における音源の位置である第二位置を検知する第二検知ステップと、検知された第一位置、及び、検知された第二位置に基づいて、対象者を追跡し、かつ、追跡中の対象者の発話量を推定する発話量推定ステップとを含む。

　このような発話量推定方法は、映像と音声とを併用することにより対象者の発話を他の人の発話と区別することで、移動する対象者の発話量を推定することができる。

　（その他の実施の形態）
　以上、実施の形態について説明したが、本発明は、上記実施の形態に限定されるものではない。

　例えば、上記実施の形態では、コミュニケーション解析システムは、複数の装置によって実現されたが、単一の装置として実現されてもよい。例えば、コミュニケーション解析システムは、情報処理システム、話者ダイアライゼーションシステム、または、注力判定システムに相当する単一の装置として実現されてもよい。コミュニケーション解析システムが複数の装置によって実現される場合、コミュニケーション解析システムが備える機能的な構成要素は、複数の装置にどのように振り分けられてもよい。

　また、上記実施の形態における装置間の通信方法については特に限定されるものではない。また、装置間の通信においては、図示されない中継装置が介在してもよい。

　また、上記実施の形態において、特定の処理部が実行する処理を別の処理部が実行してもよい。また、複数の処理の順序が変更されてもよいし、複数の処理が並行して実行されてもよい。

　また、上記実施の形態において、各構成要素は、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

　また、各構成要素は、ハードウェアによって実現されてもよい。例えば、各構成要素は、回路（または集積回路）でもよい。これらの回路は、全体として１つの回路を構成してもよいし、それぞれ別々の回路でもよい。また、これらの回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。

　また、本発明の全般的または具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよい。また、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

　例えば、本発明は、話者ダイアライゼーションシステムなどのコンピュータが実行する発話量推定方法として実現されてもよいし、このような発話量推定方法をコンピュータに実行させるためのプログラムとして実現されてもよいし、このようなプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体として実現されてもよい。

　また、本発明は、注力判定システムなどのコンピュータが実行する注力判定方法として実現されてもよいし、このような注力判定方法をコンピュータに実行させるためのプログラムとして実現されてもよいし、このようなプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体として実現されてもよい。

　その他、各実施の形態に対して当業者が思いつく各種変形を施して得られる形態、または、本発明の趣旨を逸脱しない範囲で各実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本発明に含まれる。

　１０　コミュニケーション解析システム
　２０　センシング装置
　２１　マイクロフォンアレイ
　２２　カメラ
　２３　測距センサ（センサ）
　３０　情報処理システム
　３１　音源検知ユニット
　３２　人検知ユニット
　３３　頭部向き検知ユニット
　３４　発話量推定ユニット
　３５　注力判定ユニット
　３６　コミュニケーション解析ユニット
　３７　記憶ユニット
　３８　話者ダイアライゼーションシステム
　３９　注力判定システム
　４０　机
　５０　ディスプレイ
　６０　ホワイトボード
　７０　空間

Claims

　空間に滞在する対象者が映る映像の映像情報を取得し、取得した前記映像情報に基づいて前記空間における前記対象者の位置である第一位置を検知する人検知ユニットと、
　前記空間において取得された音の音情報を取得し、取得した前記音情報に基づいて前記空間における音源の位置である第二位置を検知する音源検知ユニットと、
　検知された前記第一位置、及び、検知された前記第二位置に基づいて、前記対象者を追跡し、かつ、追跡中の前記対象者の発話量を推定する発話量推定ユニットとを備える
　話者ダイアライゼーションシステム。
　前記空間には机が設置され、
　前記人検知ユニットは、前記机の上に設置されたカメラから前記映像情報を取得する
　請求項１に記載の話者ダイアライゼーションシステム。
　前記空間には、複数のカメラが設置され、
　前記人検知ユニットによって取得される前記映像情報には、前記複数のカメラのそれぞれによって撮影された映像の映像情報が含まれる
　請求項２に記載の話者ダイアライゼーションシステム。
　前記空間には、前記カメラから前記対象者までの距離を計測するセンサが設置され、
　前記人検知ユニットは、取得した前記映像情報、及び、前記センサの検知結果に基づいて前記第一位置を検知する
　請求項２に記載の話者ダイアライゼーションシステム。
　前記人検知ユニットは、前記第一位置を検知するために、前記映像における前記対象者の大きさに基づいて前記人検知ユニットから前記対象者までの距離を推定する
　請求項１に記載の話者ダイアライゼーションシステム。
　請求項１～５のいずれか１項に記載の話者ダイアライゼーションシステムと、
　推定された前記対象者の発話量に基づいて、前記空間において前記対象者を含む複数の人によって行われるコミュニケーションの品質を解析するコミュニケーション解析ユニットとを備える
　コミュニケーション解析システム。
　さらに、前記映像情報を取得し、取得した前記映像情報に基づいて前記対象者の頭部の向きを検知する頭部向き検知ユニットと、
　検知された前記第一位置、及び、検知された前記対象者の頭部の向きに基づいて、前記空間において前記対象者を含む複数の人によって行われるコミュニケーションに対する前記対象者の注力を判定する注力判定ユニットとを備え、
　前記コミュニケーション解析ユニットは、推定された前記対象者の発話量、及び、判定された前記対象者の注力に基づいて、前記コミュニケーションの品質を解析する
　請求項６に記載のコミュニケーション解析システム。
　前記空間には、ディスプレイ及びホワイトボードが設置され、
　前記注力判定ユニットは、前記複数の人のうち前記対象者以外の人が発話しているときに、検知された前記対象者の頭部の向きが、前記複数の人のうち前記対象者以外の人、前記ディスプレイ、及び、前記ホワイトボードのいずれかを向いている期間を、前記人が前記コミュニケーションに対して注力している期間であると判定する
　請求項７に記載のコミュニケーション解析システム。
　空間に滞在する対象者が映る映像の映像情報を取得し、取得した映像情報に基づいて前記空間における対象者の位置である第一位置を検知する第一検知ステップと、
　前記空間において取得された音の音情報を取得し、取得した前記音情報に基づいて前記空間における音源の位置である第二位置を検知する第二検知ステップと、
　検知された前記第一位置、及び、検知された前記第二位置に基づいて、前記対象者を追跡し、かつ、追跡中の前記対象者の発話量を推定する発話量推定ステップとを含む
　発話量推定方法。
　請求項９に記載の発話量推定方法をコンピュータに実行させるためのプログラム。