WO2018174088A1

WO2018174088A1 - コミュニケーション解析装置およびそれに使用される測定・フィードバック装置、インタラクション装置

Info

Publication number: WO2018174088A1
Application number: PCT/JP2018/011173
Authority: WO
Inventors: 三宅　美博; 宏樹大良
Original assignee: 国立大学法人東京工業大学
Priority date: 2017-03-21
Filing date: 2018-03-20
Publication date: 2018-09-27
Also published as: JPWO2018174088A1; EP3605421A4; EP3605421A1; JP7002143B2; US20210110844A1

Abstract

コミュニケーション解析装置２は、複数の参加者によるコミュニケーションを解析する。マイク１０は、複数の参加者の発声を音声データＳ１として取得する。カメラ２０は複数の参加者の画像データＳ２を取得する。解析評価部３０は、音声データＳ１および画像データＳ２にもとづき、コミュニケーションを評価する。フィードバック部４０は、解析評価部３０による評価結果を、複数の参加者４にフィードバックする。

Description

コミュニケーション解析装置およびそれに使用される測定・フィードバック装置、インタラクション装置

　本発明は、コミュニケーションを解析する技術に関する。

　会議等の対面コミュニケーションにおいては、言語および非言語情報からなる重層化されたコミュニケーションチャネルが重要な役割を担っている。これまでもカメラおよびマイクをテーブルに設置又は会議室等に据え置くことによってコミュニケーションをモニタリングするシステムが提案されてきたが、従来方法では映像や音声等を記録するものが主流であった。

　たとえば特許文献１には、魚眼または超広角レンズおよび可変指向性マイクを用いたテレビカメラ装置が開示される。このテレビカメラ装置は、テレビ会議中に音声が発生されない場合でも人物の追尾を安定して行い、アクティビティのあるテレビ会議の映像を生成し、雑音やエコーを低減した高品質の臨場感のあるテレビ会議を実現する。

特開平１１－３３１８２７号公報

　このように従来の装置は、コミュニケーションを受動的に監視し、あるいは記録するのにとどまっており、装置がコミュニケーションに積極的に介入し、あるいは影響を及ぼすことはなかった。

　本発明は係る状況においてなされたものであり、そのある態様の例示的な目的のひとつは、コミュニケーションに介入するコミュニケーション解析装置の提供にある。また本発明の別の態様のひとつは、コミュニケーションを測定し、評価結果をフィードバックする測定・フィードバック装置の提供にある。

　本発明のある態様は、複数の参加者によるコミュニケーションを解析するコミュニケーション解析装置に関する。コミュニケーション解析装置は、複数の参加者の発声を音声データとして取得するマイクと、複数の参加者の画像データを取得するカメラと、音声データおよび画像データにもとづき、コミュニケーションを評価する解析評価部と、解析評価部による評価結果またはそれにもとづくフィードバックを複数の参加者にリアルタイムで提供するフィードバック部と、を備える。

　この態様によると、コミュニケーションをリアルタイムで解析し、その結果をリアルタイムで参加者にフィードバックすることができる。これにより、コミュニケーションの質を高めることができる。

　フィードバック部は、複数の参加者で共有されるリズムを提示してもよい。このようなリズムは、対面コミュニケーションの場に埋もれており、個々の参加者が視覚的あるいは聴感的にそれを知覚することは難しい。このリズムを、対面コミュニケーションの場から抽出し、抽出したリズムを、視覚的な刺激、聴覚的な刺激、体性感覚的な刺激としてコミュニケーションの場に強調して再提示することにより、そのリズムを共有していない他の参加者に、そのリズムに同調することを促すことができる。

　フィードバック部はロボット型であり、頷き、身振りもしくは手振りの少なくともひとつにより、リズムを提示してもよい。

　フィードバック部は、解析評価部により参加度が低いとされる参加者に対して、リズムを提示してもよい。

　フィードバック部は、解析評価部による心的状態の評価結果にもとづいて選択される参加者に対してリズムを提示してもよい。たとえば心的状態として、共感度、一体感、合意度などを参照することができる。心的状態が否定的な参加者にリズムを提示することで、共感度／一体感／合意度を肯定的な状態に変化させることができる。なお本明細書において、共感度／一体感／合意度が低いことを、否定的状態、共感度／一体感／合意度が高いことを、肯定的状態という。

　解析評価部は、複数の参加者間の同調状態を評価してもよい。同調状態は、参加者の心的状態と相関を有するため、物理量である同調状態を評価した上で、同調状態を利用して、心的状態を評価することができる。あるいは、解析評価部は、必ずしも心的状態まで評価する必要はなく、同調状態という物理量のみを評価し、それをフィードバックしてもよい。

　フィードバック部は、解析評価部による評価結果を可視化して提示してもよい。

　解析評価部は、複数の参加者それぞれの体の動きを監視してもよい。体の動きは、身振り、仕草、姿勢、頷きなどを含んでもよい。

　解析評価部は、複数の参加者それぞれの視線の動きを監視してもよい。解析評価部は、顔の表情や表情の動き、顔の向きなどを監視してもよい。

　本発明の別の態様は、複数の参加者によるコミュニケーションを測定する測定・フィードバック装置に関する。測定・フィードバック装置は、複数の参加者の発声を音声データとして取得するマイクと、複数の参加者の画像データを取得するカメラと、外部のコンピュータに音声データおよび画像データを送信するとともに、コンピュータからコミュニケーションの評価結果にもとづくフィードバックデータを受信するインタフェース部と、フィードバックデータにもとづく情報を複数の参加者に提示するフィードバック部と、を備える。

　カメラは全方位カメラであってもよい。測定・フィードバック装置は、複数の参加者までの距離を測定する測距センサをさらに備えてもよい。

　なお、以上の構成要素を任意に組み合わせたもの、あるいは本発明の表現を、方法、装置などの間で変換したものもまた、本発明の態様として有効である。

　本発明のある態様によれば、コミュニケーションに介入し、コミュニケーションの質を高めることができる。

実施の形態に係るコミュニケーション解析装置のブロック図である。コミュニケーション解析装置を構成する測定・フィードバック装置を示す図である。コミュニケーション解析装置の具体的な機能ブロック図である。フィードバック部の別の一例を示す図である。３６０度カメラによって撮影した１フレームの画像データを示す図である。図６（ａ）は、２人の被験者について行った予備実験の結果を示す図であり、図６（ｂ）は、条件１～３ごとに、役割Ａと役割Ｂの輝度変化量の相関係数をＦｉｓｈｅｒのＺ変換を用い、さらにバートレット補正をかけることで得られたＺ値を示す図である。図７（ａ）、（ｂ）は、同期条件、非同期条件における結果を示す図である。図８（ａ）～（ｃ）は、対面コミュニケーションにおける、共感度と身体運動の関係を示す図である。図９（ａ）、（ｂ）は、対面コミュニケーションにおける、共感度と視線運動の関係を示す図である。ロボットを用いた実験の様子を示す図である。図１１（ａ）、（ｂ）は、図１０の実験結果を示す図である。

　以下、本発明を好適な実施の形態をもとに図面を参照しながら説明する。各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。また、実施の形態は、発明を限定するものではなく例示であって、実施の形態に記述されるすべての特徴やその組み合わせは、必ずしも発明の本質的なものであるとは限らない。

　図１は、実施の形態に係るコミュニケーション解析装置２のブロック図である。コミュニケーション解析装置２は、複数の参加者による会議やディスカッション、レクチャーなど（以下、コミュニケーションという）を解析し、解析結果を参加者にフィードバックする。

　コミュニケーション解析装置２は、マイク１０、カメラ２０、解析評価部３０、フィードバック部４０を備える。マイク１０は、複数の参加者４の発声を音声データＳ_１として取得する。図１では、マイク１０、カメラ２０は１個のみが示されるが、複数設けられてもよい。カメラ２０は、複数の参加者４の姿を画像データＳ_２として取得する。解析評価部３０は、音声データＳ_１および画像データＳ_２を解析し、複数の参加者４によりなされるコミュニケーションを評価し、評価結果を示す指標を生成する。指標の形式は特に限定されず、１、０の２値、あるいは多値データとしてもよいし、あるいはベクトル量としてもよい。

　フィードバック部４０は、解析評価部３０による評価結果Ｓ_３を、複数の参加者４にフィードバックする。フィードバックには、聴覚刺激、視覚刺激、体性感覚刺激それらの組み合わせを用いることができ、特に限定されない。たとえば聴覚刺激としては、ビープ音やアラーム音、予めサンプリングされた所定の音声を用いてもよいし、スピーチシンセサイザ（音声合成）を使用して文字列を音響信号（合成音声）に変換してもよい。視覚刺激としては、ＬＥＤや照明などの発光状態（明るさ、色、点滅などのパターン）、ディスプレイ装置による画像／テキスト表示、機械的手段を用いることができる。体性感覚刺激としては、振動や加圧などの触覚刺激、風による刺激、温度による刺激などを用いることができる。フィードバックの方法、態様は、評価対象としたコミュニケーションの側面に応じて選択すればよい。

　評価対象とするコミュニケーションの側面およびフィードバックの組み合わせは特に限定されないが、以下のものが例示される。

（１）参加者の参加度
　参加度は、コミュニケーションへの関与度であり、言語情報、あるいは非言語情報にもとづいて解析することができる。

　最も簡易には、マイク１０により取得される音声データＳ_１を用い、参加者ごとの発言の頻度あるいは回数を測定し、測定結果を定量化してもよい。より高度には、発言の内容を解析し、言語情報（意味内容）にもとづいて、有意義な発言、会議と関係の無い発言や私語を区別することは、参加度の生成に有意義である。

　参加度は、非言語情報を利用して解析することも可能である。非言語情報としては具体的に、相づち、まばたき、視線の滞留時間、身振り、手振り、首振り、体幹の揺れ、視線の動き、などが例示される。これらは、参加者４の外部から視覚的に把握できるものであり、カメラ２０により取得される画像データＳ_２を解析すればよい。居眠りや内職などは、視覚的に把握できる具体例である。

　当業者によれば、事前の実験、検証から得られた経験則、学習にもとづいて、いずれの非言語情報に参加者のどのような心的状態が反映されるかを把握することができることが理解され、したがって、言語情報、非言語情報から、参加度を表す指標を生成可能であることが理解される。

　さらに別の非言語情報としては、会話のターンテーキング、ため息、声の調子などを用いることができる。

　参加度を評価した場合、フィードバックとしては、以下のものが挙げられる。たとえば、参加度が低い参加者に向けて、参加や発言を促す所定のビープ音を発声してもよい。あるいは参加者ごとにランプなどのインジケータを割り当てて設けておき、参加度が低い（あるいは反対に、参加度が高い）参加者に対応付けられるインジケータを点灯させてもよい。

　参加者ごとの参加度が数値化されている場合、各参加者が、自身の（さらには他の参加者の）参加度の値を把握できる態様で表示してもよい。たとえば参加度の値に応じて明るさや色を変化させてもよい。

　居眠りや内職の疑いがある参加者については、音声やインジケータを利用して刺激を与え、その旨を警告してもよい。

　会議をはじめとする多くのコミュニケーションでは、発言が一部の参加者に集中したりすることは良く起こる。従来においては、全員が参加するように配慮し、時には参加者に発言を促したりする役割が、司会進行役に委ねられる場合が多い。しかしながら司会進行役にそのような役割を担わせることは、本来の司会進行業務の妨げになるおそれもある。また、各参加者がコミュニケーションに関与しているか否かの判断が司会進行役の主観に委ねられることとなる。

　実施の形態に係るコミュニケーション解析装置２では、参加度を評価し、その結果を参加者にフィードバックするため、このような問題を解決できる。

　また従来では、積極的にコミュニケーションに関与していない参加者が、司会進行役の上司や年上である場合、そのことが、参加を促す行動を躊躇させるかもしれないし、また部下や年下に参加を促された上司や年上は気分を害すかもしれない。つまり人間関係がコミュニケーションの質の改善を阻害する。

　実施の形態に係るコミュニケーション解析装置２では、装置（機械）によって参加が促されることになるため、そこに人間関係は介在しない。参加を促された人間も、人間よりも客観的な機械によって参加を促された方が、納得しやすい。この観点においても、コミュニケーション解析装置２は有利である。

（２）参加者の心的状態
　ここでいう心的状態とは、共感、信頼感、一体感、居場所感、ライブ感、合意や同意、納得感、関心の高さなどの、個人の間の心的状態の指標であり、参加度よりもさらに高度な指標である。これらについては本出願人が既出願した国際特許出願（PCT/JP2013/007352）に記載の技術を用いて定量化することができる。具体的には、言語情報あるいは非言語情報から、心的状態を表す指標を生成することができる。

　たとえば、ある参加者の発言に対する関心度、同意度、共感度などは、相槌や頷きなどの動作から検出してもよく、音声データＳ_１や画像データＳ_２を利用して解析できる。

　一例として、発言者（話し手）と他の参加者（聞き手）の動きの同期の程度（シンクロ度）にもとづいて、共感度、関心度や同意度を数値化することができる。たとえば、発言者と他の参加者の頷き、身振り、手振り、姿勢、表情の同期の程度にもとづいて関心度、同意度、共感度を数値化してもよい。

　話し手と聞き手がいる場合に、両者の頷きを測定すると、共感的な状態では聞き手の方が話し手よりも少し先（数百ｍｓ）に頷く傾向があり、非共感的な状態では、聞き手が話し手に遅れて頷く傾向がある。したがって、一例として、頷きのタイミング（位相）の関係にもとづいて、共感度を検出できる。

　また対面コミュニケーションの２名の参加者の視線に着目すると、共感的でない状態と共感的な状態とでは、双方の視線運動に有意な差異が生ずることという知見が得られた（図９）。したがって、一実施例において、各参加者の視線運動にもとづいて、共感度を検出できる。

　心的状態を評価した場合、フィードバックとしては、以下のものが挙げられる。たとえば、発言者に対して、複数の参加者の心的状態の指標（関心度、同意度など）の数値を提示してもよい。発言者には、全員の平均値を提示してもよい。あるいは各個人の数値を、参加者と紐付けた形で提示してもよい。

　これにより、発言者は、提示された数値にもとづいて、参加者の関心度や共感度等を知ることができ、今後の発言やプレゼンテーションに反映させることができ、コミュニケーションの質の改善が図られる。

　フィードバックの態様は、数値の提示には限定されない。たとえばフィードバックには、視覚的な刺激を用いてもよい。視覚的な刺激は、共感度を色の種類や色の濃さで表したものでもよいし、光の点灯状態の変化（点灯、消灯、点滅の周期）で表してもよい。

　またフィードバックには、聴覚的な刺激を用いてもよい。聴覚的な刺激は、共感度を、音の高さや音の大きさで表したものでもよいし、周期的な音のリズムで表してもよい。あるいは共感度が高い状態では心地よい音楽や音を流し、共感度が低い状態では不快な音楽や音を流してもよい。

　またフィードバックには体性感覚的な刺激を用いてもよい。体性感覚的な刺激は、共感度を、振動の大きさあるいは強さで表したものであってもよいし、周期的な振動のリズムで表してもよい。

　フィードバック部４０は、参加者のこれまでの心的状態等を、フィードバックするために設けられるが、このフィードバック部４０を、参加者の将来の共感状態の改善に利用することができる。たとえば、複数の参加者の間で、身体運動を同調させると、共感度が改善することが分かっている。そこで、フィードバック部４０は、視覚的な刺激、聴覚的な刺激、体性感覚的な刺激のいずれかあるいはそれらの組み合わせによって、複数の参加者にリズムを提供してもよい。これにより、複数の参加者の同調状態を高めることができ、ひいては共感状態を高めることができる。

　ここで提供するリズムは、複数の参加者から抽出され、それらの多数の間で共有されるリズムとすることが望ましい。このリズムは、コミュニケーションの場において顕在化していることは希であり、人間がそれを知覚することは難しいが、コミュニケーション解析装置２によってそのようなリズムを抽出し、それを視覚的な刺激、聴覚的な刺激、体性感覚的な刺激として、明示的にあるいは強調して、参加者に提示することで、そのリズムを共有していない他の参加者が、提示されたリズムに同調し、ひいては同調状態を高めることが可能となる。

　一実施例において「複数の参加者に共有されるリズム」とは、複数の参加者が単に物理的に同調しているリズムであってもよい。別の実施例において、「複数の参加者に共有されるリズム」とは、単に複数の参加者が物理的に同調していることに留まらず、それに同調する参加者の心的状態が肯定的であるようなリズムをいう。

　多くの参加者が存在するコミュニケーションの場においては、参加者すべての組み合わせについて、１対１の同調度を評価してもよい。この評価により、同調度のマトリクスを生成することができる。そしてこのマトリクスから、高い同調度で結びつく複数の参加者のクラスター（グループ）を推定することができる。この場合において、このクラスターに含まれる参加者が同調する共通のリズムを抽出し、そのリズムを、このクラスターに含まれない参加者に提示してもよい。

　あるいは多くの参加者が存在するコミュニケーションの場においては、参加者すべての組み合わせについて、１対１の心的状態（共感度、一体感、合意度のいずれか、あるいはその組み合わせ）を評価してもよい。この評価により、心的状態のマトリクスを生成することができる。そして、このマトリクスから、肯定的な心的状態で結びつく複数の参加者のクラスター（グループ）を推定することができる。この場合において、このクラスターに含まれる参加者が同調する共通のリズムを抽出し、そのリズムを、このクラスターに含まれない参加者に提示してもよい。

　解析評価部３０は、参加者の喜怒哀楽などの情動を解析し、評価してもよい。

　コミュニケーション解析装置２は、複数の項目を評価してもよい。また、項目ごとにフィードバックを行ってもよい。

　以上がコミュニケーション解析装置２の基本構成である。

　本発明は、図１のブロック図として把握され、あるいは上述の説明から導かれるさまざまな装置、回路に及ぶものであり、特定の構成に限定されるものではない。以下、本発明の範囲を狭めるためではなく、発明の本質や回路動作の理解を助け、またそれらを明確化するために、より具体的な構成例や実施例を説明する。

　図２は、コミュニケーション解析装置２を構成する測定・フィードバック装置１００を示す図である。測定・フィードバック装置１００は、図１のマイク１０、カメラ２０、フィードバック部４０に加えて、インタフェースユニット５０、信号処理部６０をひとつの筐体にパッケージ化したデバイス（モジュール）である。測定・フィードバック装置１００はテーブルトップサイズであり、会議などのコミュニケーションに参加する複数の参加者の中央に置かれる。

　測定・フィードバック装置１００は、ドーム状の透明部分１０２を有する筐体１０４と、筐体１０４の下部に設けられたベース１０６を備える。ドーム状の部分１０２の内側には、カメラ２０が設けられる。カメラ２０は、全方位（全天球）カメラであり、測定・フィードバック装置１００を取り囲むすべての参加者の画像を撮影する。

　また筐体１０４には、放射状に配置された複数のマイク１０が設けられており、複数の参加者の発話を電気信号に変換する。

　信号処理部６０はたとえばマイコンやＣＰＵ（Central Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）などであり、測定・フィードバック装置１００を統合的に制御する。たとえば信号処理部６０は、マイク１０が取得したオーディオ信号をデジタル信号に変換し、必要に応じて圧縮する。また信号処理部６０は、カメラ２０が取得した画像データを必要に応じて圧縮する。

　インタフェースユニット５０は、有線あるいは無線で外部のコンピュータ２００と接続されている。コンピュータ２００は、図１の解析評価部３０に対応しており、デスクトップあるいはラップトップコンピュータであってもよいし、ネットワークサーバーやクラウドコンピュータであってもよい。

　インタフェースユニット５０は、ブルートゥース（登録商標）モジュールやＷＬＡＮモジュール、ＵＳＢモジュールであってもよい。インタフェースユニット５０は、外部のコンピュータ２００に音声データＳ_１および画像データＳ_２を送信する。

　測定・フィードバック装置１００には、図１のフィードバック部４０として、ひとつまたは複数のスピーカ４２と、ひとつまたは複数のインジケータランプ４４が設けられる。またフィードバック部４０は、振動モータなどの振動発生装置を備えてもよい。

　インタフェースユニット５０は、コンピュータ２００からコミュニケーションの評価結果にもとづくフィードバックデータＳ_３を受信する。信号処理部６０は、フィードバックデータＳ_３にもとづいて、スピーカ４２を駆動、制御し、フィードバックデータＳ_３に応じたビープ音や音声を出力させる。また信号処理部６０は、フィードバックデータＳ_３にもとづいて、インジケータランプ４４を駆動、制御する。

　好ましくは測定・フィードバック装置１００にはさらに、測定・フィードバック装置１００と各参加者との距離を測定する測距センサ７０が設けられる。測距センサ７０は、光学式（レーザ式）、超音波式などを用いることができる。測定された参加者と測定・フィードバック装置１００との間の距離情報Ｓ_４は、画像データＳ_２とともにインタフェースユニット５０からコンピュータ２００に送信される。後述するように距離情報Ｓ_４は、全方位カメラによって取得された画像の歪みを補正するために使用される。

　図１に示したコミュニケーション解析装置２の構成要素の内、解析評価部３０以外の部分を、ひとつの測定・フィードバック装置１００にパッケージ化あるいはモジュール化することにより、測定・フィードバック装置１００の可搬性、設置性が大幅に高まる。カメラ（あるいはマイク）を会議室に設備として固定的に設置すると、その会議室が使えない場合に、コミュニケーション解析装置２を利用できなくなる。測定・フィードバック装置１００を利用すれば、場所的制約、時間的制約が大幅に緩和されるため、コミュニケーション解析装置２の使用機会を増やすことができる。

　図３は、コミュニケーション解析装置２の具体的な機能ブロック図である。太枠は、ハードウェアに対応し、細枠は解析評価部３０に実装されるソフトウェアによる処理ブロックを示す。

　歪み補正部４００は、各参加者の画像データを抽出し、測距センサ７０が測定した各参加者までの距離情報にもとづいて、各参加者の画像データの歪みを補正する。歪みの補正された画像データは、後段の処理手段に提供される。

　表情認識部４０２は、各参加者の表情を認識する。顔認証部４０４は、各参加者の画像データから、個人を特定する。

　信号源分離部３００は、複数のマイク１０からの音声信号にブラインド音源分離を適用して各々の発話音声を抽出する。声紋認識部３０２は、マイクからの音声信号を、予め取得された各参加者の声紋と照合（パターンマッチング）し、参加者を識別する。

　音声認識部３０４は、音声から発話内容をテキスト情報等に変換する。

　参加者識別部５００は、顔認証部４０４による認証結果、声紋認識部３０２による識別結果、口唇の動き、発話者の位置推定結果から発話者を同定する。

　情動推定部５０２は、表情認識部４０２が認識した表情および音声認識部３０４による認識結果にもとづいて、各参加者の情動を推定する。

　骨格モデル推定部５０４は、骨格モデルにもとづいて、参加者の姿勢やしぐさを推定する。視線推定部５０６は、参加者がどの方向に視線を向けているかを推定する。

　コミュニケーション評価部５０８は、音声認識部３０４からの発話内容、情動推定部５０２からの情動情報、骨格モデル推定部５０４からの骨格情報（動き）、視線推定部５０６からの視線情報のいずれか、あるいは複数の組み合わせにもとづいて、コミュニケーションの評価指標（たとえば上述の参加度、関心度、心的状態）などを評価する。評価結果はフィードバック部４０に出力される。

　議事録生成部５１０は、音声認識部３０４からのテキスト情報と、参加者識別部５００が特定した参加者とに基づいて、どの参加者がいつ何を発言したかを記録した議事録を生成する。この議事録には、各発言や会話と対応付けて、時々刻々と変化するコミュニケーション評価部５０８による評価結果を記録することが望ましい。これにより、後から議事録を読み直す際に、どのような議題や発言に、各参加者の関心や注意が集まっていたのかを知ることができ、次のコミュニケーションの場に反映させることができる。

　以上、本発明について、実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。以下、こうした変形例について説明する。

（変形例１）
　実施の形態では、全方位型の単一のカメラで複数の参加者の映像を取得したがその限りではなく、複数のカメラを用いてもよい。この場合、測定・フィードバック装置１００には放射状に配置された複数のカメラが設けられ、カメラが取得した画像の歪みが小さい場合、測距センサは省略してもよい。

（変形例２）
　図２に示した測定・フィードバック装置１００の構成は一例であり、それに限定されない。たとえば複数のマイク１０、複数の測距センサ７０、複数のスピーカ４２や複数のインジケータランプ４４の配置は限定されない。また複数のマイク１０に換えて、ひとつあるいは複数の可変指向性のマイクを用いてもよい。

（変形例３）
　フィードバック部４０は、個々の参加者に取り付け可能なウェアラブルデバイスであってもよい。この場合、他の参加者に気づかれないように、特定の参加者にフィードバックを与えることができる。たとえば参加者に取り付け可能なデバイスとしては、振動によるフィードバックを与えるバイブレータや、音声によるフィードバックを与えるイヤホン、映像によるフィードバックを与えるヘッドマウントディスプレイなどが例示される。

（変形例４）
　また、コミュニケーション解析装置２のマイク１０、カメラ２０、フィードバック部４０は、ひとつの測定・フィードバック装置１００にモジュール化することが望ましいがその限りではない。たとえばフィードバック部４０として、ウェアラブルデバイスを用いる場合、マイク１０とカメラ２０のみを測定・フィードバック装置１００に実装してもよい。

（変形例５）
　またフィードバック部４０にウェアラブルデバイスを用いる場合、マイク１０をウェアラブルデバイスと一体化してもよい。この場合、音声の分離が容易となり、声紋判定も不要となる。

（変形例６）
　図４は、フィードバック部４０の別の一例を示す図である。フィードバック部４０は、ヒューマノイドロボットであり、身振りや手振りが可能に構成されている。ヒューマノイドロボットは、頷き運動（矢印i）や腕振り運動（矢印ii）が可能であってもよく、頷きや腕振り運動によって、参加者にリズムを提示してもよい。ヒューマノイドロボットが提示するリズムに参加者が同調することにより、共感度を改善することができる。ヒューマノイドロボットの頭部に、全方位カメラ２０を搭載してもよい。また、図２に示したインジケータランプ４４やスピーカ４２も適切な箇所に設けられる。

　さらにヒューマノイドロボットは、体もしくは顔の向きを変化させることができ（矢印iii）、発話者の方向に向くように制御されてもよい。また、ある参加者に警告を与える場合、その参加者の方を向くように制御されてもよい。

　フィードバック部４０を人型とすることで、図２のような無機的な外観とした場合よりも、よりコミュニケーションの質を高められることが期待される。

　フィードバック部４０を自走可能とし、共感度が低い参加者の前にフィードバック部４０を移動させ、その参加者にリズム等を提示するとよい。

（変形例７）
　複数の参加者の身体運動は、以下のように取得してもよい。カメラ２０によって撮像した画像フレームを、参加者４ごとの分割フレームに切り分ける。図５は、３６０度カメラによって撮影した１フレームの画像データを示す図である。分割フレームには、参加者４の頭から胸部が含まれることが望ましい。そして分割フレームの輝度値を積算し、得られる積算値の時間波形を取得する。時間波形は必要に応じてローパスフィルタによるフィルタリング処理を行うことが好ましい。カットオフ周波数は４Ｈｚ程度としてもよい。

　図６（ａ）は、２人の被験者について行った予備実験の結果を示す図である。図６（ａ）には、異なる条件で測定された、対応する２つの分割フレームの輝度積算値の時間波形が示される。被験者２名にはそれぞれ役割Ａと役割Ｂが割り振られ対面し、３６０度カメラを用いて意図的な身体運動を３つの条件毎に計測する。役割Ａは全ての計測において、１分間に４０回の間隔で１００回うなずく。役割Ｂは
　条件１：役割Ａと全て同じタイミングでうなずく。
　条件２：役割Ａのうなずきと同じタイミングで、２回に１回うなずく。
　条件３：一度もうなずかない。
という条件に従う。

　図６（ｂ）は、条件１～３ごとに、役割Ａと役割Ｂの輝度変化量の相関係数をＦｉｓｈｅｒのＺ変換を用い、さらにバートレット補正をかけることで得られたＺ値を示す。図６から、意図的にうなずいたときの動作が、輝度変化量の波形として現れている。このことから、３６０度カメラによる計測と提案手法による解析で、身体運動は十分に評価することができるということを示している。

（行動実験について）
　行動実験では、被験者ＡとサクラＢ（あるいはＣ）が机を挟んで向いあって座り、お互いの顔を見ながら自身の顔の前で手を叩く。実験条件、同期条件と非同期条件の２つあり、それぞれ、「ＡとＢ」のペア、「ＡとＣ」のペアで行われる。

　同期条件では、被験者ＡはサクラＢの顔を見ながら顔の前で手を１秒間に１回程度の頻度で叩く。この際、サクラＢは被験者Ａに合わせて手を叩く。非同期条件では、被験者ＡはサクラＣの顔を見ながら顔の前で手を１秒間に１回程度の頻度で叩く。この際、サクラＣは被験者に合わせないで手を叩く。

　実験後、被験者Ａに質問紙を配布し、サクラＢとＣに対する印象を回答させ、ＡがＢに対しては好感を持ち、Ｃ対しては嫌悪感を抱いているかどうかを確認した。図７（ａ）、（ｂ）は、同期条件、非同期条件における結果を示す図である。

　図７（ａ）に示すように同期条件では印象が改善する傾向が見られ、図７（ｂ）に示すように、非同期条件では印象に影響を与えない傾向が見られた。

　この行動実験は、上述したフィードバック部４０によるリズムの提示が、その提示を受けた参加者がそのリズムに同調し、その結果、当該参加者の共感度を高めたりしうることを裏付けるものである。

　＜頷きについての実験＞
　頷きと共感度の関係について発明者らが行った実験について説明する。図８（ａ）～（ｃ）は、対面コミュニケーションにおける、共感度と身体運動の関係を示す図である。身体運動は、加速度センサによって測定したものである。図８（ａ）は共感的でない状態を、図８（ｂ）は共感的な状態を示す。図８（ａ）～（ｃ）に示す身体運動には、頷き運動の他、笑いなどが含まれるが、それらは振動数にもとづいて区別することができる。この例では、１～４Ｈｚの成分は頷き、４Ｈｚ以上の成分は笑いを表している。

　縦軸は２人の身体運動の位相差を表しており、負の位相は、話し手の位相が進んだ状態を、正の位相は、聞き手の位相が進んだ状態を意味する。横軸には頷き運動の振動数をとっている。図８（ｃ）は、図８（ａ）と図８（ｂ）の差分をプロットしたものである。図８（ｃ）において、頷き運動を表す２～４Ｈｚに着目すると、位相が正の領域の領域において差分が大きくなっている。すなわち、２人が共感的な状態となると、２人の頷き運動が同調し、さらに聞き手の方の位相が、話しての位相よりも進むことが分かる。

　この知見にもとづいて、２人の、あるいはより多くの対面コミュニケーションにおける共感状態を、身体運動（それに含まれる頷き運動）にもとづいて評価し、数値化し、あるいは可視化することができる。

　＜視線についての実験＞
　視線と共感度の関係について発明者らが行った実験について説明する。図９（ａ）、（ｂ）は、対面コミュニケーションにおける、共感度と視線運動の関係を示す図である。図９（ａ）は、共感的でない状態と共感的な状態における相互凝視の発生を示す波形図である。図９（ｂ）は、共感的でない状態と共感的な状態における相互凝視の割合を示す。この実験から、共感状態と相互凝視が相関を有することが示唆される。この知見にもとづいて、２人の、あるいはより多くの対面コミュニケーションにおける共感状態を、視線運動にもとづいて評価し、数値化し、あるいは可視化することができる。

　＜ロボットを用いた共感度の改善の実験＞
　図１０は、ロボットを用いた実験の様子を示す図である。被験者とロボットが対面し、被験者はロボットに対して話しかける。ロボットは、(i）全く動かない状態（応答なしモード）と、(ii)被験者に同調して動く（頷く）状態（相互作用モード）が切替可能である。２つの状態は各５分であり、それらの間には５分のインターバルを挟んだ。この実験は日本語を母国語とする５人の参加者を被験者として行った。ロボットの運動は、被験者の運動に同調するように、周波数と位相がフィードバックにより制御される。

　図１１（ａ）、（ｂ）は、図１０の実験結果を示す図である。図１１（ａ）はアンケートの集計結果を示す。５人の参加者に、自然さ（Naturalness）と合意形成（Consensus Building）の２項目について回答を得た。自然さに関して、相互作用モードでは、３名の参加者が、「いくぶん自然（Somewhat Nuaural）」と回答し、２名の参加者が、「いくぶん不自然（Somewhat Unnuaural）」と回答した。応答なしモードでは、２名の参加者が、「いくぶん不自然（Somewhat Unnuaural）」と回答し、３名の回答者が「不自然（Unnuaural）」と回答した。合意形成に関して、相互作用モードでは、３名の参加者が、「いくぶん合意的(Somewhat Consensual)」と回答し、２名の参加者が、「いくぶん非合意的（Somewhat Not Consensual）」と回答した。応答なしモードでは、１名の参加者が、「いくぶん非合意的」と回答し、３名の回答者が「非合意的」と回答した。

　図１１（ｂ）は、２つのモードで、Naturalnessと合意形成の２項目それぞれについて重み付け平均値をスコアリングしたものである。「自然」、「いくぶん自然」、「いくぶん不自然」、「不自然」の重み付けの係数は、順に４，３，２，１である。同様に「合意的」、「いくぶん合意的」、「いくぶん非合意的」、「非合意的」の重み付け係数は順に４，３，２，１である。ロボットからの反応が返ってくる相互作用モードでは、応答なしモードに比べて、高いスコアが得られている。この実験から、対面コミュニケーションの場に、ヒューマノイドロボットを導入することにより、参加者の共感度の改善に役立つことがわかる。

（補遺）
　コミュニケーションは人々が社会生活を営む上で必須な要素の一つである。近年、ウェアラブルデバイス製造技術や人工知能技術、IoT技術等の進展により、人間のコミュニケーションに対する支援技術への関心が高まりつつある[1,2,3]。

　人間のコミュニケーションは大きく分けて二つのチャネルを用いて行われることが知られている。それは顕在的なチャネルと潜在的なチャネルである[4]。顕在的なチャネルを介したコミュニケーションは主として言語であり、その特徴については多方面から研究されている。例えば、脳の作動記憶のモデルを利用すると言語的複雑さによって文章理解に制限が生じること[5]、言語的特徴から感情の推定を行う方法が提案されていること[6]等である。

　一方、潜在的なチャネルを介したコミュニケーションは顕在的なチャネルを介したコミュニケーションの基盤となるものである。例えば姿勢、頷き、顔の表情、視線、周辺言語、相手との物理的な距離のとり方、人工物などが挙げられる[7]。これらの非言語的な行動は、人間同士の対面コミュニケーションでは65%ほど寄与するとも言われている[8]。非言語的行動は無意識に現れ、感情や情動といった内的状態と関係があると言われている[9,10]。例えば、恐怖感と周辺言語、脳の左前頭野との関連性[11]や、痛覚の共感能力と脳活動との関連性が報告されている [12]。

　非言語コミュニケーションの特徴として、人間同士の様々な社会的コミュニケーションの際に、身体動作や周辺言語が同調するという現象が報告されている。例えば、母親と幼児[13,14]、内科医と患者[15]、教師と生徒[16,17]、心理カウンセラーとクライアント[18]などである。

　このような同調現象は、心理作用にも関連性がある事が近年示唆されている。例えば、身体同調と心理カウンセリングの満足度に関する報告や[19,20]、経済ゲームの参加者同士の協調性と共感に関する脳の反応に関する報告[21]、チーム内の雰囲気や協調性が生産性へ関連するという報告[22]がある。

　一方で、同調現象の脳神経科学的裏付けも明らかとなりつつある。例えば、対面コミュニケーション中の参与者の脳活動が同調すること[23]や、身体運動の同調と脳活動の同調の関連性が報告されている[24]。このように、様々な社会的文脈や環境で言語・非言語コミュニケーションが交わされる中では、コミュニケーション参与者の状況や意図、伝達内容がお互いに理解され、共感しあうことと、同調現象が生じることには、なにがしかの関係性が存在すると推察される。

　その中で、通信デバイスを用いた遠隔コミュニケーションでは身体同調の仕方が対面コミュニケーションの時と変化することや[25]、身体同調の種類とタイミングの研究[26]、映像解析を用いて被験者の運動エネルギーを解析する事で身体同調の程度を探ろうとする研究[27]など、より多面的な身体同調現象の観測が少しずつ進んできている。

[文献リスト]
1. the World Economic Forum's Meta-Council on Emerging Technologies, "Top 10 Emerging Technologies of 2016", World Economic Forum, 2016; 13 p.
2. D. Lazer, Alex (Sandy) Pentland, "Life in the network: the coming age of computational social" Science 2009; 323(5915):721-723.
3. A. Barrat, C. Cattuto, "Measuring contact patterns with wearable sensors: methods, data characteristics and applications to data-driven simulations of infectious diseases", Clinical Microbiology and Infection, 2014: 20: 10-16.
4. Tickle-Degnen L, Rosenthal R, "The nature of rapport and its nonverbal correlates" Psychol Inq. 1990;1: 285-293.
5. R. L. Lewis, S. Vasishth, "Computational principles of working memory in sentence comprehension, "Trends in Cognitive Sciences, 2006; 10(10): 447-454.
6. S. Wu, T. H. Falk "Automatic speech emotion recognition using modulation spectral features", Speech Communication, 2011; 53: 768-785.
7. M. Vargus, "Louder than Words - An Introduction to Nonverbal Communication-", Iowa state University Press, 1987; 32 p.
8. R.L. Birdwhistell, "Kinesics and context: Essays on body motion communication", University of Pennsylvania Press 1970; 86-87 p.
9. V.P. Richmond et al., "Nonverbal Behavior in Interpersonal Relations", Allyn and Bacon, Boston: Pearson Education, 2008; 366 p.
10. J.L. Lakin, "Automatic Cognitive Progress and Nonverbal Communication", The SAGE Handbook of Nonverbal Communication,　2006, 59-77.
11. J.S. Morris, S.K. Scott, R.J. Dolan "Saying it with feeling: neural responses to emotional vocalizations", Neuro psychologia 1999; 37, 1155-1163.
12. P. L. Jackson, A. N. Meltzoff, J. Decety "How do we perceive the pain of others? A window into the neural processes involved in empathy", NeuroImage, 2005, 24,771-779.
13. Meltzoff, Moore MK., "Newborn infants imitate adult facial gestures", Child Dev. 1983; 54: 702-709.
14. Bernieri FJ, Reznick S, Rosenthal R. "Synchrony, pseudosynchrony, and dissynchrony: measuring the entrain ment process in mother-infant interaction", Journal of Personality and Social Psychology, 1988; 54: 243-253.
15. Koss T, Rosenthal R, "Interactional synchrony, positivity and patient satisfaction in the physician-patient relationship", Med Care, 1997; 35: 1158-1163.
16. Bernieri FJ, "Coorinated movement and rapport in teacher-student interactions", J Nonverbal Behav, 1988; 12: 120-138.
17. Lafrance M, Broadbent M. "Group Rapport: posture sharing as a nonverbal indicator", Group Organization Studies, 1988; 1: 328-333.
18. Ramseyer F, Tschacher W., "Synchrony: a core concept for a constructivist approach to psychotherapy. Constructivism in the Human Sciences", Constructivism in the Human Sciences, 2006; 11: 150-171.
19. Ramsyer F, Tschacher W., "Nonverbal synchrony of head- and body-movement in psychotherapy: different signals have different associations with outcome" Front Psychol , 2014; 5: 1-9.
20. Komori M, Nagaoka C. "The relationship between body movements of clients and counsellors in psychotherapeutic counselling: a study using the video-based quantification method", Jap J of Cog Psychol. 2010; 8: 1-9.
21. Tania Singer, "Empathic neural responses are modulated by the perceived fairness of others", Nature 2006; 439(26): 466-469.
22. Barsade, SG "The ripple effect: Emotional contagion and its influence on group behavior", Administrative Science Quality, 2002; 47: 644-675.
23. G. J. Stephen, "Speaker-listener neural coupling underlies successful communication", PNAS, 2010; 107(32): 14425-14430.
24. K. Yun, "Interpersonal body and neural synchronization as a marker of implicit social interaction", Scientific Reports 2012; 2: 959.
25. J. Kwon, "Detection of Nonverbal Synchronization through Phase Difference in Human Communication", PLos One, 2015; 10; 1371.
26. M. M. Louwerse, "Behavior Matching in Multimodal Communication Is Synchronized", Cognitive Science, 2012;36: 1404-1426.
27. Y. Hart, "Automated Video Analysis of Non-Verbal Communication in a Medical Setting", frontiers in Psychology, 2016;7: 1130.

　実施の形態にもとづき、具体的な語句を用いて本発明を説明したが、実施の形態は、本発明の原理、応用を示しているにすぎず、実施の形態には、請求の範囲に規定された本発明の思想を逸脱しない範囲において、多くの変形例や配置の変更が認められる。

２…コミュニケーション解析装置、４…参加者、１０…マイク、２０…カメラ、３０…解析評価部、４０…フィードバック部、４２…スピーカ、４４…インジケータランプ、５０…インタフェースユニット、６０…信号処理部、７０…測距センサ、１００…測定・フィードバック装置、１０２…ドーム状の部分、１０４…筐体、１０６…ベース、３００…信号源分離部、３０２…声紋認識部、３０４…音声認識部、４００…歪み補正部、４０２…表情認識部、４０４…顔認証部、５００…参加者識別部、５０２…情動推定部、５０４…骨格モデル推定部、５０６…視線推定部、５０８…コミュニケーション評価部、５１０…議事録生成部。

　本発明は、コミュニケーションを解析する技術に関する。

Claims

　複数の参加者によるコミュニケーションを解析するコミュニケーション解析装置であって、
　複数の参加者の発声を音声データとして取得するマイクと、
　複数の参加者の画像データを取得するカメラと、
　前記音声データおよび前記画像データにもとづき、コミュニケーションを評価する解析評価部と、
　前記解析評価部による評価結果またはそれにもとづくフィードバックを前記複数の参加者にリアルタイムで提供するフィードバック部と、
　を備えることを特徴とするコミュニケーション解析装置。
　前記フィードバック部は、前記複数の参加者で共有されるリズムを提示することを特徴とする請求項１に記載のコミュニケーション解析装置。
　前記フィードバック部はロボット型であり、頷き、身振りもしくは手振りの少なくともひとつにより、リズムを提示することを特徴とする請求項２に記載のコミュニケーション解析装置。
　前記フィードバック部は、前記解析評価部により参加度が低いとされる参加者に対して、前記リズムを提示することを特徴とする請求項２または３に記載のコミュニケーション解析装置。
　前記フィードバック部は、前記解析評価部による心的状態の評価結果にもとづいて選択される参加者に対して前記リズムを提示することを特徴とする請求項２または３に記載のコミュニケーション解析装置。
　前記解析評価部は、前記複数の参加者間の同調状態を評価することを特徴とする請求項１から５のいずれかに記載のコミュニケーション解析装置。
　前記フィードバック部は、前記解析評価部による評価結果を可視化して提示することを特徴とする請求項１から６のいずれかに記載のコミュニケーション解析装置。
　前記解析評価部は、前記複数の参加者それぞれの体の動きを監視することを特徴とする請求項１から７のいずれかに記載のコミュニケーション解析装置。
　前記解析評価部は、前記複数の参加者それぞれの顔の状態を監視することを特徴とする請求項１から８のいずれかに記載のコミュニケーション解析装置。
　複数の参加者によるコミュニケーションの場に設置される測定・フィードバック装置であって、
　複数の参加者の発声を音声データとして取得するマイクと、
　複数の参加者の画像データを取得するカメラと、
　外部のコンピュータに前記音声データおよび前記画像データを送信するとともに、前記コンピュータからコミュニケーションの評価結果にもとづくフィードバックデータを受信するインタフェース部と、
　前記フィードバックデータにもとづく情報あるいは刺激を複数の参加者にリアルタイムで提示するフィードバック部と、
　を備えることを特徴とする測定・フィードバック装置。
　前記フィードバック部は、前記複数の参加者で共有されるリズムを提示することを特徴とする請求項１０に記載の測定・フィードバック装置。
　前記フィードバック部はロボット型であり、頷き、身振りもしくは手振りの少なくともひとつにより、前記リズムを提示することを特徴とする請求項１１に記載の測定・フィードバック装置。
　前記フィードバック部は、前記コンピュータにより参加度が低いとされる参加者に対して、前記リズムを提示することを特徴とする請求項１１または１２に記載の測定・フィードバック装置。
　前記フィードバック部は、前記コンピュータによる心的状態の評価結果にもとづいて選択される参加者に対して前記リズムを提示することを特徴とする請求項１１または１２に記載の測定・フィードバック装置。
　前記カメラは全方位カメラであることを特徴とする請求項１０から１４のいずれかに記載の測定・フィードバック装置。
　前記測定・フィードバック装置は、前記複数の参加者までの距離を測定する測距センサをさらに備えることを特徴とする請求項１５に記載の測定・フィードバック装置。
　複数の参加者によるコミュニケーションの場に設置されるインタラクション装置であって、
　複数の参加者の音声データおよび／または画像データを取得する入力装置と、
　前記入力装置が測定した音声データおよび／または画像データにもとづき、前記複数の参加者で共有されるリズムを抽出する解析評価部と、
　前記リズムを前記複数の参加者の少なくともひとりにリアルタイムで提示するフィードバック部と、
　を備えることを特徴とするインタラクション装置。