WO2024089887A1

WO2024089887A1 - 情報提示装置、情報提示方法及び情報提示プログラム

Info

Publication number: WO2024089887A1
Application number: PCT/JP2022/040456
Authority: WO
Inventors: 聡一郎内田; 充裕後藤
Original assignee: 日本電信電話株式会社
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2024-05-02

Abstract

この発明の一態様の情報提示装置は、ネットワークを介してオンラインコミュニケーションに参加する複数の参加者端末の内の１以上の第１の参加者端末からそれぞれ取得した複数の音声情報を、複数の参加者端末の内の第２の参加者端末に前記ネットワークを介して提示する情報提示装置であって、音源位置規定部と、音声提示部と、を備える。音源位置規定部は、１以上の第１の参加者端末を使用する１以上の対話相手それぞれに対して設定された、第２の参加者端末を使用する対象者から見た対話相手それぞれについての心理的な距離を表す心理的距離情報に基づいて、対話相手それぞれの音源位置を規定する。音声提示部は、１以上の対話相手それぞれの音源位置に基づいて、１以上の第１の参加者端末からの音声情報を音像定位させた音場情報を生成して、第２の参加者端末に送信する。

Description

情報提示装置、情報提示方法及び情報提示プログラム

　この発明の一態様は、情報提示装置、情報提示方法及び情報提示プログラムに関する。

　現状のオンラインコミュニケーションは、映像及び音声を用いたビデオ通話が主流である。但し、会議、商談、展示会等のビジネスユースでは、資料（スライド）を閲覧しながら対話するケースも多く有り、その場合、映像を表示せずに音声のみで対話が進行することも有る。

　対面でのコミュニケーションでは、そのコミュニケーションに参加するそれぞれの参加者は、その他の参加者である対話相手それぞれとの関係性に応じて、各対話相手と一定の距離を保ちながら、各対話相手と対話することが一般的である。この距離は、パーソナルスペースやＦ陣形と呼ばれ、快適な対話を実現する上で重要な要素である。例えば、高圧的な上司から距離を取り、協力的な同僚の近くに立ち位置を移すことで、対話時の不快感をある程度軽減することができる。

　これに対して、オンラインコミュニケーションにおける対話では、１つの画面とスピーカに、全対話相手の映像及び音声が集約されてしまう。

　そのため、聞く側が各対話相手の見え方（顔の大きさや位置等）や聞こえ方（音量や方向等）を個別に調節することが難しい。その結果、各対話相手の見え方や聞こえ方を調節できず、心理的に抵抗が有る対話相手との対話を、その不快感を軽減できぬまま強いられる状況に陥り易い。

　反対に、話す側の視点に立っても、聞く側の視聴環境を認識できず、自身の適切な見え方や聞こえ方を把握し難い。その結果、意図せずに聞く側に高圧的な態度と捉えられ、不必要に不快感を与えてしまう危険性も有る。

　以上を踏まえ、オンラインコミュニケーションでは、参加者それぞれについて、当該参加者とは別の１以上の参加者（各対話相手）との関係性に基づいて、各対話相手に対する適切な距離感を与えることが必要になる。

　そこで、参加者と各対話相手との距離を表現する取り組みが、研究・実用サービスの両面で行われている。

　例えば、前述した通り、ビジネスユースでは映像の表示優先度が下がるため、特に音声による距離感の表現手法に着目することができる。

　従来、例えば、Ａｐｐｌｅ社のＦａｃｅＴｉｍｅ（登録商標）では、立体音響技術による空間的な音像を形成し、画面上で対話相手の映った位置から音声が聞こえてくるような、臨場感を高める機能が実装されている。しかしながら、この機能は、映像と音声との整合性を取る、いわゆる現実再現の文脈に留まっており、参加者の不快感を軽減するという観点で、再生される音声の音量や方向が適切かは明確でない。

　また、非特許文献１は、同じく立体音響技術で、各参加者の音源位置を意図的に離し、聞き取り易さを高める技術を提案している。しかしながら、これは、各参加者の音源を機械的なルールに則って均等に離すだけであり、参加者間の関係性は考慮されていない。即ち、参加者が他の参加者に抱く不快感を軽減するという観点では、特に検討がなされていない。

M. Wong.、R. Duraiswami、「SharedSpace: Spatial Audio and Video Layouts for Videoconferencing in a Virtual Room」、2021 Immersive and 3D Audio: from Architecture to Automotive (I3DA)、2021年9月、DOI: 10.1109/I3DA48870.2021.9610974

　この発明は上記事情に着目してなされたもので、対象者である参加者と対象者の各対話相手となる他の参加者それぞれとの関係性に基づいて、対象者に適切な距離感を与え得る情報提示技術を提供しようとするものである。

　上記課題を解決するためにこの発明の一態様の情報提示装置は、ネットワークを介してオンラインコミュニケーションに参加する複数の参加者端末の内の１以上の第１の参加者端末からそれぞれ取得した複数の音声情報を、複数の参加者端末の内の第２の参加者端末に前記ネットワークを介して提示する情報提示装置であって、音源位置規定部と、音声提示部と、を備える。音源位置規定部は、１以上の第１の参加者端末を使用する１以上の対話相手それぞれに対して設定された、第２の参加者端末を使用する対象者から見た対話相手それぞれについての心理的な距離を表す心理的距離情報に基づいて、対話相手それぞれの音源位置を規定する。音声提示部は、１以上の対話相手それぞれの音源位置に基づいて、１以上の第１の参加者端末からの音声情報を音像定位させた音場情報を生成して、第２の参加者端末に送信する。

　すなわちこの発明の一態様によれば、対象者と各対話相手との関係性に基づいて、対象者に適切な距離感を与え得る情報提示技術を提供することができる。

図１は、この発明の第１実施形態における情報提示システムの構成の一例を示す図である。図２は、この発明の情報提示装置の第１実施形態としてのコミュニケーションサーバのハードウェア構成の一例を示すブロック図である。図３は、コミュニケーションサーバのソフトウェア構成の一例を示すブロック図である。図４は、コミュニケーションサーバの参加者情報データベースの記憶内容の一例を示す図である。図５は、コミュニケーションサーバの制御部が実行する準備処理の処理手順と処理内容の一例を示すフローチャートである。図６は、各対話相手との立場の差の一例を示す模式図である。図７は、各対話相手との親密度の一例を示す模式図である。図８は、立場の差及び親密度に応じた音源位置を規定する音源座標系を示す図である。図９は、立場の差に応じた各対話相手の音源位置を表す模式図である。図１０は、親密度に応じた各対話相手の音源位置を表す模式図である。図１１は、立場の差及び親密度が同位の複数対話相手の音源位置を表す模式図である。図１２は、コミュニケーションサーバの制御部が実行する対話処理の処理手順と処理内容の一例を示すフローチャートである。図１３は、対象者となる参加者の参加者端末の表示画面の一例を示す模式図である。図１４は、この発明の情報提示装置の第２実施形態としてのコミュニケーションサーバのソフトウェア構成の一例を示すブロック図である。図１５は、第２実施形態におけるコミュニケーションサーバの制御部が実行する対話処理の処理手順と処理内容の一例を示すフローチャートである。図１６Ａは、各対話相手の入力映像における各対話相手の顔エリアの一例を示す模式図である。図１６Ｂは、平準化した各対話相手の平準化映像の一例を示す模式図である。

　以下、図面を参照してこの発明に係わる実施形態を説明する。

　［第１実施形態］
　（構成例）
　（１）システム
　図１は、この発明の第１実施形態における情報提示システムの構成の一例を示す図である。

　本実施形態の情報提示システムは、その主体的な構成要素として、この発明の情報提示装置の第１実施形態としてのコミュニケーションサーバＣＳを備える。情報提示システムは、このコミュニケーションサーバＣＳと、多人数でのオンラインコミュニケーションに参加する複数の参加者が使用する複数の参加者端末ＰＴとの間で、ネットワークＮＷを介して情報データの伝送を行えるようにしたものである。情報提示システムは、参加者毎に、当該参加者を対象者、他の参加者を当該対象者の対話相手として、コミュニケーションサーバＣＳにより、対話相手の参加者端末ＰＴで取得した情報を対象者の参加者端末ＰＴに提示させる。即ち、コミュニケーションサーバＣＳは、参加者端末ＰＴのそれぞれを、対象者の参加者端末ＰＴとして扱うと共に対話相手の参加者端末ＰＴとしても扱う。

　ネットワークＮＷは、インターネットである。勿論、ネットワークＮＷは、ＬＡＮ（Local Area Network）等、上記情報データの伝送が可能なものであれば、どのようなネットワークであっても良い。

　多人数でのオンラインコミュニケーションは、音声を伴うオンラインコミュニケーション全般を想定する。心理的な距離が異なる対話相手が参加する機会が多いことを理由に、基本的には、会議、商談、展示会、等のビジネスシーンでの適用を想定する。勿論、家族や友人等のプライベートな繋がりの会話においても適用が可能である。

　（２）装置
　（２－１）参加者端末ＰＴ
　参加者端末ＰＴは、ＰＣ（Personal Computer）、スマートフォン、グラス型デバイス、等の音声と映像を出力でき、インターネット等のネットワークＮＷを経由して他者と遠隔で会話できるものであれば制限しない。

　（２－２）コミュニケーションサーバＣＳ
　図２及び図３は、コミュニケーションサーバＣＳのハードウェア構成及びソフトウェア構成の一例を示すブロック図である。

　コミュニケーションサーバＣＳは、例えば、ウェブ上又はクラウド上に設置されるサーバコンピュータからなる。なお、コミュニケーションサーバＣＳは、複数の参加者端末ＰＴの一つであるＰＣが兼用されても良い。

　コミュニケーションサーバＣＳは、制御部１を備え、この制御部１に対し、プログラム記憶部２及びデータ記憶部３を有する記憶ユニットと、通信インタフェース部４とを、バス５を介して接続したものとなっている。なお、図２及び図３では、インタフェースをＩ／Ｆと記している。

　制御部１は、ＣＰＵ（Central Processing Unit）等のハードウェアプロセッサである。例えばＣＰＵは、マルチコア及びマルチスレッドのものを用いることで、同時に複数の情報処理を実行することができる。制御部１は、複数のハードウェアプロセッサを備えていても良い。

　通信インタフェース部４は、制御部１の制御の下、各参加者端末ＰＴとの間でそれぞれ情報データの送受信を行う。

　プログラム記憶部２は、例えば、記憶媒体としてＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等の随時書込み及び読み出しが可能な不揮発性メモリと、ＲＯＭ（Read Only Memory）等の不揮発性メモリとを組み合わせて構成したものである。プログラム記憶部２は、ＯＳ（Operating System）等のミドルウェアに加えて、第１実施形態の情報提示に必要な上記各情報の入力及びその登録要求を送信するために必要なアプリケーション・プログラムを格納する。なお、以後、ＯＳと各アプリケーション・プログラムとをまとめてプログラムと称する。

　データ記憶部３は、例えば、記憶媒体として、ＨＤＤやＳＳＤ等の随時書込み及び読み出しが可能な不揮発性メモリと、ＲＡＭ（Random Access Memory）等の揮発性メモリと組み合わせたものである。データ記憶部３は、その記憶領域に、この発明の第１実施形態を実施するために必要な主たる記憶部として、会議情報データベース３１と、参加者情報データベース３２と、音場情報データベース３３と、を備える。なお、図３では、データベースをＤＢと記している。

　会議情報データベース３１は、多人数でのオンラインコミュニケーションそれぞれについての情報である会議情報として、オンラインコミュニケーションを区別するための会議ＩＤに対応付けて、開催日時や参加する参加者のユーザ情報を記憶する。ユーザ情報は、ユーザＩＤ、パスワード等のログイン情報、氏名、等を含む。会議情報は、オンラインコミュニケーションの開催者となる参加者が使用する参加者端末ＰＴから設定することができる。

　参加者情報データベース３２は、各オンラインコミュニケーションに参加する参加者が自身の参加者端末ＰＴから設定した、他の参加者である対話相手それぞれについての参加者情報を記憶する。参加者情報は、例えば、当該対話相手との立場の差や親密度を示す情報を含む。

　音場情報データベース３３は、オンラインコミュニケーションに参加する参加者の参加者端末ＰＴそれぞれから取得した音声情報を、対象者毎に、当該対象者の対話相手それぞれについての音場情報に基づいて定位させた音場情報を記憶する。音場情報は、音声情報を立体音響技術による空間的な音像として出力するための情報である。更に、音場情報データベース３３は、同じく参加者端末ＰＴそれぞれから取得した映像情報に対して、対象者毎に、音場情報に基づく表示位置及び表示サイズを調整した表示画面の映像情報を記憶する。

　また、制御部１は、第１実施形態を実施するために必要な処理機能部として、会議情報登録部１１、心理的距離段階設定部１２、心理的距離設定部１３、音源位置規定部１４、入力情報取得部１５、音場位置反映部１６、音声出力部１７及び映像出力部１８を備える。これらの処理機能部は、何れも、プログラム記憶部２に格納されたアプリケーション・プログラムを制御部１のハードウェアプロセッサに実行させることにより実現される。

　なお、処理機能部の内の少なくとも一つの、少なくとも一部の処理機能については、アプリケーション・プログラムと制御部１のハードウェアプロセッサにより実現する代わりに、ＡＳＩＣ（Application Specific Integrated Circuit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（field-programmable gate array）、ＧＰＵ（Graphics Processing Unit）、等の集積回路により実現するようにしても良い。

　会議情報登録部１１は、通信インタフェース部４によりネットワークＮＷを介してオンラインコミュニケーションの開催者となる参加者の参加者端末ＰＴと通信して、当該参加者端末ＰＴから会議情報を受け付け、その会議情報に一意の会議ＩＤを割り当てて、会議情報データベース３１に記憶させる。

　心理的距離段階設定部１２は、通信インタフェース部４によりネットワークＮＷを介して、会議情報データベース３１に記憶されたオンラインコミュニケーションに参加する参加者の各参加者端末ＰＴと通信して、その参加者端末ＰＴに会議情報の内容を提示する。各参加者端末ＰＴの参加者は、提示されたオンラインコミュニケーションにおける自身から見た対話相手の人数等に応じて、立場の差及び親密度における取り得る段階を、心理的距離段階として設定する。心理的距離段階設定部１２は、通信インタフェース部４によりネットワークＮＷを介して、参加者端末ＰＴから設定された心理的距離段階を受け付け、それを心理的距離設定部１３に伝達する。

　心理的距離設定部１３は、通信インタフェース部４によりネットワークＮＷを介して、会議情報データベース３１に記憶されたオンラインコミュニケーションに参加する参加者の各参加者端末ＰＴと通信して、参加者端末ＰＴから他の参加者である各対話相手についての、心理的距離段階で示される心理的距離の設定を受け付ける。心理的距離設定部１３は、その設定された心理的距離の情報を参加者情報データベース３２に記憶させる。

　心理的距離を構成する要素として、本実施形態では、具体的には、立場の差と親密度との２つを想定する。

　立場の差とは、任意の対話における各参加者の客観的な役割と、それに基づく上下関係を示す。例えば、立場の差は、会社内での上司と部下、大学研究室での教授と学生、カスタマーサポートでの客とスタッフ、等である。

　親密度とは、参加者が他の各参加者に抱く好意の度合いを示す。例えば、親密度は、会社における仲の良い先輩（親密度高）と疎遠な後輩（親密度低）、等である。

　音源位置規定部１４は、参加者情報データベース３２に記憶された各参加者について、当該参加者における各対話相手の心理的距離情報に基づいて、対象者を基準とした、対話相手である他の参加者の音源位置を確定する。音源位置規定部１４は、確定した対話相手それぞれについての音源位置の情報を参加者情報データベース３２に記憶させる。この音源位置の確定手法については、動作の説明において、詳細に説明する。

　図４は、参加者情報データベース３２の記憶内容の一例を示す図である。参加者情報データベース３２は、対象者（ｎ）である参加者から見た対話相手（ａ，ｂ，ｃ，…）である他参加者の音源位置を規定するための心理的距離情報を持つ。具体的には、参加者情報データベース３２は、対象者のユーザＩＤを参加者ＩＤ、各対話相手のユーザＩＤを他参加者ＩＤとして、それらに対応付けて、心理的距離設定部１３により設定された各対話相手についての心理的距離情報、つまり、立場の差の段階を表す値である立場情報と、親密度の段階を表す値である親密度情報と、を保持する。更に、参加者情報データベース３２は、心理的距離情報に加えて、音源位置規定部１４により確定された音源位置を示す他参加者の音源座標の値を保持する。

　なお、会議情報登録部１１、心理的距離段階設定部１２、心理的距離設定部１３及び音源位置規定部１４は、基本的には、オンラインコミュニケーションの開催前の任意の時点において動作する。しかしながら、オンラインコミュニケーションの開催中に、対話内容により親密度が変わる可能性が存在する。よって、会議情報登録部１１を除く各処理機能部、つまり、心理的距離段階設定部１２、心理的距離設定部１３及び音源位置規定部１４は、オンラインコミュニケーションの開催中にも動作して良い。

　参加者情報データベース３２は、この対話内容により親密度が変わる可能性を踏まえ、オンラインコミュニケーション毎に親密度の値を変更できるようにするべく、オンラインコミュニケーションを区別するための会議ＩＤも合わせて保持することができる。

　入力情報取得部１５、音場位置反映部１６、音声出力部１７及び映像出力部１８は、オンラインコミュニケーションの開催中に動作する。

　入力情報取得部１５は、通信インタフェース部４によりネットワークＮＷを介して、会議情報データベース３１に記憶されたオンラインコミュニケーションに参加している参加者の参加者端末ＰＴと通信し、それら参加者端末ＰＴのそれぞれから音声情報及び映像情報を取得する。入力情報取得部１５は、取得した音声情報及び映像情報を音場位置反映部１６に伝達する。

　音場位置反映部１６は、会議情報データベース３１に記憶されたオンラインコミュニケーションに参加している参加者毎に、当該参加者を対象者として、参加者情報データベース３２に記憶された対象者に対する各対話相手の音源座標の値に基づいて、各対話相手用の音場情報を生成する。そして、音場位置反映部１６は、この生成した対象者毎の各対話相手用の音場情報に、各対話相手の音声情報を適用する。即ち、音場位置反映部１６は、各対話相手の音声情報を音像定位させた音場情報を生成する。この音像定位させた音場情報は、各対象者の心理的距離情報に基づいて生成した音場に則り各対話相手の音声を立体音響で再生するための音声情報である。音場位置反映部１６は、この生成した対象者毎の音像定位させた音場情報を音場情報データベース３３に記憶させる。

　また、音場位置反映部１６は、生成した対象者毎の各対話相手用の音場情報に基づいて、対象者毎に、各対話相手の映像情報の表示位置及び表示サイズを調整した表示画面の情報である表示映像情報を生成して、音場情報データベース３３に記憶させる。

　音声出力部１７は、会議情報データベース３１に記憶されたオンラインコミュニケーションに参加している各参加者毎に、音場情報データベース３３に記憶されている当該参加者に対応する音像定位させた音場情報を、通信インタフェース部４によりネットワークＮＷを介して、当該参加者の参加者端末ＰＴへ送信する。

　映像出力部１８は、会議情報データベース３１に記憶されたオンラインコミュニケーションに参加している各参加者毎に、音場情報データベース３３に記憶されている当該参加者に対応する表示映像情報を、通信インタフェース部４によりネットワークＮＷを介して、当該参加者の参加者端末ＰＴへ送信する。

　（動作例）
　次に、以上のように構成されたコミュニケーションサーバＣＳの動作例を説明する。なお、参加者端末ＰＴからのログイン等の基礎的な動作については、その説明を省略する。また、会議情報登録部１１による会議情報データベース３１へのオンラインコミュニケーションの会議情報の登録動作についても、一般的な動作であるので、ここではその詳細説明は省略する。

　（１）準備処理
　そして、オンラインコミュニケーションの開催前の任意の時点に、そのオンラインコミュニケーションに参加しようとする参加者の参加者端末ＰＴからの準備要求に応じて、コミュニケーションサーバＣＳの制御部１は、プログラム記憶部２に記憶されたプログラムを実行することで、このフローチャートに示す以下のような準備処理を実行する。なお、オンラインコミュニケーションの開催中の任意の時点においても、そのオンラインコミュニケーションに参加している参加者の参加者端末ＰＴから準備要求を受けた場合も、同様に、制御部１は、以下のような準備処理を実行することができる。

　図５は、コミュニケーションサーバＣＳの制御部１が実行する準備処理の処理手順と処理内容の一例を示すフローチャートである。例えば、制御部１は、通信インタフェース部４により、ネットワークＮＷを介して参加者端末ＰＴから送信されてくる準備要求を受けたときに、この準備処理を開始する。準備処理は、基本的に、その要求元の参加者端末ＰＴとの間の処理であり、他の参加者端末ＰＴとの間では何も実施しない。

　準備処理を開始すると、制御部１は、心理的距離段階設定部１２として動作して、要求元の参加者端末ＰＴから、設定対象のオンラインコミュニケーションの指定を受け付ける（ステップＳ１０１）。具体的には、制御部１は、会議情報データベース３１に登録されている、現時点で終了していないオンラインコミュニケーションの内、当該参加者のユーザＩＤが参加者として登録されているオンラインコミュニケーションを検索し、通信インタフェース部４によりネットワークＮＷを介して参加者端末ＰＴと通信して、その検索結果を参加者に提示して、設定対象のオンラインコミュニケーションを判別する。或いは、参加者端末ＰＴから送信されてくる準備要求に、設定対象のオンラインコミュニケーションを指定する情報が含まれていても良い。

　次に、制御部１は、心理的距離段階設定部１２として動作して、心理的距離段階を設定する処理を実施する（ステップＳ１０２）。具体的には、制御部１は、要求元の参加者端末ＰＴの参加者が自身から見た対話相手の人数等に応じて入力した、立場の差及び親密度における取り得る段階である心理的距離段階を、通信インタフェース部４によりネットワークＮＷを介して取得する。

　そして、制御部１は、心理的距離設定部１３として動作して、会議情報データベース３１に登録されている設定対象のオンラインコミュニケーションの対話相手である他の参加者それぞれについての心理的距離を設定する処理を実施する（ステップＳ１０３）。具体的には、制御部１は、上記ステップＳ１０２で設定した心理的距離段階に従って、通信インタフェース部４によりネットワークＮＷを介して、各対話相手に対して取り得る心理的距離の選択肢を要求元の参加者端末ＰＴに提示して心理的距離の選択を受け付ける。そして、制御部１は、選択された各対話相手の心理的距離を、参加者情報データベース３２に記憶させる。

　図６は、各対話相手との立場の差の一例を示す模式図である。立場の差として取り得る段階として例えば３段階が設定されたとすると、立場の差は、対象者である参加者自身を基準に上位、同位、下位の３段階を選択肢として、各対話相手に何れかの段階を割り当てることができる。具体例としては、オンラインコミュニケーションが会社の会議であるとすれば、上司や先輩が上位、同僚が同位、部下や後輩が下位となる。なお、図６の例では、立場の差として取り得る段階を３段階としているが、対話相手の人数や立場の種類が多い場合には４段階以上に増やすことができる。

　制御部１は、立場の差の段階を表す値である立場情報として、同位が選択された場合は「０」、上位が選択された場合は「１」、下位が選択された場合は「－１」を、参加者情報データベース３２に記憶させる。ここで、図６の例において、上司である対話相手ＣａのユーザＩＤを「ａ」、同僚である対話相手ＣｂのユーザＩＤを「ｂ」、部下である対話相手ＣｃのユーザＩＤを「ｃ」とし、要求元の参加者端末ＰＴの参加者である対象者のユーザＩＤを「ｎ」とする。この場合、参加者情報データベース３２には、図４に示すように、参加者ＩＤ「ｎ」、他参加者ＩＤ「ａ」のレコードの立場の差の項目には「１」、参加者ＩＤ「ｎ」、他参加者ＩＤ「ｂ」のレコードの立場の差の項目には「０」、参加者ＩＤ「ｎ」、他参加者ＩＤ「ｃ」のレコードの立場の差の項目には「－１」、がそれぞれ記憶されることになる。

　図７は、各対話相手との親密度の一例を示す模式図である。親密度として取り得る段階として例えば７段階が設定されたとすると、親密度は、例えば「０（中間）」を基準とする「－３（低）」～「３（高）」の７段階を選択肢として、各対話相手に何れかの段階を割り当てることができる。具体例としては、オンラインコミュニケーションが会社の会議であるとすれば、仲の良い部下を「３」、疎遠な同期を「０」、反りの合わない上司を「－２」、のように選択することができる。なお、この親密度の段階も、対話相手の人数等に応じて、段階数を増減させることができる。

　制御部１は、親密度として選択された値を親密度情報として参加者情報データベース３２に記憶させる。ここで、図７の例に示すように、対話相手Ｃａの親密度として「－２」、対話相手Ｃｂの親密度として「０」、対話相手Ｃｃの親密度として「３」が選択されたとすると、参加者情報データベース３２には、図４に示すように、参加者ＩＤ「ｎ」、他参加者ＩＤ「ａ」のレコードの親密度の項目には「－２」の親密度情報、参加者ＩＤ「ｎ」、他参加者ＩＤ「ｂ」のレコードの親密度の項目には「０」の親密度情報、参加者ＩＤ「ｎ」、他参加者ＩＤ「ｃ」のレコードの親密度の項目には「３」の親密度情報、がそれぞれ記憶されることになる。

　図５の説明に戻り、制御部１は、次に、音源位置規定部１４として動作して、各参加者の音源位置を規定する処理を実施する（ステップＳ１０４）。即ち、制御部１は、参加者情報データベース３２に記憶された会議ＩＤで特定されるオンラインコミュニケーション毎に、参加者ＩＤで特定される各対象者について、当該対象者の対話相手である他の参加者それぞれの音源位置を規定する。具体的には、制御部１は、参加者情報データベース３２に記憶された立場情報及び親密度情報に従って音源位置を規定し、規定した音源位置の座標を、参加者情報データベース３２の該当する他参加者の音源座標の項目に記憶させる。

　図８は、立場の差及び親密度に応じた音源位置を規定する音源座標系を示す図である。音源座標系において、立場情報で示される立場の差は、音源垂直方向（Ｙ軸方向）の位置（Ｙ座標）に割り当てられ、その上下位置によって立場の差が表されるようにする。また、親密度情報で示される親密度は、音源奥行き方向（Ｚ軸方向）の位置（Ｚ座標）に割り当てられ、その遠近位置によって親密度が表されるようにする。同じ立場、同じ親密度の対話相手がいて、ＹＺ座標が重複する場合が有り、そのような場合には、音源水平方向（Ｘ軸方向）の位置（Ｘ座標）を異ならせる。

　立場の差は、対象者の参加者端末ＰＴの表示画面において再生出力される音場の上下位置として再現され得る。そこで、制御部１は、立場の差を平準化することを目的に、立場毎に音源垂直方向のＹ座標を決定する。具体的には、立場差による威圧感軽減を目的に、立場の高低とＹ座標の高低とを反比例させる。即ち、制御部１は、立場情報が高い立場を示す対話相手程、対象者の表示画面において下の位置となるように、音源垂直方向位置を決定する。これにより、立場が上位の参加者の発言を低い位置から再生することとなり、威圧感を緩和することができる。

　図９は、立場の差に応じた各対話相手の音源位置を表す模式図である。図６の例では、前述したように、上司である対話相手Ｃａには「１」、同僚である対話相手Ｃｂには「０」、部下である対話相手Ｃｃには「－１」の立場情報が設定されている。よって、図９に示されるように、制御部１は、対象者「ｎ」のＹ座標「０」を基準に、同僚である対話相手ＣｂのＹ座標を「０」、上司である対話相手ＣａのＹ座標を「ｙ^na」、部下である対話相手ＣｃのＹ座標を「ｙ^nc」（但し、ｙ^nc＞０＞ｙ^na）と決定する。これにより、対象者「ｎ」の参加者端末ＰＴの表示画面において、立場が上位である上司の声が下から、下位である部下の声が上から聞こえてくるようにすることができる。

　親密度は、対象者の参加者端末ＰＴの表示画面において再生出力される音場の遠近位置として再現され得る。そこで、制御部１は、親密度の反映を目的に、親密度の度合いに応じて音源の距離（Ｌ）を決定する。具体的には、Ｆ陣形等の「対話相手との関係性が対話時の間合いに影響する」という知見を踏まえ、親密度の高低と遠近を反比例させる。距離は、基本的には奥行き方向（Ｚ軸方向）の値であるＺ座標を変えることで実現する。即ち、制御部１は、親密度情報が高い親密度を示す対話相手程、対象者の表示画面において近い距離となるように、奥行き方向位置を決定する。

　図１０は、親密度に応じた各対話相手の音源位置を表す模式図である。図７の例では、前述したように、上司である対話相手Ｃａには「２」、同僚である対話相手Ｃｂには「４」、部下である対話相手Ｃｃには「７」の親密度情報が設定されている。よって、図１０に示されるように、制御部１は、上司である対話相手Ｃａの対象者「ｎ」からの距離を「ｌ^na」、同僚である対話相手Ｃｂの距離を「ｌ^nb」、部下である対話相手Ｃｃの距離を「ｌ^nc」と決定する。制御部１は、例えば、各距離ｌを以下のようにして求める。これにより、対象者「ｎ」の参加者端末ＰＴの表示画面において、親密度の低い上司の声が遠くから、親密度か高い部下の声が近くから聞こえてくるようにすることができる。

　前述したように、同じ立場、親密度の対話相手がいて、ＹＺ座標が重複する場合には、制御部１は、音源水平方向（Ｘ軸方向）の位置（Ｘ座標）を変更する。具体的には、制御部１は、該当する各対話相手のＸ座標を、均等に左右に並べる。

　図１１は、立場の差及び親密度が同位の複数対話相手の音源位置を表す模式図である。図１１に示されるように、立場及び親密度が同じ対話相手Ｃｃ，Ｃｃ’，Ｃｃ”が存在する場合、それらの座標は同じ（ｘ^nc，ｙ^nc，ｚ^nc）となるべきであるが、制御部１は、Ｘ座標を変更して、ｘ^nc，ｘ^nc’，ｘ^nc”とする。なお、このように音源水平方向の値を変更すると、変更した対話相手の距離ｌが変化してしまう。そこで、音源水平方向の値を変更した場合は、距離が変化しないように、制御部１は、奥行き方向の値を修正する。即ち、制御部１は、Ｚ座標をｚ^nc，ｚ^nc’，ｚ^nc”とする。

　なお、対象者の参加者端末ＰＴの表示画面に他の参加者である対話相手の映像を表示せず音声のみ再生する場合には、このＸ座標は同一であっても構わない。

　ここで、制御部１による具体的な座標規定手順の一例を説明する。本例では、対象者の座標（０，０，０）を原点とする。

　ｉ．制御部１は、参加者情報データベース３２に立場情報として記憶された立場の差の値に任意の変数を乗算して、各対話相手の音源のｙ座標を決定する。例えば、上位・同位・下位の３段階に分けて割り振り、参加者端末ＰＴの表示画面の縦幅を「４０」、表示画面の下端を「－２０」として、段階毎に「１０」ずつ座標を変化させ、上位の対話相手のｙ座標を「－１０」、同位の対話相手のＹ座標を「０」、下位の対話相手のｙ座標を「１０」とする。

　ｉｉ．制御部１は、参加者情報データベース３２に親密度情報として記憶された親密度の値に任意の変数を乗算して、対象者と各対話相手の音源との距離ｌを決定する。例えば、「－３」～「３」の７段階に分けて割り振り、取り得る距離の範囲を「１０」～「７０」として、段階毎に「１０」ずつ距離を変化させ、最も親密度が高い時（「３」）の距離ｌを「１０」、最も低い時（「－３」）の距離ｌを「７０」とする。

　ｉｉｉ．制御部１は、距離ｌを満たすようにｚ座標を算出する。例えば、ｙ＝３０、ｌ＝５０の時、ｚ²＝５０²－３０²であり、ｚ＝４０（ｘ＝０とする場合）となる。この時、ｘ＝０とせずに任意の±の範囲で値を揺らがせて距離計算しても良い。

　ｉｖ．同じ立場、親密度の音源が複数有る場合、制御部１は、該当する音源のｘ座標を分散する。例えば、３人が該当して、表示画面の横幅を「８０」とすると、表示画面の左端を「－４０」として、それぞれのｘ座標を「－３０」，「０」，「３０」とする。

　ｖ．距離ｌを満たすように、制御部１は、ｚ座標を修正する。即ち、上記ｉｉｉ．のｘ≠０の場合と同様に算出する。

　図５の説明に戻り、制御部１は、この準備処理を終了するか否か判断する（ステップＳ１０５）。例えば、制御部１は、通信インタフェース部４により、ネットワークＮＷを介して参加者端末ＰＴから送信されてくる終了指示を受けたときに、この準備処理を終了する。未だ終了しないと判断した場合には、制御部１は、上記ステップＳ１０１の処理に移行する。

　（２）対話処理
　図１２は、制御部１が実行する対話処理の処理手順と処理内容の一例を示すフローチャートである。制御部１は、オンラインコミュニケーションのそれぞれについて、プログラム記憶部２に記憶されたプログラムを実行することで、各参加者を対象者として、このフローチャートに示す対話処理を実行する。制御部１は、同時に開催される複数のオンラインコミュニケーションに対するこのフローチャートに示す処理を並行して実施することができる。

　通信インタフェース部４により、ネットワークＮＷを介して、対象者となる参加者端末ＰＴからオンラインコミュニケーションの開始指令を受信すると、制御部１は、当該オンラインコミュニケーションについて、この対話処理を開始する。そうすると、制御部１は、入力情報取得部１５として動作して、入力情報を取得したか否か、つまり、当該対象者の対話相手となる他の参加者の参加者端末ＰＴからネットワークＮＷを介して送信されてくる音声情報及び映像情報を受信したか否か判断する（ステップＳ１１１）。このとき、制御部１は、会議情報データベース３１に登録されているオンラインコミュニケーションの会議情報に基づいて、対象者の参加者端末ＰＴと当該参加者に対する対話相手の参加者端末ＰＴとを判別することができる。入力情報を取得するまで、制御部１は、このステップＳ１１１の処理を繰り返す。

　入力情報を取得したならば、制御部１は、音場位置反映部１６として動作して、対象者と各対話相手の位置関係を踏まえて、対象者が得る音場を生成する（ステップＳ１１２）。具体的には、制御部１は、会議情報データベース３１に登録されているオンラインコミュニケーションの会議情報に基づいて対象者と対話相手とを判別し、参加者情報データベース３２に格納された対象者と各対話相手の位置関係を踏まえた音源座標に基づいて、対象者が得る各対話相手用の音場情報を生成する。そして、制御部１は、この生成した各対話相手用の音場情報の内、上記ステップＳ１１１で取得した音声情報の送信元である対話相手の音場情報にその取得した音声情報を適用する。即ち、制御部１は、取得した対話相手の音声情報を音像定位させた音場情報を生成する。制御部１は、この生成した音場情報を音場情報データベース３３に記憶させる。また、制御部１は、生成した音場情報に基づいて、その対話相手の映像情報の表示位置及び表示サイズを調整した、対象者の参加者端末ＰＴの表示画面に表示させる情報である表示映像情報を生成して、それを音場情報データベース３３に記憶させる。

　そして、制御部１は、音声出力部１７として動作して音声を出力する（ステップＳ１１３）と共に、映像出力部１８として動作して映像を出力する（ステップＳ１１４）。

　具体的には、制御部１は、会議情報データベース３１に登録されているオンラインコミュニケーションの会議情報に基づいて対象者の参加者端末ＰＴを特定し、音場情報データベース３３に記憶されている当該対象者に対応する音像定位させた各対話相手の音場情報を、通信インタフェース部４によりネットワークＮＷを介して特定した参加者端末ＰＴへ送信する。また、制御部１は、音場情報データベース３３に記憶されている当該対象者に対応する表示映像情報を、通信インタフェース部４によりネットワークＮＷを介して特定した参加者端末ＰＴへ送信する。これにより、対象者の参加者端末ＰＴでは、各対話相手の音場情報に則った各対話相手の音声を立体音響で再生すると同時に、各対話相手の映像を表示画面上に配置して再生することができる。

　その後、制御部１は、この対話処理を終了するか否か判断する（ステップＳ１１５）。例えば、制御部１は、通信インタフェース部４により、ネットワークＮＷを介して対象者の参加者端末ＰＴから送信されてくる終了指示を受けたときに、この対話処理を終了する。未だ終了しないと判断した場合には、制御部１は、上記ステップＳ１１１の処理に移行する。

　図１３は、対象者となる参加者の参加者端末ＰＴの表示画面ＳＣの一例を示す模式図である。制御部１は音場位置反映部１６として動作して、規定した各対話相手の音源座標に基づいて表示画面ＳＣ上に対話相手の映像情報ＣＶを描画した表示映像情報を生成する。表示映像情報は、表示画面ＳＣの背景として、奥行きを示す奥行きデザインの画像情報を含み、この奥行きデザイン上に対話相手の映像情報ＣＶを配置したものとなる。奥行きデザインとしては、例えば透視図法に則ったパース線ＰＬや色の濃淡で表現することができる。なお、この表示画面ＳＣの背景として、奥行きデザインを設けることは必須ではなく、単色表示とする等、特別な画像を配置しなくても良いことは勿論である。また、対話相手の映像情報ＣＶのサイズは、音場情報で示される音源との距離と比例して変更し、距離が近いほど大きく描画する。図１３は、最も近い距離ｌ^ncの対話相手の映像情報ＣＶのサイズが最も大きく描画されている例である。音源位置の座標は、映像情報ＣＶの中央としても良いし、映像情報ＣＶからＯｐｅｎＣＶ等で顔エリアを抽出することで、配置した映像情報ＣＶにおける対話相手の口元付近としても良い。

　（作用・効果）
　以上述べたように第１実施形態では、コミュニケーションサーバＣＳは、ネットワークＮＷを介してオンラインコミュニケーションに参加する複数の参加者端末ＰＴの内の対話相手となる１以上の参加者が使用する１以上の第１の参加者端末ＰＴからそれぞれ取得した複数の音声情報を、複数の参加者端末ＰＴの内の対象者となる参加者が使用する第２の参加者端末ＰＴにネットワークＮＷを介して提示する情報提示装置として機能する。そして、コミュニケーションサーバＣＳは、１以上の第１の参加者端末を使用する１以上の対話相手それぞれに対して設定された、第２の参加者端末を使用する対象者から見た対話相手それぞれについての心理的な距離を表す心理的距離情報に基づいて、対話相手それぞれの音源位置を規定する音源位置規定部１４と、１以上の対話相手それぞれの音源位置に基づいて、１以上の第１の参加者端末からの音声情報を音像定位させた音場情報を生成して、第２の参加者端末に送信する音声提示部となる音場位置反映部１６、音場情報データベース３３及び音声出力部１７と、を備える。　
　従って、第１実施形態によれば、各対話相手についての心理的距離情報を取得して、その心理的距離情報に応じて音源位置を規定し、規定した音源位置に従って各対話相手の音声を出力するようにしているので、対象者と各対話相手との関係性に基づいて、対象者に適切な距離感を与え得る情報提示技術を提供することができる。

　また、第１実施形態では、心理的距離情報は、対象者から見た対話相手の立場を示す立場情報を含み、音源位置規定部１４は、立場情報が高い立場を示す対話相手程、第２の参加者端末ＰＴの表示画面ＳＣにおいて下の位置となるように、音源垂直方向（Ｙ軸方向）位置を決定する。　
　従って、第１実施形態によれば、対象者から見た対話相手の立場に基づいて、対象者に適切な距離感を与え得る情報提示技術を提供することができる。即ち、立場が低い人程、表示画面ＳＣの上部から音声が立体音響で出力されることで、心地良い対話を実現することができる。

　また、第１実施形態では、心理的距離情報は、対象者から見た対話相手の親密度を示す親密度情報を含み、音源位置規定部１４は、親密度情報が高い親密度を示す対話相手程、第２の参加者端末ＰＴの表示画面ＳＣにおいて近い奥行き位置となるように、音源奥行き方向（Ｚ軸方向）位置を決定する。
　従って、第１実施形態によれば、対象者から見た対話相手の親密度に基づいて、対象者に適切な距離感を与え得る情報提示技術を提供することができる。即ち、親密と感じる人ほど近くから音声が立体音響で出力されることで、心地良い対話を実現することができる。特に、立場の差と親密度との２つの要素に着目して、「立場の差」を均しつつ「親密度」による補正を行うことで、対話相手の上下関係による圧迫感や、親しくない対話相手に囲まれる緊張感を緩和し、対象者における対話時の不快感を軽減させることができる。

　また、第１実施形態では、音源位置規定部は、立場と親密度とが同一の対話相手は、第２の参加者端末ＰＴの表示画面ＳＣにおいて同一の音源垂直方向位置であるが、表示画面ＳＣにおいて異なる左右位置となるように、音源水平方向（Ｘ軸方向）位置を決定する。　
　従って、第１実施形態によれば、立場と親密度とが同一の対話相手を表示画面ＳＣにおいて左右に並べて提示できるので、多数の対話相手がいても、対象者に適切な距離感を与え得る情報提示技術を提供することができる。

　また、第１実施形態では、１以上の第２の参加者端末ＰＴ毎に、音源位置規定部１４によって決定された音源垂直方向位置及び音源水平方向位置に、音源位置規定部１４によって決定された音源奥行き方向位置に比例したサイズで、第１の参加者端末ＰＴからの映像情報を表示させる表示映像情報を生成して、第２の参加者端末ＰＴに送信する映像提示部となる音場位置反映部１６、音場情報データベース３３及び映像出力部１８を更に具備し、サイズは、近い奥行き位置程、大きい。　
　従って、第１実施形態によれば、音声に加えて、対象者と各対話相手との関係性に基づいて各対話相手の映像を提示することで、より適切な距離感を対象者に与え得る情報提示技術を提供することができる。

　［第２実施形態］
　次に、第２実施形態を説明する。なお、第１実施形態と同様の部分については第１実施形態と同様の参照符号を付すことで、その説明を省略する。

　（構成例）
　図１４は、この発明の情報提示装置の第２実施形態としてのコミュニケーションサーバＣＳのソフトウェア構成の一例を示すブロック図である。第２実施形態においては、コミュニケーションサーバＣＳの制御部１は、第１実施形態と同様の会議情報登録部１１、心理的距離段階設定部１２、心理的距離設定部１３、音源位置規定部１４、入力情報取得部１５、音場位置反映部１６、音声出力部１７及び映像出力部１８に加えて、第２実施形態を実施するために必要な処理機能部として、入力情報平準化部１９を備える。

　入力情報平準化部１９は、入力情報取得部１５によってネットワークＮＷを介して各対話相手の参加者端末ＰＴから取得した入力情報である映像情報及び音声情報を平準化して平準化映像情報及び平準化音声情報を生成し、それらを音場位置反映部１６に供給する。この入力情報の平準化手法については、動作の説明において、詳細に説明する。

　（動作例）
　図１５は、第２実施形態における制御部１が実行する対話処理の処理手順と処理内容の一例を示すフローチャートである。第２実施形態においては、上記ステップＳ１１１において、当該対象者の対話相手となる他の参加者の参加者端末ＰＴからの入力情報を取得したと判断した場合、制御部１は、入力情報平準化部１９として動作して、その取得した入力情報を平準化する（ステップＳ１１６）。具体的は、制御部１は、例えば、各対話相手の映像情報における顔の大きさ、各対話相手の音声情報における声の大きさ、等が同等になるように、取得した映像情報及び音声情報を補正する。そして、制御部１は、これらの補正により得られた平準化映像情報及び平準化音声情報を処理対象の情報として、上記ステップＳ１１２の処理を実行する。

　各対話相手の参加者端末ＰＴにおいて入力される映像情報及び／又は音声情報にばらつきが有ると、対象者の参加者端末ＰＴにおいて各対話相手の映像及び音声を出力した際に、距離感を適切に表現できなくなってしまう。例えば、親密度が低い対話相手の入力音量が相対的に大きかった場合、親密度情報に基づいて音源の座標を遠く離すように音場を生成したとしても、対象者の参加者端末ＰＴでは、その親密度が低い対話相手の声が大きく聞こえてしまう。これを防ぐために、予め、映像の見え方（顔の大きさや位置）及び音声の聞こえ方（音量）を平準化する。

　顔の大きさや位置の平準化では、各対話相手の映像情報からＯｐｅｎＣＶ等で顔エリアを抽出し、映像内に占めるエリアが最も大きい対話相手に揃えて、他の対話相手の映像をトリミングして描画する。

　図１６Ａは、各対話相手の入力映像情報における各対話相手の顔エリアの一例を示す模式図であり、図１６Ｂは、平準化した各対話相手の平準化映像情報の一例を示す模式図である。図１６Ａに示される例では、同僚である対話相手Ｃｂの入力映像情報ＩＶｂは、カメラが遠く顔エリアＦＡの大きさが小さく、また、部下である対話相手Ｃｃの入力映像情報ＩＶｃは、顔エリアＦＡの位置が右寄りとなっている。このような場合、制御部１は、図１６Ｂに示されるように、顔の大きさが最も大きく且つ顔エリアＦＡの位置が中央に有る上司である対話相手Ｃａについては、何ら補正を加えることなくそのまま、平準化映像情報ＬＩａとする。これに対して、同僚である対話相手Ｃｂの入力映像情報ＩＶｂについては、制御部１は、顔の大きさが最も大きい上司である対話相手Ｃａの入力映像情報ＩＶａにおける顔の大きさに揃えるように拡大する補正を行うことで、平準化映像情報ＬＩｂを生成する。また、部下である対話相手Ｃｃの入力映像情報ＩＶｃについては、制御部１は、顔の位置が補正可能な範囲で中央に揃えるようにトリミングする補正を行うことで、平準化映像情報ＬＩｃを生成する。

　また、音量の平準化については、制御部１は、顔の大きさ同様に最も声が小さい対話相手の音量に揃える補正を行うことで、平準化音声情報を生成する。或いは、制御部１は、全対話相手の音量の平均値に揃えるように、小さい声は増幅し、大きい声は減衰する補正を行うことで、平準化音声情報を生成する。

　（作用・効果）
　以上述べたように第２実施形態では、１以上の第１の参加者端末ＰＴからの映像情報における対話相手の顔の大きさ及び位置を平準化して映像提示部に供給する、及び／又は、１以上の第１の参加者端末ＰＴからの音声情報における音量を平準化して音声提示部に供給する、入力情報平準化部１９を具備する。　
　従って、第２実施形態によれば、各対話相手からの入力情報にばらつきが有ったとしても、対象者に適切な距離感を与え得る情報提示技術を提供することができる。

　［第３実施形態］
　情報提示装置の第１又は第２実施形態としてのコミュニケーションサーバＣＳは、他システムと連携して心理的距離を自動取得するようにしても良い。即ち、コミュニケーションサーバＣＳの制御部１の心理的距離設定部１３は、対象者となる参加者の参加者端末ＰＴからの設定を受けることなく、各対話相手との「立場の差」と「親密度」を、他システムと連携することで自動入力する。

　例えば、心理的距離設定部１３は、社員情報を管理するシステムから各対話相手の役職情報を取得して、立場の差を設定することが可能である。或いは、心理的距離設定部１３は、チャットツール上での、対象者の各対話相手との会話内容から、親密度を推定して設定することができる。

　実現方法の一例としては、心理的距離設定部１３は、例えば、以下の参考文献１に開示されているように、会話履歴から親密度合いをスコア化して利用する。

　（参考文献１）　星川祐人、若林啓、佐藤哲司、「Twitterにおける会話内容を用いた親密度推定手法の評価」、第8回データ工学と情報マネジメントに関するフォーラム論文集、2016年3月。

　このように、第３実施形態によれば、他システムと連携して心理的距離を自動取得するようにコミュニケーションサーバＣＳを構成することで、対象者の心理的距離の設定作業を省略することが可能となる。

　［第４実施形態］
　情報提示装置の第１又は第２実施形態としてのコミュニケーションサーバＣＳは、対話中に音源位置を動的に変化させるようにしても良い。即ち、コミュニケーションサーバＣＳの制御部１の音源位置規定部１４は、準備処理において規定した音源位置を、対話中に動的に変化させる。

　対話途中で特定の対話相手との親密度に変化が生じた場合、その値を更新することにより音源の座標を変更することができる。例えば、反りが合わなかった上司との対話により打ち解けたことで、その上司との親密度を上昇させ、その分音源を近づけることが考えられる。第１実施形態で説明したように、心理的距離段階設定部１２、心理的距離設定部１３及び音源位置規定部１４が、対話中にも動作することで、対象者の手動設定による音源位置の更新を可能にしている。

　この第４実施形態では、この手動による更新の他、音源位置規定部１４は、対象者と対話相手との双方の感情を推定する機能を備え、親密度合いや喜怒哀楽に応じて、一時的に音源の座標を変更する。

　例えば、対象者がリラックスしているので、対話相手全員の音源の距離を近づける。或いは、仲の良い後輩が怒りの感情を顕わにして怒鳴っているため、一時的にその後輩の音源の距離を遠ざける。

　実現方法の一例としては、音源位置規定部１４は、例えば、以下の参考文献２に開示されているように、音声単体での感情推定や映像内の顔表情も利用して感情推定する。

　（参考文献２）　西田健次、山田亨、糸山克寿、中臺一博、「表情による感情推定と音声による感情推定手法の検討」、第57回人工知能学会AIチャレンジ研究会発表抄録集、pp.52-57、2020年11月。

　このように、第４実施形態によれば、対話中に音源位置を動的に変化させるようにコミュニケーションサーバＣＳを構成することで、その時点での対象者の心理的距離に応じて適切な距離感を与え得る情報提示技術を提供することができる。

　［第５実施形態］
　情報提示装置の第２実施形態としてのコミュニケーションサーバＣＳは、平準化項目をパーソナライゼーションするようにしても良い。即ち、コミュニケーションサーバＣＳの制御部１の入力情報平準化部１９は、平準化を実施する際の対象項目を、対話種別や対象者の好みに応じて変更又は追加する。

　第２実施形態では、距離の表現を重視することから、基礎的な項目として顔の大きさ及び声の音量を挙げたが、第５実施形態では、入力情報平準化部１９は、例えば、声質や喋り方のような要素を追加で平準化の対象として、平準化する。

　例えば、甲高い声と低い声の対話相手が混在し聞き取り難い場合に、入力情報平準化部１９は、両者の音程を近づける。

　実現例の一例としては、入力情報平準化部１９は、例えば、以下の参考文献３に開示されているように、音声の特徴量を抽出して、より平均に近い類似の合成音声に置き換える。

　（参考文献３）　D. Snyder、D. Garcia-Romero、G. Sell、D. Povey、S. Khudanpur、「X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION」、2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)、PP. 5329-5333、2018年4月、DOI: 10.1109/ICASSP.2018.8461375。

　［その他の実施形態］
　前述の各実施形態では、準備処理において音源位置規定部１４により各対話相手の音源位置を示す他参加者の音源座標を確定して、参加者情報データベース３２に保持しておくものとしている。しかしながら、必ずしも、予め他参加者の音源座標を予め確定して参加者情報データベース３２に保持しておくようにしなくても良い。即ち、音源位置規定部１４は、対話中に、参加者情報データベース３２に保持されている心理的距離情報つまり立場の差と親密度の値に基づいて他参加者の音源座標を都度算出して、音場位置反映部１６に伝達するようにしても良い。

　なお、本発明は、オンラインコミュニケーションだけでなく、一部実世界（オフライン）での利用にも適用可能である。例えば、各参加者がノイズキャンセルイヤホンとインカムを装着した上で、各対話相手との親密度に応じて音源の位置を実際とは異なる座標に設定し、そこから音声を再生するシーンにも適用可能である。更には、そのようなシーンにおいて、各参加者が前方向にカメラが有るＭＲ（Mixed Reality）グラスを装着し、実際の各対話相手の映像を切り抜いた上で、本情報提示システムが規定する音源の座標に、その映像を再配置するという視覚的な適用も考えられる。

　また、各実施形態では、情報提示装置が一つのコミュニケーションサーバＣＳで構成される場合を示したが、複数のサーバによって構成されても良い。例えば、準備処理を行うサーバと、対話処理を行うサーバとを分けたり、同時に開催されるオンラインコミュニケーションの数や参加人数に応じて対話処理を行うサーバを切り分けたりして良い。

　また、フローチャートを参照して説明した各処理の流れは、説明した手順に限定されるものではないことは言うまでも無い。

　プログラムは、電子機器に記憶された状態で譲渡されて良いし、電子機器に記憶されていない状態で譲渡されても良い。後者の場合は、プログラムは、ネットワークを介して譲渡されて良いし、記録媒体に記録された状態で譲渡されても良い。記録媒体は、非一時的な有形の媒体である。記録媒体は、コンピュータ可読媒体である。記録媒体は、ＣＤ－ＲＯＭ、メモリカード等のプログラムを記憶可能かつコンピュータで読取可能な媒体であれば良く、その形態は問わない。

　以上、この発明の実施形態を詳細に説明してきたが、前述までの説明はあらゆる点においてこの発明の例示に過ぎない。この発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、この発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されても良い。

　要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除しても良い。更に、異なる実施形態に亘る構成要素を適宜組み合わせても良い。

　　１…制御部
　　２…プログラム記憶部
　　３…データ記憶部
　　４…通信インタフェース部
　　５…バス
　１１…会議情報登録部
　１２…心理的距離段階設定部
　１３…心理的距離設定部
　１４…音源位置規定部
　１５…入力情報取得部
　１６…音場位置反映部
　１７…音声出力部
　１８…映像出力部
　１９…入力情報平準化部
　３１…会議情報データベース
　３２…参加者情報データベース
　３３…音場情報データベース
　Ｃａ，Ｃｂ，Ｃｃ，Ｃｃ’，Ｃｃ…対話相手
　ＣＳ…コミュニケーションサーバ
　ＣＶ…映像情報
　ＦＡ…顔エリア
　ＩＶａ，ＩＶｂ，ＩＶｃ…入力映像情報
　ＬＩａ，ＬＩｂ，ＬＩｃ…平準化映像情報
　ＮＷ…ネットワーク
　ＰＬ…パース線
　ＰＴ…参加者端末
　ＳＣ…表示画面

Claims

　ネットワークを介してオンラインコミュニケーションに参加する複数の参加者端末の内の１以上の第１の参加者端末からそれぞれ取得した複数の音声情報を、前記複数の参加者端末の内の第２の参加者端末に前記ネットワークを介して提示する情報提示装置であって、
　前記１以上の第１の参加者端末を使用する１以上の対話相手それぞれに対して設定された、前記第２の参加者端末を使用する対象者から見た前記対話相手それぞれについての心理的な距離を表す心理的距離情報に基づいて、前記対話相手それぞれの音源位置を規定する音源位置規定部と、
　前記１以上の対話相手それぞれの前記音源位置に基づいて、前記１以上の第１の参加者端末からの前記音声情報を音像定位させた音場情報を生成して、前記第２の参加者端末に送信する音声提示部と、
　を具備する情報提示装置。
　前記心理的距離情報は、前記対象者から見た前記対話相手の立場を示す立場情報を含み、
　前記音源位置規定部は、前記立場情報が高い立場を示す対話相手程、前記第２の参加者端末の表示画面において下の位置となるように、音源垂直方向位置を決定する、
　請求項１に記載の情報提示装置。
　前記心理的距離情報は、前記対象者から見た前記対話相手の親密度を示す親密度情報を含み、
　前記音源位置規定部は、前記親密度情報が高い親密度を示す対話相手程、前記第２の参加者端末の表示画面において近い奥行き位置となるように、音源奥行き方向位置を決定する、
　請求項１又は２に記載の情報提示装置。
　前記心理的距離情報は、前記対象者から見た前記対話相手の親密度を示す親密度情報を含み、
　前記音源位置規定部は、前記親密度情報が高い親密度を示す対話相手程、前記第２の参加者端末の表示画面において近い奥行き位置となるように、音源奥行き方向位置を決定し、
　前記音源位置規定部は、前記立場と前記親密度とが同一の対話相手は、前記第２の参加者端末の表示画面において同一の音源垂直方向位置であるが、前記表示画面において異なる左右位置となるように、音源水平方向位置を決定する、
　請求項２に記載の情報提示装置。
　前記１以上の第２の参加者端末毎に、前記音源位置規定部によって決定された前記音源垂直方向位置及び前記音源水平方向位置に、前記音源位置規定部によって決定された前記音源奥行き方向位置に比例したサイズで、前記第１の参加者端末からの映像情報を表示させる表示映像情報を生成して、前記第２の参加者端末に送信する映像提示部を更に具備し、
　前記サイズは、近い奥行き位置程、大きい、
　請求項４に記載の情報提示装置。
　前記１以上の第１の参加者端末からの前記音声情報における音量を平準化して前記音声提示部に供給する平準化部を更に具備する、
　請求項１に記載の情報提示装置。
　プロセッサとメモリとを備え、ネットワークを介してオンラインコミュニケーションに参加する複数の参加者端末の内の１以上の第１の参加者端末からそれぞれ取得した複数の音声情報を、前記複数の参加者端末の内の第２の参加者端末に前記ネットワークを介して提示する情報提示装置が実行する情報提示方法であって、
　前記プロセッサが、前記１以上の第１の参加者端末を使用する１以上の対話相手それぞれに対して設定された、前記第２の参加者端末を使用する対象者から見た前記対話相手それぞれについての心理的な距離を表す心理的距離情報に基づいて、前記対話相手それぞれの音源位置を規定し、前記規定した前記対話相手それぞれの前記音源位置を前記メモリに記憶させることと、
　前記プロセッサが、前記１以上の対話相手それぞれの前記音源位置に基づいて、前記１以上の第１の参加者端末からの前記音声情報を音像定位させた音場情報を生成して、前記第２の参加者端末に送信することと、
　を含む情報提示方法。
　請求項１に記載の情報提示装置の各部が行う処理を、前記情報提示装置が備えるプロセッサに実行させる情報提示プログラム。