WO2019163547A1

WO2019163547A1 - 双方向映像通信システム及びキオスク端末

Info

Publication number: WO2019163547A1
Application number: PCT/JP2019/004508
Authority: WO
Inventors: 和幸堀尾; 一生池崎
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2018-02-26
Filing date: 2019-02-07
Publication date: 2019-08-29
Also published as: GB2585779A; DE112019000991T5; JP2019149630A; US20200413009A1; GB202014244D0

Abstract

【課題】ユーザが望むサービスの内容などの状況に応じて、キオスク端末でアバターがユーザに応対したりオペレータ本人がユーザに応対したりできるようにする。【解決手段】キオスク端末１の制御部３１は、オペレータ表示モードにおいて、オペレータの映像をモニタ１２に表示するとともに、オペレータの原音声をスピーカー１７から出力し、アバター表示モードにおいて、オペレータの映像から抽出された特徴情報に基づいて生成したアバターの動画をモニタに表示するとともに、オペレータの原音声をアバターに適合した声質に変換した変換音声をスピーカーから出力する。

Description

双方向映像通信システム及びキオスク端末

　本発明は、キオスク端末とオペレータ端末との間で、キオスク端末を操作するユーザの映像とオペレータ端末を操作するオペレータの映像とを双方向に通信する双方向映像通信システム、及びキオスク端末に関するものである。

　近年、遠隔地にいる複数の人物をそれぞれ撮影した映像を双方向に通信する双方向映像通信システムが普及している。一方、各種の情報を提供する案内業務や金融機関などの窓口業務などのサービスを、人に代わって提供するキオスク端末が普及しており、このようなキオスク端末と、ユーザに応対するオペレータが操作するオペレータ端末とで、双方向映像通信システムを構築すると、ユーザにオペレータが対面して応対することができるため、キオスク端末によるサービスの品質を向上させることができる。

　このようなキオスク端末で構築される双方向映像通信システムに関する技術として、従来、キオスク端末に複数のモニタを設けて、ユーザに向かい合うモニタに、オペレータの顔を撮影した映像を表示する技術が知られている（特許文献１参照）。

　また、人物を撮像した映像をそのまま相手側の端末に表示させたくない場合に、音声だけではコミュニケーション力が低下するため、人物の顔を撮像した顔画像から抽出した特徴情報に基づいて、人物の表情の変化をアバター（キャラクタ）で再現した動画を生成して、その動画を相手側の端末に表示する技術が知られている（特許文献２参照）。

特開２００４－１４７１０５号公報特許第３５９３０６７号公報

　さて、キオスク端末とオペレータ端末とで双方向映像通信システムを構築した場合、キオスク端末のモニタにオペレータの顔が表示されるが、オペレータの中には、自分の顔が公開されることを望まない人もおり、人材確保の面で、自分の顔が公開されることを望まないオペレータでも業務に携わることができるようにすることが望まれる。このような要望に対しては、特許文献２に開示された技術のように、アバターの動画を表示することで解決される。しかしながら、ユーザが望むサービスの内容によっては、オペレータ本人が対面で説明する必要がある場合もあり、状況に応じて、オペレータ本人がユーザに応対できるようすることが望まれる。

　しかしながら、前記従来の技術では、ユーザが望むサービスの内容などに応じて、アバターがユーザに応対したり、オペレータ本人がユーザに応対したりできないという問題があった。

　そこで、本発明は、ユーザが望むサービスの内容などに応じて、キオスク端末でアバターがユーザに応対したりオペレータ本人がユーザに応対したりできる双方向映像通信システム及びキオスク端末を提供することを主な目的とする。

　本発明の双方向映像通信システムは、キオスク端末とオペレータ端末との間で、前記キオスク端末を操作するユーザの映像と前記オペレータ端末を操作するオペレータの映像とを双方向に通信する双方向映像通信システムであって、前記オペレータ端末は、前記キオスク端末と通信を行う通信部と、オペレータの顔を撮影するカメラと、オペレータが発話した音声を収音するマイクと、制御部と、を備え、前記キオスク端末は、前記オペレータ端末と通信を行う通信部と、前記カメラで撮影したオペレータの映像を表示するモニタと、前記マイクで収音したオペレータの原音声を出力するスピーカーと、制御部と、を備え、前記キオスク端末の前記制御部は、オペレータ表示モードにおいて、前記オペレータの映像を前記モニタに表示するとともに、前記オペレータの原音声を前記スピーカーから出力し、アバター表示モードにおいて、前記オペレータの映像から抽出された特徴情報に基づいて生成したアバターの動画を前記モニタに表示するとともに、前記オペレータの原音声をアバターに適合した声質に変換した変換音声を前記スピーカーから出力する構成とする。

　また、本発明のキオスク端末は、自装置を操作するユーザの映像とオペレータ端末を操作するオペレータの映像とを、前記オペレータ端末との間で双方向に通信するキオスク端末であって、前記オペレータ端末と通信を行う通信部と、前記オペレータ端末のカメラで撮影したオペレータの映像を表示するモニタと、前記オペレータ端末のマイクで収音したオペレータの原音声を出力するスピーカーと、制御部と、を備え、前記制御部は、オペレータ表示モードにおいて、前記オペレータの映像を前記モニタに表示するとともに、前記オペレータの原音声を前記スピーカーから出力し、アバター表示モードにおいて、前記オペレータの映像から抽出された特徴情報に基づいて生成したアバターの動画を前記モニタに表示するとともに、前記オペレータの原音声をアバターに適合した声質に変換した変換音声を前記スピーカーから出力する構成とする。

　本発明によれば、オペレータ表示モードでは、オペレータの映像がキオスク端末に表示されて、オペレータ本人がユーザに応対し、アバター表示モードでは、アバターの動画がキオスク端末に表示されて、オペレータの代わりにアバターがユーザに応対する。これにより、ユーザが望むサービスの内容などに応じて、アバターがユーザに応対したりオペレータ本人がユーザに応対したりできる。また、アバター表示モードでは、アバターの声質で音声が出力されるため、ユーザに違和感を与えないようにすることができる。

本実施形態に係る双方向映像通信システムの全体構成図キオスク端末１の外観を示す斜視図オペレータ端末２の外観を示す斜視図キオスク端末１およびオペレータ端末２の概略構成を示すブロック図キオスク端末１に表示される画面を示す説明図キオスク端末１に表示される画面を示す説明図オペレータ端末２に表示される画面を示す説明図オペレータ端末２で管理されるアバターデータベースの登録内容を示す説明図オペレータ端末２で行われるキオスク端末１の正面モニタ１２に関する画面制御の手順を示すフロー図オペレータ端末２で行われるキオスク端末１の手元モニタ１３に関する画面制御の手順を示すフロー図キオスク端末１で行われる音声制御の手順を示すフロー図

　前記課題を解決するためになされた第１の発明は、キオスク端末とオペレータ端末との間で、前記キオスク端末を操作するユーザの映像と前記オペレータ端末を操作するオペレータの映像とを双方向に通信する双方向映像通信システムであって、前記オペレータ端末は、前記キオスク端末と通信を行う通信部と、オペレータの顔を撮影するカメラと、オペレータが発話した音声を収音するマイクと、制御部と、を備え、前記キオスク端末は、前記オペレータ端末と通信を行う通信部と、前記カメラで撮影したオペレータの映像を表示するモニタと、前記マイクで収音したオペレータの原音声を出力するスピーカーと、制御部と、を備え、前記キオスク端末の前記制御部は、オペレータ表示モードにおいて、前記オペレータの映像を前記モニタに表示するとともに、前記オペレータの原音声を前記スピーカーから出力し、アバター表示モードにおいて、前記オペレータの映像から抽出された特徴情報に基づいて生成したアバターの動画を前記モニタに表示するとともに、前記オペレータの原音声をアバターに適合した声質に変換した変換音声を前記スピーカーから出力する構成とする。

　これによると、オペレータ表示モードでは、オペレータの映像がキオスク端末に表示されて、オペレータ本人がユーザに応対し、アバター表示モードでは、アバターの動画がキオスク端末に表示されて、オペレータの代わりにアバターがユーザに応対する。これにより、ユーザが望むサービスの内容などに応じて、アバターがユーザに応対したりオペレータ本人がユーザに応対したりできる。また、アバター表示モードでは、アバターの声質で音声が出力されるため、ユーザに違和感を与えないようにすることができる。

　また、第２の発明は、前記オペレータ端末の前記制御部は、前記オペレータの映像から特徴情報を抽出して、その特徴情報を前記通信部から前記キオスク端末に送信し、前記キオスク端末の前記制御部は、前記オペレータ端末から受信した前記特徴情報に基づいて前記アバターの動画を生成して前記モニタに表示する構成とする。

　これによると、オペレータ端末からキオスク端末に特徴情報を送信するため、アバターの動画を送信する構成と比較して、通信量を削減することができ、また、エンコードやデコードなどの映像処理が不要となるため、キオスク端末の負荷を軽減することができる。

　また、第３の発明は、前記オペレータ端末は、オペレータの顔を撮影する正面カメラと、オペレータの手元を撮影する手元カメラと、を備え、前記キオスク端末は、前記正面カメラで撮影したオペレータの正面映像を表示する正面モニタと、前記手元カメラで撮影したオペレータの手元映像を表示する手元モニタと、を備え、前記キオスク端末の前記制御部は、前記正面モニタに、前記オペレータの正面映像、およびアバターの正面動画のいずれかを表示し、前記手元モニタに、前記オペレータの手元映像、アバターの手元動画、および操作画面のいずれかを表示する構成とする。

　これによると、キオスク端末の正面モニタおよび手元モニタにそれぞれオペレータの正面映像および手元映像を表示させることで、ユーザがオペレータとカウンタ越しで向き合っているような臨場感を実現することができる。また、手元モニタにオペレータの手元映像を表示させることで、オペレータが書類を手先で指し示しながら説明することができる。また、手元モニタに操作画面を表示させることで、ユーザが必要な操作を行うことができる。

　また、第４の発明は、前記キオスク端末の前記制御部は、前記アバターの正面動画を前記正面モニタに表示するとともに、前記オペレータの手元映像を前記手元モニタに表示する構成とする。

　これによると、書類を手先で指し示しながら説明する場合、アバターでは細かい手の動きを再現しにくいため、オペレータの手元映像をそのまま表示することで、書類をわかりやすく説明することができる。

　また、第５の発明は、前記オペレータ端末の前記制御部は、前記キオスク端末でのユーザの操作内容に応じて、前記オペレータ表示モードと前記アバター表示モードとを切り替える構成とする。

　これによると、オペレータ表示モードとアバター表示モードとを適切に切り替えることができる。例えば、簡単な画面操作で済む場合には、アバターの動画を表示して、アバターがユーザに応対するようにする。これにより、顔の公開を望まないオペレータでも業務を行うことができる。一方、詳細な案内が必要で時間がかかる場合には、オペレータの映像を表示して、オペレータ本人がユーザに応対するようにする。これにより、ユーザの応対を円滑に進めることができる。なお、オペレータやユーザが表示モードを切り替えることができるようにしてもよい。

　また、第６の発明は、前記キオスク端末の前記制御部は、案内情報、オペレータの発話内容を表す文字情報、およびユーザとオペレータとで共有する共有情報の少なくとも１つを、前記モニタに表示する構成とする。

　これによると、ユーザが天気予報などの案内情報を閲覧することができ、また、ユーザがオペレータの発話内容を文字で認識することができ、また、ユーザとオペレータとで情報を共有することができるため、ユーザの利便性を向上させることができる。

　また、第７の発明は、自装置を操作するユーザの映像とオペレータ端末を操作するオペレータの映像とを、前記オペレータ端末との間で双方向に通信するキオスク端末であって、前記オペレータ端末と通信を行う通信部と、前記オペレータ端末のカメラで撮影したオペレータの映像を表示するモニタと、前記オペレータ端末のマイクで収音したオペレータの原音声を出力するスピーカーと、制御部と、を備え、前記制御部は、オペレータ表示モードにおいて、前記オペレータの映像を前記モニタに表示するとともに、前記オペレータの原音声を前記スピーカーから出力し、アバター表示モードにおいて、前記オペレータの映像から抽出された特徴情報に基づいて生成したアバターの動画を前記モニタに表示するとともに、前記オペレータの原音声をアバターに適合した声質に変換した変換音声を前記スピーカーから出力する構成とする。

　これによると、第１の発明と同様に、ユーザが望むサービスの内容などに応じて、キオスク端末でアバターがユーザに応対したりオペレータ本人がユーザに応対したりできる。

　以下、本発明の実施の形態を、図面を参照しながら説明する。

　図１は、本実施形態に係る双方向映像通信システムの全体構成図である。

　この双方向映像通信システムは、キオスク端末１と、オペレータ端末２と、を備えている。キオスク端末１とオペレータ端末２とは、インターネットやＶＰＮ（Virtual Private Network）やイントラネットなどのネットワークを介して接続される。

　キオスク端末１は、各種の施設に設置され、ユーザが操作するものであり、ユーザを撮影した映像をオペレータ端末２に送信し、オペレータ端末２から受信したオペレータの映像を表示する。

　オペレータ端末２は、コールセンターなど、ユーザに応対するオペレータが常駐する施設に設置され、オペレータが操作するものであり、オペレータを撮影した映像をキオスク端末１に送信し、キオスク端末１から受信したユーザの映像を表示する。

　なお、キオスク端末１では、様々なサービスを提供することができる。例えば、キオスク端末１を空港などの交通施設のロビーなどに設置することで、周辺の観光地の案内や、施設内のフロアの案内や、周辺の宿泊施設の案内などのサービスを提供することができる。また、キオスク端末１を銀行などの金融機関の店舗に設置することで、窓口などで行われる各種のサービス、例えば、口座開設や金融取引やローン契約の相談などのサービスを提供することができる。また、キオスク端末１をホテルなどの宿泊施設のフロントなどに設置することで、係員（コンシェルジュ）が行う各種の案内サービスを提供することができる。また、マンションなどの共同住宅の玄関ロビーなどに設置することで、管理人が行う各種のサービスを提供することができる。

　このようにキオスク端末１では、各種のサービスを担当者に代わって常時提供することができるため、サービスの品質を向上させることができ、また、オペレータが複数の施設を掛け持ちで担当することができるため、人員削減を図ることができる。

　また、キオスク端末１とオペレータ端末２との間では、ユーザの映像とオペレータの映像とを双方向に通信するが、この他に、キオスク端末１やオペレータ端末２において、ユーザやオペレータが操作した内容に関する操作情報、ユーザやオペレータが入力したテキスト情報などが双方向に通信される。

　特に、機密情報、例えば、ユーザの氏名や住所などの個人情報や、金融機関の口座番号などの情報がやり取りされる場合がある。このような機密情報の通信については、サービス提供者が、セキュリティを高度に確保した専用のネットワークを既に運用しているため、機密情報を含む映像以外の情報は既存のネットワークで通信し、これとは別のネットワークで映像を通信するようにしてもよい。これにより、セキュリティを確保するとともに、通信量が大きい映像を別のネットワークで通信することで、既存のネットワークの負荷が増大しないようにすることができる。

　次に、キオスク端末１について説明する。図２は、キオスク端末１の外観を示す斜視図である。

　キオスク端末１は、筐体１１と、正面モニタ１２と、手元モニタ１３と、正面カメラ１４と、手元カメラ１５と、ＩＣカードリーダ１６と、スピーカー１７と、マイク１８と、を備えている。

　正面モニタ１２は、画面を前向きにした状態で配置され、手元モニタ１３は、画面を上向きにした状態で配置されている。また、手元モニタ１３はタッチパネルを備えており、ユーザが画面操作を行うことができる。

　正面カメラ１４は、ユーザの顔を含む上半身を正面から撮影する。手元カメラ１５は、ユーザの手元、すなわち、手元モニタ１３上に置いたユーザの手と手元モニタ１３の画面とを上方から撮影する。ユーザは、手元モニタ１３の画面を手先で指し示す動作を行い、この状況が手元カメラ１５で撮影される。

　ＩＣカードリーダ１６は、ユーザが所持するＩＣカードを読み取る。

　スピーカー１７は、オペレータが発した音声を出力する。マイク１８は、ユーザが発した音声を収音する。

　このように構成されたキオスク端末１は、カウンタなどの台に載置され、ユーザが椅子に座った状態で、あるいは、立ったままの状態でキオスク端末１を操作する。

　次に、オペレータ端末２について説明する。図３は、オペレータ端末２の外観を示す斜視図である。

　オペレータ端末２は、架台２１と、第１モニタ２２と、第２モニタ２３と、正面カメラ２４と、手元カメラ２５と、ヘッドセット２６と、テーブル２７と、を備えている。

　第１モニタ２２は、所定の高さとなるように架台２１に支持されている。第２モニタ２３は、タッチパネルを備えており、オペレータが画面操作を行うことができる。

　正面カメラ２４は、オペレータの顔を含む上半身を正面から撮影する。手元カメラ２５は、オペレータの手元、すなわち、テーブル２７上に置いたオペレータの手とテーブル２７とを上方から撮影する。オペレータは、テーブルにパンフレットなどの書類を置いて、書類を手先で指し示しながら書類を説明し、この状況が手元カメラ２５で撮影される。

　ヘッドセット２６は、スピーカー２８と、マイク２９と、を備えている。スピーカー２８は、ユーザが発した音声を出力する。マイク２９は、オペレータが発した音声を収音する。

　また、オペレータ端末２には、モニタ５が併設される。このモニタ５には、オペレータ端末２、または、図示しないＰＣで起動させたアプリケーションの画面が表示される。このアプリケーションの画面はキオスク端末１と共有され、同一の画面がキオスク端末１の手元モニタ１３に表示される（画面共有機能）。また、モニタ５はタッチパネルを備えており、オペレータが手書きで画面上に描画することができる（ホワイトボード機能）。

　なお、コールセンターでは、オペレータが、オペレータ端末２を使用して映像と音声でユーザに応対する対面応対業務とは別に、電話による音声のみでユーザに応対する電話応対業務を行うため、電話応対業務用のモニタ（図示せず）がオペレータ端末２に併設される。

　次に、キオスク端末１およびオペレータ端末２の概略構成について説明する。図４は、キオスク端末１およびオペレータ端末２の概略構成を示すブロック図である。

　キオスク端末１は、前記のように、正面モニタ１２と、手元モニタ１３と、正面カメラ１４と、手元カメラ１５と、ＩＣカードリーダ１６と、スピーカー１７と、マイク１８と、を備えている。また、キオスク端末１は、制御部３１と、通信部３２と、記憶部３３と、を備えている。

　通信部３２は、ネットワークを介してオペレータ端末２と通信を行う。

　記憶部３３は、制御部３１を構成するプロセッサで実行されるプログラムを記憶する。また、記憶部３３は、アバター動画生成部３６でアバターの動画を生成するのに必要なアバターモデル情報を記憶する。

　制御部３１は、画面制御部３５と、アバター動画生成部３６と、音声制御部３７と、音声変換部３８と、を備えている。この制御部３１は、プロセッサで構成され、制御部３１の各部は、記憶部３３に記憶されたプログラムをプロセッサで実行することで実現される。

　画面制御部３５は、正面モニタ１２および手元モニタ１３の表示画面を制御する。本実施形態では、オペレータ端末２からオペレータの正面映像を受信すると、そのオペレータの正面映像を正面モニタ１２に表示する。また、オペレータ端末２からオペレータの手元映像を受信すると、そのオペレータの手元映像を手元モニタ１３に表示する。

　また、オペレータ端末２からオペレータの顔の特徴情報を受信すると、アバター動画生成部３６にアバターの正面動画を生成させて、そのアバターの正面動画を正面モニタ１２に表示する。また、オペレータ端末２からオペレータの手の特徴情報を受信すると、アバター動画生成部３６にアバターの手元動画を生成させて、そのアバターの手元動画を手元モニタ１３に表示する。

　また、オペレータ端末２から字幕の文字情報を受信すると、字幕の画像を生成して、その字幕の画像をアバターの正面動画上に重畳して表示する。また、オペレータ端末２から案内情報を受信すると、案内情報を可視化した帯情報の画像を生成して、その帯情報の画像をアバターの正面動画上に重畳して表示する。

　アバター動画生成部３６は、オペレータ端末２から受信した特徴情報（トラッキング情報）に基づいて、オペレータの顔の動きに合わせてアバター（キャラクタ）が動くアバターの動画を生成する（フィッティングおよびレンダリング）。本実施形態では、オペレータの顔の特徴情報に基づいて、オペレータの顔の表情をアバターで再現した正面動画を生成し、また、オペレータの手の特徴情報に基づいて、オペレータの手の動きをアバターで再現した手元動画を生成する。

　音声制御部３７は、スピーカー１７から出力する音声を制御する。本実施形態では、音声変換が有効であるか否かに応じて、オペレータ端末２から受信したオペレータの原音声と、音声変換部３８で音声変換された音声とのいずれかをスピーカー１７から出力する。

　音声変換部３８は、オペレータ端末２から受信したオペレータの原音声を、アバターのキャラクタに適合した声質の音声に変換する。この音声変換には、ディープラーニングを用いた声質変換など、公知の音声変換技術を用いればよい。

　また、制御部３１は、この他に、オペレータ端末２に接続する接続制御を行い、また、キオスク端末１で撮影したユーザの映像と、オペレータ端末２で撮影したオペレータの映像と、をリアルタイムで送受信する映像伝送制御などを行う。

　オペレータ端末２は、前記のように、第１モニタ２２と、第２モニタ２３と、正面カメラ２４と、手元カメラ２５と、ヘッドセット２６と、を備えている。また、オペレータ端末２は、制御部４１と、通信部４２と、記憶部４３と、を備えている。

　通信部４２は、ネットワークを介してキオスク端末１と通信を行う。

　記憶部４３は、制御部４１を構成するプロセッサで実行されるプログラムを記憶する。また、記憶部４３は、アバターの動画をキオスク端末１に表示したときの状況に関するアバターデータベース（図８参照）の登録情報を記憶する。

　制御部４１は、画面制御部４５と、特徴抽出部４６と、音声認識部４７と、を備えている。この制御部４１は、プロセッサで構成され、制御部４１の各部は、記憶部４３に記憶されたプログラムをプロセッサで実行することで実現される。

　画面制御部４５は、キオスク端末１の正面モニタ１２および手元モニタ１３の表示画面を制御する。本実施形態では、キオスク端末１の正面モニタ１２に関する画面制御として、オペレータの正面映像を表示させるオペレータ表示モードと、アバターの正面動画を表示させるアバター表示モードとを切り替える。また、キオスク端末１の手元モニタ１３に関する画面制御として、オペレータの手元映像を表示させるオペレータ表示モードと、アバターの手元動画を表示させるアバター表示モードと、操作画面（メニュー画面など）を表示させる操作画面モードと、アプリケーション画面を表示させる画面共有モードとを切り替える。

　なお、本実施形態では、キオスク端末１の正面モニタ１２および手元モニタ１３の表示モードが、キオスク端末１でのユーザの操作内容に応じて切り替えられるが、オペレータが表示モードを選択できるようにしてもよい。

　特徴抽出部４６は、正面カメラ２４で撮影したオペレータの正面映像から、オペレータの顔の特徴情報、すなわち、顔に設定された複数の特徴点の位置情報（座標）を抽出する。また、手元カメラ２５で撮影したオペレータの手元映像から、オペレータの手の特徴情報、すなわち、手に設定された複数の特徴点の位置情報（座標）を抽出する。

　音声認識部４７は、マイク２９で収音したオペレータの音声に対して音声認識を行い、文字情報を出力する。

　また、制御部４１は、この他に、キオスク端末１に接続する接続制御を行い、また、キオスク端末１で撮影したユーザの映像と、オペレータ端末２で撮影したオペレータの映像と、をリアルタイムで送受信する映像伝送制御などを行う。

　なお、オペレータ端末２に、手持ちの書類を読み取るスキャナを設けるようにしてもよい。また、オペレータ端末２に、操作する人物が正規のオペレータであることの認証を行うために、ＩＣカードリーダを設けるようにしてもよい。また、キオスク端末１に、オペレータ端末２から送信された書類や画面表示された情報などを印刷出力するプリンタを設けるようにしてもよい。

　また、第２モニタ２３をタブレットＰＣで構成する、すなわち、第２モニタ２３の筐体内に、制御部４１、通信部４２および記憶部４３を収容した構成としてもよい。

　次に、キオスク端末１に表示される画面について説明する。図５および図６は、キオスク端末１に表示される画面を示す説明図である。

　キオスク端末１では、スタンバイ時（オペレータ端末２に接続する前）には、正面モニタ１２がデジタルサイネージとして動作し、図５（Ａ－１）に示すように、正面モニタ１２に、お薦めプランなどの広告や施設などの案内に関するコンテンツの映像が表示される。

　また、スタンバイ時には、図５（Ａ－２）に示すように、手元モニタ１３に、メインメニュー画面（操作画面）が表示される。このメインメニュー画面には、サービスメニューを選択する操作ボタン５１が表示されている。本実施形態では、サービスメニューとして、「手続き」および「相談」を選択することができる。「相談」を選択すると、オペレータ表示モードとなり、オペレータ画面（図６（Ａ－１），（Ａ－２）参照）に遷移する。一方、「手続き」を選択すると、アバター表示モードとなり、アバター画面（図６（Ｂ－１），（Ｂ－２）参照）に遷移する。

　ここで、「手続き」は、口座開設などの手続きを行う場合であり、簡単な画面操作で済み、通常、オペレータ本人が対面して案内する必要がないため、アバター表示モードとなり、アバター画面でアバターがユーザに応対する。一方、「相談」は、ローンや信託に関する契約などに関する相談を行う場合であり、詳細な案内が必要で時間がかかるため、オペレータ本人と対面して案内する必要があるため、オペレータ表示モードとなり、オペレータ画面でオペレータ本人がユーザに応対する。なお、サービスメニューを選択した際に、アバター表示モードとオペレータ表示モードのいずれかを選択する選択画面（図示せず）を表示させるようにしてもよい。

　また、手元モニタ１３のメインメニュー画面には、通話ボタン５２が表示されている。この通話ボタン５２を操作すると、キオスク端末１がオペレータ端末２に接続された上で、オペレータ表示モードとなり、オペレータ画面（図６（Ａ－１），（Ａ－２）参照）に遷移する。これにより、簡単な操作で済む「手続き」の場合でも、オペレータに案内してもらうことができる。

　なお、オペレータ表示モードでは、オペレータ画面に遷移する前に、オペレータと対話するか否かをユーザに問い合わせる画面を表示して、ユーザが承諾する操作を行った場合に、オペレータ画面に遷移するようにしてもよい。

　また、メインメニュー画面でサービスメニューを選択した場合に、必要に応じて、図５（Ｂ－２）に示すように、サブメニュー画面に遷移するようにしてもよい。このサブメニュー画面には、各種のサブメニュー項目に対応した操作ボタン５３が表示されている。また、このサブメニュー画面には、メインメニュー画面（図５（Ａ－２）参照）と同様に、通話ボタン５２が表示されている。

　キオスク端末１がオペレータ端末２に接続されると、オペレータ表示モードでは、図６（Ａ－１）に示すように、正面モニタ１２に、オペレータ端末２の正面カメラ２４で撮影したオペレータの正面映像６１が表示され、同時に、図６（Ａ－２）に示すように、手元モニタ１３に、オペレータ端末２の手元カメラ２５で撮影したオペレータの手元映像６２が表示される。

　一方、アバター表示モードでは、図６（Ｂ－１）に示すように、正面モニタ１２に、アバターの正面動画６５が表示される。このアバターの正面動画６５は、オペレータの正面映像から抽出した顔の特徴情報に基づいて生成され、オペレータの顔の動きに応じてアバターの顔が動く。

　また、アバター表示モードでは、字幕６６（発話文字表示部）がアバターの正面動画６５上に重畳表示される（オーバーレイ）。この字幕には、オペレータが発話した音声の文字列が表示される。また、情報帯６７（案内情報表示部）がアバターの正面動画６５上に重畳表示される（スーパーインポーズ）。この情報帯６７には、天気予報、渋滞情報、株価情報などの種々の案内情報が表示される。

　また、正面モニタ１２をアバター表示モードとした場合、手元モニタ１３は、アバター表示モード、オペレータ表示モード、および操作画面表示モードのいずれかとなる。

　アバター表示モードでは、図６（Ｂ－２）に示すように、手元モニタ１３に、アバターの手元動画６８が表示される。このアバターの手元動画６８は、オペレータの手元映像から抽出した手の特徴情報に基づいて生成され、オペレータの手の動きに応じてアバターの手が動く。

　一方、オペレータ表示モードでは、図６（Ａ－２）に示した例と同様に、手元モニタ１３に、オペレータの手元映像６２が表示される。また、操作画面表示モードでは、図５（Ｂ－２）に示した例と同様に、操作画面が表示される。

　また、画面共有モードでは、手元モニタ１３に、オペレータ端末２、または、オペレータ側の図示しないＰＣで起動させたアプリケーションの画面が表示される。このアプリケーションの画面はオペレータ端末２と共有され、同一の画面がオペレータ端末２のモニタ５に表示される（画面共有機能）。また、画面共有モードでは、ユーザが手書きで画面上に描画することができる（ホワイトボード機能）。

　次に、オペレータ端末２に表示される画面について説明する。図７は、オペレータ端末２に表示される画面を示す説明図である。

　オペレータ端末２では、スタンバイ時には、第１モニタ２２に、待ち受け画面が表示され、キオスク端末１で通話ボタン５２（図５（Ａ－２），（Ｂ－２）参照）を操作すると、図７（Ａ－１）に示すように、着信画面が表示される。この着信画面には、接続相手となるキオスク端末１に関する情報（設置場所や端末名称など）が表示される。

　また、スタンバイ時には、図７（Ａ－２）に示すように、第２モニタ２３に、操作画面が表示される。この操作画面には、オペレータ端末２の制御やキオスク端末１に対する指示などを行うための各種の操作ボタン７１が表示される。

　また、第２モニタ２３には、オペレータ端末２の正面カメラ２４で撮影したオペレータの正面映像６１と、オペレータ端末２の手元カメラ２５で撮影したオペレータの手元映像６２とが表示される。このオペレータの正面映像６１および手元映像６２は、キオスク端末１に表示されるものと同じものである。なお、オペレータの手元映像６２は、元の状態と上下反転した状態とを切り替えることができる。

　一方、オペレータ端末２がキオスク端末１に接続されると、図７（Ｂ－１）に示すように、第１モニタ２２に、キオスク端末１の正面カメラ１４で撮影したユーザの正面映像７２が表示される。なお、第１モニタ２２は、所定の高さとなるように架台２１に支持されており（図３参照）、これにより、オペレータとユーザとで視線を一致させることができる。

　また、図７（Ｂ－２）に示すように、第２モニタ２３に、スタンバイ時と同様に、操作ボタン７１が表示される。また、第２モニタ２３には、スタンバイ時と同様に、オペレータの正面映像６１が表示される。このオペレータの正面映像６１は、オペレータの手元映像と切り替えることができる。また、第２モニタ２３には、オペレータの手元映像が表示された状態でキオスク端末１の手元カメラ１５で撮影したユーザの手元映像７３が表示される。なお、ユーザの手元映像７３は、元の状態と上下反転した状態とを切り替えることができる。

　第２モニタ２３に表示されるユーザの手元映像７３には、キオスク端末１の手元モニタ１３上で画面に映るパンフレットなどの書類を指し示すユーザの手先が映り、ユーザとオペレータとで互いに書類を指し示しながら対話することができる。

　なお、本実施形態では、ユーザの正面映像７２を第１モニタ２２に表示し、ユーザの手元映像７３を第２モニタ２３に表示するようにしたが、ユーザの正面映像７２と手元映像６３とを１つのモニタに表示するようにしてもよい。この場合、オペレータ側からもユーザとカウンタ越しで向き合っているような臨場感を実現することができる。

　次に、オペレータ端末２で管理されるアバターデータベースについて説明する。図８は、アバターデータベースの登録内容を示す説明図である。

　オペレータ端末２では、アバター表示モードでアバターの動画をキオスク端末１に表示したときの状況に関する情報を、アバターデータベースに登録する。このデータベース（テーブル）には、過去にアバターの動画を表示したイベントごとに、レコードＩＤ、アバターに採用されたキャラクタ、手元モニタ１３の表示内容、出力された音声の種類、座標ログなどが登録される。

　ここで、座標ログ（特徴情報の履歴）は、オペレータの正面映像から抽出された顔の特徴点の座標（位置情報）である。この座標ログを蓄積することで、過去にキオスク端末１に表示したアバターの動画を再生することができる。これにより、オペレータの正面映像やアバターの動画を録画するより、データ量を大きく削減できる。

　なお、アバターのキャラクタに応じて、動かす顔の部位が異なる場合がある。例えば、「うさぎ」では目、鼻および口を動かし、「くま」では目および口のみを動かし、鼻は動かさないようにしてもよい。この場合、動かす顔の部位、すなわち、特徴情報を抽出する部位を指定した情報を、データベースに登録するようにしてもよい。

　また、アバターの顔以外の部位、例えば、アバターの肩を動かすようにしてもよい。この場合、オペレータの正面映像からオペレータの肩の特徴情報を抽出すればよい。

　次に、オペレータ端末２で行われるキオスク端末１の正面モニタ１２に関する画面制御について説明する。図９は、正面モニタ１２に関する画面制御の手順を示すフロー図である。

　オペレータ端末２では、まず、キオスク端末１の正面モニタ１２の表示モードを判定し（ＳＴ１０１）、オペレータ表示モードである場合には、正面カメラ２４で撮影したオペレータの正面映像をキオスク端末１に送信し、キオスク端末１の正面モニタ１２にオペレータの正面映像を表示させる（ＳＴ１０２）。

　一方、アバター表示モードである場合には、正面カメラ２４で撮影したオペレータの正面映像からオペレータの顔の特徴情報を抽出して、その特徴情報をキオスク端末１に送信し、キオスク端末１において、特徴情報からアバターの正面動画を生成させて、そのアバターの正面動画を正面モニタ１２に表示させる（ＳＴ１０３）。

　次に、字幕が有効である場合には（ＳＴ１０４でＹｅｓ）、マイク２９で収音したオペレータの音声を音声認識により文字情報に変換して、その文字情報をキオスク端末１に送信し、キオスク端末１において、文字情報に基づいて、字幕の画像、すなわち、オペレータが発話した音声の文字列の画像を生成させて、その字幕の画像をアバターの正面動画上に重畳して表示させる（ＳＴ１０５）。

　また、帯情報が有効である場合には（ＳＴ１０６でＹｅｓ）、図示しないサーバから天気予報などの案内情報を取得して、その案内情報をキオスク端末１に送信し、キオスク端末１において、案内情報を可視化した帯情報の画像を生成させて、その帯情報の画像をアバターの正面動画上に重畳して表示させる（ＳＴ１０７）。

　次に、オペレータ端末２で行われるキオスク端末１の手元モニタ１３に関する画面制御について説明する。図１０は、手元モニタ１３に関する画面制御の手順を示すフロー図である。

　オペレータ端末２では、まず、キオスク端末１の手元モニタ１３の表示モードを判定し（ＳＴ２０１）、オペレータ表示モードである場合には、手元カメラ２５で撮影したオペレータの手元映像をキオスク端末１に送信して、キオスク端末１の手元モニタ１３にオペレータの手元映像を表示させる（ＳＴ２０２）。

　また、アバター表示モードである場合には、手元カメラ２５で撮影したオペレータの手元映像から手の特徴情報を抽出して、その特徴情報をキオスク端末１に送信して、キオスク端末１において、特徴情報からアバターの手元動画を生成させて、そのアバターの手元動画を手元モニタ１３に表示させる（ＳＴ２０３）。

　また、操作画面モードである場合には、操作画面（メニュー画面など）を生成して、その操作画面をキオスク端末１に送信して、キオスク端末１の手元モニタ１３に操作画面を表示させる（ＳＴ２０４）。

　また、画面共有モードである場合には、アプリケーション画面を生成して、そのアプリケーション画面をキオスク端末１に送信して、キオスク端末１の手元モニタ１３にアプリケーション画面を表示させる（ＳＴ２０５）。

　このとき、オペレータ端末２では、オペレータによる手書きの操作情報が入力されると、その操作情報に基づいて、アプリケーション画面上に、オペレータの手書き画像を重畳する。また、ユーザによる手書きの操作情報をキオスク端末１から受信すると、その操作情報に基づいて、アプリケーション画面上に、ユーザの手書き画像を重畳する。

　次に、キオスク端末１で行われる音声制御について説明する。図１１は、音声制御の手順を示すフロー図である。

　キオスク端末１では、まず、音声変換が有効であるか否かを判定する（ＳＴ３０１）。ここで、音声変換が有効である場合には（ＳＴ３０１でＹｅｓ）、オペレータ端末２から受信したオペレータの原音声に対して音声変換を行い、音声変換された音声をスピーカー１７から出力する（ＳＴ３０２）。

　一方、音声変換が無効である場合には（ＳＴ３０１でＮｏ）、オペレータ端末２から受信したオペレータの原音声をスピーカー１７から出力する（ＳＴ３０３）。

　なお、正面モニタ１２の表示モードがアバター表示モードである場合には、音声変換が有効となり、オペレータ表示モードである場合には、音声変換が無効となる。また、アバター表示モードで字幕が有効となっている場合には、音声を出力しないようにしてもよい。また、字幕を設定する操作ボタン等を配置することで、表示モードの如何に関わらず、常時、字幕を有効にすることができ、聴覚の衰えや障害のあるユーザに対しても、各種の手続きなどを案内することができる。

　以上のように、本出願において開示する技術の例示として、実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、変更、置き換え、付加、省略などを行った実施形態にも適用できる。また、上記の実施形態で説明した各構成要素を組み合わせて、新たな実施形態とすることも可能である。

　本発明に係る双方向映像通信システム及びキオスク端末は、ユーザが望むサービスの内容などの状況に応じて、キオスク端末でアバターがユーザに応対したりオペレータ本人がユーザに応対したりできる効果を有し、キオスク端末とオペレータ端末との間で、キオスク端末を操作するユーザの映像とオペレータ端末を操作するオペレータの映像とを双方向に通信する双方向映像通信システム、及びキオスク端末などとして有用である。

１　キオスク端末
２　オペレータ端末
１２　正面モニタ
１３　手元モニタ
１４　正面カメラ
１５　手元カメラ
１７　スピーカー
１８　マイク
２２　第１モニタ
２３　第２モニタ
２４　正面カメラ
２５　手元カメラ
２６　ヘッドセット
２８　スピーカー
２９　マイク
３１　制御部
３２　通信部
３３　記憶部
４１　制御部
４２　通信部
４３　記憶部
６１　オペレータの正面映像
６２　オペレータの手元映像
６５　アバターの正面動画
６６　字幕
６７　情報帯
６８　アバターの手元動画

Claims

　キオスク端末とオペレータ端末との間で、前記キオスク端末を操作するユーザの映像と前記オペレータ端末を操作するオペレータの映像とを双方向に通信する双方向映像通信システムであって、
　前記オペレータ端末は、
　前記キオスク端末と通信を行う通信部と、
　オペレータの顔を撮影するカメラと、
　オペレータが発話した音声を収音するマイクと、
　制御部と、
を備え、
　前記キオスク端末は、
　前記オペレータ端末と通信を行う通信部と、
　前記カメラで撮影したオペレータの映像を表示するモニタと、
　前記マイクで収音したオペレータの原音声を出力するスピーカーと、
　制御部と、
を備え、
　前記キオスク端末の前記制御部は、
　オペレータ表示モードにおいて、前記オペレータの映像を前記モニタに表示するとともに、前記オペレータの原音声を前記スピーカーから出力し、アバター表示モードにおいて、前記オペレータの映像から抽出された特徴情報に基づいて生成したアバターの動画を前記モニタに表示するとともに、前記オペレータの原音声をアバターに適合した声質に変換した変換音声を前記スピーカーから出力することを特徴とする双方向映像通信システム。
　前記オペレータ端末の前記制御部は、
　前記オペレータの映像から特徴情報を抽出して、その特徴情報を前記通信部から前記キオスク端末に送信し、
　前記キオスク端末の前記制御部は、
　前記オペレータ端末から受信した前記特徴情報に基づいて前記アバターの動画を生成して前記モニタに表示することを特徴とする請求項１に記載の双方向映像通信システム。
　前記オペレータ端末は、
　オペレータの顔を撮影する正面カメラと、
　オペレータの手元を撮影する手元カメラと、
を備え、
　前記キオスク端末は、
　前記正面カメラで撮影したオペレータの正面映像を表示する正面モニタと、
　前記手元カメラで撮影したオペレータの手元映像を表示する手元モニタと、
を備え、
　前記キオスク端末の前記制御部は、
　前記正面モニタに、前記オペレータの正面映像、およびアバターの正面動画のいずれかを表示し、前記手元モニタに、前記オペレータの手元映像、アバターの手元動画、および操作画面のいずれかを表示することを特徴とする請求項１または請求項２に記載の双方向映像通信システム。
　前記キオスク端末の前記制御部は、
　前記アバターの正面動画を前記正面モニタに表示するとともに、前記オペレータの手元映像を前記手元モニタに表示することを特徴とする請求項３に記載の双方向映像通信システム。
　前記オペレータ端末の前記制御部は、
　前記キオスク端末でのユーザの操作内容に応じて、前記オペレータ表示モードと前記アバター表示モードとを切り替えることを特徴とする請求項１から請求項４のいずれかに記載の双方向映像通信システム。
　前記キオスク端末の前記制御部は、
　案内情報、オペレータの発話内容を表す文字情報、およびユーザとオペレータとで共有する共有情報の少なくとも１つを、前記モニタに表示することを特徴とする請求項１から請求項５のいずれかに記載の双方向映像通信システム。
　自装置を操作するユーザの映像とオペレータ端末を操作するオペレータの映像とを、前記オペレータ端末との間で双方向に通信するキオスク端末であって、
　前記オペレータ端末と通信を行う通信部と、
　前記オペレータ端末のカメラで撮影したオペレータの映像を表示するモニタと、
　前記オペレータ端末のマイクで収音したオペレータの原音声を出力するスピーカーと、
　制御部と、
を備え、
　前記制御部は、
　オペレータ表示モードにおいて、前記オペレータの映像を前記モニタに表示するとともに、前記オペレータの原音声を前記スピーカーから出力し、アバター表示モードにおいて、前記オペレータの映像から抽出された特徴情報に基づいて生成したアバターの動画を前記モニタに表示するとともに、前記オペレータの原音声をアバターに適合した声質に変換した変換音声を前記スピーカーから出力することを特徴とするキオスク端末。