WO2017191713A1

WO2017191713A1 - 制御装置、制御方法及びコンピュータプログラム

Info

Publication number: WO2017191713A1
Application number: PCT/JP2017/010313
Authority: WO
Inventors: 真一河野; 美和市川
Original assignee: ソニー株式会社
Priority date: 2016-05-02
Filing date: 2017-03-15
Publication date: 2017-11-09
Also published as: EP3454332A1; JPWO2017191713A1; EP3454332A4; US20190121600A1; US11188288B2; US10649715B2; US20200233630A1

Abstract

【課題】発話者が発話中に、聞き手の状況を発話者や聞き手に把握させることが可能な制御装置を提供する。【解決手段】発話者が装置に対して発話した結果による発話内容を解析した結果に基づいて、前記発話者が発話している前記装置に対して前記発話者に発話を停止させるための処理を実行する制御部を備える、制御装置が提供される。

Description

制御装置、制御方法及びコンピュータプログラム

　本開示は、制御装置、制御方法及びコンピュータプログラムに関する。

　文字や音声を認識し、その文字や音声を他の言語に翻訳する技術の開発が進んでいる。そして、そのような翻訳の技術を様々な分野に適用するための技術の開発も進んでいる。例えば、特許文献１には、サイネージ端末に対して翻訳技術を適用した技術の例が開示されている。

特開２０１５－２１９７６８号公報

　発話を行う者（以下「発話者」とも称する）が一方的に話し続けると、聞き手側は情報を処理しきれなくなるが、聞き手が発話者に対して発話を強制的に止めさせると円滑なコミュニケーションが出来なくなる。

　そこで、本開示では、発話者が発話中に、聞き手の状況を発話者や聞き手に把握させることが可能な、新規かつ改良された制御装置、制御方法およびコンピュータプログラムを提案する。

　本開示によれば、発話者が装置に対して発話した結果による発話内容を解析した結果に基づいて、前記発話者が発話している前記装置に対して前記発話者に発話を停止させるための処理を実行する制御部を備える、制御装置が提供される。

　また本開示によれば、発話者が装置に対して発話した結果による発話内容を解析した結果に基づいて、前記発話者が発話している前記装置に対して前記発話者に発話を停止させるための処理を実行することを含む、制御方法が提供される。

　また本開示によれば、発話者が装置に対して発話した結果による発話内容を解析した結果に基づいて、前記発話者が発話している前記装置に対して前記発話者に発話を停止させるための処理を実行することをコンピュータに実行させる、コンピュータプログラムが提供される。

　以上説明したように本開示によれば、翻訳処理をスムーズに継続させることが可能な、新規かつ改良された制御装置、制御方法およびコンピュータプログラムを提供することができる。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の実施の形態に係る、サイネージ端末１００を用いたコミュニケーションシステムについて示す説明図である。同実施の形態に係る、サイネージ端末１００を用いたコミュニケーションシステム１の全体構成例を示す説明図である。サイネージ端末１００を上方向から見た場合の例を示す説明図である。同実施の形態に係るサイネージ端末１００の機能構成例を示す説明図である。同実施の形態に係る情報処理装置２００の機能構成例を示す説明図である。同実施の形態に係る音声信号処理装置３００の機能構成例を示す説明図である。同実施の形態に係る翻訳処理装置４００の機能構成例を示す説明図である。同実施の形態に係るコミュニケーションシステム１の動作例を説明する説明図である。同実施の形態に係るコミュニケーションシステム１の動作例を説明する説明図である。ユーザインターフェースの例を示す説明図である。ユーザｕ１から見てサイネージ端末１００の反対側にユーザｕ２が立った状態の例を示す説明図である。ディスプレイ１０３の表示例を示す説明図である。ユーザインターフェースの例を示す説明図である。ユーザｕ１が顔を高感度マイク位置に近付ける様子を示す説明図である。ユーザインターフェースの例を示す説明図である。ユーザインターフェースの例を示す説明図である。ユーザインターフェースの例を示す説明図である。ユーザインターフェースの例を示す説明図である。コミュニケーションシステム１が翻訳モードを継続すべきかどうかの判断を行うことを説明するための説明図である。コミュニケーションシステム１が翻訳モードを継続すべきかどうかの判断を行うことを説明するための説明図である。コミュニケーションシステム１が翻訳モードを継続すべきかどうかの判断を行うことを説明するための説明図である。ユーザインターフェースの例を示す説明図である。コミュニケーションシステム１が翻訳モードを継続すべきかどうかの判断を行うことを説明するための説明図である。コミュニケーションシステム１が聞き手側の処理あふれの判断を行うことを説明するための説明図である。コミュニケーションシステム１が聞き手側の処理あふれの判断を行うことを説明するための説明図である。コミュニケーションシステム１が聞き手側の処理あふれの判断を行うことを説明するための説明図である。コミュニケーションシステム１が聞き手側の処理あふれの判断を行うことを説明するための説明図である。ユーザインターフェースの例を示す説明図である。同実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。同実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。同実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。同実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。口の位置情報、左目の位置情報、右目の位置情報、および鼻の最下部位置情報を示す説明図である。左の耳位置および右の耳位置を示す説明図である。同実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。高感度マイク位置の決定方法を説明するための説明図である。同実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。同実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。同実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。同実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。同実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。同実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。同実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。同実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。同実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。同実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。同実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。同実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。同実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。同実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。同実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。同実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。同実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。同実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。同実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．本開示の実施の形態
　　１．１．概要
　　１．２．構成例
　　１．３．動作例
　２．まとめ

　＜１．本開示の実施の形態＞
　［１．１．概要］
　本開示の実施の形態について詳細に説明する前に、本開示の実施の形態の概要を説明する。

　上述したように、文字や音声を認識し、その文字や音声を他の言語に翻訳する技術の開発が進んでいる。そして、そのような翻訳の技術を様々な分野に適用するための技術の開発も進んでいる。例えば、上記特許文献１には、透明なディスプレイを備えるサイネージ端末に対して翻訳技術を適用して、人間同士がコミュニケーションを取りやすくするための技術の例が開示されている。

　例えば、街中に置かれているサイネージ端末や、遠隔地同士を結ぶテレビ電話などを介して、人間同士が正対してコミュニケーション、特に、会話及び翻訳結果の提示を行う状況を考える。このようにサイネージ端末を介して人間同士が正対してコミュニケーションをとる場合、以下に示すような点を考慮する必要がある。

　（１）発話開始時
　発話者の口と、サイネージ端末に設けられるマイクとの距離が遠いと、サイネージ端末は音声認識を失敗する可能性が高くなる。また、サイネージ端末は、音声認識処理を常時起動させておくと、音声認識の対象となる区間を特定しにくくなるため、音声認識を失敗する可能性が高くなる。さらに、ディスプレイサイズが大きいサイネージ端末において、マイクの位置を全ての人に向けて最適化することは現実的では無く、誰かによっては、発話時に体の移動が大きくなる位置にマイクを配置せざるを得ない。

　つまり、発話者は口をマイクに近付ける必要があるが、発話者が体をマイクに近付けたり、口をマイクに近付けたりすることで発話者の姿勢が崩れ、対話相手は違和感を覚えやすくなる。また、音声認識を起動させるためのユーザインターフェースをディスプレイに表示させる場合、発話者がユーザインターフェースを探すために視線を移動させたり、ユーザインターフェースを操作したりする必要が生じる。これにより、正対して会話をしたいのに発話者が対話者の顔とは違う方向を見ることとなり、そもそもこれらの行動は本来会話には不要な行動なので、対話として不自然な状況となる。

　ディスプレイの全面がマイクになる等の技術を開発することで、発話者が発話時に不自然な場所を見ることに起因する不自然な対話を回避することは出来るかもしれない。しかし、人によって口の位置が異なるために、特定のマイクの感度だけを高めて音声認識の成功率を高めるのは難しく、またマイクが多くなればなるほど周囲の雑音などが拾われやすくなるため、かえって音声認識を失敗する可能性が高くなってしまう。ビームフォーミング技術によって特定の方向のマイク感度だけを上げることも可能ではあるが、この場合でも周囲の雑音などの影響を受けやすくなり、音声認識を失敗する可能性が高くなってしまう。

　（２）発話者が発話中における発話側の考慮点
　サイネージ端末を介して、人間同士が正対して、発話内容を翻訳しながらコミュニケーションする場合、発話における風習や慣習の違い、使用言語の違いなどにより、発話側の発話内容を理解できない聞き手側は、受け取った音声と、その音声の翻訳結果とが一致しているかどうかを理解することが非常に困難である。発話者が単に独り言を呟いただけかもしれないし、考え込んで間が空いた状態で変な認識や翻訳が行われただけかもしれないが、聞き手側はそのことを完全に把握することは困難である。そして、発話者の発話が止まると聞き手側が話し始める場合もありうるが、その行動が発話者の意図に沿わないことも考えられ、お互いにとって期待されたコミュニケーションとならないおそれがある。

　しかし、サイネージ端末が翻訳処理中であることを発話側が聞き手側に伝え続けるのは手間が多い。また人間は不要な言葉を発話しやすいので、発話した言葉が翻訳すべきものなのかをサイネージ端末が区別するのも非常ニコン案である。そもそも、サイネージ端末が翻訳処理中であることを発話側が聞き手側に伝えられたとしても、そのこと自体はコミュニケーションには不要であり、そもそも会話としては不自然である。

　発話者は、発話する内容に困りつつも、考えながら話したり、質問したい内容を思い出しながら話したりする状況も多い。従って、発話していない場合でも、聞き手側から会話を遮って欲しくないことが多い。しかし、そこまでの意図を発話者が発話等で自然に聞き手側に伝えることは難しく、特に翻訳が発生する状況であれば尚更である。その結果、発話者の発話を遮って聞き手側が話し始めてしまう可能性がある。

　すなわち、サイネージ端末を介した、翻訳を要するコミュニケーションにおいて、余計な言葉を翻訳せず、必要な部分だけを翻訳し、サイネージ端末が翻訳処理中であることを聞き手側に簡単に伝えることで、会話を自然な状態に保つことが強く求められる。

　（３）発話者が発話中における聞き手側の考慮点
　サイネージ端末を介した、翻訳を要するコミュニケーションにおいて、サイネージ端末が次々に発話者の発話内容を翻訳し続け、翻訳結果を多量に提示すると、翻訳結果の受け手は処理ができなくなり、コミュニケーションが破綻する。

　一方、発話側は自分の発話量を把握し続けることは難しく、発話に夢中になると、気が付かない内に情報量が大きく膨れあがってしまう。聞き手側に提示される情報量は翻訳されているため、その翻訳後の情報量の大小を発話側が把握することは困難であるとともに、聞き手側が発話量の多さを感じていることを把握することも困難である。聞き手側としては、発話側に適切な量で発話を止めて欲しいので、聞き手側は、言語の壁によらずにそのことを発話側に伝えることが求められる。

　また、発話側の発話量や、翻訳後の情報量が大きく膨れあがった際に、聞き手側は、発話者に対して発話を止めさせる必要がある。しかし、聞き手側が情報量の多さを感じていることを発話者に通知すると、コミュニケーションが不自然となり、そもそも通知自体をためらいがちになる。さらに発話者がマイクに口を近付けていると正対している状態が崩れるため、受け手側が積極的にマイクに近づきづらい。

　そこで本件開示者は、上述した点に鑑みて、サイネージ端末等を介して、人間同士が正対してコミュニケーション、特に、会話及び翻訳結果の提示を行う状況において、自然なコミュニケーションを可能にするための技術について鋭意検討を行った。その結果、本件開示者は、サイネージ端末等を介して、人間同士が正対してコミュニケーションを行う際に、発話者や対話者の状況を検出することで自然なコミュニケーションを可能にするための技術を考案するに至った。

　以上、本開示の実施の形態の概要について説明した。続いて、本開示の実施の形態についてより詳細に説明する。

　［１．２．構成例］
　図１は、本開示の実施の形態に係る、サイネージ端末１００を用いたコミュニケーションシステムについて示す説明図である。

　サイネージ端末１００は、街中、例えば駅、デパート、ショッピングモール、スタジアムなどの人が多く集まる場所に設置される、大型のディスプレイを備えた情報表示端末である。本実施形態に係るサイネージ端末１００は、正対して人間同士のコミュニケーションを行える機能を有しており、特に、人間の発話内容を解析し、翻訳して、対話相手に伝える機能を有する。本実施形態では、２人の人間（ユーザｕ１、ｕ２）が、サイネージ端末１００を挟んで対話しているケースを前提として説明する。

　（コミュニケーションシステム１）
　図２は、本開示の実施の形態に係る、サイネージ端末１００を用いたコミュニケーションシステム１の全体構成例を示す説明図である。以下、図２を用いて、本開示の実施の形態に係るコミュニケーションシステム１の全体構成例について説明する。

　図２に示したように、本開示の実施の形態に係るコミュニケーションシステム１は、サイネージ端末１００と、情報処理装置２００と、音声情報処理装置３００と、翻訳処理装置４００と、を含んで構成される。

　サイネージ端末１００は、人間同士のコミュニケーションを手助けする機能を有する情報表示端末である。本実施形態では、サイネージ端末１００は、一方の面に、カメラ１０１、マイク１０２ａ～１０２ｈ、ディスプレイ１０３を備える。カメラ１０１は、サイネージ端末１００を利用する人間の姿を撮像する。マイク１０２ａ～１０２ｈは、サイネージ端末１００を利用する人間の発話内容を集音する。本実施形態では、マイク１０２ａ～１０２ｄが一方の辺に設けられ、マイク１０２ｅ～１０２ｈが反対の辺に設けられているが、マイクの数及び配置は係る例に限定されるものでは無い。以下の説明では、マイク１０２ａ～１０２ｈと単にマイク１０２と総称する場合がある。

　なお、マイク１０２ａ～１０２ｈは、全てが集音可能状態となっている必要は無く、ユーザｕ１、ｕ２の顔の位置に応じて少なくとも一つだけが集音可能な状態となっていてもよい。集音可能な状態とするマイク１０２の選択方法については後に詳述する。

　ディスプレイ１０３は、種々の情報を表示する表示デバイスであり、液晶ディスプレイ、有機ＥＬディスプレイなどで構成される。ディスプレイ１０３は透明であっても良く非透明であってもよい。本実施形態では、ディスプレイ１０３は、ユーザｕ１、ｕ２の発話内容を翻訳したものを表示したり、ユーザｕ１、ｕ２の発話状況を相手に伝えるための情報を表示したりする。

　図３は、サイネージ端末１００を上方向から見た場合の例を示す説明図である。このように、サイネージ端末１００は、一方の面に、カメラ１０１、マイク１０２ａ～１０２ｈ、ディスプレイ１０３を備え、その面の反対側の面に、カメラ１０１’、マイク１０２ａ’～１０２ｈ’、ディスプレイ１０３’を備える。

　情報処理装置２００は、主に、サイネージ端末１００に表示させる情報の表示に関する処理を実行する装置である。情報処理装置２００は、サイネージ端末１００との間で何らかの通信路により接続されている。通信路は有線であっても良く、無線であっても良い。またサイネージ端末１００と情報処理装置２００との間の通信における通信プロトコルは問わない。

　音声情報処理装置３００は、主に、サイネージ端末１００のマイク１０２ａ～１０２ｈで集音された音声に対する処理を実行する装置である。音声情報処理装置３００は、情報処理装置２００との間で何らかの通信路により接続されている。通信路は有線であっても良く、無線であっても良い。また情報処理装置２００と音声情報処理装置３００との間の通信における通信プロトコルは問わない。

　翻訳処理装置４００は、主に、翻訳に関する処理を実行する装置であり、特に、ユーザｕ１、ｕ２によって発話され、音声情報処理装置３００によって認識された内容に対する翻訳処理を実行する装置である。翻訳処理装置４００は、音声情報処理装置３００との間で何らかの通信路により接続されている。通信路は有線であっても良く、無線であっても良い。音声情報処理装置３００と翻訳処理装置４００との間の通信における通信プロトコルは問わない。

　なお、図２に示した例では、サイネージ端末１００が情報処理装置２００、音声情報処理装置３００および翻訳処理装置４００とネットワークで接続されている構成を示したが、本開示は係る例に限定されるものでは無い。情報処理装置２００、音声情報処理装置３００および翻訳処理装置４００に設けられる機能の少なくとも一部がサイネージ端末１００に設けられていてもよく、逆にサイネージ端末１００に設けられる機能の一部が情報処理装置２００、音声情報処理装置３００または翻訳処理装置４００に設けられても良い。また図２には、情報処理装置２００、音声情報処理装置３００および翻訳処理装置４００の３つの装置を示したが、本開示は係る例に限定されるものでは無く、いずれかの装置に設けられる機能の少なくとも一部が別の装置に設けられても良い。

　以上、図２を用いて、本開示の実施の形態に係るコミュニケーションシステム１の全体構成例について説明した。続いて、本開示の実施の形態に係るサイネージ端末１００の機能構成例について説明する。

　（サイネージ端末１００）
　図４は、本開示の実施の形態に係るサイネージ端末１００の機能構成例を示す説明図である。以下、図４を用いて本開示の実施の形態に係るサイネージ端末１００の機能構成例について説明する。

　図４に示したように、本開示の実施の形態に係るサイネージ端末１００は、カメラ１０１、マイク１０２、ディスプレイ１０３、通信部１０４、及び制御部１０５を含んで構成される。

　カメラ１０１は、上述したように、サイネージ端末１００を利用する人間の姿を動画像で撮像する。カメラ１０１が撮像する動画像は制御部１０５に送られたり、また通信部１０４を介して情報処理装置２００に送られたりする。

　マイク１０２は、上述したように、サイネージ端末１００を利用する人間が発話する声を集音する。マイク１０２が集音した音は、制御部１０５に送られたり、また通信部１０４を介して音声情報処理装置３００に送られたりする。

　ディスプレイ１０３は、上述したように、種々の情報を表示する表示デバイスであり、液晶ディスプレイ、有機ＥＬディスプレイなどで構成される。ディスプレイ１０３は透明であっても良く非透明であってもよい。本実施形態では、ディスプレイ１０３は、ユーザｕ１、ｕ２の発話内容を翻訳したものを表示したり、ユーザｕ１、ｕ２の発話状況を相手に伝えるための情報を表示したりする。ディスプレイ１０３への情報の表示は、例えば後述の制御部１０５や、情報処理装置２００によって制御される。

　通信部１０４は、他の装置との間の情報を授受するための通信インターフェースである。通信部１０４は、他の装置との間で有線通信を行っても良く、無線通信であっても良い。また通信部１０４は、他の装置との間の通信における通信プロトコルに任意のものを適用することができる。

　制御部１０５は、例えばＣＰＵ（Central Processing Unit）等のプロセッサや、ＲＯＭ、ＲＡＭなどで構成され、サイネージ端末１００の各部の動作を制御する。

　本実施形態では、制御部１０５は、表示制御部１０６と、集音制御部１０７と、検出部１０８と、を含んで構成される。

　表示制御部１０６は、ディスプレイ１０３への情報の表示を制御する。表示制御部１０６によってディスプレイ１０３へ表示される情報の例は後に詳述する。

　集音制御部１０７は、複数のマイク１０２に対して、集音機構のオン、オフを切り替える制御を行う。集音制御部１０７は、後述する高感度マイク位置取得フローによって高感度マイク位置として決定されたマイク１０２のみ、集音機構をオンさせる処理を行う。集音制御部１０７は、例えば、カメラ１０１で撮像された人間の顔の位置に基づいて、集音機構をオン、またはオフさせるマイク１０２を選択する。集音制御部１０７による、マイク１０２に対する集音機構のオン、オフの切り替えの具体例は後に詳述する。

　検出部１０８は、カメラ１０１が撮像した画像を用いて様々な検出処理を行う。本実施形態では、検出部１０８が行う検出処理として、人物の検出、顔の検出、顔のパーツの検出、耳の位置の推定、動き量の検出、集音制御部１０７が集音機構をオンさせたマイク１０２への口の近接の判断、ユーザの視線検出、ユーザの相槌やうなずきの検出、ユーザの掌の検出、等がある。検出部１０８によって検出される情報は、後述の様々な処理、例えば、初期処理フロー、耳位置推定フロー、高感度マイク位置取得フロー、翻訳モード処理フロー、球オブジェクトアニメーション処理フロー、翻訳モード継続判断処理フロー、処理量あふれ判断処理フローなどに用いられうる。

　以上、図４を用いて本開示の実施の形態に係るサイネージ端末１００の機能構成例について説明した。続いて、本開示の実施の形態に係る情報処理装置２００の機能構成例について説明する。

　（情報処理装置２００）
　図５は、本開示の実施の形態に係る情報処理装置２００の機能構成例を示す説明図である。以下、図５を用いて本開示の実施の形態に係る情報処理装置２００の機能構成例について説明する。

　図５に示したように、本開示の実施の形態に係る情報処理装置２００は、通信部２１０と。制御部２２０と、を含んで構成される。

　通信部２１０は、他の装置との間の情報を授受するための通信インターフェースである。通信部２１０は、他の装置との間で有線通信を行っても良く、無線通信であっても良い。また通信部２１０は、他の装置との間の通信における通信プロトコルに任意のものを適用することができる。

　制御部２２０は、例えばＣＰＵ等のプロセッサや、ＲＯＭ、ＲＡＭなどで構成され、情報処理装置２００の各部の動作を制御する。制御部２２０は、後述するコミュニケーションシステム１の処理フロー、例えば、初期処理フロー、耳位置推定フロー、高感度マイク位置取得フロー、翻訳モード処理フロー、球オブジェクトアニメーション処理フロー、翻訳モード継続判断処理フロー、処理量あふれ判断処理フローなどを実行する。

　本実施形態では、制御部２２０は、表示制御部２２１と、画像生成部２２２と、判断部２２３と、を含んで構成される。

　表示制御部２２１は、サイネージ端末１００のディスプレイ１０３への情報の表示を制御する。表示制御部２２１は、例えば、サイネージ端末１００を使用している人物が写っている画像に対する画像処理を行う。表示制御部２２１によって行われうる画像処理の内容については後に詳述する。

　画像生成部２２２は、例えば表示制御部２２１によって行われうる画像処理の結果に応じて、ディスプレイ１０３へ表示する画像を生成する。画像生成部２２２によって行われうる画像生成処理の内容については後に詳述する。

　判断部２２３は、コミュニケーションシステム１において行われるコミュニケーションに関する処理、具体的には、後述するコミュニケーションシステム１の処理フローにおける様々な判断処理を実行する。判断部２２３によって行われうる判断処理の内容については後に詳述するが、一例を挙げれば、例えば、発話者が発話を一時的に止めた場合に、翻訳処理を継続すべきか否かの判断や、発話内容または翻訳結果を受け取っている受け手が発話量の多さを感じているか否かの判断などを行いうる。

　判断部２２３は、例えば、発話者による発話内容が、発話内容に対する翻訳処理を継続すべきかどうかを判断するレベルとなった場合に、発話者の発話内容及び発話状況に基づいて、翻訳処理の継続判断を行う。判断部２２３が翻訳処理の継続判断を行った結果、翻訳処理を継続すべきであると判断した場合は、情報処理装置２００は、翻訳処理装置４００に翻訳処理を継続させ、翻訳処理を終了すべきであると判断した場合は、翻訳処理装置４００に翻訳処理を終了させる。

　以上、図５を用いて本開示の実施の形態に係る情報処理装置２００の機能構成例について説明した。続いて、本開示の実施の形態に係る音声情報処理装置３００の機能構成例について説明する。

　（音声情報処理装置３００）
　図６は、本開示の実施の形態に係る音声情報処理装置３００の機能構成例を示す説明図である。以下、図６を用いて本開示の実施の形態に係る音声情報処理装置３００の機能構成例について説明する。

　図６に示したように、本開示の実施の形態に係る音声情報処理装置３００は、通信部３１０と。制御部３２０と、を含んで構成される。

　通信部３１０は、他の装置との間の情報を授受するための通信インターフェースである。通信部３１０は、他の装置との間で有線通信を行っても良く、無線通信であっても良い。また通信部３１０は、他の装置との間の通信における通信プロトコルに任意のものを適用することができる。

　制御部３２０は、例えばＣＰＵ等のプロセッサや、ＲＯＭ、ＲＡＭなどで構成され、音声情報処理装置３００の各部の動作を制御する。

　本実施形態では、制御部３２０は、検出部３２１と、解析部３２２と、生成部３２３と、を含んで構成される。

　検出部３２１は、サイネージ端末１００に向かって発せられた人間の声を検出する。検出部３２１が検出した声は解析部３２２において解析が行われる。検出部３２１は、人間の声を検出する際に、発話の内容を検出する他、言い淀みの検出、所定の言葉（フィラーワード）の検出、発話のトーンの検出、無音区間の検出などを行いうる。

　解析部３２２は、検出部３２１によって検出された人間の声に対して様々な解析処理を実行する。解析部３２２が実行する解析処理としては、例えば、音声情報の解析、言語の解析、発話内容に含まれる形態素や句の解析などが行われうる。

　生成部３２３は、解析部３２２による解析結果に基づいて、サイネージ端末１００に向かって発せられた内容をテキストにしたものを生成する。生成部３２３が生成したテキストは、翻訳処理装置４００での翻訳処理に用いられる。

　以上、図６を用いて本開示の実施の形態に係る音声情報処理装置３００の機能構成例について説明した。続いて、本開示の実施の形態に係る翻訳処理装置４００の機能構成例について説明する。

　（翻訳処理装置４００）
　図７は、本開示の実施の形態に係る翻訳処理装置４００の機能構成例を示す説明図である。以下、図７を用いて本開示の実施の形態に係る翻訳処理装置４００の機能構成例について説明する。

　図７に示したように、本開示の実施の形態に係る翻訳処理装置４００は、通信部４１０と。制御部４２０と、を含んで構成される。

　通信部４１０は、他の装置との間の情報を授受するための通信インターフェースである。通信部４１０は、他の装置との間で有線通信を行っても良く、無線通信であっても良い。また通信部４１０は、他の装置との間の通信における通信プロトコルに任意のものを適用することができる。

　制御部４２０は、例えばＣＰＵ等のプロセッサや、ＲＯＭ、ＲＡＭなどで構成され、翻訳処理装置４００の各部の動作を制御する。

　本実施形態では、制御部４２０は、翻訳処理部４２１と、スコア生成部４２２と、を含んで構成される。

　翻訳処理部４２１は、音声情報処理装置３００がサイネージ端末１００に向かって発せられた人間の声から生成したテキスト、またはサイネージ端末１００に向かって発せられた人間の声を直接用いた、別の言語への翻訳処理を行う。

　スコア生成部４２２は、翻訳処理部４２１における翻訳処理の際のスコアを生成する。スコア生成部４２２によるスコアの生成処理については後に詳述する。

　以上、図７を用いて本開示の実施の形態に係る翻訳処理装置４００の機能構成例について説明した。続いて、本開示の実施の形態に係るコミュニケーションシステム１の動作例を説明する。

　［１．３．動作例］
　（ユースケース例）
　本開示の実施の形態に係るコミュニケーションシステム１の動作例を説明するにあたり、以下で説明するようなユースケースを用いる。以下の説明では、ユーザｕ１の母国語は英語、ユーザｕ２の母国語は英語以外の言語、例えば日本語であるとする。

　図８は、本開示の実施の形態に係るコミュニケーションシステム１の動作例を説明する説明図である。例えば、外国から来たユーザｕ１が、目的地への行き方や、食べ物を買える場所などが分からずに困っている状況を考える。ユーザｕ１は、街中を彷徨っていると、翻訳をしながらコミュニケーションが可能である旨のメッセージが書かれたサイネージ端末１００を見つけたので、誰かに教えて貰うことを期待してその前に立つ。このとき、ディスプレイ１０３’には、カメラ１０１が撮像するユーザｕ１の姿が映し出されている。

　図９は、本開示の実施の形態に係るコミュニケーションシステム１の動作例を説明する説明図である。困った顔をしてサイネージ端末１００の前に立っているユーザｕ１を見つけたユーザｕ２は、そのユーザｕ１を助けたいと思っているが、英語が苦手である。しかし、ユーザｕ２は、翻訳をしながらコミュニケーションが可能なサイネージ端末１００を介してなら何とかなるかもしれないと思い、意を決してサイネージ端末１００の前に立つ。

　すると、ユーザｕ１は、サイネージ端末１００の反対側にユーザｕ２が現れたので、サイネージ端末１００に向かって話しかける。サイネージ端末１００は、ユーザｕ１の発話内容を取得して、バックにあるサーバでの翻訳処理の内容を、ユーザｕ２の側にあるディスプレイに出力する。ユーザｕ２は、サイネージ端末１００が出力する翻訳処理の内容を確認することで、ユーザｕ１の発話内容を知ることが出来る。

　（初期処理）
　まず初期処理について説明する。コミュニケーションシステム１は、ユーザがサイネージ端末１００の前に立つと、初期処理として、会話モードへの移行を行う。コミュニケーションシステム１は、例えば、カメラ１０１が撮像した画像から人を検出し、顔がカメラ１０１に正対していて顔検出が可能な状態となり、さらにその人が所定時間以上その場にとどまったことを条件に会話モードへと移行する。

　コミュニケーションシステム１は、会話モードへ移行すると、サイネージ端末１００に正対しているユーザの画像情報から種々の処理を初期処理として実行する。コミュニケーションシステム１は、初期処理として、例えばユーザの顔をシミュレートした画像の生成、ユーザの頭、顔、体の輪郭情報を用いたユーザインターフェースの生成、ユーザの目、口、鼻の位置の情報の取得及び口並びの鼻の位置の情報に基づく耳の位置の計算などを行う。これらの初期処理は、例えば情報処理装置２００が実行しうる。

　また、コミュニケーションシステム１は、初期処理として、マイク位置の情報をユーザインターフェースに反映させる処理を行う。具体的には、コミュニケーションシステム１は、サイネージ端末１００に備えられるマイク１０２の位置の情報と、取得したユーザの口の位置の情報とから、ユーザに口を近付けて発話してもらうマイク１０２の位置を示すためのユーザインターフェースを生成する。

　図１０は、サイネージ端末１００のディスプレイ１０３に表示されるユーザインターフェースの例を示す説明図である。図１０に示したのは、ユーザｕ１がサイネージ端末１００の前に立った場合におけるユーザインターフェースの例である。コミュニケーションシステム１は、サイネージ端末１００に正対しているユーザｕ１の画像情報から、ユーザｕ１の正対身体輪郭ＵＩ１１１を生成し、ディスプレイ１０３に表示させる。また、コミュニケーションシステム１は、マイク１０２の位置の情報と、取得したユーザの口の位置の情報とから、ユーザに口を近付けて発話してもらうマイク１０２の位置（高感度マイク位置と称する）を決定し、その高感度マイク位置を示すマイクＵＩ１１２を生成し、ディスプレイ１０３に表示させる。

　コミュニケーションシステム１は、正対身体輪郭ＵＩ１１１における口に該当する位置から遠くなる位置にあるマイク１０２の位置を、ユーザに口を近付けて発話してもらう高感度マイク位置として決定しても良い。これは、発話時にはなるべく正対身体輪郭ＵＩ１１１から外れて発話することをユーザに促すためである。

　コミュニケーションシステム１は、マイクＵＩ１１２をディスプレイ１０３に表示させる際に、正対身体輪郭ＵＩ１１１における口に該当する位置から、ユーザに口を近付けて発話してもらう高感度マイク位置へ移動させるよう表示しても良い。またコミュニケーションシステム１は、マイクＵＩ１１２をディスプレイ１０３に表示させる際に、点滅して表示させたり、上下に動くよう表示させたりしてもよい。

　図１１は、ユーザｕ１から見てサイネージ端末１００の反対側にユーザｕ２が立った状態の例を示す説明図である。そして図１２は、図１０に示したユーザインターフェースがディスプレイ１０３に表示されている場合において、ユーザｕ１から見てサイネージ端末１００の反対側にユーザｕ２が立った際の、ディスプレイ１０３の表示例を示す説明図である。このようにディスプレイ１０３には、反対側に設けられたカメラ１０１’が撮像した画像が表示されうる。

　図１３は、サイネージ端末１００のディスプレイ１０３’に表示されるユーザインターフェースの例を示す説明図である。図１３に示したのは、ユーザｕ２がサイネージ端末１００の前に立った場合におけるユーザインターフェースの例である。コミュニケーションシステム１は、サイネージ端末１００に正対しているユーザｕ２の画像情報から、ユーザｕ２の正対身体輪郭ＵＩ１１１’を生成し、ディスプレイ１０３’に表示させる。また、コミュニケーションシステム１は、マイク１０２’の位置の情報と、取得したユーザの口の位置の情報とから、ユーザに口を近付けて発話してもらうマイク１０２’の位置（高感度マイク位置）を示すマイクＵＩ１１２’を生成し、ディスプレイ１０３’に表示させる。

　このように、サイネージ端末１００の前にユーザｕ１、ｕ２が立つと、コミュニケーションシステム１は初期処理を実行する。初期処理が完了すると、続いてコミュニケーションシステム１は、翻訳モードへの移行、及び音声認識の起動処理を行う。

　（翻訳モードへの移行、音声認識の起動）
　コミュニケーションシステム１は、サイネージ端末１００の前に立つユーザの口の位置と、高感度マイク位置との距離が所定の閾値以下となると、翻訳モードへ移行させる。図１４は、ユーザｕ１が顔を高感度マイク位置に近付ける様子を示す説明図である。このようにユーザｕ１が顔を高感度マイク位置に近付けて、ユーザの口の位置と、高感度マイク位置との距離が所定の閾値以下となることが検出されると、コミュニケーションシステム１は、翻訳モードへ移行させる。

　そして、コミュニケーションシステム１は、翻訳モードへと移行させると、音声認識を起動させる。コミュニケーションシステム１は、音声認識を起動させる際には、初期処理で生成していた、ユーザｕ１の顔をシミュレートした画像を、相手側のディスプレイ１０３’における、ユーザｕ１の正対身体輪郭ＵＩ１１１の顔の位置に表示させる処理を実行する。

　図１５は、コミュニケーションシステム１が音声認識を起動させた際に、ディスプレイ１０３’に表示されるユーザインターフェースの例を示す説明図である。ユーザｕ１が顔を高感度マイク位置に近付けて、体の位置が正対身体輪郭から外れると、コミュニケーションシステム１は、ユーザｕ１の顔の位置に、ユーザｕ１の顔をシミュレートした画像１１４を表示させる。

　このように、ユーザｕ１の顔の位置に、ユーザｕ１の顔をシミュレートした画像１１４を表示させることで、コミュニケーションシステム１は、ユーザｕ１が顔を高感度マイク位置に近付けている場合であっても、ユーザｕ１とユーザｕ２とが、サイネージ端末１００を挟んで向かい合って対話しているように見せることが出来る。

　コミュニケーションシステム１は、ユーザｕ１の顔をシミュレートした画像１１４を表示させる際、ユーザｕ２の方に見えているユーザｕ１の姿の一部、または全部を画像１１４に置き換えても良い。ユーザｕ１の顔をシミュレートした画像１１４は、顔全体であってもよく、口元や目元だけなど顔の一部分であっても良い。またコミュニケーションシステム１は、ユーザｕ１の顔をシミュレートした画像１１４を表示させる際、その画像１１４に対して、話しているように口の部分を動かしたり、ランダムな間隔で瞬きをさせたりする画像処理を行っても良い。

　なお、コミュニケーションシステム１は、ユーザｕ１がサイネージ端末１００に正対した時点で、ユーザｕ２の方に見えているユーザｕ１の姿の一部、または全部を画像１１４に置き換えても良い。

　またコミュニケーションシステム１は、音声認識を起動させる際には、高感度マイク位置以外の位置にあるマイク１０２をオフさせる。またコミュニケーションシステム１は、音声認識を起動させると、音声認識を起動させている間、ユーザｕ１の視線情報を取得し続ける。またコミュニケーションシステム１は、音声認識を起動させると、音声認識を起動させている間、ユーザｕ１の発話の周波数情報を取得し続ける。

　またコミュニケーションシステム１は、音声認識を起動させる際には、音声認識を終了させるためのユーザインターフェースをディスプレイ１０３に表示させる。コミュニケーションシステム１は、音声認識を終了させるためのユーザインターフェースとして、例えば、正対身体輪郭ＵＩ１１１を点滅させたり、現在の身体輪郭の情報を身体輪郭ユーザインターフェースとして表示させたりしてもよい。

　（音声入力、翻訳処理）
　コミュニケーションシステム１は、ユーザｕ１が高感度マイク位置のマイク１０２に向かって発話を行うと、その発話の内容が相手のユーザｕ２に届いていることを示すユーザインターフェースを表示させても良い。

　図１６は、ユーザｕ１の側のディスプレイ１０３に表示されるユーザインターフェースの例を示す説明図である。ユーザｕ１が高感度マイク位置のマイク１０２に向かって発話を行うと、コミュニケーションシステム１は、その発話の認識結果を表示する球ＵＩ１１５をディスプレイ１０３に表示させる。この球ＵＩ１１５は、ユーザｕ１の口の高さから、ディスプレイ１０３に表示されているユーザｕ２の耳に向かって移動するように表示されるユーザインターフェースである。

　このような演出を行うことで、コミュニケーションシステム１は、ユーザｕ１の発話の内容が相手のユーザｕ２に届いていることを示すことができる。

　またコミュニケーションシステム１は、ユーザｕ１が高感度マイク位置のマイク１０２に向かって発話を行うと、その発話の音声認識結果をディスプレイ１０３に表示させてもよい。図１６には、ユーザｕ１の発話の音声認識結果１１６がディスプレイ１０３に表示されている例が示されている。図１６に示した例では、ユーザｕ１が英語で発話していることを音声情報処理装置３００が認識し、ユーザｕ１の発話内容が英語としてディスプレイ１０３にされている。ユーザがどの言語で発話したかどうかは、音声情報処理装置３００が自動的に認識しても良いし、音声情報処理装置３００が発話内容を解析することによって判定してもよい。また、ユーザにサイネージ端末１００を操作させて、どの言語で発話するかをサイネージ端末１００に対して指定させてもよい。

　コミュニケーションシステム１は、ユーザｕ１の発話の音声認識結果を用いて翻訳処理を実行する。コミュニケーションシステム１は、翻訳処理の実行の際には、翻訳処理のスコアを取得し続ける。スコアの取得方法は後に詳述する。またコミュニケーションシステム１は、翻訳処理の実行の際には、音声認識結果の全文を翻訳してもよく、音声認識結果を要約した上でその要約を翻訳しても良い。コミュニケーションシステム１は、音声認識結果を要約する際には、例えば、音声認識結果に対して形態素解析を行い、要点と思われる品詞を抽出してもよい。

　一方、コミュニケーションシステム１は、ユーザｕ１が発話中であることをユーザｕ２に対して示すユーザインターフェースを表示させても良い。

　図１７は、ユーザｕ２の側のディスプレイ１０３’に表示されるユーザインターフェースの例を示す説明図である。ユーザｕ１が高感度マイク位置のマイク１０２に向かって発話を行うと、コミュニケーションシステム１は、ユーザｕ１の顔をシミュレートした画像１１４の口の位置から、発話の認識結果を表示する球ＵＩ１１７をディスプレイ１０３’に表示させる。

　このような演出を行うことで、コミュニケーションシステム１は、ユーザｕ１が発話中であることを相手のユーザｕ２に示すことができる。

　またコミュニケーションシステム１は、ユーザｕ１が高感度マイク位置のマイク１０２に向かって発話を行うと、その発話の音声認識結果に対する翻訳結果をディスプレイ１０３’に表示させてもよい。図１７には、ユーザｕ１の発話の音声認識結果に対する翻訳結果１１８がディスプレイ１０３’に表示されている例が示されている。

　なお、図１７には、翻訳結果１１８として「私の国の電車は定刻通りに到着しない」と示されているが、上述した要約の翻訳を行うと、例えば翻訳結果１１８として「電車　定刻　到着しない」のように表示されうる。

　コミュニケーションシステム１は、翻訳結果１１８をサイネージ端末１００に表示する際に、聞き手の正対状態が崩れないような位置に表示させることが望ましい。図１８に示した例では、翻訳結果１１８が、発話者の画像１１４の近くに表示されている。翻訳結果１１８が、発話者の画像１１４の近くに表示されていることで、聞き手であるユーザｕ２は、正対状態を崩さずに翻訳結果を確認することが出来る。

　コミュニケーションシステム１は、音声認識結果を時間軸上に並べて表示させてもよい。図１８は、ユーザｕ１の側のディスプレイ１０３に表示されるユーザインターフェースの例を示す説明図である。コミュニケーションシステム１は、ユーザｕ１の音声認識結果１１６を、図１８に示すように時間軸上に並べて表示させてもよい。ユーザｕ１の音声認識結果を時系列で表示させることで、コミュニケーションシステム１は、発話者に対して過去の発話内容を確認させることができる。

　またコミュニケーションシステム１は、ユーザｕ１の音声認識結果１１６を時間軸上に並べて表示させる際に、図１８に示すように発話者の写真を併せて表示させても良い。コミュニケーションシステム１は、音声認識結果１１６に発話者の写真を併せて表示させることで、過去に誰がその内容を話したのかを発話者に確認させることができる。

　（翻訳モードの継続判断（１））
　コミュニケーションシステム１は、ユーザｕ１の発話が途絶えたことを検出した場合に、例えば、ユーザｕ１の過去の発話内容及びユーザｕ１の発話状況を用いて、翻訳モードを継続すべきかどうかの判断を行う。まず、翻訳モードを継続すべきかどうかの最初の判断例を示す。

　コミュニケーションシステム１は、音声入力が無くなった、すなわち、ユーザｕ１の発話が途絶えた場合でも、ユーザｕ１の発話内容に対する翻訳スコアが所定値より低く、かつ、発話者であるユーザｕ１の視線がユーザｕ２の方を向いていないときは、翻訳モードを継続する。これは、伝える情報が分からなくなると、人と目を合わせない、または視線が泳ぐようになるという人間の心理に基づくものである。

　図１９は、コミュニケーションシステム１が翻訳モードを継続すべきかどうかの判断を行うことを説明するための説明図である。図１９には、ユーザｕ１の側のディスプレイ１０３に、ユーザｕ２の姿が表示されている状態が例示されている。

　図１９には、ユーザｕ２の正対身体輪郭領域に、所定の閾値d_surrounding_threshを加えた領域１１９が示されている。この領域１１９は、ディスプレイ１０３に表示されていなくても良い。コミュニケーションシステム１は、ユーザｕ１の発話内容に対する翻訳スコアが所定値より低く、かつ、ユーザｕ１の視線が、領域１１９の外側に、所定の時間t_surrounding_thresh以上存在している場合は、翻訳モードを継続すると判断する。

　一方、コミュニケーションシステム１は、ユーザｕ１の発話内容に対する翻訳スコアが所定値より低く、かつ、ユーザｕ１の視線が、領域１１９の内側に、所定の時間t_surrounding_thresh以上存在している場合は、翻訳モードを解除すると判断する。

　なお、図１９に示した例では、ユーザｕ２の正対身体輪郭領域の全体に、一律に所定の閾値d_surrounding_threshを加えた例が示されているが、この所定の閾値は、ユーザｕ２の体の部位に応じて変化させても良い。コミュニケーションシステム１は、例えば、首より上と首より下とで、この所定の閾値を変化させても良い。

　またコミュニケーションシステム１は、ユーザｕ１の視線の先に応じて、翻訳モードを継続すべきかどうかの判断を変化させても良い。すなわち、コミュニケーションシステム１は、ユーザｕ１が、ユーザｕ２の顔を見ているか、体を見ているか、手を見ているか、等に応じて、翻訳モードを継続すべきかどうかの判断を変化させても良い。

　またコミュニケーションシステム１は、ユーザｕ２の背景の動きの有無に応じて、翻訳モードを継続すべきかどうかの判断を変化させても良い。これによりコミュニケーションシステム１は、ユーザｕ１が話す内容が分からなくなって目が泳いでいるのか、ユーザｕ２の背景に目を取られたのか、に応じて、翻訳モードを継続すべきかどうかの判断を変化できる。

　コミュニケーションシステム１は、コミュニケーションシステム１を利用するユーザが過去にもコミュニケーションシステム１を利用したことがあれば、そのユーザの癖を用いて翻訳モードを継続すべきかどうか判断しても良い。例えば、視線を動かしやすいユーザであれば、ユーザが対話相手から視線を逸らしても翻訳モードを継続すべきであると判断しても良い。

　コミュニケーションシステム１は、ユーザ同士がコミュニケーションを行っているシチュエーションによって、翻訳モードを継続すべきかどうかの判断に用いる閾値を変化させても良い。例えば、コミュニケーションシステム１は、コミュニケーションを行っているシチュエーションが、道案内であるのか、会議であるのか、等に応じて、翻訳モードを継続すべきかどうかの判断に用いる閾値を変化させても良い。また例えば、コミュニケーションシステム１は、コミュニケーションを行っているシチュエーションとして、ユーザが急いでいる状況なのか、時間に余裕がある状況なのか、等に応じて、翻訳モードを継続すべきかどうかの判断に用いる閾値を変化させても良い。

　コミュニケーションシステム１は、コミュニケーションを行っている相手との関係によって、翻訳モードを継続すべきかどうかの判断に用いる閾値を変化させても良い。例えば、コミュニケーションシステム１は、コミュニケーションを行っている相手が、初対面の人物であるのか、異性であるのか、取引先の高い役職の人であるのか、等に応じて、翻訳モードを継続すべきかどうかの判断に用いる閾値を変化させても良い。

　（翻訳モードの継続判断（２））
　次に、翻訳モードを継続すべきかどうかの２つ目の判断例を示す。

　コミュニケーションシステム１は、音声入力が無くなった、すなわち、ユーザｕ１の発話が途絶えた場合でも、ユーザｕ１が発話した文章が完結していなければ、例えば、ユーザｕ１の発話内容に言い淀みが検出されれば翻訳モードを継続する。またコミュニケーションシステム１は、無音になる前に所定のフィラーワードが含まれており、そのフィラーワードが発せられてから所定の時間t_fillerwords_threshが経過するまでは、翻訳モードを継続する。

　図２０は、コミュニケーションシステム１が翻訳モードを継続すべきかどうかの判断を行うことを説明するための説明図である。図２０には、コミュニケーションシステム１が翻訳モードを継続すべきかどうかの３つの判断例を示している。１つ目の例は、ユーザｕ１の発話が途絶えてから所定の時間が経過すると、コミュニケーションシステム１が翻訳モードを解除する例である。２つ目の例は、ユーザｕ１の発話が途絶えても、言い淀みを検出するとコミュニケーションシステム１が翻訳モードを継続する例である。３つ目の例は、ユーザｕ１が所定のフィラーワードを発したことを検出すると、コミュニケーションシステム１は、そのフィラーワードが発せられてから所定の時間t_fillerwords_threshが経過するまでは、翻訳モードを継続する例である。

　（翻訳モードの継続判断（３））
　次に、翻訳モードを継続すべきかどうかの３つ目の判断例を示す。

　コミュニケーションシステム１は、音声入力が無くなった、すなわち、ユーザｕ１の発話が途絶えた場合でも、ユーザの声質に基づいて翻訳モードを継続するかどうか判断する。例えば、コミュニケーションシステム１は、音声入力が無くなった、すなわち、ユーザｕ１の発話が途絶えた場合でも、最後の発話の周波数情報が、それまで取得し続けた周波数の平均と比べてある閾値以下となっていた場合は、翻訳モードを継続する。

　具体的には、コミュニケーションシステム１は、音声入力が無くなった、すなわち、ユーザｕ１の発話が途絶えた際に、最後の発話の周波数情報info_last_voice_freqを算出し、それまで行われた発話すべての平均の周波数情報f_all_voiceを算出する。そして、コミュニケーションシステム１は、info_last_voice_freq
< info_voice_freq_ave - f_threshを満たす場合は声のトーンが下がった、つまり、発話者が自信を無くしている状態であると判断し、翻訳モードを継続する。一方、コミュニケーションシステム１は、info_last_voice_freq >= info_voice_freq_ave - f_threshを満たす場合は、翻訳モードを解除する。

　（翻訳モードの継続判断（４））
　次に、翻訳モードを継続すべきかどうかの４つ目の判断例を示す。

　コミュニケーションシステム１は、音声入力が無くなる前に音声認識を行った結果、所定のデータベース（ここでは「会話終了判断ワードデータベース」とする）に含まれる者と一致していれば、ユーザからの音声入力が無いまま所定の時間t_convendwords_threshが経過するまでは翻訳モードを継続し、所定の時間t_convendwords_threshが経過すると翻訳モードを終了する。

　図２１は、コミュニケーションシステム１が翻訳モードを継続すべきかどうかの判断を行うことを説明するための説明図である。図２１には、ユーザが、発話を停止する直前に、会話終了判断ワードデータベースに登録されている”What do you think of that?”という語句を発話した場合の例が示されている。この語句の発話を検出したコミュニケーションシステム１は、ユーザからの音声入力が無いまま所定の時間t_convendwords_threshが経過するまでは翻訳モードを継続する。そしてコミュニケーションシステム１は、ユーザからの音声入力が無いまま所定の時間t_convendwords_threshが経過すると翻訳モードを終了する。

　（翻訳モードの継続判断（５））
　次に、翻訳モードを継続すべきかどうかの５つ目の判断例を示す。

　コミュニケーションシステム１は、ユーザが意図的に翻訳モードを解除するための動作を行った場合は、翻訳モードを解除する。意図的に翻訳モードを解除するための動作には、例えばディスプレイ１０３に表示された終了ボタンを押す、体を正対状態に戻す、発話を終えて視線を対話相手に戻す、等があり得るが、これらの例に限定されるものでは無い。

　図２２は、コミュニケーションシステム１がディスプレイ１０３に表示させるユーザインターフェースの例を示す説明図である。図２２には、ディスプレイ１０３に、「ＳＴＯＰ」と表示された、翻訳モードを解除するための終了ボタン１２０が表示されている例が示されている。コミュニケーションシステム１は、ユーザが終了ボタン１２０をタッチしたこと、または終了ボタン１２０に指を近接させたことを検出すると、翻訳モードを解除する。なお、終了ボタン１２０に表示される言葉は、ユーザｕ１が発話している言語に応じて変化させても良い。

　ユーザが終了ボタン１２０をタッチしたこと、または終了ボタン１２０に指を近接させたことを検出すると、コミュニケーションシステム１は、例えば、ユーザに対して体を正対状態に戻すよう促すメッセージを、文字でディスプレイ１０３に表示したり、音声で出力したりしても良い。

　図２３は、コミュニケーションシステム１が翻訳モードを継続すべきかどうかの判断を行うことを説明するための説明図である。図２３には、ユーザが正対身体輪郭ＵＩ１１１に対応する位置に姿勢を戻した場合の例が示されている。コミュニケーションシステム１は、ユーザが正対身体輪郭ＵＩ１１１に対応する位置に姿勢を戻し、姿勢を戻してから所定時間経過したことを検出すると、翻訳モードを解除する。

　コミュニケーションシステム１は、ユーザが正対身体輪郭ＵＩ１１１に対応する位置に完全に姿勢を戻していなくても、例えば体の５割以上が正対身体輪郭ＵＩ１１１に対応する範囲に含まれていれば、体が正対状態に戻ったと判断しても良い。

　その他、コミュニケーションシステム１は、例えばサイネージ端末１００の周囲の騒音や雑音の有無によって翻訳モードを継続の可否を判断しても良い。発話者が発話を停止した場合に、サイネージ端末１００の周囲で騒音や雑音が発生していれば、発話者はもしかしてその騒音や雑音に気を取られたのかもしれない。従って、コミュニケーションシステム１は、発話者が発話を停止した場合に、サイネージ端末１００の周囲で騒音や雑音が発生していれば、翻訳モードを継続すると判断しても良い。

　その他、コミュニケーションシステム１は、例えば相手からの回答に対する内容に基づいて、翻訳モードを継続の可否を判断しても良い。例えば、相手からの回答が質問であれば、ユーザはその回答に対して発話しようとするので、ユーザがしばらく発話を行わなかったとしても、コミュニケーションシステム１は、翻訳モードを継続すると判断する。一方、相手からの回答が質問でなければ、ユーザがしばらく発話を行わなかったとすると、コミュニケーションシステム１は、翻訳モードを終了すると判断する。

　（聞き手側の処理あふれ判断）
　上述の「（３）発話者が発話中における聞き手側の考慮点」において指摘したように、サイネージ端末を介した、翻訳を要するコミュニケーションにおいて、サイネージ端末が次々に発話者の発話内容を翻訳し続け、翻訳結果を多量に提示すると、翻訳結果の受け手は処理ができなくなり、コミュニケーションが破綻する。

　そこでコミュニケーションシステム１は、聞き手側の状況を検出して、聞き手側の処理あふれの有無を判断する。そして聞き手側が処理あふれを起こしていると判断した場合は、コミュニケーションシステム１は、発話者側に、発話を一時的に止めるよう通知する。

　（聞き手側の処理あふれ判断（１））
　まず、聞き手側の処理あふれ判断の最初の例を示す。

　コミュニケーションシステム１は、発話者であるユーザｕ１が発話中に、聞き手側であるユーザｕ２の視線がユーザｕ１の方を向いておらず、ユーザｕ１の正対身体輪郭情報から所定の閾値以上の距離の外側にあり、その状態が所定時間以上継続したときは、ユーザｕ２が処理あふれを起こしていると判断する。

　図２４は、コミュニケーションシステム１が聞き手側の処理あふれの判断を行うことを説明するための説明図である。図２４には、ユーザｕ２の側のディスプレイ１０３’に、ユーザｕ１の姿が表示されている状態が例示されている。

　図２４には、ユーザｕ１の正対身体輪郭領域に、所定の閾値d_surrounding_threshを加えた領域１１９’が示されている。この領域１１９’は、ディスプレイ１０３’に表示されていなくても良い。コミュニケーションシステム１は、発話者であるユーザｕ１が発話中に、ユーザｕ２の視線が、領域１１９’の外側に、所定の時間t_surrounding_thresh以上存在している場合は、ユーザｕ２が処理あふれを起こしていると判断する。一方、発話者であるユーザｕ１が発話中に、ユーザｕ２の視線が、領域１１９’の内側に存在していれば、また領域１１９’の外側に視線があっても、所定の時間t_surrounding_threshの経過前に領域１１９’の内側に視線が戻れば、ユーザｕ２が処理あふれを起こしていないと判断する。

　（聞き手側の処理あふれ判断（２））
　次に、聞き手側の処理あふれ判断の２つ目の例を示す。

　コミュニケーションシステム１は、発話者であるユーザｕ１が発話中に、聞き手側であるユーザｕ２が相槌を打たなくなってから所定時間以上経過したときは、ユーザｕ２が処理あふれを起こしていると判断する。

　図２５は、コミュニケーションシステム１が聞き手側の処理あふれの判断を行うことを説明するための説明図である。ユーザｕ２がある時点で相槌を打たなくなり、その後、相槌を検出しなくなってから所定時間以上経過したときは、コミュニケーションシステム１は、ユーザｕ２が処理あふれを起こしていると判断する。

　（聞き手側の処理あふれ判断（３））
　次に、聞き手側の処理あふれ判断の３つ目の例を示す。

　コミュニケーションシステム１は、発話者であるユーザｕ１が発話中に、聞き手側であるユーザｕ２が掌をユーザｕ１に向け、その状態が所定時間以上継続したときは、ユーザｕ２が処理あふれを起こしていると判断する。

　図２６は、コミュニケーションシステム１が聞き手側の処理あふれの判断を行うことを説明するための説明図である。ユーザｕ２がある時点で掌をユーザｕ１に向け、その後、その状態が所定時間以上継続したときは、コミュニケーションシステム１は、ユーザｕ２が処理あふれを起こしていると判断する。

　（聞き手側の処理あふれ判断（４））
　次に、聞き手側の処理あふれ判断の４つ目の例を示す。

　コミュニケーションシステム１は、発話者であるユーザｕ１が発話中に、音声認識結果のテキスト、または音声認識結果を翻訳した際のテキストが、所定の条件を満たした場合に、ユーザｕ２が処理あふれを起こしていると判断する。所定の条件としては、例えば、句解析を行った結果、句の数がある閾値を超えた（分かち書き言語であれば単語の数がある閾値を超えた）、形態素（英語ならば、単語）のうち、主要品詞である名詞及び動詞の数がある閾値を超えた、文字数がある閾値を超えた、などがある。

　図２７は、コミュニケーションシステム１が聞き手側の処理あふれの判断を行うことを説明するための説明図である。ユーザｕ１が発話中に、音声認識結果のテキスト、または音声認識結果を翻訳した際のテキストが、所定の条件を満たした場合は、コミュニケーションシステム１は、ユーザｕ２が処理あふれを起こしていると判断する。

　コミュニケーションシステム１は、発話者が発話した内容、または発話内容の翻訳結果に、専門性の高い単語が含まれているなどして、内容が難しい場合は、上記の句の数を少なくしてもよい。また、コミュニケーションシステム１は、発話者が発話した内容が難しい場合は、専門性の高い単語に重みを付けることで、聞き手側の処理あふれを起こしているかどうかの判断を行っても良い。

　以上、聞き手側が処理あふれを起こしているかどうかを判断する５つの例を示した。コミュニケーションシステム１は、上述したいずれかの方法により、また上述した方法を複数組み合わせることにより、聞き手側が処理あふれを起こしているかどうかを判断する。なお上述したものは聞き手側が処理あふれを起こしているかどうかを判断するための一例に過ぎないことはいうまでも無い。

　また、聞き手の属性に応じて処理あふれを起こすまでの量は異なる。大人であれば処理あふれを起こすまでの量は多いが、子供であれば処理あふれを起こすまでの量は少ない。従って、コミュニケーションシステム１は、聞き手の属性に応じて処理あふれを起こすと判断するまでの閾値を変化させても良い。

　またコミュニケーションシステム１は、聞き手側の生体情報に基づいて処理あふれを起こしているかどうかを判断してもよい。例えば、心拍数が上昇した、発汗量が増えた、等の情報を、聞き手側が所持しているデバイスに備えられるセンサで取得し、そのデバイスから情報を得ることで、コミュニケーションシステム１は、聞き手側が処理あふれを起こしているかどうかを判断してもよい。

　（処理あふれを起こしたと判断した場合のユーザインターフェース）
　コミュニケーションシステム１は、聞き手側が処理あふれを起こしていることを発話者側に伝えるためのユーザインターフェースを発話者側のディスプレイ１０３に提示する。

　上述した例では、コミュニケーションシステム１は、発話者が発話していると、球ＵＩ１１５が聞き手側の耳に入っていくユーザインターフェースを示した。このようなユーザインターフェースを表示している場合、聞き手側が処理あふれを起こしていることを判断すると、コミュニケーションシステム１は、球ＵＩ１１５が聞き手側の耳で跳ね返り、こぼれ落ちていくようなユーザインターフェースを表示させてもよい。

　図２８は、ユーザｕ１の側のディスプレイ１０３に表示されるユーザインターフェースの例を示す説明図である。コミュニケーションシステム１は、上述の判断によって聞き手側であるユーザｕ２が処理あふれを起こしていることを判断すると、球ＵＩ１１５がユーザｕ２の耳で跳ね返り、こぼれ落ちていくようなユーザインターフェースを表示させる。このようなユーザインターフェースを発話者側のディスプレイ１０３に表示させることで、コミュニケーションシステム１は、聞き手側が処理あふれを起こしていることを発話者側に伝えることが可能となる。

　ユーザｕ１の側のディスプレイ１０３に表示されるユーザインターフェースとしては、この他にも、例えば発話内容の認識結果の表示を止める、球ＵＩ１１５自体の表示を止める、などがあり得る。また、コミュニケーションシステム１は、聞き手側が処理あふれを起こしていることを発話者側に伝えるために、発話者の発話音を打ち消すような音を出力してもよい。

　図２８には、聞き手側が処理あふれを起こしていることを発話者側に伝えるためのユーザインターフェースを発話者側のディスプレイ１０３に提示する例を示したが、コミュニケーションシステム１は、発話者の発話を遮るためのユーザインターフェースを聞き手側に表示させても良い。例えば、コミュニケーションシステム１は、発話内容の翻訳結果を、あえて聞き手の正対状態が崩れる位置、例えばマイクＵＩの近くに表示させてもよい。コミュニケーションシステム１は、視線を外させたり、体の向きを変えさせて聞き手の正対状態を敢えて崩させたりすることで、聞き手側が処理あふれを起こしていることを聞き手自身に伝えることが可能となる。

　コミュニケーションシステム１は、処理あふれを起こした条件に応じて、ディスプレイ１０３に表示させるユーザインターフェースを変化させてもよい。例えば、視線が発話者側を向かなくなったことで処理あふれを起こしたと判断すれば、コミュニケーションシステム１は、聞き手側の姿の周囲に汗が飛び出ているようなＣＧをディスプレイ１０３に表示さてもよい。また例えば、頷きが無くなったことで処理あふれを起こしたと判断すれば、コミュニケーションシステム１は、聞き手側の頭の上に、聞き手側が困っているような表現を表すＣＧをディスプレイ１０３に表示さてもよい。

　以上、本開示の実施の形態に係るコミュニケーションシステム１の動作例を、一つのユースケースを取り上げて説明した。続いて、本開示の実施の形態に係るコミュニケーションシステム１の動作例をより詳細に説明する。

　（発話者側の全体フロー）
　図２９は、本開示の実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。図２９に示したのは、発話者側の全体フローを示したものである。

　発話者（上述の例では、ユーザｕ１）がサイネージ端末１００の前に立つと、コミュニケーションシステム１は初期処理を実行する（ステップＳ１０１）。この初期処理は、サイネージ端末１００で取得された情報に基づいて、情報処理装置２００が実行しうる。初期処理の詳細については後に詳述する。

　コミュニケーションシステム１は、上記ステップＳ１０１で初期処理を実行すると、続いて、相手側（上述の例では、ユーザｕ２）の初期フローが終了しているかどうか判断する（ステップＳ１０２）。この判断処理は例えば情報処理装置２００（例えば、判断部２２３）が実行しうる。

　上記ステップＳ１０２の判断の結果、相手側の初期フローが終了していれば（ステップＳ１０２，Ｙｅｓ）、コミュニケーションシステム１は、翻訳モードの処理を実行する（ステップＳ１０３）。一方、上記ステップＳ１０２の判断の結果、相手側の初期フローが終了していなければ（ステップＳ１０２，Ｎｏ）、コミュニケーションシステム１は、相手側の初期フローが終了するまで待機する。なお、コミュニケーションシステム１は、相手が現れないなどの理由で、所定時間経過しても相手側の初期フローが終了していなければ、初期フローを終了させても良い。

　（初期処理フロー）
　続いて、図２９のステップＳ１０１で示した初期処理の詳細な流れを説明する。図３０Ａ、３０Ｂは、本開示の実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。図３０Ａ、３０Ｂに示したのは、図２９のステップＳ１０１で示した初期処理の詳細なフローを示したものである。なお、以下で示す初期処理は、サイネージ端末１００で取得された情報に基づいて、情報処理装置２００が実行するものとするが、初期処理は、コミュニケーションシステム１を構成するどの装置で行われても良い。

　まずコミュニケーションシステム１は、ユーザがサイネージ端末１００の前にとどまった時間カウンタt_stayをリセット(t_stay=0)し、会話モードかどうかを示すフラグf_conv_modeをリセット(f_conv_mode=false)し、マイク１０２の位置情報p_mic_i(i=0,…,n)を取得する（ステップＳ１１１）。

　続いて、コミュニケーションシステム１は、カメラ１０１が撮像したカメラ画像を用いた顔検出処理によって顔が検出できたかどうか判断する（ステップＳ１１２）。

　上記ステップＳ１１２の判断の結果、顔が検出できない場合は（ステップＳ１１２、Ｎｏ）、続いてコミュニケーションシステム１は、上記ステップＳ１１１に戻る。一方、上記ステップＳ１１２の判断の結果、顔が検出できた場合は（ステップＳ１１２、Ｙｅｓ）、続いてコミュニケーションシステム１は、時間カウンタt_stayをインクリメントする（ステップＳ１１３）。

　上記ステップＳ１１３で時間カウンタt_stayをインクリメントすると、続いてコミュニケーションシステム１は、時間カウンタt_stayが閾値t_stay_threshより大きいかどうか判断する（ステップＳ１１４）。

　上記ステップＳ１１４の判断の結果、時間カウンタt_stayが閾値t_stay_thresh未満の場合は（ステップＳ１１４、Ｎｏ）、コミュニケーションシステム１は上記ステップＳ１１２の処理に戻る。一方、上記ステップＳ１１４の判断の結果、時間カウンタt_stayが閾値t_stay_threshより大きい場合は（ステップＳ１１４、Ｙｅｓ）、コミュニケーションシステム１は、会話モードかどうかを示すフラグf_conv_modeをtrueにセットし、（ステップＳ１１５）、正体時のユーザの顔情報info_faceを取得する（ステップＳ１１６）。

　フラグf_conv_modeをtrueにセットし、正体時のユーザの顔情報info_faceを取得すると、続いてコミュニケーションシステム１は、正対時の人の輪郭情報info_outline_confrontを生成して正対身体輪郭ＵＩとして画面へ反映させる（ステップＳ１１７）。

　正対時の人の輪郭情報info_outline_confrontを生成すると、続いてコミュニケーションシステム１は、正体時のユーザの顔情報info_faceや正対時の人の輪郭情報info_outline_confrontから。目情報info_eye、口情報info_mouth及び鼻情報info_noseを取得する（ステップＳ１１８）。

　目情報info_eye、口情報info_mouth及び鼻情報info_noseを取得すると、続いてコミュニケーションシステム１は、info_faseから表情を様々なものに変えた顔情報info_facial_expを生成する（ステップＳ１１９）。ここでの表情としては、例えば感情を出していない状態の表情、笑っている表情、不安な表情などがありうるが、これらの表情に限定されるものではない。

　上記ステップＳ１１９で顔情報info_facial_expを生成すると、続いてコミュニケーションシステム１は、耳位置推定フローを実行する（ステップＳ１２０）。耳位置推定フローの詳細は後に詳述する。

　上記ステップＳ１２０で耳位置推定フローを実行すると、続いてコミュニケーションシステム１は、高感度マイク位置取得フローを実行する（ステップＳ１２１）。高感度マイク位置取得フローの詳細は後に詳述する。

　上記ステップＳ１２１で高感度マイク位置取得フローを実行すると、続いてコミュニケーションシステム１は、口の位置情報p_mouthから高感度マイク位置p_h_sensitive_micに向けて、マイクＵＩをアニメーションで移動させる（ステップＳ１２２）。

　以上、図２９のステップＳ１０１で示した初期処理の詳細な流れを説明した。続いて、上記ステップＳ１２０の耳位置推定フローの詳細な流れを説明する。

　（耳位置推定フロー）
　図３１は、本開示の実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。図３１に示したのは、図３０ＢのステップＳ１２０の耳位置推定フローの詳細な流れである。なお、以下で示す耳位置推定フローは、サイネージ端末１００で取得された情報に基づいて、情報処理装置２００が実行するものとするが、耳位置推定フローは、コミュニケーションシステム１を構成するどの装置で行われても良い。

　コミュニケーションシステム１は、耳位置推定フローを実行する際に、まず口情報info_mouthから口の位置情報p_mouthを取得する（ステップＳ１３１）。さらにコミュニケーションシステム１は、目情報info_eyeから、左目の位置情報p_eye_lと、右目の位置情報p_eye_rと、を取得する（ステップＳ１３２）。さらにコミュニケーションシステム１は、鼻情報info_noseから鼻の最下部位置情報p_nose_dを取得する（ステップＳ１３３）。

　図３２は、口の位置情報p_mouth、左目の位置情報p_eye_l、右目の位置情報p_eye_r、および鼻の最下部位置情報p_nose_dを示す説明図である。コミュニケーションシステム１は、サイネージ端末１００の前に立つユーザの目情報info_eye、口情報info_mouth及び鼻情報info_noseから、図３２に示したように口の位置情報p_mouth、左目の位置情報p_eye_l、右目の位置情報p_eye_r、および鼻の最下部位置情報p_nose_dを取得する。

　続いてコミュニケーションシステム１は、右目の位置情報p_eye_rから左目の位置情報p_eye_lへのベクトルvec_eye_rlを２倍したものと、右目の位置情報p_eye_rから鼻の最下部位置情報p_nose_dへのベクトルvec_r_noseを０．５倍したものとの和をとって、左の耳位置p_ear_lを取得する（ステップＳ１３４）。

　同様に、コミュニケーションシステム１は、左目の位置情報p_eye_lから右目の位置情報p_eye_rへのベクトルvec_eye_lrを２倍したものと、p_eye_lからp_nose_dへのベクトルvec_l_noseを０．５倍したものとの和をとって、右の耳位置p_ear_rを取得する（ステップＳ１３５）。

　図３３は、口の位置情報p_mouth、左目の位置情報p_eye_l、右目の位置情報p_eye_r、および鼻の最下部位置情報p_nose_dから算出される左の耳位置p_ear_l及び右の耳位置p_ear_rを示す説明図である。このように、コミュニケーションシステム１はユーザのおおよその左の耳位置p_ear_l及び右の耳位置p_ear_rを算出する。

　以上、図３０ＢのステップＳ１２０で示した耳位置推定フローの詳細な流れを説明した。続いて、図３０ＢのステップＳ１２１の、高感度マイク位置取得フローの詳細な流れを説明する。

　（高感度マイク位置取得フロー）
　図３４は、本開示の実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。図３４に示したのは、図３０ＢのステップＳ１２１の、高感度マイク位置取得フローの詳細な流れである。なお、以下で示す高感度マイク位置取得フローは、サイネージ端末１００で取得された情報に基づいて、情報処理装置２００が実行するものとするが、高感度マイク位置取得フローは、コミュニケーションシステム１を構成するどの装置で行われても良い。

　コミュニケーションシステム１は、高感度マイク位置取得フローを実行する際に、まず口の位置情報p_mouthの高さより低い位置にあるマイク１０２の位置p_mic_lower_i(i=0,…n)を取得する（ステップＳ１４１）。

　マイク１０２の位置p_mic_lower_i(i=0,…n)を取得すると、続いてコミュニケーションシステム１は、ユーザの口の位置情報p_mouthと、マイク１０２の位置p_mic_lower_iとの距離が最も近い位置のマイク１０２の位置p_mic_nearestを取得する（ステップＳ１４２）。

　続いてコミュニケーションシステム１は、ユーザの口の位置情報p_mouthと、マイク１０２の位置p_mic_lower_iとの距離が２番目に近い位置のマイク１０２の位置p_mic_nextを取得する（ステップＳ１４３）。

　そしてコミュニケーションシステム１は、ステップＳ１４３で取得したマイク１０２の位置p_mic_nextを、高感度マイク位置p_h_sensitive_micに決定する（ステップＳ１４４）。

　図３５は、高感度マイク位置の決定方法を説明するための説明図である。図３５に示したようにユーザの顔及びマイク１０２が配置されている場合、p_mic_lower_iは、p_mic_2、p_mic_3、p_mic_6、p_mic_7である。そして、p_mic_nearestはp_mic_2となり、p_mic_nextはp_mic_6となる。従って、図３５に示したようにユーザの顔及びマイク１０２が配置されている場合、コミュニケーションシステム１は、p_mic_6の位置にあるマイクを高感度マイク位置p_h_sensitive_micに決定する。

　コミュニケーションシステム１は、このようにユーザの顔の位置に基づいて高感度マイク位置を決定することで、マイクの位置やユーザの背の高さなどに依存せず、ユーザの音声入力を成功させることが可能となる。

　以上、図３０ＢのステップＳ１２１で示した高感度マイク位置取得フローの詳細な流れを説明した。続いて、図２９のステップＳ１０３の、翻訳モード処理フローの詳細な流れを説明する。

　（翻訳モード処理フロー）
　図３６Ａ、３６Ｂは、本開示の実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。図３６Ａ、３６Ｂに示したのは、図２９のステップＳ１０３の、翻訳モード処理フローの詳細な流れである。なお、以下で示す翻訳モード処理フローは、サイネージ端末１００で取得された情報や、翻訳処理装置４００で生成された情報に基づいて、情報処理装置２００が実行するものとするが、翻訳モード処理フローは、コミュニケーションシステム１を構成するどの装置で行われても良い。

　コミュニケーションシステム１は、翻訳モード処理フローを実行する際には、まず翻訳モードかどうかを示すフラグf_trans_modeをリセット(f_trans_mode=false)する（ステップＳ１５１）。

　フラグf_trans_modeをリセットすると、続いてコミュニケーションシステム１は翻訳モード起動処理を実行する（ステップＳ１５２）。翻訳モード起動処理については後に詳述する。

　翻訳モード起動処理を実行すると、続いてコミュニケーションシステム１は高感度マイク位置p_h_sensitive_micと口の位置情報p_mouthとの距離d_mic_mouthが、閾値d_mic_mouth_threshよりも小さいかどうかを判断する（ステップＳ１５３）。

　上記ステップＳ１５３の判断の結果、高感度マイク位置p_h_sensitive_micと口の位置情報p_mouthとの距離d_mic_mouthが、閾値d_mic_mouth_thresh以上であれば（ステップＳ１５３、Ｎｏ）、続いてコミュニケーションシステム１は、その時点の身体輪郭情報info_outline_currentと正対時の人の輪郭情報info_outline_confrontとから、現在の身体輪郭情報が正対輪郭情報内に閾値t_stay_confront_threshよりも多くとどまったかどうかを判断する（ステップＳ１５４）。

　上記ステップＳ１５４の判断の結果、現在の身体輪郭情報が正対輪郭情報内に閾値t_stay_confront_threshよりも多くとどまっていれば（ステップＳ１５４、Ｙｅｓ）、コミュニケーションシステム１は翻訳モード終了処理を実行する（ステップＳ１５５）。翻訳モード終了処理については後に詳述する。一方、上記ステップＳ１５４の判断の結果、現在の身体輪郭情報が正対輪郭情報内に閾値t_stay_confront_threshよりも多くとどまっていなければ（ステップＳ１５４、Ｎｏ）、コミュニケーションシステム１は上記ステップＳ１５３の判断処理に戻る。

　一方、上記ステップＳ１５３の判断の結果、高感度マイク位置p_h_sensitive_micと口の位置情報p_mouthとの距離d_mic_mouthが、閾値d_mic_mouth_threshより小さければ（ステップＳ１５３、Ｙｅｓ）、続いてコミュニケーションシステム１は、正対身体輪郭ＵＩに対し、フェードインとフェードアウトのアニメーションを繰り返す（ステップＳ１５６）。

　正対身体輪郭ＵＩに対し、フェードインとフェードアウトのアニメーションを繰り返すと、続いてコミュニケーションシステム１は、その時点の身体輪郭情報info_outline_currentを生成し、現在の身体輪郭ＵＩとして画面へ反映させる（ステップＳ１５７）。

　身体輪郭情報info_outline_currentを生成し、現在の身体輪郭ＵＩとして画面へ反映させると、続いてコミュニケーションシステム１は、マイク１０２が集音した音情報info_voiceの音量が音声入力判断閾値recognition_vol_threshを超えているかどうか判断する（ステップＳ１５８）。

　ステップＳ１５８の判断の結果、音情報info_voiceの音量が音声入力判断閾値recognition_vol_threshを超えていれば（ステップＳ１５８、Ｙｅｓ）、コミュニケーションシステム１は、音声翻訳フィードバック処理を実行する（ステップＳ１５９）。音声翻訳フィードバック処理の詳細については後に詳述する。音声翻訳フィードバック処理を実行すると、コミュニケーションシステム１は、上記ステップＳ１５３の判断処理に戻る。

　一方、ステップＳ１５８の判断の結果、音情報info_voiceの音量が音声入力判断閾値recognition_vol_threshを超えていなければ（ステップＳ１５８、Ｎｏ）、コミュニケーションシステム１は、翻訳モードの継続判断処理を実行する（ステップＳ１６０）。翻訳モードの継続判断処理は後に詳述する。

　上記ステップＳ１６０の翻訳モードの継続判断処理を実行すると、続いてコミュニケーションシステム１は、翻訳モードかどうかを示すフラグf_trans_modeの値がtrueかどうか判断する（ステップＳ１６１）。フラグf_trans_modeの値がtrueであれば（ステップＳ１６１、Ｙｅｓ）、コミュニケーションシステム１は、上記ステップＳ１５３の判断処理に戻る。一方、フラグf_trans_modeの値がtrueでない、すなわちfalseであれば（ステップＳ１６１、Ｎｏ）、コミュニケーションシステム１は、上記ステップＳ１５５の翻訳モード終了処理を実行する。

　以上、図３６Ａ、３６Ｂを用いて、図２９のステップＳ１０３の、翻訳モード処理フローの詳細な流れを説明した。続いて、図３６ＡのステップＳ１５２の翻訳モード起動処理フローの詳細な流れを説明する。

　（翻訳モード起動処理フロー）
　図３７は、本開示の実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。図３７に示したのは、図３６ＡのステップＳ１５２の翻訳モード起動処理フローの詳細な流れである。なお、以下で示す翻訳モード起動処理フローは、サイネージ端末１００で取得された情報に基づいて、情報処理装置２００が実行するものとするが、翻訳モード起動処理フローは、コミュニケーションシステム１を構成するどの装置で行われても良い。

　コミュニケーションシステム１は、高感度マイク位置p_h_sensitive_micと、口の位置情報p_mouthとの距離d_mic_mouthが、閾値d_mic_mouth_threshよりも小さいかどうか判断する（ステップＳ１７１）。

　ステップＳ１７１の判断の結果、高感度マイク位置p_h_sensitive_micと、口の位置情報p_mouthとの距離d_mic_mouthが、閾値d_mic_mouth_threshより小さくなければ（ステップＳ１７１、Ｎｏ）、コミュニケーションシステム１は、ステップＳ１７１の処理を繰り返す。一方、ステップＳ１７１の判断の結果、高感度マイク位置p_h_sensitive_micと、口の位置情報p_mouthとの距離d_mic_mouthが、閾値d_mic_mouth_threshより小さければ（ステップＳ１７１、Ｙｅｓ）、続いてコミュニケーションシステム１は、ユーザの顔情報info_faceの画像の、相手側の画面への反映を開始する（ステップＳ１７２）。

　続いてコミュニケーションシステム１は、高感度マイク位置p_h_sensitive_micにならなかったマイクのマイク処理、すなわち集音処理を停止する（ステップＳ１７３）。

　高感度マイク位置p_h_sensitive_micにならなかったマイクのマイク処理を停止すると、続いてコミュニケーションシステム１は、カメラ１０１で撮像された画像を用いて、ユーザの視線情報info_gazeの取得を開始する（ステップＳ１７３）。

　ユーザの視線情報info_gazeの取得を開始すると、続いてコミュニケーションシステム１は、高感度マイク位置のマイク１０２で集音されるユーザの発話の周波数情報info_voice_freqの取得を開始する（ステップＳ１７４）。

　周波数情報info_voice_freqの取得を開始すると、続いてコミュニケーションシステム１は、高感度マイク位置p_h_sensitive_micに対する音情報info_voiceでの音声認識を起動する（ステップＳ１７５）。

　音声認識を起動すると、続いてコミュニケーションシステム１は、翻訳モードかどうかを示すフラグf_trans_modeの値をtrueに設定する（ステップＳ１７６）。なお、翻訳モードかどうかを示すフラグf_trans_modeの値をtrueに設定するのはこのタイミングに限定されるものではない。また、図３７に示した処理フローにおける各処理の開始や起動のタイミングは、図３７に示した順序に限定されるものではない。

　以上、図３６ＡのステップＳ１５２の翻訳モード起動処理フローの詳細な流れを説明した。続いて、図３６ＡのステップＳ１５５の翻訳モード終了フローの詳細な流れを説明する。

　（翻訳モード終了フロー）
　図３８は、本開示の実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。図３８に示したのは、図３６ＡのステップＳ１５５の翻訳モード終了フローの詳細な流れである。なお、以下で示す翻訳モード終了フローは、サイネージ端末１００で取得された情報に基づいて、情報処理装置２００が実行するものとするが、翻訳モード終了フローは、コミュニケーションシステム１を構成するどの装置で行われても良い。

　コミュニケーションシステム１は、翻訳モード終了フローを実行する場合には、まず翻訳モードかどうかを示すフラグf_trans_modeの値をfalseに設定する（ステップＳ１８１）。なお、翻訳モードかどうかを示すフラグf_trans_modeの値をfalseに設定するのはこのタイミングに限定されるものではない。

　翻訳モードかどうかを示すフラグf_trans_modeの値をfalseに設定すると、続いてコミュニケーションシステム１は、ユーザの身体輪郭情報info_outline_currentの、ディスプレイ１０３への提示を停止する（ステップＳ１８２）。

　ユーザの身体輪郭情報info_outline_currentの、ディスプレイ１０３への提示を停止すると、続いてコミュニケーションシステム１は、正対身体輪郭ＵＩに対する、フェードインとフェードアウトのアニメーションの繰り返しを停止する（ステップＳ１８３）。

　正対身体輪郭ＵＩに対する、フェードインとフェードアウトのアニメーションの繰り返しを停止すると、続いてコミュニケーションシステム１は、高感度マイク位置p_h_sensitive_micに対する音情報info_voiceでの音声認識を停止する（ステップＳ１８４）。

　高感度マイク位置p_h_sensitive_micに対する音情報info_voiceでの音声認識を停止すると、続いてコミュニケーションシステム１は、高感度マイク位置のマイク１０２で集音されるユーザの発話の周波数情報info_voice_freqの取得を停止する（ステップＳ１８５）。

　ユーザの発話の周波数情報info_voice_freqの取得を停止すると、続いてコミュニケーションシステム１は、ユーザの視線情報info_gazeの取得を停止する（ステップＳ１８６）。

　ユーザの視線情報info_gazeの取得を停止すると、続いてコミュニケーションシステム１は、高感度マイク位置p_h_sensitive_micにならなかったマイクのマイク処理、すなわち集音処理の停止を解除する（ステップＳ１８７）。

　高感度マイク位置p_h_sensitive_micにならなかったマイクのマイク処理の停止を解除すると、続いてコミュニケーションシステム１は、ユーザの顔情報info_faceの画像の、相手側の画面への反映を停止する（ステップＳ１８８）。

　なお、図３８に示した処理フローにおける各処理の停止のタイミングは、図３８に示した順序に限定されるものではない。

　以上、図３６ＡのステップＳ１５５の翻訳モード終了フローの詳細な流れを説明した。続いて、図３６ＢのステップＳ１５９の音声翻訳フィードバック処理の詳細な流れを説明する。

　（音声翻訳フィードバック処理フロー）
　図３９Ａ、３９Ｂは、本開示の実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。図３９Ａ、３９Ｂに示したのは、図３６ＢのステップＳ１５９の音声翻訳フィードバック処理の詳細な流れである。なお、以下で示す音声翻訳フィードバック処理フローは、サイネージ端末１００で取得された情報に基づいて、情報処理装置２００が実行するものとするが、音声翻訳フィードバック処理フローは、コミュニケーションシステム１を構成するどの装置で行われても良い。

　コミュニケーションシステム１は、高感度マイク位置p_h_sensitive_micのマイク１０２に入力される音情報info_voiceの音量が閾値voice_vol_threshを超えたかどうか判断する（ステップＳ２０１）。

　ステップＳ２０１の判断の結果、音情報info_voiceの音量が閾値voice_vol_threshを超えていれば（ステップＳ２０１、Ｙｅｓ）、続いてコミュニケーションシステム１は、音量の大きさに応じた半径を持つ球オブジェクトobj_ballを生成する（ステップＳ２０２）。球オブジェクトobj_ballを生成すると、続いてコミュニケーションシステム１は、球オブジェクトアニメーション処理を実行する（ステップＳ２０３）。球オブジェクトアニメーション処理の詳細については後に詳述する。

　上記ステップＳ２０３の球オブジェクトアニメーション処理を実行すると、または、ステップＳ２０１の判断の結果、音情報info_voiceの音量が閾値voice_vol_threshを超えていなければ（ステップＳ２０１、Ｎｏ）、続いてコミュニケーションシステム１は、ユーザの過去の発話の周波数平均情報としてinfo_voice_freq_aveを計算する（ステップＳ２０４）。

　周波数平均情報info_voice_freq_aveを計算すると、続いてコミュニケーションシステム１は、音声情報処理装置３００で音声認識結果voice_resultを得られたかどうか判断する（ステップＳ２０５）。

　上記ステップＳ２０５の判断の結果、音声情報処理装置３００で音声認識結果voice_resultを得られた場合は（ステップＳ２０５、Ｙｅｓ）、続いてコミュニケーションシステム１は、音声認識結果表示処理を実行する（ステップＳ２０６）。音声認識結果表示処理の詳細については後に詳述する。

　音声認識結果表示処理を実行すると、続いてコミュニケーションシステム１は、音声認識結果voice_resultに対する翻訳処理装置４００での翻訳処理を起動する（ステップＳ２０７）。

　音声認識結果voice_resultに対する翻訳処理装置４００での翻訳処理を起動すると、続いてコミュニケーションシステム１は、音声認識結果voice_resultに対する翻訳処理装置４００での翻訳結果trans_resultを得られたかどうか判断する（ステップＳ２０８）。

　上記ステップＳ２０８での判断の結果、音声認識結果voice_resultに対する翻訳処理装置４００での翻訳結果trans_resultを得られた場合は（ステップＳ２０８、Ｙｅｓ）、続いてコミュニケーションシステム１は、翻訳処理装置４００での翻訳結果trans_resultをサイネージ端末１００に表示する（ステップＳ２０９）。

　翻訳処理装置４００での翻訳結果trans_resultをサイネージ端末１００に表示すると、続いてコミュニケーションシステム１は、翻訳結果trans_resultを得たときのスコアtrans_result_scoreを記憶する（ステップＳ２１０）。翻訳スコアは、翻訳処理装置４００のスコア生成部４２２が、翻訳結果trans_resultの確からしさに応じて生成する。

　翻訳結果trans_resultを得たときのスコアtrans_result_scoreを記憶すると、続いてコミュニケーションシステム１は、翻訳結果表示処理を実行する（ステップＳ２１１）。翻訳結果表示処理の詳細については後に詳述する。

　翻訳結果表示処理を実行すると、続いてコミュニケーションシステム１は、処理量あふれ判断処理を実行する（ステップＳ２１２）。処理量あふれ判断処理の詳細については後に詳述する。

　処理量あふれ判断処理を実行すると、続いてコミュニケーションシステム１は、処理量あふれ提示処理を実行する（ステップＳ２１３）。処理量あふれ提示処理の詳細については後に詳述する。処理量あふれ提示処理を実行すると、コミュニケーションシステム１は、音声翻訳フィードバック処理を終了する。

　上記ステップＳ２０５の判断の結果、音声情報処理装置３００で音声認識結果voice_resultを得られなかった場合（ステップＳ２０５、Ｎｏ）、または上記ステップＳ２０８での判断の結果、音声認識結果voice_resultに対する翻訳処理装置４００での翻訳結果trans_resultを得られなかった場合は（ステップＳ２０８、Ｎｏ）、コミュニケーションシステム１は、音声翻訳フィードバック処理を終了する。

　以上、図３６ＢのステップＳ１５９の音声翻訳フィードバック処理の詳細な流れを説明した。続いて、図３９ＡのステップＳ２０３の球オブジェクトアニメーション処理の詳細な流れを説明する。

　（球オブジェクトアニメーション処理フロー）
　図４０は、本開示の実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。図４０に示したのは、図３９ＡのステップＳ２０３の球オブジェクトアニメーション処理の詳細な流れである。なお、以下で示す球オブジェクトアニメーション処理フローは、サイネージ端末１００で取得された情報に基づいて、情報処理装置２００が実行するものとするが、球オブジェクトアニメーション処理フローは、コミュニケーションシステム１を構成するどの装置で行われても良い。

　球オブジェクトアニメーション処理を実行する場合、コミュニケーションシステム１は、ユーザが発話中であるかどうかを判断する（ステップＳ２１１）。

　上記ステップＳ２１１の判断の結果、ユーザが発話中である場合は（ステップＳ２１１、Ｙｅｓ）、続いてコミュニケーションシステム１は、球オブジェクトobj_ballを相手の左の耳位置p_ear_l及び右の耳位置p_ear_rの位置へ向かってアニメーションしながら移動させる（ステップＳ２１２）。

　一方、上記ステップＳ２１１の判断の結果、ユーザが発話中でない場合は（ステップＳ２１１、Ｎｏ）、続いてコミュニケーションシステム１は、球オブジェクトobj_ballを相手の口の位置情報p_mouthから、左の耳位置p_ear_l及び右の耳位置p_ear_rの位置へ向かってアニメーションしながら移動させる（ステップＳ２１３）。

　以上、図３９ＡのステップＳ２０３の球オブジェクトアニメーション処理の詳細な流れを説明した。続いて、図３９ＢのステップＳ２１２の処理量あふれ判断処理の詳細な流れを説明する。

　（処理量あふれ判断処理フロー（１））
　図４１は、本開示の実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。図４１に示したのは、図３９ＢのステップＳ２１２の処理量あふれ判断処理の詳細な流れである。なお、以下で示す処理量あふれ判断処理フローは、サイネージ端末１００で取得された情報などに基づいて、情報処理装置２００が実行するものとするが、処理量あふれ判断処理フローは、コミュニケーションシステム１を構成するどの装置で行われても良い。

　処理量あふれ判断処理を実行する場合、まずコミュニケーションシステム１は、ユーザが発話中であるかどうかを判断する（ステップＳ２２１）。

　上記ステップＳ２２１の判断の結果、ユーザが発話中であった場合は（ステップＳ２２１、Ｙｅｓ）、続いてコミュニケーションシステム１は、処理量あふれを判断するフラグf_task_over_modeの値をfalseに設定する（ステップＳ２２２）。

　一方、上記ステップＳ２２１の判断の結果、ユーザが発話中でなかった場合は（ステップＳ２２１、Ｎｏ）、続いてコミュニケーションシステム１は、相手の正対身体輪郭情報領域に閾値d_surrounding_threshの距離を加えた領域内に、ユーザの視線情報info_gazeが入っているかどうか判断する（ステップＳ２２３）。

　上記ステップＳ２２３の判断の結果、相手の正対身体輪郭情報領域に閾値d_surrounding_threshの距離を加えた領域内に、ユーザの視線情報info_gazeが入っていなければ（ステップＳ２２３、Ｎｏ）、続いてコミュニケーションシステム１は、ユーザの視線情報info_gazeが、正対身体輪郭情報領域に閾値d_surrounding_threshの距離を加えた領域内に入っている時間が、閾値t_surrounding_threshよりも大きいかどうか判断する（ステップＳ２２４）。

　上記ステップＳ２２４の判断の結果、ユーザの視線情報info_gazeが、正対身体輪郭情報領域に閾値d_surrounding_threshの距離を加えた領域内に入っている時間が、閾値t_surrounding_threshよりも大きくなければ（ステップＳ２２４、Ｎｏ）、続いてコミュニケーションシステム１は、処理量あふれを判断するフラグf_task_over_modeの値をfalseに設定する（ステップＳ２２２）。

　一方、上記ステップＳ２２３の判断の結果、相手の正対身体輪郭情報領域に閾値d_surrounding_threshの距離を加えた領域内に、ユーザの視線情報info_gazeが入っていれば（ステップＳ２２３、Ｙｅｓ）、または、上記ステップＳ２２４の判断の結果、ユーザの視線情報info_gazeが、正対身体輪郭情報領域に閾値d_surrounding_threshの距離を加えた領域内に入っている時間が、閾値t_surrounding_threshよりも大きければ（ステップＳ２２４、Ｙｅｓ）、続いてコミュニケーションシステム１は、処理量あふれを判断するフラグf_task_over_modeの値をtrueに設定する（ステップＳ２２５）。

　（処理量あふれ判断処理フロー（２））
　処理量あふれ判断処理フローの２つ目の例を説明する。図４２は、本開示の実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。図４２に示したのは、図３９ＢのステップＳ２１２の処理量あふれ判断処理の詳細な流れである。なお、以下で示す処理量あふれ判断処理フローは、サイネージ端末１００で取得された情報などに基づいて、情報処理装置２００が実行するものとするが、処理量あふれ判断処理フローは、コミュニケーションシステム１を構成するどの装置で行われても良い。

　処理量あふれ判断処理を実行する場合、まずコミュニケーションシステム１は、ユーザが発話中であるかどうかを判断する（ステップＳ２３１）。

　上記ステップＳ２３１の判断の結果、ユーザが発話中であった場合は（ステップＳ２３１、Ｙｅｓ）、続いてコミュニケーションシステム１は、処理量あふれを判断するフラグf_task_over_modeの値をfalseに設定する（ステップＳ２３２）。

　一方、上記ステップＳ２３１の判断の結果、ユーザが発話中でなかった場合は（ステップＳ２３１、Ｎｏ）、続いてコミュニケーションシステム１は、ユーザの相槌を検出できたかどうか判断する（ステップＳ２３３）。

　上記ステップＳ２３３の判断の結果、ユーザの相槌を検出できなければ（ステップＳ２３３、Ｎｏ）、続いてコミュニケーションシステム１は、最後に相槌を検出した時間から現時点までの時間が閾値t_nod_threshよりも大きいかどうか判断する（ステップＳ２３４）。

　上記ステップＳ２３４の判断の結果、最後に相槌を検出した時間から現時点までの時間が閾値t_nod_threshよりも大きくなければ（ステップＳ２３４、Ｎｏ）、続いてコミュニケーションシステム１は、処理量あふれを判断するフラグf_task_over_modeの値をfalseに設定する（ステップＳ２３２）。

　また、上記ステップＳ２３３の判断の結果、ユーザの相槌を検出できれば（ステップＳ２３３、Ｙｅｓ）、続いてコミュニケーションシステム１は、処理量あふれを判断するフラグf_task_over_modeの値をfalseに設定する（ステップＳ２３２）。

　一方、上記ステップＳ２３４の判断の結果、最後に相槌を検出した時間から現時点までの時間が閾値t_nod_threshよりも大きければ（ステップＳ２３４、Ｙｅｓ）、続いてコミュニケーションシステム１は、処理量あふれを判断するフラグf_task_over_modeの値をtrueに設定する（ステップＳ２３５）。

　（処理量あふれ判断処理フロー（３））
　処理量あふれ判断処理フローの３つ目の例を説明する。図４３は、本開示の実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。図４３に示したのは、図３９ＢのステップＳ２１２の処理量あふれ判断処理の詳細な流れである。なお、以下で示す処理量あふれ判断処理フローは、サイネージ端末１００で取得された情報などに基づいて、情報処理装置２００が実行するものとするが、処理量あふれ判断処理フローは、コミュニケーションシステム１を構成するどの装置で行われても良い。

　処理量あふれ判断処理を実行する場合、まずコミュニケーションシステム１は、ユーザが発話中であるかどうかを判断する（ステップＳ２４１）。

　上記ステップＳ２４１の判断の結果、ユーザが発話中であった場合は（ステップＳ２４１、Ｙｅｓ）、続いてコミュニケーションシステム１は、処理量あふれを判断するフラグf_task_over_modeの値をfalseに設定する（ステップＳ２４２）。

　一方、上記ステップＳ２４１の判断の結果、ユーザが発話中でなかった場合は（ステップＳ２４１、Ｎｏ）、続いてコミュニケーションシステム１は、ユーザの掌を検出できたかどうか判断する（ステップＳ２４３）。

　上記ステップＳ２４３の判断の結果、ユーザの掌を検出できれば（ステップＳ２４３、Ｙｅｓ）、続いてコミュニケーションシステム１は、ユーザの掌を検出した時間の累積時間t_palm_accumを更新する（ステップＳ２４４）。ユーザの掌を検出した時間の累積時間t_palm_accumを更新すると、続いてコミュニケーションシステム１は、ユーザの掌を検出した時間の累積時間t_palm_accumが閾値t_palm_accum_threshよりも大きいかどうか判断する（ステップＳ２４５）。

　上記ステップＳ２４５の判断の結果、ユーザの掌を検出した時間の累積時間t_palm_accumが閾値t_palm_accum_threshよりも大きくなければ（ステップＳ２４５、Ｎｏ）、続いてコミュニケーションシステム１は、処理量あふれを判断するフラグf_task_over_modeの値をfalseに設定する（ステップＳ２４２）。

　また、上記ステップＳ２４３の判断の結果、ユーザの掌を検出できなければ（ステップＳ２４３、Ｙｅｓ）、続いてコミュニケーションシステム１は、処理量あふれを判断するフラグf_task_over_modeの値をfalseに設定する（ステップＳ２４２）。

　一方、上記ステップＳ２４５の判断の結果、ユーザの掌を検出した時間の累積時間t_palm_accumが閾値t_palm_accum_threshよりも大きければ（ステップＳ２４５、Ｙｅｓ）、続いてコミュニケーションシステム１は、処理量あふれを判断するフラグf_task_over_modeの値をtrueに設定する（ステップＳ２４６）。

　（処理量あふれ判断処理フロー（４））
　処理量あふれ判断処理フローの４つ目の例を説明する。図４４は、本開示の実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。図４４に示したのは、図３９ＢのステップＳ２１２の処理量あふれ判断処理の詳細な流れである。なお、以下で示す処理量あふれ判断処理フローは、サイネージ端末１００で取得された情報などに基づいて、情報処理装置２００が実行するものとするが、処理量あふれ判断処理フローは、コミュニケーションシステム１を構成するどの装置で行われても良い。

　処理量あふれ判断処理を実行する場合、まずコミュニケーションシステム１は、ユーザが発話中であるかどうかを判断する（ステップＳ２５１）。

　上記ステップＳ２５１の判断の結果、ユーザが発話中であった場合は（ステップＳ２５１、Ｙｅｓ）、続いてコミュニケーションシステム１は、処理量あふれを判断するフラグf_task_over_modeの値をfalseに設定する（ステップＳ２５２）。

　一方、上記ステップＳ２５１の判断の結果、ユーザが発話中でなかった場合は（ステップＳ２５１、Ｎｏ）、続いてコミュニケーションシステム１は、音声認識結果voice_resultを、自然言語解析処理によって句単位に分割する（ステップＳ２５３）。

　音声認識結果voice_resultを、自然言語解析処理によって句単位に分割すると、続いてコミュニケーションシステム１は、その音声認識結果voice_resultの句の数num_phraseを、それまでの累積数num_accum_phraseへ加算する（ステップＳ２５４）。

　音声認識結果voice_resultの句の数num_phraseを、それまでの累積数num_accum_phraseへ加算すると、続いてコミュニケーションシステム１は、加算後の累積数num_phrase_accumが、閾値num_phrase_accum_threshを超えたかどうか判断する（ステップＳ２５５）。

　上記ステップＳ２５５の判断の結果、加算後の累積数num_phrase_accumが、閾値num_phrase_accum_threshを超えていなければ（ステップＳ２５５、Ｎｏ）、続いてコミュニケーションシステム１は、処理量あふれを判断するフラグf_task_over_modeの値をfalseに設定する（ステップＳ２５２）。

　一方、上記ステップＳ２５５の判断の結果、加算後の累積数num_phrase_accumが、閾値num_phrase_accum_threshを超えていれば（ステップＳ２５５、Ｙｅｓ）、続いてコミュニケーションシステム１は、処理量あふれを判断するフラグf_task_over_modeの値をtrueに設定する（ステップＳ２５６）。

　以上、処理量あふれ判断処理の詳細なフローを説明した。なお、ここでは５つの処理量あふれ判断処理フローの例を示したが、コミュニケーションシステム１は、この５つのフローの中から１つを選択して処理量あふれ判断処理を実行しても良く、複数のフローを選択して処理量あふれ判断処理フローを実行しても良い。複数のフローを選択する場合は、フローの結果が異なる場合があり得る。従って、複数のフローを選択する場合、コミュニケーションシステム１は、奇数個のフローを選択して、フラグf_task_over_modeの値の設定の結果が多い方を採用してもよい。続いて、図３９ＢのステップＳ２１３の処理量あふれ提示処理の詳細な流れを説明する。

　（処理量あふれ提示処理フロー）
　図４５は、本開示の実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。図４５に示したのは、図３９ＢのステップＳ２１３の処理量あふれ提示処理の詳細な流れである。なお、以下で示す処理量あふれ提示処理フローは、サイネージ端末１００で取得された情報などに基づいて、情報処理装置２００が実行するものとするが、処理量あふれ提示処理フローは、コミュニケーションシステム１を構成するどの装置で行われても良い。

　処理量あふれ提示処理を実行する場合、まずコミュニケーションシステム１は、ユーザが発話中であるかどうかを判断する（ステップＳ２６１）。

　上記ステップＳ２６１の判断の結果、ユーザが発話中であれば（ステップＳ２６１、Ｙｅｓ）、コミュニケーションシステム１は、ユーザの発話の音量の大きさに応じた半径を持つ球オブジェクトobj_ballを、相手の右の耳位置p_ear_rと左の耳位置p_ear_lの位置へ向かってアニメーションながら移動し、その後、その位置から垂直下方向へアニメーションしながら移動させるよう、サイネージ端末１００に表示させる（ステップＳ２６２）。

　一方、上記ステップＳ２６１の判断の結果、ユーザが発話中でなければ（ステップＳ２６１、Ｎｏ）、コミュニケーションシステム１は、そのまま処理量あふれ提示処理を終了する。

　以上、処理量あふれ提示処理の詳細な流れを説明した。続いて、音声認識結果表示処理の詳細な流れを説明する。

　（音声認識結果表示処理フロー）
　図４６は、本開示の実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。図４６に示したのは、図３９ＡのステップＳ２０６の音声認識結果表示処理の詳細な流れである。なお、以下で示す音声認識結果表示処理フローは、サイネージ端末１００で取得された情報などに基づいて、情報処理装置２００が実行するものとするが、音声認識結果表示処理フローは、コミュニケーションシステム１を構成するどの装置で行われても良い。

　音声認識結果表示処理を実行する場合、まずコミュニケーションシステム１は、ユーザが発話中であったかどうかを判断する（ステップＳ２７１）。

　上記ステップＳ２７１の判断の結果、ユーザが発話中であった場合は（ステップＳ２７１、Ｙｅｓ）、コミュニケーションシステム１は、音声認識結果を、サイネージ端末１００における、相手の右の耳位置p_ear_rまたは左の耳位置p_ear_lの付近に表示させる（ステップＳ２７２）。

　一方、上記ステップＳ２７１の判断の結果、ユーザが発話中でなかった場合は（ステップＳ２７１、Ｎｏ）、コミュニケーションシステム１は、そのまま音声認識結果表示処理を終了する。

　以上、音声認識結果表示処理の詳細な流れを説明した。続いて、翻訳結果表示処理の詳細な流れを説明する。

　（翻訳結果表示処理フロー）
　図４７は、本開示の実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。図４７に示したのは、図３９ＢのステップＳ２１１の翻訳結果表示処理の詳細な流れである。なお、以下で示す翻訳結果表示処理フローは、サイネージ端末１００で取得された情報などに基づいて、情報処理装置２００が実行するものとするが、翻訳結果表示処理フローは、コミュニケーションシステム１を構成するどの装置で行われても良い。

　翻訳結果表示処理を実行する場合、まずコミュニケーションシステム１は、ユーザが発話中であるかどうかを判断する（ステップＳ２８１）。

　上記ステップＳ２８１の判断の結果、ユーザが発話中でない場合は（ステップＳ２８１、Ｎｏ）、コミュニケーションシステム１は、翻訳結果を、サイネージ端末１００における、相手の口の位置情報p_mouthの付近に表示させる（ステップＳ２８２）。

　一方、上記ステップＳ２８１の判断の結果、ユーザが発話中である場合は（ステップＳ２８１、Ｙｅｓ）、コミュニケーションシステム１は、そのまま翻訳結果表示処理を終了する。

　以上、翻訳結果表示処理の詳細な流れを説明した。続いて、図３６ＢのステップＳ１６０の翻訳モード継続判断処理の詳細な流れを説明する。

　（翻訳モード継続判断処理フロー（１））
　図４８は、本開示の実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。図４８に示したのは、図３６ＢのステップＳ１６０の翻訳モード継続判断処理の詳細な流れである。なお、以下で示す翻訳モード継続判断処理フローは、サイネージ端末１００で取得された情報などに基づいて、情報処理装置２００が実行するものとするが、翻訳モード継続判断処理フローは、コミュニケーションシステム１を構成するどの装置で行われても良い。

　翻訳モード継続判断処理フローを実行する場合、まずコミュニケーションシステム１は、翻訳スコアtrans_scoreが閾値trans_score_threshより低いかどうか判断する（ステップＳ２９１）。

　上記ステップＳ２９１の判断の結果、翻訳スコアtrans_scoreが閾値trans_score_threshより低ければ（ステップＳ２９１、Ｙｅｓ）、コミュニケーションシステム１は、翻訳モードかどうかを示すフラグf_trans_modeの値をfalseに設定して、翻訳モード継続判断処理フローを終了する（ステップＳ２９２）。

　一方、上記ステップＳ２９１の判断の結果、翻訳スコアtrans_scoreが閾値trans_score_threshより低くなければ（ステップＳ２９１、Ｎｏ）、続いてコミュニケーションシステム１は、ユーザの視線情報info_gazeが相手の正対身体輪郭情報領域内に入っているかどうか判断する（ステップＳ２９３）。

　上記ステップＳ２９３の判断の結果、ユーザの視線情報info_gazeが相手の正対身体輪郭情報領域内に入っていなければ（ステップＳ２９３、Ｎｏ）、続いてコミュニケーションシステム１は、ユーザの視線情報info_gazeが、相手の正対身体輪郭情報領域に閾値d_surrounding_threshの距離を加えた領域内に入っているかどうか判断する（ステップＳ２９４）。

　上記ステップＳ２９４の判断の結果、ユーザの視線情報info_gazeが、相手の正対身体輪郭情報領域に閾値d_surrounding_threshの距離を加えた領域内に入っていなければ（ステップＳ２９４、Ｎｏ）、コミュニケーションシステム１は、翻訳モードかどうかを示すフラグf_trans_modeの値をfalseに設定して、翻訳モード継続判断処理フローを終了する（ステップＳ２９２）。

　一方、上記ステップＳ２９３の判断の結果、ユーザの視線情報info_gazeが相手の正対身体輪郭情報領域内に入っていれば（ステップＳ２９３、Ｙｅｓ）、または、上記ステップＳ２９４の判断の結果、ユーザの視線情報info_gazeが、相手の正対身体輪郭情報領域に閾値d_surrounding_threshの距離を加えた領域内に入っていれば（ステップＳ２９４、Ｙｅｓ）、コミュニケーションシステム１は、翻訳モードかどうかを示すフラグf_trans_modeの値をtrueに設定して、翻訳モード継続判断処理フローを終了する（ステップＳ２９５）。

　（翻訳モード継続判断処理フロー（２））
　翻訳モード継続判断処理フローの２つ目の例を説明する。図４９は、本開示の実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。図４９に示したのは、図３６ＢのステップＳ１６０の翻訳モード継続判断処理の詳細な流れである。なお、以下で示す翻訳モード継続判断処理フローは、サイネージ端末１００で取得された情報などに基づいて、情報処理装置２００が実行するものとするが、翻訳モード継続判断処理フローは、コミュニケーションシステム１を構成するどの装置で行われても良い。

　翻訳モード継続判断処理フローを実行する場合、まずコミュニケーションシステム１は、ユーザの発話によって得られる音情報info_voiceにユーザの言いよどみが検出できるかどうか判断する（ステップＳ３０１）。

　上記ステップＳ３０１の判断の結果、音情報info_voiceにユーザの言いよどみが検出できれば（ステップＳ３０１、Ｙｅｓ）、続いてコミュニケーションシステム１は、最後に取得できたユーザの音声認識結果voice_resultが、フィラーワードデータベース内に入っているかどうか判断する（ステップＳ３０２）。

　表１は、フィラーワードデータベースの内容の例を示す表である。コミュニケーションシステム１は、ユーザの音声認識結果voice_resultが、フィラーワードデータベース内に入っているフィラーワード群と一致するかどうかだけではなく、類似音フィラーワード群と一致するかどうかを判断しても良い。

　上記ステップＳ３０２の判断の結果、ユーザの音声認識結果voice_resultが、フィラーワードデータベース内に入っていれば（ステップＳ３０２、Ｙｅｓ）、続いてコミュニケーションシステム１は、最後に発話したフィラーワードからの時間が閾値t_fillerwords_threshを超えていないかどうか判断する（ステップＳ３０３）。

　上記ステップＳ３０１の判断の結果、音情報info_voiceにユーザの言いよどみが検出できれば（ステップＳ３０１、Ｎｏ）、または、上記ステップＳ３０２の判断の結果、ユーザの音声認識結果voice_resultが、フィラーワードデータベース内に入っていなければ（ステップＳ３０２、Ｎｏ）、または、上記ステップＳ３０３の判断の結果、最後に発話したフィラーワードからの時間が閾値t_fillerwords_threshを超えていれば（ステップＳ３０３、Ｎｏ）、コミュニケーションシステム１は、音情報info_voiceとして無音区間と判断する条件を満たすかどうか判断する（ステップＳ３０４）。無音区間と判断する条件としては、例えば音量が極めて小さい区間が継続しているかどうか、等があり得る。

　上記ステップＳ３０４の判断の結果、音情報info_voiceとして無音区間と判断する条件を満たしていれば（ステップＳ３０４、Ｙｅｓ）、コミュニケーションシステム１は、翻訳モードかどうかを示すフラグf_trans_modeの値をfalseに設定して、翻訳モード継続判断処理フローを終了する（ステップＳ３０５）。

　一方、上記ステップＳ３０３の判断の結果、最後に発話したフィラーワードからの時間が閾値t_fillerwords_threshを超えていなければ（ステップＳ３０３、Ｙｅｓ）、または、上記ステップＳ３０４の判断の結果、音情報info_voiceとして無音区間と判断する条件を満たしていなければ（ステップＳ３０４、Ｎｏ）、コミュニケーションシステム１は、翻訳モードかどうかを示すフラグf_trans_modeの値をtrueに設定して、翻訳モード継続判断処理フローを終了する（ステップＳ３０６）。

　（翻訳モード継続判断処理フロー（３））
　翻訳モード継続判断処理フローの３つ目の例を説明する。図５０は、本開示の実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。図５０に示したのは、図３６ＢのステップＳ１６０の翻訳モード継続判断処理の詳細な流れである。なお、以下で示す翻訳モード継続判断処理フローは、サイネージ端末１００で取得された情報などに基づいて、情報処理装置２００が実行するものとするが、翻訳モード継続判断処理フローは、コミュニケーションシステム１を構成するどの装置で行われても良い。

　翻訳モード継続判断処理フローを実行する場合、まずコミュニケーションシステム１は、最後に取得した発話の周波数情報info_last_voice_freqが過去の平均情報であるinfo_voice_freq_aveから閾値f_threshを引いたものよりも大きいかどうか判断する（ステップＳ３１１）。

　上記ステップＳ３１１の判断の結果、最後に取得した発話の周波数情報info_last_voice_freqが過去の平均情報であるinfo_voice_freq_aveから閾値f_threshを引いたものよりも大きければ（ステップＳ３１１、Ｙｅｓ）、コミュニケーションシステム１は、翻訳モードかどうかを示すフラグf_trans_modeの値をfalseに設定して、翻訳モード継続判断処理フローを終了する（ステップＳ３１２）。

　一方、上記ステップＳ３１１の判断の結果、最後に取得した発話の周波数情報info_last_voice_freqが過去の平均情報であるinfo_voice_freq_aveから閾値f_threshを引いたものよりも大きくなければ（ステップＳ３１１、Ｎｏ）、コミュニケーションシステム１は、翻訳モードかどうかを示すフラグf_trans_modeの値をtrueに設定して、翻訳モード継続判断処理フローを終了する（ステップＳ３１３）。

　（翻訳モード継続判断処理フロー（４））
　翻訳モード継続判断処理フローの４つ目の例を説明する。図５１は、本開示の実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。図５１に示したのは、図３６ＢのステップＳ１６０の翻訳モード継続判断処理の詳細な流れである。なお、以下で示す翻訳モード継続判断処理フローは、サイネージ端末１００で取得された情報などに基づいて、情報処理装置２００が実行するものとするが、翻訳モード継続判断処理フローは、コミュニケーションシステム１を構成するどの装置で行われても良い。

　翻訳モード継続判断処理フローを実行する場合、まずコミュニケーションシステム１は、最後に取得できたユーザの音声認識結果voice_resultが、会話終了判断ワードデータベース内に入っているかどうか判断する（ステップＳ３２１）。

　表２は、会話終了判断ワードデータベースの内容の例を示す表である。コミュニケーションシステム１は、ユーザの音声認識結果voice_resultが、会話終了判断ワードデータベース内に入っている会話終了判断ワード群と一致するかどうかだけではなく、類似音会話終了判断ワード群と一致するかどうかを判断しても良い。

　上記ステップＳ３２１の判断の結果、最後に取得できたユーザの音声認識結果voice_resultが、会話終了判断ワードデータベース内に入っていれば（ステップＳ３２１、Ｙｅｓ）、続いてコミュニケーションシステム１は、最後に発話した会話終了判断ワードからの時間が閾値t_convendwords_threshを超えていないかどうか判断する（ステップＳ３２２）。

　上記ステップＳ３２１の判断の結果、最後に取得できたユーザの音声認識結果voice_resultが、会話終了判断ワードデータベース内に入っていなければ（ステップＳ３２１、Ｎｏ）、または、上記ステップＳ３２２の判断の結果、最後に発話した会話終了判断ワードからの時間が閾値t_convendwords_threshを超えていれば（ステップＳ３２２、Ｎｏ）、コミュニケーションシステム１は、音情報info_voiceとして無音区間と判断する条件を満たすかどうか判断する（ステップＳ３２３）。無音区間と判断する条件としては、例えば音量が極めて小さい区間が継続しているかどうか、等があり得る。

　上記ステップＳ３２３の判断の結果、音情報info_voiceとして無音区間と判断する条件を満たしていれば（ステップＳ３２３、Ｙｅｓ）、コミュニケーションシステム１は、翻訳モードかどうかを示すフラグf_trans_modeの値をfalseに設定して、翻訳モード継続判断処理フローを終了する（ステップＳ３２４）。

　一方、上記ステップＳ３２２の判断の結果、最後に発話した会話終了判断ワードからの時間が閾値t_convendwords_threshを超えていなければ（ステップＳ３２２、Ｙｅｓ）、または、上記ステップＳ３２３の判断の結果、音情報info_voiceとして無音区間と判断する条件を満たしていなければ（ステップＳ３２３、Ｎｏ）、コミュニケーションシステム１は、翻訳モードかどうかを示すフラグf_trans_modeの値をtrueに設定して、翻訳モード継続判断処理フローを終了する（ステップＳ３２４）。

　（翻訳モード継続判断処理フロー（５））
　翻訳モード継続判断処理フローの５つ目の例を説明する。図５２は、本開示の実施の形態に係るコミュニケーションシステム１の動作例を示す流れ図である。図５２に示したのは、図３６ＢのステップＳ１６０の翻訳モード継続判断処理の詳細な流れである。なお、以下で示す翻訳モード継続判断処理フローは、サイネージ端末１００で取得された情報などに基づいて、情報処理装置２００が実行するものとするが、翻訳モード継続判断処理フローは、コミュニケーションシステム１を構成するどの装置で行われても良い。

　翻訳モード継続判断処理フローを実行する場合、まずコミュニケーションシステム１は、画面上に出ている翻訳モード解除ボタンが押されたかどうか判断する（ステップＳ３３１）。

　上記ステップＳ３３１の判断の結果、翻訳モード解除ボタンが押されていれば（ステップＳ３３１、Ｙｅｓ）、コミュニケーションシステム１は、翻訳モードかどうかを示すフラグf_trans_modeの値をfalseに設定して、翻訳モード継続判断処理フローを終了する（ステップＳ３３２）。

　一方、上記ステップＳ３３１の判断の結果、翻訳モード解除ボタンが押されていなければ（ステップＳ３３１、Ｎｏ）、コミュニケーションシステム１は、翻訳モードかどうかを示すフラグf_trans_modeの値をtrueに設定して、翻訳モード継続判断処理フローを終了する（ステップＳ３３３）。

　以上、翻訳モード継続判断処理の詳細な流れを説明した。なお、ここでは５つの翻訳モード継続判断処理フローの例を示したが、コミュニケーションシステム１は、この５つのフローの中から１つを選択して翻訳モード継続判断処理を実行しても良く、複数のフローを選択して翻訳モード継続判断処理フローを実行しても良い。複数のフローを選択する場合は、フローの結果が異なる場合があり得る。従って、複数のフローを選択する場合、コミュニケーションシステム１は、奇数個のフローを選択して、フラグf_trans_modeの値の設定の結果が多い方を採用してもよい。

　本開示の実施の形態に係るコミュニケーションシステム１は、上述した動作を実行することで、サイネージ端末等を介して、人間同士が正対してコミュニケーションを行う際に、発話者や対話者の状況に基づいて自然なコミュニケーションを行わせることが可能となる。

　＜２．まとめ＞
　以上説明したように本開示の実施の形態によれば、サイネージ端末１００を介して、翻訳をしながら人間同士が会話を行えるコミュニケーションシステム１において、仮に発話が途絶えたとしても、発話が途絶えたことのみを理由として翻訳を打ち切らないようにするコミュニケーションシステム１が提供される。

　本開示の実施の形態に係るコミュニケーションシステム１は、発話が途絶えたことのみを理由として翻訳を打ち切らないようにすることで、発話者側が発話内容を思い浮かべることが出来ない場合にも、翻訳したい対象だけを翻訳相手に伝えられるとともに、相手に発話を遮られないようにできる。

　また本開示の実施の形態によれば、サイネージ端末１００を介して、翻訳をしながら人間同士が会話を行えるコミュニケーションシステム１において、話し手側が発話している最中に、聞き手側の処理量があふれていることを、話し手側にサイネージ端末１００を用いて通知するコミュニケーションシステム１が提供される。

　本開示の実施の形態に係るコミュニケーションシステム１は、話し手側が発話している最中に、聞き手側の処理量があふれていることを、話し手側にサイネージ端末１００を用いて通知することで、聞き手側の情報の処理量のイメージを、話し手の発話を遮ること無く、話し手側に伝えることが可能となる。

　すなわち、本開示の実施の形態に係るコミュニケーションシステム１は、自分の発話を相手に遮られることを回避したり、聞き手側の処理量があふれていることを、話し手側に伝えたりすることで、話し手側及び聞き手側にとって円滑なコミュニケーションを可能にさせる。

　なお上記実施形態では、サイネージ端末１００を介したコミュニケーションシステム１の例を示したが、本開示は係る例に限定されるものではない。本開示は、ディスプレイ、スピーカー、マイクを介してその場に無い人間同士がコミュニケーションするシステム、例えばテレビ電話システム、テレビ会議システム、ＡＲ（拡張現実）を利用したバーチャル会話支援システムなどにも適用可能である。

　テレビ会議システムは、会議の参加者が会議中にカメラでは無くマイクの方を向いてしまうと不自然な状況になりやすい。そのため、本開示を適用するテレビ会議システムは、会議の参加者がマイクの方を向いた場合には、上述したように予め作成した正対時の画像に置き換えて相手側のディスプレイに提示する。このように正対時の画像に置き換えて相手側のディスプレイに提示することで、本開示を適用するテレビ会議システムは、不自然な状況となることを回避出来る。

　また、本開示をテレビ会議システムに適用する場合、例えば、発話者の発話内容をログとして記録しておき、そのログを翻訳に活用しても良い。会議では頻繁に「あれ」や「さっきの」等といった句が発話されることが多いが、本開示を適用するテレビ会議システムは、その「あれ」や「さっきの」等の句を具体的な名詞等に置き換えて翻訳し、相手側に提示しても良い。

　本明細書の各装置が実行する処理における各ステップは、必ずしもシーケンス図またはフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、各装置が実行する処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。

　また、各装置に内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアを、上述した各装置の構成と同等の機能を発揮させるための、単体のコンピュータまたは複数のコンピュータが一連の処理を行うコンピュータシステムで実行されるプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供されることが可能である。また、機能ブロック図で示したそれぞれの機能ブロックをハードウェアまたはハードウェア回路で構成することで、一連の処理をハードウェアまたはハードウェア回路で実現することもできる。

　また上述の説明で用いた機能ブロック図で示したそれぞれの機能ブロックの一部又は全部は、たとえばインターネット等のネットワークを介して接続されるサーバ装置で実現されてもよい。また上述の説明で用いた機能ブロック図で示したそれぞれの機能ブロックの構成は、単独の装置で実現されてもよく、複数の装置が連携するシステムで実現されても良い。複数の装置が連携するシステムには、例えば複数のサーバ装置の組み合わせ、サーバ装置と端末装置との組み合わせ等が含まれ得る。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　発話者が装置に対して発話した結果による発話内容を解析した結果に基づいて、前記発話者が発話している前記装置に対して前記発話者に発話を停止させるための処理を実行する制御部を備える、制御装置。
（２）
　前記制御部は、前記発話者の発話内容を聴いている聞き手の状況を判断して前記処理を実行する、前記（１）に記載の制御装置。
（３）
　前記制御部は、前記聞き手の相槌の発生状況に基づいて前記処理を実行する、前記（２）に記載の制御装置。
（４）
　前記制御部は、前記聞き手の前記発話者の方向に向けた視線の状況に基づいて前記処理を実行する、前記（２）に記載の制御装置。
（５）
　前記制御部は、前記聞き手による、前記発話者に発話を停止させるためのジェスチャの検出に基づいて前記処理を実行する、前記（２）に記載の制御装置。
（６）
　前記制御部は、前記発話内容に含まれる単語または品詞の数に応じて前記処理を実行するかどうか判断する、前記（１）～（５）のいずれかに記載の制御装置。
（７）
　前記制御部は、前記発話内容の難易度に応じて前記処理を実行するかどうか判断する、前記（１）～（６）のいずれかに記載の制御装置。
（８）
　前記装置は、前記発話者側及び前記聞き手側に表示装置を備え、
　前記制御部は、前記発話者側の前記表示装置へ、前記発話者に発話を停止させるための情報を出力する、前記（１）～（７）のいずれかに記載の制御装置。
（９）
　前記制御部は、前記発話者側の前記表示装置へ、発話内容が前記聞き手の耳に入っていないような効果を表示させる、前記（８）に記載の制御装置。
（１０）
　前記制御部は、前記発話者側の前記表示装置へ表示していた発話内容の認識結果の表示を停止する、前記（８）に記載の制御装置。
（１１）
　前記制御部は、前記発話者による発話を打ち消す音を前記装置から出力させる、前記（８）に記載の制御装置。
（１２）
　前記装置は、前記発話者側及び前記聞き手側に表示装置を備え、
　前記制御部は、前記聞き手側の前記表示装置へ、前記発話者に発話を停止させるための情報を出力する、前記（１）～（７）のいずれかに記載の制御装置。
（１３）
　前記制御部は、前記聞き手の姿勢を崩させるための情報を出力する、前記（１２）に記載の制御装置。
（１４）
　発話者が装置に対して発話した結果による発話内容を解析した結果に基づいて、前記発話者が発話している前記装置に対して前記発話者に発話を停止させるための処理を実行することを含む、制御方法。
（１５）
　発話者が装置に対して発話した結果による発話内容を解析した結果に基づいて、前記発話者が発話している前記装置に対して前記発話者に発話を停止させるための処理を実行することをコンピュータに実行させる、コンピュータプログラム。

　１　　　　コミュニケーションシステム
　１００　　サイネージ端末

Claims

　発話者が装置に対して発話した結果による発話内容を解析した結果に基づいて、前記発話者が発話している前記装置に対して前記発話者に発話を停止させるための処理を実行する制御部を備える、制御装置。
　前記制御部は、前記発話者の発話内容を聴いている聞き手の状況を判断して前記処理を実行する、請求項１に記載の制御装置。
　前記制御部は、前記聞き手の相槌の発生状況に基づいて前記処理を実行する、請求項２に記載の制御装置。
　前記制御部は、前記聞き手の前記発話者の方向に向けた視線の状況に基づいて前記処理を実行する、請求項２に記載の制御装置。
　前記制御部は、前記聞き手による、前記発話者に発話を停止させるためのジェスチャの検出に基づいて前記処理を実行する、請求項２に記載の制御装置。
　前記制御部は、前記発話内容に含まれる単語または品詞の数に応じて前記処理を実行するかどうか判断する、請求項１に記載の制御装置。
　前記制御部は、前記発話内容の難易度に応じて前記処理を実行するかどうか判断する、請求項１に記載の制御装置。
　前記装置は、前記発話者側及び前記聞き手側に表示装置を備え、
　前記制御部は、前記発話者側の前記表示装置へ、前記発話者に発話を停止させるための情報を出力する、請求項１に記載の制御装置。
　前記制御部は、前記発話者側の前記表示装置へ、発話内容が前記聞き手の耳に入っていないような効果を表示させる、請求項８に記載の制御装置。
　前記制御部は、前記発話者側の前記表示装置へ表示していた発話内容の認識結果の表示を停止する、請求項８に記載の制御装置。
　前記制御部は、前記発話者による発話を打ち消す音を前記装置から出力させる、請求項８に記載の制御装置。
　前記装置は、前記発話者側及び前記聞き手側に表示装置を備え、
　前記制御部は、前記聞き手側の前記表示装置へ、前記発話者に発話を停止させるための情報を出力する、請求項１に記載の制御装置。
　前記制御部は、前記聞き手の姿勢を崩させるための情報を出力する、請求項１２に記載の制御装置。
　発話者が装置に対して発話した結果による発話内容を解析した結果に基づいて、前記発話者が発話している前記装置に対して前記発話者に発話を停止させるための処理を実行することを含む、制御方法。
　発話者が装置に対して発話した結果による発話内容を解析した結果に基づいて、前記発話者が発話している前記装置に対して前記発話者に発話を停止させるための処理を実行することをコンピュータに実行させる、コンピュータプログラム。