JPWO2020031696A1

JPWO2020031696A1 - 情報処理装置及び情報処理方法、並びに映像音声出力システム

Info

Publication number: JPWO2020031696A1
Application number: JP2020536443A
Authority: JP
Inventors: 吉田　明; 明吉田; 安達　浩; 浩安達; 岡本　直樹; 直樹岡本
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-08-10
Filing date: 2019-07-24
Publication date: 2021-08-26
Anticipated expiration: 2039-07-24
Also published as: US11647334B2; WO2020031453A1; CN112514406A; EP3836554A4; EP3836554A1; EP3836554B1; US20210306752A1; JP7314944B2

Abstract

映像信号に同期した音響信号の出力処理を行う情報処理装置及び情報処理方法、並びに映像音声出力システムを提供する。情報処理装置は、表示部の画面に表示される映像内に出現する音源の位置を検出して、前記映像に同期する音声の音像が、前記映像を表示する画面上で前記音源が出現する位置に定位するように１つ以上の加振器を用いて前記表示部を振動させることによる音声出力を制御する制御部を具備する。２以上の映像ソースの映像をそれぞれ個別のウィンドウに表示する場合に、前記制御部は、各映像ソースの映像から検出された音源の音像を、対応するウィンドウ内で音源が出現する位置にそれぞれ定位させる。

Description

本明細書で開示する技術は、映像信号に同期した音響信号の出力処理を行う情報処理装置及び情報処理方法、並びに映像音声出力システムに関する。

近年、再生音声の音源を所望の位置に仮想的に定位させる音像定位技術を利用したテレビジョン装置（若しくは、テレビジョン装置に接続するアンプ装置など）が提案されている（特許文献１を参照のこと）。基本的には、テレビジョン装置に左右のスピーカーを配置して、左右２チャンネルのステレオ信号を再生することによって、音像定位を実現することができる。音声信号のチャネル数を増やし、スピーカーを多重化することによって、さらに高解像度で音場を制御することが可能である。例えば、複数のスピーカーを用いて音響出力を行い、所定の聴取領域を高音質化する音響信号処理装置について提案がなされている（特許文献２を参照のこと）。

他方、有機ＥＬ（Ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）技術などを利用して大画面化も進んできている。大画面では、テレビ番組などの１つのコンテンツを表示するだけでなく、複数のコンテンツを並列して表示することができる。例えば、画面内で特定の映像を表示する親画面の中に子画面で別の映像を表示するＰＩＰ（ＰｉｃｔｕｒｅｉｎＰｉｃｔｕｒｅ）や、表示画面内で特定の映像の外側に別の映像を表示するＰＡＰ（ＰｉｃｔｕｒｅａｎｄＰｉｃｔｕｒｅ）などが知られている（特許文献３を参照のこと）。また、並列表示する映像ソースは、放送コンテンツに限定されず、インターネット経由で配信されるネットワークコンテンツや、ブルーレイなどのディスク再生装置から出力される再生コンテンツなどさまざまである。例えば、放送コンテンツ及びネットワークコンテンツの双方を扱うハイブリッド端末について提案がなされている（特許文献４を参照のこと）。

特開２０１１−２５９２９９号公報特開２０１３−１０２３８９号公報特許第３５２６０５６号公報特開２０１３−３１０４６号公報

本明細書で開示する技術の目的は、映像信号に同期した音響信号の出力処理を行う情報処理装置及び情報処理方法、並びに映像音声出力システムを提供することにある。

本明細書で開示する技術の第１の側面は、
表示部の画面に表示される映像内に出現する音源の位置を検出して、前記映像に同期する音声の音像が、前記映像を表示する画面上で前記音源が出現する位置に定位するように１つ以上の加振器を用いて前記表示部を振動させることによる音声出力を制御する制御部を具備する情報処理装置である。

２以上の映像ソースの映像をそれぞれ個別のウィンドウに表示する場合には、前記制御部は、各映像ソースの映像から検出された音源の音像を、対応するウィンドウ内で音源が出現する位置にそれぞれ定位させるようになっている。

また、本明細書で開示する技術の第２の側面は、
表示部の画面に表示される映像内に出現する音源の位置を検出する検出ステップと、
前記映像に同期する音声の音像が、前記映像を表示する画面上で前記音源が出現する位置に定位するように１つ以上の加振器を用いて前記表示部を振動させることによる音声出力を制御する制御ステップと、
を有する情報処理方法である。

また、本明細書で開示する技術の第３の側面は、
表示部と、
１つ以上の加振器を用いて前記表示部を振動させることにより音声出力を行う音声出力部と、
前記表示部の画面に表示される映像内に出現する音源の位置を検出して、前記映像に同期する音声の音像が、前記映像を表示する画面上で前記音源が出現する位置に定位するように前記音声出力部を制御する制御部と、
を具備する映像音声出力システムである。

但し、ここで言う「システム」とは、複数の装置（又は特定の機能を実現する機能モジュール）が論理的に集合した物のことを言い、各装置や機能モジュールが単一の筐体内にあるか否かは特に問わない。

本明細書で開示する技術によれば、映像信号に同期した音響信号の出力処理を行う情報処理装置及び情報処理方法、並びに映像音声出力システムを提供することができる。

なお、本明細書に記載された効果は、あくまでも例示であり、本発明の効果はこれに限定されるものではない。また、本発明が、上記の効果以外に、さらに付加的な効果を奏する場合もある。

本明細書で開示する技術のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。

図１は、本明細書で開示する技術が適用される環境の一例を示した図である。図２は、テレビジョン装置２００の内部構成例を模式的に示した図である。図３は、映像送コンテンツに対して音像を画像に一致させる処理を行う機能的構成を模式的に示した図である。図４は、ビジュアルコミュニケーションにおいて、音像を画像に一致させる処理を行う機能的構成を模式的に示した図である。図５は、音声エージェントの音像を画像に一致させる処理を行う機能的構成を模式的に示した図である。図６は、対話中のユーザの移動に追従して音声エージェントが大画面内で移動する様子を示した図である。図７は、ユーザの位置に追従して音声エージェントの音声出力を制御するための処理手順を示したフローチャートである。図８は、画面の左上端からＯＳＤが出現している様子を示した図である。図９は、複数の画像に対して音像を一致させる処理を並列に実施する処理部２０１の構成例を示した図である。図１０は、ビデオメモリ内のプレーンを重畳する様子を示した図である。図１１は、画面振動スピーカー技術の適用例を示した図である。図１２は、手術室システム１２００の全体構成を示した図である。図１３は、術部を表示した内視鏡映像の画面に警告音の音像を定位させる様子を示した図である。図１４は、術部を表示した内視鏡映像の画面に警告音の音像を定位させる様子を示した図である。図１５は、術部を表示した内視鏡映像の画面に警告音の音像を定位させる様子を示した図である。図１６は、術部を表示した内視鏡映像の画面に警告音の音像を定位させる様子を示した図である。図１７は、車両制御システム１７００の概略的な構成例を示した図である。図１８は、撮像部１７４１０及び車外情報検出部１７４２０の設置位置の一例を示した図である。図１９は、車両制御システム１７００における音像定位の具体例を示した図である。図２０は、車両制御システム１７００における音像定位の具体例を示した図である。図２１は、車両制御システム１７００における音像定位の具体例を示した図である。図２２は、車両制御システム１７００における音像定位の他の具体例を示した図である。図２３は、車両制御システム１７００における音像定位の他の具体例を示した図である。図２４は、車両制御システム１７００における音像定位の他の具体例を示した図である。

以下、図面を参照しながら本明細書で開示する技術の実施形態について詳細に説明する。

図１には、本明細書で開示する技術が適用される環境の一例を示している。同図では、リビングのソファに座って寛いでいる複数のユーザ（家族など）に対向する壁面にテレビジョン装置１００が設置されている。テレビジョン装置１００は、有機ＥＬ技術などを利用した大画面を備えている。

テレビジョン装置１００は、図示しない複数のスピーカーからなるスピーカーレイを装備し、又は外付け接続している。スピーカーレイは、テレビジョン装置１００の画面の裏側に２次元配列した１つ以上の加振器（アクチュエータ）によって画面振動させることで音声を出力するものでもよい。また、加振器（アクチュエータ）の配置位置は画面の裏側に限定されず、配列は２次元に限定されない。本実施形態では、テレビジョン装置１００は、スピーカーレイを使って、高解像度の音場制御が可能であることを想定している。

テレビジョン装置１００は、チューナを内蔵し若しくは外付けチューナを介して放送信号を選局受信可能である。また、テレビジョン装置１００は、ネットワークインターフェースカードを装備し、プロバイダーが提供するＯＴＴ（ＯｖｅｒｔｈｅＴｏｐ）サービスやテレビ会議などのビジュアルコミュニケーションに関連するデータ送受信を行うことが可能である。また、テレビジョン装置１００上では、音声エージェント又はアシスタントを始めとしてあらかじめインストールされたアプリケーションを実行することが可能である。

したがって、テレビジョン装置１００の大画面上には、オンエア中又は録画した放送コンテンツや、ＯＴＴサービスにより配信されるストリーミングコンテンツ、テレビ会議（若しくは、Ｗｅｂ会議）などのビジュアルコミュニケーション、音声エージェント又はアシスタントのキャラクターといった複数のコンテンツのうち少なくとも１つが表示される。また、ＰＩＰやＰＡＰといった技術を利用して、大画面上に２以上のコンテンツを同時に並列して表示することも可能である。図１に示す例では、テレビジョン１００の大画面上に、オンエア中の放送コンテンツ１０１と、ビジュアルコミュニケーション１０２と、音声エージェントのキャラクター１０３が並列して同時表示されている。また、図１では省略しているが、大画面上には、テレビジョン装置１００内部で生成するＯＳＤ（ＯｎＳｃｒｅｅｎＤｉｓｐｌａｙ）などのグラフィックス情報を表示することもできる。

なお、図１に示した例では、リビングルームの１つの壁にのみテレビ画面が設置されているが、２面以上の壁にテレビ画面が設置されていてもよい。そして、隣接する壁に連続してテレビ画面が設置されている場合には、すべてのテレビ画面を同期的に駆動させて、例えば音声エージェントなどのキャラクターを２面以上のテレビ画面にまたがって連続的に移動させるような表示方法を実施することもできる。

図２には、テレビジョン装置２００の内部構成例を模式的に示している。但し、テレビジョン装置２００は、放送チューナを備えた情報処理装置であってもよい。図示のテレビジョン装置２００は、処理部２０１と、チューナ２０２と、通信部２０３と、表示部２０４と、音声入力部２０５と、音声出力部２０６と、撮像部２０７と、センサ部２０８と、リモコン受信部２０９と、記録部２１０を備えている。

チューナ２０２は、地上波放送並びに衛星放送の放送信号を選局受信する。また、通信部２０３は、イーサネット（登録商標）などの有線通信又はＷｉ−Ｆｉ（登録商標）などの無線通信を利用して、インターネットなどの外部ネットワークに接続している。例えば、通信部２０３は、プロバイダーが提供するＯＴＴサービスやビジュアルコミュニケーションに関連するデータの送受信を行う。また、通信部２０３は、ＨＤＭＩ（登録商標）（ＨｉｇｈＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）などの映像及び音声のデジタル信号を伝送する通信インターフェースを備え、ブルーレイ又はハードディスクなどの録画再生機やゲーム機などをテレビジョン装置２００に外付け接続するのに利用することができる。また、通信部２０３は、例えばＤＬＮＡ（登録商標）（ＤｉｇｉｔａｌＬｉｖｉｎｇＮｅｔｗｏｒｋＡｌｌｉａｎｃｅ）などの規格に則って、ホームネットワークを介して家庭内の各ＣＥ機器と相互接続していてもよいし、ＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）デバイスとのインターフェース機能をさらに備えていてもよい。

表示部２０４は、例えば有機ＥＬ素子などで構成され、１６：９の縦横比からなる大画面を備え、チューナ２０２で選局受信した番組コンテンツの映像やＥＰＧ（ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ）、データ放送コンテンツを表示したり、ＯＴＴサービスにより配信されるストリーミングコンテンツを表示したり、テレビ会議などのビジュアルコミュニケーションの映像を表示したりするのに用いられる。また、音声エージェントなどテレビジョン装置２００にあらかじめインストールされたアプリケーションの画像や、テレビジョン装置２００内で生成されるＯＳＤなどのグラフィックスも表示部２０４に表示される。なお、表示部２０４の画面の一部又は全部の領域にタッチセンサが重畳されていてもよい。

音声入力部２０５は、マイクなどの収音素子で構成され、テレビジョン装置２００が設置された室内（図１に示したリビング内）で発生する音声の入力に用いられる。室内で発生する音声として、テレビ番組の視聴者若しくは音声エージェントを利用するユーザによる発話を挙げることができる。音声入力部２０５は、複数のマイクを組み合わせたマイクロフォンアレイを備えていてもよい。また、一部又は全部のマイクロフォンがテレビジョン装置２００に外付け接続されていてもよい。あるいは、テレビジョン装置２００用のリモコンに搭載されたマイクを含んでいてもよいし、スマートフォンやウェアラブル機器などテレビジョン装置２００の外部機器に搭載されたマイクを含んでいてもよい。音声入力部２０５が複数のマイクロフォンを備える場合、ビームフォーム処理により、所望する音源位置からの音声、例えば音声エージェントに話し掛けるユーザの音声の収音感度を高めたり、逆に不要な音源位置からの音声、例えばその他のユーザの音声や、室内の他のＡＶ機器から出力される音響などの収音感度を低減させたりすることができる。

音声出力部２０６は、チューナ２０２で選局受信した番組コンテンツやデータ放送コンテンツの音声出力、並びに音声エージェント機能の合成音声の出力などに用いられる。音声出力部２０６は、スピーカーなどの音響発生素子で構成される。本実施形態では、音声出力部２０６は、複数のスピーカーを組み合わせたスピーカーレイ（多チャンネルスピーカー若しくは超多チャンネルスピーカー）を備えていることを想定している（一部又は全部のスピーカーがテレビジョン装置２００に外付け接続されていてもよい）。したがって、音声出力部２０６は、各スピーカーの出力制御に基づいて音場を生成して、所望の位置に音像を定位させたり、所望の位置以外の場所からは音声を聴こえ難くしたりすることができる。

コーン型スピーカーの他、フラットパネル型スピーカーをアレイ状に配置して、音声出力部２０６として用いることができる。もちろん、異なるタイプのスピーカーを組み合わせたスピーカーレイを音声出力部２０６として用いることもできる。また、スピーカーレイは、振動を生成する１つ以上の加振器（アクチュエータ）によって表示部２０４を振動させることで音声出力を行うものを含んでもよい。加振器（アクチュエータ）は、表示部２０４に後付けされるような形態であってもよい。

図１１には、ディスプレイへの画面振動スピーカー技術の適用例を示している。ディスプレイ１１００は、背面のスタンド１１０２で支持されている。また、ディスプレイ１１００の裏面には、スピーカーユニット１１０１が取り付けられている。スピーカーユニット１１０１の左端には加振器（アクチュエータ）１１０１−１が配置され、また、右端には加振器（アクチュエータ）１１０１−２が配置されており、スピーカーレイを構成している。各加振器（アクチュエータ）１１０１−１及び１１０１−２が、それぞれ左右の音声信号に基づいてディスプレイ１１０１を振動させて音響出力することができる。また、スタンド１１０２が、低音域の音響を出力するサブウーファーを内蔵してもよい。なお、ディスプレイ１１００は、有機ＥＬ素子を用いた表示部２０４に相当する。

再び図２を参照して、テレビジョン装置２００の内部構成について引き続き説明する。撮像部２０７は、例えばＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｙｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）やＣＣＤ（ＣｈａｒｇｅＣｏｕｏｐｌｅｄＤｅｖｉｃｅ）などのイメージセンサからなるカメラで構成され、主にテレビジョン装置２００の正面方向、例えば表示部２０４の大画面前方にいるユーザや室内の風景を撮像する。撮像部２０７は、例えば、２台のカメラを用いたステレオカメラや、３台以上のカメラを用いた多眼カメラであってもよい。また、一部又は全部のカメラがテレビジョン装置２００に外付け接続されていてもよい。

センサ部２０８は、主に、テレビジョン装置２００が設置されている室内の環境情報をセンシングする。センサ部２０８の構成、すなわちどのようなセンサ素子を含むかは任意である。例えば、センサ部２０８は、物体検出センサや深度センサを含んでいてもよい。物体検出センサや深度センサの検出結果に基づいて（必要に応じて、撮像部２０７で撮影した画像に画像認識結果と併せて）、室内に設置された家具や部屋のレイアウトを検出することができる。また、センサ部２０８は、照度センサや温度センサ、湿度センサなどの環境情報を検出する環境センサを備えていてもよい。また、センサ部２０８は、赤外線センサや人感センサを備え、部屋内でのユーザの位置や移動を検出するようにしていてもよい。また、センサ部２０８は、ユーザの脈拍や発汗、脳波、筋電位、呼気などを検出する生体センサを備えていてもよい。センサ部２０８を構成するセンサ部の一部又は全部がテレビジョン装置２００に外付け接続され、又は無線接続されていてもよい。

リモコン受信部２０９は、リモコン（図示しない）から赤外線通信や近距離無線通信などを利用して送信されるリモコンコマンドを受信処理する。リモコンの操作者は、例えば、図１に示したリビングにいるテレビジョン装置２００の視聴ユーザなどである。

記録部２１０は、例えばＨＤＤ（ＨａｒｄＤｉｓｃＤｒｉｖｅ）などの大容量記録装置で構成され、主にチューナ２０２で受信した番組コンテンツの録画に使用される。記録部２１０は、テレビジョン装置２００内に配設される他、ＨＤＭＩ（登録商標）（ＨｉｇｈＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）やＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）などのインターフェースを介してテレビジョン装置２００に外付け接続される場合もある。

処理部２０１は、プロセッサ及びメモリを含み、メモリにロードしたプログラムを実行して、各種処理を実施して、テレビジョン装置２００内の動作を統括的にコントロールする。処理部２０１内では、基本的には、オペレーティングシステム（ＯＳ）が提供する実行環境下で、さまざまなアプリケーションが実行される。例えばマルチプロセッサが利用可能な場合、あるいはＯＳによってマルチスレッド実行が可能な場合においては、並列実行可能な処理単位はすべてメモリに読み出され並列実行させることができる。

処理部２０１において実行される処理として、リモコン受信部２０９で受信したリモコンコマンドに応じた選局、音量調整、録画、並びに画質調整などの機器１００内の操作や、チューナ２０２で選局受信された番組コンテンツの映像及び音声出力処理、記録部２１０に録画した番組コンテンツの再生出力処理、ＯＴＴサービスにより配信されるストリーミングコンテンツの再生出力処理、アプリケーションの実行、ＯＳＤの表示制御などを挙げることができる。また、処理部２０１が実行するアプリケーションの中には、チューナ２０２又は通信部２０３を介して受信したデータ放送アプリケーションやＯＴＴサービスのアプリケーション、音声エージェント、ビジュアルコミュニケーションなど処理部２０１内にあらかじめインストールされたアプリケーションを挙げることができる。また、処理部２０１が複数のエージェント用アプリケーションを並列実行することにより、テレビジョン装置２００が複数のエージェントデバイスとして機能することも可能である。

テレビジョン装置２００は、選局受信した放送コンテンツの映像及び音声出力、ＯＴＴサービスにより配信されるストリーミングコンテンツの再生出力、テレビ会議などのビジュアルコミュニケーションの再生出力、音声エージェントなどのグラフィックスの表示など、ハイブリッドな映像表示を並行して行う。このため、処理部２０１は、放送コンテンツ用、ストリーミングコンテンツ用、ビジュアルコミュニケーション用、グラフィックス用を含む複数のプレーンを備えたビデオメモリを備えている。また、複数の映像コンテンツを同時に表示する際に、図１にも示したようにマルチウィンドウが適用される。すなわち、処理部２０１内で、放送コンテンツ、ストリーミングコンテンツ、ビジュアルコミュニケーション、グラフィックスの各映像は、各々に設定されたウィンドウサイズに合わせて解像度変換して、各プレーン上のウィンドウ位置にコピーされる。その後、ビデオメモリ内の各プレーンを所定の順序で重畳して１枚の画像フレームを生成し、ビデオバッファに一時格納した後、表示部２０４で映像表示される。

また、本実施形態に係るテレビジョン装置２００は、音像を画像に一致させる音像定位を音声信号処理で行う点に特徴がある。

映像に対応する音声が映像の表示位置とは異なる位置に定位されると、画面を視聴するユーザは違和感を覚える。例えば、放送コンテンツのウィンドウに複数の出演者が出現するとともに、ビジュアルコミュニケーションのウィンドウに１人又は複数人のテレビ会議参加者が映っているときに、テレビ会議参加者が発言した音声の音像がビジュアルコミュニケーションのウィンドウ内に定位されていないと、ユーザは誰の声なのか混乱したり、意思疎通の障害になったりすることがある。

大画面全体を使って、複数の出演者が映っているテレビ番組を表示しているときに、ある出演者が発話している音声がその出演者が表示されている位置から離間した場所に定位されていると、ユーザは話者を識別し難くなり、又は違和感を覚える。また、画面内を移動する音声エージェントの音像を、常に一定の場所に定位させ続けると、不自然である。音像と画像の不一致の問題は、画面が大型化するほど顕著になる。

また、上述したように、放送やストリーミングの映像コンテンツ、ビジュアルコミュニケーション、音声エージェントなど複数の映像が並列に表示される場合には、音像が画像と一致していないと、ユーザは、どのウィンドウから聴こえた音声だったのか、錯覚してしまうおそれもある。

そこで、本実施形態に係るテレビジョン装置２００では、映像内に出現する音源を検出し、その音源の画面上の表示位置を計算して、その音源から発される音声を音源の表示位置に定位させる処理を実施することで、音像を画像に一致させるようにしている。

以下では、テレビジョン装置２００において、映像コンテンツ（放送及びＯＴＴサービスを含む）、ビジュアルコミュニケーション、グラフィックスの各々を表示する際に音像を画像に一致させるための処理について、それぞれ説明する。

（１）映像コンテンツの場合
映像が放送コンテンツの場合、映像内に出現する音源とは、そのテレビ番組の出演者（若しくは、画面に表示されている話者）である。例えば映像解析により画像内の出演者の顔位置を検出することにより、音源を検出することができる。複数の出演者が同時に映っているときには、各出演者の顔位置をそれぞれ音源として検出する。あるいは、放送コンテンツのメタ情報として、各出演者の顔位置のデータが送られるようにしてもよい。テレビ番組を全画面表示しているときには、検出された顔位置が音源の表示位置になる。また、マルチウィンドウが適用されている場合には、テレビ番組を表示するウィンドウ内での顔位置を、音源の表示位置として計算する。そして、各出演者が発話する度に、その音声の音像を画面上でその出演者の顔が表示される位置に定位するように音声信号処理を施して、音声出力部２０６から出力するようにする。

なお、ＯＴＴサービスにより配信されるストリーミングコンテンツに対して音像を画像に一致させる処理についても、上記と同様である。

図３には、映像コンテンツに対して音像を画像に一致させる処理を行う機能的構成を模式的に示している。但し、図３に示す各機能モジュールは、基本的には処理部２０１内で実装されるものとする。

チューナ２０２（図３には図示しない）で選局受信した放送信号は、復調され、映像と音声にデマルチプレクスされた後、さらに映像信号と音声信号それぞれについてデコード処理される。図３では、デコード処理後の映像信号及び音声信号が入力されることを前提としている。

ＯＴＴサービスの場合には、通信部２０３（図３には図示しない）で受信した通信信号が復調され、映像と音声にデマルチプレクスされた後、さらに映像信号と音声信号それぞれについてデコード処理される。ストリームの転送方式やデータの形式は、サービスを提供するプロバイダー毎に相違することも想定される。いずれにせよ、図３では、デコード処理後の映像信号及び音声信号が入力されることを前提としている。また、ＨＤＭＩ（登録商標）などのデジタル通信インターフェースを介してブルーレイ又はハードディスクなどの録画再生機やゲーム機などから映像及び音声のデジタル信号が入力される場合には、ＯＴＴサービスに準じた処理が実施されるものとする。

映像処理部３０１は、デコード後の映像信号を入力すると、映像フレームに含まれる音源の位置を検出する。音源は、番組の出演者などの話者である。楽器など音響を出力する物体がフレームに含まれる場合には、これらも音源として位置検出を行うようにする。映像処理部３０１は、例えば映像信号の画質調整処理の過程で、映像解析などにより、画像内の話者の顔位置を検出することによって、音源を検出するようにする。あるいは、ストリームに付随して送られてくるメタ情報に音源位置の情報が含まれる場合には、メタ情報の復号処理によって音源位置を検出するようにしてもよい。映像内に複数の話者が同時に含まれている場合には、映像処理部３０１は、話者毎に音源として検出して、音源位置の検出を行う。映像処理部３０１による処理後の映像信号は、ビデオメモリ（図３には図示しない）内の映像用プレーンに一旦書き込まれた後、他のプレーンの画像情報と重畳されて表示部２０４の画面に表示出力される。

音声処理部３０２は、デコード後の音声信号を入力すると、音声出力部２０６に含まれる複数のスピーカーを使って、音声を出力する。映像処理部３０１から音源の位置情報が与えられる場合には、音声処理部３０２は、その音源の位置に音像を定位させて、音声出力部２０６から音声を出力する。

映像フレームが表示部２０４で全画面表示される場合には、音声処理部３０２は、映像処理部３０１が検出した音源位置を画面上の表示位置の情報に変換して、音像定位を行う。一方、表示部２０４の画面にマルチウィンドウが適用されている場合には、音声処理部３０２は、映像の表示に割り当てられたウィンドウの表示位置及びサイズの情報をウィンドウ制御部３０３から取得すると、映像処理部３０１が検出したフレーム内での音源位置を当該ウィンドウ内の位置に換算し、これにウィンドウの表示位置（オフセット）を加算することにより、画面上における音源の位置の情報を求めて、音像定位を行う。

複数の音源を含む映像の場合（例えば、映像内に複数の話者が同時に出現する場合）、映像処理部３０１は話者毎に音源位置を検出するとともに、音声処理部３０２は、入力された音声信号を音源毎（例えば話者毎）の音声に分離して、各音源をそれぞれに対応する音源位置に定位させて、音声出力部２０６から音声を出力する。

なお、テレビジョン装置２００が多重チューナを備える場合や、テレビ番組の視聴とＯＴＴサービスを同時に利用されるような場合には、映像コンテンツ毎に並行して上記の処理が実施されることになる。

（２）ビジュアルコミュニケーションの場合
映像がテレビ会議などのビジュアルコミュニケーションの場合、映像内に出現する音源は、そのテレビ会議の参加者である。例えば、映像解析により画像内の会議出席者の顔位置を検出することにより、音源を検出することができる。会議参加者が複数いる場合には、各会議参加者の顔位置をそれぞれ音源として検出する。続いて、ビジュアルコミュニケーションのウィンドウ内で、会議参加者の顔位置を、音源の表示位置として計算する。そして、会議参加者が発言する度に、その音声の音像を該当する会議参加者の顔位置に定位するように音声信号処理を施して、音声出力部２０６から出力するようにする。

図４には、ビジュアルコミュニケーションにおいて、音像を画像に一致させる処理を行う機能的構成を模式的に示している。但し、図４に示す各機能モジュールは、基本的には処理部２０１内で実装されるものとする。

ビジュアルコミュニケーション用の通信信号が通信部２０３（図４には図示しない）で受信されると、映像と音声にデマルチプレクスされた後、さらに映像信号と音声信号それぞれについてデコード処理される。ストリームの転送方式やデータの形式は、サービスを提供するプロバイダー毎に相違することも想定される。いずれにせよ、図４では、デコード処理後の映像信号及び音声信号が入力されることを前提としている。

ビジュアルコミュニケーション（ＶＣ）処理部４０１は、デコード後の映像信号を入力すると、テレビ会議の映像の表示処理を実施する。ここで、多地点通信によりビジュアルコミュニケーションが行われている場合には、ビジュアルコミュニケーション処理部４０１は、表示部２０４の画面（若しくはビジュアルコミュニケーションに割り当てられたウィンドウ領域）を複数の領域に分割して、各分割領域に他の地点で撮影しているテレビ会議映像を表示出力する（すなわち、各地点に分割領域を割り当てる）ための処理を実行する。また、分割領域の総数が接続中の地点数よりも少ないときには、ビジュアルコミュニケーション処理部４０１は、各分割領域の画面切り替えを行う。例えば、発言順序が回って来た地点や新たにイニシアチブを握った地点の映像が隠れている場合には、現在表示されている他の地点の映像と切り替えを行う。ビジュアルコミュニケーション処理部４０１による処理後の映像信号は、ビデオメモリ（図４には図示しない）内のビジュアルコミュニケーション用プレーンに一旦書き込まれた後、他のプレーンの画像情報と重畳されて表示部２０４の画面に表示出力される。

ビジュアルコミュニケーション処理部４０１は、映像フレームに含まれる音源の位置を検出する。音源は、映像に写っているテレビ会議の参加者などの話者である。ビジュアルコミュニケーション処理部４０１は、例えば顔検出処理によって、映像フレーム内の会議参加者の顔位置を検出することによって、音源を検出するようにする。また、上記のように多地点通信によりビジュアルコミュニケーションが行われている場合には、ビジュアルコミュニケーション処理部４０１は、現在発言中の地点の映像を表示している分割領域を音源の位置として検出する。

音声処理部４０２は、デコード後の音声信号を入力すると、音声出力部２０６に含まれる複数のスピーカーを使って、音声を出力する。ビジュアルコミュニケーション処理部４０１から音源の位置情報が与えられる場合には、その音源の位置に音像を定位させて、音声出力部２０６から音声を出力する。多地点通信（前述）によりビジュアルコミュニケーションが行われている場合には、音声処理部４０２は、現在発言中の地点の映像を表示している分割領域に音像を定位させる。

ビジュアルコミュニケーションの映像が表示部２０４で全画面表示される場合には、音声処理部４０２は、ビジュアルコミュニケーション処理部４０１が検出した音源位置を画面上の表示位置の情報に変換して、音像定位を行う。多地点通信によりビジュアルコミュニケーションが行われている場合には、現在発言している地点の映像を流している分割領域に音像が定位される。

一方、表示部２０４の画面にマルチウィンドウが適用されている場合には、音声処理部４０２は、ビジュアルコミュニケーションに割り当てられたウィンドウの表示位置及びサイズの情報をウィンドウ制御部３０３から取得すると、ビジュアルコミュニケーション処理部４０１が検出した音源位置を当該ウィンドウ内の位置に換算し、これにウィンドウの表示位置（オフセット）を加算することにより、音源の画面上の表示位置の情報を求めて、音像定位を行う。多地点通信によりビジュアルコミュニケーションが行われている場合には、当該ウィンドウ内で、現在発言している地点の映像を流している分割領域に音像が定位される。

テレビジョン装置２００を介して複数のビジュアルコミュニケーションに同時にログインしている場合には、ビジュアルコミュニケーション毎に並行して上記の処理が実施されることになる。

（３）グラフィックスの場合
音声エージェントの音源は音声エージェントの映像そのものである。したがって、音声エージェントの映像を生成するグラフィックス処理部から音声エージェントの表示位置を取得することにより、音源の位置を検出することができる。また、ユーザが部屋内を移動すると、音声エージェントも追従して大画面内で移動するような場合には、そのユーザの位置情報に基づいて音源の位置を検出するようにする。そして、音声エージェントが発話する度に、その音声エージェントの合成音声の音像を音声エージェントの表示位置に定位するように音声信号処理を施して、音声出力部２０６から出力するようにする。

図５には、音声エージェントの音像を画像に一致させる処理を行う機能的構成を模式的に示している。但し、図５に示す各機能モジュールは、基本的には処理部２０１内で実装されるものとする。

本実施形態では、音声エージェント用のアプリケーションがあらかじめテレビジョン装置２００にインストールされていることを想定している。処理部２０１内では、このようなアプリケーションを実行して、音声エージェントのグラフィックス（アニメーションキャラクタなど）を表示部２０４の画面に表示したり、音声エージェントからの音声メッセージを音声出力部２０６から音声出力したりする。但し、テレビジョン装置２００内で音声エージェント用のアプリケーションを実行するのではなく、テレビジョン装置２００が外部のエージェントサービスを利用することも想定される。この場合、テレビジョン装置２００は、通信部２０３を使って外部のエージェントサービスによる対話処理を利用し、テレビジョン装置２００上では音声の入出力と音声エージェントのグラフィックス表示のみをもっぱら行う。

グラフィックス処理部５０１は、処理部２０１内のプロセッサが実行した対話処理結果に基づいて（若しくは、通信部２０３を介して外部のエージェントサービスから受け取った対話処理結果に基づいて）、音声エージェントのキャラクターのグラフィックスを生成する。そして、コンポーザ５０２は、生成したキャラクターのアニメーションをコンポーズする。コンポーズされたキャラクターアニメーションの画像は、ビデオメモリ（図５には図示しない）内のグラフィックス用プレーンに一旦書き込まれた後、他のプレーンの画像情報と重畳されて表示部２０４の画面に表示出力される。

また、グラフィックス処理部５０１は、表示部２０４の画面上で音声エージェントのグラフィックスを表示させる位置に関する情報を、音声信号処理部５０３に出力する。

音声信号処理部５０３は、処理部２０１内のプロセッサ（若しくは、外部のエージェントサービス）によって生成された音声エージェントのメッセージ（テキスト）を音声合成して、音声出力部２０６に含まれる複数のスピーカーを使って、音声を出力する。上述したように、グラフィックス処理部５０１から音声エージェントの表示位置の情報が与えられる場合には、音声信号処理部５０３はその表示位置に音像を定位させて、音声出力部２０６から音声エージェントの音声を出力する。

本実施形態では、図６に示すように、音声エージェントと対話中のユーザが部屋内を移動すると、音声エージェントも追従して大画面内で移動することを想定している。また、撮像部２０７の撮像画像や、赤外線センサ又は人感センサを備えたセンサ部２０８を使って、部屋内を移動するユーザの位置を検出することができる。

図７には、ユーザの位置に追従して音声エージェントの音声出力を制御するための処理手順をフローチャートの形式で示している。図示の処理手順は、処理部２０１内のプロセッサの制御下で実行されるものとする。

撮像部２０７の撮像画像や、赤外線センサ又は人感センサを備えたセンサ部２０８を使って、部屋内を移動するユーザの位置（若しくは、前回検出した位置から移動したこと）を検出したときには（ステップＳ７０１のＹｅｓ）、グラフィックス処理部５０１は、ユーザの位置に基づいて、表示部２０４の画面上で音声エージェントのグラフィックスを表示させる位置を計算する（ステップＳ７０２）。また、グラフィックス処理部５０１は、表示部２０４の画面上で音声エージェントのグラフィックスを表示させる位置に関する情報を、音声信号処理部５０３に出力する。

次いで、音声信号処理部５０３は、グラフィックス処理部５０１から与えられた音声エージェントの表示位置の情報に基づいて、音声エージェントの音声の音像を定位させるとともに、音場計算を実施する（ステップＳ７０３）。

そして、音声信号処理部５０３は、先行ステップＳ７０３で算出した音場を実現するための、音声出力部２０６に含まれる複数のスピーカーのうち、音声エージェントの音声を出力すべき出音位置を決定して（ステップＳ７０４）、これらの出音位置から音声エージェントの音声を出力する（ステップＳ７０５）。

また、ＯＳＤやＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）などのグラフィックス表示に合わせて効果音を発生させることもある。効果音は、ユーザが迅速に対応すべき事象が発生したことをユーザに通知するといった役割がある。このような場合も、音声エージェントの場合と同様に、グラフィックスの表示位置に効果音の音像を定位することによって、効果音がより効果的にユーザの耳に響くことになる。

処理部２０１内のプロセッサは、アプリケーションを実行中に、ＯＳＤやＵＩなどのグラフィックスを表示すべき事象を検出すると、グラフィックス処理部５０１に対して、該当するグラフィックスの表示を指示する。

グラフィックス処理部５０１は、処理部２０１内のプロセッサからの指示に基づいて、ＯＳＤやＵＩなどのグラフィックスを生成する。そして、コンポーザ５０２は、生成したグラフィックスをコンポーズする。コンポーズされたグラフィックスの画像は、ビデオメモリ（図５には図示しない）内のグラフィックス用プレーンに一旦書き込まれた後、他のプレーンの画像情報と重畳されて表示部２０４の画面に表示出力される。また、グラフィックス処理部５０１は、表示部２０４の画面上でＯＳＤやＵＩなどのグラフィックスを表示させる位置に関する情報を、音声信号処理部５０３に出力する。

音声信号処理部５０３は、ＯＳＤやＵＩなどのグラフィックス用の効果音を合成して、音声出力部２０６に含まれる複数のスピーカーを使って、音声を出力する。上述したように、グラフィックス処理部５０１からグラフィックスの表示位置の情報が与えられる場合には、音声信号処理部５０３はその表示位置に音像を定位させて、音声出力部２０６からグラフィックス用の効果音を出力する。

図８には、画面の左上端から、参照番号８０１で示すＯＳＤが出現している様子を示している。大画面の周縁部を使ってグラフィックスを表示しても、ユーザは気が付かないことがある。図１に示したようなマルチウィンドウの場合、そもそも画面の表示が煩雑であり、ＯＳＤが壁紙などのテクスチャに埋もれて、ユーザはグラフィックスの表示場所を見つけ難い。また、ＯＳＤの表示と同期して警告音などの効果音を発しても、ＯＳＤの表示場所以外から鳴っても、ユーザがその表示を見つけ出す手掛かりにはならない。これに対し、本実施形態によれば、ＯＳＤが出現する場所から効果音が鳴るので、ユーザは必然的に視線をその音像位置の方向に向けるので、ＯＳＤの表示を見つけ易くなる。

上記では、テレビジョン装置２００において、映像コンテンツ、ビジュアルコミュニケーション、及びグラフィックスについて、音像を画像に一致させるための機能的構成について、それぞれ個別に説明してきた。本実施形態では、テレビジョン装置２００は、マルチウィンドウ方式を取り入れて、映像コンテンツ、ビジュアルコミュニケーション、及びグラフィックスを並列に表示し、各々の画像に対して音像を一致させる処理も並列に実施する。

図９には、映像コンテンツ、ビジュアルコミュニケーション、及びグラフィックスを並列に表示し、各々の画像に対して音像を一致させる処理を並列に実施する処理部２０１の構成例を示している。

放送サービス又はＯＴＴサービスにより提供される信号は、映像と音声にデマルチプレクスされ、さらに映像信号と音声信号それぞれについてデコード処理された後、映像処理部９０１及び音声処理部９０５にそれぞれ入力される。

映像処理部９０１は、デコード後の映像信号を入力すると、映像フレームに含まれる音源の位置を検出する。音源は、番組の出演者などの話者である。楽器など音響を出力する物体がフレームに含まれる場合には、これらも音源として位置検出を行うようにする。映像処理部９０１は、例えば映像信号の画質調整処理の過程で、映像解析などにより、画像内の話者の顔位置を検出することによって、音源を検出するようにする。映像内に複数の話者が同時に含まれている場合には、映像処理部９０１は、話者毎に音源として検出して、音源位置の検出を行う。映像処理部９０１による処理後の映像信号は、重畳部９０７に出力され、ビデオメモリ（図９には図示しない）内の映像用プレーンに一旦書き込まれる。

音声処理部９０５は、映像の表示に割り当てられたウィンドウの表示位置及びサイズの情報をウィンドウ制御部９０６から取得すると、映像処理部３０１が検出したフレーム内での音源位置を当該ウィンドウ内の位置に換算し、これにウィンドウの表示位置（オフセット）を加算することにより、画面上における音源の位置の情報を求めて、音像定位を行う。

ビジュアルコミュニケーション処理部９０２は、デコード後の映像信号を入力すると、テレビ会議の映像の表示処理を実施する一方、映像フレームに含まれる音源の位置を検出する。音源は、映像に写っているテレビ会議の参加者などの話者である。多地点通信（前述）によりビジュアルコミュニケーションが行われている場合には、ビジュアルコミュニケーション処理部９０２は、現在発言中の地点の映像を表示している分割領域を音源の位置として検出する。ビジュアルコミュニケーション処理部９０２による処理後の映像信号は、重畳部９０７に出力され、ビデオメモリ（図９には図示しない）内のビジュアルコミュニケーション用プレーンに一旦書き込まれる。

テレビジョン装置２００を介して複数のビジュアルコミュニケーションに同時にログインしている場合には、ビジュアルコミュニケーション毎に並行してビジュアルコミュニケーション処理が実施されることになる。

音声処理部９０５は、ビジュアルコミュニケーションの表示に割り当てられたウィンドウの表示位置及びサイズの情報をウィンドウ制御部９０６から取得すると、ビジュアルコミュニケーション処理部９０２から与えられる音源位置を当該ウィンドウ内の位置に換算し、これにウィンドウの表示位置（オフセット）を加算することにより、画面上における音源の位置の情報を求めて、音像定位を行う。また、多地点通信（前述）によりビジュアルコミュニケーションが行われている場合には、音声処理部９０５は、現在発言中の地点の映像を表示している分割領域に音像を定位させる。

グラフィックス処理部９０３は、処理部２０１内のプロセッサが実行した対話処理結果に基づいて、音声エージェントのキャラクターのグラフィックスを生成する。そして、コンポーザ９０４は、生成したキャラクターのアニメーションをコンポーズする。コンポーズされたキャラクターアニメーションの画像は、ビデオメモリ（図９には図示しない）内のグラフィックス用プレーンに一旦書き込まれる。また、グラフィックス処理部９０３は、表示部２０４の画面上で音声エージェントのグラフィックスを表示させる位置に関する情報を、音声信号処理部９０５に出力する。

音声信号処理部９０５は、処理部２０１内のプロセッサによって生成された音声エージェントのメッセージ（テキスト）を音声合成する。そして、音声処理部９０５は、グラフィックス処理部９０３から与えられるグラフィックスの表示位置にキャラクターの音声の音像を定位させて、音声出力部２０６から音声を出力する。

重畳部９０７は、映像処理部９０１から出力される映像信号を、ビデオメモリ内の映像用プレーンに一旦書き込む。その際、映像の表示に割り当てられたウィンドウの表示位置及びサイズの情報をウィンドウ制御部９０６から取得して、映像用プレーン上の映像の表示に割り当てられたウィンドウ領域内に映像を書き込む。

また、重畳部９０７は、ビジュアルコミュニケーション処理部９０２から出力される映像信号を、ビデオメモリ内のビジュアルコミュニケーション用プレーンに一旦書き込む。その際、ビジュアルコミュニケーションの表示に割り当てられたウィンドウの表示位置及びサイズの情報をウィンドウ制御部９０６から取得して、ビジュアルコミュニケーション用プレーン上の映像の表示に割り当てられたウィンドウ領域内に映像を書き込む。

また、重畳部９０７は、コンポーザ９０４から出力されるキャラクターの映像やＯＳＤ又はＵＩなどのグラフィックスを、グラフィックス用プレーンに書き込む。

そして、重畳部９０７は、ビデオメモリ内の複数のプレーンを所定の順序で重畳して１枚の画像フレームを完成させる。本実施形態では、図１０に示すように、奥側から手前に向かって、背景プレーン、映像用プレーン、グラフィックス用プレーンの順に重畳される。但し、各プレーンの配置順は任意である。画像フレームは、その後、表示部２０４の画面に表示出力される。手前側のプレーンが優先して表示されることになる。図１に示したテレビジョン装置１００の画面構成例では、テレビ番組などの映像コンテンツとビジュアルコミュニケーションの各ウィンドウ１０１、１０２、並びに音声エージェントのキャラクター１０３が重なり合わないように配置されているが、各領域の少なくとも一部が重なり合う場合には、奥側の映像が手前側の映像で隠れることになる。

本開示に係る技術は、さまざまな製品へ応用することができる。例えば、本開示に係る技術を、手術室システムに適用することができる。本開示に係る技術を手術室システムに適用する場合について、以下で説明する。

図１２には、本開示に係る技術が適用され得る手術室システム１２００の全体構成を概略的に示している。図示の手術室システム１２００は、視聴覚コントローラ（ＡＶＣｏｎｔｒｏｌｌｅｒ）１２０７と、手術室制御装置１２０９を備えている。視聴覚コントローラ１２０７と手術室制御装置１２０９は、相互接続され、連携して動作できるものとする。

手術室内には、さまざまな装置が設置されることが想定される。図１２に示す例では、内視鏡下手術のための各種の装置群１２０１と、手術室の天井に設けられ術者の手元を撮像するシーリングカメラ１２８７と、手術室の天井に設けられ手術室全体の様子を撮像する術場カメラ１２８９と、複数の表示装置１２０３Ａ〜１２０３Ｄと、レコーダ１２０５と、患者ベッド１２８３と、照明１２９１などが手術室内に設置されている。

上記の装置のうち、装置群１２０１は、内視鏡手術システムに属するものであり、内視鏡やその内視鏡によって撮像された画像を表示する表示装置などからなる。内視鏡手術システムに属する各装置は、医療用機器とも呼ばれる。一方、表示装置１２０３Ａ〜Ｄ、レコーダ１２０５、患者ベッド１２８３、及び照明１２９１は、内視鏡手術システムには属さないが、同じ手術室に備え付けられる装置である。これら内視鏡手術システムに属さない各装置は、非医療用機器とも呼ばれる。視聴覚コントローラ１２０７と手術室制御装置１２０９は、これら医療用機器並びに非医療法機器の動作を互いに連携して制御する。

視聴覚コントローラ１２０７は、手術室システム１２００内における医療機器及び非医療機器における画像表示に関する処理を統括的に制御する。ここで、手術室システム１２００が備える装置のうち、装置群１２０１、シーリングカメラ１２８７及び術場カメラ１２８９は、手術中に表示すべき情報（以下、「表示情報」ともいう）を発信する機能を有する装置（以下、「発信元の装置」とも呼称する）である。また、表示装置１２０３Ａ〜１２０３Ｄは、表示情報を出力する装置（以下、「出力先の装置」ともいう）である。また、レコーダ１２０５は、発信元の装置及び出力先の装置の双方に該当する装置である。このような手術室システム１２００において、視聴覚コントローラ１２０７は、発信元の装置及び出力先の装置の動作を制御し、発信元の装置から表示情報を取得するとともに、当該表示情報を出力先の装置に送信し、表示又は記録させる機能を有する。なお、表示情報は、手術中に撮像された各種の画像や、手術に関する各種の情報（例えば、患者の身体情報や、過去の検査結果、術式についての情報）などである。

具体的には、装置群１２０１から視聴覚コントローラ１２０７へ、表示情報として、内視鏡によって撮像された患者の体腔内の術部の画像についての情報が送信される。また、シーリングカメラ１２８７から視聴覚コントローラ１２０７へ、表示情報として、当該シーリングカメラ１２８７によって撮像された術者の手元の画像についての情報が送信される。また、術場カメラ１２８９から視聴覚コントローラ１２０７へ、表示情報として、当該術場カメラ１２８９によって撮像された手術室全体の様子を示す画像についての情報が送信される。なお、手術室システム１２００内に、撮像機能を有する他の装置（図示しない）がさらに存在する場合には、視聴覚コントローラ１２０７は、表示情報として、当該他の装置からも当該他の装置によって撮像された画像についての情報を取得してもよい。

また、レコーダ１２０５には、上記のような撮像機能を有する装置によって過去に撮像された画像についての情報が、視聴覚コントローラ１２０７によって記録されている。視聴覚コントローラ１２０７は、表示情報として、レコーダ１２０５から当該過去に撮像された画像についての情報を取得することができる。なお、レコーダ１２０５には、手術に関する各種の情報も事前に記録されていてもよい。

視聴覚コントローラ１２０７は、発信元の装置から取得した表示情報（すなわち、手術中に撮影された画像や、手術に関する各種の情報）を、出力先の装置である表示装置１２０３Ａ〜１２０３Ｄの少なくともいずれかに表示させる。図１２に示す例では、表示装置１２０３Ａは手術室の天井から吊り下げられて設置される表示装置であり、表示装置１２０３Ｂは手術室の壁面に設置される表示装置であり、表示装置１２０３Ｃは手術室内の机上に設置される表示装置である。また、表示装置１２０３Ｄは、例えばタブレットＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）のような、表示機能を有するモバイル機器である。

また、図１２では図示を省略しているが、手術室システム１２００は、手術室の外部に設置された装置をさらに備えていてもよい。手術室の外部に設置された装置として、例えば、病院内外に構築されたネットワークに接続されるサーバや、医療スタッフが使用するＰＣ、病院の会議室に設置されるプロジェクタなどを挙げることができる。さらに、遠隔医療などの目的で、手術室システム１２００が病院外に設置された装置を備えていてもよい。このような場合には、視聴覚コントローラ１２０７は、テレビ会議システムなどを介して、他の病院の表示装置に表示情報を表示させることもできる。

手術室制御装置１２０９は、非医療機器における画像表示以外に関する処理を、統括的に制御する。例えば、手術室制御装置１２０９は、患者ベッド１２８３、シーリングカメラ１２８７、術場カメラ１２８９及び照明１２９１の駆動を制御する。

手術室システム１２００には、集中操作パネル１２１１が設けられている。ユーザ（術者など）は、集中操作パネル１２１１を介して、視聴覚コントローラ１２０７に対して画像表示についての指示を与えたり、手術室制御装置１２０９に対して非医療機器の動作についての指示を与えたりすることができる。集中操作パネル１２１１は、表示装置の表示面上にタッチパネルが設けられた構成を備えている。

このような手術室システム１２００が装備された医療現場では、例えば、表示装置１２０３Ａ〜Ｄの画面上に患者の身体の一部（術部など）を表示しながら手術を行うことがある。この場合、画面上に表示された術部の位置に対応する音声の音像を、当該術部の画面上の表示位置に対応する位置に定位するように出力するようにしてもよい。例えば図１３に示すように、内視鏡映像の画面上の術部から出血がみられたときに、当該出血している術部に対応する位置に警告音の音像を定位する。また、術部の３次元的な深度情報に基づいて、音像の定位位置を術者と画面の間で３次元的に変化させるようにしてもよい。例えば図１４に示すように画面上に表示された術部の出血位置の深度が深い場合には、より画面に近い位置（若しくは、術者からより遠い位置）に音像を定位させるようにする。逆に出血位置が浅い場合には、図１５に示すようにより術者に近い位置に音像を定位させる。本技術を用いて、術者の注意を早急に対処が必要な術部へと適切に導くことが可能となる。

これらの術部に関する画像は、シーリングカメラ１２８７や内視鏡によって得られる。また、本開示に係る技術は、術場カメラ１２８９によって撮像された手術室の画像に適用することができるが、もちろん、その他のカメラによって撮像された画像や、過去に撮像された画像、手術室外部から配信された画像に対しても同様に適用することができる。

さらに、本技術を表示装置１２０３Ａ〜Ｄの画面の外に存在する術部に対して適用することも可能である。例えば、表示装置１２０３Ａ〜Ｄの画面上に表示されている術部は、術部全体の一部であることが想定されるが、術中においては画面上に表示されていない術部からの出血などがみられることがある。本技術によれば、画面上に表示されていない術部に合わせて、警告音の音像を定位させることができる。

表示装置１２０３Ａ〜Ｄの画面外に存在する術部から出血がみられた場合には、当該術部に対応する方向に音像を定位させることによって、術者の注意を誘導することができる。例えば図１６に示すように、画面に表示された術部の右方向から出血がみられた場合には、画面の右側から警告音が聞こえるような音像の定位が実現される。ここで、画面の右側への音像の定位とは、一般的なスピーカーシステムが採用されている場合において表示装置の画面の範囲よりも右側に音像を定位させることであってもよいし、加振器による画面振動スピーカーシステム（図１１を参照のこと）が採用されている場合において画面の右半分や画面の右端から音声が発せられるように音像を定位させることであってもよい。また、これら複数のスピーカーシステムが組み合わされて使用される場合には、複数の音場生成方法を組み合わせて用いてもよい。

術部が表示画面の範囲外にある場合には、本開示に係る技術を適用して、警告音の音像をどの方向にも定位させることが可能であり、また、画面上の表示範囲から当該術部までの距離に応じて音像の定位位置が変化してもよい。例えば、画面上の表示範囲から術部までの距離が大きい場合には、距離が小さい場合よりも遠くから音が聞こえるように音像を定位してもよい。また、画面上の表示範囲と術部までの距離に応じて、出力する音声の音量を変化させるようにしていてもよい。この場合には、画面上の表示範囲から術部までの距離が大きい場合には、距離が小さい場合よりも大きな音声を発するようにしていてもよい。

また、本開示に係る技術を、表示装置１２０３Ａ〜Ｄの画面上に術者の注意を誘導するような表示と併用するようにしてもよい。術者の注意を誘導する表示として、例えば、画面上の表示範囲から術部がどの方向にあるかを示すＧｒａｐｈｉｃＵｓｅｒＩｎｔｅｒｆａｃｅ（ＧＵＩ）の表示を挙げることができる。このようなＧＵＩは、術部の方向を示す矢印記号のような単純な表示だけであってもよいし、術部の位置や方向に関する情報の記載を含んでもよい。

本開示に係る技術は、自動車、電気自動車、ハイブリッド電気自動車、自動二輪車、自転車、パーソナルモビリティ、飛行機、ドローン、船舶、ロボット、建設機械、農業機械（トラクター）などのいずれかの種類の移動体に搭載される装置にも適用することができる。本開示に係る技術を移動体制御システムに適用する場合について、以下で説明する。

図１７には、本開示に係る技術が適用され得る移動体制御システムの一例としての車両制御システム１７００の概略的な構成例を示している。図示の車両制御システム１７００は、駆動系制御ユニット１７１００と、ボディ系制御ユニット１７２００と、バッテリ制御ユニット１７３００と、車外情報検出ユニット１７４００と、車内情報検出ユニット１７５００と、統合制御ユニット１７６００を備えている。これらの複数の制御ユニットを接続する通信ネットワーク１７０１０は、例えば、ＣＡＮ（ＣｏｎｔｒｏｌｌｅｒＡｒｅａＮｅｔｗｏｒｋ）、ＬＩＮ（ＬｏｃａｌＩｎｔｅｒｃｏｎｎｅｃｔＮｅｔｗｏｒｋ）、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）又はＦｌｅｘＲａｙ（登録商標）等の任意の規格に準拠した車載通信ネットワークで構成される。

各制御ユニットは、各種プログラムに従って演算処理を行うマイクロコンピュータと、マイクロコンピュータにより実行されるプログラム又は各種演算に用いられるパラメータなどを記憶する記憶部と、各種制御対象の装置を駆動する駆動回路とを備えている。各制御ユニットは、通信ネットワーク１７０１０を介して他の制御ユニットとの間で通信を行うためのネットワークインターフェース（ＩＦ）を備えるとともに、車内外の装置又はセンサなどとの間で、有線通信又は無線通信により通信を行うための通信インターフェース（ＩＦ）を備える。図１７では、統合制御ユニット１７６００の機能構成として、マイクロコンピュータ１７６１０と、汎用通信インターフェース（ＩＦ）１７６２０と、専用通信インターフェース（ＩＦ）１７６３０と、測位部１７６４０と、ビーコン受信部１７６５０と、車内機器インターフェース（ＩＦ）１７６６０と、音声画像出力部１７６７０と、車載ネットワークインターフェース（ＮＷＩＦ）１７６８０と、記憶部１７６９０が図示されている。他の制御ユニットも同様に、マイクロコンピュータ、通信インターフェース及び記憶部などを備えている。

駆動系制御ユニット１７１００は、各種プログラムに従って車両の駆動系に関連する装置の動作を制御する。例えば、駆動系制御ユニット１７１００は、内燃機関又は駆動用モータなどの車両の駆動力を発生させるための駆動力発生装置、駆動力を車輪に伝達するための駆動力伝達機構、車両の舵角を調節するステアリング機構、及び、車両の制動力を発生させる制動装置等の制御装置として機能する。駆動系制御ユニット１７１００は、ＡＢＳ（ＡｎｔｉｌｏｃｋＢｒａｋｅＳｙｓｔｅｍ）又はＥＳＣ（ＥｌｅｃｔｒｏｎｉｃＳｔａｂｉｌｉｔｙＣｏｎｔｒｏｌ）などの制御装置としての機能を有してもよい。

駆動系制御ユニット１７１００には、車両状態検出部１７１１０が接続されている。車両状態検出部１７１１０には、例えば、車体の軸回転運動の角速度を検出するジャイロセンサ、車両の加速度を検出する加速度センサ、あるいは、アクセルペダルの操作量、ブレーキペダルの操作量、ステアリングホイールの操舵角、エンジン回転数又は車輪の回転速度などを検出するためのセンサのうちの少なくとも１つが含まれる。駆動系制御ユニット１７１００は、車両状態検出部１７１１０から入力される信号を用いて演算処理を行い、内燃機関、駆動用モータ、電動パワーステアリング装置又はブレーキ装置などを制御する。

ボディ系制御ユニット１７２００は、各種プログラムに従って車体に装備された各種装置の動作を制御する。例えば、ボディ系制御ユニット１７２００は、キーレスエントリシステム、スマートキーシステム、パワーウィンドウ装置、あるいは、ヘッドランプ、バックランプ、ブレーキランプ、ウィンカー又はフォグランプなどの各種ランプの制御装置として機能する。この場合、ボディ系制御ユニット１７２００には、鍵を代替する携帯機から発信される電波又は各種スイッチの信号が入力され得る。ボディ系制御ユニット１７２００は、これらの電波又は信号の入力を受け付け、車両のドアロック装置、パワーウィンドウ装置、ランプなどを制御する。

バッテリ制御ユニット１７３００は、各種プログラムに従って駆動用モータの電力供給源である二次電池１７３１０を制御する。例えば、バッテリ制御ユニット１７３００には、二次電池１７３１０を備えたバッテリ装置から、バッテリ温度、バッテリ出力電圧又はバッテリの残存容量などの情報が入力される。バッテリ制御ユニット１７３００は、これらの信号を用いて演算処理を行い、二次電池１７３１０の温度調節制御又はバッテリ装置に備えられた冷却装置などの制御を行う。

車外情報検出ユニット１７４００は、車両制御システム１７００を搭載した車両の外部の情報を検出する。例えば、車外情報検出ユニット１７４００には、撮像部１７４１０及び車外情報検出部１７４２０のうちの少なくとも一方が接続される。撮像部１７４１０には、ＴｏＦ（ＴｉｍｅＯｆＦｌｉｇｈｔ）カメラ、ステレオカメラ、単眼カメラ、赤外線カメラ及びその他のカメラのうちの少なくとも１つが含まれる。車外情報検出部１７４２０には、例えば、現在の天候又は気象を検出するための環境センサ、あるいは、車両制御システム１７００を搭載した車両の周囲の他の車両、障害物又は歩行者などを検出するための周囲情報検出センサのうちの少なくとも１つが含まれる。

環境センサは、例えば、雨天を検出する雨滴センサ、霧を検出する霧センサ、日照度合いを検出する日照センサ、及び降雪を検出する雪センサのうちの少なくとも１つであってよい。周囲情報検出センサは、超音波センサ、レーダ装置及びＬＩＤＡＲ（ＬｉｇｈｔＤｅｔｅｃｔｉｏｎａｎｄＲａｎｇｉｎｇ、ＬａｓｅｒＩｍａｇｉｎｇＤｅｔｅｃｔｉｏｎａｎｄＲａｎｇｉｎｇ）装置のうちの少なくとも１つであってよい。撮像部１７４１０及び車外情報検出部１７４２０は、それぞれ独立したセンサ乃至装置として備えられてもよいし、複数のセンサ乃至装置が統合された装置として備えられてもよい。

図１８には、撮像部１７４１０及び車外情報検出部１７４２０の設置位置の一例を示している。撮像部２９１０、２９１２、２９１４、２９１６、２９１８は、例えば、車両２９００のフロントノーズ、サイドミラー、リアバンパ、バックドア及び車室内のフロントガラスの上部のうちの少なくとも１つの位置にそれぞれ設けられる。フロントノーズに備えられる撮像部２９１０及び車室内のフロントガラスの上部に備えられる撮像部２９１８は、主として車両２９００の前方の画像を取得する。サイドミラーに備えられる撮像部２９１２、２９１４は、主として車両２９００の左側方及び右側方の画像をそれぞれ取得する。リアバンパ又はバックドアに備えられる撮像部２９１６は、主として車両２９００の後方の画像を取得する。車室内のフロントガラスの上部に備えられる撮像部２９１８は、主として先行車両又は、歩行者、障害物、信号機、交通標識又は車線などの検出に用いられる。

なお、図１８には、各撮像部２９１０、２９１２、２９１４、２９１６の撮影範囲の一例を併せて示している。撮像範囲ａは、フロントノーズに設けられた撮像部２９１０の撮像範囲を示し、撮像範囲ｂ及びｃは、それぞれサイドミラーに設けられた撮像部２９１２、２９１４の撮像範囲を示し、撮像範囲ｄは、リアバンパ又はバックドアに設けられた撮像部２９１６の撮像範囲を示している。例えば、撮像部２９１０、２９１２、２９１４、２９１６で撮像された画像データを合成処理することによって、車両２９００を上方から見た俯瞰画像を得ることができる。

車両２９００のフロント、リア、サイド、コーナ及び車室内のフロントガラスの上部に設けられる車外情報検出部２９２０、２９２２、２９２４、２９２６、２９２８、２９３０は、例えば超音波センサ又はレーダ装置で構成される。車両２９００のフロントノーズ、リアバンパ、バックドア及び車室内のフロントガラスの上部に設けられる車外情報検出部２９２０、２９２６、２９３０は、例えばＬＩＤＡＲ装置で構成される。これらの車外情報検出部２９２０〜２９３０は、主として先行車両、歩行者又は障害物などの検出に用いられる。

図１７を再び参照して、車両制御システム１７００について引き続き説明する。車外情報検出ユニット１７４００は、撮像部１７４１０に車外の画像を撮像させるとともに、撮像された画像データを受信する。また、車外情報検出ユニット１７４００は、接続されている車外情報検出部１７４２０から検出情報を受信する。車外情報検出部１７４２０が超音波センサ、レーダ装置又はＬＩＤＡＲ装置である場合には、車外情報検出ユニット１７４００は、超音波又は電磁波などを発信させるとともに、受信された反射波の情報を受信する。そして、車外情報検出ユニット１７４００は、受信した情報に基づいて、人、車、障害物、標識又は路面上の文字等の物体検出処理又は距離検出処理を行うことができる。また、車外情報検出ユニット１７４００は、受信した情報に基づいて、降雨、霧又は路面状況などを認識する環境認識処理を行うことができる。そして、車外情報検出ユニット１７４００は、受信した情報に基づいて、車外の物体までの距離を算出することができる。

また、車外情報検出ユニット１７４００は、受信した画像データに基づいて、人、車、障害物、標識又は路面上の文字などを認識する画像認識処理又は距離検出処理を行ってもよい。車外情報検出ユニット１７４００は、受信した画像データに対して歪補正又は位置合わせなどの処理を行うとともに、異なる撮像部１７４１０により撮像された画像データを合成して、俯瞰画像又はパノラマ画像を生成してもよい。車外情報検出ユニット１７４００は、異なる撮像部１７４１０により撮像された画像データを用いて、視点変換処理を行ってもよい。

車内情報検出ユニット１７５００は、車内の情報を検出する。車内情報検出ユニット１７５００には、例えば、運転者の状態を検出する運転者状態検出部１７５１０が接続される。運転者状態検出部１７５１０は、運転者を撮像するカメラ、運転者の生体情報を検出する生体センサ又は車室内の音声を集音するマイクなどで構成される。生体センサは、例えば、座面又はステアリングホイールなどに設けられ、座席に座った搭乗者又はステアリングホイールを握る運転者の生体情報を検出する。車内情報検出ユニット１７５００は、運転者状態検出部１７５１０から入力される検出情報に基づいて、運転者の疲労度合い又は集中度合いを算出してもよいし、運転者が居眠りをしていないかを判別してもよい。車内情報検出ユニット１７５００は、集音された音声信号に対してノイズキャンセリング処理などの処理を行ってもよい。

統合制御ユニット１７６００は、各種プログラムに従って車両制御システム１７００内の動作全般を制御する。統合制御ユニット１７６００には、入力部１７８００が接続されている。入力部１７８００は、例えば、タッチパネル、ボタン、マイクロフォン、スイッチ又はレバーなど、搭乗者によって入力操作され得る装置によって実現される。統合制御ユニット１７６００には、マイクロフォンにより入力される音声を音声認識することにより得たデータが入力されてもよい。

また、入力部１７８００は、例えば、赤外線又はその他の電波を利用したリモートコントロール装置であってもよいし、車両制御システム１７００の操作に対応した携帯電話又はＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）などの外部接続機器であってもよい。

また、入力部１７８００は、例えばカメラであってもよく、その場合搭乗者はジェスチャにより情報を入力することができる。あるいは、搭乗者が装着したウェアラブル装置の動きを検出することで得られたデータが統合制御ユニット１７６００に入力されてもよい。

さらに、入力部１７８００は、例えば、上記の入力部１７８００を用いて搭乗者等により入力された情報に基づいて入力信号を生成し、統合制御ユニット１７６００に出力する入力制御回路などを含んでもよい。搭乗者などは、この入力部１７８００を操作することにより、車両制御システム１７００に対して各種のデータを入力したり処理動作を指示したりする。

記憶部１７６９０は、マイクロコンピュータにより実行される各種プログラムを記憶するＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及び各種パラメータ、演算結果又はセンサ値などを記憶するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を含んでいてもよい。また、記憶部１７６９０は、ＨＤＤ（ＨａｒｄＤｉｓｃＤｒｉｖｅ）などの磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイスなどを含んでいてもよい。

汎用通信インターフェース１７６２０は、外部環境１７７５０に存在するさまざまな機器との間の通信を仲介する汎用的な通信インターフェースである。汎用通信インターフェース１７６２０は、ＧＳＭ（登録商標）（ＧｌｏｂａｌＳｙｓｔｅｍｏｆＭｏｂｉｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ）、ＷｉＭＡＸ（登録商標）、ＬＴＥ（登録商標）（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）若しくはＬＴＥ−Ａ（ＬＴＥ−Ａｄｖａｎｃｅｄ）などのセルラー通信プロトコル、又は無線ＬＡＮ（Ｗｉ−Ｆｉ（登録商標）ともいう）、Ｂｌｕｅｔｏｏｔｈ（登録商標）などのその他の無線通信プロトコルを実装してよい。汎用通信インターフェース１７６２０は、例えば、基地局又はアクセスポイントを介して、外部ネットワーク（例えば、インターネット、クラウドネットワーク又は事業者固有のネットワーク）上に存在する機器（例えば、アプリケーションサーバ又は制御サーバ）へ接続してもよい。また、汎用通信インターフェース１７６２０は、例えばＰ２Ｐ（ＰｅｅｒＴｏＰｅｅｒ）技術を用いて、車両の近傍に存在する端末（例えば、運転者、歩行者若しくは店舗の端末、又はＭＴＣ（ＭａｃｈｉｎｅＴｙｐｅＣｏｍｍｕｎｉｃａｔｉｏｎ）端末）と接続してもよい。

専用通信インターフェース１７６３０は、車両における使用を目的として策定された通信プロトコルをサポートする通信インターフェースである。専用通信インターフェース１７６３０は、例えば、下位レイヤのＩＥＥＥ８０２．１１ｐと上位レイヤのＩＥＥＥ１６０９との組合せであるＷＡＶＥ（ＷｉｒｅｌｅｓｓＡｃｃｅｓｓｉｎＶｅｈｉｃｌｅＥｎｖｉｒｏｎｍｅｎｔ）、ＤＳＲＣ（ＤｅｄｉｃａｔｅｄＳｈｏｒｔＲａｎｇｅＣｏｍｍｕｎｉｃａｔｉｏｎｓ）、又はセルラー通信プロトコルといった標準プロトコルを実装している。専用通信インターフェース１７６３０は、典型的には、車車間（ＶｅｈｉｃｌｅｔｏＶｅｈｉｃｌｅ）通信、路車間（ＶｅｈｉｃｌｅｔｏＩｎｆｒａｓｔｒｕｃｔｕｒｅ）通信、車両と家との間（ＶｅｈｉｃｌｅｔｏＨｏｍｅ）の通信及び歩車間（ＶｅｈｉｃｌｅｔｏＰｅｄｅｓｔｒｉａｎ）通信のうち少なくとも１つを含む概念であるＶ２Ｘ通信を遂行する。

測位部１７６４０は、例えば、ＧＮＳＳ（ＧｌｏｂａｌＮａｖｉｇａｔｉｏｎＳａｔｅｌｌｉｔｅＳｙｓｔｅｍ）衛星からのＧＮＳＳ信号（例えば、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）衛星からのＧＰＳ信号）を受信して測位を実行し、車両の緯度、経度及び高度を含む位置情報を生成する。なお、測位部１７６４０は、無線アクセスポイントとの信号の交換により現在位置を特定してもよく、又は測位機能を有する携帯電話、ＰＨＳ（ｐｅｒｓｏｎａｌＨａｎｄｙ−ｐｈｏｎｅＳｙｓｔｅｍ）若しくはスマートフォンといった端末から位置情報を取得してもよい。

ビーコン受信部１７６５０は、例えば、道路上に設置された無線局等から発信される電波あるいは電磁波を受信し、現在位置、渋滞、通行止め又は所要時間などの情報を取得する。なお、ビーコン受信部１７６５０の機能は、上述した専用通信インターフェース１７６３０に含まれてもよい。

車内機器インターフェース１７６６０は、マイクロコンピュータ１７６１０と車内に存在するさまざまな車内機器１７７６０との間の接続を仲介する通信インターフェースである。車内機器インターフェース１７６６０は、無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＮＦＣ（ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎ）又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）といった無線通信プロトコルを用いて無線接続を確立してもよい。また、車内機器インターフェース１７６６０は、図示しない接続端子（及び、必要であればケーブル）を介して、ＵＳＢ、ＨＤＭＩ（登録商標）又はＭＨＬ（ＭｏｂｉｌｅＨｉｇｈ−ｄｅｆｉｎｉｔｉｏｎＬｉｎｋ）などの有線接続を確立してもよい。車内機器１７７６０は、例えば、搭乗者が有するモバイル機器若しくはウェアラブル機器、又は車両に搬入され若しくは取り付けられる情報機器のうちの少なくとも１つを含んでいてもよい。また、車内機器１７７６０は、任意の目的地までの経路探索を行うナビゲーション装置を含んでいてもよい。車内機器インターフェース１７６６０は、これらの車内機器１７７６０との間で、制御信号又はデータ信号を交換する。

車載ネットワークインターフェース１７６８０は、マイクロコンピュータ１７６１０と通信ネットワーク１７０１０との間の通信を仲介するインターフェースである。車載ネットワークインターフェース１７６８０は、通信ネットワーク１７０１０によりサポートされる所定のプロトコルに則して、信号などを送受信する。

統合制御ユニット１７６００内のマイクロコンピュータ１７６１０は、汎用通信インターフェース１７６２０、専用通信インターフェース１７６３０、測位部１７６４０、ビーコン受信部１７６５０、車内機器インターフェース１７６６０及び車載ネットワークインターフェース１７６８０のうちの少なくとも１つを介して取得される情報に基づき、各種プログラムに従って、車両制御システム１７００を制御する。例えば、マイクロコンピュータ１７６１０は、取得される車内外の情報に基づいて、駆動力発生装置、ステアリング機構又は制動装置の制御目標値を演算し、駆動系制御ユニット１７１００に対して制御指令を出力してもよい。具体的には、マイクロコンピュータ１７６１０は、車両の衝突回避あるいは衝撃緩和、車間距離に基づく追従走行、車速維持走行、車両の衝突警告、又は車両のレーン逸脱警告などを含むＡＤＡＳ（ＡｄｖａｎｃｅｄＤｒｉｖｅｒＡｓｓｉｓｔａｎｃｅＳｙｓｔｅｍ）の機能実現を目的とした協調制御を行ってもよい。また、マイクロコンピュータ１７６１０は、取得される車両の周囲の情報に基づいて駆動力発生装置、ステアリング機構又は制動装置などを制御することにより、運転者の操作に拠らずに自律的に走行する自動運転などを目的とした協調制御を行ってもよい。

マイクロコンピュータ１７６１０は、汎用通信インターフェース１７６２０、専用通信インターフェース１７６３０、測位部１７６４０、ビーコン受信部１７６５０、車内機器インターフェース１７６６０及び車載ネットワークインターフェース１７６８０のうちの少なくとも１つを介して取得される情報に基づき、車両と周辺の構造物や人物などの物体との間の３次元距離情報を生成し、車両の現在位置の周辺情報を含むローカル地図情報を作成してもよい。また、マイクロコンピュータ１７６１０は、取得される情報に基づき、車両の衝突、歩行者などの近接又は通行止めの道路への進入等の危険を予測し、警告用信号を生成してもよい。警告用信号は、例えば、警告音を発生させたり、警告ランプを点灯させたりするための信号であってよい。

音声画像出力部１７６７０は、車両の搭乗者又は車外に対して、視覚的又は聴覚的に情報を通知することが可能な出力装置へ音声及び画像のうちの少なくとも一方の出力信号を送信する。図１７に示す例では、出力装置として、オーディオスピーカー１７７１０、表示部１７７２０及びインストルメントパネル１７７３０が装備されている。表示部１７７２０は、例えば、オンボードディスプレイ及びヘッドアップディスプレイの少なくとも１つを含んでいてもよい。表示部７７２０は、カーナビゲーションシステムの表示部であってもよい。表示部１７７２０は、ＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）表示機能を有していてもよい。出力装置は、これらの装置以外の、ヘッドホン、搭乗者が装着する眼鏡型ディスプレイなどのウェアラブルデバイス、プロジェクタ又はランプなどの他の装置であってもよい。出力装置としての表示装置は、マイクロコンピュータ１７６１０が行った各種処理により得られた結果又は他の制御ユニットから受信された情報を、テキスト、イメージ、表、グラフなどさまざまな形式で視覚的に表示する。また、出力装置としての音声出力装置は、再生された音声データ又は音響データなどからなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。

なお、図１７に例示した車両制御システム１７００において、通信ネットワーク７０１０を介して接続された少なくとも２つの制御ユニットが１つの制御ユニットとして一体化されてもよい。あるいは、個々の制御ユニットが、複数の制御ユニットにより構成されてもよい。さらに、車両制御システム１７００が、図示しない別の制御ユニットを備えてもよい。また、上記の説明において、いずれかの制御ユニットが担う機能の一部又は全部を、他の制御ユニットに持たせてもよい。つまり、通信ネットワーク１７０１０を介して情報の送受信がされるようになっていれば、所定の演算処理が、いずれかの制御ユニットで行われるようになってもよい。同様に、いずれかの制御ユニットに接続されているセンサ又は装置が、他の制御ユニットに接続されるとともに、複数の制御ユニットが、通信ネットワーク１７０１０を介して相互に検出情報を送受信してもよい。

上述したような車両制御システム１７００において、例えば、車外情報検出ユニット１７４００によって検出された周囲の他の車両に関する情報を表示部１７７２０に表示するケースが考えられる。この場合、マイクロコンピュータ１７６１０などの処理によって、表示部１７７２０に表示された他の車両と、車外情報検出ユニット１７４００を搭載する車両の関係に応じて、オーディオスピーカー１７７１０から出力する音声の音像を定位させることができる。したがって、本開示に係る技術を用いることで、音像の定位位置を通じて、運転者又は搭乗者の注意を他の車両や歩行者へと適切に導くことが可能となる。

図１９〜図２１には、本開示に係る技術を用いた音像定位の具体例を図解している。図１９に示す例では、フロントガラス１９００の一部が画像を表示又は投影する表示部１７７２０に割り当てられている。そして、フロントガラス１９００内の表示部１７７２０は、バックカメラで撮像した画像を表示又は投影するバックカメラ画像表示部１９０１として用いられている。図示のように、バックカメラ画像表示部１９０１に後続車両が表示又は投影されているときに、当該後続車両の表示位置に対応した位置に警告音などの音声の音像が定位される。その際、当該後続車両の位置や速度、自車両から当該後続車両までの車間距離に応じて、音像の定位位置を運転者又は搭乗者と表示部１７７２０の間で３次元的に変化させてもよい。その際、音像を定位させる音声の音量の制御も併せて行うようにしてもよい。

車両制御システム１７００では、後続車両の表示位置への音像定位処理を行っている間に、運転者状態検出部１７５１０を用いて運転者又は搭乗者の車内の位置や姿勢を検出し、運転者又は搭乗者の位置や姿勢を考慮して音像の定位位置を制御するようにしてもよい。例えば、自車両と後続車両間との車間距離が大きい場合には、図２０に示すようにより画面に近い位置に音声の音像を定位させて、車間距離が大きいことを聴覚的に表現する。逆に車間距離が小さい場合には、図２１に示すようにより運転者又は搭乗者に近い位置に音像を定位させることによって、車間距離が小さいことを聴覚的に表現する。

同様に、後続車両の進行速度が自車両よりも小さい場合には、より画面に近い位置に音声の音像を定位させるが、逆に後続車両の進行速度が自車両よりも大きい場合には、より運転者又は搭乗者に近い位置に音声の音像を定位させて、後続車両が自車両に近づいている状況を聴覚的に表現する。

なお、上述したような後続車両と音像の定位位置の関係はあくまで一例であり、上記の例に限定されない。例えば、画面上に表示された後続車両と自車両の車間距離が大きい場合には、より運転者又は搭乗者に近い位置に音像を定位させるが、車間距離が小さい場合には、より画面に近い位置に音像を定位させるように、音像定位の制御を実施するようにしてもよい。また、自車両と後続車両との関係に応じて、出力される音声の音量を変化させるようにしてもよい。

上記では図１９〜図２１を参照しながら自車両と後続車両との関係に応じて音像の定位位置を制御する場合について説明したが、本開示に係る技術はこれに限定されない。本開示に係る技術によれば、車外情報検出ユニット１７４００によって検出可能な、後続車両以外の対象物に応じて音像の定位位置を制御することもできる。

図２２には、本開示に係る技術を用いた音像定位の他の具体例を図解している。図２２に示す例では、フロントガラス２２００の一部が画像を表示又は投影する表示部１７７２０に割り当てられている。そして、車外情報検出ユニット１７４００によって検出した、自車両の前方に位置する歩行者並びに先行車両の各々に対応した音声の音像を、表示部１７７２０（若しくは、フロントガラス２２００）上にそれぞれ定位させている。

図２２に示したように、車外情報検出ユニット１７４００によって検出される対象物が自車両の進行方向の前方に位置する場合には、当該対象物は運転車の前方のフロントガラス２２００を透過して、運転者に視認されることが考えられる。このような場合、自車両の前方に位置する対象物は必ずしも表示部１７７２０を通じて運転者に視認される必要はないが、自車両の後方に位置する対象物の場合（図１９〜図２１を参照のこと）と同様に、前方の対象物の位置や速度、自車両から当該前方の対象物までの距離に応じて、音像の定位位置をフロントガラス２２００と運転者の間で３次元的に変化させてもよい。その際、音像を定位させる音声の音量の制御も併せて行うようにしてもよい。

なお、フロントガラス２２００に透過型ディスプレイを用いることができる。この場合、外部からの透過光として運転者に視認される対象物と、透過型ディスプレイからの出力光によって運転者によって視認される対象物が存在する。これらの透過光として視認される対象物と、出力光として視認される対象物のそれぞれに対して同様に音像を定位させるようにしてもよいし、透過光による対象物か出力光よる対象物かによって音像の定位のさせ方を変えるようにしてもよい。例えば、透過型ディスプレイで構成されるフロントガラス上に表示される後続車の画像に対しては、背後から音声が聞こえるように音像を定位させてもよい。

また、通常のフロントガラスや透過型ディスプレイを用いたフロントガラスに対して、画面振動スピーカー技術を適用する場合には、フロントガラス上に加振器を設置してもよいし、車体のフレームがフロントガラスを振動させるようにして音声を出力させてもよい。画面振動スピーカーを利用する技術は、フロントガラスに限定されず、サイドウィンドウやリアウィンドウに対しても適用可能である。

ここまでは、表示部１７７２０としてのフロントガラス上の対象物（後続車両、先行車両、歩行者など）の表示位置と運転者又は搭乗者の間で音像の定位位置を３次元的に変化させる例について説明してきた。これに対し、対象物の現実の位置と運転者又は搭乗者の間で音像の定位位置を変化させるようにしてもよい。

具体的には、車両制御システム１７００では、車外情報検出ユニット１７４００を用いて自車両と後続車両間の車間距離を検出するとともに、運転者状態検出部１７５１０を用いて運転者又は搭乗者の車内の位置や姿勢を検出して、実際の後続車両の位置と運転者又は搭乗者の間で音像の定位位置を３次元的に変化させるようにする。例えば、自車両と後続車両間との車間距離が大きい場合には、図２３に示すように、当該後続車両により近い位置（例えばリアウィンドウ付近）に音声の音像を定位させて、車間距離が大きいことを聴覚的に表現する。逆に車間距離が小さい場合には、図２４に示すようにより運転者又は搭乗者に近い位置（例えば後頭部付近）に音像を定位させることによって、車間距離が小さいことを聴覚的に表現する。

同様に、後続車両の進行速度が自車両よりも小さい場合には、当該後続車両により近い位置（例えばリアウィンドウ付近）に音声の音像を定位させるが、逆に後続車両の進行速度が自車両よりも大きい場合には、より運転者又は搭乗者に近い位置（例えば後頭部付近）に音声の音像を定位させて、後続車両が自車両に近づいている状況を聴覚的に表現する。

なお、上述したような後続車両の現実の位置と音像の定位位置の関係はあくまで一例であり、上記の例に限定されない。例えば、後続車両と自車両の車間距離が大きい場合には、より運転者又は搭乗者に近い位置（例えば後頭部付近）に音像を定位させるが、後続車両との距離が小さい場合には、当該後続車両により近い位置（例えばリアウィンドウ付近）に音像を定位させるように、音像定位の制御を実施するようにしてもよい。また、自車両と後続車両との関係に応じて、出力される音声の音量を変化させるようにしてもよい。

最後に、本開示に係る技術を、フロントガラス、リアウィンドウ、又はサイドウィンドウの一部又は全部が表示部１７７２０となっている車両制御システム１７００に適用して用いる場合について説明する。但し、表示部１７７２０は、フロントガラス、リアウィンドウ、又はサイドウィンドウの一部又は全部を使用する透過型ディスプレイであってもよい。

例えば、車両制御システム１７００を搭載した車両が自動運転車である場合、当該車両の走行中又は停車中に、運転者及び搭乗者は、表示部１７７２０としてのフロントガラス、リアウィンドウ、又はサイドウィンドウの一部又は全部を用いて映像コンテンツを観賞したり、インターネットブラウジングを行ったりすることができる。そして、本開示に係る技術を適用することで、表示部１７７２０に表示された表示物と連携した音像の定位や音場の生成を行い、運転者や搭乗者のコンテンツへの没入感を向上させることができる。その際、運転者状態検出部１７５１０によって検出された、運転者や搭乗者の車内の位置や姿勢に関する情報を用いて音像の定位を行うことができる。

具体例として、フロントガラス、リアウィンドウ、及びサイドウィンドウの全てが表示部１７７２０であり、且つ、加振器を用いた画面振動スピーカー技術を搭載している場合には、対応コンテンツ内のオブジェクトの表示位置に音声の音像を定位させ、その表示位置を部分的に振動させることによって、運転者や搭乗者に音声を伝達することが可能である。

なお、フロントガラス、リアウィンドウ、又はサイドウィンドウの一部又は全部を用いた表示部１７７２０に、マルチウィンドウ（例えば、図１を参照のこと）を適用することができる。この場合、フロントガラス、リアウィンドウ、又はサイドウィンドウの一部又は全部に、放送コンテンツ、ストリーミングコンテンツ、ビジュアルコミュニケーション、グラフィックスなどの各映像が表示される。また、マルチウィンドウには、車外情報検出ユニット１７４００によって取得された情報（後続車両や先行車両、歩行者など）を表示するウィンドウが含まれていてもよい。

そして、車両制御システム１７００に、図９に示したような処理機能を搭載することで、本開示に係る技術に従って、各ウィンドウに表示されるオブジェクトの位置を検出して適切な位置に音像を定位することができる。図９に示したように、ウィンドウ内の出演者（話者）の顔位置を検出して、当該出演者（話者）の顔位置に対応する位置に音像を定位させてもよい。また、車外情報検出ユニット１７４００によって取得された対象物に対応するウィンドウ内のオブジェクトに対応する位置に音像を定位させてもよい。

上記の説明は、オーディオスピーカー１７７１０として画面振動スピーカーを用いることを前提としているが、もちろん一般的なスピーカーシステムを用いてもよいし、画面振動スピーカーとその他のスピーカーシステムを組み合わせて用いてもよい。但し、画面振動スピーカーを用いた場合には、一般的なスピーカーシステムを車室内に配置する必要がなくなり、車室内のスペースを有効に活用することができる。

また、上記の説明では、フロントガラス、リアウィンドウ、又はサイドウィンドウの一部又は全部を表示部１７７２０とし、オーディオスピーカー１７７１０に画面振動スピーカーを用いることを前提としているが、本開示に係る技術を実現する構成はこれに限定されない。例えば、車室の天井に配置された照明が、加振器を用いた筐体振動スピーカー機能を有していてもよい。これにより、一般的なスピーカーシステムを車室内に配置する必要がなくなり、車室内のスペースを有効に活用することができる。

以上、特定の実施形態を参照しながら、本明細書で開示する技術について詳細に説明してきた。しかしながら、本明細書で開示する技術の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。

本明細書では、本明細書で開示する技術をテレビジョン装置に適用した実施形態を中心に説明してきたが、本明細書で開示する技術の要旨はこれに限定されるものではない。プロジェクタやパーソナルコンピュータ、タブレット、スマートフォンを始め、映像を表示するとともに映像に同期する音声を出力するさまざまなタイプの表示装置に対して、同様に本明細書で開示する技術を適用することができる。

また、本明細書で開示する技術は、例えば画面振動スピーカー技術と組み合わせることで、より好適に動作することができる。

また、本明細書で開示する技術はディスプレイ及びスピーカーを使用するさまざまな製品へ応用することができる。例えば、本明細書で開示する技術を、手術室システムや車両制御システムにも適用することができる。車両として、自動車、電気自動車、ハイブリッド電気自動車、自動二輪車、自転車、パーソナルモビリティ、飛行機、ドローンなどの無人航空機、歩行型又は車輪型のロボット、建設機械、農業機械（トラクターなど）などを挙げることができる。

要するに、例示という形態により本明細書で開示する技術について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本明細書で開示する技術の要旨を判断するためには、特許請求の範囲を参酌すべきである。

なお、本明細書の開示の技術は、以下のような構成をとることも可能である。
（１）表示部の画面に表示される映像内に出現する音源の位置を検出して、前記映像に同期する音声の音像が、前記映像を表示する画面上で前記音源が出現する位置に定位するように１つ以上の加振器を用いて前記表示部を振動させることによる音声出力を制御する制御部を具備する情報処理装置。
（２）前記制御部は、放送又はＯＴＴサービスの映像、又は外部入力される映像内に出現する音源を検出して、前記画面上で前記音源が出現する位置に音像を定位させる、
上記（１）に記載の情報処理装置。
（３）前記制御部は、ビジュアルコミュニケーションの映像内に出現する音源を検出して、前記画面上で音源が出現する位置に音像を定位させる、
上記（１）又は（２）のいずれかに記載の情報処理装置。
（４）前記制御部は、前記画面上に表示される所定のグラフィックスを音源として検出して、前記グラフィックスに関連する音声を前記画面上で前記グラフィックスが表示される位置に定位させる、
上記（１）乃至（３）のいずれかに記載の情報処理装置。
（５）前記制御部は、前記情報処理装置上で実行される音声エージェントのグラフィックスを音源として検出して、前記画面上で前記グラフィックスが表示される位置に前記音源の音声の音像を定位させる、
上記（４）に記載の情報処理装置。
（６）前記音声エージェントと対話しているユーザを検出する検出部をさらに備え、
前記制御部は、前記ユーザの位置に追従して前記キャラクターの表示位置をさらに制御する、
上記（５）に記載の情報処理装置。
（７）前記制御部は、前記画面上に出現するＯＳＤ又はＵＩのグラフィックスを音源として検出し、前記画面上で前記グラフィックスが表示されたことに同期して、前記グラフィックスに関連付けられた効果音の音像を定位させる、
上記（４）に記載の情報処理装置。
（８）２以上の映像ソースの映像をそれぞれ個別のウィンドウに表示する場合に、
前記制御部は、各映像ソースの映像から検出された音源の音像を、対応するウィンドウ内で音源が出現する位置にそれぞれ定位させる、
上記（１）乃至（７）のいずれかに記載の情報処理装置。
（９）表示部の画面に表示される映像内に出現する音源の位置を検出する検出ステップと、
前記映像に同期する音声の音像が、前記映像を表示する画面上で前記音源が出現する位置に定位するように１つ以上の加振器を用いて前記表示部を振動させることによる音声出力を制御する制御ステップと、
を有する情報処理方法。
（１０）表示部と、
１つ以上の加振器を用いて前記表示部を振動させることにより音声出力を行う音声出力部と、
前記表示部の画面に表示される映像内に出現する音源の位置を検出して、前記映像に同期する音声の音像が、前記映像を表示する画面上で前記音源が出現する位置に定位するように前記音声出力部を制御する制御部と、
を具備する映像音声出力システム。

１００…テレビジョン装置
２００…テレビジョン装置（情報処理装置）
２０１…処理部、２０２…チューナ、２０３…通信部、２０４…表示部
２０５…音声入力部、２０６…音声出力部、２０７…撮像部
２０８…センサ部、２０９…リモコン受信部、２１０…記録部
３０１…映像処理部、３０２…音声処理部、３０３…ウィンドウ制御部
４０１…ビジュアルコミュニケーション処理部、４０２…音声処理部
４０３…ウィンドウ制御部
５０１…グラフィックス処理部、５０２…コンポーザ
５０３…音声処理部、５０４…ウィンドウ制御部
５０１…映像処理部、５０２…コンポーザ、５０３…音声処理部
５０４…ウィンドウ制御部
９０１…映像処理部、９０２…ビジュアルコミュニケーション処理部
９０３…グラフィックス処理部、９０４…コンポーザ
９０５…音声処理部、９０６…ウィンドウ制御部、９０７…重畳部
１１００…ディスプレイ、１１０１…スピーカーユニット
１１０１−１及び１１０１−２…加振器（アクチュエータ）
１１０２…スタンド
１２００…手術室システム、１２０１…装置群
１２０３Ａ〜Ｄ…表示装置、１２０５…レコーダ
１２０７…視聴覚コントローラ（ＡＣＣｏｎｔｒｏｌｌｅｒ）
１２０９…手術室制御装置、１２８３…患者ベッド
１２８７…シーリングカメラ、１２８９…術場カメラ、１２９１…照明
１７００…車両制御システム、１７０１０…通信ネットワーク
１７１００…駆動系制御ユニット、１７１１０…車両状態検出部
１７２００…ボディ系制御ユニット、１７３００…バッテリ制御ユニット
１７３１０…二次電池、１７４００…車外情報検出ユニット
１７４１０…撮像部、１７４２０…車外情報検出部
１７５００…車内情報検出ユニット、１７５１０…運転者状態検出部
１７６００…統合制御ユニット、１７６１０…マイクロコンピュータ
１７６２０…汎用通信インターフェース
１７６３０…専用通信インターフェース、１７６４０…測位部
１７６５０…ビーコン受信部、１７６６０…車内機器インターフェース
１７６７０…音声画像出力部
１７６８０…車載ネットワークインターフェース、１７６９０…記憶部

Claims

表示部の画面に表示される映像内に出現する音源の位置を検出して、前記映像に同期する音声の音像が、前記映像を表示する画面上で前記音源が出現する位置に定位するように１つ以上の加振器を用いて前記表示部を振動させることによる音声出力を制御する制御部を具備する情報処理装置。
前記制御部は、放送又はＯＴＴサービスの映像、又は外部入力される映像内に出現する音源を検出して、前記画面上で前記音源が出現する位置に音像を定位させる、
請求項１に記載の情報処理装置。
前記制御部は、ビジュアルコミュニケーションの映像内に出現する音源を検出して、前記画面上で音源が出現する位置に音像を定位させる、
請求項１に記載の情報処理装置。
前記制御部は、前記画面上に表示される所定のグラフィックスを音源として検出して、前記グラフィックスに関連する音声を前記画面上で前記グラフィックスが表示される位置に定位させる、
請求項１に記載の情報処理装置。
前記制御部は、前記情報処理装置上で実行される音声エージェントのグラフィックスを音源として検出して、前記画面上で前記グラフィックスが表示される位置に前記音源の音声の音像を定位させる、
請求項４に記載の情報処理装置。
前記音声エージェントと対話しているユーザを検出する検出部をさらに備え、
前記制御部は、前記ユーザの位置に追従して前記キャラクターの表示位置をさらに制御する、
請求項５に記載の情報処理装置。
前記制御部は、前記画面上に出現するＯＳＤ又はＵＩのグラフィックスを音源として検出し、前記画面上で前記グラフィックスが表示されたことに同期して、前記グラフィックスに関連付けられた効果音の音像を定位させる、
請求項４に記載の情報処理装置。
２以上の映像ソースの映像をそれぞれ個別のウィンドウに表示する場合に、
前記制御部は、各映像ソースの映像から検出された音源の音像を、対応するウィンドウ内で音源が出現する位置にそれぞれ定位させる、
請求項１に記載の情報処理装置。
表示部の画面に表示される映像内に出現する音源の位置を検出する検出ステップと、
前記映像に同期する音声の音像が、前記映像を表示する画面上で前記音源が出現する位置に定位するように１つ以上の加振器を用いて前記表示部を振動させることによる音声出力を制御する制御ステップと、
を有する情報処理方法。
表示部と、
１つ以上の加振器を用いて前記表示部を振動させることにより音声出力を行う音声出力部と、
前記表示部の画面に表示される映像内に出現する音源の位置を検出して、前記映像に同期する音声の音像が、前記映像を表示する画面上で前記音源が出現する位置に定位するように前記音声出力部を制御する制御部と、
を具備する映像音声出力システム。