WO2018147143A1

WO2018147143A1 - 情報処理装置および情報処理方法

Info

Publication number: WO2018147143A1
Application number: PCT/JP2018/003219
Authority: WO
Inventors: 塚越　郁夫
Original assignee: ソニー株式会社
Priority date: 2017-02-09
Filing date: 2018-01-31
Publication date: 2018-08-16
Also published as: US10809870B2; US20190369814A1; JP2023024471A; JPWO2018147143A1; EP3582093A4; EP3582093A1; CN110249297B; CN110249297A; JP7231412B2

Abstract

視覚障害者が画面上の所望の位置をポイントして操作を行うことを容易とする。　画面に対するユーザのポインティング位置を検出する処理をする。検出されたポインティング位置に対応した音声を出力する処理をする。例えば、音声出力処理では、検出されたポインティング位置が画面上の特定領域にあるとき、このポインティング位置が特定領域であることを示す音声を出力する。例えば、音声出力処理では、検出されたポインティング位置に対応した位置を音像位置とする。

Description

情報処理装置および情報処理方法

　本技術は、情報処理装置および情報処理方法に関し、特に、ユーザが画面上の所望の位置をポイントして操作を行い得る情報処理装置等に関する。

　従来、例えば、特許文献１には、ユーザが画面上の所望の位置をポイントして操作を行い得る情報処理装置が提案されている。この種の情報処理装置では、視覚健常者にとっては、画面上の表示に基づいて所望の位置をポイントして操作を容易に行い得る。しかし、視覚障害者においては、画面上の所望の位置をポイントして操作を行うことは、非常に困難である。

　また、例えば、特許文献２には、立体（３Ｄ）音響技術として、オブジェクト音源のオーディオデータをその位置情報に基づいて任意の位置に存在するスピーカにマッピングする３Ｄオーディオレンダリングの技術が記載されている。

特開２０１４－０４４２６８号公報特表２０１４－５２０４９１号公報

　本技術の目的は、視覚障害者が画面上の所望の位置をポイントして操作を行うことを容易とすることにある。

　本技術の概念は、
　画面に対するユーザのポインティング位置を検出する位置検出処理と、該検出されたポインティング位置に対応した音声を出力する音声出力処理を制御する制御部を備える
　情報処理装置にある。

　本技術において、位置検出処理により、画面に対するユーザのポインティング位置が検出される。そして、音声出力処理により、検出されたポインティング位置に対応した音声が出力される。例えば、画面は表示部に表示され、ユーザ操作部からのユーザ操作により画面上の任意の位置がポイントされる。

　例えば、音声出力処理では、検出されたポインティング位置が画面上の特定領域にあるとき、このポインティング位置が特定領域であることを示す音声を出力する、ようにされてもよい。この場合、例えば、特定の領域は、画面上に配置された特定のアプリケーションを起動させるためのアプリケーションロゴの領域である、ようにされてもよい。

　また、例えば、音声出力処理では、検出されたポインティング位置が画面上にないとき、このポインティング位置が画面外にあることを示す音声を出力する、ようにされてもよい。また、例えば、音声出力処理では、検出されたポインティング位置が画面上の第１の特定領域内に存在する第２の特定領域にあるとき、このポインティング位置が第１の特定領域であることを示す音声を出力すると同時に、このポインティング位置が第２の特定領域であることを示す音声を出力する、ようにされてもよい。

　また、例えば、音声出力処理では、検出されたポインティング位置に対応した位置を音像位置とする処理をする、ようにされてもよい。これにより、ポインティング位置が画面上のどの辺りにあるのかを音声が聞こえる方向から把握可能となる。この場合、例えば、音声出力処理では、検出されたポインティング位置に対応した位置を音像位置とするために、このポインティング位置に対応したオブジェクトメタデータに応じたレンダリング処理をする、ようにされてもよい。

　この場合、例えば、音声出力処理では、画面上の位置に関連して予め用意されているオブジェクトメタデータに応じたレンダリング処理をする、ようにされてもよい。また、この場合、例えば、音声出力処理では、検出されたポインティング位置から求められたオブジェクトメタデータに応じたレンダリング処理をする、ようにされてもよい。

　このように本技術においては、ポインティング位置に対応した音声を出力するものである。そのため、視覚障害者が画面上の所望の位置をポイントして操作を行うことが容易となる。

　本技術によれば、視覚障害者が画面上の所望の位置をポイントして操作を行うことを容易とできる。なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

実施の形態としての情報処理装置の構成例を示すブロック図である。画面構成の一例を示す図である。ポインティング位置Ｐ(x,y)が背景の領域にある場合を説明するための図である。表示インタラクティブ処理部でポインティング位置Ｐ(x,y)の情報から算出する位置情報（θ，φ，ｒ）の各要素を模式的に示す図である。オブジェクトレンダラにおけるレンダリング処理の概要を示す図である。ポインティング位置Ｐ(x,y)がアプリケーションロゴの領域にある場合を説明するための図である。アプリケーションロゴの矩形領域のオブジェクト・ポジションの奥行方向の位置関係を説明するための図である。ロゴ・リージョンの中に選択し得るボタンが存在する場合を説明するための図である。ポインティング位置Ｐ(x,y)が画面外にある場合を説明するための図である

　以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明を以下の順序で行う。
　１．実施の形態
　２．変形例

　＜１．実施の形態＞
　［情報処理装置の構成例］
　図１は、実施の形態としての情報処理装置１００の構成例を示している。この情報処理装置１００は、例えば、インターネット等のネット上にあるサーバにアクセスして所望の情報を取得してユーザに提示するものである。

　情報処理装置１００は、ＣＰＵ（Central Processing Unit）１０１と、ユーザ操作部１０２を有している。また、情報処理装置１００は、通信インタフェース１１１と、画像処理部１１２と、ＯＳＤ（On Screen Display）部１１３と、パネル駆動部１１４と、表示パネル１１５を有している。また、情報処理処置１００は、オブジェクトレンダラ１２１と、表示インタラクティブ処理部１２２と、ミキサ１２３と、音声出力処理部１２４と、スピーカシステム１２５を有している。

　ＣＰＵ１０１は、情報処理装置１００の各部の動作を制御する。ユーザ操作部１０２は、ユーザが種々の操作を行うためのユーザインタフェースであり、ＣＰＵ１０１に接続されている。このユーザ操作部１０２は、キーボード、タッチパネルなどの他に、画面上の任意の位置をポイントして操作を行うためのポインティングデバイス、例えばマウスなども含んでいる。

　通信インタフェース１１１は、インターネット等のネット上にあるサーバにアクセスして、情報提示のための画像データＶＤや音声データＡＤを取得する。なお、図示は省略しているが、通信インタフェース１１１はデコード機能も備えるものであり、通信により取得された画像や音声の符号化データのデコードもここで行われている。また、通信インタフェース１１１は、表示画像に関連付けされたアプリケーションの情報、さらにはユーザ操作によるポインティング位置に対応した音声を出力するための情報なども取得し、ＣＰＵ１０１に送る。アプリケーションの情報には、このアプリケーションを起動させるためのアプリケーションロゴ（ショートカット）を画面上のどの位置に配置するかを示す表示位置情報も含まれる。

　画像処理部１１２は、通信インタフェース１１１で取得された画像データＶＤに対してスケーリング処理、画質調整処理などを行って表示用画像データを得る。ＯＳＤ部１１３は、ＣＰＵ１０１の制御のもと、ＧＵＩ（Graphical User Interface）表示信号を発生する。このＧＵＩ表示信号には、アプリケーションを起動させるためのアプリケーションロゴ（ショートカット）を表示するための表示信号、ポインティング位置を示す矢印を表示するための表示信号等が含まれる。このＧＵＩ表示信号は、画像処理部１１２に送られ、画像データに重畳される。

　パネル駆動回路１１４は、画像処理部１１４で得られる表示用画像データに基づいて、表示パネル１１５を駆動する。表示パネル１１５は、例えば、ＬＣＤ(Liquid Crystal Display)、有機ＥＬディスプレイ（organic electroluminescence display）などで構成されている。

　ミキサ１２３は、通信インタフェース１１１で取得された音声データ（音声チャネルデータ）ＡＤや、情報処理装置１００内部で発生した音声データと、オブジェクトレンダラ１２１で得られたポインティング位置に対応した音声を出力するための音声チャネルデータを合成する。音声出力処理部１２４は、ミキサ１２３で得られた音声チャネルデータに対してＤ／Ａ変換や増幅等の必要な処理を行ってスピーカシステム１２５に供給する。スピーカシステム１２５は、複数チャネル、この実施の形態では画面のトップレフト（ＴＬ）、ボトムレフト（ＢＬ）、トップライト（ＴＲ）、ボトムライト（ＢＲ）のそれぞれの位置に配置される４チャネルのスピーカを備える。

　通信インタフェース１１１は、上述したように、ユーザ操作によるポインティング位置に対応した音声を出力するための情報を取得してＣＰＵ１０１に送る。この情報には、画面に対するユーザのポインティング位置に応じた音声出力のための音声データが含まれる。

　このユーザのポインティング位置に応じた音声出力のための音声データとして、ポインティング位置が画面上に配置されたアプリケーションロゴ（ショートカット）の矩形領域（ロゴ・リージョン）にある場合に使用する音声データＳＡ２が含まれる。この音声データＳＡ２は、画面上に配置されたアプリケーションロゴの種類分だけ存在する。この音声データＳＡ２には、アプリケーションロゴ（ショートカット）の画面上の配置位置に対応した位置を音像位置、つまりオブジェクト・ポジション（object position）とする音声チャネルデータを得るためのレンダリング処理で用いられるオブジェクトメタデータが付随している。

　また、ユーザのポインティング位置に応じた音声出力のための音声データとして、ポインティング位置が画面上であるがアプリケーションロゴの矩形領域でない背景領域にある場合に使用する音声データＳＡ１が含まれる。さらに、ユーザのポインティング位置に応じた音声出力のための音声データとして、ポインティング位置が画面外にある場合の音声データＳＡ３が含まれる。なお、この音声データＳＡ３は、１種類だけではなく、例えばはみ出した方向に応じた複数種類、例えば上下左右の４種類が存在する。

　図２は、画面構成の一例を示している。図示の例において、黒の太い実線の矩形枠は表示パネル１１５の画面枠を示している。この画面枠の背面側には、４分割されたそれぞれの位置に対応した音声出力モジュール（スピーカ）が配されている。この音声出力モジュールは、表示パネル１１５自体で構成され、画面と一体となっているものも含まれる。

　画面上には、背景上に丸１～丸５を付して示している特定のアプリケーションを起動させるためのアプリケーションロゴの矩形領域が存在する。この矩形領域内にはアプリケーションロゴ（ショートカットなど）が表示されている（図２においてロゴ表示は省略している）。

　白抜きの矢印は、例えばマウスカーソルであって、ユーザ操作によるポインティング位置を示している。ポインティング位置がアプリケーションロゴの矩形領域内にあるとき、その矩形領域はハイライト状態となる。図示の例では、ポインティング位置が丸１の矩形領域内にあるので、その矩形領域がハイライト状態となっている。

　また、図示の例において、「Top-Bottom」と「Left-Right」の一点鎖線の交点がセンター位置（Ｏ）で基準点となっており、この基準点に対して上下左右のオフセットにより、ポインティング位置が現在どこにあるかということがわかるようになっている。このポインティング位置はユーザ操作部１０２からのユーザ操作により移動するものであり、ＣＰＵ１０１は、ポインティング位置を常に把握している。センター位置（Ｏ）はポインティング位置検出の際に画面との位置関係を決定する際の基準として設けるもので、表示インタラクティブ処理部１２２で、位置の検出結果をオブジェクト位置情報（θ，φ，ｒ）に変換する際に、視聴者の位置からみたポインティング位置の情報を音場再生するベクトルの位置座標とする。

　「１．ポインティング位置Ｐ(x,y)が背景の領域にある場合」
　図３（ａ）は、ポインティング位置Ｐ(x,y)が背景の領域にある状態を示している。ＣＰＵ１０１は、上述したようにポインティング位置Ｐ(x,y)を常に把握している。また、ＣＰＵ１０１は、各アプリケーションロゴの表示信号の発生を制御していることから、画面上における各アプリケーションロゴの矩形領域も把握している。この場合、ＣＰＵ１０１は、ポインティング位置Ｐ(x,y)が各アプリケーションロゴの矩形領域にはなく、背景領域にあることを認識する。

　この場合、ＣＰＵ１０１は、ポインティング位置Ｐ(x,y)が画面上であるがアプリケーションロゴの領域でない背景領域にあることを示すための音声出力を行うために、上述の音声データＳＡ１を用いることを決定し、オブジェクトレンダラ１２１に、音声データＳＡ１（BG sound）を送る（図３（ｂ）参照）。また、この場合、ＣＰＵ１０１は、ポインティング位置Ｐ(x,y)を、音像位置、つまりオブジェクト・ポジション（object position）とすることに決定する。この例では、オブジェクト・ポジションは、画面上の右上（High & Right）の位置となる（図３（ｂ）参照）。

　この場合、ＣＰＵ１０１は、表示インタラクティブ処理部１２２に、ポインティング位置Ｐ(x,y)の情報を送る。表示インタラクティブ処理部１２２は、このポインティング位置Ｐ(x,y)の情報に基づいて、オブジェクトメタデータを構成する位置情報（θ，φ，ｒ）を求める。ここで、θはアジマス（Azimuth）であり、φはエレベーション（Elevation）であり、ｒはラジアス（Radius）である。

　図４は、表示インタラクティブ処理部１２２でポインティング位置Ｐ(x,y)の情報から算出する位置情報（θ，φ，ｒ）の各要素を模式的に示している。ｒは、視聴位置からの距離を示すもので、センサーなどの実測値を適用することも可能である。あるいは、実測値の代わりに、図示のように、標準視聴距離とされるものを代用して、それにθから導き出されるアングルを考慮した距離としてもよい。ここで、標準視聴距離は、モニタ（表示パネル）の縦方向の大きさの約３倍、ＵＨＤ（４Ｋ）解像度では約１．５倍といわれている。

　オブジェクトレンダラ１２１は、音声データＳＡ１（BG sound）に対して、表示インタラクティブ処理部１２２で算出されたオブジェクトメタデータを用いたレンダリング処理を行って、ポインティング位置Ｐ(x,y)に対応した位置をオブジェクト・ポジションとするための音声チャネルデータを生成する。

　図５は、オブジェクトレンダラ１２１におけるレンダリング処理の概要を示している。このレンダリング処理では、３つのスピーカで構成される三角形領域（ＴＬ－ＢＬ－ＢＲ）と（ＴＲ－ＢＬ－ＢＲ）の各々において、オブジェクトデータを構成する位置情報（θ，φ，ｒ）を利用して三角形領域を合成して仮想音像Ｐ(x,y)の位置を定めるようにする。

　Ｐ(x,y)の位置は、図示のようにｒ，φ，θで表現されるもので、点Ｑから各スピーカ位置へ伸ばした軸Ｑ－ＴＬ，Ｑ－ＢＬ，Ｑ－ＴＲ，Ｑ－ＢＲ上のベクトルｒ＿ＴＬ，ｒ＿ＢＬ，ｒ＿ＴＲ，ｒ－ＢＲに射影する。この場合、三角領域ＴＬ－ＢＬ－ＢＲにおいて、Ｐ(x,y)の位置は(ｒ＿ＴＬ，ｒ＿ＢＬ，ｒ＿ＢＲ) に射影される。この３つのベクトルのベクトル量に相当する音圧を各スピーカへのチャンネルデータにあてる。

　一方、三角領域ＴＲ－ＢＬ－ＢＲにおいて、Ｐ(x,y)の位置は(ｒ＿ＴＲ，ｒ＿ＢＬ，ｒ＿ＢＲ) に射影される。この３つのベクトルのベクトル量に相当する音圧を各スピーカへのチャンネルデータにあてる。２つの三角領域の間で、個々のベクトルごとに射影されたベクトル量を合成することで４つのスピーカから出力される合成された音声出力が得られる。

　オブジェクトレンダラ１２１は、上述のレンダリング処理で得られた音声チャネルデータをミキサ１２３に送る。これにより、スピーカシステム１２５からはポインティング位置Ｐ(x,y)が背景領域にあることを示す音声出力がなされる。そのため、ユーザは、ポインティング位置Ｐ(x,y)が背景領域にあることを音声で知ることができる。

　また、その音像位置、つまりオブジェクト・ポジションは、ポインティング位置Ｐ(x,y)に対応した位置となる。図３の例では、オブジェクト・ポジションは画面上の右上（High & Right）の位置となる。そのため、ユーザは音声が聞こえる方向でもってポインティング位置の画面上におけるおおよその位置を知ることが可能となる。

　「２．ポインティング位置Ｐ(x,y)がアプリケーションロゴの領域にある場合」
　図６（ａ）は、ポインティング位置Ｐ(x,y)が丸１のアプリケーションロゴの矩形領域にある状態を示している。ＣＰＵ１０１は、上述したようにポインティング位置Ｐ(x,y)を常に把握している。また、ＣＰＵ１０１は、各アプリケーションロゴの表示信号の発生を制御していることから、画面上における各アプリケーションロゴの矩形領域も把握している。この場合、ＣＰＵ１０１は、ポインティング位置Ｐ(x,y)が丸１のアプリケーションロゴの矩形領域にあることを認識する。

　この場合、ＣＰＵ１０１は、ポインティング位置Ｐ(x,y)が丸１のアプリケーションロゴの矩形領域にあることを示すための音声出力を行うために、上述の音声データＳＡ２を用いることを決定し、オブジェクトレンダラ１２１に、音声データＳＡ２（丸１ sound）を送る（図６（ｂ）参照）。

　また、ＣＰＵ１０１は、ポインティング位置Ｐ(x,y)に対応した位置を、音声出力位置、つまりオブジェクト・ポジション（object position）とすることを決定する。この例では、オブジェクト・ポジションは、画面上の右下（Low & Right）の位置とされる（図６（ｂ）参照）。この場合、ＣＰＵ１０１は、音声データＳＡ２（丸１ sound）に付随しているオブジェクトメタデータをオブジェクトレンダラ１２１に送る。このオブジェクトメタデータは、オブジェクト・ポジションが画面上の右下（Low & Right）の位置となるように設定されている。

　因みに、音声データＳＡ２（丸２ sound）に付随しているオブジェクトメタデータは、オブジェクト・ポジションが画面上の中央（Center）の位置となるように設定されている。また、音声データＳＡ２（丸３ sound）に付随しているオブジェクトメタデータは、オブジェクト・ポジションが画面上の左上（High & Left）の位置となるように設定されている。

　また、音声データＳＡ２（丸４ sound）に付随しているオブジェクトメタデータは、オブジェクト・ポジションが画面上の左中央（Center & Left）の位置となるように設定されている。さらに、音声データＳＡ２（丸５ sound）に付随しているオブジェクトメタデータは、オブジェクト・ポジションが画面上の左下（Low & Left）の位置となるように設定されている。

　なお、この場合、オブジェクトメタデータのｒの値を制御することで、空間的にオーバーラップするアプリケーションロゴの矩形領域のオブジェクト・ポジションの奥行方向の位置関係を表現することが可能となる。

　図７を用いて、丸１のアプリケーションロゴの矩形領域が丸２のアプリケーションロゴの矩形領域より手前に配置される場合を考える。この場合、（ベクトルｒ(丸１)の大きさ）＜（ベクトルｒ(丸２)の大きさ）の関係を満たすようにする。このようにオブジェクトメタデータのｒの値を設定することで、ポインティング位置がＰ１(x,y)で丸１のアプリケーションロゴの矩形領域にあるときと、ポインティング位置がＰ２(x,y)で丸２のアプリケーションロゴの矩形領域にあるときとで、丸１のアプリケーションロゴの矩形領域が丸２のアプリケーションロゴの矩形領域より手前にあることを音声で検知できるようになる。

　ポインティング位置Ｐ(x,y)が丸１のアプリケーションロゴの矩形領域にあるとき、オブジェクトレンダラ１２１は、音声データＳＡ２（丸１ sound）に対して、それに付随しているオブジェクトメタデータを用いたレンダリング処理を行って、ポインティング位置Ｐ(x,y)が存在する丸１のアプリケーションロゴの矩形領域に対応した位置をオブジェクト・ポジションとするための音声チャネルデータを生成する。このオブジェクトレンダラ１２１におけるレンダリング処理の説明については上述の図５を用いた説明と同様であるので、ここでは省略する。

　オブジェクトレンダラ１２１は、レンダリング処理で得られた音声チャネルデータをミキサ１２３に送る。これにより、スピーカシステム１２５からはポインティング位置Ｐ(x,y)が丸１のアプリケーションロゴの矩形領域にあることを示す音声出力がなされる。そのため、ユーザは、ポインティング位置Ｐ(x,y)が丸１のアプリケーションロゴの矩形領域にあることを音声で知ることができる。

　また、その音像位置、つまりオブジェクト・ポジションは、丸１のアプリケーションロゴの矩形領域に対応した位置となる。図６の例では、オブジェクト・ポジションは画面上の右下（Low & Right）の位置となる。そのため、ユーザは音声の聞こえる方向でもって丸１のアプリケーションロゴの矩形領域の画面上におけるおおよその位置を知ることが可能となる。

　なお、上述では、ポインティング位置Ｐ(x,y)が丸１のアプリケーションロゴの矩形領域にある状態を説明した。詳細説明は省略するが、ポインティング位置Ｐ(x,y)がその他のアプリケーションロゴの領域にある状態においても同様である。また、上述では、レンダリング処理に用いるオブジェクトメタデータとして音声データに付随しているものを用いる例を示したが、ポインティング位置Ｐ(x,y)から表示インタラクティブ処理部１２２で計算したものを用いることも可能である。

　また、上述では、アプリケーションロゴの矩形領域（ロゴ・リージョン）に選択し得るボタンが存在しない例を説明した。しかし、図８（ａ），（ｂ）に示すように、ロゴ・リージョン１の中に選択し得るボタンが存在する場合もある。この場合、ポインティング位置Ｐ(x,y)が、ロゴ・リージョン１内の所定のボタンの領域にある状態では、上述したようにポインティング位置Ｐ(x,y)がロゴ・リージョン１にあることを示す音声を出力し、同時に、ポインティング位置Ｐ(x,y)がこの所定のボタンの領域にあることを示す音声を出力するようにされる。

　図示の例の場合、通信インタフェース１１１（図１参照）は、ロゴ・リージョン１に関連した音声出力情報を取得する。この音声出力情報には、ポインティング位置がロゴ・リージョン１にあることを示す音声出力のための音声データと、これに付随したオブジェクトメタデータが含まれる他に、ボタン毎に、ポインティング位置がそのボタン領域にあることを示す音声出力のための音声データと、これに付随したオブジェクトメタデータが含まれる。

　例えば、ロゴ・リージョン１の音声データに付随しているオブジェクトメタデータは、オブジェクト・ポジションが画面上の右下（Low & Right）の位置となるように設定されている。また、「シーンＡ」、「シーンＢ」、「シーンＣ」、「シーンＤ」のボタン領域の音声データに付随しているオブジェクトメタデータは、それぞれ、オブジェクト・ポジションが画面上の左上（High & Left）、右上（High & Right）、左下（Low & Left）、右下（Low & Right）の位置となるように設定されている。

　図示のように、ポインティング位置Ｐ(x,y)が「シーンＡ」のボタン領域にある状態では、ＣＰＵ１０１は、オブジェクトレンダラ１２１（図１参照）に、ロゴ・リージョン１の音声データと、それに付随したオブジェクトメタデータを送ると共に、「シーンＡ」のボタン領域の音声データと、それに付随したオブジェクトメタデータを送る。

　オブジェクトレンダラ１２１は、音声データに対してオジェクトメタデータを用いたレンダリング処理を行って、ロゴ・リージョン１に対応した位置、ここでは画面上の右下（Low & Right）の位置をオブジェクト・ポジションとするための音声チャネルデータを生成して、ミキサ１２３（図１参照）に送る。

　これにより、スピーカシステム１２５からは、ロゴ・リージョン１にあることを示す音声、例えば「ロゴ・リージョン１です」の音声が出力される。この場合、その音像位置、つまりオブジェクト・ポジションは、図８（ａ）に示すように、画面上の右下（Low & Right）の位置となる。

　また、図示のように、ポインティング位置Ｐ(x,y)が「シーンＡ」のボタン領域にある状態では、ＣＰＵ１０１は、オブジェクトレンダラ１２１（図１参照）に、「シーンＡ」のボタン領域の音声データと、それに付随したオブジェクトメタデータを送る。

　オブジェクトレンダラ１２１は、音声データに対してオジェクトメタデータを用いたレンダリング処理を行って、「シーンＡ」のボタン領域に対応した位置、ここでは画面上の左上（High & Left）の位置をオブジェクト・ポジションとするための音声チャネルデータを生成して、上述のロゴ・リージョン１の音声チャネルデータに合成してミキサ１２３（図１参照）に送る。

　これにより、スピーカシステム１２５からは、上述のロゴ・リージョン１にあることを示す音声と同時に、「シーンＡ」のボタン領域にあることを示す音声、例えば「ロゴ・リージョン１内のシーンＡです。右や下に他のボタンが選択できます」の音声が出力される。この場合、その音像位置、つまりオブジェクト・ポジションは、図８（ａ）に示すように、ボタン同士の相対位置関係が把握できるよう、画面上の左上（High & Left）の位置となる。

　なお、詳細説明は省略するが、ポインティング位置Ｐ(x,y)が他のボタン領域にある状態においても同様の処理がなされ、ロゴ・リージョン１にあることを示す音声と、そのボタン領域にあることを示す音声がそれぞれ設定されたオブジェクト・ポジションで同時に出力される。

　「３．ポインティング位置Ｐ(x,y)が画面外にある場合」
　図９は、ポインティング位置Ｐ(x,y)が画面外、この例では画面の右側にある状態を示している。ＣＰＵ１０１は、上述したようにポインティング位置Ｐ(x,y)を常に把握している。この場合、ＣＰＵ１０１は、ポインティング位置Ｐ(x,y)が画面の右側にはみ出していることを認識する。

　この場合、ＣＰＵ１０１は、ポインティング位置Ｐ(x,y)が面の右側にはみ出していることを示すための音声出力を行うために、上述の音声データＳＡ３を用いることを決定し、オブジェクトレンダラ１２１に、その音声データＳＡ３（OUT sound）を送る。また、この場合、ＣＰＵ１０１は、ポインティング位置Ｐ(x,y)を、音像位置、つまりオブジェクト・ポジション（object position）とすることに決定する。この例では、オブジェクト・ポジションは、画面に対して右上にはみ出した位置となる。

　この場合、ＣＰＵ１０１は、表示インタラクティブ処理部１２２に、ポインティング位置Ｐ(x,y)の情報を送る。表示インタラクティブ処理部１２２は、このポインティング位置Ｐ(x,y)の情報に基づいて、オブジェクトメタデータを構成する位置情報（θ，φ，ｒ）を求める。この位置情報（θ，φ，ｒ）の詳細説明については上述の図４を用いた説明と同様であるので、ここでは省略する。

　オブジェクトレンダラ１２１は、音声データＳＡ３（OUT sound）に対して、表示インタラクティブ処理部１２２で算出されたオブジェクトメタデータを用いたレンダリング処理を行って、ポインティング位置Ｐ(x,y)に対応した位置をオブジェクト・ポジションとするための音声チャネルデータを生成する。このオブジェクトレンダラ１２１におけるレンダリング処理の説明については上述の図５を用いた説明と同様であるので、ここでは省略する。

　オブジェクトレンダラ１２１は、レンダリング処理で得られた音声チャネルデータをミキサ１２３に送る。これにより、スピーカシステム１２５からはポインティング位置Ｐ(x,y)が画面外にあること、ここでは右側にはみ出していることを示す音声、例えば「画面の右にはみ出ました」の音声が出力される。そのため、ユーザは、ポインティング位置Ｐ(x,y)が画面の右側はみ出していることを音声で知ることができる。

　また、その音像位置、つまりオブジェクト・ポジションは、ポインティング位置Ｐ(x,y)に対応した位置となる。図９の例では、オブジェクト・ポジションは画面に対して右上にはみ出した位置となる。そのため、ユーザは音声が聞こえる方向でもってポインティング位置の画面に対するおおよその位置を知ることが可能となる。

　上述したように、図１に示す情報処理装置１００においては、ポインティング位置Ｐ(x,y)が背景、アプリケーションロゴの矩形領域、画面外などの位置にある場合、その位置に対応した音声を出力する。そのため、視覚障害者は、この音声出力による支援を受けて、画面上の所望の位置をポイントして操作を行うことが容易となる。

　また、図１に示す情報処理装置１００においては、ポインティング位置Ｐ(x,y)に対応した音声を出力する際の音像位置（オブジェクト・ポジション）を、そのポインティング位置Ｐ(x,y)に対応した位置とするものである。そのため、ポインティング位置が画面上のどの辺りにあるのか音声が聞こえる方向から把握可能となる。

　＜２．変形例＞
　なお、上述実施の形態においては、画面上に特定のアプリケーションを起動させるためのアプリケーションロゴ（ショートカット）の矩形領域が配置された例を示した。画面上に配置される領域はこれに限定されるものではなく、ユーザがポインティングして操作をし得るその他の領域であってもよい。例えば、コンテンツを再生する装置において、再生コンテンツを選択するためのロゴ領域などであってもよい。

　また、本技術は、以下のような構成を取ることもできる。
　（１）画面に対するユーザのポインティング位置を検出する位置検出処理と、該検出されたポインティング位置に対応した音声を出力する音声出力処理を制御する制御部を備える
　情報処理装置。
　（２）上記音声出力処理では、
　上記検出されたポインティング位置が画面上の特定領域にあるとき、該ポインティング位置が上記特定領域であることを示す音声を出力する
　前記（１）に記載の情報処理装置。
　（３）上記特定の領域は、上記画面上に配置された特定のアプリケーションを起動させるためのアプリケーションロゴの領域である
　前記（２）に記載の情報処理装置。
　（４）上記音声出力処理では、
　上記検出されたポインティング位置が画面上にないとき、該ポインティング位置が画面外にあることを示す音声を出力する
　前記（１）から（３）のいずれかに記載の情報処理装置。
　（５）上記音声出力処理では、
　上記検出されたポインティング位置が画面上の第１の特定領域内に存在する第２の特定領域にあるとき、該ポインティング位置が上記第１の特定領域であることを示す音声を出力すると同時に、該ポインティング位置が上記第２の特定領域であることを示す音声を出力する
　前記（１）に記載の情報処理装置。
　（６）上記音声出力処理では、
　上記検出されたポインティング位置に対応した位置を音像位置とする処理をする
　前記（１）から（５）のいずれかに記載の情報処理装置。
　（７）上記音声出力処理では、
　上記検出されたポインティング位置に対応した位置を音像位置とするために、該ポインティング位置に対応したオブジェクトメタデータに応じたレンダリング処理をする
　前記（６）に記載の情報処理装置。
　（８）上記音声出力処理では、
　画面上の位置に関連して予め用意されているオブジェクトメタデータに応じたレンダリング処理をする
　前記（７）に記載の情報処理装置。
　（９）上記音声出力処理では、
　上記検出されたポインティング位置から求められたオブジェクトメタデータに応じたレンダリング処理をする
　前記（７）に記載の情報処理装置。
　（１０）画面に対するユーザのポインティング位置を検出する位置検出ステップと、
　上記検出されたポインティング位置に対応した音声を出力する音声出力ステップを有する
　情報処理方法。
　（１１）画面を表示する表示部と、
　上記画面上の任意の位置をユーザがポイントするユーザ操作部と、
　上記画面に対するユーザのポインティング位置を検出する位置検出部と、
　上記検出されたポインティング位置に対応した音声を出力する音声出力部を備える
　情報処理装置。

　本技術の主な特徴は、ポインティング位置に対応した音声を出力することで、視覚障害者が画面上の所望の位置をポイントして操作をすることを容易としたことである（図１、図３、図４、図９参照）。また、本技術の主な特徴は、ポインティング位置に対応した音声を出力する際の音像位置を、そのポインティング位置に対応した位置とする処理をすることで、ポインティング位置が画面上のどの辺りにあるのか音声が聞こえる方向から把握可能としたことである（図１、図３、図４、図９参照。

　１００・・・情報処理装置
　１０１・・・ＣＰＵ
　１０２・・・ユーザ操作部
　１１１・・・通信インタフェース
　１１２・・・画像処理部
　１１３・・・ＯＳＤ部
　１１４・・・パネル駆動部
　１１５・・・表示パネル
　１２１・・・オブジェクトレンダラ
　１２２・・・表示インタラクティブ処理部
　１２３・・・ミキサ
　１２４・・・音声出力処理部
　１２５・・・スピーカシステム

Claims

　画面に対するユーザのポインティング位置を検出する位置検出処理と、該検出されたポインティング位置に対応した音声を出力する音声出力処理を制御する制御部を備える
　情報処理装置。
　上記音声出力処理では、
　上記検出されたポインティング位置が画面上の特定領域にあるとき、該ポインティング位置が上記特定領域であることを示す音声を出力する
　請求項１に記載の情報処理装置。
　上記特定の領域は、上記画面上に配置された特定のアプリケーションを起動させるためのアプリケーションロゴの領域である
　請求項２に記載の情報処理装置。
　上記音声出力処理では、
　上記検出されたポインティング位置が画面上にないとき、該ポインティング位置が画面外にあることを示す音声を出力する
　請求項１に記載の情報処理装置。
　上記音声出力処理では、
　上記検出されたポインティング位置が画面上の第１の特定領域内に存在する第２の特定領域にあるとき、該ポインティング位置が上記第１の特定領域であることを示す音声を出力すると同時に、該ポインティング位置が上記第２の特定領域であることを示す音声を出力する
　請求項１に記載の情報処理装置。
　上記音声出力処理では、
　上記検出されたポインティング位置に対応した位置を音像位置とする処理をする
　請求項１に記載の情報処理装置。
　上記音声出力処理では、
　上記検出されたポインティング位置に対応した位置を音像位置とするために、該ポインティング位置に対応したオブジェクトメタデータに応じたレンダリング処理をする
　請求項６に記載の情報処理装置。
　上記音声出力処理では、
　画面上の位置に関連して予め用意されているオブジェクトメタデータに応じたレンダリング処理をする
　請求項７に記載の情報処理装置。
　上記音声出力処理では、
　上記検出されたポインティング位置から求められたオブジェクトメタデータに応じたレンダリング処理をする
　請求項７に記載の情報処理装置。
　画面に対するユーザのポインティング位置を検出する位置検出ステップと、
　上記検出されたポインティング位置に対応した音声を出力する音声出力ステップを有する
　情報処理方法。
　画面を表示する表示部と、
　上記画面上の任意の位置をユーザがポイントするユーザ操作部と、
　上記画面に対するユーザのポインティング位置を検出する位置検出部と、
　上記検出されたポインティング位置に対応した音声を出力する音声出力部を備える
　情報処理装置。