WO2016185740A1

WO2016185740A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: WO2016185740A1
Application number: PCT/JP2016/053681
Authority: WO
Inventors: 健太郎木村; 智彦後藤; 俊助望月
Original assignee: ソニー株式会社
Priority date: 2015-05-18
Filing date: 2016-02-08
Publication date: 2016-11-24
Also published as: EP3300392A1; CN107534824B; EP3300392B1; EP3723391A1; US20200053498A1; JPWO2016185740A1; JP6673346B2; US11128972B2; EP3300392A4; CN107534824A; US10477336B2; US20180048976A1

Abstract

【課題】現実空間における仮想物体の存在感を提示することが可能な情報処理装置、情報処理方法、およびプログラムを提供する。【解決手段】音像定位により現実空間に存在するよう知覚させる仮想物体に関する情報と、ユーザの状態に関する情報とに基づいて、前記ユーザに対する前記仮想物体の音源の相対的な定位位置を算出する算出部と、前記算出された定位位置に音像を定位させるよう前記音源の音声信号処理を行う音像定位部と、を備える、情報処理装置。

Description

情報処理装置、情報処理方法、およびプログラム

　本開示は、情報処理装置、情報処理方法、およびプログラムに関する。

　情報処理および情報通信技術の発展に伴い、コンピュータが広く普及し、日常生活の支援や娯楽にも積極的に利用されている。最近では、エンタテインメントの分野においてもコンピュータ処理が利用させるようになり、このようなエンタテインメントはオフィスや家庭内など特定の場所で作業するユーザに利用されるだけでなく、移動中のユーザにおいても必要とされる。

　移動中のエンタテインメントに関し、例えば下記特許文献１では、移動中のユーザの身体のリズムに応じて画面に表示するキャラクタのインタラクションを制御することでユーザの親密感を得て、移動そのものをエンタテインメントとして楽しませる情報処理装置が提案されている。

特開２００３－３０５２７８号公報

　しかしながら、上記特許文献１では、表示画面にキャラクタの画像が表示されるため、歩行中や走行中に画面を見ることが困難な場合はエンタテインメントを楽しむことができない。また、上記特許文献１では、ユーザの身体リズムに応じてキャラクタがインタラクションを行う音声や振動が出力される場合もあるが、キャラクタがそこに実在しているようなリアリティを感じることまでは考慮されていない。

　そこで、本開示では、現実空間における仮想物体の存在感を提示することが可能な情報処理装置、制御方法、およびプログラムを提案する。

　本開示によれば、音像定位により現実空間に存在するよう知覚させる仮想物体に関する情報と、ユーザの状態に関する情報とに基づいて、前記ユーザに対する前記仮想物体の音源の相対的な定位位置を算出する算出部と、前記算出された定位位置に音像を定位させるよう前記音源の音声信号処理を行う音像定位部と、を備える、情報処理装置を提案する。

　本開示によれば、音像定位により現実空間に存在するよう知覚させる仮想物体に関する情報と、ユーザの状態に関する情報とに基づいて、前記ユーザに対する前記仮想物体の音源の相対的な定位位置を算出部により算出することと、前記算出された定位位置に音像を定位させるよう前記音源の音声信号処理を音像定位部により行うことと、を含む、情報処理方法を提案する。

　本開示によれば、コンピュータを、音像定位により現実空間に存在するよう知覚させる仮想物体に関する情報と、ユーザの状態に関する情報とに基づいて、前記ユーザに対する前記仮想物体の音源の相対的な定位位置を算出する算出部と、前記算出された定位位置に音像を定位させるよう前記音源の音声信号処理を行う音像定位部と、として機能させるための、プログラムを提案する。

　以上説明したように本開示によれば、現実空間における仮想物体の存在感を提示することが可能となる。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態による情報処理装置の概要について説明する図である。本実施形態による情報処理装置の外観構成の一例を示す斜視図である。本実施形態による情報処理装置の内部構成の一例を示すブロック図である。本実施形態による予め設定されたユーザの体格データについて説明する図である。本実施形態による仮想キャラクタの部位と音源種別の対応について説明する図である。本実施形態による仮想キャラクタの行動および身長とユーザの状態に応じた音像定位の一例について説明する図である。本実施形態による仮想キャラクタの行動および身長とユーザの状態に応じた音像定位の一例について説明する図である。本実施形態による仮想キャラクタの行動および身長とユーザの状態に応じた音像定位の一例について説明する図である。本実施形態による情報処理装置の音声処理を示すフローチャートである。本実施形態による仮想キャラクタの行動および身長とユーザの状態に応じた音像定位の他の例について説明する図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　また、説明は以下の順序で行うものとする。
　１．本開示の一実施形態による情報処理装置の概要
　２．構成
　　２－１．外観構成
　　２－２．内部構成
　３．動作
　４．まとめ

　＜＜１．本開示の一実施形態による情報処理装置の概要＞＞
　まず、本開示の一実施形態による情報処理装置の概要について、図１を参照して説明する。図１に示すように、本実施形態による情報処理装置１は、例えばユーザＡの首に掛けられるネックバンド型の情報処理端末であって、スピーカおよび各種センサ（加速度センサ、ジャイロセンサ、地磁気センサ、絶対位置測位部等）を有する。かかる情報処理装置１は、音声情報を空間的に配置する音像定位技術により、現実空間に仮想キャラクタ２０が本当に存在しているようユーザに知覚させる機能を有する。なお仮想キャラクタ２０は仮想物体の一例である。

　ここで、図１に示すようにユーザＡが立っている場所に仮想キャラクタ２０があたかも存在するような、現実世界と関係性の強いコンテンツをユーザＡに提供する場合、次のような点に留意する必要がある。

　例えば身長１７０ｃｍの仮想キャラクタがユーザの右側に立っているかのように音声情報を提示する場合、身長１７０ｃｍのユーザが立ち止まった状態であれば、ユーザの右側に仮想キャラクタの声を定位させることで、当該仮想キャラクタが隣に居るように知覚させることができる。しかしながら、ユーザの身長が１５０ｃｍの場合、１７０ｃｍのユーザと同じ様に右側に仮想キャラクタの声を定位させると仮想キャラクタの身長が自身と同じ１５０ｃｍであるかのように知覚してしまい、本来の仮想キャラクタの身長のリアリティを感じさせることができない。

　また、ユーザが静止している場合に右側に仮想キャラクタの声が定位されると、仮想キャラクタが右側に居るかのように感じることができるが、ユーザが前方に向かって歩き始めた際に仮想キャラクタの声の位置に変化が無いと、仮想キャラクタの動きが感じられず、リアリティが損なわれる。すなわち、実際に仮想キャラクタが存在しているならば、仮想キャラクタはユーザの動きに少し遅れて歩き出すため、声の位置がユーザのやや右後ろに変化し、歩く足音や所持している鞄の音等が聞こえるべきである。さらに、仮想キャラクタが走る場合には走る足音や息切れ、自転車に乗っている場合には自転車の音というように、仮想キャラクタの動きに応じた音が聞こえるべきである。このように、ユーザの動きに応じて仮想キャラクタの声の位置や、仮想キャラクタの動きに応じて聞こえるはずの音が聞こえないと、仮想キャラクタのリアリティが大きく損なわれ、違和感が生じる。

　そこで、本実施形態による情報処理装置１は、ユーザの状態と仮想キャラクタの情報に基づいて、仮想キャラクタを知覚させる音を定位させる相対的な３次元位置を適切に算出し、現実空間における仮想物体の存在感をよりリアルに提示することを可能とする。具体的には、例えば情報処理装置１は、ユーザＡの身長や状態（立っている、座っている等）と仮想キャラクの身長情報に基づいて、仮想キャラクタの声を定位させる相対的な高さを算出し、音像定位することで、仮想キャラクタの大きさをユーザに実感させることができる。また、情報処理装置１は、ユーザＡの状態や動きに応じて仮想キャラクタの音を変化させることで、仮想キャラクタの動きにリアリティを持たせることができる。この際、情報処理装置１は、仮想キャラクタの声の音は仮想キャラクタの口元（頭部）に定位させ、仮想キャラクタの足音は仮想キャラクタの足元に定位する等、音の種別に基づいて対応する仮想キャラクタの部位に定位させるよう制御する。

　以上、本実施形態による情報処理装置１の概要について説明した。続いて、本実施形態による情報処理装置１の構成について図２および図３を参照して説明する。

　＜＜２．構成＞＞
　＜２－１．外観構成＞
　図２は、本実施形態による情報処理装置１の外観構成の一例を示す斜視図である。図２に示すように、ネックバンド型の情報処理装置１は、首の両側から後ろ側（背中側）にかけて半周回するような形状の装着ユニット（装着部）を有し、ユーザの首にかけられることでユーザに装着される。図２では、装着ユニットをユーザが装着した状態における斜視図を示す。なお、本明細書では、上下左右前後といった方向を示す言葉を用いるが、これらの方向はユーザの直立姿勢における、ユーザの体の中心（例えば鳩尾の位置）からみた方向を示すものとする。例えば、「右」とはユーザの右半身側の方向を示し、「左」とはユーザの左半身側の方向を示し、「上」とはユーザの頭側の方向を示し、「下」とはユーザの足側の方向を示すものとする。また、「前」とはユーザの体が向く方向を示し、「後」とはユーザの背中側の方向を示すものとする。

　図２に示すように、装着ユニットは、ユーザの首に密着して装着されてもよいし、離間して装着されてもよい。なお首かけ型の装着ユニットの他の形状としては、例えば首下げ紐によりユーザに装着されるペンダント型や、頭にかけるヘッドバンドの代わりに首の後ろ側を通るネックバンドを有するヘッドセット型が考えられる。

　また、装着ユニットの使用形態は、人体に直接的に装着されて使用される形態であってもよい。直接的に装着されて使用される形態とは、装着ユニットと人体との間に何らの物体も存在しない状態で使用される形態を指す。例えば、図２に示す装着ユニットがユーザの首の肌に接するように装着される場合は本形態に該当する。他にも、頭部に直接的に装着されるヘッドセット型やメガネ型等の多様な形態が考えられる。

　若しくは、装着ユニットの使用形態は、人体に間接的に装着されて使用される形態であってもよい。間接的に装着されて使用される形態とは、装着ユニットと人体との間に何らかの物体が存在する状態で使用される形態を指す。例えば、図２に示した装着ユニットが、シャツの襟の下に隠れるように装着される等、服の上からユーザに接するように装着される場合は、本形態に該当する。他にも、首下げ紐によりユーザに装着されるペンダント型や、衣服に留め具等で留められるブローチ型等の多様な形態が考えられる。

　また、情報処理装置１は、図２に示すように、複数のマイクロホン１２（１２Ａ、１２Ｂ）、カメラ１３（１３Ａ、１３Ｂ）、スピーカ１５（１５Ａ、１５Ｂ）を有している。マイクロホン１２は、ユーザ音声又は周囲の環境音等の音声データを取得する。カメラ１３は、周囲の様子を撮像し撮像データを取得する。また、スピーカ１５は、音声データの再生を行う。特に本実施形態によるスピーカ１５は、現実空間に実際に存在しているかのようにユーザに知覚させる仮想キャラクタの音像定位処理された音声信号を再生する。

　なお図２では、情報処理装置１にマイクロホン１２、カメラ１３、およびスピーカ１５がそれぞれ２つ設けられる構成を示したが、本実施形態はこれに限定されない。例えば、情報処理装置１は、マイクロホン１２およびカメラ１３をそれぞれ１つ有していてもよいし、マイクロホン１２、カメラ１３、およびスピーカ１５をそれぞれ３つ以上有していてもよい。

　＜２－２．内部構成＞
　続いて、本実施形態による情報処理装置１の内部構成について図３を参照して説明する。図３は、本実施形態による情報処理装置１の内部構成の一例を示すブロック図である。図３に示すように、情報処理装置１は、制御部１０、通信部１１、マイクロホン１２、カメラ１３、９軸センサ１４、スピーカ１５、位置測位部１６、および記憶部１７を有する。

　（制御部１０）
　制御部１０は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置１内の動作全般を制御する。制御部１０は、例えばＣＰＵ（Central　Processing　Unit）、マイクロプロセッサ等の電子回路によって実現される。また、制御部１０は、使用するプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、及び適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）を含んでいてもよい。

　また、本実施形態による制御部１０は、図３に示すように、状態・行動検出部１０ａ、仮想キャラクタ行動決定部１０ｂ、シナリオ更新部１０ｃ、相対位置算出部１０ｄ、音像定位部１０ｅ、音声出力制御部１０ｆ、および再生履歴・フィードバック記憶制御部１０ｇとして機能する。

　状態・行動検出部１０ａは、ユーザの状態の検出、また、検出した状態に基づく行動の認識を行い、検出した状態や認識した行動を仮想キャラクタ行動決定部１０ｂに出力する。具体的には、状態・行動検出部１０ａは、位置情報、移動速度、向き、耳（または頭部）の高さといった情報を、ユーザの状態に関する情報として取得する。ユーザ状態は、検出したタイミングで一意に特定可能であって、各種センサから数値として算出・取得できる情報である。

　例えば位置情報は、位置測位部１６から取得される。また、移動速度は、位置測位部１６、９軸センサ１４に含まれる加速度センサ、またはカメラ１３等から取得される。向きは、９軸センサ１４に含まれるジャイロセンサ、加速度センサ、および地磁気センサ、若しくはカメラ１３により取得される。耳（または頭部）の高さは、ユーザの体格データ、加速度センサ、およびジャイロセンサから取得される。また、移動速度および向きは、カメラ１３により継続的に周囲を撮像した映像における特徴点の変化をベースに動きを算出するSLAM（Simultaneous Localization and Mapping）を用いて取得してもよい。

　また、耳（または頭部）の高さは、ユーザの体格データに基づいて算出され得る。ユーザの体格データとしては、例えば図４左に示すように、身長Ｈ１、座高Ｈ２、および耳から頭頂までの距離Ｈ３が設定され、記憶部１７に記憶される。状態・行動検出部１０ａは、例えば以下のように耳の高さを算出する。なお『Ｅ１（頭の傾き）』は、図４右に示すように、上半身の傾きとして加速度センサやジャイロセンサ等により検出され得る。

　（式１）
　ユーザが立っている場合：
　耳の高さ＝身長－座高＋（座高－耳から頭頂までの距離）×Ｅ１（頭の傾き）

　（式２）
　ユーザが座っている／寝転んでいる場合：
　耳の高さ＝（座高－耳から頭頂までの距離）×Ｅ１（頭の傾き）

　また、頭の傾きがゼロ（直立）に近い場合、状態・行動検出部１０ａは、下記のように耳の高さの概算を行ってもよい。

　（式３）
　ユーザが立っている場合：
　耳の高さ≒身長－耳から頭頂までの距離

　（式４）
　ユーザが座っている／寝転んでいる場合：
　耳の高さ≒座高－耳から頭頂までの距離

　また、状態・行動検出部１０ａは、前後の状態を参照することでユーザ行動を認識することも可能である。ユーザ行動としては、例えば「立ち止まっている」、「歩いている」、「走っている」、「座っている」、「寝転んでいる」、「車に乗っている」、「自転車を漕いでいる」、「キャラクタの方を向いている」等が想定される。状態・行動検出部１０ａは、９軸センサ１４（加速度センサ、ジャイロセンサ、地磁気センサ）により検出された情報や、位置測位部１６により検出された位置情報に基づいて、所定の行動認識エンジンを用いてユーザ行動を認識することも可能である。

　仮想キャラクタ行動決定部１０ｂは、状態・行動検出部１０ａにより認識されたユーザ行動に応じて、仮想キャラクタ２０の現実空間における仮想的な行動を決定し（またはシナリオの選択も含む）、決定した行動に対応する音コンテンツをシナリオから選択する。

　例えば仮想キャラクタ行動決定部１０ｂは、ユーザが歩いている時は仮想キャラクタ２０も歩かせ、ユーザが走っている時は仮想キャラクタ２０もユーザの後を追いかけるよう走らせる等、ユーザと同じ行動を仮想キャラクタに取らせることで、仮想キャラクタの存在感を提示することができる。

また、仮想キャラクタ行動決定部１０ｂは、仮想キャラクタの行動が決定すると、コンテンツのシナリオとして予め記憶している音源リスト（音コンテンツ）の中で、仮想キャラクタの行動に対応する音源を選択する。この際、再生回数に制限がある音源については、仮想キャラクタ行動決定部１０ｂは再生ログに基づいて再生可否を判断する。また、仮想キャラクタ行動決定部１０ｂは、仮想キャラクタの行動に対応する音源であって、かつユーザの嗜好に合う音源（好きな仮想キャラクターの音源等）や、現在地（場所）に紐付けられた特定の仮想キャラクタの音源を選択してもよい。

　例えば仮想キャラクタ行動決定部１０ｂは、決定された仮想キャラクタの行動が立ち止まっている場合は声の音コンテンツ（例えばセリフや呼吸）を選択し、歩いている場合は声の音コンテンツと足音の音コンテンツ（例えばハイヒールの音など仮想キャラクタが履いていると設定されている靴の音）を選択する。また、仮想キャラクタ行動決定部１０ｂは、決定された仮想キャラクタの行動が走っている場合は声の音コンテンツとして息切れの音の選択や、衣擦れの音、鞄の音（鞄に付けられているキーホルダーの音等）、走る足音等を選択する。また、仮想キャラクタ行動決定部１０ｂは、決定された仮想キャラクタの行動が自転車に乗っている場合、自転車の音、自転車を漕ぐ音、自転車の籠に入れられた鞄の音等を選択する。このように、仮想キャラクタの行動に応じて、音コンテンツを選択し、行動に応じた鳴らし分けを実行する（すなわち、行動に対応しない音コンテンツは選択せず、再生しない）。

　シナリオ更新部１０ｃは、仮想キャラクタ行動決定部１０ｂにより決定された仮想キャラクタの行動に対応する音コンテンツがシナリオから選択されることで、シナリオが進むため、シナリオの更新を行う。当該シナリオは、例えば記憶部１７に記憶されている。

　相対位置算出部１０ｄは、仮想キャラクタ行動決定部１０ｂにより選択された仮想キャラクタの音源（音コンテンツ）を定位する相対的な３次元位置（ｘｙ座標位置および高さ）を算出する。具体的には、まず相対位置算出部１０ｄは、音源の種別に対応する仮想キャラクタの部位の位置を、仮想キャラクタ行動決定部１０ｂにより決定された仮想キャラクタの行動を参照して設定する。ここで、仮想キャラクタ２０の部位と、対応する音源の種別について図５を参照して説明する。

　図５は、仮想キャラクタ２０の部位と音源種別の対応について説明する図である。図５に示すように、仮想キャラクタ２０は、頭部２１、胴体２２、足元２４、手持ちアクセサリ２３（手に持っている鞄等）といった部位に分けられる。音源種別は、例えば声の音源、衣擦れの音源、持ち物（鞄や鞄に付けられているキーホルダー等）の音源、足音の音源、または乗り物の音源等が想定され、声の音源は頭部２１（特に口元）、衣擦れの音源は胴体２２、持ち物の音源は手持ちアクセサリ２３、足音の音源は足元２４に対応付けられる。また、乗り物の音源は、仮想キャラクタが乗り物（自転車、自動二輪車、自動車等）に乗っていることを想定し、仮想キャラクタの周辺に対応付けられる。また、各部位の高さ（Ｃ２～Ｃ４）は、仮想キャラクタ２０の身長Ｃ１に基づいて算出されてもよいし、予め記憶されていてもよい。仮想キャラクタ２０の身長Ｃ１や各部位の高さ（Ｃ２～Ｃ４）、部位と音源種別の対応付け等の情報は、仮想キャラクタ２０の設定情報として例えば記憶部１７に記憶される。

　相対位置算出部１０ｄは、対応する部位に基づく音源の高さを、さらに仮想キャラクタ２０の状態・行動に応じて算出する。例えば相対位置算出部１０ｄは、仮想キャラクタが立ち止まっている状態、歩いている場合、走っている場合（身体の傾きあり）、座っている状態、または寝転んでいる状態に応じて、頭部の位置、銅の位置、足の位置、持ち物の位置等を算出する。

　そして、相対位置算出部１０ｄは、ユーザの耳（または頭部）の高さおよび向きと、各音源の高さとの位置関係から、ユーザに対する音コンテンツの高さを算出する。また、相対位置算出部１０ｄは、高さと共に、ユーザ行動および仮想キャラクタの行動に応じてｘｙ座標位置を算出する。このように相対位置算出部１０ｄにより算出される音像定位位置（ｘｙ座標位置および高さを含む３次元位置）の一例について、図６～図８を参照して説明する。

　図６～図８は、本実施形態による仮想キャラクタの行動および身長とユーザの状態に応じた音像定位の一例について説明する図である。ここでは、例えばユーザＡが学校や勤務先から自宅近くの駅に帰ってきて自宅に向かって歩いている場合に仮想キャラクタがユーザＡを見つけて声を掛け、一緒に帰るといったシナリオを想定する。仮想キャラクタ行動決定部１０ｂは、状態・行動検出部１０ａにより、ユーザＡが自宅近くの最寄駅に到着し、改札を出て歩き出したことが検出されたことをトリガとしてイベント（音コンテンツの提供）を開始する。

　まずは仮想キャラクタ２０が、図６に示すように、歩いているユーザＡを見つけて声を掛けるといったイベントが行われる。具体的には、相対位置算出部１０ｄは、図６上に示すように、最初に再生する声の音コンテンツＶ１（「あ！」）の音源のｘｙ座標位置としてユーザＡの数メートル後方であってユーザの耳に対して角度Ｆ１の定位方向を算出する。次いで相対位置算出部１０ｄは、ユーザＡを追いかける足音の音コンテンツＶ２の音源のｘｙ座標位置としてユーザＡに徐々に近付くよう算出する（ユーザの耳に対して角度Ｆ２の定位方向）。そして相対位置算出部１０ｄは、声の音コンテンツＶ３（「おかえりなさい！」）の音源のｘｙ座標位置としてユーザＡのすぐ後ろの位置であってユーザの耳に対して角度Ｆ３の定位方向を算出する。このように仮想キャラクタが実際に現実空間に存在して行動していると想定した場合に違和感の無いよう、仮想キャラクタの行動とセリフに合わせて音像定位位置（ユーザに対する定位方向および距離）を算出することで、仮想キャラクタの動きをよりリアルに感じさせることができる。

　また、相対位置算出部１０ｄは、音コンテンツの種別に対応する仮想キャラクタの部位に応じて音像定位位置の高さを算出する。例えばユーザの耳の高さが仮想キャラクタの頭部より高い場合、図６下に示すように、仮想キャラクタの声の音コンテンツＶ１、Ｖ３の音源の高さはユーザの耳の高さより下になる（ユーザの耳に対して角度Ｇ１下方）。また、仮想キャラクタの足音の音コンテンツＶ２の音源は仮想キャラクタの足元であるため、声の音源よりも下になる（ユーザの耳に対して角度Ｇ２下方）。このように仮想キャラクタが実際に現実空間に存在していると想定した場合に仮想キャラクタの状態（立っている、座っている等）と大きさ（身長）を考慮して音像定位位置の高さを算出することで、仮想キャラクタの存在感をよりリアルに感じさせることができる。

　次いで、図７上に示すように、ユーザＡが立ち止まって仮想キャラクタ２０が居る方向に振り向いた場合、相対位置算出部１０ｄは、仮想キャラクタの声の音コンテンツＶ４の音源の位置はユーザＡの正面となるよう算出する。なおこの際も、仮想キャラクタ２０の声の音源の高さは、図７下に示すように、仮想キャラクタとユーザの身長に応じた相対的な高さ（例えばユーザの耳に対して角度Ｇ１下方）となる。

　そして、ユーザＡが歩き出すと、仮想キャラクタ２０もユーザＡと同じ速度で歩く行動に決定され、歩きながら仮想キャラクタ２０がユーザＡに対して話しかけるイベントが行われる。例えば、仮想キャラクタ行動決定部１０ｂは、「今日は寒いですね」といった今日の気温や天気に応じたセリフや、「今日はＪ県で事件があったみたいです」「今日の株価は・・・」というような、一日のニュースからユーザＡの嗜好に応じたセリフが選択される。これらのセリフは、リアルタイムの時事情報から自動的に生成されてもよい。また、仮想キャラクタ行動決定部１０ｂは、仮想キャラクタ２０もユーザＡと同じ速度で歩いているため、足音の音コンテンツも選択する。相対位置算出部１０ｄは、仮想キャラクタ２０もユーザＡと同じ速度で歩いているという行動に応じて、図８に示すように、例えばユーザＡの右側に音コンテンツＶ５、Ｖ６を配置する。また、相対位置算出部１０ｄは、図８下に示すように、声の音コンテンツＶ５はユーザＡに対して少し下（ユーザに対して角度Ｇ１下方）に位置し、足音の音コンテンツＶ６は仮想キャラクタ２０の足元（ユーザに対して角度Ｇ２下方）に位置するよう音像定位位置を算出する。

　なおシナリオは複数の分岐点を持ち、ユーザの行動に応じて異なるイベントが行われるようにしてもよい。例えば図７を参照して説明したようにユーザＡが立ち止まって仮想キャラクタの方向を向かなかった場合、「待ってよ～。止まってくださーい」という音コンテンツと共に仮想キャラクタ２０の声が遠くなり（ユーザＡが歩き続けるため）、シナリオが終了するイベントが行われてもよい。

　また、情報処理装置１は、ユーザＡに対する仮想キャラクタの会話の中で、コンサート情報等の宣伝が行われ、ユーザＡがＹｅｓの操作（例えばネックバンド型の装着ユニットをタップする等）を行うと、当該コンサート情報をユーザＡのスケジュールに登録する処理を行ってもよい。

　以上、音像定位位置の具体例について説明した。相対位置算出部１０ｄは、算出した音コンテンツ毎の音像定位位置（３次元位置）を、音像定位部１０ｅに出力する。

　音像定位部１０ｅは、相対位置算出部１０ｄにより算出された音コンテンツ毎の音像定位位置に、仮想キャラクタ行動決定部１０ｂにより選択された対応する音コンテンツ（音源）を定位させるよう、音コンテンツの音声信号処理を行う。

　音声出力制御部１０ｆは、音像定位部１０ｅにより処理された音声信号をスピーカ１５で再生するよう制御する。これにより、本実施形態による情報処理装置１は、ユーザの状態・行動に応じた仮想キャラクタの動きに対応する音コンテンツを、ユーザに対して適切な位置、距離、高さで音像定位し、仮想キャラクタの動きや大きさのリアリティを提示し、現実空間における仮想キャラクタの存在感を増すことができる。

　再生履歴・フィードバック記憶制御部１０ｇは、音声出力制御部１０ｆで音声出力された音源（音コンテンツ）を履歴（再生ログ）として記憶部１７に記憶するよう制御する。

　また、再生履歴・フィードバック記憶制御部１０ｇは、音声出力制御部１０ｆで音声出力された際に、ユーザが声の方向に振り向いたり、立ち止まって話を聞いたりといったユーザの反応をフィードバックとして記憶部１７に記憶するよう制御する。これにより制御部１０はユーザ嗜好を学習することが可能となり、上述した仮想キャラクタ行動決定部１０ｂにおいてユーザ嗜好に応じた音コンテンツを選択することができる。

　（通信部１１）
　通信部１１は、有線／無線により他の装置との間でデータの送受信を行うための通信モジュールである。通信部１１は、例えば有線ＬＡＮ（Local　Area　Network）、無線ＬＡＮ、Ｗｉ－Ｆｉ（Wireless　Fidelity、登録商標）、赤外線通信、Ｂｌｕｅｔｏｏｔｈ（登録商標）、近距離／非接触通信等の方式で、外部機器と直接、またはネットワークアクセスポイントを介して無線通信する。

　例えば、上述した制御部１０の各機能がスマートフォン又はクラウド上のサーバ等の他の装置に含まれる場合、通信部１１は、マイクロホン１２、カメラ１３、および９軸センサ１４により取得されたデータを送信してもよい。この場合、他の装置により、仮想キャラクタの行動決定や、音コンテンツの選択、音像定位位置の算出、音像定位処理等が行われる。他にも、例えばマイクロホン１２、カメラ１３、または９軸センサ１４が別箇の装置に設けられる場合には、通信部１１は、それらにより取得されたデータを受信して制御部１０に出力してもよい。また、通信部１１は、制御部１０により選択される音コンテンツを、クラウド上のサーバ等の他の装置から受信してもよい。

　（マイクロホン１２）
　マイクロホン１２は、ユーザの音声や周囲の環境を収音し、音声データとして制御部１０に出力する。

　（カメラ１３）
　カメラ１３は、撮像レンズ、絞り、ズームレンズ、及びフォーカスレンズ等により構成されるレンズ系、レンズ系に対してフォーカス動作やズーム動作を行わせる駆動系、レンズ系で得られる撮像光を光電変換して撮像信号を生成する固体撮像素子アレイ等を有する。固体撮像素子アレイは、例えばＣＣＤ（Ｃｈａｒｇｅ　Ｃｏｕｐｌｅｄ　Ｄｅｖｉｃｅ）センサアレイや、ＣＭＯＳ（Ｃｏｍｐｌｅｍｅｎｔａｒｙ　Ｍｅｔａｌ　Ｏｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）センサアレイにより実現されてもよい。例えば、カメラ１３は、情報処理装置１（装着ユニット）がユーザに装着された状態で、ユーザの前方を撮像可能に設けられてもよい。この場合、カメラ１３は、例えばユーザの動きに応じた周囲の景色の動きを撮像することが可能となる。また、カメラ１３は、情報処理装置１がユーザに装着された状態で、ユーザの顔を撮像可能に設けられてもよい。この場合、情報処理装置１は、撮像画像からユーザの耳の位置や表情を特定することが可能となる。また、カメラ１３は、デジタル信号とされた撮像画像のデータを制御部１０へ出力する。

　（９軸センサ１４）
　９軸センサ１４は、３軸ジャイロセンサ（角速度（回転速度）の検出）、３軸加速度センサ（Ｇセンサとも称す。移動時の加速度の検出）、および３軸地磁気センサ（コンパス、絶対方向（方位）の検出）を含む。９軸センサ１４は、情報処理装置１を装着したユーザの状態または周囲の状態をセンシングする機能を有する。なお９軸センサ１４は、センサ部の一例であって、本実施形態はこれに限定されず、例えば速度センサまたは振動センサ等をさらに用いてもよいし、加速度センサ、ジャイロセンサ、および地磁気センサのうち少なくともいずれかを用いてもよい。また、センサ部は、情報処理装置１（装着ユニット）とは別の装置に設けられていてもよいし、複数の装置に分散して設けられていてもよい。例えば、加速度センサ、ジャイロセンサ、および地磁気センサが頭部に装着されたデバイス（例えばイヤホン）に設けられ、速度センサや振動センサがスマートフォンに設けられてもよい。９軸センサ１４は、センシング結果を示す情報を制御部１０へ出力する。

　（スピーカ１５）
　スピーカ１５は、音声出力制御部１０ｆの制御に従って、音像定位部１０ｅにより処理された音声信号を再生する。また、スピーカ１５は、任意の位置／方向の複数の音源をステレオ音声に変換して出力することも可能である。

　（位置測位部１６）
　位置測位部１６は、外部からの取得信号に基づいて情報処理装置１の現在位置を検知する機能を有する。具体的には、例えば位置測位部１６は、ＧＰＳ（Global　Positioning　System）測位部により実現され、ＧＰＳ衛星からの電波を受信して、情報処理装置１が存在している位置を検知し、検知した位置情報を制御部１０に出力する。また、情報処理装置１は、ＧＰＳの他、例えばＷｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、携帯電話・ＰＨＳ・スマートフォン等との送受信、または近距離通信等により位置を検知するものであってもよい。

　（記憶部１７）
　記憶部１７は、上述した制御部１０が各機能を実行するためのプログラムやパラメータを格納する。また、本実施形態による記憶部１７は、シナリオ（各種音コンテンツ）、仮想キャラクタの設定情報（形状、身長等）、ユーザ情報（氏名、年齢、自宅、職業、職場、体格データ、趣味・嗜好等）を格納する。なお記憶部１７に格納される情報の少なくとも一部は、クラウド上のサーバ等の別装置に格納されていてもよい。

　以上、本実施形態による情報処理装置１の構成について具体的に説明した。

　　＜＜３．動作＞＞
　続いて、本実施形態による情報処理装置１の音声処理について図９を参照して説明する。図９は、本実施形態による音声処理を示すフローチャートである。

　図９に示すように、まず、ステップＳ１０３において、情報処理装置１の状態・行動検出部１０ａは、各種センサ（マイクロホン１２、カメラ１３、９軸センサ１４、または位置測位部１６）により検出された情報に基づいて、ユーザ状態および行動を検出する。

　次に、ステップＳ１０６において、仮想キャラクタ行動決定部１０ｂは、検出されたユーザの状態、行動に応じて、再生する仮想キャラクタの行動を決定する。例えば仮想キャラクタ行動決定部１０ｂは、検出されたユーザの行動と同じ行動（ユーザが歩いていれば一緒に歩く、走っていれば一緒に走る、座っていれば一緒に座る、寝ていれば一緒に寝る等）に決定する。

　次いで、ステップＳ１０９において、仮想キャラクタ行動決定部１０ｂは、決定した仮想キャラクタの行動に対応する音源（音コンテンツ）をシナリオから選択する。

　次に、ステップＳ１１２において、相対位置算出部１０ｄは、選択された音源の相対位置（３次元位置）を、検出されたユーザ状態、ユーザ行動、予め登録されたユーザの身長等の体格データ、決定された仮想キャラクタの行動、および予め登録された仮想キャラクタの身長等の設定情報に基づいて算出する。

　次いで、ステップＳ１１５において、シナリオ更新部１０ｃは、決定された仮想キャラクタの行動や選択された音コンテンツに応じてシナリオを更新する（すなわち、次のイベントに進める）。

　次に、ステップＳ１１８において、音像定位部１０ｅは、算出された音像の相対位置に当該音像を定位させるよう、対応の音コンテンツに対して音像定位処理を行う。

　続いて、ステップＳ１２１において、音声出力制御部１０ｆは、音像定位処理された音声信号をスピーカ１５から再生するよう制御する。

　次いで、ステップＳ１２４において、再生履歴・フィードバック記憶制御部１０ｇにより、再生された（すなわち音声出力された）音コンテンツの履歴、および当該音コンテンツに対するユーザのフィードバックを、記憶部１７に記憶する。

　そして、ステップＳ１２７において、シナリオのイベントが終了するまで上記Ｓ１０３～Ｓ１２４が繰り返される。例えば最寄駅に帰ってきて駅から自宅に着くまでの間におけるシナリオでは、最寄駅から出て歩き出したことをトリガとしてシナリオが始まり、ユーザが自宅に着くとシナリオが終了する。

　なお、本実施形態によるシナリオは上述した例に限定されず、様々考え得る。例えば、対象商品が販売されているコンビニエンスストア等の店舗に紐付けられたシナリオであってもよい。この場合、所定のコンビニエンスストアに入ったことをトリガとしてシナリオが始まり、ユーザがコンビニエンスストアから出るとシナリオが終了する。例えばユーザがコンビニエンスストアに入って、店内に貼り出されている所定のポスター（ユーザが最近見ているアニメや好きなアイドルが宣伝している商品のポスター等）を見ていることが状態・行動検出部１０ａにより検出されると、商品宣伝のシナリオが始まる。具体的には、情報処理装置１は、コンビニエンスストアのドアが開く音と共に、足音が近づいて来て、「あ！ポスター見てくれましたか？このお菓子、ＣＭソングを私達が歌っているんですよ！」というような仮想キャラクタの声をユーザの近くに音像定位して再生する。この際、情報処理装置１は、ユーザの身長と仮想キャラクタの身長とを考慮してユーザの耳に対して所定角度の高さに仮想キャラクタの声の音源を定位する。これにより、ユーザは、実際に店内に仮想キャラクタが入ってきて自分の近くで声を掛けてきたように感じることができ、薦められた商品を見て見ようかという気持ちが出てきて、宣伝効果が向上する。

　また、対象商品の棚の前に居ることがカメラ１３の撮像画像から検出されると、情報処理装置１は、図１０に示すように、「そのお菓子、すごく美味しいですよ！」といった音コンテンツＶ７を、当該商品とコラボレーションしている仮想キャラクタの声で再生する。仮想キャラクタは、アニメやドラマといった架空のキャラクタの他、アイドル、女優/俳優、タレント等の実在の人物、また、人間以外の動物も含まれる。

　情報処理装置１は、音コンテンツＶ７の音像定位位置を、例えば図１０に示すように、ユーザＡの右後ろであって、また、ユーザＡの身長に相対する仮想キャラクタの適切な高さに制御する。これによりユーザＡは、仮想キャラクタ（例えば好きなアイドル）の存在感をリアルに感じる。また、本当に自分の傍で話しかけられているように感じると、ユーザＡは、薦めされたその商品を買おうという気持ちが出てきて、宣伝効果も向上する。

　　＜＜４．まとめ＞＞
　上述したように、本開示の実施形態による情報処理システムでは、ユーザの状態と仮想キャラクタの情報に基づいて、仮想キャラクタ（仮想物体の一例）を知覚させる音を定位させる相対的な３次元位置を適切に算出し、現実空間における仮想キャラクタの存在感をよりリアルに提示することを可能とする。

　例えば、ユーザの身長と仮想キャラクタの身長とを考慮して仮想キャラクタの声の音像定位位置の高さを算出することで、仮想キャラクタの現実空間における大きさをよりリアルにユーザに体験させることができる。これによりユーザは、仮想キャラクタに対する理解や愛着が深まる。例えばユーザは、ゲーム内では大きく感じたキャラクタが、本実施形態により現実空間に音像定位されて再生されると、自分の身長よりは小さいことが分かる。

　また、情報処理装置１は、決定された仮想キャラクタの動きに伴う音（足音、衣擦れの音、鞄の音等）も再生することで、仮想キャラクタの動きのリアリティを提示することができる。

　また、仮想キャラクタが発話していない間も、足音や衣擦れの音など仮想キャラクタの行動に伴う音を提示することで、仮想キャラクタが現実空間に存在することをユーザに提示することができる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　例えば、上述した情報処理装置１に内蔵されるＣＰＵ、ＲＯＭ、およびＲＡＭ等のハードウェアに、情報処理装置１の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。

　また、本実施形態による情報処理装置１は、スピーカ１５が設けられたヘッドホン（またはイヤホン、アイウェア等）と、主に制御部１０の機能を有するモバイル端末（スマートフォン等）を含む情報処理システムにより実現されていてもよい。この際、モバイル端末は、音像定位処理した音声信号をヘッドホンに送信して再生させる。また、スピーカ１５は、ユーザに装着される装置に搭載される場合に限定されず、例えばユーザの周囲に設置された環境スピーカにより実現されてもよく、この場合環境スピーカは、ユーザの周囲の任意の位置に音像定位することが可能である。

　また、上述した実施形態では、音声のみでの仮想キャラクタの存在感を提示していたが、本実施形態はこれに限定されず、例えば情報処理装置１がアイウェア型の場合、本実施形態による音像定位と、仮想キャラクタ映像の現実空間への重畳表示を組み合わせて、さらに仮想キャラクタにリアリティを持たせることも可能である。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、本技術は以下のような構成も取ることができる。
（１）
　音像定位により現実空間に存在するよう知覚させる仮想物体に関する情報と、ユーザの状態に関する情報とに基づいて、前記ユーザに対する前記仮想物体の音源の相対的な定位位置を算出する算出部と、
　前記算出された定位位置に音像を定位させるよう前記音源の音声信号処理を行う音像定位部と、
を備える、情報処理装置。
（２）
　前記音像の相対的な定位位置は、高さを含む３次元位置である、前記（１）に記載の情報処理装置。
（３）
　前記情報処理装置は、
　前記音像定位部により処理された音声信号を音声出力部から再生するよう制御する音声出力制御部をさらに備える、前記（２）に記載の情報処理装置。
（４）
　前記ユーザの状態に関する情報は、前記ユーザの絶対位置、移動速度、向き、頭の位置、耳の高さ、またはこれらから認識される行動を含む、前記（３）に記載の情報処理装置。
（５）
　前記仮想物体は仮想キャラクタであって、
　前記情報処理装置は、
　認識された前記ユーザの行動に応じて前記仮想キャラクタの現実空間における仮想的な行動を決定し、決定した行動に対応する音コンテンツを前記仮想物体の音像としてシナリオから選択する行動決定部をさらに備える、前記（４）に記載の情報処理装置。
（６）
　前記算出部は、前記選択された音コンテンツの音源種別に基づいて、当該音コンテンツの定位位置を算出する、前記（５）に記載の情報処理装置。
（７）
　前記音コンテンツの音源種別は、声の音源、足音の音源、衣擦れの音源、持ち物の音源、または乗り物の音源であって、
　前記算出部は、前記音源種別に対応する前記仮想キャラクタの部位の高さと、前記ユーザの状態に関する情報に基づく前記ユーザの頭部の高さとの相対関係に基づいて、前記音コンテンツを定位させる高さを算出する、前記（６）に記載の情報処理装置。
（８）
　前記算出部は、前記ユーザの耳との相対的な位置関係に基づいて前記高さを算出する、前記（７）に記載の情報処理装置。
（９）
　前記仮想キャラクタの部位は、頭、胴体、足、靴、前記仮想キャラクタが所持する鞄、または前記仮想キャラクタが乗っている乗り物であって、
　前記仮想キャラクタの部位の位置は、前記仮想物体に関する情報および前記決定された仮想キャラクタの行動に基づき算出される、前記（７）または（８）に記載の情報処理装置。
（１０）
　前記情報処理装置は、
　前記決定された仮想キャラクタの行動に対応する前記音コンテンツが前記シナリオから選択された際、前記シナリオを更新する更新部をさらに備える、
前記（５）～（９）のいずれか１項に記載の情報処理装置。
（１１）
　音像定位により現実空間に存在するよう知覚させる仮想物体に関する情報と、ユーザの状態に関する情報とに基づいて、前記ユーザに対する前記仮想物体の音源の相対的な定位位置を算出部により算出することと、
　前記算出された定位位置に音像を定位させるよう前記音源の音声信号処理を音像定位部により行うことと、
を含む、情報処理方法。
（１２）
　コンピュータを、
　音像定位により現実空間に存在するよう知覚させる仮想物体に関する情報と、ユーザの状態に関する情報とに基づいて、前記ユーザに対する前記仮想物体の音源の相対的な定位位置を算出する算出部と、
　前記算出された定位位置に音像を定位させるよう前記音源の音声信号処理を行う音像定位部と、
として機能させるための、プログラム。

　１　　情報処理装置
　１０　　制御部
　１０ａ　　状態・行動検出部
　１０ｂ　　仮想キャラクタ行動決定部
　１０ｃ　　シナリオ更新部
　１０ｄ　　相対位置算出部
　１０ｅ　　音像定位部
　１０ｆ　　音声出力制御部
　１０ｇ　　再生履歴・フィードバック記憶制御部
　１１　　通信部
　１２　　マイクロホン
　１３　　カメラ
　１４　　９軸センサ
　１５　　スピーカ
　１６　　位置測位部
　１７　　記憶部
　２０　　仮想キャラクタ

Claims

　音像定位により現実空間に存在するよう知覚させる仮想物体に関する情報と、ユーザの状態に関する情報とに基づいて、前記ユーザに対する前記仮想物体の音源の相対的な定位位置を算出する算出部と、
　前記算出された定位位置に音像を定位させるよう前記音源の音声信号処理を行う音像定位部と、
を備える、情報処理装置。
　前記音像の相対的な定位位置は、高さを含む３次元位置である、請求項１に記載の情報処理装置。
　前記情報処理装置は、
　前記音像定位部により処理された音声信号を音声出力部から再生するよう制御する音声出力制御部をさらに備える、請求項２に記載の情報処理装置。
　前記ユーザの状態に関する情報は、前記ユーザの絶対位置、移動速度、向き、頭の位置、耳の高さ、またはこれらから認識される行動を含む、請求項３に記載の情報処理装置。
　前記仮想物体は仮想キャラクタであって、
　前記情報処理装置は、
　認識された前記ユーザの行動に応じて前記仮想キャラクタの現実空間における仮想的な行動を決定し、決定した行動に対応する音コンテンツを前記仮想物体の音像としてシナリオから選択する行動決定部をさらに備える、請求項４に記載の情報処理装置。
　前記算出部は、前記選択された音コンテンツの音源種別に基づいて、当該音コンテンツの定位位置を算出する、請求項５に記載の情報処理装置。
　前記音コンテンツの音源種別は、声の音源、足音の音源、衣擦れの音源、持ち物の音源、または乗り物の音源であって、
　前記算出部は、前記音源種別に対応する前記仮想キャラクタの部位の高さと、前記ユーザの状態に関する情報に基づく前記ユーザの頭部の高さとの相対関係に基づいて、前記音コンテンツを定位させる高さを算出する、請求項６に記載の情報処理装置。
　前記算出部は、前記ユーザの耳との相対的な位置関係に基づいて前記高さを算出する、請求項７に記載の情報処理装置。
　前記仮想キャラクタの部位は、頭、胴体、足、靴、前記仮想キャラクタが所持する鞄、または前記仮想キャラクタが乗っている乗り物であって、
　前記仮想キャラクタの部位の位置は、前記仮想物体に関する情報および前記決定された仮想キャラクタの行動に基づき算出される、請求項７に記載の情報処理装置。
　前記情報処理装置は、
　前記決定された仮想キャラクタの行動に対応する前記音コンテンツが前記シナリオから選択された際、前記シナリオを更新する更新部をさらに備える、
請求項５に記載の情報処理装置。
　音像定位により現実空間に存在するよう知覚させる仮想物体に関する情報と、ユーザの状態に関する情報とに基づいて、前記ユーザに対する前記仮想物体の音源の相対的な定位位置を算出部により算出することと、
　前記算出された定位位置に音像を定位させるよう前記音源の音声信号処理を音像定位部により行うことと、
を含む、情報処理方法。
　コンピュータを、
　音像定位により現実空間に存在するよう知覚させる仮想物体に関する情報と、ユーザの状態に関する情報とに基づいて、前記ユーザに対する前記仮想物体の音源の相対的な定位位置を算出する算出部と、
　前記算出された定位位置に音像を定位させるよう前記音源の音声信号処理を行う音像定位部と、
として機能させるための、プログラム。