WO2016140058A1

WO2016140058A1 - 音声信号再生装置、音声信号再生方法、プログラム、および記録媒体

Info

Publication number: WO2016140058A1
Application number: PCT/JP2016/054480
Authority: WO
Inventors: 健明末永
Original assignee: シャープ株式会社
Priority date: 2015-03-04
Filing date: 2016-02-16
Publication date: 2016-09-09
Also published as: JPWO2016140058A1; US10085107B2; US20180048978A1; JP6522105B2

Abstract

　仮想音源位置決定部（１２２）は、検知されたユーザ（３１）の動作に基づき、音声信号によって表される音声が出力される仮想音源の位置を決定する。音声信号処理部（１２３）は、決定された仮想音源の位置に基づく立体音響処理を音声信号に施す。音声信号処理部（１２３）は、立体音響処理が施された音声信号を再生する。これにより、ユーザの動作に適した音声が出力されるように音声信号を再生する。

Description

音声信号再生装置、音声信号再生方法、プログラム、および記録媒体

　本発明は、音声信号を再生する音声信号再生装置および音声信号再生方法に関する。さらには、当該音声信号再生装置としてコンピュータを動作させるためのプログラム、および、そのようなプログラムが記録されている記録媒体にも関する。

　昨今、スマートフォンなどに代表される個人向けの情報端末の普及によって、各個人が受け取る情報量が増大しつつある。これらの情報端末では、通常、複数のアプリケーションが、非同期に動作することによって不定期かつ高頻度に情報を発信している。

　情報端末自身または情報端末内で実行されるアプリケーションによって発信される情報には、たとえば画像情報または文字情報などの視覚的な情報が含まれる。これらの場合、画像情報または文字情報は、情報端末の本体に備えられるディスプレイまたは情報端末に接続された外部の表示端末に、画像または文字として表示されることによって、ユーザに提供される。特許文献１には、このような情報端末の一例として、眼鏡型の画像情報表示端末が開示されている。

　しかしながら、特許文献１に開示された、発信される通知情報を画像として表示する画像情報表示端末では、ユーザが、ディスプレイなどの画像表示部に表示された画像を注視するために、直前まで行っていた作業を中断する必要があるなど、ユーザに一定の手間が発生する問題がある。

　一方、情報端末またはアプリケーションから発信される情報には、たとえば音声情報などの聴覚的な状況も含まれる。この場合、音声情報は、情報端末に備えられるスピーカあるいは情報端末に接続されるヘッドホンまたはイヤホンなどを通じて、ステレオ形式または立体音響形式などの音声として出力されることによって、ユーザに提供される。そこで、ユーザの作業の中断を回避するために、画像または文字の表示によってユーザに情報を通知するのではなく、音声の出力によって情報を通知することが考えられる。特許文献２には、音声によって聴取者に方向の指示を与える立体音響制御装置が開示されている。

日本国公開特許公報「特開２００６－２０９１４４号公報（２００６年３月２０日公開）」日本国公開特許公報「特開２００８－１５１７６６号公報（２００８年７月８日公開）」

　しかし、引用文献２に操作された装置では、音声信号によって情報をユーザに提示する際に、ユーザの行動が考慮されない。そのため、ユーザの行動にそぐわない音声がユーザに提示されることによって、ユーザの行動を阻害する問題が生じ得る。

　本発明は上記の問題を解決するためになされたものである。そしてその目的は、ユーザの動作に適した音声が出力されるように音声信号を再生する音声信号再生装置、声信号再生方法、プログラム、および記録媒体を提供することにある。

　本発明の一態様に係る音声信号再生装置は、上記の課題を解決するために、音声を示す音声信号を取得する取得部と、ユーザの動作を検知する検知部と、検知された上記動作に基づき、取得された上記音声信号によって表される上記音声が出力される仮想音源の位置を決定する決定部と、決定された上記仮想音源の位置に応じた立体音響処理を、取得された上記音声信号に施す処理部と、上記立体音響処理が施された上記音声信号を再生する再生部とを備えていることを特徴としている。

　本発明の一態様に係る音声信号再生方法は、上記の課題を解決するために、音声を示す音声信号を取得する取得工程と、ユーザの動作を検知する検知工程と、検知された上記ユーザの動作に基づき、取得された上記音声信号によって表される上記音声が出力される仮想音源の位置を決定する決定工程と、決定された上記仮想音源の位置に応じた立体音響処理を、取得された上記音声信号に施す処理工程と、上記立体音響処理が施された上記音声信号を再生する再生工程とを有することを特徴としている。

　本発明の一態様によれば、ユーザの動作に適した音声が出力されるように音声信号を再生することができるという効果を奏する。

本発明の実施形態１に係る音声信号再生装置の要部構成を示すブロック図である。本発明の実施形態１に係る音声信号再生システムの要部構成を示すブロック図である。本発明の実施形態１におけるユーザと仮想音源の位置との関係を説明する図である。（ａ）は、本発明の実施形態１における、ユーザが静止している時の仮想音源の位置の一例を示す図であり、（ｂ）は、本発明の実施形態１における、ユーザが静止している時の仮想音源の位置の一例を示す図である。（ａ）は、本発明の実施形態１における、ユーザが静止している時の仮想音源の位置の一例を示す図であり、（ｂ）は、本発明の実施形態１における、ユーザが移動している時の仮想音源の位置の一例を示す図である。（ａ）は、本発明の実施形態１における、ユーザが静止している時の仮想音源の位置の一例を示す図であり、（ｂ）は、本発明の実施形態１における、ユーザが移動している時の仮想音源の位置の一例を示す図である。（ａ）は、本発明の実施形態１における、ユーザが静止している時の複数の仮想音源の位置の一例を示す図であり、（ｂ）は、本発明の実施形態１における、ユーザが移動している時の複数の仮想音源の位置の一例を示す図である。（ａ）は、本発明の実施形態１における、ユーザが静止している時の複数の仮想音源の位置の一例を示す図であり、（ｂ）は、本発明の実施形態１における、ユーザが移動している時の複数の仮想音源の位置の一例を示す図である。（ａ）は、本発明の実施形態１における、ユーザが一定の注視領域を注視していない時の複数の仮想音源の位置の一例を示す図であり、（ｂ）は、本発明の実施形態１における、ユーザが注視領域を注視している時の複数の仮想音源の位置の一例を示す図であり、（ｃ）は、本発明の実施形態１における、ユーザが注視領域を注視している時の複数の仮想音源の位置の他の例を示す図であり、（ｃ）は、本発明の実施形態１における、ユーザが注視領域を注視している時の複数の仮想音源の位置のさらに他の例を示す図である。本発明の実施形態２に係る音声信号再生装の要部構成を示すブロック図である。（ａ）～（ｃ）は、本発明の実施形態２におけるメタデータの各例を示す図である。（ａ）は、本発明の実施形態２における、ユーザが静止している時の複数の仮想音源の位置の一例を示す図であり、（ｂ）は、本発明の実施形態２における、ユーザが移動している時の複数の仮想音源の位置の一例を示す図である。本発明の実施形態３に係る音声信号再生装の要部構成を示すブロック図である。

　本発明に係る各実施形態について、以下に詳細に説明する。ただしこれらの実施形態に記載される構成は、特に記載がない限り、本発明の範囲をそれのみに限定するものではない。

　〔実施形態１〕
　本発明の実施形態１について、図１～図９を参照して以下に説明する。

　本発明の実施形態１に係る音声信号再生装置１は、少なくとも１つの音声信号を取得すると共に、音声信号再生装置１のユーザの動作を検知する。そして、検知されたユーザの動作に基づき、予め設定された任意の規則に基づいた位置に、取得された音声信号を仮想的に配置する。その後、配置された仮想的な音声信号位置に基づき各音声信号を立体音響方式の音声信号に変換した上で、変換後の音声信号を再生する。

　本実施形態に係る音声信号再生装置１について、図１を参照して説明する。図１は、本発明の実施形態１に係る音声信号再生装置１の要部構成を示すブロック図である。この図に示すように、音声信号再生装置１は、音声信号取得部１１（取得部）、制御部１２、音声信号再生部１３（再生部）、および記憶部１４を備えている。さらに制御部１２は、ユーザ動作検知部１２１（検知部）、仮想音源位置決定部１２２（決定部）、および音声信号処理部１２３（処理部）を備えている。

　音声信号取得部１１は、少なくとも１つの音声信号を音声信号再生装置１の外部から取得する。音声信号は、ステレオ形式またはモノラル形式のいずれであってもよい。音声信号取得部１１は、複数の音声信号がインタリーブされた形式の音声信号を取得することもできる。この場合、音声信号取得部１１は、取得した音声信号を複数のモノラル音声信号にデインタリーブする。

　制御部１２は、音声信号取得部１１、音声信号再生部１３、および記憶部１４を制御すると共に、これらの各部材との間でデータを入出力する。制御部１２は、たとえば、所定のメモリに格納されたプログラムをＣＰＵ（Central Processing Unit）が実行することによって、実現される。

　音声信号再生部１３は、制御部１２によって立体音響処理（音響効果処理）が施された各音声信号を再生することによって、イヤホン２４を通じて音声を出力する。

　記憶部１４は、制御部１２によって用いられる所定のデータを記憶するための二次記憶装置によって構成される。記憶部１４は、たとえば、磁気ディスク、光ディスク、またはフラッシュメモリとして、具体的には、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、ＢＤ（Blu-Ray Disc、登録商標）などとして実現される。制御部１２は、必要に応じて記憶部１４からデータを読み出したり、または記憶部１４にデータを記録したりすることができる。

　ユーザ動作検知部１２１は、接続された各種センサの出力に基づき、ユーザの行動または動作を検知する。

　仮想音源位置決定部１２２は、検知されたユーザの行動または動作に基づき、各音声信号が仮想的に出力される仮想音源の位置を決定する。

　音声信号処理部１２３は、決定された各仮想出力の位置に基づき、音声信号取得部１１によって取得された各音声信号に立体音響処理を施す。

　（音声信号再生システム２）
　図２は、本発明の実施形態１に係る音声信号再生システム２の要部構成を示すブロック図である。この図に示すように、音声信号再生システム２は、音声信号再生装置１に加え、信号受信装置２１、デジタル－アナログ変換装置（ＤＡＣ）２２、増幅装置２３、およびイヤホン２４をさらに備えている。

　信号受信装置２１は、有線通信または無線通信によって、音声信号再生装置１の外部から音声信号を受信する。無線通信としては、Bluetooth（登録商標）またはWiFi（Wireless　Fidelity、登録商標）等の無線伝送技術を用いることができるが、これらには限定されない。図２に示すように、音声信号取得部１１は、音楽プレーヤまたはスマートフォンである携帯端末２５から、信号受信装置２１を介して、音声信号を受信する。説明の簡単のため、本実施形態では、特に断りがない限り、音声信号取得部１１は、Bluetoothを用いた無線通信によって、デジタル信号である音声信号を取得する。

　ＤＡＣ２２は、入力されたデジタル形式の音声信号をアナログ形式の音声信号に変換し、増幅装置２３に出力する。

　増幅装置２３は、入力された音声信号を増幅して、イヤホン２４に出力する。

　イヤホン２４は、入力された音声信号に基づく音声を出力する。

　ユーザ動作検知部１２１は、音声信号再生装置１を用いるユーザの現在の動作を取得し、仮想音源位置決定部１２２に出力する。このとき通知されるユーザの動作は、仮想音源位置決定部１２２が各音声信号の位置を決定する際の指標として用いられる。

　本実施形態では、ユーザ動作検知部１２１は、ユーザ３１の動作を検知するための各種のセンサまたはシステムからの出力に基づき、ユーザ３１の動作を検知する。センサはたとえば加速度センサまたはジャイロセンサであり、システムはたとえばＧＰＳ（Global Positioning System）であるが、これらには限定されない。これらのセンサは、ユーザの動作を検知するために、ユーザの体の一部（好ましくは頭部）に設置されることが望ましい。

　また、本実施形態では、ユーザ動作検知部１２１は、図示しない加速度センサの出力に基づき、ユーザ３１の動作を検知するものとする。具体的には、ユーザ動作検知部１２１は、加速度センサの出力が所定の閾値Ｔｈ以上であれば、ユーザ３１の動作を「移動」であると検知（判定）する。一方、加速度センサの出力が閾値Ｔｈよりも小さければ、ユーザ３１の動作を「静止」であると検知（判定）する。閾値Ｔｈは記憶部１４に予め記憶されている。ユーザ３１の動作は時々刻々と変化し、その時々のユーザ３１の動作に基づき、ユーザ動作検知部１２１から仮想音源位置決定部１２２に通知されるユーザ３１の動作、「移動」または「静止」に変化する。

　仮想音源位置決定部１２２は、ユーザ動作検知部１２１によって検知されたユーザの動作に基づき、音声信号取得部１１によって取得された各音声信号によって表される音声が仮想的に出力される各仮想音源の位置を決定し、音声信号処理部１２３に通知する。仮想音源位置決定部１２２は、検知されたユーザの動作に加え、記憶部１４に予め記憶されている前提条件（たとえば、ユーザ３１の周囲に配置される仮想音源の位置および個数など）に基づき、各音声信号における仮想音源の位置を決定してもよい。

　（仮想音源の位置）
　図３を参照して、仮想音源の位置についてより詳細に説明する。図３は、本発明の実施形態１におけるユーザ３１と仮想音源３３の位置との関係を説明する図である。ユーザ（聴取者）３１は、各音声信号によって表される音声を、実際の音源（すなわちイヤホン２４）の位置から出力された音声としては、知覚しない。その代わりにユーザ３１は、各音声信号によって表される音声を、音声信号処理部１２３の立体音響処理によって各音声信号に設定される仮想的な音源から出力される音声して、知覚する。以下では、各音声信号によって表される音声が仮想的に出力される音源を、「仮想音源」と表記する。仮想音源の位置は、ユーザ３１の周囲に配置される仮想音源の、ユーザ３１に対する相対的な位置である。

　本実施形態では、仮想音源の位置は、ユーザ３１の右耳と左耳との中間位置を原点３２とする、所定の座標系によって表される。図３に、仮想音源の一例として仮想音源３３を示す。特に断りがない限り、この座標系は、原点３２から仮想音源３３までの距離（動径）ｒと、原点３２を基準とする仮想音源３３の角度（偏角）θとからなる２次元極座標系である。すなわち仮想音源３３の位置は、距離ｒと角度θとの組み合わせとして表される。図３に示すように、仮想音源の角度θは、原点３２を通る直線Ｌ１と、原点３２と仮想音源３３とを結ぶ直線Ｌ２とが成す角度のことである。

　本実施形態では、説明の簡単のため、仮想音源３３の距離ｒは、３段階（ｒ_１、ｒ_２、またはｒ_３）のいずれかの値を取るものとする。なお、ｒ_１＜ｒ_２＜ｒ_３の関係を満たす。図３の例では、仮想音源３３の距離がｒ_１である場合、仮想音源３３は円周Ｃ１上のいずれかの位置にある。また、仮想音源３３の距離がｒ_２である場合、仮想音源３３は円周Ｃ２上のいずれかの位置にある。仮想音源３３の距離がｒ_３である場合、仮想音源３３は円周Ｃ３上のいずれかの位置にある。

　音声信号処理部１２３は、音声信号取得部１１から入力された各音声信号に、仮想音源位置決定部１２２から通知された各音声信号の仮想音源の位置に応じた所定の立体音響処理を施す。これにより、通知された位置から音声を仮想的に出力する仮想音源を、各音声信号に設定する。音声信号処理部１２３は、処理後の各音声信号を音声信号再生部１３に出力する。

　立体音響処理の詳細について、以下に説明する。音声信号処理部１２３は、音声信号取得部１１から入力された各音声信号に、頭部伝達関数（Head Related Transfer Function：ＨＲＴＦ）を適用することによって、立体音響方式の各音声信号に変換する。具体的には、下記の式（１）に示すように、Ｎ（Ｎは自然数）個の各入力信号Ｉ_ｎ（ｚ）に頭部伝達関数（ＨＲＴＦ）であるＨＬ_ｎ（ｚ）およびＨＲ_ｎ（ｚ）を乗算した上で、乗算後の各入力信号Ｉ_ｎ（ｚ）をそれぞれ合算することによって、合算し、左耳用信号Ｌ_ＯＵＴおよび右耳用信号Ｒ_ＯＵＴを生成する。

　式（１）において、ｎ＝１、２、・・・Ｎである。ＨＬ_ｎ（ｚ）は、それぞれ、入力信号Ｉ_ｎ（ｚ）に設定された仮想音源の位置（偏角）における、左耳用のＨＲＴＦである。ＨＲ_ｎ（ｚ）は、それぞれ、入力信号Ｉ_ｎ（ｚ）に設定された仮想音源の位置（偏角）における右耳用のＨＲＴＦである。本実施形態では、これらのＨＲＴＦは、離散的なテーブル情報として、記憶部１４に予め記憶されている。また、係数ｄは、各仮想音源の原点３２からの距離ｒに基づく減衰量を示すものであり、本実施形態では次の式（２）によって表される。

　式（２）において、ｒは、原点３２からの仮想音源の距離を示し、εは、予め設定された係数である。

　音声信号再生部１３は、音声信号処理部１２３によって生成された左耳用信号Ｌ_ＯＵＴおよび右耳用信号Ｒ_ＯＵＴを、任意の音声ファイル形式のデジタル音声信号に変換する。音声信号再生部１３は、変換後のデジタル音声信号を音声信号再生装置１の外部に出力することによって、再生する。図２に示すように、音声信号再生装置１が音声信号再生システム２に備えられている場合、音声信号再生部１３は、たとえばInter-IC Sound（Ｉ２Ｓ）形式のデジタル音声信号を生成してＤＡＣ２２に出力する。

　（処理の流れ）
　音声信号再生システム２における音声信号再生処理の流れの一例について、以下に説明する。音声信号取得部１１は、信号受信装置２１を通じて、音声信号再生装置１の外部（たとえば携帯端末２５）から少なくとも１つの音声信号を取得し、仮想音源位置決定部１２２に出力する。一方、ユーザ動作検知部１２１は、音声信号再生装置１のユーザ３１の現在動作を検知し、仮想音源位置決定部１２２に通知する。

　仮想音源位置決定部１２２は、通知されたユーザ３１の動作に基づき、入力された各音声信号によって表される各音声が仮想的に出力される位置を決定する。仮想音源位置決定部１２２は、決定された各位置を、対応する各音声信号に関連付けて、音声信号処理部１２３に出力する。

　音声信号処理部１２３は、仮想音源位置決定部１２２によって決定された各仮想音源の位置に基づき、入力された各音声信号に立体音響処理を施すことによって、左耳用信号Ｌ_ＯＵＴおよび右耳用信号Ｒ_ＯＵＴを生成し、音声信号再生部１３にそれぞれ出力する。音声信号再生部１３は、入力された左耳用信号Ｌ_ＯＵＴおよび右耳用信号Ｒ_ＯＵＴを任意の音声ファイル形式のデジタル音声信号に変換し、ＤＡＣ２２に出力する。ＤＡＣ２２は、入力されたデジタル音声信号をアナログ音声信号に変換し、増幅装置２３に出力する。増幅装置２３は、入力されたアナログ音声信号を増幅し、イヤホン２４に出力する。イヤホン２４は、入力されたアナログ音声信号によって表される音声を出力する。この結果、ユーザ３１は、音声信号取得部１１によって取得された各音声信号によって表される各音声を、各音声信号に設定された各仮想音源から出力される音声として、知覚する。

　（仮想音源４１の位置）
　上述したように、各仮想音源の位置は、ユーザ３１の動作に基づき決定される。その一例について、図４を参照して以下に説明する。

　図４の（ａ）は、本発明の実施形態１における、ユーザ３１が静止している時の仮想音源４１の位置の一例を示す図であり、図４の（ｂ）は、本発明の実施形態１における、ユーザ３１が静止している時の仮想音源４１の位置の一例を示す図である。この図の例では、音声信号取得部１１は、音声信号再生装置１の外部から１つの音声信号を取得する。

　図４の（ａ）では、ユーザ３１は現在静止しているので、ユーザ動作検知部１２１は、ユーザ３１の動作を「静止」であると検知する。また、仮想音源位置決定部１２２は、取得された１つの音声信号に対応する１つの仮想音源４１の位置を、検知された「静止」に応じた位置（ｒ_２、θ_１）に決定する。これにより、図４の（ａ）に示すように、仮想音源４１が、ユーザ３１の前方における位置（ｒ_２、θ_１）に配置される。

　一方、図４の（ｂ）では、ユーザ３１は現在前方（方向Ｘ）に移動しているので、ユーザ動作検知部１２１は、ユーザ３１の動作を「移動」であると検知する。また、仮想音源位置決定部１２２は、取得された１つの音声信号に対応する１つの仮想音源４１の位置を、検知された「移動」に応じた位置（ｒ_３、θ_１）に決定する。これにより、図４の（ａ）に示すように、仮想音源４１が、ユーザ３１の前方における位置（ｒ_３、θ_１）に配置される。

　図４の例では、仮想音源位置決定部１２２は、「移動」が検知された場合の仮想音源４１の距離を、「静止」が検知された場合の仮想音源４１の距離よりも長くするように、仮想音源４１の位置を決定する。この結果、ユーザ３１の動作が「静止」から「移動」に変化すると、仮想音源４１の位置は、位置（ｒ_２、θ_１）から位置（ｒ_３、θ_１）に遠ざかる。このとき、仮想音源４１の角度はθ_１のままであり、仮想音源４１の距離がｒ_２からｒ_３に変化する。この結果、ユーザ３１は、静止時にはより近くの仮想音源４１から聞こえていた音声が、移動時にはより遠くの仮想音源４１から聞こえるようになる。これにより、移動時にユーザ３１の近くから発せられる周囲音と、仮想音源４１から出力される音声とが聞き分けやすくなるので、ユーザ３１が周囲音をより聞き取りやすくなる。そのためユーザ３１は、移動中に周囲音を確認するために立ち止まる必要がない。この結果、ユーザ３１は、移動するという自身の行動を、仮想音源４１から出力される音声によって阻害されずに済む。

　検知されたユーザ３１の動作が「静止」または「移動」である場合に仮想音源４１が配置される位置は、音声信号再生装置１において予め決定されている。それぞれの位置を示す位置情報が、記憶部１４に予め保存されており、仮想音源位置決定部１２２は、それらの情報を記憶部１４から読み出して用いることによって、ユーザ３１の動作に応じた仮想音源４１の位置を決定する。

　仮想音源４１の位置を示す情報は、仮想音源４１の位置を絶対値で指定するものであってもよいし、または、相対値で示すものであってもよい。たとえば、ユーザ３１の動作が「移動」である場合の仮想音源４１の位置を示す情報が、「静止時の距離＋α」であるとする。この場合、仮想音源位置決定部１２２は、図４の（ａ）に示す「静止」時の仮想音源４１の位置（ｒ_２、θ_１）を基準として、次の式（３）を満たす係数αを用いて、「動作」時の仮想音源４１の位置を位置（ｒ₂＋α、θ_１）であると決定する。

　（角度の変化）
　図４の例では、ユーザ３１の動作が変化した場合、仮想音源４１の距離のみが変化する。しかし本発明はこれに限らず、ユーザ３１の動作が変化した場合、仮想音源の距離ではなく角度のみが変化してもよい。この例について、図５を参照して以下に説明する。

　図５の（ａ）は、本発明の実施形態１における、ユーザ３１が静止している時の仮想音源５１の位置の一例を示す図であり、図５の（ｂ）は、本発明の実施形態１における、ユーザ３１が移動している時の仮想音源５１の位置の一例を示す図である。

　図５の（ａ）では、ユーザ３１は現在静止しているので、取得された１つの音声信号に対応する仮想音源５１が、ユーザ３１の前方における位置（ｒ_２、θ_１）に配置される。一方、図５の（ｂ）では、ユーザ３１は現在前方（方向Ｘ）に移動しているので、仮想音源５１が、ユーザ３１の後方における位置（ｒ_２、θ_２）に配置される。このとき、仮想音源５１の距離はｒ_２のままであり、仮想音源５１の角度がθ_１からθ_２に変化する。

　図５の例では、ユーザ３１の動作が「静止」から「移動」に変化すると、仮想音源５１の位置は、ユーザ３１の前方における位置（ｒ_２、θ_１）から、ユーザ３１の後方における位置（ｒ_２、θ_２）に変化する。この結果、ユーザ３１は、静止時には自身の前方の仮想音源５１から聞こえていた音声が、移動時には自身の後方の仮想音源５１から聞こえるようになる。これにより、移動時にユーザ３１の前方から音声が発せられなくなるので、ユーザ３１が前方から発せられる音声を気にして前方への移動をためらうことを、防止することができる。この結果、ユーザ３１は、前方に移動するという自身の行動を、仮想音源５１から出力される音声によって阻害されずに済む。

　（距離および角度の変化）
　ユーザ３１の動作が変化した場合、仮想音源の距離および角度の双方が変化してもよい。この例について、図６を参照して以下に説明する。

　図６の（ａ）は、本発明の実施形態１における、ユーザ３１が静止している時の仮想音源６１の位置の一例を示す図であり、図５の（ｂ）は、本発明の実施形態１における、ユーザ３１が移動している時の仮想音源６１の位置の一例を示す図である。

　図６の（ａ）では、ユーザ３１は現在静止しているので、取得された１つの音声信号に対応する仮想音源６１が、ユーザ３１の前方における位置（ｒ_２、θ_１）に配置される。一方、図６の（ｂ）では、ユーザ３１は現在前方（方向Ｘ）に移動しているので、仮想音源５１が、ユーザ３１の後方における位置（ｒ_３、θ_２）に配置される。このとき、仮想音源５１の距離がｒ_２からｒ_３に変化し、かつ、仮想音源５１の角度がθ_１からθ_２に変化する。

　図４～図６に示すように、仮想音源位置決定部１２２は、ユーザ３１を基準にした原点３２から仮想音源までの距離および角度のうち少なくともいずれかを、検知されたユーザ３１の動作に基づき異ならせるように、仮想音源の位置を決定することができる。

　（距離の変化：複数の仮想音源）
　音声信号取得部１１は、複数の音声信号を音声信号再生装置１の外部から取得することもできる。この場合、各音声信号に対応する各仮想音源の位置が、検知されたユーザ３１の動作に基づきそれぞれ検知される。

　図７の（ａ）は、本発明の実施形態１における、ユーザ３１が静止している時の複数の仮想音源７１～７３の位置の一例を示す図であり、図７の（ｂ）は、本発明の実施形態１における、ユーザ３１が移動している時の複数の仮想音源７１～７３の位置の一例を示す図である。以下では、ユーザ３１の動作が変化した場合に、各仮想音源７１～７３の距離のみが変化する場合を説明する。

　図７の（ａ）では、ユーザ３１は現在静止しているので、取得された３つの音声信号に対応する仮想音源７１～７３が、ユーザ３１の周囲における位置（ｒ_２、θ_１）、位置（ｒ_２、θ_２）、および位置（ｒ_２、θ_３）にそれぞれ配置される。一方、図７の（ｂ）では、ユーザ３１は現在前方（方向Ｘ）に移動しているので、仮想音源７１～７３が、ユーザ３１の周囲における位置（ｒ_３、θ_１）、位置（ｒ_３、θ_２）、および位置（ｒ_３、θ_３）に配置される。このとき、仮想音源７１～７３の角度はいずれも変化せず、一方、仮想音源７１～７３の距離いずれもｒ_２からｒ_３に変化する。

　（距離および角度の変化：複数の仮想音源）
　図８の（ａ）は、本発明の実施形態１における、ユーザ３１が静止している時の複数の仮想音源８１～８３の位置の一例を示す図であり、図８の（ｂ）は、本発明の実施形態１における、ユーザ３１が移動している時の複数の仮想音源８１～８３の位置の一例を示す図である。以下では、ユーザ３１の動作が変化した場合に、各仮想音源８１～８３の距離および角度の双方が変化する場合を説明する。

　図８の（ａ）では、ユーザ３１は現在静止しているので、取得された３つの音声信号に対応する仮想音源８１～８３が、ユーザ３１の周囲における位置（ｒ_２、θ_１）、位置（ｒ_２、θ_２）、および位置（ｒ_２、θ_３）にそれぞれ配置される。一方、図８の（ｂ）では、ユーザ３１は現在前方（方向Ｘ）に移動しているので、仮想音源８１～８３が、ユーザ３１の周囲における位置（ｒ_３、θ_４）、位置（ｒ_３、θ_５）、および位置（ｒ_３、θ_６）に配置される。このとき、仮想音源７１～７３の距離がいずれもｒ₂からｒ_３に変化し、かつ、仮想音源７１～７３の角度がθ_１、θ_２、およびθ_３からθ_４、θ_５、およびθ_６にそれぞれ変化する。

　＜変形例＞
　本実施形態では、ユーザ動作検知部１２１が、ユーザ３１の動作として「静止」または「移動」を検知し、仮想音源位置決定部１２２は、検知されたこれらの「静止」または「移動」に応じた仮想音源の位置を決定する例を説明した。しかし、ユーザ動作検知部１２１および仮想音源位置決定部１２２の処理は、これに限定されない。たとえば、ユーザ動作検知部１２１は、ユーザ３１の動作として、ユーザ３１が一定の領域を注視していることを表す「注視」、または、ユーザ３１が一定の領域を注視していないことを表す「非注視」を検知することもできる。この場合、仮想音源位置決定部１２２は、仮想音源の位置を、検知された「注視」または「非注視」に基づく位置に決定する。

　ユーザ動作検知部１２１は、ユーザ３１に取り付けられた各種センサからの出力に基づき、ユーザ３１の動作が「注視」または「非注視」のいずれであるかを検知する。具体的には、ユーザ３１にジャイロセンサが取り付けられている場合、ユーザ動作検知部１２１は、予め設定された単位時間ｔ_１ごとのジャイロセンサの出力（すなわち角度）の変化が、予め設定された閾値Ｔｈ_１以内である場合、ユーザ３１の動作として「注視」を検知する。一方、角度の変化が閾値Ｔｈ_１よりも大きい場合、ユーザ３１の動作として「非注視」を検知する。

　ユーザ動作検知部１２１は、「注視」を検知した場合、ジャイロセンサからの出力に基づき、ユーザ３１が実際に注視している注視領域９４（一定の領域）を算出する。そして、「注視」を検知したことと、算出した注視領域９４とを仮想音源位置決定部１２２に通知する。仮想音源位置決定部１２２は、注視領域９４内に位置する仮想音源９１の位置を、検知された「注視」または「非注視」に基づき異ならせるように、仮想音源９１の位置を決定する。より具体的には、仮想音源位置決定部１２２は、「注視」が検知された場合の注視領域９４内に位置する仮想音源９１の距離を、「非注視」が検知された場合の注視領域９４内に位置する仮想音源９１の距離よりも短くするように、仮想音源９１の位置を決定する。

　図９の（ａ）は、本発明の実施形態１における、ユーザ３１が一定の注視領域９４を注視していない時の複数の仮想音源９１～９３の位置の一例を示す図である。図９の（ｂ）は、本発明の実施形態１における、ユーザ３１が注視領域９４を注視している時の複数の仮想音源９１～９３の位置の一例を示す図である。図９の（ｃ）は、本発明の実施形態１における、ユーザが注視領域を注視している時の複数の仮想音源の位置の他の例を示す図である。図９の（ｄ）は、本発明の実施形態１における、ユーザが注視領域を注視している時の複数の仮想音源の位置のさらに他の例を示す図である。

　図９の（ａ）に示すように、ユーザ３１の動作が「非注視」である場合、３つの仮想音源９１～９３が、それぞれ、位置（ｒ_２、θ_１）、位置（ｒ_２、θ_２）、および位置（ｒ_２、θ_３）に配置されている。ここで、ユーザ３１が注視領域９４を注視していることをユーザ動作検知部１２１が検知したとする。これにより、３つの仮想音源９１～９３のうち、注視領域９４に含まれる仮想音源９１の位置が、図９の（ｂ）に示すように、ユーザ３１により近い位置（ｒ_１、θ_１）に変更される。一方、残りの仮想音源９２および９３の位置は変更されない。

　以上の処理によって、ユーザ３１が注視領域９４を注視すると、注視領域９４内にある仮想音源９１から発せられる音声が、注視前に比べてユーザ３１により近づいて聞こえるようになる。すなわち、３つの仮想音源９１～９３のうち、ユーザ３１が現在関心を持つと思われる仮想音源９１からの音声が、より大きく聞こえるようになるので、ユーザ３１をより満足させることができる。

　注視時の３つの仮想音源９１～９３の位置変更は、図９の（ｂ）に示す例に限定されない。ユーザ３１が注視領域９４を注視していることをユーザ動作検知部１２１が検知した場合、３つの仮想音源９１～９３の位置は、図９の（ｃ）に示す位置に変更されてもよい。図９の（ｃ）の例では、注視領域９４に含まれる仮想音源９１の位置は変更されず、一方、仮想音源９２および９３の位置は、ユーザ３１からより遠い位置（ｒ_３、θ_２）および位置（ｒ_３、θ_３）に変更される。

　以上の処理によって、ユーザ３１が注視領域９４を注視すると、注視領域９４外にある仮想音源９２および９３から発せられる各音声が、注視前に比べてユーザ３１からより遠ざかって聞こえるようになる。この結果、３つの仮想音源９１～９３のうち、ユーザ３１が現在関心を持つと思われる仮想音源９１からの音声が、相対的により大きく聞こえるようになるので、ユーザ３１をより満足させることができる。

　注視時の３つの仮想音源９１～９３の位置変更は、図９の（ｂ）に示す例および図９の（ｃ）に示す例に限定されない。ユーザ３１が注視領域９４を注視していることをユーザ動作検知部１２１が検知した場合、３つの仮想音源９１～９３の位置は、図９の（ｄ）に示す位置に変更されてもよい。図９の（ｄ）の例では、注視領域９４に含まれる仮想音源９１の位置は変更されず、一方、仮想音源９２および９３の位置は、注視領域９４の反対側にある領域９５（他の領域）内の位置（ｒ_２、θ_４）および位置（ｒ_２、θ_５）にそれぞれ移動する。

　以上の処理によって、ユーザ３１が注視領域９４を注視すると、注視領域９４内にある仮想音源９１から発される音声は、ユーザ３１の正面から聞こえるようになり、一方、注視領域９４外にある仮想音源９２および９３から発せられる各音声は、ユーザ３１の背後から聞こえるようになる。この結果、３つの仮想音源９１～９３のうち、ユーザ３１が現在関心を持つと思われる仮想音源９１からの音声が、より聞きやすくなるので、ユーザ３１をより満足させることができる。なお、領域９５は、注視領域９４の反対側に限らず、注視領域とは異なる場所にある任意の領域であり得る。

　ユーザ動作検知部１２１によって検知されるユーザ３１の動作は、「注視」および「非注視」に限られない。たとえばユーザ動作検知部１２１は、ジャイロセンサからの出力とおよび加速度センサから出力との双方に基づき、ユーザが横たわった状態を検知することができる。この場合、ユーザ動作検知部１２１は、ユーザ３１の動作として、ユーザ３１が眠っていることを表す「睡眠」を検知し、仮想音源位置決定部１２２に通知する。仮想音源位置決定部１２２は、「睡眠」が通知された場合、各仮想音源から出力される音声のボリュームを下げたり、または各仮想音源からの音声の出力を停止したりすることを、決定してもよい。この結果、ユーザ３１の睡眠が各仮想音源からの音声によって阻害されることを、防止することができる。

　本実施形態では、説明の簡単のため、仮想音源位置決定部１２２によって検知されるユーザの動作が互いに異なる２種類である場合を説明したが、本発明はこれに限定されない。仮想音源位置決定部１２２によって検知されるユーザ３１の動作は、互いに異なる３種類以上の動作のいずれかであってもよい。

　また、本実施形態では、音声信号を再生する音声信号再生装置１と、音声を出力するイヤホン２４とを備えている音声信号再生システム２について説明したが、本発明の実施形態はこのような構成に特に限定されない。たとえば音声信号再生装置１は、チューナ、プレーヤ、およびスピーカによって構成されるオーディオシステム（各構成要素は別体であってもよく、または一体に形成されていてもよい）において、スピーカに音声信号を出力するプレーヤとして実現されることができる。または、音声信号再生装置１は、音声信号処理が可能な音声信号再生装置（プレーヤ）および音声出力可能な音声出力機器（たとえばスピーカまたはヘッドホン）によって構成される単体の装置としても、実現される。

　〔実施形態２〕
　本発明に係る実施形態２について、図１０～図１２に基づき以下に説明する。上述した実施形態１と共通する各部材には同じ符号を付し、詳細な説明を省略する。

　実施形態１では、仮想音源位置決定部１２２が、ユーザ動作検知部１２１によって検知されたユーザ３１の動作のみに基づき各仮想音源の位置を決定する例を説明したが、本発明はこれには限定されない。本実施形態では、仮想音源位置決定部１２２が、検知されたユーザ３１の動作と、各音声信号に付加された所定のメタデータ（付加データ）との双方に基づき各仮想音源の位置を決定する例について、説明する。

　（音声信号再生装置１ａの構成）
　まず、図１０を参照して、本実施形態に係る音声信号再生装置１ａの構成の概要について説明する。図１０は、本発明の実施形態２に係る音声信号再生装置１ａの要部構成を示すブロック図である。この図に示すように、音声信号再生装置１は、実施形態１に係る音声信号再生装置１に備えられる各部材に加えて、さらに、メタデータ取得部１５（付加データ取得部）を備えている。これに伴い、本実施形態に係る仮想音源位置決定部１２２による処理の内容が、実施形態１に係る仮想音源位置決定部１２２による処理の内容と異なっている。音声信号取得部１１等のその他の部材による処理の内容は実施形態１におけるそれと同一であるため、詳細な説明を省略する。

　メタデータ取得部１５は、音声信号取得部１１によって取得される各音声信号に付加される所定のメタデータを取得し、仮想音源位置決定部１２２に出力する。本実施形態では、メタデータ取得部１５は、各音声信号に付加されるメタデータを、音声信号取得部１１によって取得される音声信号とは別に、音声信号再生装置１ａの外部から取得する。メタデータ取得部１５は、有線通信または無線通信のいずれによっても、メタデータを取得することができる。一方、メタデータが予め記憶部１４に記憶されている場合、メタデータ取得部１５は記憶部１４からメタデータを取得してもよい。

　音声信号と、これに対応するメタデータとは、音声信号再生装置１ａの外部において、これらを対にした任意の音声ファイル形式の音声データとして管理されていてもよい。この場合、音声信号再生装置１ａまたは音声信号再生システム２のいずれかに備えられるデコーダ（不図示）が、この音声データを取得しかつ適切にデコードすることによって、音声データを音声信号とメタデータとに分離する。音声信号取得部１１は、デコーダによって音声データ分離された音声信号を取得し、一方、メタデータ取得部１５は、デコーダによって音声データから分離されたメタデータを取得する。

　（処理の流れ）
　本実施形態に係る音声信号再生装置１ａによって実行される処理の詳細について、図１０の各矢印によって示されるデータの流れに基づき、以下に説明する。

　音声信号取得部１１は、信号受信装置２１を通じて、音声信号再生装置１の外部（たとえば携帯端末２５）から少なくとも１つの音声信号を取得し、仮想音源位置決定部１２２に出力する。一方、ユーザ動作検知部１２１は、音声信号再生装置１のユーザ３１の現在動作を検知し、仮想音源位置決定部１２２に通知する。

　仮想音源位置決定部１２２は、通知されたユーザ３１の動作と、入力されたメタデータとに基づき、入力された各音声信号によって表される各音声が仮想的に出力される仮想音源の位置を決定する。また、仮想音源位置決定部１２２は、通知されたユーザ３１の動作と、記憶部１４に予め記憶されている各仮想音源の位置を示す位置情報とに基づき、仮想音源の位置を決定することもできる。仮想音源位置決定部１２２は、決定された各位置を、対応する各音声信号に関連付けて、音声信号処理部１２３に出力する。音声信号処理部１２３による処理は実施形態１と同一であるため、説明を省略する。

　（メタデータの各例）
　図１１の（ａ）～（ｃ）は、本発明の実施形態２におけるメタデータの各例を示す図である。図１１の（ａ）に示すメタデータは、３つの仮想音源のそれぞれについて、その位置の変更を許可するか否かを規定している。図１１の（ｂ）に示すメタデータは、３つの仮想音源のそれぞれについて、検知されたユーザ３１の各動作（静止または移動）に応じた、仮想音源からのユーザ３１への音声の出力の重要度を規定している。図１１の（ｃ）に示すメタデータは、３つの仮想音源のそれぞれについて、検知されたユーザ３１の各動作（静止または移動）に応じた仮想音源の位置を、２次元極座標上における絶対的な値として規定している。

　（仮想音源の位置）
　図１２の（ａ）は、本発明の実施形態２における、ユーザ３１が静止している時の複数の仮想音源１２１～１２３の位置の一例を示す図であり、図１２の（ｂ）は、本発明の実施形態２における、ユーザ３１が移動している時の複数の仮想音源１２１～１２３の位置の一例を示す図である。この図の例では、音声信号取得部１１は、音声信号再生装置１ａの外部から３つの異なる音声信号を取得する。また、メタデータ取得部１５は、図１１の（ａ）に示すメタデータを取得する。

　図１２の（ａ）では、ユーザ３１は現在静止しているので、ユーザ動作検知部１２１は、ユーザ３１の動作を「静止」であると検知する。記憶部１４には、ユーザ３１の動作が「静止」である場合の３つの仮想音源の位置として、位置（ｒ_２、θ_１）、位置（ｒ_２、θ_２）、および（ｒ_２、θ_３）を示すそれぞれ位置情報が記憶されている。そこで仮想音源位置決定部１２２は、取得された３つの音声信号に対応する３つの仮想音源１２１～１２３の位置を、それぞれ位置（ｒ_２、θ_１）、位置（ｒ_２、θ_２）、および（ｒ_２、θ_３）に決定する。これにより、図１２の（ａ）に示すように、仮想音源１２１～１２３が、ユーザ３１の周囲における位置（ｒ_２、θ_１）、位置（ｒ_２、θ_２）、および（ｒ_２、θ_３）にそれぞれ配置される。

　ここで、図１２の（ｂ）に示すように、ユーザ３１が、前方（方向Ｘ）への移動を開始したとする。このとき、ユーザ動作検知部１２１は、ユーザ３１の動作を「移動」であると検知する。記憶部１４には、ユーザ３１の動作が「移動」である場合の３つの仮想音源の位置として、位置（ｒ_３、θ_１）、位置（ｒ_３、θ_２）、および（ｒ_３、θ_３）を示すそれぞれ位置情報が記憶されている。そこで仮想音源位置決定部１２２は、取得された３つの音声信号に対応する３つの仮想音源１２１～１２３の位置を、検知された「移動」と、図１１の（ａ）に示すメタデータとの双方に応じた位置に決定する。

　具体的には、図１１の（ａ）に示すメタデータに、音源番号１に対応する仮想音源１２１および音源番号３に対応する仮想音源１２３の位置の移動を許可することが規定されているので、仮想音源位置決定部１２２は、仮想音源１２１および仮想音源１２３の位置を、「移動」に応じた位置情報に規定されている位置（ｒ_３、θ_１）および位置（ｒ_３、θ_３）に変更する。一方、図１１の（ａ）に示すメタデータに、音源番号２に対応する仮想音源１２２の位の移動を許可しないことが規定されているので、仮想音源位置決定部１２２は、仮想音源１２２の位置を、「移動」に応じた位置情報に規定されている位置（ｒ_３、θ_２）に変更せず、「静止」に応じた位置（ｒ_２、θ_２）のまま維持する。これにより、図１２の（ｂ）に示すように、仮想音源１２１～１２３が、ユーザ３１の周囲における位置（ｒ_３、θ_１）、位置（ｒ_２、θ_２）、および位置（ｒ_３、θ_３）にそれぞれ配置される。

　以上のように、本実施形態では、各仮想音源が、ユーザ３１の動作と、メタデータとに応じた位置に配置される。したがって、メタデータの内容を適宜変更することによって、ユーザ３１の動作に応じた各仮想音源の位置を柔軟に制御することができる。

　〔実施形態３〕
　本発明に係る実施形態３について、図１３に基づき以下に説明する。上述した実施形態１または２と共通する各部材には同じ符号を付し、詳細な説明を省略する。

　実施形態１では、音声信号取得部１１が、ユーザ動作検知部１２１によって検知されたユーザ３１の動作に無関係の音声信号を取得する例を説明したが、本発明はこれには限定されない。本実施形態では、音声信号取得部１１が、検知されたユーザ３１の動作に応じた適切な音声信号を取得する例について、以下に説明する。

　（音声信号再生装置１ｂの構成）
　まず、図１３を参照して、本実施形態に係る音声信号再生装置１ｂの構成の概要について説明する。図１３は、本発明の実施形態３に係る音声信号再生装置１ｂの要部構成を示すブロック図である。この図に示すように、音声信号再生装置１ｂが備える各部材は、実施形態１に係る音声信号再生装置１に備えられる各部材と同一である。ただし、本実施形態では、音声信号取得部１１およびユーザ動作検知部１２１による処理の内容が、実施形態１に係る仮想音源位置決定部１２２による処理の内容と異なっている。仮想音源位置決定部１２２等のその他の部材による処理の内容は実施形態１におけるそれと同一であるため、詳細な説明を省略する。

　本実施形態では、ユーザ動作検知部１２１が、検知したユーザ３１の動作を、仮想音源位置決定部１２２のみならず音声信号取得部１１にも通知する。そして音声信号取得部１１が、通知されたユーザ３１の動作に応じた音声信号を音声信号再生装置１ｂの外部から取得する。このように音声信号取得部１１は、通知されたユーザ３１の動作に基づき、携帯端末２５から取得する音声信号を変化させる。

　携帯端末２５には、ユーザ３１の各動作に対応する異なる音声信号が、予め用意されている。たとえば携帯端末２５には、「静止」に対応する音声信号Ａと「移動」に対応する音声信号とが予め用意されている。音声信号Ａは、ユーザ３１が静止しているときに再生されることが好ましい信号であり、一方、音声信号Ｂは、ユーザ３１が移動しているときに再生されることが好ましい信号である。

　音声信号取得部１１は、検知されたユーザ３１の動作が「静止」である場合、「静止」に対応する音声信号Ａを携帯端末２５に要求する。携帯端末２５は、その要求に応えて音声信号Ａを音声信号取得部１１に提供する。これにより、ユーザ３１の静止時に再生されることが好ましい音声信号Ａが、実際のユーザ３１が静止しているときに再生される。したがってユーザ３１は、自身の静止時に、その状態に相応しい音声を、静止に対応した適切な位置の仮想音源から出力される音声として、知覚する。

　音声信号取得部１１は、検知されたユーザ３１の動作が「移動」である場合、「移動」に対応する音声信号Ｂを携帯端末２５に要求する。携帯端末２５は、その要求に応えて音声信号Ｂを音声信号取得部１１に提供する。これにより、ユーザ３１の移動時に再生されることが好ましい音声信号Ｂが、実際にユーザ３１が移動しているときに再生される。したがってユーザ３１は、自身の移動時に、その状況に相応しい音声を、移動に対応した適切な位置の仮想音源から出力される音声として、知覚する。

　（処理の流れ）
　本実施形態に係る音声信号再生装置１ｂによって実行される処理の詳細について、図１３の各矢印によって示されるデータの流れに基づき、以下に説明する。

　ユーザ動作検知部１２１は、音声信号再生装置１のユーザ３１の現在動作を検知し、音声信号取得部１１および仮想音源位置決定部１２２に通知する。音声信号取得部１１は、信号受信装置２１を通じて、音声信号再生装置１の外部（たとえば携帯端末２５）から、通知されたユーザ３１の動作に応じた少なくとも１つの音声信号を取得し、仮想音源位置決定部１２２に出力する。

　仮想音源位置決定部１２２は、通知されたユーザ３１の動作に基づき、入力された各音声信号によって表される各音声が仮想的に出力される仮想音源の位置を決定する。仮想音源位置決定部１２２は、決定された各位置を、対応する各音声信号に関連付けて、音声信号処理部１２３に出力する。音声信号処理部１２３は、決定された位置に応じた立体音響処理を音声信号に施す。

　〔まとめ〕
　本発明の態様１に係る音声信号再生装置は、
　音声を示す音声信号を取得する取得部（音声信号取得部１１）と、
　ユーザの動作を検知する検知部（ユーザ動作検知部１２１）と、
　検知された上記動作に基づき、取得された上記音声信号によって表される上記音声が出力される仮想音源の位置を決定する決定部（仮想音源位置決定部１２２）と、
　決定された上記仮想音源の位置に応じた立体音響処理を、取得された上記音声信号に施す処理部（音声信号処理部１２３）と、
　上記立体音響処理が施された上記音声信号を再生する再生部（音声信号再生部１３）とを備えていることを特徴としている。

　上記の構成によれば、検知されたユーザの動作に応じた適切な位置に、仮想音源が配置される。これにより音声信号再生装置は、ユーザの動作に適した位置から音声が出力されるように音声信号を再生することができる。

　本発明の態様２に係る音声信号再生装置は、上記態様１において、
　上記決定部は、上記ユーザを基準にした所定の原点から上記仮想音源までの距離および上記原点に対する上記仮想音源の角度のうち少なくともいずれかを、検知された上記ユーザの動作に基づき異ならせるように、上記仮想音源の位置を決定することを特徴としている。

　上記の構成によれば、仮想音源の距離および角度の少なくともいずれかが、ユーザの動作に応じた適切な値になるように、仮想音源の位置が決定される。

　本発明の態様３に係る音声信号再生装置は、上記態様２において、
　上記検知部は、上記ユーザの動作として、上記ユーザが移動していることを示す移動または上記ユーザが静止していることを示す静止を検知し、
　上記決定部は、上記仮想音源の位置を、検知された上記移動または上記静止に基づき異ならせるように、上記仮想音源の位置を決定することを特徴としている。

　上記の構成によれば、ユーザの静止時および移動時において、ユーザの動作に応じた適切な位置に仮想音源が配置される。

　本発明の態様４に係る音声信号再生装置は、上記態様３において、
　上記決定部は、上記移動が検知された場合、上記仮想音源の位置を上記ユーザの後方に決定し、上記静止が検知された場合、上記仮想音源の位置を上記ユーザの前方に決定することを特徴としている。

　上記の構成によれば、ユーザは、静止時には自身の前方の仮想音源から聞こえていた音声が、移動時には自身の後方の仮想音源から聞こえるようになる。これにより、移動時にユーザの前方から音声が発せられなくなるので、ユーザが前方から発せられる音声を気にして前方への移動をためらうことを、防止することができる。この結果、ユーザは、前方に移動するという自身の行動を、仮想音源から出力される音声によって阻害されずに済む。

　本発明の態様５に係る音声信号再生装置は、上記態様３または４において、
　上記決定部は、上記移動が検知された場合の上記仮想音源の上記距離を、上記静止が検知された場合の上記仮想音源の上記距離よりも長くするように、上記仮想音源の位置を決定することを特徴としている。

　上記の構成によれば、移動時にユーザの近くから発せられる周囲音と、仮想音源から出力される音声とが聞き分けやすくなるので、ユーザが周囲音をより聞き取りやすくなる。そのためユーザは、移動中に周囲音を確認するために立ち止まる必要がない。この結果、ユーザは、移動するという自身の行動を、仮想音源から出力される音声によって阻害されずに済む。

　本発明の態様６に係る音声信号再生装置は、上記態様２において、
　上記検知部は、上記動作として、上記ユーザが一定の領域を注視していることを表す注視または上記ユーザが上記一定の領域を注視していないことを表す非注視を検知し、
　上記決定部は、上記一定の領域内に位置する上記仮想音源の位置を、検知された上記注視または上記非注視に基づき異ならせるように、上記仮想音源の位置を決定することを特徴としている。

　上記の構成によれば、ユーザの注視時および非注注視時において、ユーザの動作に応じた適切な位置に仮想音源が配置される。

　本発明の態様７に係る音声信号再生装置は、上記態様６において、
　上記決定部は、上記注視が検知された場合の上記一定の領域内に位置する上記仮想音源の上記距離を、上記非注視が検知された場合の上記一定の領域内に位置する上記仮想音源の上記距離よりも短くするように、上記仮想音源の位置を決定することを特徴としている。

　上記の構成によれば、ユーザが一定の領域を注視すると、当該領域内にある仮想音源から発せられる音声が、注視前に比べてユーザにより近づいて聞こえるようになる。すなわち、ユーザが現在関心を持つと思われる仮想音源からの音声が、より大きく聞こえるようになるので、ユーザをより満足させることができる。

　本発明の態様８に係る音声信号再生装置は、上記態様６または７において、上記決定部は、上記注視が検知された場合の上記一定の領域外に位置する上記仮想音源の上記距離を、上記非注視が検知された場合の上記一定の領域外に位置する上記仮想音源の上記距離よりも長くするように、上記仮想音源の位置を決定することを特徴としている。

　上記の構成によれば、ユーザが一定の領域を注視すると、当該領域外にある仮想音源から発せられる音声が、注視前に比べてユーザから遠ざかって聞こえるようになる。この結果、ユーザが現在関心を持つと思われる仮想音源からの音声が、相対的により大きく聞こえるようになるので、ユーザをより満足させることができる。

　本発明の態様９に係る音声信号再生装置は、上記態様６～８のいずれかにおいて、上記決定部は、上記注視が検知された場合、上記一定の領域外に位置する上記仮想音源の上記位置を上記一定の領域とは異なる他の領域に移動させるように、上記仮想音源の位置を決定することを特徴としている。

　上記の構成によれば、ユーザが一定の領域を注視すると、当該領域外にある仮想音源から発せられる音声が、当該領域とは異なる他の領域（たとえばユーザの背後）から聞こえるようになる。この結果、ユーザが現在関心を持つと思われる仮想音源からの音声が、より聞こえやすくなるので、ユーザをより満足させることができる。

　本発明の態様１０に係る音声信号再生装置は、上記態様１～９のいずれかにおいて、
　上記音声信号に付加される所定の付加データを取得する付加データ取得部をさらに備えており、
　上記決定部は、検知された上記動作と取得された上記付加データとの双方に基づき、上記仮想音源の位置を決定することを特徴としている。

　上記の構成によれば、付加データの内容を適宜変更することによって、ユーザの動作に応じた仮想音源の位置を柔軟に制御することができる。

　本発明の態様１１に係る音声信号再生装置は、上記態様１～１０のいずれかにおいて、
　上記取得部は、検知された上記ユーザの動作に応じた上記音声信号を取得することを特徴としている。

　上記の構成によれば、ユーザは、自身の行動に相応しい音声を、その行動に応じた適切な位置の仮想音源から出力される音声として、知覚することができる。

　本発明の態様１２に係る音声信号再生方法は、
　音声を示す音声信号を取得する取得工程と、
　ユーザの動作を検知する検知工程と、
　検知された上記ユーザの動作に基づき、取得された上記音声信号によって表される上記音声が出力される仮想音源の位置を決定する決定工程と、
　決定された上記仮想音源の位置に応じた立体音響処理を、取得された上記音声信号に施す処理工程と、
　上記立体音響処理が施された上記音声信号を再生する再生工程とを有することを特徴としている。

　上記の構成によれば、上記態様１に係る音声信号再生装置と同様の作用効果を奏する。

　本発明の各態様に係る音声信号再生装置は、コンピュータによって実現してもよい。この場合、コンピュータを上記音声信号再生装置が備える各部として動作させることによって上記音声信号再生装置をコンピュータにて実現させる音声信号再生装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

　〔ソフトウェアによる実現例〕
　図１に示す音声信号再生装置１の各機能ブロックは、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

　後者の場合、音声信号再生装置１は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（又はＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）又は記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）等を備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。

　上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路等を用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

　同様に、図１０に示す音声信号再生装置１ａおよび図１３に示す音声信号再生装置１ｂも、ハードウエアまたはソフトウェアのずれかによって実現することができる。

　本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることによって、新しい技術的特徴を形成することができる。

　本発明は、各種のポータブル音楽プレーヤまたはオーディオシステム等として好適に利用することができる。

　１，１ａ、１ｂ　音声信号再生装置
　２　音声信号再生システム
　１１　音声信号取得部（取得部）
　１２　制御部
　１４　記憶部
　１５　メタデータ取得部（付加データ取得部）
　１２１　ユーザ動作検知部（検知部）
　１２２　仮想音源位置決定部（決定部）
　１２３　音声信号処理部（処理部）
　２２　ＤＡＣ
　２３　増幅装置
　２４　イヤホン

Claims

　音声を示す音声信号を取得する取得部と、
　ユーザの動作を検知する検知部と、
　検知された上記動作に基づき、取得された上記音声信号によって表される上記音声が出力される仮想音源の位置を決定する決定部と、
　決定された上記仮想音源の位置に応じた立体音響処理を、取得された上記音声信号に施す処理部と、
　上記立体音響処理が施された上記音声信号を再生する再生部とを備えていることを特徴とする音声信号再生装置。
　上記決定部は、上記ユーザを基準にした所定の原点から上記仮想音源までの距離および上記原点に対する上記仮想音源の角度のうち少なくともいずれかを、検知された上記ユーザの動作に基づき異ならせるように、上記仮想音源の位置を決定することを特徴とする請求項１に記載の音声信号再生装置。
　上記検知部は、上記ユーザの動作として、上記ユーザが移動していることを示す移動または上記ユーザが静止していることを示す静止を検知し、
　上記決定部は、上記仮想音源の位置を、検知された上記移動または上記静止に基づき異ならせるように、上記仮想音源の位置を決定することを特徴とする請求項２に記載の音声信号再生装置。
　上記決定部は、上記移動が検知された場合、上記仮想音源の位置を上記ユーザの後方に決定し、上記静止が検知された場合、上記仮想音源の位置を上記ユーザの前方に決定することを特徴とする請求項３に記載の音声信号再生装置。
　上記決定部は、上記移動が検知された場合の上記仮想音源の上記距離を、上記静止が検知された場合の上記仮想音源の上記距離よりも長くするように、上記仮想音源の位置を決定することを特徴とする請求項３または４に記載の音声信号再生装置。
　上記検知部は、上記動作として、上記ユーザが一定の領域を注視していることを表す注視または上記ユーザが上記一定の領域を注視していないことを表す非注視を検知し、
　上記決定部は、上記一定の領域内に位置する上記仮想音源の位置を、検知された上記注視または上記非注視に基づき異ならせるように、上記仮想音源の位置を決定することを特徴とする請求項２に記載の音声信号再生装置。
　上記決定部は、上記注視が検知された場合の上記一定の領域内に位置する上記仮想音源の上記距離を、上記非注視が検知された場合の上記一定の領域内に位置する上記仮想音源の上記距離よりも短くするように、上記仮想音源の位置を決定することを特徴とする請求項６に記載の音声信号再生装置。
　上記決定部は、上記注視が検知された場合の上記一定の領域外に位置する上記仮想音源の上記距離を、上記非注視が検知された場合の上記一定の領域外に位置する上記仮想音源の上記距離よりも長くするように、上記仮想音源の位置を決定することを特徴とする請求項６または７に記載の音声信号再生装置。
　上記決定部は、上記注視が検知された場合、上記一定の領域外に位置する上記仮想音源の上記位置を上記一定の領域とは異なる他の領域に移動させるように、上記仮想音源の位置を決定することを特徴とする請求項６～７のいずれか１項に記載の音声信号再生装置。
　上記音声信号に付加される所定の付加データを取得する付加データ取得部をさらに備えており、
　上記決定部は、検知された上記動作と取得された上記付加データとの双方に基づき、上記仮想音源の位置を決定することを特徴とする請求項１～９のいずれか１項に記載の音声信号再生装置。
　音声を示す音声信号を取得する取得工程と、
　ユーザの動作を検知する検知工程と、
　検知された上記ユーザの動作に基づき、取得された上記音声信号によって表される上記音声が出力される仮想音源の位置を決定する決定工程と、
　決定された上記仮想音源の位置に応じた立体音響処理を、取得された上記音声信号に施す処理工程と、
　上記立体音響処理が施された上記音声信号を再生する再生工程とを有することを特徴とする音声信号再生方法。