WO2019049409A1

WO2019049409A1 - 音声信号処理装置および音声信号処理システム

Info

Publication number: WO2019049409A1
Application number: PCT/JP2018/014536
Authority: WO
Inventors: 健明末永; 永雄服部
Original assignee: シャープ株式会社
Priority date: 2017-09-11
Filing date: 2018-04-05
Publication date: 2019-03-14
Also published as: US20200280815A1; JPWO2019049409A1

Abstract

本発明の一形態は、入力した音声信号をレンダリングして、受聴可能領域の位置移動しない第１音声信号出力部（１０６）と、該位置移動できる第２音声信号出力部（１０７）とのうち、視聴者位置情報取得部（１０２）が取得した位置情報に応じた１つ以上の音声信号出力部に出力する音声信号レンダリング部（１０４）を備える。

Description

音声信号処理装置および音声信号処理システム

　本発明は、音声信号処理装置および音声信号処理システムに関する。

　現在、放送波、ＤＶＤ（Digital Versatile Disc）およびＢＤ（Blu-ray（登録商標） Disc）などのディスクメディアまたはインターネットを介すなどして、ユーザはマルチチャンネル音声（サラウンド音声）を含むコンテンツを簡単に入手できるようになった。映画館等においてはＤｏｌｂｙ　Ａｔｍｏｓに代表されるオブジェクトベースオーディオによる立体音響システムが多く配備され、更に日本においては、次世代放送規格に２２．２ｃｈオーディオが採用されるなど、ユーザがマルチチャンネルコンテンツに触れる機会は格段に多くなった。従来のステレオ方式の音声信号に関しても、マルチチャンネル化手法が様々検討されており、ステレオ信号の各チャンネル間の相関に基づいてマルチチャネル化する技術が特許文献１に開示されている。

　マルチチャンネル音声を再生するシステムについても、前述の映画館またはホールのような大型音響設備が配された施設以外でも、家庭で手軽に楽しめるようなシステムが一般的となりつつあり、ユーザ（聴取者）は、国際電気通信連合（International Telecommunication Union；ＩＴＵ）が推奨する配置基準に基づいて複数のスピーカを配置することで、５．１ｃｈまたは７．１ｃｈなどのマルチチャンネル音声を聴取する環境を家庭内に構築することができる。また、少ないスピーカ数で、マルチチャンネルの音像定位を再現する手法なども研究されている（非特許文献１）。

日本国公開特許公報「特開２０１３－０５５４３９号公報」日本国公表特許公報「特表平１０－５００８０９」日本国公表特許公報「特表２０１２－５０５５７５」ＷＯ１５／０６８７５６

Virtual Sound Source Positioning Using Vector Base AmplitudePanning, VILLE PULKKI, J. Audio. Eng., Vol. 45, No. 6, 1997 June

　前述の通り、５．１ｃｈ音声を再生する音声再生システムはＩＴＵが推奨する配置基準に基づいてスピーカを配置することで、前後左右の音像の定位感および音による包まれ感を享受できる。一方でユーザ周囲にスピーカを配置することが求められ、また各スピーカとユーザの相対的な位置関係を一定距離に保つ必要がある。このことから、マルチチャネルの効果を享受できる視聴（聴取）可能領域、すなわちスイートスポットは理想的には１点に限定され、多人数視聴時にすべての視聴者が同じ効果を得ることは難しいだけではなく、スイートスポット外の視聴者は本来スイートスポットで得られる効果とは異なる効果、例えば視聴者左方に定位すべき音声が右方に定位するなど、が発生しうる。

　マルチチャネルオーディオを、イヤホンまたはヘッドホンによって再生する方法も検討されており、バイノーラル再生によって、マルチチャネル音声を想定再生位置から仮想的に再生させる手法が特許文献２および特許文献３に示されている。しかしながら、バイノーラル再生法では、視聴環境に合わせた音の広がりの演出、例えば、視聴環境の広さに合わせた音の広がりを演出することは難しい。

　そこで、本発明の一態様は、ユーザに対し高品位な音場を提供可能な音声信号処理装置および音声信号処理システムを実現することを目的とする。

　上記の課題を解決するために、本発明の一態様に係る音声信号処理装置は、マルチチャネルの音声信号処理装置であって、入力された音声信号が音像定位すべき音声信号であるか否かを示す情報を取得する音像定位情報取得部と、入力された音声信号をレンダリングして、受聴可能領域の位置を受聴中に移動しない第１音声信号出力部と、受聴可能領域の位置を受聴中に移動できる第２音声信号出力部とのうち、上記情報に応じた１つ以上の音声信号出力部に出力するレンダリング部とを備えていることを特徴としている。

　また、上記の課題を解決するために、本発明の一態様に係る別の音声信号処理装置は、マルチチャネルの音声信号処理装置であって、受聴者の位置情報を取得する位置情報取得部と、入力された音声信号をレンダリングして、受聴可能領域の位置を受聴中に移動しない第１音声信号出力部と、受聴可能領域の位置を受聴中に移動できる第２音声信号出力部とのうち、上記位置情報に応じた１つ以上の音声信号出力部に出力するレンダリング部とを備えていることを特徴としている。

　また、上記の課題を解決するために、本発明の一態様に係る音声信号処理システムは、マルチチャネルの音声信号処理システムであって、受聴可能領域の位置を受聴中に移動しない第１音声信号出力部、および、受聴可能領域の位置を受聴中に移動できる第２音声信号出力部と、入力された音声信号が音像定位すべき音声信号であるか否かを示す情報を取得する音像定位情報取得部と、入力された音声信号をレンダリングして、受聴可能領域の位置を受聴中に移動しない第１音声信号出力部と、受聴可能領域の位置を受聴中に移動できる第２音声信号出力部とのうち、上記情報に応じた１つ以上の音声信号出力部に出力するレンダリング部とを備えていることを特徴としている。

　また、上記の課題を解決するために、本発明の一態様に係る別の音声信号処理システムは、マルチチャネルの音声信号処理システムであって、受聴可能領域の位置を受聴中に移動しない第１音声信号出力部、および、受聴可能領域の位置を受聴中に移動できる第２音声信号出力部と、受聴者の位置情報を取得する位置情報取得部と、入力された音声信号をレンダリングして、受聴可能領域の位置を受聴中に移動しない第１音声信号出力部と、受聴可能領域の位置を受聴中に移動できる第２音声信号出力部とのうち、上記位置情報に応じた１つ以上の音声信号出力部に出力するレンダリング部とを備えていることを特徴としている。

　本発明の一態様によれば、ユーザに対し高品位な音場を提供可能である。

本発明の一実施形態に係る音声信号処理システムの主要な構成を示すブロック図である。本発明の一実施形態に係る音声信号処理システムに含まれるコンテンツ解析部によって解析されて得られる、発音オブジェクト位置情報を含むトラック情報の構成を概念的に示した図である。図２に示す発音オブジェクト位置情報の一部として記録されている音像位置の座標系を説明する図である。本発明の一実施形態に係る音声信号処理システムに含まれる音声信号レンダリング部においておこなわれるレンダリング処理のフローを説明する図である。ユーザ位置を模式的に示した上面図である。本発明の他の実施形態にかかる音声信号処理システムの主要な構成を示すブロック図である。本発明の更に別の実施形態にかかる音声信号処理システムの主要な構成を示すブロック図である。本発明の他の実施形態に係る音声信号処理システムに含まれる音声信号レンダリング部においておこなわれるレンダリング処理のフローを説明する図である。ユーザ位置を模式的に示した上面図である。本発明の他の実施形態に係る音声信号処理システムのユーザ位置とスピーカとの位置関係を示す上面図である。本発明の他の実施形態に係る音声信号処理システムのユーザ位置とスピーカとの位置関係を示す上面図である。ユーザ位置を模式的に示した上面図である。

　〔実施形態１〕
　以下、本発明の一実施形態について、図１から図５を用いて説明する。

　図１は、本実施形態１における音声信号処理システム１の主要な構成を示すブロック図である。本実施形態１に係る音声信号処理システム１は、第１音声信号出力部１０６および第２音声信号出力部１０７と、音声信号処理部１０（音声信号処理装置）とを備える。

　＜第１音声信号出力部１０６および第２音声信号出力部１０７＞
　第１音声信号出力部１０６および第２音声信号出力部１０７は共に、音声信号処理部１０によって再構築された音声信号を取得し、音声を再生する。

　第１音声信号出力部１０６（据え置き型のスピーカ）は、独立した複数のスピーカによって構成され、個々のスピーカはスピーカユニット、および、これを駆動させる増幅器（アンプ）によって構成される。第１音声信号出力部１０６は、受聴可能領域の位置を受聴中に移動しないタイプの音声信号出力機器である。受聴可能領域の位置を受聴中に移動しないタイプの音声信号出力機器とは、受聴中は受聴可能領域を移動させずに用いる機器を意図している。受聴中でない場合には（例えば、音声信号出力機器の設置時には）、当該音声信号出力機器は、受聴可能領域の位置を移動することができるもの（移動可能なもの）であってもよい。また、当該音声信号出力機器は、受聴中でない場合にも、受聴可能領域の位置を移動することができないものであってもよい。

　第２音声信号出力部１０７（受聴者携帯型のスピーカ）、開放型ヘッドホンまたはイヤホン、および、これを駆動させる増幅器によって構成される。第２音声信号出力部１０７は、受聴可能領域の位置を受聴中に移動できるタイプの音声信号出力機器である。受聴可能領域の位置を受聴中に移動できるタイプの音声信号出力機器とは、受聴中にも受聴可能領域の位置を移動させることができる機器を意図している。例えば、当該音声信号出力機器は、受聴中に音声信号出力機器自体がユーザと共に移動し、それに伴って受聴可能領域の位置が移動する携帯型の音声信号出力機器であってもよい。また、当該音声信号出力機器は、受聴中に音声信号出力機器自体は移動せずに受聴可能領域の位置を移動させる機能を有する音声信号出力機器などであってもよい。

　また、後述するように、視聴者の位置を取得する方法の一例として、第２音声信号出力部１０７に位置情報発信機器を付しておき、その位置情報を取得する構成とすることができる。視聴環境の任意の数か所に設置されたビーコンと第２音声信号出力部１０７に付されたビーコンとを活用して、位置情報を取得するようにしてもよい。

　なお、第１音声信号出力部１０６並びに第２音声信号出力部１０７は上記の組み合わせに限定されるものではない。例えば、第１音声信号出力部１０６が、モノラルスピーカまたは５．１ｃｈなどのサラウンドスピーカセットであってもよいことは言うまでもない。また、第２音声信号出力部１０７が、ユーザの手元に位置する小型のスピーカまたはスマートフォンおよびタブレットなどに代表される携帯端末であってもよい。また、接続される音声信号出力部の数も２つだけに限定されるものではなく、これより多くてもよい。

　＜音声信号処理部１０＞
　音声信号処理部１０は、マルチチャネルの音声信号処理装置であって、入力された音声信号を再構築し、再構築した音声信号を第１音声信号出力部１０６および第２音声信号出力部１０７に出力する。

　音声信号処理部１０は、図１に示すように、コンテンツ解析部１０１（解析部）と、視聴者位置情報取得部１０２（位置情報取得部）と、音声信号出力部情報取得部１０３（音声信号出力部情報取得部）と、音声信号レンダリング部１０４（音像定位情報取得部、レンダリング部）と、記憶部１０５とを有している。

　以下、音声信号処理部１０のそれぞれの構成について詳述する。

　[コンテンツ解析部１０１]
　コンテンツ解析部１０１は、ＤＶＤおよびＢＤなどのディスクメディア、ＨＤＤ（Hard Disc Drive）等の記録媒体に記録されている映像コンテンツまたは音声コンテンツに含まれる音声信号、ならびに、これに付随するメタデータを解析する。そして、コンテンツ解析部１０１は、これらを解析することで、発音オブジェクト位置情報（音声コンテンツに含まれる音声信号（音声トラック）の種別、および、音声信号が定位する位置情報）を得る。得た発音オブジェクト位置情報は、音声信号レンダリング部１０４に出力される。

　本実施形態１では、コンテンツ解析部１０１が受け取る音声コンテンツは１つ以上の音声トラックを含む音声コンテンツであるものとする。

　（音声トラック）
　ここで、この音声トラックは、大きく以下の２種類に分類される。例えば、一方としては、ステレオ（２ｃｈ）および５．１ｃｈなどに採用されているような、既定のスピーカの位置と音声トラックとを対応付ける「チャネルベース」の音声トラックが挙げられる。また、もう一方としては、個々の発音オブジェクト単位を１トラックとし、この位置的・音量的変化を記述した付随情報を付与した「オブジェクトベース」の音声トラックが挙げられる。

　「オブジェクトベース」の音声トラックの概念について説明する。オブジェクトベースに基づく音声トラックは個々の発音オブジェクト単位で各トラックに記録、すなわち、ミキシングせずに記録しておき、プレイヤー（再生機）側でこれら発音オブジェクトを適宜レンダリングするものである。各々の規格・フォーマットにおいて差はあるものの、一般的には、これら発音オブジェクトには各々、いつ、どこで、どの程度の音量で発音されるべきかといったメタデータ（付随情報）が紐づけられている。プレイヤーは当該メタデータに基づいて個々の発音オブジェクトをレンダリングする。

　他方、「チャネルベーストラック」は、例えば５．１ｃｈサラウンドなど、従来のサラウンド等で採用されているものである。また、チャネルベーストラックは、予め規定された再生位置（スピーカの配置）から発音される前提で、個々の発音オブジェクトをミキシングした状態で記録されたトラックである。

　なお、１コンテンツに含まれる音声トラックは、上記２種類の音声トラックのいずれか片方のみを含んでいてもよいし、２種類の音声トラックが混在していてもよい。

　（発音オブジェクト位置情報）
　発音オブジェクト位置情報について、図２を用いて説明する。

　図２は、コンテンツ解析部１０１によって解析されて得られる、発音オブジェクト位置情報を含むトラック情報２０１の構成を概念的に示したものである。

　コンテンツ解析部１０１は、コンテンツに含まれる音声トラック全てを解析し、図２に示すトラック情報２０１として再構成するものとする。

　トラック情報２０１には、各音声トラックのＩＤと、その音声トラックの種別とが記録されている。

　更にトラック情報２０１には、音声トラックがオブジェクトベースのトラックである場合、１つ以上の発音オブジェクト位置情報がメタデータとして付随している。発音オブジェクト位置情報は、再生時刻と、その再生時刻での音像位置とのペアで構成される。

　他方、音声トラックがチャネルベースのトラックである場合も同様に、再生時刻と、その再生時刻での音像位置（再生位置）とのペアが記録される。ただし、チャネルベースのトラックである場合の再生時刻はコンテンツの開始から終了までとなる。また、その再生時刻での音像位置はチャネルベースにおいて予め規定された再生位置に基づく。

　ここで、発音オブジェクト位置情報の一部として記録されている音像位置は、図３に示す座標系で表現されるものとする。ここで用いる座標系は、図３中の（ａ）の上面図で示すような、原点Ｏを中心とし、原点Ｏからの距離を動径ｒによって示すものとする。また、当該座標系は、原点Ｏの正面を０°、右位置および左位置を各々９０°および－９０°とする偏角φ、図３中の（ｂ）の側面図で示すような、原点Ｏの正面を０°、原点Ｏの真上を９０°とする仰角θで示すものとする。また当該座標系は、音像位置およびスピーカの位置を極座標（球座標）系（ｒ，φ，θ）と表記するものとする。以降の説明においては、特に断りがない限り、音像位置およびスピーカの位置は図３の極座標系を用いるものとする。

　トラック情報２０１は例えばＸＭＬ（Extensible Markup Language）のようなマークアップ言語で記述されているものとする。

　なお、本実施形態１では音声トラックおよびこれに付随するメタデータから解析できる情報のうち、任意の時間での各発音オブジェクトの位置情報が特定できる情報のみをトラック情報として記録することとしている。しかしながら、トラック情報はこれ以外の情報を含んでもよいことは言うまでもない。

　[視聴者位置情報取得部１０２]
　視聴者位置情報取得部１０２は、コンテンツを視聴するユーザの位置情報を取得する。なお、本実施形態１では、ＤＶＤ等のコンテンツを視聴する態様を想定しているため、ユーザは、コンテンツの視聴をおこなう。しかしながら、本発明の特徴は、音声信号処理にあり、この点からすれば、ユーザは、少なくともコンテンツを聴取する者（受聴者）であればよい。

　本実施形態１においては、視聴者位置情報はリアルタイムに取得・更新されるものとする。この場合、例えば、視聴環境の任意の位置に設置され（例えば部屋の天井等）、視聴者位置情報取得部１０２に接続された１つ以上のカメラ（撮影装置）（不図示）によって、あらかじめマーカを付したユーザを撮影する。また、視聴者位置情報取得部１０２は、カメラの撮影データに基づいて視聴者の２次元または３次元的位置を取得し、視聴者位置情報を更新させることとする。マーカは、ユーザ自身に付することとしてもよいし、ユーザの装着物、例えば第２音声信号出力部１０７に付しておいてもよい。

　視聴者位置取得の別の手段としては、同じく設置されたカメラ（撮影装置）の撮影データから得られる視聴者の位置情報から顔認識を使用して、視聴者位置を取得するようにしてもよい。

　さらに別の視聴者位置取得方法としては、先述のように第２音声信号出力部１０７に位置情報発信機器を付しておき、その位置情報を取得する構成としてもよい。また、視聴環境の任意の数か所に設置されたビーコンと第２音声信号出力部１０７に付されたビーコンとを活用して、位置情報を取得するようにしてもよい。また、タブレット端末などの情報入力端末を通じて、情報をリアルタイムに入力できるようにしてもよい。

　[音声信号出力部情報取得部１０３]
　音声信号出力部情報取得部１０３は、音声信号処理部１０に接続される第１音声信号出力部１０６および第２音声信号出力部１０７の情報（以降、これらを纏めて「音声信号出力部の情報」と記載することがある）を取得する。

　ここで、本明細書において「音声信号出力部の情報」とは、種別情報および音声信号出力部の構成の詳細に関する情報を示す。種別情報とは、スピーカ等の据え置き型の音声出力部（音声出力機器）、ならびに、ヘッドホンおよびイヤホン等の装着型の音声出力部（音声出力機器）のいずれであるかを示す情報である。また、音声信号出力部の構成の詳細に関する情報とは、例えばスピーカであれば使用個数を示す情報であり、ヘッドホン、イヤホンであれば開放型および密閉型のいずれであるかを示す情報である。ここで、開放型とは、ヘッドホンまたはイヤホンの構成物によって外耳道および鼓膜が外部から遮断されず、外部の音がヘッドホンまたはイヤホンの装着者に聴取される構成となっているヘッドホンまたはイヤホンのタイプをいう。一方、密閉型とは、ヘッドホンまたはイヤホンの構成物によって外耳道および鼓膜が外部から遮断され、外部の音がヘッドホンまたはイヤホンの装着者に聴取されない、もしくは聴取され難い構成となっているヘッドホンまたはイヤホンのタイプをいう。本実施形態１においては、第２音声信号出力部１０７は先述のように外部の音がヘッドホンまたはイヤホンの装着者に聴取される構成となった開放型のヘッドホンまたはイヤホンである。しかしながら、密閉型のヘッドホンまたはイヤホンであっても、内蔵したマイクによって周囲の音を拾って、ヘッドホンまたはイヤホンから出力される音と合せて装着者に聴取させることができる場合には、密閉型のヘッドホンまたはイヤホンを採用することも可能である。

　これら情報は、予め第１音声信号出力部１０６および第２音声信号出力部１０７にそれぞれ記憶されている。そして、音声信号出力部情報取得部１０３は、これらの情報を、有線またはBluetooth（登録商標）およびＷｉ－Ｆｉ（登録商標）などの無線通信を通じて取得する形とする。

　なお、これらの情報は、第１音声信号出力部１０６および第２音声信号出力部１０７から音声信号出力部情報取得部１０３に対して、自動的に送信する態様であってもよい。また、音声信号出力部情報取得部１０３が、これらの情報を第１音声信号出力部１０６および第２音声信号出力部１０７から取得する際、まずは、第１音声信号出力部１０６および第２音声信号出力部１０７に対して、情報の送信を指示するパスを有していてもよい。

　なお、上記以外の情報を音声信号出力部の情報として取得してもよい。例えば、各音声信号出力部の位置情報および各音声信号出力部の音響特性情報を音声信号出力部情報取得部１０３が取得してもよい。また、音声信号出力部情報取得部１０３は、当該音響特性情報を、音声信号レンダリング部１０４に提供し、音声信号レンダリング部１０４において、音質調整を行うこととしてもよい。

　[音声信号レンダリング部１０４]
　音声信号レンダリング部１０４は、入力された音声信号と、接続されたコンテンツ解析部１０１、視聴者位置情報取得部１０２、音声信号出力部情報取得部１０３および記憶部１０５からの各種情報に基づき、第１音声信号出力部１０６および第２音声信号出力部１０７に出力する音声信号を構築する。

　＜レンダリング処理＞
　図４に、音声信号レンダリング部１０４においておこなわれるレンダリング処理のフローＳ１を示す。以下、図４と、ユーザ位置を模式的に示した上面図である図５とを用いてレンダリング処理について説明する。

　図４に示すように音声信号レンダリング部１０４による処理が開始されると（ステップＳ１０１）、まず、音声信号レンダリング部１０４は、記憶部１０５から、基本となるレンダリング方式（以下、レンダリング方式Ａと呼称する）によって出力された音声信号の効果を享受可能な範囲、すなわちレンダリング方式Ａの有効範囲４０１（受聴可能領域、予め設定された受聴可能領域）（スイートスポットと呼称されることもある）を取得する（ステップＳ１０２）。更に、この段階で、音声信号レンダリング部１０４によって、音声信号出力部情報取得部１０３から第１音声信号出力部１０６および第２音声信号出力部１０７の情報が取得される。

　次に、全ての入力音声トラックに対して処理が行われたかを確認し（ステップＳ１０３）、全てのトラックに対してステップＳ１０４以降の処理が完了していれば（ステップＳ１０３におけるＹＥＳ）処理を終了する（ステップＳ１１２）。一方で、未処理の入力音声トラックがあれば（ステップＳ１０３におけるＮＯ）、音声信号レンダリング部１０４は、視聴者位置情報取得部１０２から視聴者（ユーザ）の視聴位置情報を取得する。

　ここで、図５中の（ａ）に示すようにユーザの視聴位置４０５がレンダリング方式Ａの有効範囲４０１の範囲内である場合（ステップＳ１０４におけるＹＥＳ）、音声信号レンダリング部１０４は、記憶部１０５からレンダリング方式Ａを用いて音声信号をレンダリングするために必要なパラメータを読み出す（ステップＳ１０６）。続いて、音声信号レンダリング部１０４は、レンダリング方式Ａを用いた音声レンダリングを行い、レンダリング後の音声信号を第１音声信号出力部１０６に出力する（ステップＳ１０７）。なお、先述のように本実施形態１においては、第１音声信号出力部１０６は据え置き型のスピーカであり、図５中の（ａ）に示すようにユーザの前面に配置された２つのスピーカ４０２および４０３である。すなわち、レンダリング方式Ａは、これら２つのスピーカを用いてのトランスオーラル処理であるものとする。なお、この場合、第２音声信号出力部１０７からは音声は出力されない。

　一方、図５中の（ｂ）に示すようにユーザの視聴位置４０６がレンダリング方式Ａの有効範囲４０１外であったとする。この場合（ステップＳ１０４におけるＮＯ）、音声信号レンダリング部１０４が、コンテンツ解析部１０１から得た発音オブジェクト位置情報に含まれるトラックの種別情報に基づき、入力音声トラックが音像定位すべき音声トラックか否かを判断する（ステップＳ１０５）。本実施形態１において、音像定位すべき音声トラックとは、図２に示すトラック情報２０１におけるオブジェクトベースのトラックである。入力音声トラックが音像定位すべき音声トラックである場合（ステップＳ１０５におけるＹＥＳ）、記憶部１０５からレンダリング方式Ｂを用いて音声信号をレンダリングするために必要なパラメータを読み出す（ステップＳ１０８）。続いて、音声信号レンダリング部１０４は、レンダリング方式Ｂを用いた音声レンダリングを行い、レンダリング後の音声信号を第２音声信号出力部１０７に出力する（ステップＳ１０９）。本実施形態１において、第２音声信号出力部１０７は、先述のように、ユーザが装着した開放型のヘッドホンまたはイヤホンであり、レンダリング方式Ｂは、この開放型のヘッドホンまたはイヤホンを用いたバイノーラル処理であるものとする。なお、この場合、第１音声信号出力部１０６（２つのスピーカ４０２、４０３）からは音声は出力されない。

　なお、バイノーラル再生について、使用する頭部伝達関数（ＨＲＴＦ；Head-Related Transfer Function）は、固定の値でもよい。また、ＨＲＴＦをユーザの視聴位置に応じて更新し、仮想的な音像の絶対位置が視聴位置に因らず動かないようにする処理を加えてもよい。

　他方、入力音声トラックが音像定位すべき音声トラックではない場合（ステップＳ１０５におけるＮＯ）、音声信号レンダリング部１０４は、記憶部１０５からレンダリング方式Ｃを用いて音声信号をレンダリングするために必要なパラメータを読み出す（ステップＳ１１０）。続いて、音声信号レンダリング部１０４は、レンダリング方式Ｃを用いた音声レンダリングを行い、レンダリング後の音声信号を第１音声信号出力部１０６に出力する（ステップＳ１１１）。本実施形態１において、第１音声信号出力部１０６は、前述の通り、ユーザの前面に配置された２つのスピーカ４０２および４０３であり、レンダリング方式Ｃは、ステレオ音声へのダウンミックスである。第１音声信号出力部１０６は、これら２つのスピーカ４０２および４０３を対のステレオスピーカと見なし出力するものとする。なお、この場合、第２音声信号出力部１０７からは音声は出力されない。

　以上の処理をすべての音声トラックに対して適用することによって、視聴者位置に応じて、すなわちレンダリング方式Ａの効果を享受できる有効範囲にユーザが位置するか否かによって、出力する音声信号出力部を決定し、レンダリング処理に用いるレンダリング方式を切り変える。これにより、どの視聴位置においても音像定位と音の広がりの双方を享受可能な音場をユーザに提供することが可能となる。

　ここで、レンダリングとは、コンテンツに含まれる音声信号（入力音声信号）を、第１音声信号出力部１０６および第２音声信号出力部１０７の少なくとも一つから出力されるべき信号に変換する処理を行うことをいう。

　なお、音声信号レンダリング部１０４が一度に受け取る音声トラックはコンテンツの開始から終わりまですべてのデータを含める形としてもよい。ただし、同トラックを任意の単位時間の長さに裁断し、この単位で繰り返しフローＳ１に示した処理を適用するものとしてもよいことは言うまでもなく、この構成により、ユーザの視聴位置の変化にリアルタイムに対応可能となる。

　また、上記したレンダリング方式Ａ～Ｃは一例であり、これらに示したレンダリング方式に限定されるものではない。例えば、上記説明ではレンダリング方式Ａは、音声トラックの種別に関わらずトランスオーラルでレンダリングするものとして説明している。ただし、チャネルベーストラックをステレオへのダウンミックス、オブジェクトベーストラックをトランスオーラルでレンダリングする等、トラックの種別に応じてレンダリング方法を変更する方式を、レンダリング方式Ａとするものとしてもよい。

　[記憶部１０５]
　記憶部１０５は、音声信号レンダリング部１０４で用いられる種々のデータを記録するための二次記憶装置によって構成される。記憶部１０５は、例えば、磁気ディスク、光ディスクまたはフラッシュメモリなどによって構成され、より具体的な例としては、ＨＤＤ、ＳＳＤ（Solid State Drive）、ＳＤメモリーカード、ＢＤおよびＤＶＤなどが挙げられる。音声信号レンダリング部１０４は、必要に応じて記憶部１０５からデータを読み出す。また、音声信号レンダリング部１０４によって算出された係数等を含む各種パラメータデータを記憶部１０５に記録することもできる。

　以上のように、本実施形態１では、ユーザの視聴位置およびコンテンツから得られる情報に応じて、音像定位および音の広がりの双方を考慮した好適なレンダリング方式を音声トラック毎に自動で選択し、音声再生を行う。これにより、いずれの視聴位置においても、定位感および音の広がりについて破綻が少ない音声をユーザに届けることが可能となる。

　〔変形例〕
　上述の本実施形態１では、音声信号処理部１０と、第１音声信号出力部１０６と、第２音声信号出力部１０７という３つの構成において、音声信号処理部１０が、第１音声信号出力部１０６および第２音声信号出力部１０７から情報を得る。また、本実施形態１では、音声信号処理部１０において、入力音声信号の解析と、第１音声信号出力部１０６および第２音声信号出力部１０７から情報に基づいたレンダリングとをおこなう態様である。すなわち、音声信号処理部１０において上述した一連の音声信号処理をおこなっている。

　しかしながら、本発明はこれに限定されるものではない。例えば、第１音声信号出力部１０６および第２音声信号出力部１０７が、自位置を検出し、検出した自位置を示す情報と、入力音声信号とから、出力するべき音声信号を解析して、レンダリングをおこなって出力してもよい。

　すなわち、上述の実施形態１において説明した音声信号処理部１０の音声信号処理動作を、第１音声信号出力部１０６および第２音声信号出力部１０７にそれぞれ分割した態様であってもよい。

　〔実施形態２〕
　本発明の一態様に係る音声信号処理システムの他の実施形態について、図６を用いて以下に説明する。なお、説明の便宜上、上記実施形態１にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

　図６は、本発明の実施形態２にかかる音声信号処理システム１ａの主要な構成を示すブロック図である。

　上述の実施形態１と本実施形態２との相違点は、音声信号出力部情報取得部が取得する音声出力部の情報の取得方法にある。換言すれば、音声信号出力部情報取得部への音声出力部の情報の提供方法が、上述の実施形態１と本実施形態２とにおいて相違する。要するに、本実施形態２は、上述の実施形態１の図１に示す音声信号出力部情報取得部１０３に代えて、音声信号出力部情報取得部６０１を備えた音声信号処理部１０ａと、音声信号処理部１０ａの外部に構成される情報入力部６０２とを具備する点において、実施形態１と相違する。

　具体的には、本実施形態２に係る音声信号処理部１０ａは、入力された音声信号を再構築し、種類の異なる２つ以上の音声信号出力機器を用いて再生する音声信号処理装置である。音声信号処理部１０ａは、図６に示すように、ＤＶＤおよびＢＤなどのディスクメディア、ＨＤＤ等に記録されている映像コンテンツまたは音声コンテンツに含まれる音声信号、ならびに、これに付随するメタデータを解析し、含まれる音声信号の種別および音声信号の定位する位置情報を得るコンテンツ解析部１０１を備える。更に音声信号処理部１０ａは、コンテンツを視聴する視聴者の位置情報を取得する視聴者位置情報取得部１０２を備える。更に音声信号処理部１０ａは、予めわかっている音声信号処理部１０ａに接続される外部の第１音声信号出力部１０６および第２音声信号出力部１０７の情報を記憶部１０５から取得する音声信号出力部情報取得部６０１を備える。更に音声信号処理部１０ａは、前記映像コンテンツ、および、音声コンテンツに含まれる音声信号を受ける。また、音声信号処理部１０ａは、コンテンツ解析部１０１によって得られた音声種別および位置情報、視聴者位置情報取得部１０２によって得られた視聴者位置情報、ならびに、音声信号出力部情報取得部１０３によって得られた音声出力機器情報に基づいて出力音声信号をレンダリングし、ミキシングした後、外部の第１音声信号出力部１０６および第２音声信号出力部１０７に出力する音声信号レンダリング部１０４を備える。更に音声信号処理部１０ａは、音声信号レンダリング部１０４が、必要とする各種パラメータ、または、生成した各種パラメータを記憶する記憶部１０５を備える。

　本実施形態２では、接続される外部の第１音声信号出力部１０６および第２音声信号出力部１０７の情報を、記憶部１０５に予め記録された複数の情報から情報入力部６０２を通じて選択させる。また、情報入力部６０２から、直接値を入力するような構成としてもよい。また、第１音声信号出力部１０６および第２音声信号出力部１０７が既知であり、変更されることがないと想定される場合は、記憶部１０５に第１音声信号出力部１０６および第２音声信号出力部１０７の情報のみを記憶しておき、音声信号出力部情報取得部６０１が該当情報を読み取るのみとする構成としてもよい。

　なお、情報入力部６０２は、有線または無線で接続された、キーボード、マウスおよびトラックボールなどのデバイス、ならびに、ＰＣ、スマートフォンおよびタブレットなどの情報端末で構成される。本実施形態においては図示しないが、必要に応じて、情報入力に必要とされる視覚情報提示の為の表示装置（ディスプレイ等）を具備する構成としてもよいことは言うまでもない。

　なお、上記の挙動以外においては、前述した実施形態１と同一であるので説明を割愛する。

　以上のように、記憶部１０５または外部の情報入力部６０２から音声出力部の情報を取得する構成にすることによって、第１音声信号出力部１０６および第２音声信号出力部１０７が自身の情報を音声信号処理部１０ａに通知できないものであっても、実施形態１に示したような効果を享受することが可能となる。

　〔実施形態３〕
　本発明の一態様に係る音声信号処理システムの他の実施形態について、図８および図９を用いて以下に説明する。なお、説明の便宜上、上記実施形態１にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

　上述の実施形態１と本実施形態３との相違点は、音声信号レンダリング部の挙動のみである。なお、これ以外の各部の挙動については、先に実施形態１で説明したものと同一であるので説明を割愛する。

　本実施形態３における音声信号レンダリング部１０４によって行われる処理と実施形態１に記述した処理との違いは、ユーザ位置を模式的に示した上面図である図９に示すように、レンダリング方式Ａの有効範囲９０１に加え、該有効範囲からの距離が一定値の範囲９０２における処理が追加されている点である。

　図８に、音声信号レンダリング部１０４においておこなわれるレンダリング処理のフローＳ１を示す。以下、図８および図９を用いてレンダリング処理について説明する。

　音声信号レンダリング部１０４は、処理が開始されると（ステップＳ２０１）、まず、記憶部１０５から、レンダリング方式Ａによって出力された音声信号の効果を享受可能な範囲、すなわちレンダリング方式Ａの有効範囲９０１を取得する（ステップＳ２０２）。次に、音声信号レンダリング部１０４は、全ての入力音声トラックに対して処理が行われたか否かを確認し（ステップＳ２０３）、全てのトラックに対してＳ２０４以降の処理が完了していれば（ステップＳ２０３におけるＹＥＳ）処理を終了する（ステップＳ２１８）。一方で未処理の入力音声トラックがあれば（ステップＳ２０３におけるＮＯ）、音声信号レンダリング部１０４は、視聴者位置情報取得部１０２から視聴者位置を取得する。ここで、図９中の（ａ）に示すようにユーザの視聴位置９０６がレンダリング方式Ａの有効範囲９０１の範囲内である場合（ステップＳ２０４におけるＹＥＳ）、音声信号レンダリング部１０４は、記憶部１０５からレンダリング方式Ａによって音声をレンダリングするのに必要なパラメータを読み出す（ステップＳ２１０）。続いて、音声信号レンダリング部１０４は、レンダリング方式Ａを用いた音声レンダリングを行い、レンダリング後の音声信号を第１音声信号出力部１０６に出力する。（ステップＳ２１１）。なお、本実施形態において、第１音声信号出力部１０６は、図９に示すように、ユーザの前面に配置された２つのスピーカ９０３および９０４であり、レンダリング方式Ａは、これら２つのスピーカを用いてのトランスオーラル処理であるものとする。

　一方、図９中の（ｂ）に示すようにユーザの視聴位置がレンダリング方式Ａの有効範囲９０１外であった場合（ステップＳ２０４におけるＮＯ）、音声信号レンダリング部１０４は、コンテンツ解析部１０１から得られたトラックの種別情報に基づき、入力音声トラックが音像定位すべき音声トラックか否かを判断する（ステップＳ２０５）。本実施形態において、定位すべき音声トラックとは、トラック情報２０１におけるオブジェクトベースのトラックである。入力音声トラックが音像定位すべき音声トラックである場合（ステップＳ２０５におけるＹＥＳ）、音声信号レンダリング部１０４は、記憶部１０５からレンダリング方式Ｂによって音声をレンダリングするのに必要なパラメータを読み出した（ステップＳ２０６）後、レンダリング方式Ａの有効範囲９０１とユーザの現在の視聴位置９０６との距離ｄに応じて更に処理を分岐させる（ステップＳ２０８）。具体的には、レンダリング方式Ａの有効範囲９０１とユーザの現在の視聴位置９０６との距離ｄが閾値α以上であった場合（ステップＳ２０８におけるＹＥＳ、図９中の（ｃ）に示す有効範囲９０１と視聴位置９０８との位置関係に相当）、音声信号レンダリング部１０４は、先に読み出しておいたパラメータに基づきレンダリング方式Ｂを用いて音声レンダリングを行い、レンダリング後の音声信号を第２音声信号出力部１０７に出力する（ステップＳ２１２）。本実施形態３において、第２音声信号出力部１０７は、図９に示すように、ユーザが装着した開放型のヘッドホンまたはイヤホンであり、レンダリング方式Ｂは、このヘッドホンまたはイヤホンを用いてのバイノーラル処理であるものとする。また、閾値αは、音声信号処理装置に予め設定された任意の実数値である。一方、距離ｄが閾値α未満であった場合（ステップＳ２０６におけるＮＯ、図９中の（ｂ）に示す閾値α未満を示す範囲（所定の範囲）９０２と、視聴位置９０７との位置関係に相当）、音声信号レンダリング部１０４は、記憶部１０５からレンダリング方式Ａに必要なパラメータを追加で読み出し（ステップＳ２１３）、レンダリング方式Ｄによる音声レンダリングを行う。本実施形態３においてレンダリング方式Ｄは、レンダリング方式Ａおよびレンダリング方式Ｂを複合的に適用するものである。レンダリング方式Ｄは、入力音声トラックに対しレンダリング方式Ａを適用した演算結果に係数ｐ１を乗算したレンダリング結果を第１音声信号出力部１０６に出力する。また、レンダリング方式Ｄは、同入力音声トラックにレンダリング方式Ｂを適用した演算結果に係数ｐ２を乗算したレンダリング結果を第２音声信号出力部１０７に出力する。ここで、係数ｐ１、ｐ２は、距離ｄに応じて変化する係数値であり、例えば、
ｐ１＝ｄ／α
ｐ２＝１－ｐ１
で示される。

　最後に、入力音声トラックが音像定位すべき音声トラックではない場合（ステップＳ２０５におけるＮＯ）、音声信号レンダリング部１０４は、記憶部１０５からレンダリング方式Ｃによって音声をレンダリングするのに必要なパラメータを読み出す（ステップＳ２０７）。レンダリング方式Ａの有効範囲９０１とユーザの現在の視聴位置９０６との距離ｄに応じて更に処理を分岐させる（ステップＳ２０９）。図９中の（ｃ）のように、距離ｄが閾値α以上であった場合（ステップＳ２０９におけるＹＥＳ）、音声信号レンダリング部１０４は、先に読み出しておいたパラメータに基づきレンダリング方式Ｃを用いて音声レンダリングを行い、レンダリング後の音声信号を第１音声信号出力部１０６に出力する（ステップＳ２１６）。本実施形態３において、第１音声信号出力部１０６は、前述の通り、ユーザの前面に配置された２つのスピーカ９０３、９０４であり、レンダリング方式Ｃは、ステレオ音声へのダウンミックスである。第１音声信号出力部１０６は、これら２つのスピーカ９０３、９０４を対のステレオスピーカと見なし出力するものとする。一方、視聴者の位置的には図９中の（ｂ）に示すように距離ｄが閾値α未満であった場合（ステップＳ２０９におけるＮＯ）、音声信号レンダリング部１０４は、記憶部１０５からレンダリング方式Ａに必要なパラメータを追加で読み出し（ステップＳ２１５）、レンダリング方式Ｅによる音声レンダリングを行う。本実施形態３においてレンダリング方式Ｅは、レンダリング方式Ａおよびレンダリング方式Ｃを複合的に適用するものである。レンダリング方式Ｅは、入力音声トラックに対しレンダリング方式Ａを適用した演算結果に係数ｐ１を乗算したレンダリング結果と、同入力音声トラックにレンダリング方式Ｂを適用した演算結果に係数ｐ２を乗算したレンダリング結果とを合算し、第１音声信号出力部１０６に出力する。係数ｐ１およびｐ２については、前述の通りである。

　以上の処理をすべての音声トラックに対して適用することによって、音声信号レンダリング部１０４は、視聴者位置に応じて、すなわちレンダリング方式Ａの効果を享受できる有効範囲にユーザが位置するか否かによって、レンダリング処理を切り変える。これにより、どの視聴位置においても音像定位および音の広がりの双方を享受可能な音場をユーザに提供することが可能となるだけでなく、レンダリング方式の切り替えが発生する有効範囲の境界付近においても、レンダリング方式が切り替わることに起因する突然の音質的変化を緩和することが可能となる。

　なお、音声トラックの処理単位を任意長とすることも可能であること、および、上記で示したレンダリング方式Ａ～Ｅは一例であることは、実施形態１にて説明したとおりであり、本実施形態３においても同様である。

　〔実施形態４〕
　本発明の一態様に係る音声信号処理システムの他の実施形態について、図１０および図１１を用いて以下に説明する。なお、説明の便宜上、上記実施形態１にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

　上述の実施形態１では、コンテンツ解析部１０１が受け取る音声コンテンツに、チャネルベースおよびオブジェクトベース両方のトラックが存在するものとして説明を行っている。また、チャネルベースのトラックには音像定位すべき音声信号が含まれていないものとして、説明を行っている。ただし、音声コンテンツにチャネルベースのトラックのみが含まれている場合およびチャネルベースのトラックに音像定位すべき音声信号が含まれている場合におけるコンテンツ解析部１０１の動作について、本実施形態４として記述する。なお、実施形態１と本実施形態４との違いは、コンテンツ解析部１０１の挙動のみであり、他の各部の挙動については、既に説明していることから、説明を割愛する。

　例えば、コンテンツ解析部１０１が受け取った音声コンテンツが５．１ｃｈ音声であった場合、特許文献２に開示されている２チャンネル間の相関情報に基づく音像定位算出技術を応用し、以下の手順に基づいて同様のヒストグラムを作成する。５．１ｃｈ音声に含まれる低音効果音（Low Frequency Effect；ＬＦＥ）以外の各チャンネルにおいて、隣り合うチャンネル間でその相関を計算する。隣り合うチャンネルの組は、５．１ｃｈの音声信号においては、図１０中の（ａ）に示す通り、ＦＲおよびＦＬ、ＦＲおよびＳＲ、ＦＬおよびＳＬ、ならびに、ＳＬおよびＳＲの４対となる（なお、図１０中の１０００が視聴者の位置）。この場合、隣り合うチャンネルの相関情報は、単位時間ｎあたりの任意に量子化されたｆ個の周波数帯の相関係数ｄ（ｉ）が算出され、これに基づいてｆ個の周波数帯各々の音像定位位置θが算出される（特許文献２の数１２）。例えば図１１に示すように、ＦＬ１１０１とＦＲ１１０２と間の相関に基づく音像定位位置１１０３は、ＦＬ１１０１とＦＲ１１０２とが成す角の中心を基準としたθとして表される（なお、図１１中の１１００が視聴者の位置）。本実施形態４では、量子化されたｆ個の周波数帯の音声をそれぞれ別個の音声トラックとみなし、更に各々の周波数帯の音声のある単位時間において、あらかじめ設定された閾値Ｔｈ＿ｄ以上の相関係数値ｄ（ｉ）を持つ時間帯はオブジェクトベーストラック、それ以外の時間帯はチャネルベーストラックとして分別するものとする。すなわち、相関を計算する隣接チャネルのペア数がＮ、周波数帯の量子化数をｆ、とすると、２＊Ｎ＊ｆ個の音声トラックとして分類される。

　また、前述の通り、音像定位位置として求められるθは、これを挟む音源位置の中心を基準としている為、適宜図３に示す座標系に変換を行うものとする。

　以上の処理をＦＬおよびＦＲ以外の組み合わせについても同様に処理を行い、音声トラック、および、これに対応するトラック情報２０１の対を音声信号レンダリング部１０４に送るものとする。

　なお、以上の説明では、特許文献２に開示されている通り、主に人のセリフ音声などが割り付けられるＦＣチャンネルについては、同チャンネルとＦＬおよびＦＲとの間に音像を生じさせるような音圧制御がなされている箇所が多くないものとして、ＦＣは相関の計算対象からは外し、代わりにＦＬとＦＲとの相関について考えるものとしている。ただし、勿論ＦＣを含めた相関を考慮してヒストグラムを算出してもよい。例えば、図１０中の（ｂ）に示すように、ＦＣおよびＦＲ、ＦＣおよびＦＬ、ＦＲおよびＳＲ、ＦＬおよびＳＬ、ＳＬおよびＳＲの５対の相関について、上記算出法でのトラック情報生成を行ってよいことは言うまでもない。

　以上のように、ユーザが配したスピーカの配置に応じて、また入力として与えられるチャネルベースオーディオの内容を解析することによって、音声コンテンツにチャネルベースのトラックのみが含まれている場合およびチャネルベースのトラックに音像定位すべき音声信号が含まれている場合であっても、良好な定位感のある音声をユーザに届けることが可能となる。

　〔実施形態５〕
　本発明の一態様に係る音声信号処理システムの他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態１にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

　上述の実施形態１と本実施形態５との相違点は、レンダリング処理のフローにある。

　上述の実施形態１では、音声信号レンダリング部１０４（図１）による処理が開始されると、ユーザの視聴位置情報を取得し、基本となるレンダリング方式Ａの有効範囲４０１（図４）にユーザが入っているか否かを判断している。

　これに対し、本実施形態５では、音声信号レンダリング部１０４（図１）による処理が開始されると、コンテンツ解析部１０１から得た発音オブジェクト位置情報に含まれるトラックの種別情報に基づき、入力音声トラックが音像定位すべき音声トラックか否かを判断するところから始まる。

　次に、入力音声トラックが音像定位すべき音声トラックである場合、記憶部１０５からレンダリング方式Ｂを用いて音声信号をレンダリングするために必要なパラメータを読み出す。続いて、レンダリング方式Ｂを用いた音声レンダリングを行い、レンダリング後の音声信号を第２音声信号出力部１０７（図５）に出力する。本実施形態５においても実施形態１と同様に、第２音声信号出力部１０７は、先述のように、ユーザが装着した開放型のヘッドホンまたはイヤホンであり、レンダリング方式Ｂは、この開放型のヘッドホンまたはイヤホンを用いてのバイノーラル処理であるものとする。なお、この場合、第１音声信号出力部１０６（２つのスピーカ４０２、４０３）（図５）からは音声は出力されない。

　他方、入力音声トラックが音像定位すべき音声トラックではない場合、記憶部１０５からレンダリング方式Ｃを用いて音声信号をレンダリングするために必要なパラメータを読み出す。続いて、レンダリング方式Ｃを用いた音声レンダリングを行い、レンダリング後の音声信号を第１音声信号出力部１０６に出力する。本実施形態１において、第１音声信号出力部１０６（図５）は、前述の通り、ユーザの前面に配置された２つのスピーカ４０２、４０３である。レンダリング方式Ｃは、ステレオ音声へのダウンミックスであり、これら２つのスピーカ４０２、４０３（図５）を対のステレオスピーカと見なし出力するものとする。なお、この場合、第２音声信号出力部１０７（図５）からは音声は出力されない。

　要するに、本実施形態５は、音像定位すべき音声トラックであるか否かによって、スイートスポットを受聴中に移動できる音声出力部と、スイートスポットを受聴中に受聴中に移動しない音声出力部とから用いる音声出力部を決める態様である。より具体的には、音像定位すべき音声トラックであると判断された場合にはスイートスポットを受聴中に移動できる音声出力部から音声を出力する。また、音像定位する必要がない音声トラックであると判断された場合には、スイートスポットを受聴中に移動しない音声出力部から音声を出力する。

　このような態様であっても、音像定位および音の広がりの双方を考慮した好適なレンダリング方式を音声トラック毎に自動で選択し、音声再生を行うことにより、いずれの視聴位置においても、定位感および音の広がりについて破綻が少ない音声をユーザに届けることが可能となる。

　〔実施形態６〕
　本発明の一態様に係る音声信号処理システムの他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態１にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

　上述の実施形態１と本実施形態６との相違点は、第２音声信号出力部１０７にある。具体的には、実施形態１も本実施形態６も、ともに、第２音声信号出力部１０７はスイートスポットを受聴中に移動できる音声出力部である点では共通である。ただし、本実施形態６の第２音声信号出力部１０７は、第２音声信号出力部１０７としてユーザに装着されるタイプの音声信号出力部でなく、指向性を変えることが可能である据え置き型（位置固定型）のスピーカである。

　本実施形態６の場合、ユーザに装着される音声信号出力部はないため、視聴者位置情報取得部１０２（図１）は、ユーザの位置情報を先述したようなカメラを用いて取得する。

　レンダリングの処理フローとしては、先述の態様を採用することができる。

　〔実施形態７〕
　本発明の一態様に係る音声信号処理システムの他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態１にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

　上述の実施形態１では、ユーザの位置のみを考慮しているが、本発明はこれに限定されるものではなく、ユーザの位置と、ユーザの向きとを考慮して、音像定位させる態様であってもよい。

　ユーザの向きは、例えばユーザに装着される第２音声信号出力部１０７（図５）にジャイロセンサを搭載して検出することが可能である。

　そして、検出したユーザの向きを示す情報を、音声信号レンダリング部１０４に出力し、音声信号レンダリング部１０４においてレンダリング処理をおこなう際に、実施形態１の態様に加えて、この向きを示す情報を用いて、ユーザの向きに併せて音像を定位させる。

　〔実施形態８〕
　本発明の一態様に係る音声信号処理システムの他の実施形態について、図１２を用いて以下に説明する。なお、説明の便宜上、上記実施形態１にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

　上述の実施形態１と本実施形態８との相違点は、本実施形態８では、視聴者が複数名おり、レンダリング方式Ａの有効範囲４０１の範囲内である第１視聴者と、レンダリング方式Ａの有効範囲４０１の範囲から外れた位置にいる第２視聴者とがいる態様において、第２視聴者には、第２視聴者が装着している第２音声信号出力部１０７のみから出力された音声を聴取させる一方、据え置き型のスピーカである第１音声信号出力部１０６から出力される音声を聴取させない、あるいは聴取させにくい構成としている点にある。具体的には、この第２視聴者が装着している第２音声信号出力部１０７に、第１音声信号出力部１０６から出力される音声をキャンセルする機能を付加している。

　以下に、本実施形態８を説明するが、まずはコンテンツ視聴環境下に２名のユーザが存在する態様について説明する。

　図１２は、実施形態１において用いた図５に対応する図面であり、本実施形態８においてユーザ位置を模式的に示した上面図である。

　上述の実施形態１の図４に示したレンダリングの処理フローと同じく、音声信号レンダリング部１０４による処理が開始されると（ステップＳ１０１）、まず、音声信号レンダリング部１０４は、記憶部１０５から、基本となるレンダリング方式（以下、レンダリング方式Ａと呼称する）によって出力された音声信号の効果を享受可能な範囲、すなわちレンダリング方式Ａの有効範囲４０１（スイートスポットと呼称されることがある）を取得する（ステップＳ１０２）。

　また、視聴者位置情報取得部１０２から第１視聴者および第２視聴者の視聴位置情報を取得する。

　ここで、図１２中の（ａ）に示すように第１視聴者の視聴位置４０５ａおよび第２視聴者の視聴位置４０５ｂがともにレンダリング方式Ａの有効範囲４０１の範囲内である場合、音声信号レンダリング部１０４は、記憶部１０５からレンダリング方式Ａを用いて音声信号をレンダリングするために必要なパラメータを読み出す（ステップＳ１０６）。続いて、音声信号レンダリング部１０４は、レンダリング方式Ａを用いた音声レンダリングを行い、レンダリング後の音声信号を第１音声信号出力部１０６に出力する（ステップＳ１０７）。なお、先述の本実施形態１と同じく、第１音声信号出力部１０６は据え置き型のスピーカであり、図１２中の（ａ）に示すようにユーザの前面に配置された２つのスピーカ４０２および４０３である。すなわち、レンダリング方式Ａは、これら２つのスピーカを用いてのトランスオーラル処理であるものとする。なお、この場合、第１視聴者の視聴位置４０５ａの第２音声信号出力部１０７ａからは音声は出力されず、第２視聴者の視聴位置４０５ｂの第２音声信号出力部１０７ｂからも音声は出力されない。

　一方、図１２中の（ｂ）に示すように第１視聴者の視聴位置４０６ａおよび第２視聴者の視聴位置４０６ｂがともにレンダリング方式Ａの有効範囲４０１外であった場合（ステップＳ１０４におけるＮＯ）、音声信号レンダリング部１０４は、コンテンツ解析部１０１から得た発音オブジェクト位置情報に含まれるトラックの種別情報に基づき、入力音声トラックが音像定位すべき音声トラックか否かを判断する（ステップＳ１０５）。本実施形態１において、音像定位すべき音声トラックとは、図２に示すトラック情報２０１におけるオブジェクトベースのトラックである。入力音声トラックが音像定位すべき音声トラックである場合（ステップＳ１０５におけるＹＥＳ）、音声信号レンダリング部１０４は、記憶部１０５からレンダリング方式Ｂを用いて音声信号をレンダリングするために必要なパラメータを読み出す（ステップＳ１０８）。続いて、音声信号レンダリング部１０４は、レンダリング方式Ｂを用いた音声レンダリングを行い、レンダリング後の音声信号を、第１視聴者の視聴位置４０６ａの第２音声信号出力部１０７ａ、および第２視聴者の視聴位置４０６ｂの第２音声信号出力部１０７ｂに出力する（ステップＳ１０９）。第２音声信号出力部１０７ａおよび第２音声信号出力部１０７ｂは、先述の第２音声信号出力部１０７と同じく、開放型のヘッドホンまたはイヤホンであり、レンダリング方式Ｂは、この開放型のヘッドホンまたはイヤホンを用いたバイノーラル処理であるものとする。本実施形態８では、第１視聴者の視聴位置４０６ａの第２音声信号出力部１０７ａと、第２視聴者の視聴位置４０６ｂの第２音声信号出力部１０７ｂとには、それぞれ異なる音声信号が出力される。このことから、それぞれの視聴位置において聴取した場合に、適切な音像定位が実現される構成となっている。なお、この場合、第１音声信号出力部１０６（２つのスピーカ４０２および４０３）からは音声は出力されない。

　他方、入力音声トラックが音像定位すべき音声トラックではない場合（ステップＳ１０５におけるＮＯ）、音声信号レンダリング部１０４は、記憶部１０５からレンダリング方式Ｃを用いて音声信号をレンダリングするために必要なパラメータを読み出す（ステップＳ１１０）。続いて、音声信号レンダリング部１０４は、レンダリング方式Ｃを用いた音声レンダリングを行い、レンダリング後の音声信号を第１音声信号出力部１０６に出力する（ステップＳ１１１）。前述の通り、第１音声信号出力部１０６は、ユーザの前面に配置された２つのスピーカ４０２および４０３であり、レンダリング方式Ｃは、ステレオ音声へのダウンミックスである。第１音声信号出力部１０６は、これら２つのスピーカ４０２および４０３を対のステレオスピーカと見なし出力するものとする。なお、この場合、第１視聴者の視聴位置４０７ａの第２音声信号出力部１０７ａからは音声は出力されず、かつ第２視聴者の視聴位置４０７ｂの第２音声信号出力部１０７ｂからも音声は出力されない。

　次に、本実施形態８の態様として、第１視聴者の視聴位置４０８ａがレンダリング方式Ａの有効範囲４０１の範囲内である一方、第２視聴者の視聴位置４０８ｂがレンダリング方式Ａの有効範囲４０１の範囲から外れていることが、視聴者位置情報取得部１０２から取得したユーザの視聴位置情報から判明した場合（図１２中の（ｃ））について説明する。

　この場合、レンダリング方式Ａの有効範囲４０１の範囲内である第１視聴者の視聴位置４０８ａでは、レンダリング方式Ａを用いて音声レンダリングされた音声信号が第１音声信号出力部１０６（２つのスピーカ４０２および４０３）から出力される。この場合、第１視聴者の視聴位置４０８ａの第２音声信号出力部１０７ａからは音声は出力されない。

　他方、レンダリング方式Ａの有効範囲４０１の範囲外である第２視聴者の視聴位置４０８ｂでは、レンダリング方式Ｂを用いた音声レンダリングを行い、レンダリング後の音声信号が第２視聴者の視聴位置４０８ｂの第２音声信号出力部１０７ｂに出力される。この場合、第１音声信号出力部１０６（２つのスピーカ４０２および４０３）からは、レンダリング方式Ａを用いて音声レンダリングされた音声信号が出力されている。そのため、開放型のヘッドホンまたはイヤホンである第２音声信号出力部１０７ｂを装着した視聴位置４０８ｂにいる第２視聴者には、第２音声信号出力部１０７ｂから出力される音像定位した音声に加えて、第１音声信号出力部１０６（２つのスピーカ４０２および４０３）から出力された音声が聴取される。しかしながら、第１音声信号出力部１０６（２つのスピーカ４０２および４０３）から出力される音声は、レンダリング方式Ａの有効範囲４０１の範囲内において音像定位する音声である。このことから、有効範囲４０１の範囲外である視聴位置４０８ｂにおいては高品位な音場を提供することが困難となる。

　そこで、本実施形態８では、第２音声信号出力部１０７ｂが、第１音声信号出力部１０６（２つのスピーカ４０２および４０３）から出力された音声をキャンセルする機能を具備する。具体的には、図７に示すように音声信号レンダリング部１０４に対してマイク７０２が接続されており、これで計測された音声信号と逆相となる音声信号を第２音声信号出力部１０７ｂから出力することにより、第１音声信号出力部１０６から出力された音声をキャンセルする。ここで、マイク７０２は１つまたは複数のマイクによって構成されており、好ましくは視聴者の左右の耳介各々に近い位置に１つずつ設置される。第２音声信号出力部１０７ｂがイヤホンまたはヘッドホンであった場合、同出力部の構成物のひとつとして、両耳介に近い位置に設置されるものとしてもよい。

　以上により、第２音声信号出力部１０７ｂからは第２音声信号出力部１０７ｂから出力される音像定位した音声のみが第２音声信号出力部１０７ｂの装着者（第２視聴者）に聴取される。これにより、レンダリング方式Ａの有効範囲４０１の範囲内である第１視聴者に対してのみならず、有効範囲４０１の範囲外である視聴位置４０８ｂにいる第２視聴者に対しても、高品位な音場を提供することが可能となる。

　〔実施形態９〕
　本発明の一態様に係る音声信号処理システムの他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態８にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

　上述の実施形態８と本実施形態９との相違点は、本実施形態９では、２名の視聴者の視聴位置がレンダリング方式Ａの有効範囲４０１内にあるものの、一方の視聴者（第２視聴者）にはレンダリング方式Ｂを用いたレンダリングをおこなって第２視聴者が装着している第２音声信号出力部１０７から音を出すという点にある。

　要するに、図１２中の（ａ）に示すように第１視聴者の視聴位置４０５ａおよび第２視聴者の視聴位置４０５ｂがともにレンダリング方式Ａの有効範囲４０１の範囲内にある。この場合、第１視聴者の視聴位置４０５ａでは、レンダリング方式Ａを用いた音声レンダリングがおこなわれ、第１音声信号出力部１０６から音声が出力される。一方で、第２視聴者の視聴位置４０５ｂでは、レンダリング方式Ｂを用いた音声レンダリングを行い、第２視聴者の視聴位置４０５ｂの第２音声信号出力部１０７ｂから音声が出力される。

　本実施形態９においても、上述の実施形態８において説明したように、第１音声信号出力部１０６から出力された音声が第２音声信号出力部１０７ｂによってキャンセルする態様を採用することができる。

　〔実施形態１０〕
　本発明の一態様に係る音声信号処理システムの他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態１にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

　上述の実施形態１と本実施形態１０との相違点は、上述の実施形態１では、図４の有効範囲４０１内にいるユーザに対して、据え置き型のスピーカである第１音声信号出力部１０６から出力される音声を受聴させる態様である。これに対して、本実施形態１０では、図４の有効範囲４０１内にいるユーザに対して、音像定位する必要がない音声信号を据え置き型のスピーカである第１音声信号出力部１０６から出力させるとともに、音像定位すべき音声信号を、ユーザが装着した開放型のヘッドホンまたはイヤホン（第２音声信号出力部１０７）から出力させる。

　これにより、図４の有効範囲４０１内にいるユーザは、第１音声信号出力部１０６および第２音声信号出力部１０７の双方から音声を受聴することになる。

　本実施形態１０によれば、図４の有効範囲４０１内に複数人がいても個人個人への音質調整ができるというメリットを享受できる。

　〔まとめ〕
　本発明の態様１に係る音声信号処理装置（音声信号処理部１０）は、マルチチャネルの音声信号処理システムであって、入力された音声信号が音像定位すべき音声信号であるか否かを示す情報を取得する音像定位情報取得部（音声信号レンダリング部１０４）と、入力された音声信号をレンダリングして、受聴可能領域の位置を受聴中に移動しない第１音声信号出力部（第１音声信号出力部１０６、スピーカ４０２、４０３）と、受聴可能領域の位置を受聴中に移動できる第２音声信号出力部（第２音声信号出力部１０７、１０７ａ、１０７ｂ）とのうち、上記情報に応じた１つ以上の音声信号出力部に出力するレンダリング部（音声信号レンダリング部１０４）とを備えていることを特徴としている。

　上記の構成によれば、ユーザに対し高品位な音場を提供可能である。

　ここで、受聴可能領域の位置を受聴中に移動できる第２音声信号出力部は、いわゆるスイートスポットを、ユーザの位置に応じて移動させることができるものに相当する。一方、受聴可能領域の位置を受聴中に移動しない第１音声信号出力部は、いわゆるスイートスポットを、ユーザの位置に応じて移動させることができないものに相当する。

　上記構成によれば、入力された音声信号が音像定位すべき音声信号であれば、スイートスポットを、ユーザの位置に応じて移動させることができる第２音声信号出力部から出力させるためのレンダリング方式を用いて音声信号をレンダリングすることができる。一方、入力された音声信号が音像定位すべき音声信号でなければ、スイートスポットを、ユーザの位置に応じて移動させることができない第１音声信号出力部から出力させるためのレンダリング方式を用いて音声信号をレンダリングすることができる。

　本発明の態様２に係る音声信号処理装置（音声信号処理部１０）は、マルチチャネルの音声信号処理システムであって、受聴者の位置情報を取得する位置情報取得部（視聴者位置情報取得部１０２）と、入力された音声信号をレンダリングして、受聴可能領域の位置を受聴中に移動しない第１音声信号出力部（第１音声信号出力部１０６、スピーカ４０２、４０３）と、受聴可能領域の位置を受聴中に移動できる第２音声信号出力部（第２音声信号出力部１０７、１０７ａ、１０７ｂ）のうち、上記位置情報に応じた１つ以上の音声信号出力部に出力するレンダリング部（音声信号レンダリング部１０４）とを備えていることを特徴としている。

　上記構成によれば、或るレンダリング方式に対応するスイートスポットに受聴者の位置が入っているか否かに応じて、例えば、入っていれば、スイートスポットを、ユーザの位置に応じて移動させることができない第１音声信号出力部から出力させるためのレンダリング方式を用いて音声信号をレンダリングすることができる。一方、入っていなければ、スイートスポットを、ユーザの位置に応じて移動させることができる第２音声信号出力部から出力させるためのレンダリング方式を用いて音声信号をレンダリングすることができる。これによれば、ユーザが何れの受聴位置に居る場合であっても、ユーザに対して高品位な音場を提供することができる。

　本発明の態様３に係る音声信号処理装置（音声信号処理部１０）は、上記態様１または２において、上記入力された音声信号から、音声信号の種別、および音声信号が定位する位置情報を解析する解析部（コンテンツ解析部１０１）と、上記レンダリング部において必要なパラメータを記憶する記憶部１０５とを更に備えていてもよい。

　本発明の態様４に係る音声信号処理装置（音声信号処理部１０）は、上記態様１から３のいずれかにおいて、上記第１音声信号出力部は、据え置き型のスピーカ（第１音声信号出力部１０６、スピーカ４０２、４０３）であり、上記第２音声信号出力部は、受聴者携帯型のスピーカ（第２音声信号出力部１０７、１０７ａ、１０７ｂ）であってもよい。

　本発明の態様５に係る音声信号処理装置（音声信号処理部１０）は、上記態様１から３のいずれかにおいて、上記第２音声信号出力部（第２音声信号出力部１０７、１０７ａ、１０７ｂ）は、指向性を変えることができる位置固定型のスピーカであってもよい。

　本発明の態様６に係る音声信号処理装置（音声信号処理部１０）は、上記態様１から５のいずれかにおいて、上記第１音声信号出力部、および、上記第２音声信号出力部を示す情報を取得する音声信号出力部情報取得部１０３を更に備えていてもよい。

　上記の構成によれば、取得した音声信号出力部の種類に応じて、種類に適したレンダリング方式を選択することができる。

　本発明の態様７に係る音声信号処理装置（音声信号処理部１０）は、上記態様６において、上記音声信号出力部情報取得部１０３は、上記第１音声信号出力部を示す情報を上記第１音声信号出力部から取得し、上記第２音声信号出力部を示す情報を上記第２音声信号出力部から取得する構成であってもよい。

　本発明の態様８に係る音声信号処理装置（音声信号処理部１０）は、上記態様６において、上記音声信号出力部情報取得部１０３は、上記第１音声信号出力部および上記第２音声信号出力部（第１音声信号出力部１０６、スピーカ４０２、４０３、第２音声信号出力部１０７、１０７ａ、１０７ｂ）の種類を示す情報が予め記録されたなかから、使用する音声信号出力部の当該情報を選択する構成であってもよい。

　本発明の態様９に係る音声信号処理装置（音声信号処理部１０）は、上記態様２において、上記レンダリング部（音声信号レンダリング部１０４）は、受聴者の位置が、予め設定された受聴可能領域（レンダリング方式Ａの有効範囲４０１）に含まれているか否かに基づいて、レンダリング処理に用いるレンダリング方式を選択する構成になっていてもよい。

　本発明の態様１０に係る音声信号処理装置（音声信号処理部１０）は、上記態様２または９において、上記レンダリング部（音声信号レンダリング部１０４）は、受聴者の位置が、予め設定された受聴可能領域（レンダリング方式Ａの有効範囲９０１）に含まれていないものの、該受聴可能領域から所定の範囲内（範囲９０２）に含まれている場合には、該受聴可能領域に音像定位させるレンダリング方式（レンダリング方式Ａ）と、該受聴可能領域から外れた位置に音像定位させるレンダリング方式（レンダリング方式Ａ）とを用いてレンダリングする構成（レンダリング方式Ｄによってレンダリングする構成）となっていてもよい。

　本発明の態様１１に係る音声信号処理装置（音声信号処理部１０）は、上記態様１から１０のいずれかにおいて、上記第１音声信号出力部（第１音声信号出力部１０６、スピーカ４０２、４０３）および上記第２音声信号出力部（第２音声信号出力部１０７、１０７ａ、１０７ｂ）を備えていてもよい。

　本発明の態様１２に係る音声信号処理装置（音声信号処理部１０）は、上記態様２において、受聴者を撮影する撮影装置（カメラ）を更に備えており、上記位置情報取得部は、上記撮影装置の撮影データに基づいて受聴者の位置情報を取得する構成であってもよい。

　本発明の態様１３に係る音声信号処理システム１は、マルチチャネルの音声信号処理システムであって、受聴可能領域の位置を受聴中に移動しない第１音声信号出力部、および、受聴可能領域の位置を受聴中に移動できる第２音声信号出力部と、入力された音声信号が音像定位すべき音声信号であるか否かを示す情報を取得する音像定位情報取得部（音声信号レンダリング部１０４）と、入力された音声信号をレンダリングして、上記第１音声信号出力部（第１音声信号出力部１０６、スピーカ４０２、４０３）と、上記第２音声信号出力部（第２音声信号出力部１０７、１０７ａ、１０７ｂ）とのうち、上記情報に応じた１つ以上の音声信号出力部に出力するレンダリング部（音声信号レンダリング部１０４）とを備えていることを特徴としている。

　本発明の態様１４に係る音声信号処理システム１は、マルチチャネルの音声信号処理システムであって、受聴可能領域の位置を受聴中に移動しない第１音声信号出力部（第１音声信号出力部１０６、スピーカ４０２、４０３）、および、受聴可能領域の位置を受聴中に移動できる第２音声信号出力部（第２音声信号出力部１０７、１０７ａ、１０７ｂ）と、受聴者の位置情報を取得する位置情報取得部と、入力された音声信号をレンダリングして、上記第１音声信号出力部（第１音声信号出力部１０６、スピーカ４０２、４０３）と、上記第２音声信号出力部（第２音声信号出力部１０７、１０７ａ、１０７ｂ）とのうち、上記位置情報に応じた１つ以上の音声信号出力部に出力するレンダリング部（音声信号レンダリング部１０４）とを備えていることを特徴としている。

　本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

　（関連出願の相互参照）
　本出願は、２０１７年９月１１日に出願された日本国特許出願：特願２０１７－１７４１０２に対して優先権の利益を主張するものであり、それを参照することにより、その内容の全てが本書に含まれる。

　１、１ａ　音声信号処理システム
　１０、１０ａ　音声信号処理部
　１０１　コンテンツ解析部
　１０２　視聴者位置情報取得部
　１０３、６０１　音声信号出力部情報取得部
　１０４　音声信号レンダリング部
　１０５　記憶部
　１０６　第１音声信号出力部
　１０７、１０７ａ、１０７ｂ　第２音声信号出力部
　２０１　トラック情報
　４０１、９０１　有効範囲
　４０２、４０３、９０３、９０４　スピーカ
　６０２　情報入力部
　７０２　マイク
　９０２　範囲

Claims

　マルチチャネルの音声信号処理装置であって、
　入力された音声信号が音像定位すべき音声信号であるか否かを示す情報を取得する音像定位情報取得部と、
　入力された音声信号をレンダリングして、受聴可能領域の位置を受聴中に移動しない第１音声信号出力部と、受聴可能領域の位置を受聴中に移動できる第２音声信号出力部とのうち、上記情報に応じた１つ以上の音声信号出力部に出力するレンダリング部とを備えていることを特徴とする音声信号処理装置。
　マルチチャネルの音声信号処理装置であって、
　受聴者の位置情報を取得する位置情報取得部と、
　入力された音声信号をレンダリングして、受聴可能領域の位置を受聴中に移動しない第１音声信号出力部と、受聴可能領域の位置を受聴中に移動できる第２音声信号出力部とのうち、上記位置情報に応じた１つ以上の音声信号出力部に出力するレンダリング部とを備えていることを特徴とする音声信号処理装置。
　上記入力された音声信号から、音声信号の種別、および音声信号が定位する位置情報を解析する解析部と、
　上記レンダリング部において必要なパラメータを記憶する記憶部とを更に備えることを特徴とする請求項１または２に記載の音声信号処理装置。
　上記第１音声信号出力部は、据え置き型のスピーカであり、
　上記第２音声信号出力部は、受聴者携帯型のスピーカであることを特徴とする請求項１から３までの何れか１項に記載の音声信号処理装置。
　上記第２音声信号出力部は、（１）開放型のヘッドホンまたはイヤホンであるか、（２）受聴者の位置に合わせて移動可能なスピーカであるか、（３）指向性を変えることができる位置固定型のスピーカであることを特徴とする請求項１から３までの何れか１項に記載の音声信号処理装置。
　上記第１音声信号出力部および上記第２音声信号出力部を示す情報を取得する音声信号出力部情報取得部を更に備えることを特徴とする請求項１から５のいずれか１項に記載の音声信号処理装置。
　上記音声信号出力部情報取得部は、上記第１音声信号出力部を示す情報を上記第１音声信号出力部から取得し、上記第２音声信号出力部を示す情報を上記第２音声信号出力部から取得することを特徴とする請求項６に記載の音声信号処理装置。
　上記音声信号出力部情報取得部は、上記第１音声信号出力部および上記第２音声信号出力部を示す情報が予め記録されたなかから、使用する音声信号出力部の当該情報を選択することを特徴とする請求項６に記載の音声信号処理装置。
　上記レンダリング部は、受聴者の位置が、予め設定された受聴可能領域に含まれているか否かに基づいて、レンダリング処理に用いるレンダリング方式を選択することを特徴とする請求項２に記載の音声信号処理装置。
　上記レンダリング部は、受聴者の位置が、予め設定された受聴可能領域に含まれていないものの、該受聴可能領域から所定の範囲内に含まれている場合には、該受聴可能領域に音像定位させるレンダリング方式と、該受聴可能領域から外れた位置に音像定位させるレンダリング方式とを用いてレンダリングすることを特徴とする請求項２または９に記載の音声信号処理装置。
　上記第１音声信号出力部および上記第２音声信号出力部を備えていることを特徴とする請求項１から１０までの何れか１項に記載の音声信号処理装置。
　受聴者を撮影する撮影装置を更に備えており、
　上記位置情報取得部は、上記撮影装置の撮影データに基づいて受聴者の位置情報を取得することを特徴とする請求項２に記載の音声信号処理装置。
　マルチチャネルの音声信号処理システムであって、
　受聴可能領域の位置を受聴中に移動しない第１音声信号出力部、および、受聴可能領域の位置を受聴中に移動できる第２音声信号出力部と、
　入力された音声信号が音像定位すべき音声信号であるか否かを示す情報を取得する音像定位情報取得部と、
　入力された音声信号をレンダリングして、上記第１音声信号出力部と、上記第２音声信号出力部とのうち、上記情報に応じた１つ以上の音声信号出力部に出力するレンダリング部とを備えていることを特徴とする音声信号処理システム。
　マルチチャネルの音声信号処理システムであって、
　受聴可能領域の位置を受聴中に移動しない第１音声信号出力部、および、受聴可能領域の位置を受聴中に移動できる第２音声信号出力部と、
　受聴者の位置情報を取得する位置情報取得部と、
　入力された音声信号をレンダリングして、上記第１音声信号出力部と、上記第２音声信号出力部とのうち、上記位置情報に応じた１つ以上の音声信号出力部に出力するレンダリング部とを備えていることを特徴とする音声信号処理システム。