WO2020153027A1

WO2020153027A1 - オーディオシステム、オーディオ再生装置、サーバー装置、オーディオ再生方法及びオーディオ再生プログラム

Info

Publication number: WO2020153027A1
Application number: PCT/JP2019/048428
Authority: WO
Inventors: 本間　弘幸; 徹知念; 芳明及川
Original assignee: ソニー株式会社
Priority date: 2019-01-24
Filing date: 2019-12-11
Publication date: 2020-07-30
Also published as: CN113302950A; DE112019006727T5; KR20210118820A; US20220086587A1; JPWO2020153027A1; US11937069B2

Abstract

入力される画像データに基づいて顔データを検出する顔データ検出部と、顔データ検出部から出力された顔データに対応する音響係数を出力する音響係数取得部と、音響係数取得部で取得した音響係数に基づく音響処理を、オーディオ信号に施す音響係数適用部と、を備える。

Description

オーディオシステム、オーディオ再生装置、サーバー装置、オーディオ再生方法及びオーディオ再生プログラム

　本開示は、オーディオシステム、オーディオ再生装置、サーバー装置、オーディオ再生方法及びオーディオ再生プログラムに関する。

　現在、複数のスピーカを使用して、所望の音場を再現する技法が知られている。このような音場再現の技法により、立体的な音響空間を実現することが可能となる。特許文献１には、頭部伝達関数を使用し、所望の音響効果を達成できる音響制御装置が開示されている。

特開２０１５－２２８５７１号公報

　このような分野では、ユーザーに好適な音場を実現することが望まれている。本開示は、ユーザーに好適な音場を実現するオーディオシステム、オーディオ再生装置、サーバー装置、オーディオ再生方法及びオーディオ再生プログラムを提供することを目的の一つとする。

　本開示は、例えば、
　入力される画像データに基づいて顔データを検出する顔データ検出部と、
　顔データ検出部から出力された顔データに対応する音響係数を出力する音響係数取得部と、
　音響係数取得部で取得した音響係数に基づく音響処理を、オーディオ信号に施す音響係数適用部と、を備える
　オーディオシステムである。

　本開示は、例えば、
　入力される画像データに基づいて顔データを検出する顔データ検出部と、
　顔データに対応する音響係数に基づく音響処理を、オーディオ信号に施す音響係数適用部と、を備える
　オーディオ再生装置である。

　本開示は、例えば、
　オーディオ再生装置から送信された顔データを受信する受信部と、
　受信した顔データに対応する音響係数を出力する音響係数取得部と、
　音響係数取得部で出力された音響係数を、オーディオ再生装置に送信する
　サーバー装置である。

　本開示は、例えば、
　入力される画像データに基づいて顔データを検出する顔データ検出処理と、
　顔データに対応する音響係数に基づく音響処理を、オーディオ信号に施す音響係数適用処理と、を行う
　オーディオ再生方法である。

　本開示は、例えば、
　入力される画像データに基づいて顔データを検出する顔データ検出処理と、
　顔データに対応する音響係数に基づく音響処理を、オーディオ信号に施す音響係数適用処理と、を情報処理装置に実行させる
　オーディオ再生プログラムである。

図１は、一般的な再生装置の構成を示すブロック図である。図２は、パニング処理の一種である３次元ＶＢＡＰを説明するための図である。図３は、本実施形態に係るオーディオシステムを示すブロック図である。図４は、本実施形態に係る個人化音響係数設定処理を示すフロー図である。図５は、本実施形態に係る個人化音響係数取得処理を示すフロー図である。図６は、本実施形態に係る個人化音響係数再計算処理を表すフロー図である。図７は、テスト信号情報の表示の様子を示す図である。

　以下、本開示の実施形態等について図面を参照しながら説明する。なお、説明は以下の順序で行う。
＜１．一般技術の説明＞
＜２．一実施形態＞
　以下に説明する実施形態等は本開示の好適な具体例であり、本開示の内容がこれらの実施形態に限定されるものではない。

＜１．一般技術の説明＞
　映画やゲーム等でオブジェクトオーディオ技術が使われ、オブジェクトオーディオを扱える符号化方式も開発されている。例えば、国際標準規格であるＭＰＥＧ規格などが知られている。

　このような符号化方式では、従来の２チャネルステレオ方式や５．１チャネル等のマルチチャンネルステレオ方式とともに、移動する音源等を独立したオーディオオブジェクトとして扱い、オーディオオブジェクトの信号データとともにオブジェクトの位置情報をメタデータとして符号化することができる。このようにすることで、スピーカの数、配置が異なる様々な視聴環境で再生が行え、また、従来の符号化方式では困難だった特定の音源を再生時に加工（例えば、音量の調整や、エフェクトの追加など）することが容易に可能となっている。

　図１には、一般的な再生装置１００の構成を示すブロック図が示されている。再生装置１００は、コアデコード処理部１０１、レンダリング処理部１０２、頭部伝達関数処理部１０３を備えて構成されている。コアデコード処理部１０１は、外部から入力される入力ビットストリームを復号し、オーディオオブジェクト信号と、オブジェクト位置情報等を含むメタデータを出力する。ここで、オブジェクトとは、再生されるオーディオ信号を構成する１乃至複数の音源であって、オーディオオブジェクト信号は、音源から発せられるオーディオ信号に相当し、オブジェクト位置情報は、音源となるオブジェクトの位置に相当する。

　レンダリング処理部１０２は、デコードされたオーディオオブジェクト信号と、オブジェクト位置情報に基づいて、仮想空間中に配置されたスピーカにレンダリング処理を行い、仮想空間における音場を再現した仮想スピーカ信号を出力する。頭部伝達関数処理部１０３は、仮想スピーカ信号に対し、一般的な頭部伝達関数を適用し、ヘッドフォンもしくはスピーカ再生のためのオーディオ信号を出力する。

　ここで、レンダリング処理部１０２では、３次元ＶＢＡＰ（Vector Based Amplitude Panning）と呼ばれる方式が用いられることが知られている。これは一般的にパニングと呼ばれるレンダリング手法の１つで、視聴位置を原点とする球表面上に存在するスピーカのうち、同じく球表面上に存在するオーディオオブジェクトに最も近い３個のスピーカに対しゲインを分配することでレンダリングを行う方式である。

　図２は、３次元ＶＢＡＰを説明するための図である。視聴位置Ｕ１１を原点Ｏとし、三次元空間中の球表面にあるオーディオオブジェクトＶＳＰ２から音を出力することを考えてみる。オーディオオブジェクトＶＳＰ２の位置を、原点Ｏ（視聴位置Ｕ１１）を始点とするベクトルＰとすると、ベクトルＰは、オーディオオブジェクトＶＳＰ２と同じ球表面にあるスピーカＳＰ１、ＳＰ２、ＳＰ３に対しゲインを分配することで表すことができる。したがって、ベクトルＰは、各スピーカＳＰ１、ＳＰ２、ＳＰ３の位置を表すベクトルＬ１、Ｌ２、及びＬ３を用いて式（１）のように表すことができる。
　　Ｐ＝ｇ１＊Ｌ１＋ｇ２＊Ｌ２＋ｇ３＊Ｌ３　　　　　　　（１）
　ここで、それぞれｇ１、ｇ２、及びｇ３は、スピーカＳＰ１、ＳＰ２、及びＳＰ３に対するゲインを表し、ｇ123＝［ｇ１ｇ２ｇ３］、Ｌ123＝［Ｌ１Ｌ２Ｌ３］とすると、式（１）は、以下の式（２）で表すことができる。
　　ｇ123＝Ｐ^TＬ123^-1　　　　　　　　　　　　　　　　　（２）

　このようにして求めたゲインを用いて、オーディオオブジェクト信号を各スピーカＳＰ１、ＳＰ２、ＳＰ３に分配することで、レンダリングを行うことができる。スピーカＳＰ１、ＳＰ２、ＳＰ３の配置は固定されており既知の情報であるため、逆行列Ｌ123^-1は事前に求めておくことができ、比較的平易な計算量で処理を行うことができる。

　このようなパニング方式ではスピーカを空間中に多数配置することで空間解像度を高めることができる。しかし、映画館とは異なり一般の家庭では多数のスピーカを空間内に配置することは困難な場合が多い。このような場合に、頭部伝達関数を利用したトランスオーラル処理によって、空間中に配置した多数の仮想スピーカの再生信号を、実空間上に配置した少数のスピーカで聴覚近似的に再現できることが知られている。

　一方で、トランスオーラル処理に用いられる頭部伝達関数は、頭部や耳の形状によって大きく変化する。従って、現在市場に存在するトランスオーラル処理やヘッドフォン用のバイノーラル処理に用いられる頭部伝達関数は、人間の平均的な顔形状を持つダミーヘッドの耳穴にマイクロフォンを挿入しインパルス応答を測定することによって作成されている。しかしながら、実際には、個人毎に異なる顔、耳等の形状、配置によって左右されるため、平均的な頭部伝達関数では不十分であり、音場を忠実に再生することは困難であった。

　本実施形態に係るオーディオシステムは、このような状況に鑑みてなされたものであり、カメラによって取得された画像から顔認識技術を用いて顔データを取得し、取得した顔データに対応する個人化頭部伝達関数を使用することで、各個人に応じて、音場を忠実に再現することを一つの目的とするものである。以下に、本実施形態に係るオーディオシステムの各種実施形態を説明する。

＜２．一実施形態＞
　図３は、本実施形態に係るオーディオシステムを示すブロック図である。オーディオシステムは、オーディオ信号を出力する再生装置３００と、サーバー装置２００とを有して構成される。再生装置３００とサーバー装置２００とは、インターネット等、各種通信回線を介して通信接続されている。まず、再生装置３００のオーディオ再生機能について説明する。

　再生装置３００におけるオーディオ再生機能は、コアデコード処理部３０１、レンダリング処理部３０２、音響係数適用部３０３で実現される。コアデコード処理部３０１は、図１で説明したコアデコード処理部１０１と同様の機能を有し、入力される入力ビットストリームをデコードし、オーディオオブジェクト信号と、オブジェクト位置情報（メタ情報）を出力する。レンダリング処理部３０２は、図１で説明したレンダリング処理部１０２と同様の機能を有する。レンダリング処理部３０２では、例えば、先に説明したＶＢＡＰのようなパニング処理を実行し、仮想スピーカ信号を出力する。音響係数適用部３０３は、入力される仮想スピーカ信号に各種音響係数を適用することで、オーディオ信号を出力する。

　次に、音響係数適用部３０３で適用する各種音響係数を取得する方法について説明する。本実施形態の再生装置３００は、聴取するユーザーを撮影した画像データを取得することが可能となっている。画像データは、再生装置３００に通信接続された各種情報機器、例えば、テレビ、スマートスピーカ、パソコン等から取得することが可能である。これら情報機器にはカメラが搭載されており、再生装置３００で再生されるオーディオ信号を聴取するユーザーの様子を撮像することが可能となっている。なお、再生装置３００にカメラを搭載した情報機器を通信接続することに代え、再生装置３００にカメラを直接、通信接続し、画像データを取得する形態を採用してもよい。

　また、本実施形態の再生装置３００には、各種情報を表示するための表示装置を接続することが可能となっている。再生装置３００は、各種情報を表示することで、ユーザーに音響係数を選択させることが可能となっている。また、再生装置３００には、音響係数を選択させるための入力装置も接続される。入力装置としては、リモコン装置、キーボード、マウスといった形態以外に、ユーザーが所持するスマートフォンを通信接続して使用することも可能である。

　次に、再生装置３００で使用される個人化音響係数を得る方法について、図４のフローチャートを用いて説明を行う。図４は、再生装置３００で事項される個人化音響係数設定処理を示すフロー図である。

　再生装置３００で事項される個人化音響係数設定処理では、まず、顔データ検出部３０４に画像データが入力され（Ｓ１１）、顔データ検出部３０４は、画像データに基づいて顔認識処理を実行する（Ｓ１２）。顔データ検出部３０４は、認識結果に基づいて顔データを検出、出力する。顔認識処理については一般的に用いられている技術を適用することができる。なお、顔データは、画像データから抽出した顔部分であってもよいし、顔の輪郭や目耳鼻の位置、大きさといった顔の特徴量等、各種形態を採用することができる。また、顔データには、聴取空間におけるユーザーの位置、あるいは向いている方向を含めることとしてもよい。

　認識結果としての顔データはサーバー装置２００へ送信される（Ｓ１３）。これは顔データ送信部３０５によって行われる。サーバー装置２００への送信に関して、物理的には有線無線に限らずあらゆる媒体を用いることができる。また、論理的なフォーマットはロスレスな圧縮及び非圧縮フォーマットの他、サーバー装置２００上の多数の顔データから照合可能な程度の軽度な非可逆圧縮手法も用いることが可能である。

　ここで、サーバー装置２００上において受信された顔データから個人化音響係数を出力する手法については別途後述し、ここではサーバー装置２００から個人化音響係数が送信されたものとして説明を続ける。再生装置３００では、サーバー装置２００から１つ以上の音響係数を受信したか否かを確認する（Ｓ１４）。これは個人化音響係数受信部３０６によって行われる。顔データを送信してから一定期間の間に個人化音響係数が受信できない場合は、タイムアウトして個人化音響係数設定処理を終了する。

　一方、サーバー装置２００から個人化音響係数が受信された場合（Ｓ１４：Ｙｅｓ）、ユーザーは、受信した個人化音響係数を選択することが可能となっている。この処理は個人化音響係数選択部３０７によって実行される。ユーザーの選択は、再生装置３００に接続された入力装置によって行われる。本実施形態では、サーバー装置２００は、デフォルトの個人化音響係数に加え、少なくとも１つの個人化音響係数の候補を送信する。したがって、ユーザーは、デフォルトの個人化音響係数を使用するか、個人化音響係数の候補を使用するかを選択することが可能となっている。ユーザーが個人化音響係数を選択する場合（Ｓ１５：Ｙｅｓ）、再生装置３００は、テスト信号を再生（Ｓ１６）するとともに、テスト信号情報を表示装置に表示させる（Ｓ１７）。ユーザーは、個人化音響係数を切り替えながら、テスト信号を再生し、スピーカから出力されるオーディオ信号を聴取する。

　図７は、表示装置上に表示されたテスト信号情報の一例である。画像表示部３０８は、表示装置に対し、テスト信号情報に基づく映像を表示させる。本実施形態では、原点Ｏを中心として、位置情報に基づいて移動音源Ａを表示させる。その際、再生装置３００は、ユーザーの視聴位置を原点Ｏとして、移動音源Ａの位置情報に定位するようにテスト信号に基づくオーディオ信号を出力する。ここで、ユーザーはＸ軸正の方向を向いているとする。その際、音響係数適用部３０３には、受信した個人化音響係数が使用される。ユーザーは、表示装置に表示される移動音源Ａの位置と、自身が聞いている音（特に定位）を拠り所とし、個人化音響係数が適切か否かを決定する。図７には矢印で移動音源Ａの軌跡を示している。図から分かるように、この例では、移動音源Ａは、原点Ｏの周りを周回しながら上昇する軌跡を取っている。この場合、ユーザーは、自己の周りを周回しながら上昇する音の定位を聴取することになる。

　本実施形態では、デフォルトの個人化音響係数と、少なくとも１つの個人化音響係数の候補を使用することで、ユーザーに好適な個人化音響係数を選択させることを可能としている。ユーザーは入力装置を使用して、候補となる個人化音響係数を適宜選択し、適切な個人化音響係数を決定する（Ｓ１８）。一方、個人化音響係数を選択しない場合（Ｓ１５：Ｎｏ）には、受信したデフォルトの個人化音響係数が使用される（Ｓ１８）。個人化音響係数の選択結果は、サーバー装置２００に送信される（Ｓ１９）。そして、再生装置３００は、決定した個人化音響係数を音響係数適用部３０３に設定する（Ｓ２０）。

　以上が再生装置３００で実行される個人化音響係数設定処理の内容である。本実施形態では、送信した顔データに対応して、サーバー装置２００から受信した個人化音響係数を使用することで、顔データに適した個人化音響係数で音場を再現し、音場を忠実に再生することが可能となっている。また、ユーザーに対しても個人化音響係数を選択させることによって、更に好適な個人化音響係数を使用することが可能となる。そして、ユーザーの決定結果をサーバー装置２００側に送信することで、サーバー装置２００側では、決定結果を使用して学習処理を行い、さらに精度の高い個人化音響係数を提供することが可能となる。

　次に、サーバー装置２００側の処理について、図５及び図６のフローチャートを用いて説明を行う。図５は、サーバー装置２００で実行される個人化音響係数取得処理を示すフロー図である。サーバー装置２００は、再生装置３００から送信された顔データを受信することで、個人化音響係数取得処理を開始する。ここで、本実施形態の個人化音響係数には、頭部伝達関数を使用している。顔データに基づく各種個人の特徴量に応じた頭部伝達関数を使用することで、各個人に好適な音場を再現することが可能となっている。なお、顔データの受信、及び、個人化音響係数の送信は、個人化音響係数取得部２０１によって実行される。個人化音響係数取得処理が開始されると、受信した顔データが記憶部２０４内に存在するか否かが判定される（Ｓ２１）。

　顔データが存在しない場合（Ｓ２１：Ｎｏ）には、頭部伝達関数を用いないダウンミックス処理と等価な係数を個人化音響係数として送信する（Ｓ２２）。なお、ここでいうダウンミックス処理とは、例えば、ステレオからモノラルへ変換する場合に、ステレオの各チャネルに０．５を乗じて加算しモノラル信号を得るような処理を意味している。個人化音響係数を送信した（Ｓ２２）後、個人化音響係数取得処理を終了する。

　一方、顔データが存在する場合（Ｓ２１：Ｙｅｓ）、顔データが複数存在するかどうかの判定が行われる（Ｓ２３）。ここで顔データが複数存在するとは、再生装置３００を使用して聴取を行うユーザーが複数人居るということと等価である。顔データが複数存在する場合（Ｓ２３：Ｙｅｓ）、Ｓ２４の処理においてリスニングエリアの広い一般化された頭部伝達関数を用いた係数を個人化音響係数として送信する（Ｓ２４）。なお、リスニングエリアを広げる処理は、既存の技術を用いることができる。また、ここで一般化された頭部伝達関数とは、一般的な人の顔や耳の形状を模擬したダミーヘッドと呼ばれる模型の耳穴にマイクロフォンを挿入して測定して得られるものを意味する。個人化音響係数を送信した（Ｓ２４）後、個人化音響係数取得処理を終了する。なお、顔データにそれぞれのユーザーの位置情報が含まれる場合、全てのユーザーの位置をリスニングエリアとして設定し、個人化音響係数として決定することが可能である。

　次に、顔データが複数存在しなかった場合（Ｓ２３：Ｎｏ）、サーバー装置２００は、記憶部２０４内に登録された顔データが存在するかどうかの判定を行う（Ｓ２５）。具体的には、個人化音響係数取得部２０１が記憶部２０４にアクセスし、入力された顔データが登録済みか判定を行う。顔データが存在する場合（Ｓ２５：Ｙｅｓ）、顔データと紐付けられた個人化音響係数をデフォルトの個人化音響係数として送信する。また、本実施形態では、デフォルトの個人化音響係数とともに、少なくとも１つの個人化音響係数の候補を送信する。したがって、再生装置３００に対しては、デフォルトの個人化音響係数を含め、複数の個人化音響係数が送信される（Ｓ２６）。ここで、候補となる個人化音響係数は、デフォルトの個人化音響係数とは、異なる個人化音響係数であって、受信した顔データに基づいて決定される、あるいは、デフォルトの個人化音響係数を調整する等の手法で決定される。

　一方、顔データが記憶部２０４に存在しなかった場合（Ｓ２５：Ｎｏ）、入力された顔データを分析することで、複数の個人化音響係数を決定して送信する（Ｓ２７）。顔データの分析手法としては、機械学習によって得られた学習係数を持つニューラルネットワークに対して、顔データを入力し、複数の個人化音響係数の候補を尤度順に送信すること等が考えられる。再生装置３００では、尤度順の最も高い個人化音響係数がデフォルトとして設定される。なお、この未知の顔データに対する個人化音響係数の取得は、Ｓ２６において、登録された個人化音響係数以外の候補を送信する際にも用いられる。

　次に、図６のフローチャートを用いて個人化音響係数再計算処理について説明を行う。個人化音響係数再計算処理は、サーバー装置２００で行われる処理であり、再生装置３００から送信された個人化音響係数の選択結果に基づいて実行される処理である。サーバー装置２００は、再生装置３００から送信された個人化音響係数の選択結果を受信する（Ｓ３１）。この処理は、図３の個人化音響係数選択結果受信部２０２において行われる。

　図４で説明した個人化音響係数設定処理において、サーバー装置２００は、顔データとともに選択結果を受信する。サーバー装置２００は、個人化音響係数設定処理で受信した個人化音響係数と顔データのペアを記憶部２０４に記録する（Ｓ３２）。その後、記憶部２０４に記憶している個人化音響係数と顔データのペアを使用して学習処理を実行する（Ｓ３３）。ここで、学習処理は、顔データに基づく個人化音響係数の決定アルゴリズムを更新する機械学習処理であり、機械学習処理としては、ディープニューラルネットワークにとして知られるＣＮＮ（Convolution Neural Network）や、ＲＮＮ（Recurrent Neural Network）など、既存の手法を適用できる。更新された個人化音響係数の決定アルゴリズムは、図５で説明した個人化音響係数の候補を作成する際に使用される。

　以上、個人化音響係数再計算処理では、顔データに基づき個人化音響係数を複数送信し、ユーザーに選択させることで、ユーザーに好適な個人化音響係数を使用することが可能となっている。更に、選択結果に基づき、顔データと個人化音響係数の関係を学習することで、より好適な個人化音響係数を提供することが可能となっている。

　なお、本実施形態では、デフォルトの個人化音響係数と、候補となる個人化音響係数を送信しているが、このような形態に代え、以下に説明する形態を採用することもできる。この形態では、サーバー装置２００は、デフォルトの個人化音響係数のみを送信する。再生装置３００側では、ユーザーは、入力装置を使用して、受信したデフォルトの個人化音響係数を調整することが可能となっている。個人化音響係数設定処理では、調整された結果を選択結果として、サーバー装置２００に送信する。サーバー装置２００では、選択結果と顔データのペアに基づき、学習処理を実行することで、個人化音響係数の決定アルゴリズムを決定する。なお、この個人化音響係数の調整は、前述した複数の個人化音響係数の中からの選択と併用することも可能である。

　本開示の少なくとも実施形態によれば、聴取するユーザーの顔データに応じた音響係数をオーディオ信号に適用することで、ユーザーに好適な音場を形成することが可能である。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれの効果であっても良い。また、例示された効果により本開示の内容が限定して解釈されるものではない。

　本開示は、装置、方法、プログラム、システム等により実現することもできる。例えば、上述した実施形態で説明した機能を行うプログラムをダウンロード可能とし、実施形態で説明した機能を有しない装置が当該プログラムをダウンロードすることにより、当該装置において実施形態で説明した制御を行うことが可能となる。本開示は、このようなプログラムを配布するサーバーにより実現することも可能である。また、各実施形態、変形例で説明した事項は、適宜組み合わせることが可能である。

　本開示は、以下の構成も採ることができる。
（１）
　入力される画像データに基づいて顔データを検出する顔データ検出部と、
　前記顔データ検出部から出力された顔データに対応する音響係数を出力する音響係数取得部と、
　前記音響係数取得部で取得した音響係数に基づく音響処理を、オーディオ信号に施す音響係数適用部と、を備える
　オーディオシステム。
（２）
　前記音響係数は、頭部伝達関数である
　（１）に記載のオーディオシステム。
（３）
　前記音響係数取得部は、入力された顔データに対応する個人が登録されていた場合、当該個人に対応する音響係数を、音響係数として出力する
　（１）または（２）に記載のオーディオシステム。
（４）
　前記音響係数取得部は、入力された顔データに対応する個人が登録されていない場合、入力された顔データの分析結果に基づき、音響係数を出力する
　（１）から（３）の何れか１つに記載のオーディオシステム。
（５）
　前記音響係数取得部は、複数の音響係数を出力する
　（１）から（４）の何れか１つに記載のオーディオシステム。
（６）
　前記音響係数取得部は、入力された顔データに対応する個人が登録されていた場合、当該個人に対応する音響係数と、少なくとも１つの候補となる音響係数を出力する
　（５）に記載のオーディオシステム。
（７）
　前記音響係数取得部は、入力された顔データに対応する個人が登録されていない場合、複数の候補となる音響係数を出力する
　（５）または（６）に記載のオーディオシステム。
（８）
　前記音響係数取得部は、前記顔データ検出部が複数の顔データを検出した場合、広い聴取範囲の音響係数を出力する
　（１）から（７）の何れか１つに記載のオーディオシステム。
（９）
　前記音響係数取得部は、検出した顔データの位置に基づき、前記広い聴取範囲の音響係数を出力する
　（８）に記載のオーディオシステム。
（１０）
　出力された複数の音響係数をユーザーが選択可能な選択部と、
　前記選択部における選択結果と、前記音響係数取得部で使用した顔データに基づいて、学習処理を実行する音響係数再計算部を備える
　（５）から（９）の何れか１つに記載のオーディオシステム。
（１１）
　出力された複数の音響係数をユーザーが選択可能な選択部と、
　位置情報に基づき、オブジェクトを表示する画像表示部と、を備え、
　前記音響係数適用部は、表示されるオブジェクトの位置情報に基づいて、音像定位されオーディオ信号を出力する
　（５）から（１０）の何れか１つに記載のオーディオシステム。
（１２）
　入力される画像データに基づいて顔データを検出する顔データ検出部と、
　顔データに対応する音響係数に基づく音響処理を、オーディオ信号に施す音響係数適用部と、を備える
　オーディオ再生装置。
（１３）
　検出した顔データをサーバー装置に送信する送信部と、
　顔データに対応する音響係数を受信する受信部を備えた
　（１２）に記載のオーディオ再生装置。
（１４）
　オーディオ再生装置から送信された顔データを受信する受信部と、
　受信した顔データに対応する音響係数を出力する音響係数取得部と、
　音響係数取得部で出力された音響係数を、前記オーディオ再生装置に送信する
　サーバー装置。
（１５）
　入力される画像データに基づいて顔データを検出する顔データ検出処理と、
　顔データに対応する音響係数に基づく音響処理を、オーディオ信号に施す音響係数適用処理と、を行う
　オーディオ再生方法。
（１６）
　入力される画像データに基づいて顔データを検出する顔データ検出処理と、
　顔データに対応する音響係数に基づく音響処理を、オーディオ信号に施す音響係数適用処理と、を情報処理装置に実行させる
　オーディオ再生プログラム。

１００：再生装置
１０１：コアデコード処理部
１０２：レンダリング処理部
１０３：頭部伝達関数処理部
２００：サーバー装置
２０１：個人化音響係数取得部
２０２：個人化音響係数選択結果受信部
２０４：記憶部
３００：再生装置
３０１：コアデコード処理部
３０２：レンダリング処理部
３０３：音響係数適用部
３０４：顔データ検出部
３０５：顔データ送信部
３０６：個人化音響係数受信部
３０７：個人化音響係数選択部
３０８：画像表示部

Claims

　入力される画像データに基づいて顔データを検出する顔データ検出部と、
　前記顔データ検出部から出力された顔データに対応する音響係数を出力する音響係数取得部と、
　前記音響係数取得部で取得した音響係数に基づく音響処理を、オーディオ信号に施す音響係数適用部と、を備える
　オーディオシステム。
　前記音響係数は、頭部伝達関数である
　請求項１に記載のオーディオシステム。
　前記音響係数取得部は、入力された顔データに対応する個人が登録されていた場合、当該個人に対応する音響係数を、音響係数として出力する
　請求項１に記載のオーディオシステム。
　前記音響係数取得部は、入力された顔データに対応する個人が登録されていない場合、入力された顔データの分析結果に基づき、音響係数を出力する
　請求項１に記載のオーディオシステム。
　前記音響係数取得部は、複数の音響係数を出力する
　請求項１に記載のオーディオシステム。
　前記音響係数取得部は、入力された顔データに対応する個人が登録されていた場合、当該個人に対応する音響係数と、少なくとも１つの候補となる音響係数を出力する
　請求項５に記載のオーディオシステム。
　前記音響係数取得部は、入力された顔データに対応する個人が登録されていない場合、複数の候補となる音響係数を出力する
　請求項５に記載のオーディオシステム。
　前記音響係数取得部は、前記顔データ検出部が複数の顔データを検出した場合、広い聴取範囲の音響係数を出力する
　請求項１に記載のオーディオシステム。
　前記音響係数取得部は、検出した顔データの位置に基づき、前記広い聴取範囲の音響係数を出力する
　請求項８に記載のオーディオシステム。
　出力された複数の音響係数をユーザーが選択可能な選択部と、
　前記選択部における選択結果と、前記音響係数取得部で使用した顔データに基づいて、学習処理を実行する音響係数再計算部を備える
　請求項５に記載のオーディオシステム。
　出力された複数の音響係数をユーザーが選択可能な選択部と、
　位置情報に基づき、オブジェクトを表示する画像表示部と、を備え、
　前記音響係数適用部は、表示されるオブジェクトの位置情報に基づいて、音像定位されオーディオ信号を出力する
　請求項５に記載のオーディオシステム。
　入力される画像データに基づいて顔データを検出する顔データ検出部と、
　顔データに対応する音響係数に基づく音響処理を、オーディオ信号に施す音響係数適用部と、を備える
　オーディオ再生装置。
　検出した顔データをサーバー装置に送信する送信部と、
　顔データに対応する音響係数を受信する受信部を備えた
　請求項１２に記載のオーディオ再生装置。
　オーディオ再生装置から送信された顔データを受信する受信部と、
　受信した顔データに対応する音響係数を出力する音響係数取得部と、
　音響係数取得部で出力された音響係数を、前記オーディオ再生装置に送信する
　サーバー装置。
　入力される画像データに基づいて顔データを検出する顔データ検出処理と、
　顔データに対応する音響係数に基づく音響処理を、オーディオ信号に施す音響係数適用処理と、を行う
　オーディオ再生方法。
　入力される画像データに基づいて顔データを検出する顔データ検出処理と、
　顔データに対応する音響係数に基づく音響処理を、オーディオ信号に施す音響係数適用処理と、を情報処理装置に実行させる
　オーディオ再生プログラム。