WO2023013154A1

WO2023013154A1 - 音響処理装置、音響処理方法、音響処理プログラムおよび音響処理システム

Info

Publication number: WO2023013154A1
Application number: PCT/JP2022/013689
Authority: WO
Inventors: 俊哉海鋒; 将本田; 哲郎池田; 義和大浦; 由紀子海野; 由紀安藤
Original assignee: ソニーグループ株式会社
Priority date: 2021-08-06
Filing date: 2022-03-23
Publication date: 2023-02-09
Also published as: KR20240039120A; JPWO2023013154A1; CN117769845A

Abstract

音響処理装置（１００）は、コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得する取得部（１３１）と、前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を測定する測定部（１３２）と、前記測定部によって測定された情報に基づいて、前記視聴者の位置において観測される音声であって、当該空間に所在するスピーカから発せられる前記コンテンツの音声を、前記推奨環境における理想的に配置された仮想スピーカから発せられる音声に補正する補正部（１３３）と、を備える。

Description

音響処理装置、音響処理方法、音響処理プログラムおよび音響処理システム

　本開示は、コンテンツ再生時の音場処理を行う音響処理装置、音響処理方法、音響処理プログラムおよび音響処理システムに関する。

　映画やオーディオコンテンツでは、視聴者の頭上や背後などから音声を発することでコンテンツ再生時の臨場感を高める、いわゆる立体音響（３Ｄオーディオ）が採用されることがある。

　立体音響の実現のためには、視聴者を取り囲むように複数のスピーカを配置することが理想であるが、一般家庭に多数のスピーカを設置することは現実的に難しい。この課題を解決する技術として、視聴位置にマイクを設置し、集音した音に基づいて信号処理を行うことで、理想のスピーカの配置でなくとも疑似的に立体音響を実現する技術が知られている（例えば、特許文献１）。また、複数のスピーカから出力される波形を合成することで、疑似的な１つの仮想スピーカから発せられた音のように認識させる技術が知られている（例えば、特許文献２）。

特許第６７３７９５９号公報米国特許第９７４９７６９号明細書

　しかしながら、立体音響において、より視聴者の臨場感を高めるためには、視聴者の位置、再生機器の環境、天井や壁までの距離などの空間形状の把握を伴うことが求められる。すなわち、立体音響の実現のためには、空間において視聴者が所在する位置、スピーカの数や配置、壁や天井からの反射音などの情報を総合的に用いて補正することが望ましい。

　そこで、本開示では、コンテンツをより臨場感のある音場で体感させることができる音響処理装置、音響処理方法、音響処理プログラムおよび音響処理システムを提案する。

　上記の課題を解決するために、本開示に係る一形態の音響処理装置は、コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得する取得部と、前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を測定する測定部と、前記測定部によって測定された情報に基づいて、前記視聴者の位置において観測される音声であって、当該空間に所在するスピーカから発せられる前記コンテンツの音声を、前記推奨環境における理想的に配置された仮想スピーカから発せられる音声に補正する補正部と、を備える。

実施形態に係る音響処理の概要を示す図である。推奨環境に係るスピーカ配置を説明するための図（１）である。推奨環境に係るスピーカ配置を説明するための図（２）である。推奨環境に係るスピーカ配置を説明するための図（３）である。実施形態に係る音響処理を説明するための図（１）である。実施形態に係る音響処理を説明するための図（２）である。実施形態に係る音響処理を説明するための図（３）である。実施形態に係る音響処理を説明するための図（４）である。実施形態に係る音響処理装置の構成例を示す図である。実施形態に係るスピーカ情報記憶部の一例を示す図である。実施形態に係る測定結果記憶部の一例を示す図である。実施形態に係る測定処理を説明するための図（１）である。実施形態に係る測定処理を説明するための図（２）である。実施形態に係るスピーカの構成例を示す図である。実施形態に係る処理の流れを示すフローチャート（１）である。実施形態に係る処理の流れを示すフローチャート（２）である。実施形態に係る処理の流れを示すフローチャート（３）である。音響処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

　以下に、実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　以下に示す項目順序に従って本開示を説明する。
　　１．実施形態
　　　１－１．実施形態に係る音響処理の概要
　　　１－２．実施形態に係る音響処理装置の構成
　　　１－３．実施形態に係るスピーカの構成
　　　１－４．実施形態に係る処理の手順
　　　１－５．実施形態に係る変形例
　　２．その他の実施形態
　　３．本開示に係る音響処理装置の効果
　　４．ハードウェア構成

（１．実施形態）
（１－１．実施形態に係る音響処理の概要）
　図１を用いて、本開示の実施形態に係る音響処理の一例を説明する。図１は、実施形態に係る音響処理の概要を示す図である。具体的には、図１には、実施形態に係る音響処理を実行する音響処理システム１の構成要素を示す。

　図１に示すように、音響処理システム１は、音響処理装置１００と、スピーカ２００Ａと、スピーカ２００Ｂと、スピーカ２００Ｃと、スピーカ２００Ｄと、を含む。音響処理システム１は、音声信号を視聴者であるユーザ５０に出力したり、出力する音声信号を補正したりする。

　音響処理装置１００は、本開示に係る音響処理を実行する情報処理装置の一例である。具体的には、音響処理装置１００は、スピーカ２００Ａと、スピーカ２００Ｂと、スピーカ２００Ｃと、スピーカ２００Ｄとが出力する音声信号を制御する。例えば、音響処理装置１００は、映画や音楽等のコンテンツを再生し、コンテンツが含む音声をスピーカ２００Ａ等から出力させるよう制御する。なお、音響処理装置１００は、コンテンツが映像を含む場合、映像をディスプレイ３００から出力するよう制御してもよい。また、詳細は後述するが、音響処理装置１００は、ユーザ５０やスピーカ２００Ａ等の位置を測定するための各種センサ等を備える。

　スピーカ２００Ａと、スピーカ２００Ｂと、スピーカ２００Ｃと、スピーカ２００Ｄとは、音声信号を出力する音声出力装置である。以下の説明では、スピーカ２００Ａと、スピーカ２００Ｂと、スピーカ２００Ｃと、スピーカ２００Ｄとを区別する必要のない場合、「スピーカ２００」と総称する。スピーカ２００は、音響処理装置１００と無線接続され、音声信号を受信したり、後述する測定処理に関する制御を受ける。

　なお、図１における各々の装置は、音響処理システム１における機能を概念的に示すものであり、実施形態によって様々な態様をとりうる。例えば、音響処理装置１００は、後述する機能ごとに異なる２台以上の装置で構成されてもよい。また、音響処理システム１に含まれるスピーカ２００は、必ずしも４台でなくてもよい。

　上記のように、図１に示す例において、音響処理システム１は、音声信号処理を行うコントロールユニットである音響処理装置１００と、音響処理装置１００に無線接続されるスピーカ２００の組み合わせで実現されるワイヤレスオーディオスピーカシステムである。音響処理システム１は、視聴者の頭上や背後などから音声を発することでコンテンツ再生時の臨場感を高める、いわゆる立体音響（３Ｄオーディオ）をユーザ５０に提供する。

　ところで、立体音響を収納したコンテンツには、平面方向のいわゆるサラウンドスピーカだけではなく、高さ方向のいわゆるハイトスピーカ（以下では「天井スピーカ」と総称する）の配置を想定した音声信号が収録される。このようなコンテンツを適切に再生するには、視聴者の位置を中心に、平面スピーカや天井スピーカが正しく配置されることを要する。正しい配置とは、例えば、立体音響の技術規格等で規定された、スピーカ位置の推奨配置である。かかる規格によれば、立体音響の実現のためには、視聴者を取り囲むように複数のスピーカを配置することが求められるが、一般家庭に多数のスピーカを設置することは現実的に難しい。

　そこで、規格に沿った配置でなくともそれに近い音場再現をおこなうために、初期設定時に視聴位置にマイクを設置し、そこで集音した音声に基づいて信号処理を行う技術が存在する。このような技術によれば、規格に沿った正しい配置から音声が聞こえるように音場補正がなされる。また、このような技術によれば、天井スピーカが設置できない場合、天井に音を反射させて天井スピーカを代用する手法や、信号処理技術（バーチャライザ等と称される）を用いて擬似的に天井スピーカの音を視聴者に感じさせるよう、音声が補正される。しかしながら、より正しく補正するためには、視聴者やスピーカの位置を定常的に測定し、部屋の形状や特性を把握し、仮に部屋のスペースが限られている場合なども含めて、それらの情報を総合的に用いて補正することが望ましい。

　これに関して、実施形態に係る音響処理システム１は、コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得するとともに、空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を測定する。さらに、音響処理システム１は、測定された情報に基づいて、視聴者の位置において観測される音声であって、空間に所在するスピーカから発せられるコンテンツの音声を、推奨環境における理想的に配置された仮想スピーカから発せられる音声に補正する。

　このように、音響処理システム１は、現実空間に所在する視聴者の位置やスピーカの配置等を測定するとともに、かかる情報に基づいて、推奨環境に設置された仮スピーカから発せられた音声に近づくよう、現実の音声を補正する。かかる構成により、ユーザ５０は、推奨環境に規定されるような多数のスピーカを配置することなく、臨場感のある立体音響を体験することができる。また、かかる手法によれば、ユーザ５０は、視聴位置にマイクを設置して初期設定を行うなどの手間を要せずに、負担なく立体音響を実現することができる。

　以上、図１を用いて、音響処理システム１の構成および概要を示した。次に、図２以下を用いて、本開示に係る音響処理を具体的に説明する。

　図２は、推奨環境に係るスピーカ配置を説明するための図（１）である。図２には、立体音響に係る音声が記録された３Ｄオーディオコンテンツを視聴する場合に推奨されるスピーカ配置の一例を示している。具体的には、図２には、ドルビーアトモス（登録商標（Dolby　Atmos））で規定される推奨環境の一例を示している。

　図２の例では、ユーザ５０を中心として、前方正面にセンタースピーカ１０Ａ、左前方に左フロントスピーカ１０Ｂ、右前方に右フロントスピーカ１０Ｃ、左後方に左サラウンドスピーカ１０Ｄ、右後方に右フロントスピーカ１０Ｅがそれぞれ配置される。また、ユーザ５０の頭上、すなわち天井スピーカとして、左上部前方に左トップフロントスピーカ１０Ｆ、右上部前方に右トップフロントスピーカ１０Ｇ、左上部後方に左トップリアスピーカ１０Ｈ、右上部後方に右トップリアスピーカ１０Ｉがそれぞれ配置される。なお、図２での図示は省略するが、推奨環境では、このほかに低音用のサブウーファが追加される場合もある。図２の例の配置では、水平方向に５つのスピーカ、サブウーファ、天井に４つのスピーカとなるため、「５．１．４」チャンネルの環境とも称される。このほか、推奨環境としては、「７．１．４」や、「５．１．２」などの環境もとりうる。

　音響処理装置１００は、図２に示すようなスピーカの数や配置、ユーザ５０（視聴位置）からの距離などの情報を、コンテンツ再生における推奨環境に係る情報として取得する。例えば、音響処理装置１００は、コンテンツ再生時にコンテンツに含まれるメタデータから推奨環境を取得してもよいし、予め音響処理装置１００の管理者やユーザ５０によって推奨環境がインストールされていてもよい。なお、以下では、図２に示したような推奨環境における理想的な配置を実現したスピーカの各々を区別する必要のない場合、「仮スピーカ１０」と総称する。

　図２に示すように、推奨環境では、平面スピーカ（ユーザ５０と略同一の高さに設置されるスピーカ）と天井スピーカの設置数や、ユーザ５０からの距離や角度、仮スピーカ１０同士の角度や距離などが規定される。

　次に、図３を用いて、天井スピーカに関する仮スピーカ１０の平面配置について説明する。図３は、推奨環境に係るスピーカ配置を説明するための図（２）である。

　例えば、図３に示すように、推奨環境においては、左トップフロントスピーカ１０Ｆおよび右トップフロントスピーカ１０Ｇは、ユーザ５０の真正面からそれぞれ約４５度の角度に設置されることが規定される。また、左トップリアスピーカ１０Ｈおよび右トップリアスピーカ１０Ｉは、ユーザ５０の真正面からそれぞれ約１３５度の角度に設置されることが規定される。

　次に、図４を用いて、天井スピーカに関する仮スピーカ１０の設置高さについて説明する。図４は、推奨環境に係るスピーカ配置を説明するための図（３）である。図４は、図３に示した配置に対応する断面図を示す。

　例えば、図４に示すように、推奨環境においては、左トップフロントスピーカ１０Ｆ（図示しない右トップフロントスピーカ１０Ｇも同様）は、ユーザ５０の真正面から斜め上方向約４５度の角度に設置されることが規定される。また、左トップリアスピーカ１０Ｈ（図示しない右トップリアスピーカ１０Ｉも同様）は、ユーザ５０の真正面から斜め後ろ方向約１３５度の角度に設置されることが規定される。また、ユーザ５０を中心点としたとき、左トップフロントスピーカ１０Ｆと左トップリアスピーカ１０Ｈとは、約９０度の角度に設置されることが推奨される。なお、図２乃至図４で示した推奨環境は一例であり、スピーカの数や配置、ユーザ５０までの設置距離など、例えば、立体音響の規格やコンテンツ制作会社の規定等に応じて、コンテンツごとに様々に異なる推奨環境が存在するものとする。

　上述のように、実施形態に係る音響処理装置１００は、推奨環境とは異なる再生環境において、推奨環境とおりに仮スピーカ１０が置かれているかのように、現実に設置されたスピーカ２００から出力される音声を補正する。まず、音響処理装置１００は、補正処理に先立ち、図２乃至図４に示した仮スピーカ１０の配置等を示す推奨環境を取得する。その後、音響処理装置１００は、推奨環境に基づいて、実際の空間に設置されるスピーカ２００から出力される音声を補正する。かかる処理について、図５以下を用いて説明する。

　図５は、実施形態に係る音響処理を説明するための図（１）である。図５に示すように、ユーザ５０が所在する空間では、スピーカ２００Ａと、スピーカ２００Ｂと、スピーカ２００Ｃと、スピーカ２００Ｄとが、推奨環境とは異なる配置で設置されているものとする。

　推奨環境には、仮スピーカ１０の数や配置、各々の仮スピーカ１０からユーザ５０までの距離等が規定されていることから、補正処理を行うためには、スピーカ２００の配置やユーザ５０の所在位置等を把握する必要がある。そこで、音響処理装置１００は、スピーカ２００の配置やユーザ５０の所在位置等を測定する。

　一例として、音響処理装置１００は、スピーカ２００が備える無線送受信機能（具体的には、無線モジュールとアンテナ）を利用して、各々のスピーカ２００の位置を測定する。詳細は後述するが、音響処理装置１００は、各々のスピーカ２００が発信した信号を複数のアンテナで受信し、その信号の位相差を検出することで送信側（スピーカ２００）の方向を推測する手法（ＡｏＡ（Angle　of　Arrival））を採りうる。あるいは、音響処理装置１００は、音響処理装置１００が備える複数のアンテナを切り替えながら信号の送信をおこない、各々のスピーカ２００が受信した位相差から角度（すなわち、音響処理装置１００から見た際の配置）を推測する手法（ＡｏＤ（Angle　of　Departure））を用いてもよい。

　また、音響処理装置１００は、ユーザ５０の位置を測定する場合に、ユーザ５０が保持するスマートフォン等の無線通信機器を利用してもよい。例えば、音響処理装置１００は、専用のアプリ等を介してスマートフォンから音声を発信させ、かかる音声を音響処理装置１００およびスピーカ２００で受信し、その到達時刻に基づいて、ユーザ５０の位置を測定してもよい。あるいは、音響処理装置１００は、上記のＡｏＡ等の手法でスマートフォンの位置を測定し、測定したスマートフォンの位置をユーザ５０の所在位置と推定してもよい。なお、音響処理装置１００は、Ｂｌｕｅｔｏｏｔｈ等の電波を用いて空間上に存在するスマートフォンを検出してもよいし、予めユーザ５０から使用するスマートフォン等の登録を受け付けてもよい。

　あるいは、音響処理装置１００は、ＴｏＦ（Time　of　Flight）センサ等の深度センサや、人間の顔を認識するための事前学習を済ませたＡＩチップを備えるイメージセンサ等を利用して、ユーザ５０や各スピーカ２００の位置を測定してもよい。

　続いて、音響処理装置１００は、空間形状を測定する。例えば、音響処理装置１００は、スピーカ２００から測定用信号を発信させることで、空間形状を測定する。この点について、図６を用いて説明する。図６は、実施形態に係る音響処理を説明するための図（２）である。

　図６に示すように、スピーカ２００は、ユーザ５０に対して水平方向に音を出力する水平ユニット２５１のほかに、天井に向けて音を出力する天井向けユニット２５２を有する。すなわち、実施形態に係るスピーカ２００は、２方向に別々の音を発することのできる構成となっている。スピーカ２００は、天井向けユニット２５２から発せられる音を天井２０で反射させることで、天井スピーカの代用となる仮想スピーカ２６０から音が発せられたようにユーザ５０に感じさせることができる。

　また、スピーカ２００は、天井向けユニット２５２から出力する測定用信号を利用して、空間形状を測定することもできる。かかる手法は、ＦＭＣＷ（Frequency　Modulated　Continuous　Wave）等と称される。かかる手法は、時間とともに線形に周波数が変化する音をスピーカ２００から出力し、スピーカ２００が備えるマイクロホンで反射波を検出して、その周波数差（ビート周波数）から天井までの距離を求める手法である。

　具体的には、スピーカ２００は、空間形状の測定を音響処理装置１００から要求された場合、測定用信号を天井２０に向けて発信する。そして、スピーカ２００は、備えたマイクロホンで測定用信号の反射音を観測することで、天井までの距離を測定する。音響処理装置１００は、スピーカ２００の数と配置は把握しているため、スピーカ２００から送信される天井の高さ情報を取得することで、スピーカ２００が設置された空間形状に係る情報を取得することができる。

　なお、音響処理装置１００は、深度センサやイメージセンサを利用したＳＬＡＭ（Simultaneous　Localization　and　Mapping）等の技術を利用してユーザ５０が所在する空間の地図情報を取得し、かかる情報から空間形状を推定してもよい。

　また、空間形状には、空間の特性を示す情報が含まれてもよい。例えば、空間の壁や天井の材質によって、反射音の音圧や音質が変化する場合がある。例えば、音響処理装置１００は、ユーザ５０によって手動で部屋の材質に関する情報の入力を受け付けてもよいし、空間に測定用信号を照射して部屋の材質を推定してもよい。

　以上のように、音響処理装置１００は、測定処理を経て、空間に所在するスピーカ２００の数や配置、ユーザ５０の所在位置、空間形状等を得ることができる。これらの情報に基づいて、音響処理装置１００は、音場の補正処理を行う。この点について、図７を用いて説明する。図７は、実施形態に係る音響処理を説明するための図（３）である。

　上述のように、３Ｄオーディオコンテンツを再生する際の推奨環境が規定されているが、実施形態では、ユーザ５０は、スピーカ２００Ａ、スピーカ２００Ｂ、スピーカ２００Ｃ、スピーカ２００Ｄという４つしか配置できない状況であるとする。しかしながら、図で示したような理想的な配置を実現できない場合でも、音声信号補正処理により、推奨されるスピーカ配置で音が鳴っているようにユーザ５０が感じることができれば、臨場感ある３Ｄオーディオコンテンツの再生が実現できるといえる。音響処理装置１００は、現実の空間に設置された４つのスピーカ２００を用いて、かかる音響処理を行う。

　この点について、図８を用いて説明する。図８は、実施形態に係る音響処理を説明するための図（４）である。

　図８の例では、スピーカ２００Ａと、スピーカ２００Ｂと、天井の反射を利用した仮想スピーカ２６０Ｂという３つの音源を用いて、新たな仮想スピーカ２６０Ｅを出現させる状況を示す。具体的には、音響処理装置１００は、現実に配置可能なスピーカ２００もしくは反射音源を利用し、それらの位置関係に基づいて音声を合成し、仮想スピーカ２６０Ｅの位置にモノポール（monopole）音源の波面を生成する。かかる波面合成は、例えば、上述した特許文献２に記載の手法により実現可能である。具体的には、音響処理装置１００は、特許文献２に記載の「Synthesis　Monopoles（Monopole　Synthesis）」の手法を用いることで、４つのスピーカ２００、および、スピーカ２００の天井向けユニット２５２が作る４つの反射音源を合成し、推奨環境に基づく合成音場を形成することができる。

　以上、図１乃至図８に示したように、音響処理装置１００は、コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得する。また、音響処理装置１００は、空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を測定する。そして、音響処理装置１００は、測定された情報に基づいて、ユーザ５０の位置において観測される音声であって、空間に所在するスピーカ２００から発せられるコンテンツの音声を、推奨環境における理想的に配置された仮スピーカ１０から発せられる音声に補正する。

　これにより、ユーザ５０は、図７に示したような推奨環境とは異なるスピーカ配置であっても、図２に示した推奨環境に配置された仮スピーカ１０から出力された音を視聴しているかのように感じることができる。すなわち、音響処理装置１００は、推奨環境とは異なるスピーカ配置であっても、３Ｄオーディオコンテンツを推奨環境と同様の臨場感で体感させることができる。

　また、実施形態に係る音響処理によれば、実際に設置されたスピーカ２００や反射音源よりも、ユーザ５０から見て遠くに仮想スピーカ２６０Ｅを形成することができる。このため、音響処理装置１００は、部屋の大きさの制約で設置できないような位置に仮想スピーカ２６０Ｅを形成し、映画等のコンテンツが推奨した距離間で音声を再生したり、音場空間をより大きく感じさせたりすることができる。

（１－２．実施形態に係る音響処理装置の構成）
　次に、音響処理装置１００の構成について説明する。図９は、実施形態に係る音響処理装置１００の構成例を示す図である。

　図９に示すように、音響処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０と、センサ１４０とを有する。なお、音響処理装置１００は、音響処理装置１００を管理する管理者やユーザ５０等から各種操作を受け付ける入力部（例えば、タッチディスプレイやボタン等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を有してもよい。

　通信部１１０は、例えば、ＮＩＣ（Network　Interface　Card）やネットワークインタフェイスコントローラ（Network　Interface　Controller）等によって実現される。通信部１１０は、ネットワークＮと有線又は無線で接続され、ネットワークＮを介して、スピーカ２００等と情報の送受信を行う。ネットワークＮは、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、インターネット、Ｗｉ－Ｆｉ（登録商標）、ＵＷＢ（Ultra　Wide　Band）、ＬＰＷＡ（Low　Power　Wide　Area）等の無線通信規格もしくは方式で実現される。

　センサ１４０は、各種情報を検知するための機能部である。センサ１４０は、例えば、ＴｏＦセンサ１４１や、イメージセンサ１４２や、マイクロホン１４３を含む。

　ＴｏＦセンサ１４１は、空間に所在するオブジェクトまでの距離を測定する深度センサである。

　イメージセンサ１４２は、カメラ等で撮像された空間を画素情報（静止画もしくは動画）で記録する画素センサである。なお、イメージセンサ１４２は、人間の顔やスピーカの形状などを画像認識するために事前学習されたＡＩチップを同梱していてもよい。この場合、イメージセンサ１４２は、カメラで空間を撮像しながら、ユーザ５０やスピーカ２００を画像認識により検出することができる。

　マイクロホン１４３は、スピーカ２００が出力した音声やユーザ５０が発話した音声を集音する音声センサである。

　また、センサ１４０は、ユーザが音響処理装置１００に触れたことを検知するタッチセンサや、音響処理装置１００の現在位置を検知するセンサを含んでもよい。例えば、センサ１４０は、ＧＰＳ（Global　Positioning　System）衛星から送出される電波を受信し、受信した電波に基づいて音響処理装置１００の現在位置を示す位置情報（例えば、緯度及び経度）を検知してもよい。

　また、センサ１４０は、スマートフォンやスピーカ２００が発する電波を検知する電波センサや、電磁波を検知する電磁波センサ等（アンテナ）を含んでもよい。また、センサ１４０は、音響処理装置１００が置かれた環境を検知してもよい。具体的には、センサ１４０は、音響処理装置１００の周囲の照度を検知する照度センサや、音響処理装置１００の周囲の湿度を検知する湿度センサ等を含んでもよい。

　また、センサ１４０は、必ずしも音響処理装置１００の内部に備えられなくてもよい。例えば、センサ１４０は、通信等を用いてセンシングした情報を音響処理装置１００に送信することが可能であれば、音響処理装置１００の外部に設置されてもよい。

　記憶部１２０は、例えば、ＲＡＭ（Random　Access　Memory)、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２０は、スピーカ情報記憶部１２１と、測定結果記憶部１２２とを有する。以下、各記憶部について、図１０および図１１を用いて、順に説明する。

　図１０は、実施形態に係るスピーカ情報記憶部１２１の一例を示す図である。図１０に示すように、スピーカ情報記憶部１２１は、「スピーカＩＤ」、「音響特性」といった項目を有する。なお、図１０および図１１では、記憶部１２０に格納される情報を「Ａ０１」のように概念的に示す場合があるが、実際には、後述する各情報が記憶部１２０に記憶される。

　「スピーカＩＤ」は、スピーカを識別するための識別情報である。「音響特性」は、スピーカごとの音響特性を示す。例えば、音響特性には、音声出力値や周波数特性、ユニットの数や向き、ユニットの能率やレスポンスの速度（音声信号入力から出力までの時間）等の情報が含まれてもよい。音響処理装置１００は、ネットワークＮを経由したスピーカメーカ等から音響特性に係る情報をしてもよいし、スピーカから測定用信号を出力させて音響処理装置１００が備えるマイクロホンで測定するなどの手法を用いて、音響特性を取得してもよい。

　次に、測定結果記憶部１２２について説明する。図１１は、実施形態に係る測定結果記憶部の一例を示す図である。

　図１１に示した例では、測定結果記憶部１２２は、「測定結果ＩＤ」、「ユーザ位置情報」、「スピーカ配置情報」といった項目を有する。「測定結果ＩＤ」は、測定結果を識別する識別情報を示す。測定結果ＩＤには、測定日時や、測定した空間の場所を示す位置情報等が含まれてもよい。

　「ユーザ位置情報」は、測定されたユーザの位置を示す。「スピーカ配置情報」は、測定されたスピーカの配置や数を示す。なお、ユーザ位置情報やスピーカ配置情報は、どのような形式で記憶されてもよい。例えば、ユーザ位置情報やスピーカ配置情報は、ＳＬＡＭに基づいて、空間に配置されたオブジェクトとして記憶されてもよい。また、ユーザ位置情報やスピーカ配置情報は、音響処理装置１００の位置を中心とした座標情報や距離情報などで記憶されてもよい。すなわち、ユーザ位置情報やスピーカ配置情報は、音響処理装置１００が空間上でユーザ５０やスピーカ２００の位置を特定できる情報であれば、いずれの形式であるかを問わない。

　図９に戻って説明を続ける。制御部１３０は、例えば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）、ＧＰＵ（Graphics　Processing　Unit）等によって、音響処理装置１００内部に記憶されたプログラム（例えば、本開示に係る音響処理プログラム）がＲＡＭ（Random　Access　Memory）等を作業領域として実行されることにより実現される。また、制御部１３０は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現されてもよい。

　図９に示すように、制御部１３０は、取得部１３１と、測定部１３２と、補正部１３３とを有する。

　取得部１３１は、各種情報を取得する。例えば、取得部１３１は、コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得する。

　取得部１３１は、映画や３Ｄオーディオ等のコンテンツをネットワークＮ経由で取得した場合、当該コンテンツに含まれるメタデータから、コンテンツに規定された推奨環境を取得してもよい。また、取得部１３１は、ユーザ５０による入力を受け付けることで、コンテンツごとに適した推奨環境を取得してもよい。

　測定部１３２は、空間に所在するユーザ５０の位置、スピーカ２００の数と配置、および、空間形状を測定する。

　例えば、測定部１３２は、空間に所在する複数のスピーカが発信もしくは受信する電波を利用して、音響処理装置１００および複数のスピーカ２００の相対的な位置を測定することにより、空間に所在するスピーカの数および配置を測定する。

　この点について、図１２および図１３を用いて説明する。図１２は、実施形態に係る測定処理を説明するための図（１）である。

　図１２に示す例では、電波の送信者６０（Transmitter）が送信した電波を、複数のアンテナを有する受信者７０（Receiver）が受信する状況を示す。例えば、送信者６０が音響処理装置１００であり、受信者７０がスピーカ２００である。音響処理装置１００は、アンテナ６１から電波を送信し、スピーカ２００が備える複数のアンテナ７１、アンテナ７２、アンテナ７３において受信された信号の位相差を検出することで、受信側および送信側の相対的な角度θを推測することができる。音響処理装置１００は、推測した角度θに基づいて、スピーカ２００の位置を測定する。かかる手法は、ＡｏＡ等と称される。

　次に、図１３を用いて、他の例を説明する。図１３は、図１３は、実施形態に係る測定処理を説明するための図（２）である。

　図１３に示す例では、電波の送信者６０が複数のアンテナから送信した電波を、受信者７０が受信する状況を示す。例えば、送信者６０が音響処理装置１００であり、受信者７０がスピーカ２００である。音響処理装置１００は、アンテナ６５、アンテナ６６、アンテナ６７という複数のアンテナを切り替えながら信号の送信をおこない、各々のスピーカ２００がアンテナ７５で電波を受信した際の位相差から、受信側および送信側の相対的な角度θを推測する。音響処理装置１００は、推測した角度θに基づいて、スピーカ２００の位置を測定する。かかる手法は、ＡｏＤ等と称される。

　図１２および図１３で示した処理は、測定の一例であり、測定部１３２は、他の手法を用いてもよい。例えば、測定部１３２は、空間に所在する物体を検知するＴｏＦセンサ１４１を用いて、空間に所在するユーザ５０の位置、スピーカ２００の数と配置、および、空間形状の少なくとも一つを測定してもよい。

　また、測定部１３２は、音響処理装置１００が備えるイメージセンサ１４２を用いてユーザ５０もしくはスピーカ２００を画像認識することにより、空間に所在するユーザ５０もしくはスピーカ２００の位置を測定してもよい。

　また、測定部１３２は、外部装置が備えるイメージセンサを利用して、ユーザ５０もしくはスピーカ２００を画像認識することにより、空間に所在するユーザ５０もしくはスピーカ２００の位置を測定してもよい。例えば、測定部１３２は、スピーカ２００やディスプレイ３００が備えるイメージセンサや、ディスプレイ３００に接続されたＵＳＢカメラ等を利用してもよい。具体的には、測定部１３２は、スピーカ２００やディスプレイ３００が撮影した画像を取得し、画像解析によってユーザ５０やスピーカ２００を特定およびトラッキングすることで、ユーザ５０やスピーカ２００の位置を測定する。また、測定部１３２は、かかる画像認識に基づいて、ユーザ５０が所在する空間の形状や、壁や天井の材質などに基づく空間の音響特性等を測定してもよい。なお、スピーカ２００やディスプレイ３００等によって画像解析がおこなわれた場合には、スピーカ２００やディスプレイ３００は、解析により得られたユーザ５０の位置や空間形状等を抽象データ（メタデータ）に変換し、ＨＤＭＩ（登録商標）等のビデオ・オーディオ接続ケーブルや、Ｗｉ－Ｆｉなどの無線システム経由で音響処理装置１００に変換したデータを伝達してもよい。

　また、測定部１３２は、ユーザ５０が携帯するスマートフォンが発信もしくは受信する電波を利用して、空間に所在するユーザ５０の位置を測定してもよい。すなわち、測定部１３２は、上述したＡｏＡやＡｏＤの手法を用いてスマートフォンの位置を推測することで、当該スマートフォンを利用するユーザ５０の位置を測定する。なお、ユーザ５０のほかに、同空間に視聴者が複数いる場合、測定部１３２は、視聴者全員に対して順次測定を行うことで、全員分の測定が可能である。また、測定部１３２は、ユーザ５０や他の視聴者の各々が持つデバイスから測定用信号（可聴音もしくは超音波）を出力させ、それをマイクロホン１４３で検知することで、ユーザ５０等の位置を測定してもよい。

　また、測定部１３２は、空間の空間形状として、空間に所在するスピーカ２００が備えた天井向けユニット２５２から発せられた音の反射音に基づいて、空間の天井までの距離を測定する。例えば、測定部１３２は、図６に示したように、スピーカ２００が測定用信号を出力するよう制御し、スピーカ２００が発した測定用信号をスピーカ２００が受信するまでの時間に基づいて、天井までの距離を測定する。

　また、測定部１３２は、イメージセンサ１４２もしくはスマートフォンやスピーカ２００等の外部装置によって撮像される画像に基づいて地図情報を生成し、生成した地図情報に基づいて、音響処理装置１００の自己位置、ユーザ５０の位置、スピーカ２００の数と配置、および、空間形状の少なくとも一つを測定してもよい。すなわち、測定部１３２は、ＳＬＡＭに係る技術を利用することで、スピーカ２００が配置された空間形状データを作成し、その空間上に所在するユーザ５０やスピーカ２００の配置を測定してもよい。

　なお、測定部１３２は、空間に所在するユーザ５０の位置、スピーカの数と配置、および、空間形状を継続的に測定してもよい。例えば、測定部１３２は、コンテンツが停止されたタイミングや、音響処理装置１００に電源が投入されたから一定時間ごとのタイミングなどに、ユーザ５０の位置測定などを継続的に行う。この場合、補正部１３３は、測定部１３２によって継続的に測定された情報を用いて、空間に所在するスピーカ２００から発せられるコンテンツの音声を補正する。これにより、測定部１３２は、例えば部屋を掃除したユーザ５０によってスピーカ２００の配置が変更された場合などであっても、継続的に測定してその変化を捉えることができるので、ユーザ５０が意識することなく、適切な音響補正を行うことができる。

　補正部１３３は、測定部１３２によって測定された情報に基づいて、ユーザ５０の位置において観測される音声であって、空間に所在するスピーカ２００から発せられるコンテンツの音声を、推奨環境における理想的に配置された仮スピーカ１０から発せられる音声に補正する。

　例えば、補正部１３３は、図７および図８を用いて説明したように、複数のスピーカ２００から発せられる音声波形を合成することで、仮想的なスピーカを形成する手法を用いて、スピーカ２００の音声を仮スピーカ１０から発せられる音声に補正する。

　また、補正部１３３は、ユーザ５０による入力を受け付け、かかる情報を補正に反映してもよい。例えば、補正部１３３は、測定部１３２によって測定された情報をユーザ５０が利用するスマートフォンに提供する。そして、補正部１３３は、スマートフォンのアプリ上で表示される情報を見たユーザ５０から、スマートフォンのアプリ上で情報の変更を受け付ける。例えば、補正部１３３は、ユーザ５０によってスマートフォン上で補正された、空間に所在するユーザ５０の位置、スピーカ２００の数と配置、および、空間形状の少なくとも一つに基づいて、コンテンツの音声を補正する。これにより、補正部１３３は、実際の状況を把握したユーザ５０により微調整された位置情報に基づいて補正を行うことができるため、より正確に推奨環境に即した補正を行うことができる。

　さらに、補正部１３３は、補正部１３３によって補正されたコンテンツの音声に対して、ユーザ５０によって行われた補正に基づいて、さらにコンテンツの音声を補正してもよい。例えば、ユーザ５０は、補正部１３３によって補正されたコンテンツの音声を視聴したのち、強調する周波数を変更したり、スピーカ２００から出力される音声の到達時間（ディレイ）を調整したりすることを所望する場合がある。補正部１３３は、かかる情報を受け付け、ユーザ５０の要求に対応した音声に補正する。これにより、補正部１３３は、よりユーザ５０の好む音場を形成することができる。

　また、補正部１３３は、測定部１３２によって測定された情報に基づいて学習されたユーザ５０の行動パターンもしくはスピーカ２００の配置パターンに基づいて、コンテンツの音声を補正してもよい。

　例えば、補正部１３３は、測定部１３２が継続してトラッキングしたユーザ５０の位置情報やスピーカ２００の位置情報を取得する。また、補正部１３３は、ユーザ５０によって調整された音場の補正情報を取得する。そして、補正部１３３は、それらの履歴を人工知能（ＡＩ）で学習することにより、よりユーザ５０が望む最適な音場の提供が可能となる。

　さらに、補正部１３３は、再生されるコンテンツの音声をマイクロホン１４３で常にモニタすることと、ＡＩでの学習処理を継続して行うことを併用し、スマートフォンアプリ等を通して、ユーザ５０に種々の提案を行ってもよい。例えば、補正部１３３は、よりユーザ５０が好むと推測される音場に近づけるよう、スピーカ２００の向きを少し回転させたり、設置位置を少し変更したりといったことをユーザ５０に提案してもよい。また、補正部１３３は、ユーザ５０の位置をトラッキングした履歴に基づいて、次にユーザ５０が所在すると想定される位置を予測し、予測した位置に合わせた音場補正を行ってもよい。これにより、補正部１３３は、ユーザ５０が移動した直後に、その移動後の場所に合わせた適切な補正を行うことができる。

　なお、制御部１３０が行う音響処理は、例えば、音響処理装置１００やスピーカ２００を制作するメーカが実装することで実現されるが、そのほかにも、コンテンツのために提供されるソフトウェアモジュールに組み込んでおき、それを音響処理装置１００やスピーカ２００に実装して利用する、という形式もありうる。

（１－３．実施形態に係るスピーカの構成）
　次に、スピーカ２００の構成について説明する。図１４は、実施形態に係るスピーカ２００の構成例を示す図である。

　図１４に示すように、スピーカ２００は、通信部２１０と、記憶部２２０と、制御部２３０とを有する。

　通信部２１０は、例えば、ＮＩＣやネットワークインタフェイスコントローラ等によって実現される。通信部２１０は、ネットワークＮと有線又は無線で接続され、ネットワークＮを介して、音響処理装置１００等と情報の送受信を行う。

　記憶部２２０は、例えば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部２２０は、例えば、音響処理装置１００の制御によって空間形状を測定した場合や、ユーザ５０の位置を測定した場合などに、その測定結果を記憶する。

　制御部２３０は、例えば、ＣＰＵやＭＰＵ、ＧＰＵ等によって、スピーカ２００内部に記憶されたプログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、制御部２３０は、コントローラであり、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されてもよい。

　図１４に示すように、制御部２３０は、入力部２３１と、出力制御部２３２と、送信部２３３とを有する。

　入力部２３１は、音響処理装置１００によって補正された音声信号や、音響処理装置１００による制御信号等の入力を受け付ける。

　出力制御部２３２は、音声信号等を出力部２５０から出力する処理を制御する。例えば、出力制御部２３２は、音響処理装置１００によって補正された音声信号を出力部２５０から出力するよう制御する。また、出力制御部２３２は、音響処理装置１００による制御に従い、測定用信号を出力部２５０から出力するよう制御する。

　送信部２３３は、各種情報を送信する。例えば、送信部２３３は、音響処理装置１００から測定処理を実行するよう制御された場合に、その測定結果を音響処理装置１００に送信する。

　センサ２４０は、各種情報を検知するための機能部である。センサ２４０は、例えば、マイクロホン２４１を含む。

　マイクロホン２４１は、音声を検知する。例えば、マイクロホン２４１は、出力部２５０から出力された測定用信号の反射音を検知する。

　なお、スピーカ２００は、図１４に示した以外の各種センサを備えてもよい。例えば、スピーカ２００は、ユーザ５０や他のスピーカ２００を検出するためのＴｏＦセンサやイメージセンサを備えてもよい。

　出力部２５０は、出力制御部２３２の制御に従い、音声信号を出力する。すなわち、出力部２５０は、音声を発するスピーカユニットである。出力部２５０は、水平ユニット２５１および天井向けユニット２５２を含む。なお、スピーカ２００は、水平ユニット２５１および天井向けユニット２５２以外にも、より多くのユニットを備えてもよい。

（１－４．実施形態に係る処理の手順）
　次に、図１５乃至図１７を用いて、実施形態に係る処理の手順について説明する。まず、図１５を用いて、実施形態に係る音響処理の全体の手順について説明する。図１５は、実施形態に係る処理の流れを示すフローチャート（１）である。

　図１５に示すように、音響処理装置１００は、例えばユーザ５０から、測定操作を受け付けたか否かを判定する（ステップＳ１０１）。測定操作を受け付けていない場合（ステップＳ１０１；Ｎｏ）、音響処理装置１００は、測定操作を受け付けるまで待機する。

　一方、測定操作を受け付けた場合（ステップＳ１０１；Ｙｅｓ）、音響処理装置１００は、空間に設置されたスピーカ２００の配置を測定する（ステップＳ１０２）。その後、音響処理装置１００は、ユーザ５０の位置を測定する（ステップＳ１０３）。

　続いて、音響処理装置１００は、ユーザ５０が再生しようとするコンテンツを取得したか否かを判定する（ステップＳ１０４）。コンテンツを取得しない場合、音響処理装置１００は、コンテンツを取得するまで待機する（ステップＳ１０４；Ｎｏ）。

　一方、コンテンツを取得した場合（ステップＳ１０４；Ｙｅｓ）、音響処理装置１００は、当該コンテンツに対応する推奨環境を取得する（ステップＳ１０５）。音響処理装置１００は、コンテンツの再生を開始する（ステップＳ１０６）。

　このとき、音響処理装置１００は、当該コンテンツの推奨環境において再生されているかのように、再生したコンテンツの音声信号を補正する（ステップＳ１０７）。

　その後、音響処理装置１００は、例えばユーザ５０の操作にしたがって、コンテンツの再生を終了したか否かを判定する（ステップＳ１０８）。コンテンツの再生を終了していない場合（ステップＳ１０８；Ｎｏ）、音響処理装置１００は、コンテンツの再生を継続する。

　一方、コンテンツの再生が終了した場合（ステップＳ１０８；Ｙｅｓ）、音響処理装置１００は、所定時間が経過したかを判定する（ステップＳ１０９）。所定時間が経過していない場合（ステップＳ１０９；Ｎｏ）、音響処理装置１００は、所定時間が経過するまで待機する。

　一方、所定時間が経過した場合（ステップＳ１０９；Ｙｅｓ）、音響処理装置１００は、再びスピーカ２００の配置を測定する（ステップＳ１０２）。すなわち、音響処理装置１００は、予め設定された所定時間ごとにスピーカ２００やユーザ５０の位置をトラッキングすることで、次にコンテンツが再生された場合も、適切な位置情報に基づいて補正を行うことができる。

　次に、図１６を用いて、スピーカ２００に係る測定処理の手順について説明する。図１６は、実施形態に係る処理の流れを示すフローチャート（２）である。

　図１６に示すように、ステップＳ１０２においてスピーカ２００の位置や数を測定する場合、音響処理装置１００は、各スピーカ２００に位置測定のコマンドを送信する（ステップＳ２０１）。コマンドとは、例えば、測定を開始する旨を示す制御信号である。

　また、音響処理装置１００は、各スピーカ２００の配置を測定する（ステップＳ２０２）。かかる処理は、ＴｏＦセンサ１４１を用いて音響処理装置１００自身が実行してもよいし、スピーカ２００や、ユーザ５０が保持するスマートフォン等が備えるイメージセンサを利用し、スピーカ２００やスマートフォンに実行させてもよい。

　続いて、音響処理装置１００は、各スピーカ２００から天井までの距離を測定する（ステップＳ２０３）。天井までの距離は、スピーカ２００が発する測定用信号の反射を利用する測定手法をスピーカ２００に実行させて取得してもよいし、ＴｏＦセンサ１４１等を用いて音響処理装置１００自身が実行してもよい。

　その後、音響処理装置１００は、各スピーカ２００から測定結果を取得する（ステップＳ２０４）。そして、音響処理装置１００は、測定結果を測定結果記憶部１２２に格納する（ステップＳ２０５）。

　次に、図１７を用いて、ユーザ５０に係る測定処理の手順について説明する。図１７は、実施形態に係る処理の流れを示すフローチャート（３）である。

　図１７に示すように、ステップＳ１０３においてユーザ５０の位置を測定する場合、音響処理装置１００は、ユーザ５０が利用する端末装置（スマートフォンや、ユーザ５０が身に着けるスマートウォッチやスマートグラス等のウェアラブルデバイスであってもよい）と接続する（ステップＳ３０１）。

　続けて、音響処理装置１００は、上述した任意の手法を用いて、端末装置の位置を測定する（ステップＳ３０２）。かかる処理は、端末装置が備えるイメージセンサを利用し、端末装置に実行させてもよいし、ＴｏＦセンサ１４１等を用いて音響処理装置１００自身が実行してもよい。

　その後、音響処理装置１００は、端末装置から測定結果を取得する（ステップＳ３０３）。そして、音響処理装置１００は、測定結果を測定結果記憶部１２２に格納する（ステップＳ３０４）。

（１－５．実施形態に係る変形例）
　上記各実施形態では、音響処理システム１は、音響処理装置１００と、４つのスピーカ２００とを含む例を示した。しかし、音響処理システム１は、これと異なる構成であってもよい。

　例えば、音響処理システム１は、音響処理装置１００と通信で接続可能であれば、異なる機能や音響特性を有する複数のスピーカを組み合わせた構成であってもよい。すなわち、音響処理システム１は、ユーザ５０が有している既存のスピーカや、スピーカ２００とは異なる他社のスピーカ等を含んでもよい。この場合、音響処理装置１００は、上述のように音響測定信号等を発し、これらのスピーカの音響特性を取得するようにしてもよい。

　また、スピーカ２００は、必ずしも水平ユニット２５１と天井向けユニット２５２とを有する構成でなくてもよい。スピーカ２００が天井向けユニット２５２を備えない場合、音響処理装置１００は、スピーカ２００に代わり、ＴｏＦセンサ１４１やイメージセンサ１４２等を用いて、スピーカ２００から天井までの距離等の空間形状を測定してもよい。また、音響処理装置１００に代わり、カメラを備えたディスプレイ３００等が、スピーカ２００から天井までの距離等の空間形状を測定してもよい。

　また、音響処理システム１は、肩掛けスピーカや、外音を聴くことができるオープン構造のヘッドホンや、耳を塞がない構造を有する骨伝導ヘッドホンなどを含んでもよい。この場合、音響処理装置１００は、これらユーザ５０に装着される出力装置に組み込む特性として、ユーザ５０の頭部伝達関数（ＨＲＴＦ、Head-Related　Transfer　Function）を測定してもよい。この場合、音響処理装置１００は、これらユーザ５０に装着される出力装置を一つのスピーカとして取り扱い、他のスピーカから出力される音声と波形合成する。

　すなわち、音響処理装置１００は、ユーザ５０の頭部伝達関数を取得し、ユーザ５０の近傍に配置されるスピーカの音声をユーザ５０の頭部伝達関数に基づいて補正する。これにより、音響処理装置１００は、音場定位が明確な近傍のスピーカと、その空間に配置された他のスピーカとを組み合わせて音場を生成することができるので、より高い臨場感をユーザ５０に体感させることができる。

（２．その他の実施形態）
　上述した各実施形態に係る処理は、上記各実施形態以外にも種々の異なる形態にて実施されてよい。

　また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、測定部１３２と補正部１３３とは統合されてもよい。

　また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

　また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

（３．本開示に係る音響処理装置の効果）
　上述のように、本開示に係る音響処理装置（実施形態では音響処理装置１００）は、取得部（実施形態では取得部１３１）と、測定部（実施形態では測定部１３２）と、補正部（実施形態では補正部１３３）とを備える。取得部は、コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得する。測定部は、空間に所在する視聴者（実施形態ではユーザ５０）の位置、スピーカ（実施形態ではスピーカ２００）の数と配置、および、空間形状を測定する。補正部は、測定部によって測定された情報に基づいて、視聴者の位置において観測される音声であって、当該空間に所在するスピーカから発せられるコンテンツの音声を、推奨環境における理想的に配置された仮想スピーカ（実施形態では仮スピーカ１０）から発せられる音声に補正する。

　このように、本開示に係る音響処理装置は、３Ｄオーディオコンテンツ等を視聴する際の推奨環境の通りに物理的なスピーカが配置されなくとも、ユーザ位置等を測定したのちに音声を補正することで、推奨環境に配置されたように音声を視聴者に届けることができる。これにより、音響処理装置は、コンテンツをより臨場感のある音場で体感させることができる。

　また、測定部は、空間に所在する複数のスピーカが発信もしくは受信する電波を利用して、音響処理装置および当該複数のスピーカの相対的な位置を測定することにより、当該空間に所在するスピーカの数および配置を測定する。

　このように、音響処理装置は、音響処理装置とスピーカとの間の電波に基づいて位置を測定することで、高速かつ正確にスピーカの位置を測定することができる。

　また、測定部は、空間に所在する物体を検知する深度センサを用いて、空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状の少なくとも一つを測定する。

　このように、音響処理装置は、深度センサを用いることで、スピーカまでの距離や空間形状を的確に把握できるので、正確な測定や補正処理を行うことができる。

　また、測定部は、音響処理装置もしくは外部装置（実施形態ではスピーカ２００やディスプレイ３００、スマートフォン等）が備えるイメージセンサを用いて視聴者もしくはスピーカを画像認識することにより、空間に所在する視聴者もしくはスピーカの位置を測定する。

　このように、音響処理装置は、テレビやスピーカ等が備えるカメラ（イメージセンサ）を利用して測定を行うことで、他のセンサ等で測定が困難な状況下であっても、スピーカの位置等を正確に測定することができる。

　また、測定部は、視聴者が携帯する端末装置（実施形態ではスマートフォンやウェアラブルデバイス等）が発信もしくは受信する電波を利用して、空間に所在する視聴者の位置を測定する。

　このように、音響処理装置は、端末装置を用いて位置を判定することで、イメージセンサ等で視聴者を捉えることができない場合であっても、視聴者の位置を正確に測定することができる。

　また、測定部は、当該空間の空間形状として、空間に所在するスピーカが備えた音声照射部（実施形態では天井向けユニット２５２）から発せられた音の反射音に基づいて、当該空間の天井までの距離を測定する。

　このように、音響処理装置は、スピーカから出力する反射音を利用して空間形状を測定することで、画像認識等の複雑な処理を介することなく、迅速に空間形状を測定することができる。

　また、測定部は、空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を継続的に測定する。補正部は、測定部によって継続的に測定された情報を用いて、空間に所在するスピーカから発せられるコンテンツの音声を補正する。

　このように、音響処理装置は、視聴者やスピーカの位置をトラッキングすることで、例えば、何らかの事情でスピーカが移動させられたり、ユーザが移動したりした場合であっても、その状態に合わせた最適な補正を行うことができる。

　また、取得部は、コンテンツに含まれるメタデータから、当該コンテンツに規定された推奨環境を取得する。

　このように、音響処理装置は、コンテンツに合わせて推奨環境を取得することで、当該コンテンツごとに要求される推奨環境に即した補正処理を行うことができる。

　また、取得部は、視聴者の頭部伝達関数を取得する。補正部は、視聴者の近傍に配置されるスピーカの音声を当該視聴者の頭部伝達関数に基づいて補正する。

　このように、音響処理装置は、オープン型のヘッドホン等をシステムの一部として組み込んだ補正を行うことで、より臨場感のある音場体験を視聴者に提供できる。

　また、測定部は、音響処理装置が備えるイメージセンサもしくは外部装置によって撮像される画像に基づいて地図情報を生成し、生成した地図情報に基づいて、音響処理装置の自己位置、視聴者の位置、スピーカの数と配置、および、空間形状の少なくとも一つを測定する。

　このように、音響処理装置は、地図情報を利用して測定を行うことで、空間上の柱や壁の位置など、障害物も含めた音響補正ができる。

　また、補正部は、測定部によって測定された情報を視聴者が利用する端末装置に提供するとともに、当該視聴者によって当該端末装置上で補正された空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状の少なくとも一つに基づいて、コンテンツの音声を補正する。

　このように、音響処理装置は、測定した状況を端末装置のアプリ等を介して提供し、視聴者からさらに細かい位置の修正等を受け付けることで、より正確な補正を行うことができる。

　また、補正部は、補正部によって補正されたコンテンツの音声に対して、視聴者によって行われた補正に基づいて、さらにコンテンツの音声を補正する。

　このように、音響処理装置は、補正した音に対して視聴者からの要求を受け付けることで、周波数の強調箇所やディレイの状況など、よりユーザ好みの音に補正することができる。

　また、補正部は、測定部によって測定された情報に基づいて学習された視聴者の行動パターンもしくはスピーカの配置パターンに基づいて、コンテンツの音声を補正する。

　このように、音響処理装置は、視聴者やスピーカが移動させられる状況を学習することで、視聴者が所在しそうな位置に音声を最適化させたり、移動させられた後のスピーカの位置を推測して音声を補正したりといった、その場の状況に合わせた音場補正ができる。

（４．ハードウェア構成）
　上述してきた各実施形態に係る音響処理装置１００等の情報機器は、例えば図１８に示すような構成のコンピュータ１０００によって実現される。以下、本開示に係る音響処理装置１００を例に挙げて説明する。図１８は、音響処理装置１００の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read　Only　Memory）１３００、ＨＤＤ（Hard　Disk　Drive）１４００、通信インターフェイス１５００、及び入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る音響処理プログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が実施形態に係る音響処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた音響処理プログラムを実行することにより、制御部１３０等の機能を実現する。また、ＨＤＤ１４００には、本開示に係る音響処理プログラムや、記憶部１２０内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得する取得部と、
　前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を測定する測定部と、
　前記測定部によって測定された情報に基づいて、前記視聴者の位置において観測される音声であって、当該空間に所在するスピーカから発せられる前記コンテンツの音声を、前記推奨環境における理想的に配置された仮想スピーカから発せられる音声に補正する補正部と、
　を備える音響処理装置。
（２）
　前記測定部は、
　前記空間に所在する複数のスピーカが発信もしくは受信する電波を利用して、前記音響処理装置および当該複数のスピーカの相対的な位置を測定することにより、当該空間に所在するスピーカの数および配置を測定する、
　前記（１）に記載の音響処理装置。
（３）
　前記測定部は、
　前記空間に所在する物体を検知する深度センサを用いて、前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状の少なくとも一つを測定する、
　前記（１）または（２）に記載の音響処理装置。
（４）
　前記測定部は、
　前記音響処理装置もしくは外部装置が備えるイメージセンサを用いて前記視聴者もしくは前記スピーカを画像認識することにより、前記空間に所在する視聴者もしくはスピーカの位置を測定する、
　前記（１）～（３）のいずれかに記載の音響処理装置。
（５）
　前記測定部は、
　前記視聴者が携帯する端末装置が発信もしくは受信する電波を利用して、前記空間に所在する視聴者の位置を測定する、
　前記（１）～（４）のいずれかに記載の音響処理装置。
（６）
　前記測定部は、
　当該空間の空間形状として、前記空間に所在するスピーカが備えた音声照射部から発せられた音の反射音に基づいて、当該空間の天井までの距離を測定する、
　前記（１）～（５）のいずれかに記載の音響処理装置。
（７）
　前記測定部は、
　前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を継続的に測定し、
　前記補正部は、
　前記測定部によって継続的に測定された情報を用いて、前記空間に所在するスピーカから発せられる前記コンテンツの音声を補正する、
　前記（１）～（６）のいずれかに記載の音響処理装置。
（８）
　前記取得部は、
　前記コンテンツに含まれるメタデータから、当該コンテンツに規定された推奨環境を取得する、
　前記（１）～（７）のいずれかに記載の音響処理装置。
（９）
　前記取得部は、
　前記視聴者の頭部伝達関数を取得し、
　前記補正部は、
　前記視聴者の近傍に配置される前記スピーカの音声を当該視聴者の頭部伝達関数に基づいて補正する、
　前記（１）～（８）のいずれかに記載の音響処理装置。
（１０）
　前記測定部は、
　前記音響処理装置が備えるイメージセンサもしくは外部装置によって撮像される画像に基づいて地図情報を生成し、生成した地図情報に基づいて、前記音響処理装置の自己位置、前記視聴者の位置、スピーカの数と配置、および、空間形状の少なくとも一つを測定する、
　前記（１）～（９）のいずれかに記載の音響処理装置。
（１１）
　前記補正部は、
　前記測定部によって測定された情報を前記視聴者が利用する端末装置に提供するとともに、当該視聴者によって当該端末装置上で補正された前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状の少なくとも一つに基づいて、前記コンテンツの音声を補正する、
　前記（１）～（１０）のいずれかに記載の音響処理装置。
（１２）
　前記補正部は、
　前記補正部によって補正された前記コンテンツの音声に対して、前記視聴者によって行われた補正に基づいて、さらに前記コンテンツの音声を補正する、
　前記（１）～（１１）のいずれかに記載の音響処理装置。
（１３）
　前記補正部は、
　前記測定部によって測定された情報に基づいて学習された前記視聴者の行動パターンもしくは前記スピーカの配置パターンに基づいて、前記コンテンツの音声を補正する、
　請求項１に記載の音響処理装置。
　前記（１）～（１２）のいずれかに記載の音響処理装置。
（１４）
　コンピュータが、
　コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得し、
　前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を測定し、
　前記測定された情報に基づいて、前記視聴者の位置において観測される音声であって、当該空間に所在するスピーカから発せられる前記コンテンツの音声を、前記推奨環境における理想的に配置された仮想スピーカから発せられる音声に補正する、
　ことを含む音響処理方法。
（１５）
　コンピュータを、
　コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得する取得部と、
　前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を測定する測定部と、
　前記測定部によって測定された情報に基づいて、前記視聴者の位置において観測される音声であって、当該空間に所在するスピーカから発せられる前記コンテンツの音声を、前記推奨環境における理想的に配置された仮想スピーカから発せられる音声に補正する補正部と、
　として機能させるための音響処理プログラム。
（１６）
　音響処理装置とスピーカとを含む音響処理システムであって、
　前記音響処理装置は、
　コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得する取得部と、
　前記空間に所在する視聴者の位置、前記スピーカの数と配置、および、空間形状を測定する測定部と、
　前記測定部によって測定された情報に基づいて、前記視聴者の位置において観測される音声であって、当該空間に所在するスピーカから発せられる前記コンテンツの音声を、前記推奨環境における理想的に配置された仮想スピーカから発せられる音声に補正する補正部と、を備え、
　前記スピーカは、
　前記空間の所定箇所に向けて音声信号を照射する音声照射部と、
　前記音声照射部によって照射された音声信号の反射音を観測する観測部と、を備え、
　前記測定部は、
　前記音声照射部によって音声信号が照射されたときから、前記観測部によって反射音が観測されるまでの時間に基づいて、前記空間形状を測定する、
　音響処理システム。

　１　音響処理システム
　１０　仮スピーカ
　５０　ユーザ
　１００　音響処理装置
　１１０　通信部
　１２０　記憶部
　１２１　スピーカ情報記憶部
　１２２　測定結果記憶部
　１３０　制御部
　１３１　取得部
　１３２　測定部
　１３３　補正部
　１４０　センサ
　２００　スピーカ

Claims

　コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得する取得部と、
　前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を測定する測定部と、
　前記測定部によって測定された情報に基づいて、前記視聴者の位置において観測される音声であって、当該空間に所在するスピーカから発せられる前記コンテンツの音声を、前記推奨環境における理想的に配置された仮想スピーカから発せられる音声に補正する補正部と、
　を備える音響処理装置。
　前記測定部は、
　前記空間に所在する複数のスピーカが発信もしくは受信する電波を利用して、前記音響処理装置および当該複数のスピーカの相対的な位置を測定することにより、当該空間に所在するスピーカの数および配置を測定する、
　請求項１に記載の音響処理装置。
　前記測定部は、
　前記空間に所在する物体を検知する深度センサを用いて、前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状の少なくとも一つを測定する、
　請求項１に記載の音響処理装置。
　前記測定部は、
　前記音響処理装置もしくは外部装置が備えるイメージセンサを用いて前記視聴者もしくは前記スピーカを画像認識することにより、前記空間に所在する視聴者もしくはスピーカの位置を測定する、
　請求項１に記載の音響処理装置。
　前記測定部は、
　前記視聴者が携帯する端末装置が発信もしくは受信する電波を利用して、前記空間に所在する視聴者の位置を測定する、
　請求項１に記載の音響処理装置。
　前記測定部は、
　当該空間の空間形状として、前記空間に所在するスピーカが備えた音声照射部から発せられた音の反射音に基づいて、当該空間の天井までの距離を測定する、
　請求項１に記載の音響処理装置。
　前記測定部は、
　前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を継続的に測定し、
　前記補正部は、
　前記測定部によって継続的に測定された情報を用いて、前記空間に所在するスピーカから発せられる前記コンテンツの音声を補正する、
　請求項１に記載の音響処理装置。
　前記取得部は、
　前記コンテンツに含まれるメタデータから、当該コンテンツに規定された推奨環境を取得する、
　請求項１に記載の音響処理装置。
　前記取得部は、
　前記視聴者の頭部伝達関数を取得し、
　前記補正部は、
　前記視聴者の近傍に配置される前記スピーカの音声を当該視聴者の頭部伝達関数に基づいて補正する、
　請求項１に記載の音響処理装置。
　前記測定部は、
　前記音響処理装置が備えるイメージセンサもしくは外部装置によって撮像される画像に基づいて地図情報を生成し、生成した地図情報に基づいて、前記音響処理装置の自己位置、前記視聴者の位置、スピーカの数と配置、および、空間形状の少なくとも一つを測定する、
　請求項１に記載の音響処理装置。
　前記補正部は、
　前記測定部によって測定された情報を前記視聴者が利用する端末装置に提供するとともに、当該視聴者によって当該端末装置上で補正された前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状の少なくとも一つに基づいて、前記コンテンツの音声を補正する、
　請求項１に記載の音響処理装置。
　前記補正部は、
　前記補正部によって補正された前記コンテンツの音声に対して、前記視聴者によって行われた補正に基づいて、さらに前記コンテンツの音声を補正する、
　請求項１に記載の音響処理装置。
　前記補正部は、
　前記測定部によって測定された情報に基づいて学習された前記視聴者の行動パターンもしくは前記スピーカの配置パターンに基づいて、前記コンテンツの音声を補正する、
　請求項１に記載の音響処理装置。
　コンピュータが、
　コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得し、
　前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を測定し、
　前記測定された情報に基づいて、前記視聴者の位置において観測される音声であって、当該空間に所在するスピーカから発せられる前記コンテンツの音声を、前記推奨環境における理想的に配置された仮想スピーカから発せられる音声に補正する、
　ことを含む音響処理方法。
　コンピュータを、
　コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得する取得部と、
　前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を測定する測定部と、
　前記測定部によって測定された情報に基づいて、前記視聴者の位置において観測される音声であって、当該空間に所在するスピーカから発せられる前記コンテンツの音声を、前記推奨環境における理想的に配置された仮想スピーカから発せられる音声に補正する補正部と、
　として機能させるための音響処理プログラム。
　音響処理装置とスピーカとを含む音響処理システムであって、
　前記音響処理装置は、
　コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得する取得部と、
　前記空間に所在する視聴者の位置、前記スピーカの数と配置、および、空間形状を測定する測定部と、
　前記測定部によって測定された情報に基づいて、前記視聴者の位置において観測される音声であって、当該空間に所在するスピーカから発せられる前記コンテンツの音声を、前記推奨環境における理想的に配置された仮想スピーカから発せられる音声に補正する補正部と、を備え、
　前記スピーカは、
　前記空間の所定箇所に向けて音声信号を照射する音声照射部と、
　前記音声照射部によって照射された音声信号の反射音を観測する観測部と、を備え、
　前記測定部は、
　前記音声照射部によって音声信号が照射されたときから、前記観測部によって反射音が観測されるまでの時間に基づいて、前記空間形状を測定する、
　音響処理システム。