WO2017110882A1

WO2017110882A1 - スピーカの配置位置提示装置

Info

Publication number: WO2017110882A1
Application number: PCT/JP2016/088122
Authority: WO
Inventors: 健明末永; 永雄服部; 北浦　竜二
Original assignee: シャープ株式会社
Priority date: 2015-12-21
Filing date: 2016-12-21
Publication date: 2017-06-29
Also published as: CN109479177A; US10547962B2; US20190007782A1; JP6550473B2; CN109479177B; JPWO2017110882A1

Abstract

ユーザにとって好適なスピーカの配置位置を自動で算出し、その配置位置情報をユーザに提供する。マルチチャネル音声信号を物理振動として出力する複数のスピーカの配置位置を提示するスピーカの配置位置提示装置であって、入力されたコンテンツデータの特徴量、および入力された、前記コンテンツデータを再生する環境を特定する情報の少なくとも一方に基づいて、スピーカの配置位置を算出するスピーカ配置位置指示部（１）と、前記算出したスピーカの配置位置を提示する提示部（１０５）と、を備える。

Description

スピーカの配置位置提示装置

　本発明の一態様は、マルチチャネル音声信号を物理振動として出力する複数のスピーカの配置位置を提示する技術に関する。

　近年、放送波、ＤＶＤ（Digital Versatile Disc）やＢＤ（Blu-ray（登録商標） Disc）などのディスクメディア、インターネットなどを介して、ユーザは、マルチチャネル音声（サラウンド音声）を含むコンテンツを簡単に入手できるようになっている。映画館等においては、Ｄｏｌｂｙ　Ａｔｍｏｓに代表されるオブジェクトベースオーディオによる立体音響システムが多く配備され、更に日本国内においては、次世代放送規格に２２．２ｃｈオーディオが採用されるなど、ユーザがマルチチャネルコンテンツに触れる機会は格段に多くなった。

　従来のステレオ方式の音声信号に関しても、マルチチャネル化手法が様々検討されており、ステレオ信号の各チャネル間の相関に基づいてマルチチャネル化する技術が、例えば特許文献２に開示されている。マルチチャネル音声を再生するシステムについても、映画館やホールのような大型音響設備が配された施設でなくても、家庭などで手軽に楽しめるようなシステムが一般的となってきつつある。ユーザ（聴取者）は、国際電気通信連合（International Telecommunication Union：ITU）が推奨する配置基準（非特許文献１を参照）に基づいて、複数のスピーカを配置することによって、５．１ｃｈや７．１ｃｈなどのマルチチャネル音声を聴取する環境を家庭内に構築することができる。また、少ないスピーカ数で、マルチチャネルの音像定位を再現する手法なども研究されている（非特許文献２）。

日本国公開特許公報「特開２００６－３１９８２３号公報」日本国公開特許公報「特開２０１３－０５５４３９号公報」

ITU-R BS.775-1 Virtual Sound Source Positioning Using Vector Base AmplitudePanning, VILLE PULKKI, J. Audio. Eng., Vol. 45, No. 6, 1997 June

　しかしながら、非特許文献１では、マルチチャネル再生のためのスピーカ配置位置について、汎用的なものが開示されているため、ユーザの視聴環境によってはこれを満たすことができない場合がある。図２（Ａ）に示すように、ユーザＵの正面を０°、ユーザの右位置、左位置を各々９０°、－９０°とするような座標系で示すと、例えば、非特許文献１に記載されている５．１ｃｈでは、図２（Ｂ）に示すように、ユーザＵを中心とした同心円上のユーザ正面にセンターチャネル２０１を配置し、フロントライトチャネル２０２、フロントレフトチャネル２０３を各々３０°、－３０°の位置に配置し、サラウンドライトチャネル２０４、サラウンドレフトチャネル２０５を各々１００°～１２０°、－１００°～－１２０°の範囲内に配置することを推奨している。しかし、ユーザの視聴環境、例えば、部屋の形状や家具の配置によっては、スピーカを推奨位置に配することができない場合がある。

　これらの課題を解決するため、特許文献１には、配置されたスピーカ各々から発音し、その音声をマイクで取得し、解析することで得られた特徴量を出力音声にフィードバックすることで、実際のスピーカ配置位置の推奨位置からのずれを補正する手法が明らかにされている。しかし、特許文献１に記載されている技術の音声補正手法では、ユーザが配置したスピーカの位置に基づいた音声補正を行なうため、このユーザによるスピーカの配置における局所的な最適解を示すことはできても、そもそものスピーカの配置の位置を含めた全体としての最適解を示すことは難しい。例えば、ユーザがスピーカを極端な配置、例えば、前や右などに集中してスピーカを並べた場合、良好な音声補正結果を得られるとは限らない。

　また、視聴するコンテンツによっては特定の方向に音声定位が集中し、実際に配されたスピーカがほぼ使用されない場合がある。例えば、音声定位が前方に集中するコンテンツにおいては、後方のスピーカからの音声再生はほとんどなされず、ユーザにとっては、配置したリソースが活用されないという不利益を被ることとなる。

　本発明は、このような事情に鑑みてなされたものであり、ユーザにとって好適なスピーカの配置位置を自動で算出し、その配置位置情報をユーザに提供することができるスピーカの配置位置提示システムを提供することを目的とする。

　上記の目的を達成するために、本発明の一態様は、以下のような手段を講じた。すなわち、本発明の一態様のスピーカの配置位置提示装置は、音声信号を物理振動として出力する複数のスピーカの配置位置を提示するスピーカの配置位置提示装置であって、入力されたコンテンツデータの特徴量、および入力された、前記コンテンツデータを再生する環境を特定する情報の少なくとも一方に基づいて、スピーカの配置位置を算出するスピーカ配置位置算出部と、前記算出したスピーカの配置位置を提示する提示部と、を備える。

　本発明の一態様によれば、視聴するコンテンツや視聴する環境に適合したスピーカの配置位置を提示することが可能となる。その結果、ユーザは、より好適な音声視聴環境を構築することが可能となる。

第１の実施形態に係るスピーカ配置位置指示システムの概略構成を示す図である。座標系を模式的に示した図である。座標系を模式的に示した図である。第１の実施形態におけるメタデータの一例を示す図である。定位頻度のヒストグラムの一例を示す図である。第１の実施形態において、隣り合うチャネルのペアの例を示した図である。第１の実施形態において、隣り合うチャネルのペアの例を示した図である。仮想音像位置の算出結果を模式的に示す図である。スピーカ配置位置算出部の動作を示すフローチャートである。第１の実施形態における定位頻度のヒストグラムと閾値との交点を示す図である。ベクトルベースの音圧パンニングの概念を示した図である。第１の実施形態に係るスピーカ配置位置指示システムが出力する提示例を示す図である。第１の実施形態に係るスピーカ配置位置指示システムが出力する提示例を示す図である。第１の実施形態の変形例１に係るスピーカ配置位置指示システムの概略構成を示す図である。第１の実施形態の変形例２に係るスピーカ配置位置指示システムの概略構成を示す図である。第２の実施形態に係るスピーカ配置位置指示システムの概略構成を示す図である。第２の実施形態において、スピーカの設置環境を模式的に示す図である。第２の実施形態において、スピーカの設置環境を模式的に示す図である。第２の実施形態において、スピーカの設置環境を模式的に示す図である。第２の実施形態におけるスピーカ設置尤度の一例を示す図である。第２の実施形態におけるスピーカ配置位置算出部９０２の動作を示すフローチャートである。第２の実施形態において、スピーカ配置位置を示す模式的に示す図である。第２の実施形態において、スピーカ配置位置を示す模式的に示す図である。

　本発明者らは、ユーザがマルチチャネル音声信号を再生し、複数のスピーカから出力する際、コンテンツデータの特徴量や視聴環境におけるスピーカの配置位置によっては、適切な視聴ができなくなる点に着目し、コンテンツデータの特徴量や視聴環境を特定する情報に基づいて、スピーカの配置位置を算定することによって、視聴するコンテンツや視聴する環境に適合したスピーカの配置位置を提示することができることを見出し、本発明の一態様をするに至った。

　すなわち、本発明の一態様のスピーカの配置位置提示システム（スピーカの配置位置提示装置）は、マルチチャネル音声信号を物理振動として出力する複数のスピーカの配置位置を提示するスピーカの配置位置提示システムであって、入力されたコンテンツデータの特徴量または前記コンテンツデータを再生する環境を特定する情報の少なくとも一方を解析する解析部と、前記解析された特徴量または前記環境を特定する情報に基づいて、スピーカの配置位置を算出するスピーカ配置位置算出部と、前記算出したスピーカの配置位置を提示する提示部と、を備える。

　これにより、本発明者らは、視聴するコンテンツや視聴する環境に適合したスピーカの配置位置を提示し、ユーザが、より好適な音声視聴環境を構築することを可能とした。以下、本発明の実施形態について図面を参照して説明する。なお、本明細書において、スピーカとは、ラウドスピーカ（Loudspeaker）のことである。

　＜第１の実施形態＞
　図１は、本発明の第１の実施形態に係るスピーカ配置位置指示システムの主要な構成を示す図である。第１の実施形態に係るスピーカ配置位置指示システム１は、再生するコンテンツの特徴量を解析し、これに基づいた好適なスピーカ配置位置を指示する。すなわち、図１に示すように、スピーカ配置位置指示システム１は、ＤＶＤやＢＤなどのディスクメディア、ＨＤＤ（Hard Disc Drive）等に記録されている映像コンテンツや音声コンテンツに含まれる音声信号を解析するコンテンツ解析部１０１と、コンテンツ解析部１０１で得られた解析結果や、コンテンツ解析に必要な各種パラメータを記録している記憶部１０４と、コンテンツ解析部１０１で得られた解析結果に基づきスピーカの配置位置を算出するスピーカ配置位置算出部１０２と、スピーカ配置位置算出部１０２で算出された各スピーカの位置に基づいて、各々が再生する音声信号を生成し、再合成する音声信号処理部１０３と、から構成されている。

　また、スピーカ配置位置指示システム１は、外部装置としてユーザにスピーカ位置を提示する提示部１０５、および信号処理を施した音声信号を出力する音声出力部１０６に接続されている。スピーカ配置位置指示システム（スピーカ配置位置指示部）１と提示部１０５とによって、スピーカの配置位置提示装置が構成される。

　［コンテンツ解析部１０１について］
　コンテンツ解析部１０１は、再生するコンテンツに含まれる任意の特徴量を解析し、その情報をスピーカ配置位置算出部１０２に送る。

　（１）再生コンテンツにオブジェクトベースオーディオが含まれていた場合
　本実施形態では、再生コンテンツにオブジェクトベースオーディオが含まれていた場合、この特徴量を用いて、コンテンツに含まれる音声の定位の頻度グラフを作成し、これをスピーカ配置位置算出部１０２に送る特徴量情報とする。

　まず、オブジェクトベースオーディオの概要について説明する。オブジェクトベースオーディオとは、個々の発音オブジェクトをミキシングせずにプレイヤー（再生機）側でこれら発音オブジェクトを適宜レンダリングするものである。各々の規格において差はあるものの、一般的には、これら発音オブジェクトには各々、いつ、どこで、どの程度の音量で発音されるべきかといったメタデータ（付随情報）が紐づけられており、プレイヤーはこれに基づいて個々の発音オブジェクトをレンダリングする。

　本実施形態では、このメタデータを解析することでコンテンツ全体の音声の定位位置情報を割り出す。なお、説明を簡単にする為、これらのメタデータを図３に示すように、どの発音オブジェクトのトラックに紐づけられているかを示すトラックＩＤ、および再生時刻とその時刻での位置のペアで構成される１つ以上の発音オブジェクト位置情報で構成されているものとする。本実施形態では、発音オブジェクトの位置情報は、図２（Ａ）に示した座標系で表現されるものとする。また、これらメタデータは例えばコンテンツ内ではＸＭＬ（Extensible Markup Language）のようなマークアップ言語で記述されているものとする。

　コンテンツ解析部１０１は、まず、すべてのトラックのメタデータに含まれるすべての発音オブジェクト位置情報から、図４に示されるような定位位置のヒストグラム４を作成する。これについて、図３に示す発音オブジェクト位置情報を例にして、具体的に説明する。発音オブジェクト位置情報は、「０:００:００～０:０１:１０」の７０秒間、トラックＩＤ　１の発音オブジェクトが０°の位置にとどまることを意味する。ここで、コンテンツ全体長がＮ（秒）であった場合、この停留時間７０秒をＮで正規化した値７０／Ｎをヒストグラム値として加算する。以上のような処理をすべての発音オブジェクト位置情報に対して行なうことで、図４に示す定位位置のヒストグラム４を得ることができる。

　なお、本実施形態では、発音オブジェクトの位置情報の一例として、図２（Ａ）に示す座標系について説明したが、これが例えばｘ軸とｙ軸で表される２次元座標系でも良いことは言うまでもない。

　（２）再生コンテンツにオブジェクトベースオーディオ以外の音声信号が含まれていた場合
　この場合のヒストグラム生成方法は、以下の通りである。例えば、再生コンテンツに５．１ｃｈ音声が含まれていた場合、特許文献２に開示されている２チャネル間の相関情報に基づく音像定位算出技術を応用し、以下の手順に基づいて同様のヒストグラムを作成する。

　５．１ｃｈ音声に含まれる低音効果音（Low Frequency Effect：LFE）以外の各チャン
ネルにおいて、隣り合うチャネル間でその相関を計算する。隣り合うチャネルの組は、５．１ｃｈの音声信号においては、図５（Ａ）に示す通り、ＦＲとＦＬ、ＦＲとＳＲ、ＦＬとＳＬ、ＳＬとＳＲの４対となる。この時、隣り合うチャネルの相関情報は、単位時間ｎあたりの任意に量子化されたｆ個の周波数帯の相関係数値ｄ^（ｉ）が算出され、これに基づいてｆ個の周波数帯各々の音像定位位置θが算出される。これについては、特許文献２に記載されている。

　例えば、図６に示すように、ＦＬ１２０１とＦＲ１２０２間の相関に基づく音像定位位置１２０３は、ＦＬ１２０１とＦＲ１２０２が成す角の中心を基準としたθとして表される。このθを求めるには、数式（１）を用いる。ただし、αは音圧バランスを表すパラメータである（特許文献２参照）。

　本実施形態では、量子化されたｆ個の周波数帯の中であらかじめ設定された閾値Ｔｈ＿ｄ以上の相関係数値ｄ^（ｉ）を持つものに関して、定位位置のヒストグラムに含めるものとする。この時、ヒストグラムに加算される値は、ｎ／Ｎとなる。ただし、前述の通りｎは相関を計算する単位時間、Ｎはコンテンツ全体長である。また、前述の通り、音像定位位置として求められるθは、これを挟む音源位置の中心を基準としている為、適宜、図２（Ａ）に示す座標系に変換を行なうものとする。以上の処理をＦＬとＦＲ以外の組み合わせについても、同様に行なう。

　なお、以上の説明では、特許文献２に開示されている通り、主に人のセリフ音声などが割り付けられるＦＣチャネルについては、同チャネルとＦＬ乃至ＦＲ間に音像を生じさせるような音圧制御がなされている箇所が多くないものとして、ＦＣは相関の計算対象からは外し、代わりにＦＬとＦＲの相関について考えるものとした。しかし、本発明の一態様は、これに限定されるわけではなく、勿論ＦＣを含めた相関を考慮してヒストグラムを算出しても良く、図５（Ｂ）に示すように、ＦＣとＦＲ、ＦＣとＦＬ、ＦＲとＳＲ、ＦＬとＳＬ、ＳＬとＳＲの５対の相関について、上記算出法でのヒストグラム生成を行なって良いことは言うまでもない。

　以上の処理により、再生コンテンツにオブジェクトベースオーディオ以外の音声信号が含まれていた場合であっても発音オブジェクトの位置情報で説明した時と同様のヒストグラムを作成することができる。

　［スピーカ配置位置算出部１０２について］
　スピーカ配置位置算出部１０２は、コンテンツ解析部１０１で得られた定位位置のヒストグラムに基づいて、スピーカの配置位置を算出する。図７は、スピーカの配置位置を算出する動作を示すフローチャートである。スピーカ配置位置算出部１０２の処理が開始されると（ステップＳ００１）、閾値Ｔｈに値ＭＡＸ＿ＴＨが設定される（ステップＳ００２）。ここで、ＭＡＸ＿ＴＨは、コンテンツ解析部１０１で得られた定位位置のヒストグラムの最大値である。次に、閾値Ｔｈと定位位置のヒストグラムグラフとの交点数を算出し（ステップＳ００３）、これら交点の隣り合う交点との間隔があらかじめ設定された閾値Θ＿ｍｉｎ以上Θ＿ｍａｘ未満を満たす場合は（ステップＳ００４においてＹＥＳ）、その交点位置各々をキャッシュ領域に記憶し（ステップＳ００５）、次のステップＳ０１５に進む。

　図８では、定位位置ヒストグラム７０１と閾値Ｔｈ７０２並びにその交点７０３、７０４、７０５、７０６を示した模式図を示している。一方、交点の間隔が閾値Θ＿ｍｉｎ以上Θ＿ｍａｘ未満を満たさない場合は、含まれる交点のうち、閾値Θ＿ｍｉｎ未満の間隔の交点の対が含まれていた場合、これらを統合し、新たな１つの交点とした上で（ステップＳ００６）、その交点位置各々をキャッシュ領域に記憶する（ステップＳ００５）。

　この統合された交点の位置は、統合前の対となる交点の中間位置とする。次に、交点数とスピーカ数を比較し、これが「スピーカ数＞交点数」である場合（ステップＳ０１５においてＹＥＳ）、閾値Ｔｈから値ｓｔｅｐを減算し、新たな閾値Ｔｈとする（ステップＳ００７）。

　ここでＴｈが予め定められている閾値下限ＭＩＮ＿ＴＨ以下となる場合は（ステップＳ００９においてＹＥＳ）、交点位置を記憶したキャッシュ情報があるかどうかを検査し、これが存在する場合は（ステップＳ０１０においてＹＥＳ）、キャッシュに記憶された交点の位置座標をスピーカ配置位置として出力し（ステップＳ０１４）、処理を終了する（ステップＳ０１２）。

　一方で、交点位置を記憶したキャッシュ情報が存在しない場合（ステップＳ０１０においてＮＯ）、あらかじめ設定されているデフォルトスピーカ配置位置をスピーカ位置として出力し（ステップＳ０１１）、処理を終了する（ステップＳ０１２）。また、ステップＳ０１５において、「スピーカ数＝交点数」であった場合（ステップＳ０１５においてＮＯかつステップＳ００８においてＹＥＳ）、その交点の位置座標をスピーカ配置位置として出力し（ステップＳ０１４）、処理を終了する（ステップＳ０１２）。

　更に、「スピーカ数＜交点数」であった場合（ステップＳ０１５においてＮＯかつステップＳ００８においてＮＯ）、交点数の削減処理を行ない、スピーカ数と交点数を一致させた上で（ステップＳ０１３）、交点の位置座標をスピーカ配置位置として出力し（ステップＳ０１４）、処理を終了する（ステップＳ０１２）。

　ここでの交点数の削減処理は、交点間の距離が最も近いある２つの交点を選出し、これらに対してステップＳ００６で説明した交点統合処理を適用するものとし、この距離が最も近い交点に対する統合処理を、「スピーカ数＝交点数」となるまで繰り返し行なうものとする。

　以上のステップにより、スピーカの配置位置を決定する。なお、音声信号処理部１０３で予め設定されている値として言及した各種パラメータは、予め記憶部１０４に記録されているものとする。勿論、これらパラメータを任意のユーザインタフェース（図示しない）を用いて、ユーザに入力させるようにしても良い。

　また、これ以外の手法を用いてスピーカ位置を決定するようにしても良いことは言うまでもない。例えば、ヒストグラム値の大きい上位１～ｓ番目までに対応する位置、すなわち、特徴的な音像定位位置にスピーカを配置することとしても良い。それ以外にも、ヒストグラムに“大津の閾値選定法”を応用した多値化法を適用し、算出されたｓ個の閾値位置にスピーカを配置することで、全体の音像定位位置をカバーするスピーカ配置とするものとしても良い。ここでｓは、前述の通り配置されるべきスピーカ数である。

　［音声信号処理部１０３について］
　（１）再生コンテンツにオブジェクトベースオーディオの音声信号が含まれていた場合
　音声信号処理部１０３は、スピーカ配置位置算出部１０２で算出されたスピーカの配置位置に基づいて、各スピーカから出力される音声信号を構築する。図９は、第２の実施形態において、ベクトルベースの音圧パンニングの概念を示した図である。図９において、オブジェクトベースオーディオ中の１つの発音オブジェクトのある時間における位置が１１０３であるとする。また、スピーカ配置位置算出部１０２で算出されたスピーカの配置位置が発音オブジェクトの位置１１０３を挟むように１１０１と１１０２に指定されていた場合、例えば、非特許文献２に示されるように、これらスピーカを用いたベクトルベースの音圧パンニングで発音オブジェクトを位置１１０３に再現する。具体的には、受聴者１１０７に対し、発音オブジェクトから発せられる音の強さを、ベクトル１１０５で表したとき、このベクトルを受聴者１１０７と位置１１０１に位置するスピーカ間のベクトル１１０４と、受聴者１１０７と位置１１０１に位置するスピーカ間のベクトル１１０６に分解し、この時のベクトル１１０５に対する比を求める。

　すなわち、ベクトル１１０４とベクトル１１０５の比をｒ１、ベクトル１１０６とベクトル１１０５の比をｒ２とすると、これらは各々、
　r1=sin(θ2)/sin(θ1+θ2)
　r2=cos(θ2)-sin(θ2)/tan(θ1+θ2)
で表すことができる。

　求めた比を発音音声から発せられる音声信号に掛け合わせたものを、各々１１０１と１１０２に配置されたスピーカから再生することで、発音オブジェクトがあたかも位置１１０３から再生されているように、視聴者に知覚させることができる。以上の処理を、すべての発音オブジェクトに対して行なうことで、出力音声信号を生成することができる。

　（２）再生コンテンツにオブジェクトベースオーディオ以外の音声信号が含まれていた場合
　この場合、例えば、５．１ｃｈ音声が含まれていた場合も同様の処理で、５．１ｃｈの推奨配置位置のひとつが位置１１０３、スピーカ配置位置算出部１０２で算出されたスピーカの配置位置が１１０１と１１０２と考え、上記手順を実行する。

　［記憶部１０４について］
　記憶部１０４は、コンテンツ解析部１０１で用いられる種々のデータを記録するための二次記憶装置によって構成される。記憶部１０４は、例えば、磁気ディスク、光ディスク、フラッシュメモリなどによって構成され、より具体的な例としては、ＨＤＤ、ＳＳＤ（Solid State Drive）、ＳＤメモリーカード、ＢＤ、ＤＶＤなどが挙げられる。コンテン
ツ解析部１０１は、必要に応じて記憶部１０４からデータを読み出す。また、解析結果を含む各種パラメータデータを記憶部１０４に記録することもできる。

　［提示部１０５について］
　提示部１０５は、スピーカ配置位置算出部１０２で得られたスピーカの配置位置情報をユーザに提示する。提示方法としては、例えば、図１０（Ａ）に示すように液晶ディスプレイ等にユーザとスピーカの配置位置関係を図示しても良いし、図１０（Ｂ）に示すように、配置位置を数値のみで示しても良い。また、ディスプレイ以外を用いてスピーカ位置を提示しても良く、例えば天井近くにレーザポインタやプロジェクタを設置し、これと連携することで、設置位置を現実世界にマッピングする形で提示することとしても良い。

　［音声出力部１０６について］
　音声出力部１０６は、音声信号処理部１０３で得られた音声を出力する。ここで、音声出力部１０６は、配置されるｓ個のスピーカ乃至これらを駆動させる増幅器（アンプ）で構成される。

　なお、本実施形態においては、説明を簡単にし、より分かり易くするため、２次元平面上のスピーカ配置について説明を行なったが、これが３次元空間上の配置であっても問題ない。すなわち、オブジェクトベースオーディオの発音オブジェクトの位置情報が高さ方向の情報も含めた３次元座標で表現されたり、２２．２ｃｈオーディオのような上下位置も含めたスピーカ配置を推奨としたりするものであっても構わない。

　＜第１の実施形態の変形例１＞
　第１の実施形態では、スピーカの位置に応じた出力音声の構築処理をスピーカ配置位置指示システム１内の音声信号処理部１０３で行なったが、この機能をスピーカ配置位置指示システム外部に持たせても良い。すなわち、図１１に示すように、第１の実施形態の変形例１に係るスピーカ配置位置指示システム８は、映像コンテンツ乃至音声コンテンツに含まれる音声信号を解析するコンテンツ解析部１０１と、コンテンツ解析部１０１で得られた解析結果やコンテンツ解析に必要な各種パラメータを記録している記憶部１０４と、コンテンツ解析部１０１で得られた解析結果に基づきスピーカの配置位置を算出するスピーカ配置位置算出部８０１と、から構成される。なお、スピーカ配置位置指示システム（スピーカ配置位置指示部）８と提示部１０５とによって、スピーカの配置位置提示装置が構成される。

　更に、スピーカ配置位置指示システム８はスピーカ配置位置算出部８０１で算出された各スピーカの位置に基づいて各々が再生する音声信号を再合成する音声信号処理部８０２と、ユーザにスピーカ位置を提示する提示部１０５と、信号処理を施した音声信号を出力する音声出力部１０６といった外部装置と接続されている。

　スピーカ配置位置算出部８０１から、音声信号処理部８０２へは、第１の実施形態で示したようなスピーカの位置情報が例えばＸＭＬのような任意のフォーマットで伝達され、音声信号処理部８０２では、第１の実施形態で示したように例えばＶＢＡＰ方式で出力音声の再構築処理が行なわれる。

　なお、図１１の中で、他の図と同じ番号を付したものは同様の機能を持つものとし、説明を省略している。

　＜第１の実施形態の変形例２＞
　図１２に示すように、ユーザが提示部１０５で提示した位置にスピーカを配置しているかを確認するために、第１の実施形態の構成にさらにスピーカ位置確認部１７０１を設ける構成としても良い。スピーカ位置確認部１７０１には、マイクロホンが少なくともひとつ具備され、例えば、特許文献１に開示された技術を用いて、ユーザが配置したスピーカから発せられた音をこのマイクロホンで集音、解析することで実際のスピーカの位置を把握し、これが、提示部１０５に示した位置と異なる場合は、その旨を提示部１０５に示し、ユーザに知らせるようにしても良い。なお、スピーカ配置位置指示システム（スピーカ配置位置指示部）１７と提示部１０５とによって、スピーカの配置位置提示装置が構成される。

　＜第２の実施形態＞
　次に、本発明の第２の実施形態について説明する。図１３は、本発明の第２の実施形態に係るスピーカ配置位置指示システム９の主要な構成を示す図である。第２の実施形態に係るスピーカ配置位置指示システム９は、再生する環境情報例えば部屋の間取り情報を取得し、これに基づいた好適なスピーカ配置位置を指示するシステムである。図１３に示すように、スピーカ配置位置指示システム９は、さまざまな外部機器から得られる環境情報からスピーカ配置に必要な情報を解析する環境情報解析部９０１と、環境情報解析部９０１で得られた解析結果や環境情報解析に必要な各種パラメータを記録している記憶部１０４と、環境情報解析部９０１で得られた解析結果に基づきスピーカの配置位置を算出するスピーカ配置位置算出部１０２と、スピーカ配置位置算出部１０２で算出された各スピーカの位置に基づいて各々が再生する音声信号を再合成する音声信号処理部１０３と、から構成される。

　また、スピーカ配置位置指示システム９は、外部装置としてユーザにスピーカ位置を提示する提示部１０５と、信号処理を施した音声信号を出力する音声出力部１０６に接続されている。なお、スピーカ配置位置指示システム（スピーカ配置位置指示部）９と提示部１０５とによって、スピーカの配置位置提示装置が構成される。

　なお、図１３に示したブロック図のうち、図１と同様の番号を付したブロックについては同様の機能を持つため説明を割愛し、本実施形態では、主に環境情報解析部９０１、スピーカ配置位置算出部９０２について説明する。

　［環境情報解析部９０１について］
　環境情報解析部９０１は、入力されたスピーカを配置する部屋の情報から、スピーカ配置位置の尤度情報を計算する。まず、環境情報解析部９０１は、図１４Ａに示すような平面図を取得する。平面図は、例えば、部屋の天井に設置されたカメラで撮影された画像を用いるものとする。本実施形態で入力された平面図１４０１内には、テレビ１４０２、ソファー１４０３、家具１４０４並びに１４０５が配置されているものとする。ここで、環境情報解析部９０１は、液晶ディスプレイ等で構成される提示部１０３を介してユーザに対し平面図１４０１を提示し、ユーザに、ユーザ入力受付部９０３を介して、テレビの位置１４０７と、視聴位置１４０６を入力させる。

　環境情報解析部９０１は、スピーカを配置する位置の候補として、入力されたテレビの位置１４０７と、視聴位置１４０６の距離を半径とする同心円１４０８を平面図１４０１上に表示する。更に環境情報解析部９０１は、ユーザに対し、表示した同心円上でスピーカの配置することのできないエリアを入力させる。本実施形態では、配置されている家具によって設置できないエリアとなる１４０９と１４１０、部屋の形状から設置できないエリアとなる１４１１が入力されるものとする。以上の入力から、環境情報解析部９０１は、スピーカ設置可能エリアの設置尤度を１、スピーカ設置不可能エリアの設置尤度を０とする、図１５に示すような設置尤度（グラフ）１３０１を作成し、スピーカ配置位置算出部９０２にその情報を引き渡す。

　なお、本実施形態において、ユーザの入力は、環境情報解析部９０１に接続された外部装置ユーザ入力受付部９０３を介して入力されるものとし、ユーザ入力受付部９０３はタッチパネルやマウス、キーボードなどで構成されるものとする。

　［スピーカ配置位置算出部９０２について］
　スピーカ配置位置算出部９０２は、環境情報解析部９０１から得られたスピーカの設置尤度情報に基づいて、スピーカを配置する位置を決定する。図１６は、スピーカ配置位置を算出する動作を示すフローチャートである。図１６において処理が開始されると（ステップＳ２０１）、スピーカ配置位置算出部９０２は、記憶部１０４から、デフォルトのスピーカ配置位置情報を読み出す（ステップＳ２０２）。本実施形態では、５．１ｃｈのＬＦＥ（Low Frequency Effect）を除くスピーカの配置位置情報を読み出すものとする。

　なお、図１７Ａに示すように、第１の実施形態で示したコンテンツ情報に基づくスピーカ配置位置情報を使用してスピーカ位置１５０１～１５０５と表示しても良い。すなわち、本実施形態で示すスピーカ配置位置指示システム９にコンテンツ解析部１０１を含める構成としても良い。

　次に、スピーカ配置位置算出部９０２は、読みだした全てのスピーカ位置について、ステップＳ２０３からステップＳ２０６間の処理を繰り返す。各スピーカ位置は、現在のスピーカ位置±Θαの範囲内に、その隣接するスピーカとの位置関係がΘ＿ｍｉｎ以上Θ＿ｍａｘ未満且つ尤度値が０より大きい値を持つ位置が存在するかどうかを検査し、これが存在する場合（ステップＳ２０４においてＹＥＳ）、前記条件を満たす位置情報の中で、最大尤度値を持つ位置にスピーカ位置を更新する（ステップＳ２０５）。

　例えば、平面図１４０１においては、設置尤度１３０１に基づいて、図１７Ｂに示すように、デフォルト位置が１５０４、１５０５に指定されていたスピーカ位置を、各々１５０６、１５０７の位置に更新する。全てのスピーカで処理が行なわれたら、スピーカ配置位置を出力し（ステップＳ２０７）、処理を終了する（ステップＳ２０８）。

　一方で、ステップＳ２０４の条件を満たさないスピーカ位置情報が一つでも存在した場合は、スピーカの配置が不可能と判断しエラーを提示し（ステップＳ２０９）、処理を終了する（ステップＳ２０８）。なお、Θα、Θ＿ｍｉｎ、Θ＿ｍａｘは、記憶部１０４に記憶された予め設定された値である。最終的にスピーカ配置位置算出部９０２は、以上の処理で得られた結果を、提示部１０５を通じてユーザに提示する。

　なお、以上の実施形態では、設置尤度グラフを、部屋内に物理的に配置可能か否かに基づいて作成したが、それ以外の情報を用いて同グラフを作成しても良いことは言うまでもない。例えば、環境情報解析部９０１におけるユーザからの入力に、壁や家具の位置に加えて、その材質情報（木材、金属、コンクリート）を入力させるようにし、この反射係数を加味した設置尤度を設定するようにしても良い。

　本発明の一態様は、以下の態様を取ることが可能である。すなわち、（１）本発明の一態様のスピーカの配置位置提示システムは、音声信号を物理振動として出力する複数のスピーカの配置位置を提示するスピーカの配置位置提示システムであって、入力されたコンテンツデータの特徴量または前記コンテンツデータを再生する環境を特定する情報の少なくとも一方を解析する解析部と、前記解析された特徴量または前記環境を特定する情報に基づいて、スピーカの配置位置を算出するスピーカ配置位置算出部と、前記算出したスピーカの配置位置を提示する提示部と、を備える。

　（２）また、本発明の一態様のスピーカの配置位置提示システムにおいて、前記解析部は、前記入力されたコンテンツデータに含まれる音声信号に付随する位置情報パラメータを用いて、スピーカを配置する候補となる位置における音声定位の頻度を示すヒストグラムを生成し、前記スピーカ配置位置算出部は、音声定位の頻度の閾値と前記ヒストグラムとの交点の数が、前記スピーカの数と同数となったときの前記交点の座標位置をスピーカの配置位置とする。

　（３）また、本発明の一態様のスピーカの配置位置提示システムにおいて、前記解析部は、前記入力されたコンテンツデータに含まれる音声信号に付随する位置情報パラメータを用いて、隣接する位置から出力される音声信号間の相関値を算出し、前記相関値に基づいて、スピーカを配置する候補となる位置における音声定位の頻度を示すヒストグラムを生成し、前記スピーカ配置位置算出部は、音声定位の頻度の閾値と前記ヒストグラムとの交点の数が、前記スピーカの数と同数となったときの前記交点の座標位置をスピーカの配置位置とする。

　（４）また、本発明の一態様のスピーカの配置位置提示システムにおいて、前記解析部は、スピーカの配置が可能である領域または不可能である領域を示す可否情報を入力し、スピーカを配置する候補となる位置の尤度を示す尤度情報を生成し、前記スピーカ配置位置算出部は、前記尤度情報に基づいて、スピーカの配置位置を決定する。

　（５）また、本発明の一態様のスピーカの配置位置提示システムは、ユーザの操作を受け付けて、スピーカの配置が可能である領域または不可能である領域を示す可否情報を入力するユーザ入力受付部を備える。

　（６）また、本発明の一態様のスピーカの配置位置提示システムは、前記スピーカの配置位置を示す情報および前記入力されたコンテンツデータに基づいて、各スピーカで出力される音声信号を生成する音声信号処理部を備える。

　（７）また、本発明の一態様のプログラムは、マルチチャネル音声信号を物理振動として出力する複数のスピーカの配置位置を提示するスピーカの配置位置提示システムのプログラムであって、入力されたコンテンツデータの特徴量または前記コンテンツデータを再生する環境を特定する情報の少なくとも一方を解析する処理と、前記解析された特徴量または前記環境を特定する情報に基づいて、スピーカの配置位置を算出する処理と、前記算出したスピーカの配置位置を提示する処理と、の一連の処理を、コンピュータに実行させる。

　（８）また、本発明の一態様のプログラムは、前記入力されたコンテンツデータに含まれる音声信号に付随する位置情報パラメータを用いて、スピーカを配置する候補となる位置における音声定位の頻度を示すヒストグラムを生成する処理と、音声定位の頻度の閾値と前記ヒストグラムとの交点の数が、前記スピーカの数と同数となったときの前記交点の座標位置をスピーカの配置位置とする処理と、をさらに含む。

　（９）また、本発明の一態様のプログラムは、前記入力されたコンテンツデータに含まれる音声信号に付随する位置情報パラメータを用いて、隣接する位置から出力される音声信号間の相関値を算出し、前記相関値に基づいて、スピーカを配置する候補となる位置における音声定位の頻度を示すヒストグラムを生成する処理と、音声定位の頻度の閾値と前記ヒストグラムとの交点の数が、前記スピーカの数と同数となったときの前記交点の座標位置をスピーカの配置位置とする処理と、をさらに含む。

　（１０）また、本発明の一態様のプログラムは、スピーカの配置が可能である領域または不可能である領域を示す可否情報を入力し、スピーカを配置する候補となる位置の尤度を示す尤度情報を生成する処理と、前記尤度情報に基づいて、スピーカの配置位置を決定する処理と、をさらに含む。

　（１１）また、本発明の一態様のプログラムは、ユーザ入力受付部において、ユーザの操作を受け付けて、スピーカの配置が可能である領域または不可能である領域を示す可否情報を入力する処理をさらに含む。

　（１２）また、本発明の一態様のプログラムは、前記スピーカの配置位置を示す情報および前記入力されたコンテンツデータに基づいて、各スピーカで出力される音声信号を生成する処理をさらに含む。

　以上説明したように、本実施形態によれば、ユーザにとって好適なスピーカの配置位置を自動で算出し、その配置位置情報をユーザに提供することが可能となる。

　（関連出願の相互参照）
　本出願は、2015年12月21日に出願された日本国特許出願：特願2015-248970に対して優先権の利益を主張するものであり、それを参照することにより、その内容の全てが本書に含まれる。

１　スピーカ配置位置指示システム（スピーカ配置位置指示部）
４　ヒストグラム
８　スピーカ配置位置指示システム（スピーカ配置位置指示部）
９　スピーカ配置位置指示システム（スピーカ配置位置指示部）
１０１　コンテンツ解析部
１０２　スピーカ配置位置算出部
１０３　音声信号処理部
１０４　記憶部
１０５　提示部
１０６　音声出力部
２０１　センターチャネル
２０２　フロントライトチャネル
２０３　フロントレフトチャネル
２０４　サラウンドライトチャネル
２０５　サラウンドレフトチャネル
７０１　定位位置ヒストグラム
７０２　閾値Ｔｈ
７０３、７０４、７０５、７０６　交点
８０１　スピーカ配置位置算出部
８０２　音声信号処理部
９０１　環境情報解析部
９０２　スピーカ配置位置算出部
９０３　ユーザ入力受付部
１１０１、１１０２　発音オブジェクトの位置
１１０３　オブジェクトベースオーディオ中の１つの発音オブジェクトのある時間における位置
１１０４、１１０５、１１０６　ベクトル
１１０７　受聴者
１２０１　ＦＬ（フロントレフトチャネル）
１２０２　ＦＲ（フロントライトチャネル）
１２０３　音像定位位置
１３０１　設置尤度
１４０１　平面図
１４０２　テレビ
１４０３　ソファー
１４０４、１４０５　家具
１４０６　視聴位置
１４０７　入力されたテレビの位置
１４０８　同心円
１４０９、１４１０、１４１１　設置できないエリア
１５０１、１５０２、１５０３、１５０４、１５０５、１５０６、１５０７　スピーカ位置

Claims

　音声信号を物理振動として出力する複数のスピーカの配置位置を提示するスピーカの配置位置提示装置であって、
　入力されたコンテンツデータの特徴量、および入力された、前記コンテンツデータを再生する環境を特定する情報の少なくとも一方に基づいて、スピーカの配置位置を算出するスピーカ配置位置指示部と、
　前記算出したスピーカの配置位置を提示する提示部と、
を備えるスピーカの配置位置提示装置。
　前記スピーカ配置位置指示部は、
　　前記入力されたコンテンツデータの特徴量、および前記入力された、前記コンテンツデータを再生する環境を特定する情報の少なくとも一方を解析する解析部と、
　　前記解析された特徴量または前記環境を特定する情報に基づいて、スピーカの配置位置を算出するスピーカ配置位置算出部と
を備えることを特徴とする請求項１記載のスピーカの配置位置提示装置。
　前記解析部は、前記入力されたコンテンツデータに含まれる音声信号に付随する位置情報パラメータを用いて、スピーカを配置する候補となる位置における音声定位の頻度を示すヒストグラムを生成し、
　前記スピーカ配置位置算出部は、音声定位の頻度の閾値と前記ヒストグラムとの交点の数が、前記スピーカの数と同数となったときの前記交点の座標位置をスピーカの配置位置とする請求項２記載のスピーカの配置位置提示装置。
　前記解析部は、前記入力されたコンテンツデータに含まれる音声信号に付随する位置情報パラメータを用いて、隣接する位置から出力される音声信号間の相関値を算出し、前記相関値に基づいて、スピーカを配置する候補となる位置における音声定位の頻度を示すヒストグラムを生成し、
　前記スピーカ配置位置算出部は、音声定位の頻度の閾値と前記ヒストグラムとの交点の数が、前記スピーカの数と同数となったときの前記交点の座標位置をスピーカの配置位置とする請求項２記載のスピーカの配置位置提示装置。
　前記解析部は、スピーカの配置が可能である領域または不可能である領域を示す可否情報を入力し、スピーカを配置する候補となる位置の尤度を示す尤度情報を生成し、
　前記スピーカ配置位置算出部は、前記尤度情報に基づいて、スピーカの配置位置を決定する請求項２から請求項４のいずれか１項に記載のスピーカの配置位置提示装置。
　ユーザの操作を受け付けて、スピーカの配置が可能である領域または不可能である領域を示す可否情報を入力するユーザ入力受付部を備える請求項５記載のスピーカの配置位置提示装置。