WO2023199778A1

WO2023199778A1 - 音響信号処理方法、プログラム、音響信号処理装置、および、音響信号再生システム

Info

Publication number: WO2023199778A1
Application number: PCT/JP2023/013817
Authority: WO
Inventors: 成悟榎本; 陽宇佐見; 康太中橋; 宏幸江原; 摩里子山田; 智一石川; 耕水野
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2022-04-14
Filing date: 2023-04-03
Publication date: 2023-10-19

Abstract

本開示の一態様に係る音響信号処理方法は、音響信号を取得する取得ステップ（Ｓ１０）と、音響信号に紐づく優先度を示す優先度情報に基づいて、パイプラインで実行される複数の音響処理をそれぞれ音響信号に対して実行するか否かを決定する決定ステップ（Ｓ２０）と、決定ステップで実行すると決定された音響処理を音響信号に対して実行する音響処理ステップ（Ｓ３０）と、を含む。

Description

音響信号処理方法、プログラム、音響信号処理装置、および、音響信号再生システム

　本開示は、音響信号処理方法、プログラム、音響信号処理装置、および、音響信号再生システムに関する。

　従来、音響信号に対して所定の音響処理を実行し、音響処理が実行された音響信号に基づく音（音波）を発生させて当該音をユーザに提供する機器がある。特許文献１には、パイプライン（パイプライン処理）で複数の音響処理を音響信号に実行する装置が開示されている。

国際公開第２０２１／１８０９３８号

　本開示は、パイプラインで実行される複数の音響処理を音響信号に対して適切に実行することができる音響信号処理方法などを提供する。特に、音質や音響効果の劣化が知覚されないようにしつつ、演算能力が限られたデバイス、例えばスマートフォンやヘッドマウントディスプレイなどであってもパイプライン処理を適切に実行する事ができる音響信号処理方法などを提供する。

　本開示の一態様に係る音響信号処理方法は、音響信号処理装置が実行する音響信号処理方法であって、音響信号を取得する取得ステップと、前記音響信号に紐づく優先度を示す優先度情報に基づいて、パイプラインで実行される複数の音響処理をそれぞれ前記音響信号に対して実行するか否かを決定する決定ステップと、前記決定ステップで実行すると決定された音響処理を前記音響信号に対して実行する音響処理ステップと、を含む。

　本開示の一態様に係るプログラムは、上記記載の音響信号処理方法をコンピュータに実行させるための、プログラムである。

　本開示の一態様に係る音響信号処理装置は、音響信号を取得する取得部と、前記音響信号に紐づく優先度を示す優先度情報に基づいて、パイプラインで実行される複数の音響処理をそれぞれ前記音響信号に対して実行するか否かを決定する決定部と、前記決定部で実行すると決定された音響処理を前記音響信号に対して実行する音響処理部と、を備える。

　本開示の一態様に係る音響信号再生システムは、上記記載の音響信号処理装置と、前記決定部で実行すると決定された音響処理が実行された前記音響信号に基づく音を発生させるドライバと、を備える。

　本開示によれば、パイプラインで実行される複数の音響処理を音響信号に対して適切に実行することができる音響信号処理方法などを提供できる。

図１は、実施の形態に係る音響信号再生システムの機能構成を示すブロック図である。図２は、実施の形態に係る音響信号処理装置によるパイプラインで実行される複数の音響処理について説明するための図である。図３は、実施の形態に係る優先度情報を示す図である。図４は、実施の形態に係る音響信号処理装置によるパイプラインで実行される複数の音響処理の第１例を示す図である。図５は、実施の形態に係る音響信号処理装置によるパイプラインで実行される複数の音響処理の第２例を示す図である。図６は、実施の形態に係る音響信号処理装置の優先度更新処理の処理手順を示すフローチャートである。図７は、実施の形態に係る音響信号処理装置の処理手順を示すフローチャートである。

　（本開示の基礎となった知見）
　近年、仮想現実（ＶＲ：Ｖｉｒｔｕａｌ　Ｒｅａｌｉｔｙ）または拡張現実（ＡＲ：Ａｕｇｍｅｎｔｅｄ　Ｒｅａｌｉｔｙ）などの、ユーザ視点からの仮想的な体験に関する技術開発が進められている。ＶＲまたはＡＲでは、ユーザが、あたかも仮想的な空間内に自分が存在しているように体感する（つまり没入する）ことができる。特に、立体的な視覚体験と併せて立体的な聴覚体験をすることにより没入感が向上するため、ＶＲまたはＡＲでは、立体的な聴覚体験に関する技術についても重要視されている。音を表す音響信号には、立体的な聴覚体験を実現するために、言い換えると、立体音響を再現するために、音響処理（音響信号に対する信号処理）が実行される。この際に、複数の音響処理がパイプラインで音響信号に実行されることがある。言い換えると、複数の音響処理が１つずつ順番に音響信号に実行されることがある。

　ここで、従来、複数の音響処理をパイプラインで実行する装置において、例えば、ユーザが使用するデバイスの種類またはデバイスの負荷状態などに応じて、音響信号に実行される音響処理を変化させていない問題がある。そのため、従来、例えば、場合によっては実行されない方が適切な音響処理も不要に実行されてしまうなど、パイプラインで実行される複数の音響処理を、状況に応じて音響信号に対して適切に実行できていない課題がある。

　上記課題に鑑みて、本願発明者らは、本開示を創作するに至った。

　以下、実施の形態について、図面を参照しながら具体的に説明する。

　なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置および接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、本開示の独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、各図は、必ずしも厳密に図示したものではない。各図において、実質的に同一の構成については同一の符号を付し、重複する説明は省略または簡略化される場合がある。

　（実施の形態）
　［構成］
　まず、実施の形態に係る音響信号再生システムの構成について説明する。

　図１は、実施の形態に係る音響信号再生システム２００の機能構成を示すブロック図である。

　音響信号再生システム２００は、音響信号に音響処理を施し、音響処理を施した音響信号に基づく音を発生させるシステムである。具体的には、音響信号再生システム２００は、音響信号にパイプラインで複数の音響処理を実行することで立体音響を再生するシステムである。例えば、音響信号再生システム２００は、視覚的なＶＲまたＡＲの体験をするための画像を表示する表示装置、および、立体映像再生のための装置（いずれも不図示）と同時に使用される。

　音響信号再生システム２００は、例えば、パーソナルコンピュータまたはスマートフォンなどのコンピュータと、ユーザに装着される図示しないヘッドマウントディスプレイ（ＨＭＤ）とにより実現される。なお、音響効果を付加した音響信号を生成するレンダラとしての機能を有する音響信号再生システム２００において、レンダラの機能のすべてまたは一部をサーバが担ってもよい。つまり、取得部１１０、決定部１２０、音響処理部１３０、および、記憶部１４０のすべてまたは一部は、図示しないサーバに存在してもよい。その場合、音響信号再生システム２００は、例えば、パーソナルコンピュータまたはスマートフォンなどのコンピュータと、ユーザに装着される図示しないＨＭＤと、図示しないサーバとを組み合わせて実現される。なお、コンピュータとＨＭＤとサーバとが同一のネットワークで通信可能に接続されていてもよいし、異なるネットワークで接続されていてもよい。異なるネットワークで接続されている場合、通信に遅延が発生する可能性が高くなるため、コンピュータとＨＭＤとサーバとが同一ネットワークで通信可能に接続されている場合にのみサーバでの処理を許可してもよい。また、音響信号再生システム２００が受け付けるビットストリームのデータ量に応じて、レンダラのすべてまたは一部の機能をサーバが担うか否かを決定してもよい。

　音響信号再生システム２００は、例えば、ユーザの頭部の動きに応じて提示する音を変化させることで、ユーザが三次元音場内で頭部を動かしているようにユーザに知覚させる。このため、音響信号再生システム２００は、ユーザの動きに対して三次元音場をユーザの動きとは逆方向に移動させる。

　図１に示すように、音響信号再生システム２００は、音響信号処理装置１００と、通信モジュール２１０と、センサ２２０と、ドライバ２３０と、を備える。

　音響信号処理装置１００は、音響信号再生システム２００における各種の信号処理を実行するための演算装置である。音響信号処理装置１００は、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）またはＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）などのプロセッサとメモリとを備え、メモリに記憶されたプログラムがプロセッサによって実行されることで、各種の機能を発揮する。音響信号処理装置１００の機能構成については、後述する。

　音響信号処理装置１００は、通信モジュール２１０、センサ２２０、および、ドライバ２３０と通信可能に接続されている。

　通信モジュール２１０は、音響信号再生システム２００へのビットストリームを受け付けるためのインタフェース装置である。通信モジュール２１０は、例えば、アンテナと信号変換器とを備え、無線通信によりサーバなどの外部の装置からビットストリームを受信する。具体的には、通信モジュール２１０は、無線通信のための形式に変換された音響信号などの各種情報を含むビットストリームなどの無線信号を、アンテナを用いて受波し、信号変換器により無線信号から音響信号などの各種情報への再変換を実行する。これにより、音響信号処理装置１００（より具体的には、取得部１１０）は、外部の装置から無線通信により音響信号などの各種情報を取得する。

　なお、音響信号再生システム２００と外部の装置との通信は、有線通信によって行われてもよい。また、入力データは、記憶部１４０などの記憶装置に記憶されていてもよい。

　センサ２２０は、ユーザの位置を検知するための装置である。具体的には、センサ２２０は、ユーザの位置として６ＤｏＦ（位置（ｘ、ｙ、ｚ）および角度（ｙａｗ、ｐｉｔｃｈ、ｒｏｌｌ）を検知する。センサ２２０は、ジャイロセンサおよび加速度センサなど動きの検知に使用される各種のセンサを組み合わせて構成される。例えば、センサ２２０は、音響信号再生システム２００がスマートフォンにより実現される場合には、スマートフォンに内蔵される。

　なお、センサ２２０は、ユーザの頭部の動きに応じて動作するＨＭＤなどの外部の装置に内蔵されていてもよい。また、センサ２２０として、外部の撮像装置などを用いて、ユーザの頭部の動きを撮像し、撮像された画像を処理することでユーザの頭部の動きを検知してもよい。

　センサ２２０は、ユーザとともに移動し、ユーザの動きの速度および動きの量を検知する。例えば、センサ２２０は、ＨＭＤに内蔵されている場合、ユーザの頭部の動きの速度および動きの量を検知する。

　センサ２２０は、例えば、ユーザの頭部の動きの速度として、音空間内で互いに直交する３軸の少なくとも１つを回転軸とする回転の角速度を検知してもよいし、上記３軸の少なくとも１つを変位方向とする変位の加速度を検知してもよい。

　センサ２２０は、例えば、ユーザの頭部の動きの量として、音空間内で互いに直交する３軸の少なくとも１つを回転軸とする回転量を検知してもよいし、上記３軸の少なくとも１つを変位方向とする変位量を検知してもよい。

　なお、センサ２２０は、ユーザの位置を検出できればよく、カメラまたはＧＰＳ（Ｇｒｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）受信機などにより実現されてもよい。

　また、センサ２２０には、音響信号処理装置１００の温度を検出する熱電対などの温度計、および、音響信号処理装置１００と接続されたバッテリの残量を検出するセンサなどが含まれていてもよい。取得部１１０は、センサ２２０から、音響信号処理装置１００の温度を示す情報、および、バッテリの残量を示す情報を取得してもよい。

　ドライバ２３０は、音響信号に基づく音（音波）を発生させる装置である。具体的には、ドライバ２３０は、後述する決定部１２０で実行すると決定された音響処理が実行された音響信号に基づく音を発生させる。ドライバ２３０は、例えば、イヤホンまたはヘッドフォンなどにより実現される。

　続いて、音響信号処理装置１００の構成について説明する。

　音響信号処理装置１００は、取得部１１０と、決定部１２０と、音響処理部１３０と、を備える。

　取得部１１０は、音響信号および優先度情報などの各種情報を取得する処理部である。取得部１１０は、例えば、通信モジュール２１０と通信可能に構成されており、通信モジュール２１０を介して外部の装置から音響信号などを含むビットストリームを取得する。

　ビットストリームには、例えば、音響信号と、優先度情報と、オーディオオブジェクト情報と、が含まれる。

　ドライバ２３０は、音響信号処理装置１００によって音響処理が実行された音響信号に基づく音を発生させる。

　優先度情報は、音響信号に紐付けられた、音響処理部１３０によってパイプラインで実行される複数の音響処理のそれぞれの優先度を示す情報である。例えば、取得部１１０によって取得される音響信号が複数である場合、優先度情報には、複数の音響信号のそれぞれに対応する複数の優先度を示す情報が含まれる。優先度は、例えば、数値で示される。例えば、優先度情報は、複数の音響信号のそれぞれについて、優先度を個別に示す。

　なお、音響信号は、シングルチャネルであってもよいし、ステレオなどのマルチチャネルであってもよい。つまり、ビットストリームには、それぞれがシングルチャネルの音の情報を有する２以上の音響信号が含まれていてもよいし、複数チャネルの音の情報を有するマルチチャネルの１以上の音響信号が含まれていてもよい。

　オーディオオブジェクト情報は、音響信号に基づく音を発生させる、つまり、音響信号を再生するオブジェクト（オーディオオブジェクト）に関する情報である。オーディオオブジェクト情報は、例えば、音空間に配置されるオーディオオブジェクトの位置を示す情報、オーディオオブジェクトの向きに関する情報、オーディオオブジェクトが発する音の指向性に関する情報、オーディオオブジェクトが生物に属するか否かを示す情報、および、オーディオオブジェクトが動体であるか否かを示す情報などを含む。例えば、音響信号は、オーディオオブジェクト情報が示す１以上のオーディオオブジェクトに対応している。

　また、取得部１１０は、センサ２２０からユーザの位置を示す位置情報を取得する。ビットストリームに含まれるオーディオオブジェクト情報とセンサ２２０から取得される位置情報とが取得部１１０によって取得されることにより、オーディオオブジェクト情報および位置情報を含む空間情報が取得部１１０によって取得される。

　例えば、音響信号処理装置１００では、オーディオオブジェクトが発する音が、オーディオオブジェクトの方から受聴点（具体的には、音空間におけるユーザの位置）に到達する音として知覚されるように、音響信号の変換が実行される。

　なお、受聴点は、例えば、ユーザの頭部の動きに合わせてその位置および方向が変化されてもよい。

　なお、オーディオオブジェクト情報は音響信号を発生させるオブジェクトに関する情報であると説明したが、ビットストリームには、オーディオオブジェクトのような音源オブジェクトだけでなく、音響信号を発生させない非発音源オブジェクトに関する情報を含めてもよい。また、優先度情報、オーディオオブジェクト情報、非発音源オブジェクト情報を、音響信号再生システム２００において音響信号に対する音響処理を制御するために用いられる情報として、メタ情報と呼んでもよい。

　また、メタ情報は、音空間で表現されるシーンを記述するために用いられる情報であってもよい。ここでシーンとは、メタ情報を用いて、音響信号再生システム２００でモデリングされる、音空間における三次元映像および音響イベントを表すすべての要素の集合体を指す用語である。つまり、ここでいうメタ情報は、音響処理を制御する情報だけでなく、映像処理を制御する情報も含んでいてもよい。もちろん、メタ情報には、音響処理と映像処理のいずれか一方だけを制御する情報が含まれていてもよいし、両方の制御に用いられる情報が含まれていてもよい。

　音響信号再生システム２００は、ビットストリームに含まれるメタ情報、および、追加で取得されるインタラクティブなユーザの位置情報などを用いて、音情報（音響信号）に音響処理を行うことで、仮想的な音響効果を生成する。本実施の形態では、音響効果のうち、初期反射処理と、障害物処理と、ポータル処理と、遮断処理と、残響処理とを行う場合を説明するが、メタ情報を用いてほかの音響処理を行ってもよい。例えば、距離減衰効果、ローカリゼーション、ドップラー効果などの音響効果を付加することが考えられる。また、音響効果の全てまたは一部のオンオフを切り替える情報、これらの音響効果の優先度情報をメタ情報としてビットストリームに付加してもよい。

　なお、全てのメタ情報または一部のメタ情報は音情報のビットストリーム以外から取得されてもよい。例えば、音響を制御するメタ情報と映像を制御するメタ情報のいずれかがビットストリーム以外から取得されてもよいし、両方のメタ情報がビットストリーム以外から取得されてもよい。また、映像を制御するメタ情報が音響信号再生システム２００で取得されるビットストリームに含まれる場合には、音響信号再生システム２００は映像の制御に用いることができるメタ情報を、画像を表示する表示装置、又は立体映像を再生する立体映像再生装置に対して出力する機能を備えていてもよい。

　また、一例として、符号化されたメタ情報は、オーディオオブジェクト及び障害物オブジェクトを含む音空間に関する情報と、当該音の音像を音空間内において所定位置に定位させる（つまり、所定方向から到達する音として知覚させる）際の定位位置に関する情報を含む。ここで、障害物オブジェクトは、オーディオオブジェクトが発する音がユーザへと到達するまでの間において、例えば音を遮ったり、音を反射したりして、ユーザが知覚する音に影響を及ぼし得るオブジェクトである。障害物オブジェクトは、静止物体の他に、人等の動物、又は機械等の動体を含み得る。また、音空間に複数のオーディオオブジェクトが存在する場合、任意のオーディオオブジェクトにとっては、他のオーディオオブジェクトは障害物オブジェクトとなり得る。建材や無生物などの非発音源オブジェクトも、音を発する音源オブジェクトも障害物オブジェクトとなり得る。

　メタ情報には、音空間の形状、音空間に存在する障害物オブジェクトの形状及び位置、音空間に存在するオーディオオブジェクトの形状及び位置、並びに音空間におけるユーザの位置及び向きをそれぞれ表す情報のすべてまたは一部が含まれる。

　音空間は、閉空間又は開空間のいずれであってもよい。また、メタ情報には、例えば床、壁、又は天井等の音空間において音を反射し得る構造物の反射率、及び音空間に存在する障害物オブジェクトの反射率を表す情報が含まれる。ここで、反射率は、反射音と入射音とのエネルギーの比であって、音の周波数帯域ごとに設定されている。もちろん、反射率は、音の周波数帯域に依らず、一律に設定されていてもよい。音空間が開空間の場合には、例えば一律で設定された減衰率、回折音、初期反射音などのパラメータがメタ情報として用いられてもよい。

　上記説明では、メタ情報に含まれる障害物オブジェクトやオーディオオブジェクトに関するパラメータとして反射率を挙げたが、メタ情報は、反射率以外の情報を含んでいてもよい。例えば、メタ情報は、音源オブジェクトおよび非発音源オブジェクトの両方に関わる情報として、オブジェクトの素材に関する情報を含んでいてもよい。具体的には、メタ情報は、拡散率、透過率、吸音率などのパラメータを含んでいてもよい。

　また、メタ情報には、音源オブジェクトに関する情報として、音量、放射特性（指向性）、再生条件、ひとつのオブジェクトから発せられる音源の数と種類、オブジェクトにおける音源領域を指定する情報などを含めてもよい。再生条件では例えば、継続的に流れ続ける音なのかイベント発動する音なのかを定めてもよい。オブジェクトにおける音源領域は、ユーザの位置とオブジェクトの位置との相対的な関係で定めてもよいし、オブジェクトを基準として定めてもよい。ユーザの位置とオブジェクトの位置との相対的な関係で定める場合、ユーザがオブジェクトを見ている面を基準とし、ユーザから見てオブジェクトの右側からは音Ａ、左側からは音Ｂが発せられているようにユーザに知覚させることができる。オブジェクトを基準として定める場合、ユーザの見ている方向に関わらず、オブジェクトのどの領域からどの音を出すかは固定にすることができる。例えばオブジェクトを正面から見たときの右側からは高い音、左側からは低い音が流れているようにユーザに知覚させることができる。この場合、ユーザがオブジェクトの背面に回り込んだ場合、背面から見て右側からは低い音、左側からは高い音が流れているようにユーザに知覚させることができる。

　空間に関するメタ情報として、初期反射音までの時間、残響時間、直接音と拡散音の比率などを含めることができる。直接音と拡散音の比率がゼロの場合、直接音のみをユーザに知覚させることができる。

　なお、音情報とメタ情報は一つのビットストリームに格納されていてもよいし、複数のビットストリームに別々に格納されていてもよい。同様に音情報とメタ情報は一つのファイルに格納されていてもよいし、複数のファイルに別々に格納されていてもよい。

　音情報とメタ情報とが複数のビットストリームや複数のファイルに別々に格納されている場合、一つまたは一部のビットストリームまたはファイルに関連する他のビットストリームやファイルを示す情報が含まれていてもよいし、全てのビットストリームまたはファイルのそれぞれに関連する他のビットストリームやファイルを示す情報がメタ情報に含まれていてもよい。ここで、関連するビットストリームやファイルとは、例えば、音響処理の際に同時に用いられる可能性のあるビットストリームまたはファイルである。また、関連する他のビットストリームやファイルを示す情報をまとめて記述したビットストリームやファイルが、音響信号処理装置１００が受信する情報に含まれていてもよい。ここで、関連する他のビットストリームやファイルを示す情報とは、例えば当該他のビットストリームを示す識別子や他のファイルを示すファイル名またはＵＲＬ（Ｕｎｉｆｏｒｍ　Ｒｅｓｏｕｒｃｅ　Ｌｏｃａｔｏｒ）やＵＲＩ（Ｕｎｉｆｏｒｍ　Ｒｅｓｏｕｒｃｅ　Ｉｄｅｎｔｉｆｉｅｒ）などである。この場合、取得部１１０は、関連する他のビットストリームやファイルを示す情報に基づいてビットストリームやファイルを特定または取得する。また、ビットストリームには、関連する他のビットストリームを示す情報が含まれていると共に、別のビットストリームまたはファイルに関連するビットストリームまたはファイルを示す情報を含めていてもよい。ここで、関連するビットストリームまたはファイルを示す情報を含むファイルとは、例えばコンテンツの配信に用いられるマニフェストファイルなどの制御ファイルであってもよい。

　また、例えば、取得部１１０は、音響信号処理装置１００の状態に関するデバイス情報を取得する。デバイス情報は、例えば、音響信号処理装置１００を駆動するためのバッテリの残量を示す情報、音響信号処理装置１００の発熱量を示す情報、および、音響信号処理装置１００の処理能力を示す情報のうちの少なくともいずれかを含む。取得部１１０は、例えば、センサ２２０、記憶部１４０、または、サーバなどの外部の装置などからデバイス情報を取得する。

　決定部１２０は、音響信号に紐づく優先度を示す優先度情報に基づいて、パイプラインで実行される複数の音響処理をそれぞれ音響信号に対して実行するか否かを決定する処理部である。例えば、優先度情報は、複数の音響処理のそれぞれの優先度を示す。決定部１２０は、複数の音響処理のそれぞれの優先度が閾値以上であるか否かに基づいて、複数の音響処理のそれぞれを音響信号に対して実行するか否かを決定する。閾値は、例えば、数値で示される。決定部１２０は、例えば、優先度および閾値のそれぞれの数値を比較することで、複数の音響処理のそれぞれの優先度が閾値以上であるか否かを判定する。

　閾値は、任意に定められてよく、特に限定されない。閾値を示す情報は、例えば、記憶部１４０に記憶される。

　なお、閾値を示す情報は、音響信号などとともにビットストリームに含まれていてもよいし、サーバなどの外部の装置から取得されてもよい。

　また、決定部１２０は、所定の条件に基づいて、閾値を算出してもよい。例えば、決定部１２０は、音響信号処理装置１００の状態に関するデバイス情報に基づいて、閾値を決定する。

　音響処理部１３０は、音響信号に所定の音響処理を実行する処理部である。具体的には、音響処理部１３０は、決定部１２０で実行すると決定された音響処理を音響信号に対して実行する。より具体的には、音響処理部１３０は、取得部１１０が取得した音響信号および空間情報に基づいて、音空間において、音響信号に基づく音であって、空間情報が示すオーディオオブジェクトが発する音が、所定の位置から、所定の方向に、所定の指向性をもって発生されるように処理する。例えば、音響処理部１３０は、取得されたデジタル信号である音響信号をアナログ信号に変換する処理を実行し、変換後の音響信号を出力する。例えば、音響信号が音響処理部１３０からドライバ２３０に出力されることで、ドライバ２３０から音響信号に基づく音が発せられる。

　取得部１１０、決定部１２０、および、音響処理部１３０などの各処理部は、例えば、プロセッサと、当該プロセッサが実行する制御プログラムが記憶されたメモリとによって実現される。

　記憶部１４０は、閾値などの各種情報を記憶する記憶装置である。また、記憶部１４０は、ＨＲＩＲ（Ｈｅａｄ－Ｒｅｌａｔｅｄ　Ｉｍｐｕｌｓｅ　Ｒｅｓｐｏｎｓｅ）を示すＨＲＩＲ　ＤＢ（ＨＲＩＲデータベース）を記憶する。

　ＨＲＩＲとは、１個のインパルスを発生させたときの応答特性である。具体的には、ＨＲＩＲとは、耳殻、人頭および肩まで含めた周辺物によって生じる音の変化を伝達関数として表現した頭部伝達関数をフーリエ変換することで、周波数領域における表現から時間領域における表現に変換された応答特性である。ＨＲＩＲ　ＤＢは、このような情報を含むデータベースである。

　記憶部１４０は、例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）またはフラッシュメモリなどにより実現される。

　［処理手順］
　続いて、音響信号処理装置１００の処理手順について説明する。

　図２は、実施の形態に係る音響信号処理装置１００によるパイプラインで実行される複数の音響処理について説明するための図である。

　まず、取得部１１０は、サーバなどの外部の装置から通信モジュール２１０を介して、複数の音響信号と、音響信号と１対１で紐付く優先度情報と、オーディオオブジェクト情報と、を含むビットストリームを取得する。また、取得部１１０は、例えば、センサ２２０からユーザの位置を示す位置情報を取得する。また、例えば、取得部１１０は、記憶部１４０などからデバイス情報を取得する。

　決定部１２０は、取得部１１０が取得した優先度情報に基づいて、音響処理部１３０がパイプラインで実行する複数の音響処理をそれぞれ実行させるか否かを決定する。

　例えば、音響処理部１３０は、音響信号に対して、初期反射処理（Ｓ１１０）と、障害物処理（Ｓ１２０）と、ポータル処理（Ｓ１３０）と、遮断処理（Ｓ１４０）と、残響処理（Ｓ１５０）と、をパイプラインで実行する。具体的には、音響処理部１３０は、音響信号に対して、初期反射処理と、障害物処理と、ポータル処理と、遮断処理と、残響処理とをこの順に実行する。音響信号に対して、初期反射処理と、障害物処理と、ポータル処理と、遮断処理と、残響処理とは、音響処理の一例である。

　音の伝搬には、例えば、初期反射（Ｒｅｆｌｅｃｔｉｏｎ）、障害物（Ｏｂｓｔｒｕｃｔｉｏｎ）、ポータル（Ｐｏｒｔａｌｉｎｇ）、遮断（Ｏｃｃｕｌｕｓｉｏｎ）、および、残響などのような種類がある。音響処理では、これらの音の伝搬に応じた処理が音響信号に対して実行される。

　例えば、初期反射処理では、壁などで反射された音に対する処理が実行される。

　また、例えば、障害物処理では、障害物の周りで回析された音に対する処理が実行される。

　また、例えば、ポータル処理では、壁越しの音のうちのドアなどからの回析に伴う音に対する処理が実行される。

　また、例えば、遮断処理では、壁越しに伝搬する音に対する処理が実行される。

　また、例えば、残響処理では、部屋で響く音に対する処理が実行される。

　図３は、実施の形態に係る優先度情報を示す図である。なお、図３において、（Ａ）～（Ｄ）は、それぞれ互いに異なる音響信号を示し、（１）～（５）はそれぞれ互いに異なる音響処理を示し、矩形枠内の数値は優先度を示す。例えば、（１）は、初期反射処理を示し、（２）は、障害物処理を示し、（３）は、ポータル処理を示し、（４）は、遮断処理を示し、（５）は、残響処理を示す。本例では、優先度は、例えば、０が低く、３が高い（例えば、必須の処理）、のように、数値が大きいほど優先して実行される音響処理であるとして設定される。

　例えば、取得部１１０は、音響信号（Ａ）～（Ｄ）を取得したとする。図３に示す例では、優先度情報は、例えば、音響信号（Ａ）については、初期反射処理の優先度が２であり、障害物処理の優先度が２であり、ポータル処理の優先度が３であり、遮断処理の優先度が３であり、残響処理の優先度が３であることを示す。また、優先度情報は、例えば、音響信号（Ｂ）については、初期反射処理の優先度が１であり、障害物処理の優先度が１であり、ポータル処理の優先度が０であり、遮断処理の優先度が１であり、残響処理の優先度が２であることを示す。

　なお、上記の優先度情報は、下記のような知見に基づき決定する。例えば、音響処理（１）で表される初期反射処理は、例えば音が鳴り始めてから最大音量に達するまでの時間が短いアタック音を含む音響信号については優先度を高くする。さらに、音響処理（２）や（４）の障害物処理や遮断処理では、エネルギーの主要な部分が低い周波数帯にある音響信号については優先度を高くする。さらに、音響処理の優先度は音響信号と同時に提示される映像情報にも依存する。例えば、映像情報が、教会がある石造りの町並みである場合、教会の鐘の音に対する残響処理の優先度は高く設定するなどである。

　優先度情報は音響信号（Ａ）～（Ｄ）に予め付与されていてもよいし、当該発明技術を使用する方法や装置やシステムを起動したときに音響信号（Ａ）～（Ｄ）を分析し、当該優先度情報を算出してもよい。

　このように、優先度情報は、各音響信号（Ａ）～（Ｄ）の複数の音響処理（１）～（５）の優先度を示す。例えば、決定部１２０は、優先度情報に基づいて、各音響信号（Ａ）～（Ｄ）に対して、複数の音響処理（１）～（５）をそれぞれ実行するか否かを決定する。

　図４は、実施の形態に係る音響信号処理装置１００によるパイプラインで実行される複数の音響処理の第１例を示す図である。なお、図４に示す例では、音響信号（Ａ）～（Ｄ）が繰り返し取得部１１０に取得された場合の例を示す図である。また、音響信号（Ａ）～（Ｄ）と紐付く優先度は、図３に示す優先度情報が示す優先度であるとする。また、図４では、音響信号（Ａ）～（Ｄ）のそれぞれに含まれる、音響処理を示す（１）～（５）のうち、ハッチングが付されていない処理については当該音響信号に対して対応する音響処理が実行され、ハッチングが付されている処理については当該音響信号に対して対応する音響処理が実行されないことを示す。

　音響処理部１３０は、例えば、音響信号および空間情報に基づいて、音響信号に対して音響処理が実行されるか否かを判定する。例えば、音響信号の種別またはユーザとドライバ２３０との位置関係などによっては、そもそも不要となる音響処理がある。そこで、音響処理部１３０は、例えば、音響信号および空間情報に基づいて、音響信号（Ａ）～（Ｄ）に対して音響処理（１）～（５）を実行するか否かを判定し、場合によっては判定結果に応じて、音響信号（Ａ）～（Ｄ）に対して音響処理（１）～（５）の一部または全部を実行しない（処理制御に基づく処理ＯＦＦ）。

　図４に示す例では、時刻ｔ０に取得部１１０に取得された音響信号（Ａ）～（Ｄ）については、音響信号（Ａ）～（Ｃ）のそれぞれに対して音響処理（３）が実行されず、それ以外の音響処理が音響信号（Ａ）～（Ｄ）に対して実行される。また、例えば、時刻ｔ１に取得部１１０に取得された音響信号（Ａ）～（Ｄ）については、音響信号（Ａ）および（Ｃ）のそれぞれに対して音響処理（３）が実行されず、それ以外の音響処理が音響信号（Ａ）～（Ｄ）に対して実行される。

　また、音響処理部１３０は、優先度情報に基づく決定部１２０の決定結果に基づいて、音響信号に対して複数の音響処理をそれぞれ実行する、または、実行しない。

　決定部１２０は、例えば、優先度が閾値以上であれば、当該優先度に対応する音響処理を実行するように音響処理部１３０に指示し、優先度が閾値未満であれば、当該優先度に対応する音響処理を行わないように音響処理部１３０に指示する（図２に示す優先度制御）。つまり、閾値が上がるほど、実行されない音響処理が増加する。言い換えると、閾値が上がるほど処理量（演算量）が減少する。図４に示す例は、時刻ｔ０～ｔ７のいずれにおいても優先度が０であるため、優先度に基づいて実行されない音響処理はない。

　図５は、実施の形態に係る音響信号処理装置１００によるパイプラインで実行される複数の音響処理の第２例を示す図である。なお、図５に示す例では、音響信号（Ａ）～（Ｄ）が繰り返し取得部１１０に取得された場合の例を示す図である。また、音響信号（Ａ）～（Ｄ）と紐付く優先度は、図３に示す優先度情報が示す優先度であるとする。また、図５では、音響信号（Ａ）～（Ｄ）のそれぞれに含まれる、音響処理を示す（１）～（５）のうち、ハッチングが付されていない処理については当該音響信号に対して対応する音響処理が実行され、ハッチング（斜線のハッチングおよびドットのハッチング）が付されている処理については当該音響信号に対して対応する音響処理が実行されないことを示す。

　図５に示す例においても図４に示す例と同様に、音響処理部１３０は、例えば、音響信号および空間情報に基づいて、音響信号（Ａ）～（Ｄ）に対して音響処理（１）～（５）を実行するか否かを判定し、場合によっては判定結果に応じて、音響信号（Ａ）～（Ｄ）に対して音響処理（１）～（５）の一部または全部を実行しない（図５に斜線のハッチングで示す処理制御に基づく処理ＯＦＦ）。

　また、図５に示す例では、時刻ｔ０～ｔ７に向かうにつれて徐々に閾値が変化している。例えば、決定部１２０は、デバイス情報に基づいて、閾値を決定する。例えば、デバイス情報は、音響信号処理装置１００の発熱量を示す情報も含まれ得る。音響信号処理装置１００が使用され続けたり、処理で高負荷が加わると、音響信号処理装置１００の発熱量が大きくなる。また、例えば、音響信号処理装置１００が使用され続けると、音響信号処理装置１００と接続された、音響信号処理装置１００を駆動するためのバッテリの残量が低下する。例えば、決定部１２０は、発熱量が大きくなるについて、または、バッテリの残量が少なくなるについて、閾値が高くなるように変更する。つまり、決定部１２０は、発熱量が大きくなるについて、または、バッテリの残量が少なくなるについて、複数の音響処理のうち、実行されない音響処理の数が多くなるように、閾値を変更する。

　図５に示す例では、時刻ｔ０に取得部１１０に取得された音響信号（Ａ）～（Ｄ）については、図４に示す例と同様に、音響信号（Ａ）～（Ｃ）のそれぞれに対して音響処理（３）が実行されず、それ以外の音響処理が音響信号（Ａ）～（Ｄ）に対して実行される。

　また、例えば、時刻ｔ１に取得部１１０に取得された音響信号（Ａ）～（Ｄ）については、図４に示す例と同様に、音響信号（Ａ）および（Ｃ）のそれぞれに対して音響処理（３）が実行されない。さらに、図５に示す例では、図４に示す例とは異なり、優先度情報に基づいて、音響信号（Ｂ）に対して音響処理（３）が実行されない。

　なお、例えば最初に設定される閾値は、任意でよい。当該閾値は、予め定められていてもよいし、例えば音響信号処理装置１００の性能（例えば、音響信号処理装置１００が備えるプロセッサの性能）に基づいて決定されてもよい。例えば、音響信号処理装置１００は、音響信号処理装置１００の性能が高いほど、閾値が低くなるように閾値を設定する。

　また、優先度情報（つまり、優先度情報が示す優先度）が変更されてもよい。

　図６は、実施の形態に係る音響信号処理装置１００の優先度更新処理の処理手順を示すフローチャートである。

　まず、取得部１１０は、優先度情報を取得する（Ｓ２１０）。

　また、取得部１１０は、空間情報を取得する（Ｓ２２０）。ステップＳ２１０とステップＳ２２０は、例えば、ビットストリームおよび位置情報が取得されることで実行される。ステップＳ２１０とステップＳ２２０とが実行される順序は、任意でよい。

　次に、決定部１２０は、空間情報に基づいて、ユーザとオーディオオブジェクトとの位置関係を算出する（Ｓ２３０）。例えば、決定部１２０は、実空間におけるユーザの位置に対応する音空間におけるユーザの位置を算出し、音空間におけるユーザの位置とオーディオオブジェクトとの相対的な位置関係を算出する（Ｓ２３０）。

　次に、決定部１２０は、当該情報に基づいて、記憶部１４０に記憶されている優先度情報を更新する（Ｓ２４０）。

　なお、記憶部１４０に優先度情報が記憶されていない場合、決定部１２０は、当該情報に基づいて、優先度を決定してもよい。決定された優先度を示す優先度情報は、記憶部１４０に記憶されてもよい。

　再び図２を参照し、音響処理部１３０は、上記のように実行すると決定された音響処理を音響信号に実行し、さらに、当該音響信号をバイノーラル化する（Ｓ１６０）。具体的には、音響処理部１３０は、当該音響信号を、音空間におけるユーザの座標および向き（つまり、受聴点の位置および向き）に基づいて、オーディオオブジェクトの位置から音がユーザに到達するように、ＨＲＩＲ　ＤＢを適用することで、音空間における所定の位置に配置されているオーディオオブジェクトの位置からユーザへと到達する音が再生可能な音響信号となるように信号処理する。

　そして、音響処理部１３０は、信号処理が実行された音響信号をドライバ２３０へと出力する（Ｓ１７０）。これにより、音響処理部１３０は、音響信号に示される波形信号に基づいてドライバ２３０に音波を発生させ、ユーザに音を提示する。

　以上説明した音響信号処理装置１００は、以下の処理を行う。

　図７は、実施の形態に係る音響信号処理装置１００の処理手順を示すフローチャートである。

　まず、取得部１１０は、音響信号を取得する（Ｓ１０）。

　次に、決定部１２０は、音響信号に紐づく優先度を示す優先度情報に基づいて、パイプラインで実行される複数の音響処理をそれぞれ音響信号に対して実行するか否かを決定する（Ｓ２０）。

　次に、音響処理部１３０は、決定部１２０で実行すると決定された音響処理を音響信号に対して実行する（Ｓ３０）。

　決定部１２０で実行すると決定された音響処理が実行された音響信号は、例えば、ドライバ２３０に出力される。

　なお、ステップＳ２０において、複数の音響処理のすべてを実行しないと決定部１２０で決定された場合には、音響処理部１３０は、音響処理を実行せずにドライバ２３０に音響信号を出力してもよい。この場合、例えば、音響処理部１３０は、図２に示すステップＳ１１０～Ｓ１５０を実行せずに、ステップＳ１６０およびＳ１７０を実行する。

　［効果など］
　以下、本明細書の開示内容から得られる技術を例示し、例示される技術から得られる効果などについて説明する。

　技術１は、音響信号処理装置１００が実行する音響信号処理方法であって、音響信号を取得する取得ステップ（Ｓ１０）と、音響信号に紐づく優先度を示す優先度情報に基づいて、パイプラインで実行される複数の音響処理をそれぞれ音響信号に対して実行するか否かを決定する決定ステップ（Ｓ２０）と、決定ステップで実行すると決定された音響処理を音響信号に対して実行する音響処理ステップ（Ｓ３０）と、を含む、音響信号処理方法である。

　なお、複数の音響処理は、例えば、初期反射処理（Ｓ１１０）、障害物処理（Ｓ１２０）、ポータル処理（Ｓ１３０）、遮断処理（Ｓ１４０）、および、残響処理（Ｓ１５０）である。

　これによれば、優先度情報に基づいて、音響信号に対して、パイプラインで実行される複数の音響処理のうちの１以上の音響処理が実行されるか、すべての音響処理が実行されない。そのため、例えば、ユーザの好み、音響信号に基づく音楽の製作者の意図、または、音響信号に基づく音を発生させる機器の状態などに基づいて優先度情報が示す優先度が設定されることで、これらに応じた適切な音響処理が音響信号に対して実行させる。したがって、本開示の一態様に係る音響信号処理方法によれば、パイプラインで実行される複数の音響処理を音響信号に対して適切に実行することができる。例えば、本開示の一態様に係る音響信号処理方法によれば、不要な音響処理をせずに済むため、音響処理に関する処理量を削減できる。

　技術２は、優先度情報は、複数の音響処理のそれぞれの優先度を示し、決定ステップでは、複数の音響処理のそれぞれの優先度が閾値以上であるか否かに基づいて、複数の音響処理のそれぞれを音響信号に対して実行するか否かを決定する、技術１に記載の音響信号処理方法である。

　例えば、優先度および閾値は、それぞれ数値で示される。

　これによれば、優先度と閾値とが比較されることで、複数の音響処理のそれぞれを音響信号に対して実行するか否かを簡単に決定できる。

　技術３は、決定ステップでは、音響信号処理装置１００の状態に関するデバイス情報に基づいて、閾値を決定する、技術２に記載の音響信号処理方法である。

　これによれば、音響信号処理装置１００の状態に応じた閾値が決定される。そのため、音響信号処理装置１００の状態に応じて、複数の音響処理のそれぞれを音響信号に対して実行するか否かを簡単に決定できる。

　技術４は、デバイス情報は、音響信号処理装置１００を駆動するためのバッテリの残量を示す情報、音響信号処理装置１００の発熱量を示す情報、および、音響信号処理装置１００の処理能力を示す情報のうちの少なくともいずれかを含む、技術３に記載の音響信号処理方法である。

　これによれば、音響信号処理装置１００の状態の中で、特に音響処理と関係がある音響信号処理装置１００を駆動するためのバッテリの残量、音響信号処理装置１００の発熱量、および、音響信号処理装置１００の処理能力のうちの少なくともいずれかに応じて、複数の音響処理のそれぞれを音響信号に対して実行するか否かを簡単に決定できる。

　技術５は、決定ステップでは、音響信号処理装置１００のユーザの位置を示す位置情報に基づいて、優先度情報が示す優先度を決定する、技術１～４のいずれかに記載の音響信号処理方法である。

　ユーザによりよい音を提供するために、複数の音響処理のうちの重要となる音響処理は、ユーザとオーディオオブジェクトとの位置関係によって変わってくる。そこで、ユーザの位置に基づいて優先度が変更されることで、特に重要となる音響処理が適切に実行され得る。

　技術６は、技術１～５のいずれかに記載の音響信号処理方法をコンピュータに実行させるための、プログラムである。

　これによれば、本開示の一態様に係る音響信号処理方法と同様の効果を奏する。

　技術７は、音響信号を取得する取得部１１０と、音響信号に紐づく優先度を示す優先度情報に基づいて、パイプラインで実行される複数の音響処理をそれぞれ音響信号に対して実行するか否かを決定する決定部１２０と、決定部１２０で実行すると決定された音響処理を音響信号に対して実行する音響処理部１３０と、を備える、音響信号処理装置１００である。

　技術８は、技術７に記載の音響信号処理装置１００と、決定部１２０で実行すると決定された音響処理が実行された音響信号に基づく音を発生させるドライバ２３０と、を備える、音響信号再生システム２００である。

　これによれば、音響信号処理装置１００で適切に音響処理が実行された音響信号に基づく音がユーザに提供される。

　（その他の実施の形態）
　以上、実施の形態について説明したが、本開示は、上記実施の形態に限定されるものではない。

　例えば、上記の実施の形態に説明した音響信号再生システム２００は、構成要素をすべて備える１つの装置として実現されてもよいし、複数の装置に各機能が割り振られ、この複数の装置が連携することで実現されてもよい。後者の場合には、例えば、音響信号処理装置１００には、処理モジュールに該当する装置として、スマートフォン、タブレット端末、または、パーソナルコンピュータなどの情報処理装置が用いられてもよい。

　また、例えば、音響信号処理装置１００は、ドライバ２３０のみを備える再生装置に接続され、当該再生装置に対して、取得した音響信号に音響処理を実行して出力するのみの音響信号処理装置として実現することもできる。この場合、音響信号処理装置１００は、専用の回路を備えるハードウェアとして実現してもよいし、汎用のプロセッサに特定の処理を実行させるためのソフトウェアとして実現してもよい。

　また、上記実施の形態において、特定の処理部が実行する処理を別の処理部が実行してもよい。また、複数の処理の順序が変更されてもよいし、複数の処理が並行して実行されてもよい。

　また、上記実施の形態において、各構成要素は、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

　また、各構成要素は、ハードウェアによって実現されてもよい。例えば、各構成要素は、回路（または集積回路）でもよい。これらの回路は、全体として１つの回路を構成してもよいし、それぞれ別々の回路でもよい。また、これらの回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。

　また、本開示の全般的または具体的な態様は、装置、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの非一時的な記録媒体で実現されてもよい。また、本開示の全般的または具体的な態様は、装置、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

　例えば、本開示は、コンピュータによって実行される音響信号処理情報として実現されてもよいし、音響信号処理方法をコンピュータに実行させるためのプログラムとして実現されてもよい。本開示は、このようなプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体として実現されてもよい。

　その他、各実施の形態に対して当業者が思いつく各種変形を施して得られる形態、または、本開示の趣旨を逸脱しない範囲で各実施の形態における構成要素および機能を任意に組み合わせることで実現される形態も本開示に含まれる。

　本開示は、オーディオ機器に有用である。

　１００　音響信号処理装置
　１１０　取得部
　１２０　決定部
　１３０　音響処理部
　１４０　記憶部
　２００　音響信号再生システム
　２１０　通信モジュール
　２２０　センサ
　２３０　ドライバ

Claims

　音響信号処理装置が実行する音響信号処理方法であって、
　音響信号を取得する取得ステップと、
　前記音響信号に紐づく優先度を示す優先度情報に基づいて、パイプラインで実行される複数の音響処理をそれぞれ前記音響信号に対して実行するか否かを決定する決定ステップと、
　前記決定ステップで実行すると決定された音響処理を前記音響信号に対して実行する音響処理ステップと、を含む、
　音響信号処理方法。
　前記優先度情報は、前記複数の音響処理のそれぞれの優先度を示し、
　前記決定ステップでは、前記複数の音響処理のそれぞれの優先度が閾値以上であるか否かに基づいて、前記複数の音響処理のそれぞれを前記音響信号に対して実行するか否かを決定する、
　請求項１に記載の音響信号処理方法。
　前記決定ステップでは、前記音響信号処理装置の状態に関するデバイス情報に基づいて、前記閾値を決定する、
　請求項２に記載の音響信号処理方法。
　前記デバイス情報は、前記音響信号処理装置を駆動するためのバッテリの残量を示す情報、前記音響信号処理装置の発熱量を示す情報、および、前記音響信号処理装置の処理能力を示す情報のうちの少なくともいずれかを含む、
　請求項３に記載の音響信号処理方法。
　前記決定ステップでは、前記音響信号処理装置のユーザの位置を示す位置情報に基づいて、前記優先度情報が示す優先度を決定する、
　請求項１に記載の音響信号処理方法。
　請求項１～５のいずれか１項に記載の音響信号処理方法をコンピュータに実行させるための、
　プログラム。
　音響信号を取得する取得部と、
　前記音響信号に紐づく優先度を示す優先度情報に基づいて、パイプラインで実行される複数の音響処理をそれぞれ前記音響信号に対して実行するか否かを決定する決定部と、
　前記決定部で実行すると決定された音響処理を前記音響信号に対して実行する音響処理部と、を備える、
　音響信号処理装置。
　請求項７に記載の音響信号処理装置と、
　前記決定部で実行すると決定された音響処理が実行された前記音響信号に基づく音を発生させるドライバと、を備える、
　音響信号再生システム。