WO2022054576A1

WO2022054576A1 - 音信号処理方法および音信号処理装置

Info

Publication number: WO2022054576A1
Application number: PCT/JP2021/031133
Authority: WO
Inventors: 啓奥村
Original assignee: ヤマハ株式会社
Priority date: 2020-09-09
Filing date: 2021-08-25
Publication date: 2022-03-17
Also published as: EP4213504A1; EP4213504A4; CN116034591A; JP2022045553A; US20230199423A1

Abstract

音信号処理方法は、音信号を取得し、前記音信号の種別を判定し、複数の仮想スピーカを設定して、判定した前記音信号の種別が第１の種別の時に、前記複数の仮想スピーカのうちいずれか１つの仮想スピーカに音像定位をさせる定位処理を施した第１音信号を生成し、判定した前記音信号の種別が第２の種別の時に、前記複数の仮想スピーカのうち２以上の仮想スピーカに分散して音像定位させる分散処理を施した第２音信号を生成し、前記第１音信号と前記第２音信号を加算して加算信号を生成し、前記加算信号を複数の実在のスピーカに出力する。

Description

音信号処理方法および音信号処理装置

　この発明は、音信号を処理する音信号処理方法および音信号処理装置に関する。

　特許文献１には、パブリックビューイング等の会場において、スピーカから再生される音が暗騒音等の雑音によりマスクされるのを補償するため、補償音を出力する補償スピーカを備えた音響信号補償装置が開示されている。

特開２０１７－２０００２５号公報

　会場にスピーカ等の機材を多数設置すれば、音質が向上し、臨場感が向上する。しかし、機材の数を増やすと配線の手間、電源の確保、および人手の確保等が必要になる。

　そこで、この発明は、少ない機材でも臨場感を向上させることができる音信号処理方法および音信号処理装置を提供することを目的とする。

　利用者は、少ない機材でも臨場感を向上させることができる。

音信号処理システム１の構成を示すブロック図である。複数のスピーカ１４Ａ～スピーカ１４Ｇの設置態様を示す平面概略図である。ミキサ１１の構成を示すブロック図である。ミキサ１１の機能的構成を示すブロック図である。ミキサ１１の動作を示すフローチャートである。仮想スピーカを示したライブハウス７０の平面概略図である。第１音信号および第２音信号の出力態様を模式化した平面図である。情報処理端末１３を使用する各リスナの視聴環境を模式的に示した平面図である。情報処理端末１３を使用する各リスナの視聴環境を模式的に示した平面図である。情報処理端末１３を使用する各リスナの視聴環境を模式的に示した平面図である。

　図１は、音信号処理システム１の構成を示すブロック図である。音信号処理システム１は、ミキサ１１、複数の情報処理端末１３、および複数のスピーカ１４Ａ～スピーカ１４Ｇを備えている。

　ミキサ１１および複数の情報処理端末１３は、それぞれ別の場所に設置されている。ミキサ１１および複数の情報処理端末１３は、インターネットを介して接続されている。

　ミキサ１１は、複数のスピーカ１４Ａ～スピーカ１４Ｇに接続されている。ミキサ１１および複数のスピーカ１４Ａ～スピーカ１４Ｇは、ネットワークケーブルまたはオーディオケーブルを介して接続されている。

　ミキサ１１は、本発明の音信号処理装置の一例である。ミキサ１１は、インターネットを介して複数の情報処理端末１３から音信号を受信し、パニング処理およびエフェクト処理を行ない、複数のスピーカ１４Ａ～スピーカ１４Ｇに音信号を供給する。

　図２は、複数のスピーカ１４Ａ～スピーカ１４Ｇの設置態様を示す平面概略図である。複数のスピーカ１４Ａ～スピーカ１４Ｇは、ライブハウス７０の壁面に沿って設置されている。この例のライブハウス７０は、平面視して矩形状である。ライブハウス７０の前方にはステージ５０が配置されている。ステージ５０では、演者が歌唱あるいは演奏等のパフォーマンスを行なう。

　スピーカ１４Ａは、ステージ５０の左側に設置され、スピーカ１４Ｂは、ステージ５０の右側に設置されている。スピーカ１４Ｃは、ライブハウス７０の前後中央の左側、スピーカ１４Ｄは、ライブハウス７０の前後中央の右側に設置されている。スピーカ１４Ｅはライブハウス７０の後方左側に設置され、スピーカ１４Ｆは、ライブハウス７０の後方の左右中央に設置され、スピーカ１４Ｇは、ライブハウス７０の後方の右側に設置されている。

　スピーカ１４Ｆの前には、リスナＬ１が居る。リスナＬ１は、演者のパフォーマンスを視聴し、演者に対して声援、拍手、または呼びかけ等を行なう。音信号処理システム１は、スピーカ１４Ａ～スピーカ１４Ｇを介して他のリスナの声援、拍手、または呼びかけ等の音をライブハウス７０内に出力する。他のリスナの声援、拍手、または呼びかけ等の音は、情報処理端末１３からミキサ１１に入力される。情報処理端末１３は、パーソナルコンピュータ（ＰＣ）、タブレット型コンピュータ、またはスマートフォン等の携帯型の情報処理装置である。情報処理端末１３のユーザは、ライブハウス７０の歌唱あるいは演奏等のパフォーマンスを遠隔で視聴するリスナとなる。情報処理端末１３は、不図示のマイクを介して、それぞれのリスナの声援、拍手、または呼びかけ等の音を取得する。あるいは、情報処理端末１３は、表示器（不図示）に「声援」、「拍手」、「呼びかけ」、および「ざわめき」等のアイコン画像を表示し、リスナからこれらアイコン画像に対する選択操作を受け付けてもよい。情報処理端末１３は、これらアイコン画像に対する選択操作を受け付けると、それぞれのアイコン画像に対応する音信号を生成し、リスナの声援、拍手、または呼びかけ等の音として取得してもよい。

　情報処理端末１３は、インターネットを介してミキサ１１にそれぞれのリスナの声援、拍手、または呼びかけ等の音を送信する。ミキサ１１は、それぞれのリスナの声援、拍手、または呼びかけ等の音を受信する。ミキサ１１は、受信した音にパニング処理およびエフェクト処理を行ない、複数のスピーカ１４Ａ～スピーカ１４Ｇに音信号を分配する。これにより、音信号処理システム１は、ライブハウス７０に多数のリスナの声援、拍手、または呼びかけ等の音を届けることができる。

　以下、ミキサ１１の構成および動作について詳細に説明する。図３は、ミキサ１１のハードウェア構成を示すブロック図である。図４は、ミキサ１１の機能的構成を示すブロック図である。図５は、ミキサ１１の動作を示すフローチャートである。

　ミキサ１１は、表示器１０１、ユーザＩ／Ｆ（インタフェース）１０２、オーディオＩ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）１０３、信号処理部（ＤＳＰ）１０４、ネットワークＩ／Ｆ１０５、ＣＰＵ１０６、フラッシュメモリ１０７、およびＲＡＭ１０８を備えている。これら構成は、バス１７１を介して接続されている。

　ＣＰＵ１０６は、ミキサ１１の動作を制御する制御部である。ＣＰＵ１０６は、記憶媒体であるフラッシュメモリ１０７に記憶された所定のプログラムをＲＡＭ１０８に読み出して実行することにより各種の動作を行なう。

　なお、ＣＰＵ１０６が読み出すプログラムは、自装置内のフラッシュメモリ１０７に記憶されている必要はない。例えば、プログラムは、サーバ等の外部装置の記憶媒体に記憶されていてもよい。この場合、ＣＰＵ１０６は、該サーバから都度プログラムをＲＡＭ１０８に読み出して実行すればよい。

　信号処理部１０４は、各種信号処理を行なうためのＤＳＰから構成される。信号処理部１０４は、ネットワークＩ／Ｆ１０５を介して情報処理端末１３からリスナの声援、拍手、または呼びかけ等に係る音信号を受信する。

　信号処理部１０４は、受信した音信号に、パニング処理およびエフェクト処理を行なう。信号処理部１０４は、信号処理後の音信号を、オーディオＩ／Ｏ１０３を介して、スピーカ１４Ａ～スピーカ１４Ｇに出力する。

　図４に示すように、ＣＰＵ１０６および信号処理部１０４は、機能的に、取得部３０１、判定部３０２、設定部３０３、定位処理部３０４、分散処理部３０５、および加算部３０６を備えている。

　取得部３０１は、複数の情報処理端末１３のそれぞれからリスナの声援、拍手、または呼びかけ等に係る音信号を取得する（Ｓ１１）。その後、判定部３０２は、音信号の種別を判定する（Ｓ１２）。

　音信号の種別は、第１の種別または第２の種別を含む。第１の種別は、リスナ各自の「がんばれー」等の声援、演者の個人名の呼びかけ、または「ブラボー」等の感嘆詞等を含む。すなわち、第１の種別は、聴衆に埋もれずに個別のリスナの声として認識できる音である。第２の種別は、個別のリスナの声として認識できない、多くのリスナが同時に発する音であり、例えば拍手、合唱、または「わー」等の歓声、ざわめき等を含む。

　判定部３０２は、例えば音声認識処理により、上記の様な「がんばれー」、「ブラボー」等の音声を認識した場合に、当該音信号を第１の種別であると判定する。判定部３０２は、音声を認識しない音信号を第２の種別と判定する。

　判定部３０２は、第１の種別と判定した音信号を定位処理部３０４に出力し、第２の種別と判定した音信号を分散処理部３０５に出力する。定位処理部３０４および分散処理部３０５は、複数の仮想スピーカを設定する（Ｓ１３）。

　図６は、仮想スピーカを示したライブハウス７０の平面概略図である。図６に示す様に、定位処理部３０４および分散処理部３０５は、複数の仮想スピーカ１４Ｎ１～仮想スピーカ１４Ｎ１６を設定する。定位処理部３０４および分散処理部３０５は、ライブハウスの所定の位置（例えばステージ５０の中央）を原点とした２次元または３次元直交座標で、スピーカ１４Ａ～スピーカ１４Ｇ、仮想スピーカ１４Ｎ１～仮想スピーカ１４Ｎ１６の位置を管理する。スピーカ１４Ａ～スピーカ１４Ｇは、実在のスピーカである。そのため、スピーカ１４Ａ～スピーカ１４Ｇの座標は、予めフラッシュメモリ１０７（または不図示のサーバ等）に記憶されている。定位処理部３０４および分散処理部３０５は、図６に示す様に、ライブハウス７０の全体に仮想スピーカ１４Ｎ１～仮想スピーカ１４Ｎ１６を万遍なく配置する。また、図６の例では、定位処理部３０４および分散処理部３０５は、ライブハウス７０の外側の位置にも仮想スピーカ１４Ｎ１６を設定している。

　なお、仮想スピーカの設定処理（Ｓ１３）は、音信号の種別の判定処理（Ｓ１２）の後に行なう必要はない。仮想スピーカの設定処理（Ｓ１３）は、音信号の取得処理（Ｓ１１）または音信号の種別の判定処理（Ｓ１２）の前に予め行なってもよい。

　その後、定位処理部３０４は、定位処理を行って第１音信号を生成し、分散処理部３０５は、分散処理を行って第２音信号を生成する（Ｓ１４）。

　定位処理は、仮想スピーカ１４Ｎ１～仮想スピーカ１４Ｎ１６のうちいずれか１つの位置に音像を定位させる処理である。ただし、音像を定位させる位置は、仮想スピーカ１４Ｎ１～仮想スピーカ１４Ｎ１６に限らない。定位処理部３０４は、音像を定位させる位置がスピーカ１４Ａ～スピーカ１４Ｇの位置に一致する場合、スピーカ１４Ａ～スピーカ１４Ｇのいずれか１つに音信号を出力する。

　なお、第１の種別の音信号の定位位置は、ランダムに設定してもよいが、ミキサ１１は、リスナから位置情報を受け付ける位置情報受付部を備えていてもよい。リスナは、情報処理端末１３を操作して、自身の音声の定位位置を指定する。例えば、情報処理端末１３は、ライブハウス７０の平面図または斜視図等を模した画像を表示し、利用者から定位位置を受け付ける。情報処理端末１３は、受け付けた定位位置に対応する位置情報（座標）をミキサ１１に送信する。ミキサ１１の定位処理部３０４は、情報処理端末１３から受信した位置情報に対応する座標に仮想スピーカを設定し、設定した仮想スピーカの位置に音像を定位させる処理を行う。

　定位処理部３０４は、仮想スピーカ１４Ｎ１～仮想スピーカ１４Ｎ１６の位置に音像を定位させるために、パニング処理またはエフェクト処理を行う。

　パニング処理は、スピーカ１４Ａ～スピーカ１４Ｇのうち複数のスピーカに同じ音信号を供給し、かつ供給する音信号の音量を制御することで、仮想スピーカの位置に音像をファントム定位させる処理である。例えば、スピーカ１４Ａおよびスピーカ１４Ｃに同じ音量の同じ音信号を供給すれば、スピーカ１４Ａおよびスピーカ１４Ｃを結ぶ直線上の中央の位置に、仮想スピーカを設置した様に音像定位する。つまり、パニング処理は、仮想スピーカの位置に近いスピーカに供給する音信号の音量を大きくし、仮想スピーカの位置から遠いスピーカに供給する音信号の音量を小さくする処理である。なお、図６においては、同一平面上に複数の仮想スピーカ１４Ｎ１～仮想スピーカ１４Ｎ１６を設定している。ただし、定位処理部３０４は、異なる高さに設置された複数のスピーカに対して同じ音信号を供給することで、３次元座標上の任意の位置の仮想スピーカに音像を定位させることもできる。

　また、エフェクト処理は、例えばディレイを付与する処理を含む。実在のスピーカ１４Ａ～スピーカ１４Ｇに供給する音信号にディレイを付与すれば、聴者は、実在のスピーカよりも遠い位置に音像を知覚する。したがって、定位処理部３０４は、音信号にディレイを付与することで、実在のスピーカ１４Ａ～スピーカ１４Ｇよりも遠い位置に設定した仮想スピーカに音像を定位させることができる。

　また、エフェクト処理は、リバーブを付与する処理を含んでいてもよい。音信号にリバーブを付与すれば、聴者は、実在のスピーカの位置よりも遠い位置に音像を知覚する。したがって、定位処理部３０４は、音信号にリバーブを付与することで、実在のスピーカ１４Ａ～スピーカ１４Ｇよりも遠い位置に設定した仮想スピーカに音像を定位させることができる。

　また、エフェクト処理は、イコライザにより周波数特性を付与する処理を含んでいてもよい。聴者は、両耳の音量差および時間差だけでなく、周波数特性の差によっても音像を知覚する。したがって、定位処理部３０４は、目的の仮想スピーカの位置から目的の聴取位置（例えばステージ５０の中央）に至る伝達特性に応じた周波数特性を付与することでも、設定した仮想スピーカの位置に音像を定位させることができる。

　一方、分散処理は、仮想スピーカ１４Ｎ１～仮想スピーカ１４Ｎ１６のうち複数に分散して音像を定位させる処理である。分散処理部３０５も、音像を定位させる位置が実在のスピーカ１４Ａ～スピーカ１４Ｇの位置に一致する場合、スピーカ１４Ａ～スピーカ１４Ｇのいずれか１つに音信号を出力する。

　分散処理部３０５は、仮想スピーカ１４Ｎ１～仮想スピーカ１４Ｎ１６の複数の位置に音像を定位させるために、パニング処理またはエフェクト処理を行う。個々の音像を仮想スピーカ１４Ｎ１～仮想スピーカ１４Ｎ１６のいずれかの位置に定位させる方法は、定位処理部３０４と同じである。分散処理部３０５は、複数の仮想スピーカに分散して音像を定位させることで、拍手、合唱、歓声、またはざわめき等の音を再現する。

　なお、上述では、リバーブを付与することで、実在のスピーカ１４Ａ～スピーカ１４Ｇよりも遠い位置に設定した仮想スピーカに音像を定位させる例を示した。ただし、リバーブは、聴者に音の空間的な拡がりを知覚させることができる。そのため、分散処理部３０５は、複数の仮想スピーカに音像を定位させる処理に加えて、さらにリバーブ等の空間的な拡がりを知覚させる処理を行ってもよい。

　また、分散処理部３０５は、スピーカ１４Ａ～スピーカ１４Ｇに出力する音信号の出力タイミングを調整し、複数の実在のスピーカから出力される音の聴者への到達タイミングをずらすことが好ましい。これにより、分散処理部３０５は、さらに音を分散することができ、空間的な拡がりを与えることができる。

　加算部３０６は、以上の様にして定位処理された第１音信号および分散処理された第２音信号を加算する（Ｓ１５）。加算処理は、スピーカ毎の加算演算器により行われる。加算部３０６は、第１音信号および第２音信号を加算した加算信号を、それぞれの複数の実在のスピーカに出力する（Ｓ１６）。

　以上の様にして、第１音信号は、仮想スピーカ１４Ｎ１～仮想スピーカ１４Ｎ１６のいずれか１つを音源として聴者に到達する。第２音信号は、複数の仮想スピーカ１４Ｎ１～仮想スピーカ１４Ｎ１６から分散して聴者に到達する。図７は、第１音信号および第２音信号の出力態様を模式化した平面図である。図７に示す様に、「ブラボー」等の音声は、特定の仮想スピーカから出力される。図７の例では、客席前方中央の仮想スピーカ１４Ｎ３、各席後方左右の仮想スピーカ１４Ｎ９、仮想スピーカ１４Ｎ１２、およびライブハウス７０よりも外側の後方の仮想スピーカ１４Ｎ１６から「ブラボー」等の音声が出力される。拍手および「わー」等の歓声は、複数の仮想スピーカから出力される。

　これにより、ステージ５０の演者は、リスナＬ１以外の場所からもリスナの声や拍手、歓声等を聴くことができ、臨場感溢れた環境下でライブパフォーマンスを行うことができる。また、ライブハウス７０に居るリスナＬ１も、同じ空間内で多数のリスナの声や拍手、歓声等を聴くことができ、臨場感溢れた環境下でライブパフォーマンスを視聴することができる。

　特に、本実施形態の音信号処理方法は、実在のスピーカ１４Ａ～スピーカ１４Ｇよりも多数の仮想スピーカ１４Ｎ１～仮想スピーカ１４Ｎ１６からリスナの声や拍手、歓声等を発することができる。したがって、本実施形態の音信号処理方法は、少ない機材でも様々な位置からリスナの声や拍手、歓声等を出力することができ、臨場感を向上させることができる。また、本実施形態の音信号処理方法は、仮想スピーカの位置を実在の会場の空間よりも外側の位置に設定することで、実在の空間よりもさらに大きな会場の環境を模して、リスナの声や拍手、歓声等を出力することができる。

　上記実施形態では、ライブハウス７０における臨場感を向上させる例を示した。しかし、本実施形態の音信号処理方法は、情報処理端末１３を使用する遠隔地の各リスナの臨場感を向上させることもできる。

　図８、図９および図１０は、情報処理端末１３を使用する各リスナの視聴環境を模式的に示した平面図である。この例では、スピーカ１４ＦＬ、スピーカ１４ＦＲ、スピーカ１４Ｃ、スピーカ１４ＳＬ、およびスピーカ１４ＳＲが居室７５の壁面に沿って設置されている。この例の居室７５は、平面視して矩形状である。居室７５の前方には表示器５５が配置されている。リスナＬ２は、居室の中央に居る。リスナＬ２は、表示器５５に表示される演者のパフォーマンスを視る。

　スピーカ１４ＦＬは、表示器５５の左側に設置され、スピーカ１４Ｃは、表示器５５の前に設置され、スピーカ１４ＦＲは、表示器５５の右側に設置されている。スピーカ１４ＳＬは居室７５の後方左側に設置され、スピーカ１４ＳＲは、居室７５の後方の右側に設置されている。

　情報処理端末１３は、演者のパフォーマンスに係る映像および音を取得する。例えば、図２の例では、ミキサ１１は、演者の演奏音または歌唱音等の音を取得し、情報処理端末１３に送信する。

　情報処理端末１３は、ミキサ１１と同様に、取得した音にパニング処理およびエフェクト処理等の信号処理を施して、信号処理後の音信号を、スピーカ１４ＦＬ、スピーカ１４ＦＲ、スピーカ１４Ｃ、スピーカ１４ＳＬ、およびスピーカ１４ＳＲに出力する。スピーカ１４ＦＬ、スピーカ１４ＦＲ、スピーカ１４Ｃ、スピーカ１４ＳＬ、およびスピーカ１４ＳＲは、演者のパフォーマンスに係る音を出力する。

　さらに、情報処理端末１３は、他の情報処理端末１３から他のリスナの声援、拍手、または呼びかけ等に係る音信号を取得する。情報処理端末１３は、ミキサ１１と同様に、音信号の種別を判定し、定位処理または分散処理を行う。

　これにより、図９に示す様に、リスナＬ２は、居室７５においても、ライブハウス７０の中央に居て多数の観客とともに演者のパフォーマンスを視聴しているような臨場感を得ることができる。

　情報処理端末１３は、リスナから座席位置の指定情報を受け付ける座席指定受付部を備えていてもよい。この場合、情報処理端末１３は、座席位置の指定情報に基づいてパニング処理およびエフェクト処理の内容を変更する。例えば、リスナがステージ５０のすぐ前の座席位置を指定すれば、情報処理端末１３は、図１０に示す様に、リスナＬ２をステージ５０のすぐ前の位置に設定して、複数の仮想スピーカを設定し、他のリスナの声援、拍手、または呼びかけ等に係る音信号の定位処理および分散処理を行う。これにより、リスナＬ２は、ステージ５０のすぐ前に居るような臨場感を得ることができる。

　音信号処理システムの提供者は、ステージ前の座席位置、ステージ横の座席位置、ライブハウスの中央の座席位置、あるいは後方の座席位置、等のチケットを提供する。情報処理端末１３のユーザは、これらの座席位置のうちいずれかの座席位置のチケットを購入する。ユーザは、例えば、高額で臨場感の高いステージ前の座席位置を選んだり、低額の後方座席位置を選んだりすることができる。情報処理端末１３は、ユーザの選んだ座席位置に応じてパニング処理およびエフェクト処理の内容を変更する。これにより、ユーザは、自身の購入した座席位置に居てパフォーマンスを視聴するような臨場感を得ることができる。また、音信号処理方法の提供者は、実在の空間でイベントを提供している状態と同等のビジネスを行うことができる。

　さらに、本実施形態の音信号処理方法では、複数のユーザが同じ座席位置を指定しても良い。例えば、複数のユーザがそれぞれステージ５０のすぐ前の座席位置を指定してもよい。この場合、それぞれのユーザの情報処理端末１３は、ステージ５０のすぐ前の座席位置に居るような臨場感を与える。これにより、１つの座席に対して、複数のリスナが同じ臨場感で演者のパフォーマンスを視聴することができる。したがって、音信号処理方法の提供者は、実在の空間の観客収容可能数を超えたサービスを提供することができる。

　本実施形態の説明は、すべての点で例示であって、制限的なものではない。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲には、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

　例えば、上記実施形態では、音信号に対して音声認識処理を行ない、音声認識処理で音声を認識した場合に音信号の種別が前記第１の種別と判定し、音声認識処理で音声を認識できない場合に音信号の種別が前記第２の種別と判定した。しかし、音信号は、複数のチャンネルを含み、チャンネル毎に第１の種別か第２の種別かを示す付加情報（メタデータ）を含んでいてもよい。例えば、情報処理端末１３がリスナから「声援」、「拍手」、「呼びかけ」、「ざわめき」等の選択操作を受け付けて対応する音信号を生成する場合、情報処理端末１３は、選択された音に対応するチャンネルの音信号を生成し、付加情報を添付して、ミキサ１１に音信号を送信する。この場合、ミキサ１１の判定部３０２は、チャンネル毎に、付加情報に基づいて音信号の種別を判定する。

　また、音信号は、第１の種別および第２の種別の両方の音源を含んでいてもよい。この場合、ミキサ１１（または情報処理端末１３）は、第１の種別の音信号および第２の種別の音信号を音源分離する。定位処理部３０４および分散処理部３０５は、分離したそれぞれの音信号から第１音信号および第２音信号を生成する。音源分離の手法は、どの様なものであってもよい。例えば、上述の様に、第１の種別は特定のリスナの発話音である。そのため、判定部３０２は、発話音を目的音として、他の音をノイズ音として消去するノイズリダクションの処理を用いて、第１の種別の音信号を分離する。

１…音信号処理システム
１１…ミキサ
１３…情報処理端末
１４Ａ～１４Ｇ…スピーカ
１４ＦＬ，１４ＦＲ，１４Ｃ，１４ＳＬ，１４ＳＲ…スピーカ
１４Ｎ１～１４Ｎ１６…仮想スピーカ
５０…ステージ
５５…表示器
７０…ライブハウス
７５…居室
１０１…表示器
１０２…ユーザＩ／Ｆ
１０３…オーディオＩ／Ｏ
１０４…信号処理部
１０５…ネットワークＩ／Ｆ
１０６…ＣＰＵ
１０７…フラッシュメモリ
１０８…ＲＡＭ
１７１…バス
３０１…取得部
３０２…判定部
３０３…設定部
３０４…定位処理部
３０５…分散処理部
３０６…加算部

Claims

　音信号を取得し、
　前記音信号の種別を判定し、
　複数の仮想スピーカを設定して、
　判定した前記音信号の種別が第１の種別の時に、前記複数の仮想スピーカのうちいずれか１つの仮想スピーカに音像定位をさせる定位処理を施した第１音信号を生成し、
　判定した前記音信号の種別が第２の種別の時に、前記複数の仮想スピーカのうち２以上の仮想スピーカに分散して音像定位させる分散処理を施した第２音信号を生成し、
　前記第１音信号と前記第２音信号を加算して加算信号を生成し、
　前記加算信号を複数の実在のスピーカに出力する、
　音信号処理方法。
　前記音信号は、複数のチャンネルを含み、
　チャンネル毎に前記種別を判定する、
　請求項１に記載の音信号処理方法。
　前記音信号が前記第１の種別および前記第２の種別の両方の音源を含む場合、前記第１の種別の音信号および前記第２の種別の音信号に音源分離し、
　分離したそれぞれの音信号から前記第１音信号および前記第２音信号を生成する、
　請求項１に記載の音信号処理方法。
　前記音信号に対して音声認識処理を行ない、
　前記音声認識処理で音声を認識した場合に前記音信号の種別が前記第１の種別と判定し、
　前記音声認識処理で音声を認識できない場合に前記音信号の種別が前記第２の種別と判定する、
　請求項１乃至請求項３のいずれか１項に記載の音信号処理方法。
　前記定位処理は、定位させる位置がある実在のスピーカに一致する場合に、その実在のスピーカ単独に前記第１音信号を出力する処理を含む、
　請求項１乃至請求項４のいずれか１項に記載の音信号処理方法。
　ユーザから位置情報を受け付けて、
　前記定位処理は、受け付けた前記位置情報の位置に前記第１音信号を定位させる、
　請求項１乃至請求項５のいずれか１項に記載の音信号処理方法。
　前記定位処理は、パニング処理とエフェクト処理により前記仮想スピーカを実現する、
　請求項１乃至請求項６のいずれか１項に記載の音信号処理方法。
　ユーザから座席位置の指定情報を受け付けて、
　前記座席位置の指定情報に基づいて前記パニング処理および前記エフェクト処理の内容を変更する、
　請求項７に記載の音信号処理方法。
　前記エフェクト処理は、ディレイ、イコライザ、またはリバーブを含む、
　請求項７または請求項８に記載の音信号処理方法。
　前記分散処理は前記第２音信号の出力タイミングの調整を含む、
　請求項１乃至請求項９のいずれか１項に記載の音信号処理方法。
　音信号を取得する取得部と、
　前記音信号の種別を判定する判定部と、
　複数の仮想スピーカを設定する設定部と、
　判定した前記音信号の種別が第１の種別の時に、前記複数の仮想スピーカのうちいずれか１つの仮想スピーカに音像定位をさせる定位処理を施した第１音信号を生成し、
　判定した前記音信号の種別が第２の種別の時に、前記複数の仮想スピーカのうち２以上の仮想スピーカに分散して音像定位させる分散処理を施した第２音信号を生成し、
　前記第１音信号と前記第２音信号を加算して加算信号を生成し、
　前記加算信号を複数の実在のスピーカに出力する、信号処理部と、
　を備えた音信号処理装置。
　前記音信号は、複数のチャンネルを含み、
　前記判定部は、チャンネル毎に前記種別を判定する、
　請求項１１に記載の音信号処理装置。
　前記音信号が前記第１の種別および前記第２の種別の両方の音源を含む場合、前記第１の種別の音信号および前記第２の種別の音信号に音源分離する音源分離部を備え、
　分離したそれぞれの音信号から前記第１音信号および前記第２音信号を生成する、
　請求項１１に記載の音信号処理装置。
　前記音信号に対して音声認識処理を行なう音声認識処理部を備え、
　前記判定部は、
　前記音声認識処理で音声を認識した場合に前記音信号の種別が前記第１の種別と判定し、
　前記音声認識処理で音声を認識できない場合に前記音信号の種別が前記第２の種別と判定する、
　請求項１１乃至請求項１３のいずれか１項に記載の音信号処理装置。
　前記定位処理は、定位させる位置がある実在のスピーカに一致する場合に、その実在のスピーカ単独に前記第１音信号を出力する処理を含む、
　請求項１１乃至請求項１４のいずれか１項に記載の音信号処理装置。
　ユーザから位置情報を受け付ける位置情報受付部を備え、
　前記定位処理は、受け付けた前記位置情報の位置に前記第１音信号を定位させる、
　請求項１１乃至請求項１５のいずれか１項に記載の音信号処理装置。
　前記定位処理は、パニング処理とエフェクト処理により前記仮想スピーカを実現する、
　請求項１１乃至請求項１６のいずれか１項に記載の音信号処理装置。
　ユーザから座席位置の指定情報を受け付ける座席指定受付部を備え、
　前記信号処理部は、前記座席位置の指定情報に基づいて前記パニング処理および前記エフェクト処理の内容を変更する、
　請求項１７に記載の音信号処理装置。
　前記エフェクト処理は、ディレイ、イコライザ、またはリバーブを含む、
　請求項１７または請求項１８に記載の音信号処理装置。
　前記分散処理は前記第２音信号の出力タイミングの調整を含む、
　請求項１１乃至請求項１９のいずれか１項に記載の音信号処理装置。