WO2016039168A1

WO2016039168A1 - 音声処理装置および方法

Info

Publication number: WO2016039168A1
Application number: PCT/JP2015/074340
Authority: WO
Inventors: 梨恵春日; 弘行福地; 竜二徳永; 吉村　正樹
Original assignee: ソニー株式会社
Priority date: 2014-09-12
Filing date: 2015-08-28
Publication date: 2016-03-17
Also published as: JP6683617B2; JPWO2016039168A1; US20170257721A1; CN106688252A; CN106688252B

Abstract

　本開示は、容易に音像の定位位置を変化させることができるようにする音声処理装置および方法に関する。係数演算部２３は、遅延部２２からの音声信号Ls,L,C,R,Rsに対して、制御部２１によりそれぞれのチャンネルに対して設定された係数k_Ls,係数k_L,係数k_C,係数k_R,係数k_Rsを増減する。分配部は、係数演算部からの音声信号Cを2チャンネル出力になるように分配し、分配した音声信号Cにdelay_αをかけたものを、Lチャンネルの合成部に出力し、分配した音声信号Cにdelay_βをかけたものを、Rチャンネルの合成部に出力する。本開示は、例えば、２チャンネル以上のチャンネルの音声信号を、２チャンネルにダウンミックスするダウンミックス装置に適用することができる。

Description

音声処理装置および方法

　本開示は、音声処理装置および方法に関し、特に、容易に音像の定位位置を変化させることができるようにした音声処理装置および方法に関する。

　日本のデジタル放送においては、受信機が行う5.1chサラウンドからステレオ2chへのダウンミックスアルゴリズムが規定されている（非特許文献１乃至３参照）。

"Multichannel stereophonic sound system with and without accompanying picture", ITU‐R勧告BS.775,2012,08 "「デジタル放送用受信装置（望ましい仕様）」", ARIB STD‐B21, 1999年10月26日 "「デジタル放送における映像符号化、音声符号化及び多重化方式」", ARIB STD‐B32, 2001年5月31日

　しかしながら、上記規格においては、ダウンミックス処理後に音像の定位位置を変化させるのが難しかった。

　本開示は、このような状況に鑑みてなされたものであり、容易に音像の定位位置を変化させることができるものである。

　本開示の第１の側面の音声処理装置は、入力される２チャンネル以上の音声信号にチャンネル毎に遅延をかける遅延部と、前記遅延の値を設定する設定部と、前記遅延部により遅延がかけられた音声信号を合成して、出力チャンネルの音声信号を出力する合成部とを備える。

　本開示の第１の側面の音声処理方法は、音声処理装置が、入力される２チャンネル以上の音声信号にチャンネル毎に遅延をかけ、前記遅延の値を設定し、前記遅延がかけられた音声信号を合成して、出力チャンネルの音声信号を出力する。

　本開示の第２の側面の音声処理装置は、入力される２チャンネル以上の音声信号にチャンネル毎に遅延をかける遅延部と、前記遅延部により遅延がかけられた音声信号の振幅の増減を調整する調整部と、前記遅延の値と前記増減を示す係数値とを設定する設定部と、前記調整部により振幅の増減が調整された音声信号を合成して、出力チャンネルの音声信号を出力する合成部とを備える。

　前記設定部は、前記遅延の値と前記係数値と連動して設定することができる。

　前記設定部は、リスニングポジションに対して、音像を前方に定位させる場合、音が大きくなるように前記係数値を設定し、音像を後方に定位させる場合、音が小さくなるように前記係数値を設定することができる。

　前記調整部により振幅の増減が調整された音声信号を補正する補正部をさらに備えることができる。

　前記補正部は、前記調整部により振幅の増減が調整された音声信号のレベルを調整することができる。

　前記補正部は、前記調整部により振幅の増減が調整された音声信号にミュートを行うことができる。

　本開示の第２の側面の音声処理方法は、音声処理装置が、入力される２チャンネル以上の音声信号にチャンネル毎に遅延をかけ、前記遅延がかけられた音声信号の振幅の増減を調整し、前記遅延の値と前記増減を示す係数値とを設定し、前記振幅の増減が調整された音声信号を合成して、出力チャンネルの音声信号を出力する。

　本開示の第３の側面の音声処理装置は、入力される２チャンネル以上の音声信号のうち、少なくとも１つのチャンネルの音声信号に遅延をかけて、２チャンネル以上の出力チャンネルに分配する分配部と、入力される音声信号と、前記分配部により分配された音声信号とを合成して、前記出力チャンネルの音声信号を出力する合成部と、前記遅延の値を、前記出力チャンネル毎に設定する設定部とを備える。

　前記設定部は、haas効果が得られるように、前記遅延の値を設定することができる。

　本開示の第３の側面の音声処理方法は、音声処理装置が、入力される２チャンネル以上の音声信号のうち、少なくとも１つのチャンネルの音声信号に遅延をかけて、２チャンネル以上の出力チャンネルに分配し、入力される音声信号と、分配された音声信号とを合成して、前記出力チャンネルの音声信号を出力し、前記遅延の値を、前記出力チャンネル毎に設定する。

　本開示の第１の側面においては、入力される２チャンネル以上の音声信号にチャンネル毎に遅延がかけられ、前記遅延の値が設定される。また、前記遅延がかけられた音声信号を合成して、出力チャンネルの音声信号が出力される。

　本開示の第２の側面においては、入力される２チャンネル以上の音声信号にチャンネル毎に遅延がかけられ、前記遅延がかけられた音声信号の振幅の増減が調整される。また、前記遅延の値と前記増減を示す係数値とが設定され、前記振幅の増減が調整された音声信号を合成して、出力チャンネルの音声信号が出力される。

　本開示の第３の側面においては、入力される２チャンネル以上の音声信号のうち、少なくとも１つのチャンネルの音声信号に遅延がかけられ、２チャンネル以上の出力チャンネルに分配され、入力される音声信号と、分配された音声信号とが合成されて、前記出力チャンネルの音声信号が出力される。また、前記遅延の値が、前記出力チャンネル毎に設定される。

　本開示によれば、音像の定位位置を変化させることができる。特に、容易に音像の定位位置を変化させることができる。

　なお、本明細書に記載された効果は、あくまで例示であり、本技術の効果は、本明細書に記載された効果に限定されるものではなく、付加的な効果があってもよい。

本技術を適用したダウンミックス装置の構成例を示すブロック図である。 Haas効果について説明する図である。テレビジョン装置のスピーカ設置位置と視聴距離を説明する図である。テレビジョン装置のスピーカ設置位置と視聴距離の例を示す図である。テレビジョン装置のスピーカ設置位置と視聴距離を説明する図である。テレビジョン装置のスピーカ設置位置と視聴距離の例を示す図である。遅延なしの場合の音声波形を示す図である。遅延ありの場合の音声波形を示す図である。音声信号処理について説明するフローチャートである。前後の定位について説明する図である。前後の定位について説明する図である。前後の定位について説明する図である。前後の定位について説明する図である。前後の定位について説明する図である。左右の定位について説明する図である。左右の定位について説明する図である。左右の定位について説明する図である。左右の定位の他の例について説明する図である。本技術を適用したダウンミックス装置の他の構成例を示すブロック図である。音声信号処理について説明するフローチャートである。コンピュータの構成例を示すブロック図である。

　以下、本開示を実施するための形態（以下実施の形態とする）について説明する。なお、説明は以下の順序で行う。
１．第１の実施の形態（ダウンミックス装置の構成）
２．第２の実施の形態（前後の定位）
３．第３の実施の形態（左右の定位）
４．第４の実施の形態（ダウンミックス装置の他の構成）
５．第５の実施の形態（コンピュータ）

＜第１の実施の形態＞
　＜装置の構成例＞
　図１は、本技術を適用した音声処理装置としてのダウンミックス装置の構成例を示すブロック図である。

　図１の例において、ダウンミックス装置１１は、遅延回路を有することが特徴であり、チャンネル毎に設定することが可能である。図１の例においては、5チャンネルから2チャンネルへのダウンミックス処理を行う場合の構成例が示されている。

　すなわち、ダウンミックス装置１１には、５つの音声信号Ls,L,C,R,Rsが入力され、２つのスピーカ１２Lおよび１２Rが備えられる。なお、Ls,L,C,R,Rsは、それぞれ、左サラウンド、左、中央、右、右サラウンドを示している。

　ダウンミックス装置１１は、制御部２１、遅延部２２、係数演算部２３、分配部２４、合成部２５Lおよび２５R、並びにレベル調整部２６Lおよび２６Rを含むように構成されている。

　制御部２１は、遅延部２２、係数演算部２３、および分配部２４の遅延の値や係数の値をチャンネル毎や左右の定位に応じて設定する。また、制御部２１は、遅延の値と係数の値とを連動して変化させることもできる。

　遅延部２２は、遅延回路であり、入力されてくる音声信号Ls,L,C,R,Rsに対して、制御部２１によりそれぞれのチャンネルに対して設定されたdelay_Ls、delay_L、delay_C、delay_R、delay_Rsをそれぞれかける。これにより、仮想スピーカの位置（音像の位置）が前後に定位される。なお、delay_Ls、delay_L、delay_C、delay_R、delay_Rsは、それぞれ遅延の値である。

　遅延部２２は、チャンネル毎に遅延されたそれぞれの信号を、係数演算部２３に出力する。なお、遅延が必要のないものについては遅延をかける必要がないので、そのまま係数演算部２３にスルーされる。

　係数演算部２３は、遅延部２２からの音声信号Ls,L,C,R,Rsに対して、制御部２１によりそれぞれのチャンネルに対して設定されたk_Ls、k_L、k_C、k_R、k_Rsを増減する。係数演算部２３は、チャンネル毎に係数が演算されたそれぞれの信号を、分配部２４に出力する。なお、k_Ls、k_L、k_C、k_R、k_Rsは、それぞれ係数の値である。

　分配部２４は、係数演算部２３からの音声信号Lsと音声信号Lとをそのまま合成部２５Lに出力する。分配部２４は、係数演算部２３からの音声信号Rsと音声信号Rとをそのまま合成部２５Rに出力する。

　さらに、分配部２４は、係数演算部２３からの音声信号Cを2チャンネル出力になるように分配し、分配した音声信号Cにdelay_αをかけたものを、合成部２５Lに出力し、分配した音声信号Cにdelay_βをかけたものを、合成部２５Rに出力する。

　なお、delay_αおよびdelay_βは、遅延の値であり、同じ値でも構わないが、異なる値に設定することで、後述するHaas効果を得ることができ、仮想スピーカの位置を左右に定位することができる。なお、この例においては、Cチャンネルを左右に定位させている。

　合成部２５Lは、分配部２４からの音声信号Ls、音声信号L、音声信号Cにdelay_αをかけたものを合成して、レベル調整部２６Lに出力する。合成部２５Rは、分配部２４からの音声信号Rs、音声信号R、音声信号Cにdelay_βをかけたものを合成して、レベル調整部２６Rに出力する。

　レベル調整部２６Lは、合成部２５Lからの音声信号を補正する。具体的には、レベル調整部２６Lは、音声信号の補正として、合成部２５Lからの音声信号をレベル調整し、レベル調整した音声信号をスピーカ１２Lに出力する。レベル調整部２６Rは、合成部２５Rからの音声信号を補正する。具体的には、レベル調整部２６Rは、音声信号の補正として、音声信号をレベル調整し、レベル調整した音声信号をスピーカ１２Rに出力する。なお、このレベル調整の一例としては、特開２０１０－００３３３５に記載されているものが用いられる。

　スピーカ１２Lは、レベル調整部２６Lからの音声信号に対応する音声を出力する。スピーカ１２Rは、レベル調整部２６Rからの音声信号に対応する音声を出力する。

　以上のように、音声信号の数を減らすための音声信号の合成処理に、遅延回路を用いることにより、仮想スピーカの位置を、前後左右の好みの位置に定位させることができる。

　また、遅延の値や係数の値は、固定化することもできるし、時間的に連続して変化させることもできる。さらに、制御部２１により遅延の値と係数の値とを連動して変化させることにより、聴覚的に仮想スピーカの位置を所望の位置に定位させることが可能である。

　＜Haas効果の概要＞
　次に、図２を参照して、Haas効果について説明する。図２の例において、スピーカ１２Lおよびスピーカ１２Rが示される位置は、それぞれが配置されるスピーカ位置を表している。

　左に設けられたスピーカ１２Lと、右に設けられたスピーカ１２Rとからの距離が同じ位置で、ユーザは、両方のスピーカからの同じ音声を聞いているとする。このとき、例えば、スピーカ１２Lから聞こえる音声信号に遅延を加えると、スピーカ１２Rの方向から聞こえるように知覚する。すなわち、スピーカ１２R側に音源があるように聞こえる。

　このような効果をHaas効果といい、遅延を用いることで、左右の位置を定位させることができる。

　＜距離、振幅と遅延の関係＞
　次に、音の大きさの変化について説明する。ユーザが聞いている位置（以下、リスニングポジションと称する）から、音像の距離が遠くなると、音は小さく聞こえ、音像が近くなると音は大きく聞こえる。すなわち、音像が遠くなると聞こえた音声信号の振幅は小さくなり、近くなると音声信号の振幅は大きくなる。

　図３は、おおよそのテレビジョン装置のスピーカ設置位置と視聴距離を表している。図３の例において、スピーカ１２Lおよびスピーカ１２Rが示される位置は、それぞれが配置されるスピーカ位置を表しており、Cが示される位置は、Cチャンネルの音像位置（仮想スピーカ位置）を表している。また、Cチャンネルの音像Cが中央にあるとすると、左側のスピーカ１２Lは、Cチャンネルの音像Cから左に30cm離れた位置に設置されている。右側のスピーカ１２Rは、Cチャンネルの音像Cから右に30cm離れた位置に設置されている。

　そして、顔のイラストで示されるユーザのリスニングポジションは、Cチャンネルの音像Cから前方に100cm離れており、左側のスピーカ１２Lおよび右側のスピーカ１２Rからも100cm離れている。すなわち、Cチャンネル、左側のスピーカ１２Lおよび右側のスピーカ１２Rは、同心円状に配置されている。なお、特に言及しない限り、以下の説明においても、スピーカおよび仮想スピーカは同心円状に配置されているものとする。

　図４の例においては、図３の例のスピーカ設置位置と視聴距離の場合に、Cチャンネルの音像Cを前方（図中矢印F側）または後方（図中矢印B側）に変化させると、振幅と遅延の増減がどのくらい変化するのかを計算によって求めたものが示されている。

　すなわち、図３の配置において、Cチャンネルの音像Cを前方（矢印F側）に2cm変化させた場合、-0.172dB振幅の増減があり、-0.065msec遅延がある。前方に4cm変化させた場合、-0.341dB振幅の増減があり、-0.130msec遅延がある。前方に6cm変化させた場合、-0.506dB振幅の増減があり、-0.194msec遅延がある。前方に8cm変化させた場合、-0.668dB振幅の増減があり、-0.259msec遅延がある。前方に10cm変化させた場合、-0.828dB振幅の増減があり、-0.324msec遅延がある。

　また、図３の配置において、Cチャンネルの音像Cを後方（矢印B側）に2cm変化させた場合、-0.175dB振幅の増減があり、0.065msec遅延がある。後方に4cm変化させた場合、0.355dB振幅の増減があり、0.130msec遅延がある。後方に6cm変化させた場合、0.537dB振幅の増減があり、0.194msec遅延がある。後方に8cm変化させた場合、0.724dB振幅の増減があり、0.259msec遅延がある。後方に10cm変化させた場合、0.915dB振幅の増減があり、0.324msec遅延がある。

　図５は、おおよそのテレビジョン装置のスピーカ設置位置と視聴距離の他の例を表している。図５の例において、Cチャンネルの音像Cが中央にあるとすると、左側のスピーカ１２Lは、Cチャンネルの音像Cから左に50cm離れた位置に設置されている。右側のスピーカ１２Rは、Cチャンネルの音像Cから右に50cm離れた位置に設置されている。

　そして、ユーザのリスニングポジションは、Cチャンネルの音像Cから前方に200cm離れており、左側のスピーカ１２Lおよび右側のスピーカ１２Rからも200cm離れている。すなわち、図３の例の場合と同様に、Cチャンネル、左側のスピーカ１２Lおよび右側のスピーカ１２Rは、同心円状に配置されている。なお、特に言及しない限り、以下の説明においても、スピーカおよび仮想スピーカは同心円状に配置されているものとする。

　図６の例においては、図５の例のスピーカ設置位置と視聴距離の場合に、Cチャンネルの音像Cを前方（矢印F側）または後方（矢印B側）に変化させると、振幅と遅延の増減がどのくらい変化するのかを計算によって求めたものが示されている。

　すなわち、図５の配置において、Cチャンネルの音像Cを前方（矢印F側）に2cm変化させた場合、-0.0086dB振幅の増減があり、-0.065msec遅延がある。前方に4cm変化させた場合、-0.172dB振幅の増減があり、-0.130msec遅延がある。前方に6cm変化させた場合、-0.257dB振幅の増減があり、-0.194msec遅延がある。前方に8cm変化させた場合、-0.341dB振幅の増減があり、-0.259msec遅延がある。前方に10cm変化させた場合、-0.424dB振幅の増減があり、-0.324msec遅延がある。

　また、図５の配置において、Cチャンネルの音像Cを後方（矢印B側）に2cm変化させた場合、-0.087dB振幅の増減があり、0.065msec遅延がある。後方に4cm変化させた場合、0.175dB振幅の増減があり、0.130msec遅延がある。後方に6cm変化させた場合、0.265dB振幅の増減があり、0.194msec遅延がある。後方に8cm変化させた場合、0.355dB振幅の増減があり、0.259msec遅延がある。後方に10cm変化させた場合、0.446dB振幅の増減があり、0.324msec遅延がある。

　以上のように、音像が遠くなると聞こえた音声信号の振幅は小さくなり、近くなると音声信号の振幅は大きくなる。したがって、このようにして遅延と振幅の係数とを連動して変化させることにより、聴覚的に仮想スピーカの位置を定位させることができることがわかる。

　＜レベル調整＞
　次に、図７および図８を参照して、レベル調整について説明する。

　図７は、遅延なしの場合のダウンミックス前後の音声波形の例を示す図である。図７の例においては、XとYは、各チャンネルの音声波形であり、Zは、XとYの波形の音声信号をダウンミックスした音声波形である。

　図８は、遅延ありの場合のダウンミックス前後の音声波形の例を示す図である。すなわち、図８の例においては、PとQは、各チャンネルの音声波形であり、Qは、遅延が加えられている。そして、Rは、PとQの波形の音声信号をダウンミックスした音声波形である。

　図７の遅延なしの場合、問題なくダウンミックスが行われている。これに対して、図８の遅延有りの場合、遅延を用いることで、ダウンミックスの時間位置がずれるため、ダウンミックス（合成部２５Lおよび２５R）後の音の大きさが音源制作者の想定していなかったものになる恐れがある。この場合、Rの一部振幅が大きくなりすぎ、ダウンミックス後の音に、オーバーフローが発生してしまう。

　そこで、レベル調整部２６Lおよび２６Rにおいては、信号のレベル調整を行うことで、オーバーフローを抑制している。

　＜音声信号処理＞
　次に、図９のフローチャートを参照して、図１のダウンミックス装置１１によるダウンミックス処理について説明する。なお、ダウンミックス処理は、音声信号処理の１つの例である。

　制御部２１は、ステップＳ１１において、係数演算部２３、および分配部２４の遅延delayや係数kの値をチャンネル毎や左右の定位に応じて設定する。

　遅延部２２には、音声信号Ls,L,C,R,Rsが入力されてくる。遅延部２２は、ステップＳ１２において、入力された音声信号に対して、チャンネル毎に遅延をかけることにより、仮想スピーカ位置を前後に定位させる。

　すなわち、遅延部２２は、入力されてくる音声信号Ls,L,C,R,Rsに対して、制御部２１によりそれぞれのチャンネルに対して設定されたdelay_Ls、delay_L1、delay_C、delay_R、delay_Rsをそれぞれかける。これにより、仮想スピーカの位置（音像の位置）が前後に定位される。なお、前後の定位の詳細は、図１０以降に後述する。

　遅延部２２は、チャンネル毎に遅延されたそれぞれの信号を、係数演算部２３に出力する。係数演算部２３は、ステップＳ１３において、係数で振幅の増減を調整する。

　すなわち、係数演算部２３は、遅延部２２からの音声信号Ls,L,C,R,Rsに対して、制御部２１によりそれぞれのチャンネルに対して設定されたk_Ls、k_L、k_C、k_R、k_Rsを増減する。係数演算部２３は、チャンネル毎に係数が演算されたそれぞれの信号を、分配部２４に出力する。

　分配部２４は、ステップＳ１４において、入力されてくる所定の音声信号のうち、少なくとも１つの音声信号を、出力チャンネル数に分配し、分配された音声信号に対して、出力チャンネル毎に遅延をかけることにより、仮想スピーカ位置を左右に定位させる。なお、左右の定位の詳細は、図１５以降に後述する。

　すなわち、分配部２４は、係数演算部２３からの音声信号Lsと音声信号Lとをそのまま合成部２５Lに出力する。分配部２４は、係数演算部２３からの音声信号Rsと音声信号Rとをそのまま合成部２５Rに出力する。

　合成部２５Lおよび合成部２５Rは、ステップＳ１５において、音声信号を合成する。合成部２５Lは、分配部２４からの音声信号Ls、音声信号L、音声信号Cにdelay_αをかけたものを合成して、レベル調整部２６Lに出力する。合成部２５Rは、分配部２４からの音声信号Rs、音声信号R、音声信号Cにdelay_βをかけたものを合成して、レベル調整部２６Rに出力する。

　レベル調整部２６Lおよびレベル調整部２６Rは、ステップＳ１６において、合成部２５Lおよび合成部２５Rからの音声信号をそれぞれレベル調整し、レベル調整した音声信号をスピーカ１２Lにそれぞれ出力する。

　スピーカ１２Lおよび１２Rは、ステップ１７において、レベル調整部２６Lおよびレベル調整部２６Rからの音声信号に対応する音声をそれぞれ出力する。

　以上のように、ダウンミックス処理、すなわち、音声信号の数を減らすための音声信号の合成処理に、遅延回路を用いることにより、仮想スピーカの位置を、前後左右の好みの位置に定位させることができる。

　また、遅延の値や係数の値は、固定化することもできるし、時間的に連続して変化させることもできる。さらに、制御部２１により遅延の値と係数の値とを連動して変化させることにより、聴覚的に仮想スピーカの位置をうまく定位させることが可能である。

＜第２の実施の形態＞
　＜前後の定位の例＞
　次に、図１０乃至図１４を参照して、図９のステップＳ１２の遅延部２２による前後の定位について詳しく説明する。

　図１０の例においては、上の段のL、C、Rは、L、C、Rの音声信号を表している。下の段のL’、R’は、ダウンミックスした後のL,Rの音声信号であり、その位置は、スピーカ１２Lと１２Rの位置をそれぞれ示している。下の段のCは、Cチャンネルの音像位置（仮想スピーカ位置）を示している。なお、図１１および図１３の例においても同様である。

　すなわち、L、C、Rからなる３チャンネルから、L’、R’の２チャンネルにダウンミックスする例、換言するに、L、C、Rの任意のチャンネルの音声信号に遅延（delay）をかけることで、Cチャンネルの音像を前後に定位させる例を説明する。

　まず、図１１の例においては、Cチャンネルの音像を、図１０で示された位置から後方に30cmずらす例が示されている。その際、遅延部２２は、Cチャンネルの音声信号のみに、距離に相当した遅延の値（delay）をかける。なお、delayは、同じ値である。これにより、Cチャンネルの音像が30cm後方に定位される。

　また、図１１の右側においては、上から順に、入力信号L、C、Rの波形、２チャンネルにダウンミックスしたR’とL’の波形、さらに、Cチャンネルの音像を30cm後方にずらしたR’とL’の波形が示されている。

　なお、２チャンネルにダウンミックスだけ行ったR’とL’の波形、さらに、Cチャンネルの音像を30cm後方にずらした（すなわち、遅延をかけた）R’とL’の波形を拡大した波形を拡大したものが、図１２に示されている。

　図１２の例においては、上段は、遅延を入れずに足した音声信号であり、下段が、Cチャンネルに遅延をかけたときの波形である。比較すると、上段より下段の音声信号が時間的に遅れている（すなわち、C成分が遅延している）ことがわかる。

　次に、図１３の例においては、Cチャンネルの音像を、図１０で示された位置から前方に30cmずらす例が示されている。その際、遅延部２２は、LチャンネルとRチャンネルの音声信号に、距離に相当した遅延の値（delay）をかける。なお、delayは、同じ値である。これにより、Cチャンネルの音像が30cm前方に定位される。

　また、図１３の右側においては、上から順に、入力信号L、C、Rの波形、２チャンネルにダウンミックスしたR’とL’の波形、さらに、Cチャンネルの音像を30cm前方にずらしたR’とL’の波形が示されている。

　なお、２チャンネルにダウンミックスだけ行ったR’とL’の波形、さらに、Cチャンネルの音像を30cm前方にずらした（すなわち、LとRに遅延をかけた）R’とL’の波形を拡大した波形を拡大したものが、図１４に示されている。ただし、拡大の箇所は、L’成分のみが存在する箇所である。

　図１４の例においては、上段は、遅延を入れずに足した音声信号であり、下段が、LとRチャンネルに遅延をかけたときの波形である。比較すると、上段より下段の音声信号が時間的に遅れている（すなわち、R’とL’成分が遅延している）ことがわかる。

　以上のように、ダウンミックス時に遅延を用いることで、音像を前後に定位させることができる。すなわち、音像の定位位置を前後に変化させることができる。

＜第３の実施の形態＞
　＜左右の定位の例＞
　次に、図１５乃至図１７を参照して、図９のステップＳ１４の分配部２４による左右の定位について詳しく説明する。

　図１５の例においては、上の段のL、C、Rは、L、C、Rの音声信号を表している。下の段のL’、R’は、ダウンミックスした音声信号であり、その位置は、スピーカ１２Lと１２Rの位置をそれぞれ示している。下の段のCは、Cチャンネルの音像位置（仮想スピーカ位置）を示している。なお、図１６および図１７の例においても同様である。

　すなわち、L、C、Rからなる３チャンネルから、L’、R’の２チャンネルにダウンミックスする例、換言するに、L、C、Rの任意のチャンネルの音声信号に遅延の値（delay）をかける。これにより、上述したHaas効果である、Cチャンネルの音像を左右に定位させる例を説明する。

　まず、図１６の例においては、Cチャンネルの音像を、図１０で示された位置からL’側方向にずらす例が示されている。その際、遅延部２２は、R’に合成されるCチャンネルの音声信号のみに、距離に相当したdelayβをかける。これにより、Cチャンネルの音像がL側方向に定位される。

　また、図１６の右側において、上段は、２チャンネルにダウンミックスだけ行ったR’とL’の波形であり、下段は、R’のみを遅延させたR’とL’の波形である。比較すると、R’の音声信号がL’の音声信号より遅延していることがわかる。

　次に、図１７の例においては、Cチャンネルの音像を、図１０で示された位置からR’側方向にずらす例が示されている。その際、遅延部２２は、L’に合成されるCチャンネルの音声信号のみに、距離に相当したdelayαをかける。これにより、Cチャンネルの音像がR側方向に定位される。

　また、図１７の右側において、上段は、２チャンネルにダウンミックスだけ行ったR’とL’の波形であり、下段は、L’のみを遅延させたR’とL’の波形である。比較すると、L’の音声信号がR’の音声信号より遅延していることがわかる。

　＜変形例＞
　図１８を参照して、左右の定位の他の例について説明する。図１８は、Ls,L,Lc,C,Rc,R,Rsからなる７チャンネルから、Lo,Roの２チャンネルにダウンミックスを行う例が示す図である。図１８の例においては、Ls,L,R,Rsの音声信号の係数がk=1.0であり、分配した各Lc,分配した各Rc,およびCの音声信号の係数がk4=1/ルート2である例が示されている。

　図１８の例においては、Lc,Rcのチャンネルに任意の遅延をかけると、LcとRcの音像を左右に定位できる。これもHaas効果を用いた音像の左右方向の定位である。

　なお、左右方向の定位は、上述した係数（図中示されるk）を変化させることでも行うことができる。ただし、その場合、パワーが一定にならないことがある。それに対して、Haas効果を利用することで、パワーを一定に保つことができ、係数も変化させる必要がなくなる。

　以上のように、ダウンミックス時に遅延を用い、Haas効果を利用することで、音像を左右に定位させることができる。すなわち、音像の定位位置を左右に変化させることができる。

＜第４の実施の形態＞
　＜装置の構成例＞
　図１９は、本技術を適用した音声処理装置としてのダウンミックス装置の他の構成例を示すブロック図である。

　図１９のダウンミックス装置１０１は、制御部２１、遅延部２２、係数演算部２３、分配部２４、合成部２５Lおよび２５Rを備える点は、図１のダウンミックス装置１１と共通している。

　図１９のダウンミックス装置１０１は、レベル調整部２６Lおよび２６Rと、ミュート回路１１１Lおよび１１１Rとが入れ替わった点のみが図１のダウンミックス装置１１と異なっている。

　すなわち、ミュート回路１１１Lは、合成部２５Lからの音声信号の補正として、音声信号に対してミュートを行い、ミュートを行った音声信号をスピーカ１２Lに出力する。ミュート回路１１１Rは、合成部２５Rからの音声信号の補正として、音声信号に対してミュートを行い、ミュートを行った音声信号をスピーカ１２Rに出力する。

　これにより、例えば、再生中に、遅延の値と係数の値とを変更する場合、出力信号に乗る恐れがあった雑音が出力されないように制御することができる。

　次に、図２０のフローチャートを参照して、図１９のダウンミックス装置１０１によるダウンミックス処理について説明する。なお、図２０のステップＳ１１１乃至Ｓ１１５は、図９のステップＳ１１乃至Ｓ１５と基本的に同様の処理を行うので、その説明は省略する。

　ミュート回路１１１Lおよびミュート回路１１１Rは、ステップＳ１１６において、合成部２５Lおよび合成部２５Rからの音声信号にそれぞれミュートを行い、ミュートを行った音声信号をスピーカ１２Lおよびスピーカ１２Rにそれぞれ出力する。

　スピーカ１２Lおよびスピーカ１２Rは、ステップＳ１１７において、ミュート回路１１１Lおよびミュート回路１１１Rからの音声信号に対応する音声をそれぞれ出力する。

　これにより、遅延の値と係数の値を変更することで乗ってしまう恐れのある雑音の出力を抑制することができる。

　なお、上記説明においては、ダウンミックス装置に、音声信号の補正を行う部として、レベル調整部またはミュート回路のどちらか一方が構成される例を説明したが、レベル調整部とミュート回路の両方を構成するようにしてもよい。その場合、レベル調整部とミュート回路の構成の順番は問わない。

　また、入力チャンネル数は、２チャンネル以上であればよく、上述した５チャンネルや７チャンネルに限定されない。さらに、出力チャンネル数も２チャンネル以上であればよく、上述した２チャンネルに限定されない。

　上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な汎用のパーソナルコンピュータなどが含まれる。

＜第５の実施の形態＞
　＜コンピュータの構成例＞
　図２１は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

　コンピュータ２００において、CPU(Central Processing Unit)２０１、ROM(Read Only Memory)２０２、RAM(Random Access Memory)２０３は、バス２０４により相互に接続されている。

　バス２０４には、さらに、入出力インタフェース２０５が接続されている。入出力インタフェース２０５には、入力部２０６、出力部２０７、記憶部２０８、通信部２０９、およびドライブ２１０が接続されている。

　入力部２０６は、キーボード、マウス、マイクロホンなどよりなる。出力部２０７は、ディスプレイ、スピーカなどよりなる。記憶部２０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部２０９は、ネットワークインタフェースなどよりなる。ドライブ２１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体２１１を駆動する。

　以上のように構成されるコンピュータでは、CPU２０１が、例えば、記憶部２０８に記憶されているプログラムを入出力インタフェース２０５及びバス２０４を介してRAM２０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU２０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体２１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体２１１をドライブ２１０に装着することにより、入出力インタフェース２０５を介して、記憶部２０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部２０９で受信し、記憶部２０８にインストールすることができる。その他、プログラムは、ROM２０２や記憶部２０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本明細書において、システムの用語は、複数の装置、ブロック、手段などにより構成される全体的な装置を意味するものである。

　なお、本開示における実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有するであれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例また修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　なお、本技術は以下のような構成も取ることができる。
　（１）　入力される２チャンネル以上の音声信号にチャンネル毎に遅延をかける遅延部と、
　前記遅延の値を設定する設定部と、
　前記遅延部により遅延がかけられた音声信号を合成して、出力チャンネルの音声信号を出力する合成部と
　を備える音声処理装置。
　（２）　音声処理装置が、
　入力される２チャンネル以上の音声信号にチャンネル毎に遅延をかけ、
　前記遅延の値を設定し、
　前記遅延がかけられた音声信号を合成して、出力チャンネルの音声信号を出力する
　音声処理方法。
　（３）　入力される２チャンネル以上の音声信号にチャンネル毎に遅延をかける遅延部と、
　前記遅延部により遅延がかけられた音声信号の振幅の増減を調整する調整部と、
　前記遅延の値と前記増減を示す係数値とを設定する設定部と、
　前記調整部により振幅の増減が調整された音声信号を合成して、出力チャンネルの音声信号を出力する合成部と
　を備える音声処理装置。
　（４）　前記設定部は、前記遅延の値と前記係数値と連動して設定する
　前記（３）に記載の音声処理装置。
　（５）　前記設定部は、リスニングポジションに対して、音像を前方に定位させる場合、音が大きくなるように前記係数値を設定し、音像を後方に定位させる場合、音が小さくなるように前記係数値を設定する
　前記（３）または（４）に記載の音声処理装置。
　（６）　前記調整部により振幅の増減が調整された音声信号を補正する補正部を
　さらに備える
　前記（３）乃至（５）のいずれかに記載の音声処理装置。
　（７）　前記補正部は、前記調整部により振幅の増減が調整された音声信号のレベルを調整する
　前記（６）に記載の音声処理装置。
　（８）　前記補正部は、前記調整部により振幅の増減が調整された音声信号にミュートを行う
　前記（６）に記載の音声処理装置。
　（９）　音声処理装置が、
　入力される２チャンネル以上の音声信号にチャンネル毎に遅延をかけ、
　前記遅延がかけられた音声信号の振幅の増減を調整し、
　前記遅延の値と前記増減を示す係数値とを設定し、
　前記振幅の増減が調整された音声信号を合成して、出力チャンネルの音声信号を出力する
　音声処理方法。
　（１０）　入力される２チャンネル以上の音声信号のうち、少なくとも１つのチャンネルの音声信号に遅延をかけて、２チャンネル以上の出力チャンネルに分配する分配部と、
　入力される音声信号と、前記分配部により分配された音声信号とを合成して、前記出力チャンネルの音声信号を出力する合成部と、
　前記遅延の値を、前記出力チャンネル毎に設定する設定部と
　を備える音声処理装置。
　（１１）　前記設定部は、haas効果が得られるように、前記遅延の値を設定する
　前記（１０）に記載の音声処理装置。
　（１２）　音声処理装置が、
　入力される２チャンネル以上の音声信号のうち、少なくとも１つのチャンネルの音声信号に遅延をかけて、２チャンネル以上の出力チャンネルに分配し、
　入力される音声信号と、前記分配部により分配された音声信号とを合成して、前記出力チャンネルの音声信号を出力し、
　前記遅延の値を、前記出力チャンネル毎に設定する
　音声処理方法。

　１１　ダウンミックス装置，　１２L,１２R　スピーカ,　２１　制御部，　２２　遅延部，　２３　係数演算部，　２４　分配部，　２５L,２５R　合成部，　２６L,２６R　レベル調整部，　１０１　ダウンミックス装置，　１１１L,１１１R　ミュート回路

Claims

　入力される２チャンネル以上の音声信号にチャンネル毎に遅延をかける遅延部と、
　前記遅延の値を設定する設定部と、
　前記遅延部により遅延がかけられた音声信号を合成して、出力チャンネルの音声信号を出力する合成部と
　を備える音声処理装置。
　音声処理装置が、
　入力される２チャンネル以上の音声信号にチャンネル毎に遅延をかけ、
　前記遅延の値を設定し、
　前記遅延がかけられた音声信号を合成して、出力チャンネルの音声信号を出力する
　音声処理方法。
　入力される２チャンネル以上の音声信号にチャンネル毎に遅延をかける遅延部と、
　前記遅延部により遅延がかけられた音声信号の振幅の増減を調整する調整部と、
　前記遅延の値と前記増減を示す係数値とを設定する設定部と、
　前記調整部により振幅の増減が調整された音声信号を合成して、出力チャンネルの音声信号を出力する合成部と
　を備える音声処理装置。
　前記設定部は、前記遅延の値と前記係数値と連動して設定する
　請求項３に記載の音声処理装置。
　前記設定部は、リスニングポジションに対して、音像を前方に定位させる場合、音が大きくなるように前記係数値を設定し、音像を後方に定位させる場合、音が小さくなるように前記係数値を設定する
　請求項４に記載の音声処理装置。
　前記調整部により振幅の増減が調整された音声信号を補正する補正部を
　さらに備える請求項３に記載の音声処理装置。
　前記補正部は、前記調整部により振幅の増減が調整された音声信号のレベルを調整する
　請求項６に記載の音声処理装置。
　前記補正部は、前記調整部により振幅の増減が調整された音声信号にミュートを行う
　請求項６に記載の音声処理装置。
　音声処理装置が、
　入力される２チャンネル以上の音声信号にチャンネル毎に遅延をかけ、
　前記遅延がかけられた音声信号の振幅の増減を調整し、
　前記遅延の値と前記増減を示す係数値とを設定し、
　前記振幅の増減が調整された音声信号を合成して、出力チャンネルの音声信号を出力する
　音声処理方法。
　入力される２チャンネル以上の音声信号のうち、少なくとも１つのチャンネルの音声信号に遅延をかけて、２チャンネル以上の出力チャンネルに分配する分配部と、
　入力される音声信号と、前記分配部により分配された音声信号とを合成して、前記出力チャンネルの音声信号を出力する合成部と、
　前記遅延の値を、前記出力チャンネル毎に設定する設定部と
　を備える音声処理装置。
　前記設定部は、haas効果が得られるように、前記遅延の値を設定する
　請求項１０に記載の音声処理装置。
　音声処理装置が、
　入力される２チャンネル以上の音声信号のうち、少なくとも１つのチャンネルの音声信号に遅延をかけて、２チャンネル以上の出力チャンネルに分配し、
　入力される音声信号と、前記分配部により分配された音声信号とを合成して、前記出力チャンネルの音声信号を出力し、
　前記遅延の値を、前記出力チャンネル毎に設定する
　音声処理方法。