WO2013145156A1

WO2013145156A1 - 音声信号処理装置及び音声信号処理プログラム

Info

Publication number: WO2013145156A1
Application number: PCT/JP2012/058140
Authority: WO
Inventors: 吉野　肇
Original assignee: パイオニア株式会社
Priority date: 2012-03-28
Filing date: 2012-03-28
Publication date: 2013-10-03

Abstract

　音声信号処理装置は、セリフなどの声成分を含む左右２チャンネルの音声信号を受け取り、声成分を分離する。声成分が分離された後の各チャンネルの信号に対して、所定のエフェクト処理が施される。そして、エフェクト処理がなされた後の各チャンネルの音声信号に、先に分離された声成分が加算され、出力される。これにより、セリフなどの声成分にエフェクト処理が施されることによる弊害が防止される。

Description

音声信号処理装置及び音声信号処理プログラム

　本発明は、声の成分を含む音声信号にエフェクト処理を施す手法に関する。

　特許文献１は、ボーカル信号と伴奏信号とを含む左右の２チャンネル音声信号からボーカル信号をキャンセルする回路を開示している。具体的には、左右の音声信号からそれぞれ低域信号、高域信号を抽出するとともに、左右の音声信号の差信号を生成することによりボーカル信号をキャンセルした中域信号を生成する。そして、それらの音声信号をミックスすることにより、ボーカル信号をキャンセルした伴奏信号を出力する。

　また、「ドルビープロロジック」、「ｄｔｓ　ｎｅｏ６」、「ｄｔｓ　ｎｅｏＸ」などは、フロントチャンネル信号からセリフを分離する能力を有する処理として知られている。

実開平５－６３１９７号公報

　特許文献１の方法では、中域について、Ｌチャンネルが（Ｌ－Ｒ）、Ｒチャンネルが（Ｒ－Ｌ）の差信号を生成しているので、ＬチャンネルとＲチャンネルの中域の信号が逆相関係となってしまう。中域は聴感上聴取者が最も敏感な帯域であり、その中域の信号が逆相関係になると、聴取者に違和感を与えてしまう。また、仮に逆相となるのを避けるために両チャンネルを（Ｌ－Ｒ）又は（Ｒ－Ｌ）のいずれか一方にした場合には、モノラル信号となってしまい、中域のステレオ感が無くなってしまう。

　一方、「ドルビープロロジック」、「ｄｔｓ　ｎｅｏ６」、「ｄｔｓ　ｎｅｏＸ」などの処理は、ＤＳＰなどでリアルタイム処理を行うにはかなりの処理量となり、ある程度大きなハードウェアの規模を必要とする。また、これらの処理は、セリフやボーカルを分離することが主たる目的であるので、セリフなどの分離性能が最終的な出力の性能に直接的に影響する。

　本発明が解決しようとする課題としては、上記のものが一例として挙げられる。本発明は、聴感上の品質を低下させることなく声成分を分離して声成分以外の成分にエフェクト処理を施す手法を提供することを目的とする。

　請求項１に記載の発明は、音声信号処理装置であって、声成分を含む２チャンネルの音声信号を受け取り、各チャンネルの音声信号から前記声成分を分離する声成分分離部と、前記声成分が分離された後の各チャンネルの音声信号に対してエフェクト処理を行うエフェクト処理部と、前記エフェクト処理後の各チャンネルの音声信号に、前記声成分分離部が分離した声成分を加算して出力する出力部と、を備えることを特徴とする。

　請求項９に記載の発明は、コンピュータを備える音声信号処理装置により実行される音声信号処理プログラムであって、声成分を含む２チャンネルの音声信号を受け取り、各チャンネルの音声信号から前記声成分を分離する声成分分離手段と、前記声成分が分離された後の各チャンネルの音声信号に対してエフェクト処理を行うエフェクト処理手段と、前記エフェクト処理後の各チャンネルの音声信号に、前記声成分分離手段が分離した声成分を加算して出力する出力手段、として前記コンピュータを機能させることを特徴とする。

実施例に係る音声信号処理装置の基本構成を示すブロック図である。声成分分離部の構成を示すブロック図である。分離処理部内の分離部の構成を示す図である。分離処理部内の声成分有無判定部の構成を示す図である。エフェクト処理部の一例の構成を示す図である。レベル比と加算係数との関係の一例を示す。フロントチャンネル信号、及び、サラウンドチャンネル信号に混合される信号の波形の例を示す。フロントチャンネル信号混合処理のフローチャートである。

　本発明の好適な実施形態では、音声信号処理装置は、声成分を含む２チャンネルの音声信号を受け取り、各チャンネルの音声信号から前記声成分を分離する声成分分離部と、前記声成分が分離された後の各チャンネルの音声信号に対してエフェクト処理を行うエフェクト処理部と、前記エフェクト処理後の各チャンネルの音声信号に、前記声成分分離部が分離した声成分を加算して出力する出力部と、を備える。

　上記の音声信号処理装置は、セリフなどの声成分を含む左右２チャンネルの音声信号を受け取り、声成分を分離する。声成分が分離された後の各チャンネルの音声信号に対して、所定のエフェクト処理が施される。エフェクト処理は、例えば反射音付加処理、残響付加処理、フロント信号をサラウンド信号に混合する処理などとすることができる。そして、エフェクト処理がなされた後の各チャンネルの音声信号に、先に分離された声成分が加算され、出力される。

　上記のようなエフェクト処理は、セリフなどの声成分に対して行われると、セリフが聞き取りにくいなどの理由で弊害となりうる。上記の音声信号処理装置では、声成分を分離した左右チャンネルの音声信号に対してエフェクト処理を行うので、そのような弊害を防止することができる。また、エフェクト処理後の左右チャンネル信号に、先に分離された声成分が加算されて出力されるので、声成分の分離処理に誤差が発生しても、その声成分が左右チャンネル信号に戻されることにより誤差がキャンセルされる構成となっている。よって、仮に声成分の分離性能が十分に高くない場合でも、それが最終的に出力される信号に直接的に悪影響を及ぼすことが無い。

　上記の音声信号処理装置の一態様では、前記声成分分離部は、各チャンネルの音声信号を低域成分と中高域成分とに分割する帯域分割部と、前記中高域成分から前記声成分を分離して出力する分離処理部と、前記声成分が分離された後の中高域成分に前記低域成分を加算して出力する加算部と、を備える。

　この態様では、各チャンネルの音声信号が低域成分と中高域成分とに帯域分割され、中高域成分から声成分が分離される。通常、セリフなどの声成分は左右のチャンネルに同相成分として含まれているので、同相信号を分離することにより声成分を分離することができる。しかし、音声信号の低域成分には、ベース音、バスドラム音などが同相成分として含まれている場合が多く、低域においても同相成分を分離すると、ベース音、バスドラム音などが分離されてしまい、エフェクト処理が施されなくなってしまう。そこで、中高域成分のみから同相成分である声成分を分離することにより、低域成分からベース音やバスドラム音などが分離されてしまうという不具合を防止することができる。

　上記の音声信号処理装置の他の一態様では、前記声成分分離部は、前記各チャンネルの音声信号に声成分があるか否かを判定する声成分有無判定部と、前記声成分があると判定されたときに、前記２チャンネルの音声信号の和の１／２を前記声成分として出力するとともに、前記各チャンネルの音声信号から前記声成分を減算して出力する分離部と、を備える。これにより、簡易な構成で、ステレオ信号を維持したまま、セリフなどの声成分を分離することが可能となる。また、声成分が無いときには、元の音声信号がそのまま後段のエフェクト処理に供されるので、弊害の無いエフェクト処理が可能となる。

　上記の音声信号処理装置の他の一態様では、前記声成分有無判定部は、前記２チャンネルの音声信号の和と差を算出し、得られた和と差を比較することにより声成分の有無を判定する。通常、セリフなどの声成分は左右チャンネル信号に同相で含まれているので、左右チャンネル信号の和信号と差信号を比較することにより、声成分の有無を判定することができる。

　上記の音声信号処理装置の他の一態様では、前記声成分有無判定部は、前記和と差の比較結果に基づいて０又は１の係数値を出力する係数値出力部と、前記係数値を０～１の間の連続値に変換する時定数回路と、を備え、前記分離部は、前記係数値と前記２チャンネルの音声信号の和の１／２との積を前記声成分として出力するとともに、前記各チャンネルの音声信号から前記声成分を減算して出力する。この態様では、時定数回路を設けることにより、声成分の有無を示す信号の急峻な変化を緩やかな変化に変えることができ、違和感のない音声信号出力が可能となる。

　上記の音声信号処理装置の他の一態様では、前記声成分有無判定部は、前記和が前記差の所定倍より大きい場合に声成分があると判定し、前記和が前記差の前記所定倍より大きくないときに声成分が無いと判定する。これにより簡易な構成で声成分の有無が判定できる。好適な例では所定倍は５倍である。

　上記の音声信号処理装置の他の一態様では、前記声成分有無判定部は、前記時定数回路が出力する係数値を２倍し、制限値１でリミットする回路をさらに備える。これにより、セリフなどの声成分をより確実に分離することが可能となる。

　本発明の他の好適な実施形態では、コンピュータを備える音声信号処理装置により実行される音声信号処理プログラムは、声成分を含む２チャンネルの音声信号を受け取り、各チャンネルの音声信号から前記声成分を分離する声成分分離手段と、前記声成分が分離された後の各チャンネルの音声信号に対してエフェクト処理を行うエフェクト処理手段と、前記エフェクト処理後の各チャンネルの音声信号に、前記声成分分離手段が分離した声成分を加算して出力する出力手段、として前記コンピュータを機能させる。この音声信号処理プログラムをコンピュータにより実行することで、声成分を除去して適切なエフェクト処理を行うことができる。

　以下、図面を参照して本発明の好適な実施例について説明する。

　［基本原理］
　本実施例は、声成分を含む左右チャンネルの音声信号に対して３Ｄ映像用の各種のエフェクト処理を施す手法を提供する。一般に、３Ｄ音場用処理などのエフェクト処理は、背景音や効果音を対象とするものであり、セリフに対しては同じエフェクト処理を施したくない場合が多い。仮にセリフに対して同じエフェクト処理を行ってしまうと、セリフが聞き取りにくくなったり、過剰なエフェクト音を感じてしまったりして、逆に弊害となってしまう。

　映画コンテンツの場合、チャンネル構成がフロント２チャンネルの構成となっているコンテンツでは、ほとんどのセリフが同相成分に含まれている。また、センターチャンネルをもっているような５．１ｃｈなどのコンテンツの場合でも、まれにフロント２チャンネル信号の同相成分にセリフが含まれていることがある。本実施例では、センターチャンネルの有無に関わらず、フロント２チャンネル信号の同相成分にセリフが含まれていた場合、目的のエフェクト処理がセリフに施されないようにする。また、セリフに限らず、音楽コンテンツであれば歌唱についてもエフェクトをかけないようにすることができる。しかもその際、前述の先行文献１のように結果の信号がモノラルになることはなく、ステレオを維持することができる。

　具体的には、本実施例の音声信号処理装置は、まず左右チャンネルの音声信号から声成分を分離し、次に声成分を分離した後の音声信号に対して各種のエフェクト処理を施す。そして、先に分離した声成分を、エフェクト処理後の音声信号に合成することにより左右チャンネルの音声信号を出力する。これにより、セリフなどの声成分にエフェクトをかけずに、それ以外の背景音のみに奥行き感、立体感、臨場感等を演出するためのエフェクトをかけることが可能となり、自然なエフェクト効果を得ることができる。この点で、本実施例の音声信号処理装置は、映像用モニタを備え、映像コンテンツを再生するための装置に特に好適である。

　［全体構成］
　図１は、実施例に係る音声信号処理装置の基本構成を示す。図示のように、音声信号処理装置１は、声成分分離部１０と、エフェクト処理部１００と、加算器５、６とを備える。

　声成分分離部１０は、左チャンネルの音声信号Ｌｉと右チャンネルの音声信号Ｒｉとが入力される。以下、「チャンネル」を「ｃｈ」、「左チャンネル」を「Ｌｃｈ」、「右チャンネル」を「Ｒｃｈ」と記述する。声成分分離部１０は、Ｌｃｈ音声信号ＬｉとＲｃｈ音声信号Ｒｉから声成分を分離する。そして、声成分分離部１０は、分離した声成分を声成分信号Ｃとして加算器５、６に出力するとともに、声成分が分離された後のＬｃｈ音声信号Ｌ４及びＲｃｈ音声信号Ｒ４をエフェクト処理部１００へ出力する。

　エフェクト処理部１００は、声成分が分離された後のＬｃｈ音声信号Ｌ４及びＲｃｈ音声信号Ｒ４に対して、３Ｄ映像用の各種のエフェクト処理を施す。そして、エフェクト処理部１００は、エフェクト処理後のＬｃｈ音声信号Ｌ５を加算器５に出力し、エフェクト処理後のＲｃｈ音声信号Ｒ５を加算器６へ出力する。

　加算器５は、エフェクト処理後のＬｃｈ音声信号Ｌ５に声成分信号Ｃを加算し、Ｌｃｈ音声信号Ｌｏを出力する。加算器６は、エフェクト処理後のＲｃｈ音声信号Ｒ５に声成分信号Ｃを加算し、Ｒｃｈ音声信号Ｒｏを出力する。なお、加算器５、６は本発明の出力部に相当する。

　以上の構成により、エフェクト処理部１００は声成分が分離された後のＬｃｈ音声信号Ｌ４及びＲｃｈ音声信号Ｒ４に対してエフェクト処理を施すことになり、声成分信号Ｃに対してエフェクト処理は施されない。よって、エフェクト処理によりセリフなどが聞き取りにくくなるなどの不具合は生じない。また、エフェクト処理部１００は、声成分が分離された後の音声信号を対象として、十分なエフェクト処理を行うことができる。

　また、本実施例の音声信号処理装置では、声成分分離部１０が分離した声成分信号Ｃを、加算器５、６により、エフェクト処理後の音声信号Ｌ５、Ｒ５に加算する点に特徴を有する。音声信号から声成分を分離する手法はいくつか知られているが、完全に声成分を分離することは現実的には難しい。前述の従来技術などのように、セリフやボーカルを分離することを主たる目的とする装置・手法では、声成分の分離性能が最終的な出力の性能に大きな影響を及ぼす。これに対し、本実施例は声成分を分離して出力することではなく、エフェクト処理の対象から声成分を除くことを主目的としており、エフェクト処理後の音声信号に声成分を合成している。即ち、一時的に分離した声成分を、エフェクト処理後の音声信号に戻している。よって、仮に声成分分離部１０による分離性能が低く、実際に存在する声成分と分離された声成分との間に誤差が生じたとしても、最終的に声成分が元の音声信号に戻されることによりその誤差がキャンセルされる構成となっている。よって、声成分分離部１０の分離性能が、最終出力である音声信号Ｌｏ、Ｒｏの品質に直接大きな影響を及ぼすことはない。

　［声成分分離部］
　次に、声成分分離部１０について詳しく説明する。図２は、声成分分離部１０の構成を示す。声成分分離部１０は、クロスオーバーフィルタ部ＣＦと、分離処理部２０と、加算器１４、１５とを備える。

　クロスオーバーフィルタ部ＣＦは、４つのハイパスフィルタ（ＨＰＦ）１１と、４つのローパスフィルタ（ＬＰＦ）１２とを備える。本例のクロスオーバーフィルタ部ＣＦは、いわゆるリンクウィッツライリー型のフィルタである。具体的に、各音声信号Ｌｉ、Ｒｉに対して、２つのＨＰＦ１１と２つのＬＰＦ１２とが従属接続されている。ＨＰＦ１１とＬＰＦ１２は、それぞれカットオフ周波数において３ｄＢ減衰する特性を有する。

　音声信号Ｌｉからは、２段のＨＰＦ１１で中高域成分が抽出され、音声信号Ｌ１として分離処理部２０へ送られる。音声信号Ｒｉからは、２段のＨＰＦ１１で中高域成分が抽出され、音声信号Ｒ１として分離処理部２０へ送られる。

　分離処理部２０は、音声信号Ｌ１、Ｒ１から声成分を分離して声成分信号Ｃを生成し、出力する。また、分離処理部２０は、音声信号Ｌ１から声成分を除去した音声信号Ｌ３を加算器１４へ送るとともに、音声信号Ｒ１から声成分を除去した音声信号Ｒ３を加算器１５へ送る。なお、分離処理部２０の詳細については後述する。

　また、音声信号Ｌｉからは、２段のＬＰＦ１２により低域成分が抽出され、音声信号Ｌ２として加算器１４へ送られる。音声信号Ｒｉからは、２段のＬＰＦ１２により低域成分が抽出され、音声信号Ｒ２として加算器１５へ送られる。

　加算器１４は、声成分が除去された中高域のＬｃｈ音声信号Ｌ３に、低域のＬｃｈ音声信号Ｌ２を加算し、声成分が除去された全帯域のＬｃｈ音声信号Ｌ４を生成して出力する。加算器１５は、声成分が除去された中高域のＲｃｈ信号Ｒ３に、低域のＲｃｈ音声信号Ｒ２を加算し、声成分が除去された全帯域のＲｃｈ信号Ｒ４を生成して出力する。

　このように、声成分分離部１０では、クロスオーバーフィルタ部ＣＦでＬｃｈ音声信号Ｌｉ及びＲｃｈ音声信号Ｒｉの帯域を低域と中高域とに分割し、中高域の信号のみを対象として分離処理部２０による声成分の分離処理を行う。前述のようにセリフなどの声成分はＬｃｈ音声信号とＲｃｈ音声信号の同相成分であり、後述するように分離処理部２０による声成分の分離処理はＬｃｈ音声信号とＲｃｈ音声信号の同相成分を分離する処理となる。一方で、低域信号には例えばベース音、バスドラム音が同相成分としてが含まれていることが多く、低域信号に対して同様に分離処理部２０による声成分の分離処理を行うと、ベース音、バスドラム音などが声成分として分離されてしまい、後段のエフェクト処理の対象外となってしまう。そこで、本実施例では、クロスオーバーフィルタ部ＣＦが入力音声信号を低域信号と中高域信号とに分割し、中高域信号に対して声成分の分離処理を行って声成分を分離した後、その中高域信号と低域信号と再度合成して音声信号Ｌ４、Ｒ４としている。

　このように、本実施例では、加算器１４、１５により低域信号と中高域信号とを加算して全帯域の信号を生成する構成となっているので、クロスオーバーフィルタ部ＣＦは、帯域分割した低域、中高域信号を再度合成した際に周波数特性がフラットとなる特性を有することが好ましい。また、そのような特性を得ることができれば、クロスオーバーフィルタ部ＣＦの構成は図２に示すものには限定されない。

　［分離処理部］
　次に、分離処理部２０について詳しく説明する。分離処理部２０は、大別して分離部と、声成分有無判定部とにより構成される。

　分離部の構成を図３に示す。分離部は、Ｌｃｈ音声信号Ｌ１及びＲｃｈ音声信号Ｒ１を受け取り、声成分信号Ｃと、声成分が分離されたＬｃｈ音声信号Ｌ３と、声成分が分離されたＲｃｈ音声信号Ｒ３とを出力する。具体的に、分離部は、加算器１６～１８と、増幅器１９、２０とを備える。

　Ｌｃｈ音声信号Ｌ１は加算器１６、１７に供給される。Ｒｃｈ音声信号Ｒ１は、加算器１６、１８に供給される。加算器１６は、Ｌｃｈ音声信号Ｌ１とＲｃｈ音声信号Ｒ１とを加算して増幅器１９に送る。増幅器１９は、Ｌｃｈ音声信号Ｌ１とＲｃｈ音声信号Ｒ１との和の１／２、即ち、信号「（Ｒ１＋Ｌ１）／２」を出力する。さらに、増幅器２０は、信号「（Ｒ１＋Ｌ１）／２」に対して係数Ｇを乗算し、信号「Ｇ（Ｌ１＋Ｒ１）／２」を声成分信号Ｃとして出力するとともに、それを加算器１７、１８に供給する。

　ここで、係数「Ｇ」は、音声信号中における声成分の有無を示す係数であり、０．０～１．０の値をとる。係数Ｇは、「０．０」のときは音声信号中に声成分が含まれていないことを示し、「１．０」のときは音声信号中に声成分が含まれていることを示す。係数Ｇは、後述の声成分有無判定部により算出される。

　増幅器１９の出力信号「（Ｒ１＋Ｌ１）／２」は、Ｌｃｈ音声信号Ｌ１とＲｃｈ音声信号Ｒ１の和の１／２である。声成分がＬｃｈ音声信号及びＲｃｈ音声信号に支配的に存在する場合（即ち、Ｌｃｈ音声信号とＲｃｈ音声信号の同相成分が大きい場合）、係数Ｇは「１．０」に近い値となり、Ｌｃｈ音声信号Ｌ１とＲｃｈ音声信号Ｒ１からそれぞれ信号「Ｇ（Ｌ１＋Ｒ１）／２」が減算される。ここで、同相成分が大きいときは、ほぼＬ１＝Ｒ１と考えられるので、それを減算することにより、Ｌｃｈ音声信号及びＲｃｈ音声信号から声成分が除去される。逆に、声成分がほとんど存在しない場合（即ち、Ｌｃｈ音声信号とＲｃｈ音声信号の同相成分が小さい場合）、係数Ｇは「０．０」に近い値となり、Ｌｃｈ音声信号Ｌ１とＲｃｈ音声信号Ｒ１から信号「Ｇ（Ｌ１＋Ｒ１）／２」はほとんど減算されず、Ｌｃｈ音声信号Ｌ１、Ｒｃｈ音声信号Ｒ１はほぼそのままＬｃｈ音声信号Ｌ３、Ｒｃｈ音声信号Ｒ３として出力される。

　次に、声成分有無判定部について説明する。声成分有無判定部の構成を図４（ａ）、４（ｂ）に示す。図４（ａ）は、Ｌｃｈ音声信号Ｌ１とＲｃｈ音声信号Ｒ１の和信号と差信号を生成する回路である。具体的に、加算器２４はＬｃｈ音声信号Ｌ１からＲｃｈ音声信号Ｒ１を減算して差信号を生成し、絶対値回路２５はその差信号の絶対値演算を行い差信号レベルＡを出力する。一方、加算器２６はＬｃｈ音声信号Ｌ１とＲｃｈ音声信号Ｒ１とを加算して和信号を生成し、増幅器２７、２８はその和信号にそれぞれ「０．５」、「０．４」を乗算する。ここで、増幅器２７が乗算する「０．５」は和信号を１／２にするためのものであり、増幅器２８が乗算する「０．４」は経験により得られた値である。そして、絶対値回路２９はこの和信号の絶対値演算を行い、和信号レベルＢを出力する。

　次に、声成分有無判定部は、こうして得た差信号レベルＡと和信号レベルＢとを比較する。上記の増幅器２７、２８が乗算する値により、差信号レベルＡと和信号レベルＢとの比較は、音声信号（Ｌ１＋Ｒ１）と、音声信号（Ｌ１－Ｒ１）の５倍との比較を意味する。即ち、本実施例では、声信号Ｌ１、Ｒ１の和が、音声信号のＬ１、Ｒ１の差より５倍以上大きい場合（即ち、Ａ＜Ｂ）は、声成分有無判定部は音声信号Ｌ１、Ｒ１に声成分があると判断する。一方、音声信号Ｌ１、Ｒ１の和が、音声信号Ｌ１、Ｒ１の差より５倍以上大きくない場合（即ち、Ａ≧Ｂ）、声成分有無判定部は音声信号Ｌ１、Ｒ１に声成分が無いと判定する。

　具体的に、図４（ｂ）において、Ａ＜Ｂである場合、声成分があると判定され、スイッチ３０は値「１．０」を選択する。一方、Ａ≧Ｂである場合、声成分は無いと判定され、スイッチ３０は値「０．０」を選択する。なお、スイッチ３０は本発明の係数出力部に相当する。

　スイッチ３０の出力は、増幅器３１で経験値が乗算され、時定数回路３２に供給される。時定数回路３２は、スイッチ３０の切り替えによる信号波形の急峻な立ち上がり／立ち下がりを緩やかな変化にする役割を有する。時定数回路３２の出力は、増幅器３３で経験値である「２」が乗算され、リミット回路３４により「０．０～１．０」の値に制限されて係数Ｇとして出力される。これにより、係数Ｇは、音声信号Ｌ１、Ｒ１における声成分の有無を示す係数となる。即ち、係数Ｇは、音声信号Ｌ１、Ｒ１に声成分があるときは値「１．０」の値を維持し、声成分が無いときは値「０．０」を維持し、それらの間の過渡期は滑らかな曲線で変化することになる。

　以上のように、本実施例の分離処理部２０は、声成分有無判定部が音声信号Ｌ１、Ｒ１における声成分の有無を判定し、声成分が支配的に存在するときのみ信号「（Ｌ１＋Ｒ１）／２」を同相成分（即ち声成分）とみなして、それを音声信号Ｌ１、Ｒ１からを減算するので、高い確実性で声成分を分離することができる。また、先行技術１と異なり、ステレオ信号を維持したまま声成分を分離することができる。また、セリフなどの声成分が無いときには、元の信号のまま後段のエフェクト処理部に信号を送ることができるので、弊害の無いエフェクト処理が可能となる。

　また、時定数回路３２の出力を２倍する増幅器３３とリミット回路３４とを設けたことにより、声成分の除去をより確実に行える効果が得られる。特に、セリフの末尾で声成分の分離動作を時間的に引き伸ばす効果がある。これは、時定数回路の簡素化とも言い換えることが出来る。同様の効果を得るには、アタック、リリースの時定数を変えるなどの工夫が必要になり回路が複雑になるが、それを回避することができる。但し、この増幅器３３とリミット回路３４を省略し、時定数回路３２の時定数を調整することに同様の効果を得ることも可能である。

　さらに、本実施例の分離処理部２０は、処理量が少なく、実装時のハードウェア規模を抑えることができるので、低コストで実現することが可能である。

　［エフェクト処理部］
　次に、エフェクト処理部１００について説明する。本発明では、エフェクト処理部１００が実行するエフェクト処理は基本的にどのようなものであってもよい。一般的に、３Ｄ映像とともに再生される音声信号に対して行われるエフェクト処理としては、反射音を付加する処理、リバーブ（残響音）を付加する処理などが知られており、エフェクト処理部１００はこれらを行うこととしてもよい。この場合、音声信号に含まれるセリフなどの声成分に対して反射音を付加したり残響音を付加したりする処理を行うと、前述のようにセリフが聞き取りづらくなるなどの弊害がある。よって、本実施例のように、声成分分離部１０により声成分を分離した後の音声信号に対してエフェクト処理を行えば、そのような弊害を防止することができる。

　また、本発明において好適に使用されうる３Ｄ映像向けのエフェクト処理の他の一例として、フロントｃｈ信号をサラウンドｃｈ信号に合成するエフェクト処理（以下、「フロントチャンネル信号混合処理」と呼ぶ。）がある。これについて以下に詳しく説明する。

　（フロントチャンネル信号混合処理）
　図５は、フロントチャンネル信号混合処理を行うエフェクト処理部１００の構成を示す。この例では、入力音声信号として、少なくとも左右のフロントｃｈ信号ＦＬ、ＦＲ及び左右のサラウンドｃｈ信号Ｓｌ、ＳＲがあるものとする。エフェクト処理部１００は、フロントｃｈ信号の急峻な立ち上がり、具体的には所定割合以上のレベル増加を検出し、急峻な立ち上がりが検出されたときに、フロントｃｈ信号をサラウンドｃｈ信号に混合（加算）する。フロントチャンネル信号混合処理は、入力信号レベルの急峻な変化を音場の後方に広げることにより、迫力、臨場感などを向上させる。以下、詳しく説明する。

　図５は、エフェクト処理部１００の構成を示すブロック図である。なお、前述のように、エフェクト処理部１００は、フロントｃｈ信号ＦＬ、ＦＲをサラウンドｃｈ信号ＳＬ、ＳＲに加える処理を行うものであり、フロントｃｈ信号ＦＬ及びＦＲ、ＬＦＥ信号などについては入力された信号をそのまま出力するので、その部分の構成は図示を省略している。

　図５に示すように、エフェクト処理部１００は、レベル検出部１１０と、レベル制御部１２０と、加算器１３１、１３２、１３３と、増幅器１４０とを備える。サラウンドｃｈ信号ＳＬは加算器１３２に入力され、サラウンドｃｈ信号ＳＲは加算器１３３に入力される。

　フロントｃｈ信号ＦＬ及びＦＲは加算器１３１により加算され、得られたフロントｃｈ信号Ｆ（＝ＦＬ＋ＦＲ）はレベル検出部１１０及び増幅器１４０へ供給される。増幅器１４０は、レベル制御部１２０から供給される加算係数αに基づいてフロントｃｈ信号Ｆを増幅して信号α（ＦＬ＋ＦＲ）を生成し、加算器１３２、１３３へ供給する。加算係数αは、サラウンドｃｈ信号に加算されるフロントｃｈ信号のレベル（「加算レベル」という。）を示すものである。加算係数αが大きいほど、サラウンドｃｈ信号に加算されるフロントｃｈ信号のレベルが大きくなる。

　加算器１３２はフロントｃｈ信号ＳＬに信号α（ＦＬ＋ＦＲ）を加算し、サラウンドｃｈ信号ＳＬｘとして出力する。同様に、加算器１３３は、フロントｃｈ信号ＳＲに信号α（ＦＬ＋ＦＲ）を加算し、サラウンドｃｈ信号ＳＲｘとして出力する。

　レベル検出部１１０及びレベル制御部１２０は、フロントｃｈ信号Ｆのレベルに基づいて、加算係数αを制御する役割を有する。レベル検出部１１０は、過去レベル保持部１１１と、現在レベル検出部１１２と、レベル比算出部１１３とを備える。レベル制御部１２０は、加算係数決定部１２１と、係数減少部１２２とを備える。

　現在レベル検出部１１２は、フロントｃｈ信号Ｆのレベルを検出し、現在レベルＬｃとして保持する。過去レベル保持部１１１は、現在を基準とした直前の所定期間における、フロントｃｈ信号Ｆのレベルを保持する。即ち、過去レベル保持部１１１は、現在レベル検出部１１２が検出したフロントｃｈ信号Ｆのレベルを、常に所定期間分保持する。ここで、「所定期間」は、数秒（例えば５～８秒程度）とする。そして、過去レベル保持部１１１は、所定期間のフロントｃｈ信号Ｆのレベルを代表する過去レベルＬｐを決定する。過去レベルＬｐは、例えば所定期間におけるフロントｃｈ信号Ｆの平均値、もしくは、各時点におけるフロントｃｈ信号の絶対値の平均値又は絶対値のうちの最大値などとすることができる。

　レベル比算出部１１３は、現在レベルＬｃと過去レベルＬｐとの比であるレベル比Ｒ（＝Ｌｃ／Ｌｐ）を算出し、レベル制御部１２０へ出力する。レベル比Ｒは、フロントｃｈ信号Ｆのレベル変化を示し、レベル比Ｒの値が大きいほど、フロントｃｈ信号Ｆのレベル増加は大きい。

　レベル制御部１２０の加算係数決定部１２１は、レベル検出部１１０から供給されたレベル比Ｒに基づいて、加算係数αを決定する。図６は、レベル比Ｒと加算係数αとの関係の一例を示す。

　図６に示すように、レベル比Ｒの閾値Ｒｔｈが用意される。本例は、フロントｃｈ信号のレベル増加が急峻であるときに、サラウンドｃｈ信号にフロントｃｈ信号Ｆを加算することを意図している。閾値Ｒｔｈは、フロントｃｈ信号Ｆのレベル変化が急峻であると判定される所定割合を示す。レベル比Ｒが閾値Ｒｔｈより小さい場合、加算係数決定部１２１は、フロントｃｈ信号Ｆのレベル増加は急峻ではないと判定し、加算係数αを「０」とする。これにより、フロントｃｈ信号Ｆはサラウンド信号に加算されない。一方、レベル比Ｒが閾値Ｒｔｈ以上である場合、加算係数決定部１２１はフロントｃｈ信号Ｆのレベル増加が急峻であると判定し、加算係数αを「０」より大きい値に設定する。これにより、フロントｃｈ信号Ｆは、加算係数αに応じた割合でサラウンドｃｈ信号に加算される。

　閾値Ｒｔｈは、各種の音声信号ソースを用いた実験などにより決定することができ、例えば「２～３」程度に設定することができる。閾値Ｒｔｈが「２」に設定された場合、フロントｃｈ信号Ｆのレベルが２倍となったときに、レベル増加が急峻であると判断される。

　図６に示すように、レベル比Ｒが閾値Ｒｔｈ以上となった場合、加算係数αはレベル比Ｒに比例して増加する。つまり、フロントｃｈ信号Ｆのレベル変化が急峻であるほど、サラウンドｃｈ信号に加算されるフロントｃｈ信号Ｆのレベル、即ち加算レベルが増加する。こうして、レベル制御部１２０は、フロントｃｈ信号Ｆのレベル変化が大きいときにはその変化をサラウンドｃｈにも大きく伝え、レベル変化が小さいときにはサラウンドｃｈの変化もそれなりのレベルに設定する。これにより、連続的かつダイナミックレンジの広い効果を得ることができる。

　また、図６に示すように、加算係数αには最大値αｍａｘが設定される。例えば、加算係数の最大値αｍａｘが「０．５」に設定されている場合、フロントチャンネル信号の１／２以上がサラウンドｃｈに混合されることはない。つまり、フロントｃｈ信号Ｆのレベル変化が大きい場合でも、無制限にフロントｃｈ信号Ｆがサラウンドｃｈ信号に混合されることはない。こうして、過剰な混合処理がなされて音場に違和感が生じることを防止している。

　係数減少部１２２は、フロントｃｈ信号Ｆをサラウンドｃｈ信号に混合する時間を一定時間に制限する役割を有する。具体的には、係数減少部１２２は予め決められた一定時間「τ」を有する。レベル比Ｒが閾値Ｒｔｈ以上となったとして加算係数決定部１２１が加算係数αを「０」より大きい値に設定し、増幅器１４０によりフロントｃｈ信号Ｆがサラウンドｃｈ信号に加算されると、係数減少部２２はフロントｃｈ信号Ｆがサラウンドｃｈ信号に加算され始めた時点から一定時間τ内に加算係数αを直線的に「０」まで減少させる。よって、フロントｃｈ信号Ｆに急峻なレベル増加があると、加算係数αに応じた割合でフロントｃｈ信号Ｆがサラウンドｃｈ信号に加算されるが、その後は徐々に加算されるフロントｃｈ信号Ｆのレベルが減少する。そして、フロントｃｈ信号Ｆがサラウンドｃｈ信号に加算され始めてから一定時間τが経過したときには、フロントｃｈ信号Ｆはサラウンドｃｈ信号に加算されなくなる。これにより、次にフロントｃｈ信号Ｆの急峻なレベル増加が発生したときに、フロントｃｈ信号を加算することによる効果を確保する。また、フロントｃｈ信号Ｆを加算する割合をある程度の時間をかけて徐々に減少させることにより、違和感なく、効果を減少させていくことができる。

　なお、この一定時間「τ」は、例えば１～１．５秒程度に設定される。また、この一定時間τは、レベル検出部１０の過去レベル保持部１１が過去レベルを保持する所定時間（上記の例では７～８秒）より小さく、例えば過去レベル保持部１１の時間は一定時間τの５～６倍程度が好ましい。

　図７は、フロントｃｈ信号、及び、上記の処理によりサラウンドｃｈ信号に混合される信号の波形の例を示す。図７に示すように、ある時刻ｔ１でフロントｃｈ信号のレベルが急峻に増加すると、フロントｃｈ信号が加算係数αに応じた割合でサラウンドｃｈ信号へ混合される。その後、加算係数αは徐々に減少していき、サラウンドｃｈ信号に混合される信号は徐々にフェードアウトする。一定時間τが経過する時刻ｔ２において加算係数αは「０」となり、フロントｃｈ信号のサラウンドｃｈ信号への混合が停止される。

　なお、図７において、時刻ｔ１～ｔ２の間に再度フロントｃｈ信号の急峻なレベル増加が検出された場合には、エフェクト処理部１００は同じ処理を行う。つまり、レベル制御部１２０はそのときのレベル比Ｒに基づいて加算係数αを決定し、一定時間τにわたりフロントｃｈ信号をサラウンドｃｈ信号に混合する。

　図８は、フロントｃｈ信号混合処理のフローチャートを示す。この処理は、エフェクト処理部１００を構成するコンピュータが、予め用意されたプログラムを実行し、図５に示す各構成要素として動作することにより実現される。

　まず、レベル検出部１１０は、フロントｃｈ信号のレベルを検出し（ステップＳ１１）、急峻なレベル増加があったか否かを判定する（ステップＳ１２）。急峻なレベル増加が無い場合（ステップＳ１２；Ｎｏ）、処理はステップＳ１１へ戻る。急峻なレベル増加があった場合（ステップＳ１２；Ｙｅｓ）、レベル制御部１２０はそのときのレベル比Ｒに基づいて加算係数αを決定する（ステップＳ１３）。そして、レベル制御部１２０は増幅器１４０へ加算係数αを供給することにより、サラウンドｃｈ信号にフロントｃｈ信号を混合する（ステップＳ１４）。

　次に、レベル制御部１２０は、フロントｃｈ信号の混合を開始してから一定期間τが経過したか否かを判定する（ステップＳ１５）。一定時間τが経過していない場合（ステップＳ１５；Ｎｏ）、レベル制御部１２０は加算係数αを徐々に減少させ（ステップＳ１６）、フロントｃｈ信号の混合を継続する（ステップＳ１４）。一方、一定時間τが経過した場合（ステップＳ１５；Ｙｅｓ）、処理は終了する。

　以上説明したように、上記のフロントチャンネル信号混合処理によれば、リスニングルームのフロント側の音場で起きている音量のダイナミックな変化をリスニングルーム全体の前後音場のダイナミックな変化に変換でき、音場の前後の動きをよりダイナミックにすることができる。例えば、映画などのコンテンツにおいて、フロントｃｈ信号に爆発音などの効果音が含まれている場合には、それをサラウンドスピーカからも出力することができる。こうして、迫力、臨場感を向上させ、音の移動感、音のつながりを良くし、音場全体を一体化させることができる。また、本処理は、前後の音場のつながり、移動感という意味で３Ｄ映像と非常に整合がよく、視聴者により高いレベルの臨場感を与えることが可能となる。

　ここで、上記のフロントチャンネル信号混合処理を、声成分を含むフロントｃｈ信号に対して行うと、セリフがサラウンドスピーカからも再生されることになり、違和感を生じる。この点、本実施例では、エフェクト処理部１００の前段の声成分分離部１０が声成分を分離した後の音声信号に対して上記のフロントチャンネル信号混合処理が行われるので、セリフがサラウンドスピーカから出力されるような不具合は生じない。

　［変形例］
　上記の実施例では、声成分分離部１０のクロスオーバーフィルタ部ＣＦは、音声信号の帯域を低域と中高域に分割しているが、その代わりに、音声信号の帯域を低域、中域、高域の３帯域に分割してもよい。その場合、分離処理部２０は中域の音声信号に対して声成分の分離処理を実行する。低域及び高域の信号は、分離処理部２０により声成分が分離された後の中域信号に加算され、全帯域の音声信号としてエフェクト処理部１００へ供給される。

　上記の実施例では、声成分分離部１０にクロスオーバーフィルタ部ＣＦを設けているが、これを省略してハードウェア構成を簡略化してもよい。また、上記の実施例では、クロスオーバーフィルタ部ＣＦとしてリンクウィッツライリー型のフィルタを使用しているが、ある程度特性を犠牲にしてもよい場合には、その代わりに、より単純な構成のフィルタを用いてもよい。

　上記の声成分分離部１０は、単独でカラオケの歌唱キャンセルにも用いることが可能である。カラオケの場合、一般的に低域がＬｃｈとＲｃｈに同相で記録されている可能性が高いので、上記の手法は有効である。

　本発明は、映像とともに音声信号を再生するＡＶレシーバー、ＴＶ、ＢＤプレイヤーなどに利用することができる。

　１　音声信号処理装置
　１０　音声分離部
　５、６、１４、１５～１８、２４、２６　加算器
　１１　ハイパスフィルタ（ＨＰＦ）
　１２　ローパスフィルタ（ＬＰＦ）
　２０　分離処理部
　１９、２０、２７、２８、３１、３３　増幅器
　３２　時定数回路
　３４　リミット回路
　１００　エフェクト処理部

Claims

　声成分を含む２チャンネルの音声信号を受け取り、各チャンネルの音声信号から前記声成分を分離する声成分分離部と、
　前記声成分が分離された後の各チャンネルの音声信号に対してエフェクト処理を行うエフェクト処理部と、
　前記エフェクト処理後の各チャンネルの音声信号に、前記声成分分離部が分離した声成分を加算して出力する出力部と、
　を備えることを特徴とする音声信号処理装置。
　前記声成分分離部は、
　各チャンネルの音声信号を低域成分と中高域成分とに分割する帯域分割部と、
　前記中高域成分から前記声成分を分離して出力する分離処理部と、
　前記声成分が分離された後の中高域成分に前記低域成分を加算して出力する加算部と、
　を備えることを特徴とする請求項１に記載の音声信号処理装置。
　前記声成分分離部は、
　前記各チャンネルの音声信号に声成分があるか否かを判定する声成分有無判定部と、
　前記声成分があると判定されたときに、前記２チャンネルの音声信号の和の１／２を前記声成分として出力するとともに、前記各チャンネルの音声信号から前記声成分を減算して出力する分離部と、
　を備えることを特徴とする請求項１に記載の音声信号処理装置。
　前記声成分有無判定部は、前記２チャンネルの音声信号の和と差を算出し、得られた和と差を比較することにより声成分の有無を判定することを特徴とする請求項３に記載の音声信号処理装置。
　前記声成分有無判定部は、
　前記和と差の比較結果に基づいて０又は１の係数値を出力する係数値出力部と、
　前記係数値を０～１の間の連続値に変換する時定数回路と、を備え、
　前記分離部は、前記係数値と前記２チャンネルの音声信号の和の１／２との積を前記声成分として出力するとともに、前記各チャンネルの音声信号から前記声成分を減算して出力することを特徴とする請求項３又は４に記載の音声信号処理装置。
　前記声成分有無判定部は、前記和が前記差の所定倍より大きい場合に声成分があると判定し、前記和が前記差の前記所定倍より大きくないときに声成分が無いと判定することを特徴とする請求項４に記載の音声信号処理装置。
　前記所定倍は５倍であることを特徴とする請求項６に記載の音声信号処理装置。
　前記声成分有無判定部は、前記時定数回路が出力する係数値を２倍し、制限値１でリミットする回路をさらに備えることを特徴とする請求項５に記載の音声信号処理装置。
　コンピュータを備える音声信号処理装置により実行される音声信号処理プログラムであって、
　声成分を含む２チャンネルの音声信号を受け取り、各チャンネルの音声信号から前記声成分を分離する声成分分離手段と、
　前記声成分が分離された後の各チャンネルの音声信号に対してエフェクト処理を行うエフェクト処理手段と、
　前記エフェクト処理後の各チャンネルの音声信号に、前記声成分分離手段が分離した声成分を加算して出力する出力手段、として前記コンピュータを機能させることを特徴とする音声信号処理プログラム。