JPWO2011048792A1 - 音響信号処理装置、音響符号化装置および音響復号装置 - Google Patents

音響信号処理装置、音響符号化装置および音響復号装置 Download PDF

Info

Publication number
JPWO2011048792A1
JPWO2011048792A1 JP2011537131A JP2011537131A JPWO2011048792A1 JP WO2011048792 A1 JPWO2011048792 A1 JP WO2011048792A1 JP 2011537131 A JP2011537131 A JP 2011537131A JP 2011537131 A JP2011537131 A JP 2011537131A JP WO2011048792 A1 JPWO2011048792 A1 JP WO2011048792A1
Authority
JP
Japan
Prior art keywords
qmf
acoustic signal
sequence
coefficient
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011537131A
Other languages
English (en)
Other versions
JP5422664B2 (ja
Inventor
石川 智一
智一 石川
則松 武志
武志 則松
セン チョン コック
セン チョン コック
ゾウ フアン
ゾウ フアン
ジョン ハイシャン
ジョン ハイシャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2011537131A priority Critical patent/JP5422664B2/ja
Publication of JPWO2011048792A1 publication Critical patent/JPWO2011048792A1/ja
Application granted granted Critical
Publication of JP5422664B2 publication Critical patent/JP5422664B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

低い演算量で、時間伸縮処理または周波数変調処理のような音響信号処理を実現できる音響信号処理装置を提供する。音響信号処理装置は、所定の調整係数を用いて、入力音響信号列を変換する音響信号処理装置であって、入力音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列へ変換するフィルタバンク(2601)と、QMF係数列を所定の調整係数に依存させて調整する調整部(2602)とを備える。

Description

本発明は、音響信号および音声信号(以下、音響信号と呼ぶ)をデジタル信号処理する音響信号処理装置に関するものである。
音響信号を時間軸上で、圧縮したり伸張したりする技術として、フェーズボコーダー(Phase Vocoder)という技術がある。非特許文献1に開示されているフェーズボコーダー装置は、デジタル化した音響信号に高速フーリエ変換(FFT:Fast Fourier Transform)または短時間フーリエ変換(STFT:Short Time Fourier Transform)を適用し、周波数領域で、時間方向の伸縮処理(時間伸張処理)、および、ピッチ変換処理(ピッチシフト処理)などを実現している。
ピッチは、ピッチ周波数とも呼ばれ、音の高さを意味する。時間伸張処理は、音響信号のピッチを変えずに音響信号の時間長を伸縮する処理である。ピッチシフト処理は、周波数変調処理の例であり、音響信号の時間長を変えずに音響信号のピッチを変える処理である。ピッチシフト処理は、ピッチ伸張処理とも呼ばれる。
音響信号の再生速度が単純に変更された場合、音響信号の時間長およびピッチの両方が変更される。一方、ピッチを変えずに時間伸縮された音響信号の再生速度が変更されることにより、音響信号の時間長が元に戻り、音響信号のピッチのみが変換される場合もある。そのため、ピッチシフト処理には、時間伸張処理が含まれる場合がある。逆に、時間伸張処理には、ピッチシフト処理が含まれる場合もある。このように時間伸張処理とピッチシフト処理とは、対応する関係を有する。
時間伸張処理は、入力音響信号をFFTして得られたスペクトル信号の局所的なスペクトル特性を変えることなく、入力音響信号の継続時間(再生時間)を変化させることが出来る。その原理は以下の通りである。
(a)時間伸張処理を実行する音響信号処理装置は、まず、入力音響信号を一定時間間隔に分割して、一定時間間隔毎(たとえば1024サンプル毎)に解析する。その際、音響信号処理装置は、分割した時間単位内で、分割時間単位よりも短い時間間隔(たとえば128サンプル)毎にオーバーラップさせて入力音響信号を処理する。ここでは、オーバーラップさせる時間間隔をホップサイズ(Hop Size)と呼ぶことにする。
図30Aでは、入力信号のホップサイズは、Raである。また、フェーズボコーダー処理によって算出される出力音響信号も、時間間隔が一定サンプル数だけオーバーラップされた音響信号になる。図30Bでは、出力音響信号のホップサイズは、Rsである。時間伸張する場合は、Rs>Raとなり、時間圧縮する場合は、Rs<Raとなる。ここでは、時間伸張する場合(Rs>Ra)を例にとって説明する。時間伸張の割合rを式1のように定義する。
Figure 2011048792
(b)上述のように、一定時間間隔毎に分割され、オーバーラップされた状態の各時間ブロック信号は、時間的にコヒーレント(Coherent)なパターンを有している場合が多い。そこで、音響信号処理装置は、各時間ブロック信号に周波数変換を施す。典型的には、音響信号処理装置は、入力の各時間ブロック信号を周波数変換し、位相情報を調整する。その後、音響信号処理装置は、出力の時間ブロック信号として、周波数領域の信号を時間領域の信号に戻す。
上記の原理に従って、これまでの古典的なフェーズボコーダー装置は、STFTを用いて、周波数領域への変換を行い、周波数領域でのさまざまな調整処理の後、短時間フーリエ逆変換を行っていた。そして、これにより、時間変換およびピッチシフト処理を実現していた。次に、STFTベースの処理について、説明する。
(1)解析
まず、音響信号処理装置は、ホップサイズRaでオーバーラップされた時間ブロック単位毎に窓長Lの解析窓関数を実行する。具体的には、音響信号処理装置は、各ブロックを、FFTを用いて周波数領域に変換する。たとえば、uRa(u∈N)という点における周波数特性は、式2によって算出される。
Figure 2011048792
ここで、h(n)は解析窓関数であり、kは、周波数インデックスを示し、範囲としてはk=0,…,L−1である。また、WL mkは、
Figure 2011048792
により算出される。
(2)調整
このようにして算出された周波数信号の位相情報、すなわち、調整前の位相情報は、φ(uRa,k)であるとする。調整フェーズにおいて、音響信号処理装置は、周波数インデックスがkである周波数成分ω(uRa,k)を次の方法で算出する。
まず、周波数成分ω(uRa,k)を算出するため、音響信号処理装置は、連続する解析点である(u−1)RaとuRaの位相信号の増加分Δφk uを式3に従って算出する。
Figure 2011048792
時間間隔Raで増加分Δφk uが算出されるため、音響信号処理装置は、各周波数成分ω(uRa,k)を式4に従って計算することができる。
Figure 2011048792
次に、音響信号処理装置は、合成点uRsにおける位相を、式5によって計算する。
ψ(uRs,k)=ψ((u−1)Rs,k)+Rs・ω(uRa,k) (式5)
(3)再合成
音響信号処理装置は、FFTにより算出された周波数信号の振幅|X(uRa,k)|と、調整後の位相ψ(uRs,k)とをすべての周波数インデックスに対して算出する。そして、音響信号処理装置は、逆FFT変換を用いて、周波数信号を時間信号に再合成する。再合成は、式6に従って実行される。
Figure 2011048792
音響信号処理装置は、再合成された時間ブロック信号を、合成点uRsに挿入する。そして、音響信号処理装置は、合成出力された信号と、前のブロックで合成出力された信号とをオーバーラップ加算することで、時間伸張信号を生成する。前ブロックの合成出力とのオーバーラップ加算は、式7に示される。
Figure 2011048792
上記の3つのステップは、解析点(u+1)Raに関しても、施される。そして、上記の3つのステップは、すべての入力信号ブロックに対して繰り返される。この結果として、音響信号処理装置は、伸張比Rs/Raで時間伸張した信号を算出することが出来る。
なお、時間伸張された信号の振幅方向のモジュレーション(時間的な揺らぎ)を補正するため、窓関数h(m)は、電力補償(power−complemntary)条件を満たす必要がある。
時間伸張に対応する処理として、ピッチシフト処理がある。ピッチシフト処理は、信号の経過時間を変えることなく信号のピッチを変える方法である。デジタル音響信号のピッチを変える簡単な方法は、入力信号を間引く(resample)ことである。ピッチシフト処理は、時間伸張処理とも組み合わせることが可能である。例えば、音響信号処理装置は、時間伸張処理の後で、元の入力信号の時間長にresampleすることも可能である。
一方で、ピッチシフト処理を直接そのまま計算する手法も存在する。ピッチシフト処理を計算する手法は、一般的に、時間軸でのresample処理よりもかなり悪い副作用を発生する場合があるが、本発明ではその詳細は述べない。
なお、時間伸張の処理は、伸張比により、時間圧縮の処理になる場合がある。そのため、ここでは、時間伸張の表現は、時間伸縮を示し、時間圧縮を含む。
Improved Phase Vocoder Time−Scale Modification of Audio(IEEE Trans ASP Vol.7 No.3,May 1989)
しかしながら、上述のように、FFTおよび逆FFTで構成する古典的なフェーズボコーダー装置で高品質な時間伸張を実現するためには、細かいホップサイズを設定する必要がある。したがって、結果的にFFTおよび逆FFTを膨大な回数実施することが必要であり、演算量が大きい。
また、音響信号処理装置は、時間伸張処理の後、時間伸張処理とは異なる処理を実行する場合がある。この場合、音響信号処理装置は、時間領域の信号を解析用の領域の信号へ変換する必要がある。例えば、このような解析用の領域として、時間軸方向と周波数軸方向との両方に成分を有するQMF(Quadrature Mirror Filter)領域がある。QMF領域は、時間軸方向と周波数軸方向との両方に成分を有するため、合成複素領域、合成周波数領域、サブバンド領域、または、周波数サブバンド領域等とも呼ばれることもある。
一般的に、複素QMFフィルタバンクは、時間領域の信号を、時間軸と周波数軸との両方に成分を持つ合成複素領域へと変換する手法の一つである。QMFフィルタバンクは、典型的には、Spectral Band Replication(SBR)技術、Parametric Stereo(PS)、および、Spatial Audio Coding(SAC)などのパラメトリックベースのオーディオ符号化方法に用いられている。これらの符号化で用いられているQMFフィルタバンクは、サブバンド毎に複素数の値で表現される周波数領域の信号を2倍にオーバーサンプリングするような特性を持つ。これは、折り返し歪みを発生させずに、サブバンド周波数領域の信号を処理することを実現するための仕様である。
以下に、もう少し詳しく述べる。QMF解析フィルタバンクは、入力信号の実数値の離散時間信号x(n)をサブバンド周波数領域の複素信号sk(n)に変換する。sk(n)は、式8によって算出される。
Figure 2011048792
ここで、p(n)は、low−pass特性を持つL−1次のプロトタイプフィルタのインパルス応答である。αは位相パラメータ、Mはサブバンド数である。また、kは、サブバンドのインデックスを示しており、k=0,1,…,M−1である。
ここでは、QMF解析フィルタバンクによってサブバンド領域の信号に分割された信号をQMF係数と呼ぶ。QMF係数は、パラメトリック符号化手法において、合成処理の前段階で、調整されることが多い。
QMF合成フィルタバンクは、QMF係数の先頭のM個の係数をゼロパディングする(値を0で埋める)ことによって、サブバンド信号s’k(n)を算出する。そして、QMF合成フィルタバンクは、式9に従って時間信号x’(n)を算出する。
Figure 2011048792
ここで、βは位相パラメータを示す。
以上のケースでは、入力の実数値信号x(n)の再合成可能条件(perfect reconstruction)をほぼ満たすように、実数値で構成された線形位相プロトタイプフィルタ係数p(n)および位相パラメータが設計されている。
上述のように、QMF変換は、時間軸方向と周波数軸方向との混合の変換である。すなわち、信号に含まれる周波数成分と、時間毎の周波数の変化を示す情報を抽出することが可能である。そして、周波数成分は、サブバンドおよび単位時間毎に抽出することができる。ここでは、単位時間のことをタイムスロットと呼ぶことにする。
図31に詳しく図示する。実数の入力信号は、長さLおよびホップサイズMのオーバーラップされたブロックに分割される。QMF解析処理では、各ブロックは、M個の複素サブバンド信号が1個のタイムスロットになった形へと変換される(図31の上段)。こうして、時間領域のLサンプルの信号が、L個の複素QMF係数へと変換される。この複素QMF係数は、図31の中段で示すように、L/M個のタイムスロットおよびM個のサブバンドで構成される。各タイムスロットは、当該タイムスロットよりも前の(L/M−1)個のタイムスロットのQMF係数を用いて、QMF合成処理で、M個の実数時間信号へと合成される(図31の下段)。
上述のSTFTと同様に、音響信号処理装置は、時間分解能と周波数分解能の本来の組み合わせによって、ある瞬間の周波数信号をQMF領域で算出することが可能である。
また、音響信号処理装置は、L/M個のタイムスロットおよびM個のサブバンドで構成されている複素QMF係数ブロックから、あるタイムスロットの位相情報と隣接するタイムスロットの位相情報との間の位相差を算出することができる。例えば、あるタイムスロットの位相情報と隣接するタイムスロットの位相情報との間の位相差は、式10で算出される。
Δφ(n,k)=φ(n,k)−φ(n−1,k) (式10)
ここで、φ(n,k)は、位相情報を示す。nは、タイムスロットインデックスを示し、n=0,1,…,L/M−1である。kは、サブバンドインデックスを示し、k=0,1,…,M−1である。
時間伸張処理された後に、音響信号が、このようなQMF領域で信号処理される場合がある。しかし、この場合、音響信号処理装置は、演算量が大きいFFTおよび逆FFTを伴う時間伸張処理に加えて、時間領域の信号をQMF領域の信号へ変換する処理をしなければならない。よって、演算量がさらに増加していた。
そこで、本発明は、低い演算量で、音響信号処理を実現できる音響信号処理装置を提供することを目的とする。
上記課題を解決するため、本発明に係る音響信号処理装置は、所定の調整係数を用いて、入力音響信号列を変換する音響信号処理装置であって、前記入力音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列へ変換するフィルタバンクと、前記QMF係数列を前記所定の調整係数に依存させて調整する調整部とを備える。
これにより、音響信号処理がQMF領域で実行される。したがって、演算量の大きな従来の音響信号処理が用いられないため、演算量が低減する。
また、前記調整部は、調整された前記QMF係数列から、所定の時間伸縮比で時間伸縮された前記入力音響信号列が得られるように、前記所定の時間伸縮比を示す前記所定の調整係数に依存させて、前記QMF係数列を調整してもよい。
これにより、音響信号の時間伸縮に相当する処理がQMF領域で実行される。したがって、演算量の大きな従来の時間伸縮処理が用いられないため、演算量が低減する。
また、前記調整部は、調整された前記QMF係数列から、所定の周波数変調比で周波数変調された前記入力音響信号列が得られるように、前記所定の周波数変調比を示す前記所定の調整係数に依存させて、前記QMF係数列を調整してもよい。
これにより、音響信号の周波数変調に相当する処理がQMF領域で実行される。したがって、演算量の大きな従来の周波数変調処理が用いられないため、演算量が低減する。
また、前記フィルタバンクは、前記入力音響信号列を時間間隔毎に前記QMF係数列へ逐次変換することにより、前記時間間隔毎の前記QMF係数列を生成し、前記調整部は、前記時間間隔毎に生成された前記QMF係数列のタイムスロット毎およびサブバンド毎に位相情報を算出する算出回路と、前記タイムスロット毎および前記サブバンド毎の前記位相情報を前記所定の調整係数に依存させて調整することにより、前記QMF係数列を調整する調整回路とを備えてもよい。
これにより、QMF係数の位相情報が、調整係数に応じて、適応的に調整される。
また、前記調整回路は、前記サブバンド毎に、前記QMF係数列の最初のタイムスロットの前記位相情報と、前記所定の調整係数とに依存させて算出した値を、前記タイムスロット毎の前記位相情報に加算することにより、前記タイムスロット毎の前記位相情報を調整してもよい。
これにより、位相情報が、タイムスロット毎に、調整係数に応じて、適応的に調整される。
また、前記算出回路は、さらに、前記時間間隔毎に生成された前記QMF係数列の前記タイムスロット毎および前記サブバンド毎に振幅情報を算出し、前記調整回路は、さらに、前記タイムスロット毎および前記サブバンド毎の前記振幅情報を前記所定の調整係数に依存させて調整することにより、前記QMF係数列を調整してもよい。
これにより、QMF係数の振幅情報が、調整係数に応じて、適応的に調整される。
また、前記調整部は、さらに、前記QMF係数列の調整前または調整後に、前記QMF係数列から、予め定められた帯域幅に対応する新たなQMF係数列を取り出す帯域制限部を備えてもよい。
これにより、必要な周波数帯域のQMF係数のみが得られる。
また、前記調整部は、前記QMF係数列を調整する割合をサブバンド毎に重み付けして、前記サブバンド毎に前記QMF係数列を調整してもよい。
これにより、周波数帯域に応じて、適応的に、QMF係数が調整される。
また、前記調整部は、さらに、前記QMF係数列の調整前または調整後に、前記QMF係数列を時間および周波数の分解能が異なる新たなQMF係数列に変換する領域変換器を備えてもよい。
これにより、QMF係数列が、処理に応じたサブバンド数を有するQMF係数列に変換される。
また、前記調整部は、調整前の前記QMF係数列から過渡成分を検出し、検出した前記過渡成分を調整前の前記QMF係数列から取り出し、取り出した前記過渡成分を調整し、調整した前記過渡成分を調整後の前記QMF係数列に戻すことにより、前記QMF係数列を調整してもよい。
これにより、時間伸張処理に不適切な過渡成分による影響が抑制される。
また、前記音響信号処理装置は、さらに、調整後の前記QMF係数列から、予め定められた変換係数を用いて、調整前の前記QMF係数列に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する高域生成部と、前記高周波数帯域のうち、前記高域生成部によって前記高域係数列が生成されなかった周波数帯域である欠落帯域の係数を前記欠落帯域の両側に隣接する帯域に属する前記高域係数列を用いて補完する高域補完部とを備えてもよい。
これにより、高周波数帯域に対応するQMF係数が得られる。
また、本発明に係る音響符号化装置は、第1音響信号列を符号化する音響符号化装置であって、前記第1音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、第1QMF係数列に変換する第1フィルタバンクと、前記第1音響信号列をダウンサンプリングすることにより、第2音響信号列を生成するダウンサンプリング部と、前記第2音響信号列を符号化する第1符号化部と、前記第2音響信号列を、QMF解析フィルタを用いて、第2QMF係数列に変換する第2フィルタバンクと、前記第2QMF係数列を所定の調整係数に依存させて調整する調整部と、前記第1QMF係数列と、調整された前記第2QMF係数列とを比較することで、復号に用いられるパラメータを生成し、前記パラメータを符号化する第2符号化部と、符号化された前記第2音響信号列と、符号化された前記パラメータとを重畳する重畳部とを備えてもよい。
これにより、QMF領域での音響信号処理を用いて、音響信号が符号化される。したがって、演算量の大きな従来の音響信号処理が用いられないため、演算量が低減する。また、QMF領域での音響信号処理により得られたQMF係数は、時間領域の音響信号に変換されることなく、後段の処理に用いられる。したがって、さらに、演算量が低減する。
また、本発明に係る音響復号装置は、入力されたビットストリームから、第1音響信号列を復号する音響復号装置であって、入力された前記ビットストリームから、符号化されたパラメータと符号化された第2音響信号列とに分離する分離部と、符号化された前記パラメータを復号する第1復号部と、符号化された前記第2音響信号列を復号する第2復号部と、前記第2復号部によって復号された前記第2音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列に変換する第1フィルタバンクと、前記QMF係数列を所定の調整係数に依存させて調整する調整部と、復号された前記パラメータを用いて、調整後の前記QMF係数列から、調整前の前記QMF係数列に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する高域生成部と、前記高域係数列、および、調整前の前記QMF係数列を、QMF合成フィルタを用いて、時間領域の前記第1音響信号列に変換する第2フィルタバンクとを備えてもよい。
これにより、QMF領域での音響信号処理を用いて、音響信号が復号される。したがって、演算量の大きな従来の音響信号処理が用いられないため、演算量が低減する。また、QMF領域での音響信号処理により得られたQMF係数は、時間領域の音響信号に変換されることなく、後段の処理に用いられる。したがって、さらに、演算量が低減する。
また、本発明に係る音響信号処理方法は、所定の調整係数を用いて、入力音響信号列を変換する音響信号処理方法であって、前記入力音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列へ変換する変換ステップと、前記QMF係数列を前記所定の調整係数に依存させて調整する調整ステップとを含んでもよい。
これにより、本発明に係る音響信号処理装置が、音響信号処理方法として実現される。
また、本発明に係る音響符号化方法は、第1音響信号列を符号化する音響符号化方法であって、前記第1音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、第1QMF係数列に変換する第1変換ステップと、前記第1音響信号列をダウンサンプリングすることにより、第2音響信号列を生成するダウンサンプリングステップと、前記第2音響信号列を符号化する第1符号化ステップと、前記第2音響信号列を、QMF解析フィルタを用いて、第2QMF係数列に変換する第2変換ステップと、前記第2QMF係数列を所定の調整係数に依存させて調整する調整ステップと、前記第1QMF係数列と、調整された前記第2QMF係数列とを比較することで、復号に用いられるパラメータを生成し、前記パラメータを符号化する第2符号化ステップと、符号化された前記第2音響信号列と、符号化された前記パラメータとを重畳する重畳ステップとを含んでもよい。
これにより、本発明に係る音響符号化装置が、音響符号化方法として実現される。
また、本発明に係る音響復号方法は、入力されたビットストリームから、第1音響信号列を復号する音響復号方法であって、入力された前記ビットストリームから、符号化されたパラメータと符号化された第2音響信号列とに分離する分離ステップと、符号化された前記パラメータを復号する第1復号ステップと、符号化された前記第2音響信号列を復号する第2復号ステップと、前記第2復号ステップによって復号された前記第2音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列に変換する第1変換ステップと、前記QMF係数列を所定の調整係数に依存させて調整する調整ステップと、復号された前記パラメータを用いて、調整後の前記QMF係数列から、調整前の前記QMF係数列に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する高域生成ステップと、前記高域係数列、および、調整前の前記QMF係数列を、QMF合成フィルタを用いて、時間領域の前記第1音響信号列に変換する第2変換ステップとを含んでもよい。
これにより、本発明に係る音響復号装置が、音響復号方法として実現される。
また、本発明に係るプログラムは、前記音響信号処理方法に含まれるステップをコンピュータに実行させるためのプログラムであってもよい。
これにより、本発明に係る音響信号処理方法が、プログラムとして実現される。
また、本発明に係るプログラムは、前記音響符号化方法に含まれるステップをコンピュータに実行させるためのプログラムであってもよい。
これにより、本発明に係る音響符号化方法が、プログラムとして実現される。
また、本発明に係るプログラムは、前記音響復号方法に含まれるステップをコンピュータに実行させるためのプログラムであってもよい。
これにより、本発明に係る音響復号方法が、プログラムとして実現される。
また、本発明に係る集積回路は、所定の調整係数を用いて、入力音響信号列を変換する集積回路であって、前記入力音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列へ変換するフィルタバンクと、前記QMF係数列を前記所定の調整係数に依存させて調整する調整部とを備えてもよい。
これにより、本発明に係る音響信号処理装置が、集積回路として実現される。
また、本発明に係る集積回路は、第1音響信号列を符号化する集積回路であって、前記第1音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、第1QMF係数列に変換する第1フィルタバンクと、前記第1音響信号列をダウンサンプリングすることにより、第2音響信号列を生成するダウンサンプリング部と、前記第2音響信号列を符号化する第1符号化部と、前記第2音響信号列を、QMF解析フィルタを用いて、第2QMF係数列に変換する第2フィルタバンクと、前記第2QMF係数列を所定の調整係数に依存させて調整する調整部と、前記第1QMF係数列と、調整された前記第2QMF係数列とを比較することで、復号に用いられるパラメータを生成し、前記パラメータを符号化する第2符号化部と、符号化された前記第2音響信号列と、符号化された前記パラメータとを重畳する重畳部とを備えてもよい。
これにより、本発明に係る音響符号化装置が、集積回路として実現される。
また、本発明に係る集積回路は、入力されたビットストリームから、第1音響信号列を復号する集積回路であって、入力された前記ビットストリームから、符号化されたパラメータと符号化された第2音響信号列とに分離する分離部と、符号化された前記パラメータを復号する第1復号部と、符号化された前記第2音響信号列を復号する第2復号部と、前記第2復号部によって復号された前記第2音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列に変換する第1フィルタバンクと、前記QMF係数列を所定の調整係数に依存させて調整する調整部と、復号された前記パラメータを用いて、調整後の前記QMF係数列から、調整前の前記QMF係数列に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する高域生成部と、前記高域係数列、および、調整前の前記QMF係数列を、QMF合成フィルタを用いて、時間領域の前記第1音響信号列に変換する第2フィルタバンクとを備えてもよい。
これにより、本発明に係る音響復号装置が、集積回路として実現される。
本発明により、低い演算量で、音響信号処理を実現できる。
図1は、実施の形態1に係る音響信号処理装置を示す構成図である。 図2は、実施の形態1に係る時間伸張処理を示す説明図である。 図3は、音響復号装置を示す構成図である。 図4は、実施の形態1に係る周波数変調回路を示す構成図である。 図5Aは、実施の形態2に係るQMF係数ブロックを示す説明図である。 図5Bは、QMF領域でのタイムスロット毎のエネルギー分布を示す図である。 図5Cは、QMF領域でのサブバンド毎のエネルギー分布を示す図である。 図6Aは、過渡成分に応じた時間伸張処理の第1パターンを示す説明図である。 図6Bは、過渡成分に応じた時間伸張処理の第2パターンを示す説明図である。 図6Cは、過渡成分に応じた時間伸張処理の第3パターンを示す説明図である。 図7Aは、実施の形態2に係る過渡成分抽出処理を示す説明図である。 図7Bは、実施の形態2に係る過渡成分挿入処理を示す説明図である。 図8は、過渡位置とQMF位相遷移割合との線形関係を示す図である。 図9は、実施の形態2に係る時間伸張処理のフローチャートである。 図10は、実施の形態2に係る時間伸張処理の変形例のフローチャートである。 図11は、実施の形態3に係る時間伸張処理を示す説明図である。 図12は、実施の形態4に係る時間伸張処理を示す説明図である。 図13は、実施の形態5に係る音響信号処理装置を示す構成図である。 図14は、実施の形態5に係る音響信号処理装置の第1変形例を示す構成図である。 図15は、実施の形態5に係る音響信号処理装置の第2変形例を示す構成図である。 図16Aは、リサンプリング処理によりピッチシフト処理された出力を示す図である。 図16Bは、時間伸張処理により期待される出力を示す図である。 図16Cは、時間伸張処理により誤った出力を示す図である。 図17は、実施の形態6に係る音響信号処理装置を示す構成図である。 図18は、実施の形態6に係るQMF領域変換処理を示す概念図である。 図19は、実施の形態6に係る周波数変調処理のフローチャートである。 図20Aは、QMFプロトタイプフィルタの振幅応答を示す図である。 図20Bは、周波数と振幅との関係を示す図である。 図21は、実施の形態6に係る音響符号化装置を示す構成図である。 図22は、音質の評価を示す説明図である。 図23Aは、実施の形態7に係る音響信号処理装置を示す構成図である。 図23Bは、実施の形態7に係る音響信号処理装置の処理を示すフローチャートである。 図24は、実施の形態7に係る音響信号処理装置の変形例を示す構成図である。 図25は、実施の形態7に係る音響符号化装置を示す構成図である。 図26は、実施の形態7に係る音響符号化装置の処理を示すフローチャートである。 図27は、実施の形態7に係る音響復号装置を示す構成図である。 図28は、実施の形態7に係る音響復号装置の処理を示すフローチャートである。 図29は、実施の形態7に係る音響復号装置の変形例を示す構成図である。 図30Aは、時間伸張処理前の音響信号の状態を示す説明図である。 図30Bは、時間伸張処理後の音響信号の状態を示す説明図である。 図31は、QMF解析処理およびQMF合成処理を示す説明図である。
以下、本発明の実施の形態を、図面を参照しながら説明する。
(実施の形態1)
実施の形態1に係る音響信号処理装置は、入力された音響信号に対して、QMF変換を行い、位相調整を行い、逆QMF変換を施すことで、時間伸張処理を実現する。
図1は、実施の形態1に係る音響信号処理装置の構成図である。まず、はじめに、QMF解析フィルタバンク901は、入力された音響信号をQMF係数X(m,n)に変換する。ここで、mは、サブバンドインデックスを示し、nは、タイムスロットインデックスを示す。調整回路902は、変換で得られたQMF係数を調整する。以下、調整回路902での調整に関して説明する。式11は、調整前の各QMF係数を、それぞれの振幅および位相を用いて表現している。
Figure 2011048792
r(m、n)は、振幅情報を示し、a(m、n)は、位相情報を示す。調整回路902は、位相情報a(m,n)を位相情報
Figure 2011048792
に調整する。調整回路902は、調整後の位相情報と調整前の振幅情報r(m,n)によって、新しいQMF係数を式12に従って計算する。
Figure 2011048792
最後に、QMF合成フィルタバンク903は、式12で計算された新しいQMF係数を時間信号に変換する。以下に、位相情報を調整する手法に関して説明する。
実施の形態1において、QMFベースの時間伸張処理は、次に示すステップで構成される。すなわち、時間伸張処理は、(1)位相情報を調整するステップと、(2)QMF変換の加法定理に基づいて、QMF領域でのオーバーラップ加算を実行するステップとで、構成される。
以下は、時間伸張に関する説明で、2Lサンプルの実数値の時間信号を伸張係数sで時間伸張を行う場合の例である。QMF解析フィルタバンク901は、例えば、2Lサンプルの実数値の時間信号を、2L/M個の時間スロットおよびM個のサブバンドで構成される2L個のQMF係数に変換する。すなわち、QMF解析フィルタバンク901は、2Lサンプルの実数値の時間信号を合成周波数領域のQMF係数に変換する。
STFTベースの時間伸張方法と同じように、QMF変換によって算出されるQMF係数は、位相情報を調整する前段で、解析窓関数の影響を受けやすい。実施の形態1では、QMF係数への変換を下記の3ステップで実現する。
(1)解析窓関数h(n)(窓長L)がQMF領域用に変換されることにより、QMF領域用の解析窓関数H(ν,k)(L/M個のタイムスロットと、M個のサブバンドで構成)が算出される。
(2)算出された解析窓関数H(ν,k)は、
Figure 2011048792
によって、簡易化される。
(3)QMF解析フィルタバンク901は、X(m,k)=X(m,k)・H0(w)(ここで、w=mod(m,L/M)、mod()は剰余を算出する演算である)によって、QMF係数を算出する。
元々のQMF係数は、図2の上段に示すようにL/M個のタイムスロットで、ホップサイズが1タイムスロット毎にオーバーラップされたL/M+1個のQMFブロックで構成される。
調整回路902は、位相情報が非連続になることを確実に避けるため、調整前の各QMFブロックの位相情報を調整し、新しいQMFブロックを構成する。つまり、μ番目とμ+1番目のQMFブロックがオーバーラップしている場合に新しいQMFブロックの位相情報はμ・sサンプル点において連続性を確保する必要がある(sは伸張係数)。これは、時間領域で言うと、ジャンプポイントμ・M・s(μ∈N)における連続性を確保することに相当する。
調整回路902は、調整前の各QMFブロックの位相情報φu(k)を、複素数であるQMF係数X(u,k)(タイムスロットインデックスu=0,…,2L/M−1、サブバンドインデックスk=0,1,…,M−1)から算出する。図2の中段に示すように、調整回路902は、各QMFブロックを、タイムスロットが古い順番から演算して、新しいQMFブロックを生成する。各QMFブロックは、それぞれ、異なる模様で図示されている。図2は、2タイムスロット分のホップサイズでずらして処理する場合を示している。
n番目(n=1,…,L/M+1)の新しいQMFブロックの位相情報は、ψu (n)(k)(タイムスロットインデックスu=0,…,L/M−1、サブバンドインデックスk=0,1,…,M−1)として表現される。新しい位相情報ψu (n)(k)は、時間伸張後の新しいQMFブロックが、どこに再配置されるかで異なる。
1番目のQMFブロックX(1)(u,k)(u=0,…,L/M−1)が再配置される際、そのQMFブロックの新しい位相情報ψu (1)(k)は、調整前のQMFブロックの位相情報φu(k)と同じとする。すなわち、新しい位相情報ψu (1)(k)は、ψu (1)(k)=φu(k)(u=0,…,L/M−1、k=0,1,…,M−1)で算出される。
2番目のQMFブロックX(2)(u,k)(u=0,…,L/M−1)は、sタイムスロットのホップサイズだけ移動して再配置される(図2は、2タイムスロットの場合を示している)。この場合、ブロックの先頭の周波数成分は、1番目の新しいQMFブロックX(1)(u,k)のs番目のタイムスロットと連続している必要がある。従って、X(2)(u,k)の1番目のタイムスロットの周波数成分は、元々のQMFブロックの2番目のタイムスロットの周波数成分と一致させる。すなわち、新しい位相情報ψ0 (2)(k)は、ψ0 (2)(k)=ψ0 (1)(k)+Δφ1(k)で算出される。
1番目のタイムスロットの位相情報が変わったため、残りの位相情報も、元々のQMFブロックの位相情報に応じて調整される。すなわち、新しい位相情報ψu (2)(k)は、ψu (2)(k)=ψu-1 (2)(k)+Δφu+1(k)(u=0,…,L/M−1)で算出される。
ここで、Δφu(k)は、Δφu(k)=φu(k)−φu-1(k)で算出され、調整前のQMFブロックの位相差である。
調整回路902は、以上のプロセスをL/M+1回繰り返して、調整後のQMFブロックを生成する。すなわち、m番目(m=3,…,L/M+1)の新しいQMFブロックの調整後の位相情報ψu (m)(k)は、式13および式14で算出される。
ψ0 (m)(k)=ψ0 (m-1)(k)+Δφm-1(k) (式13)
ψu (m)(k)=ψu-1 (m)(k)+Δφm+u-1(k)(u=1,…,L/M−1) (式14)
調整回路902は、新しいQMFブロックの振幅情報に元々のQMFブロックの振幅情報を用いることで、新しいQMFブロックのQMF係数を算出することが可能になる。
調整回路902は、QMF領域の偶数番目のサブバンドと奇数番目のサブバンドとで異なる調整方法により、位相情報を調整してもよい。例えば、調波構造が強い(トナリティの強い)音響信号では、QMF領域において、周波数成分毎に位相差情報(Δφ(n,k)=φ(n,k)−φ(n−1,k))が異なる。この場合、調整回路902は、瞬時周波数成分ω(n,k)を式15により決定する。
Figure 2011048792
ここで、princarg(α)は、αの変換を示し、式16のように定義される。
princarg(α)=mod(α+π,−2π)+π (式16)
mod(a,b)は、aをbで割った余りを示す。
これらをまとめると、上記の位相調整方法における、位相差情報Δφu(k)は、式17により算出される。
Figure 2011048792
更に、QMF合成フィルタバンク903は、時間伸張処理の演算量を削減するため、QMF合成処理を新しいQMFブロックの各々に対して適用しなくてもよい。その代わり、QMF合成フィルタバンク903は、新しいQMFブロックをオーバーラップ加算し、得られた信号に対して、QMF合成処理を適用する。
STFTベースの伸張処理と同じように、QMF変換によって算出されるQMF係数は、オーバーラップ加算する前段階で、合成窓関数の影響を受けやすい。そこで、上述の解析窓関数と同様に、合成窓関数は、X(n+1)(u,k)=X(n+1)(u,k)・H0(w)(ここでw=mod(u,L/M))によって実現する。
QMF変換では加法定理が成立するため、L/M+1個のすべてのQMFブロックはsタイムスロットのホップサイズでオーバーラップ加算することが可能である。オーバーラップ加算の結果であるY(u,k)は、式18で算出される。
Y(ns+u,k)=Y(ns+u,k)+X(n+1)(u,k)(n=0,…,L/M、u=1,…,L/M,k=0,1,…,M−1) (式18)
QMF合成フィルタバンク903は、最終的な時間伸張後の音響信号を、上記Y(u,k)にQMF合成フィルタを適用することで、生成することが可能である。元の信号に対して、s倍の時間伸張処理を施すことができることは、Y(u,k)の時間インデックスuの範囲からも明らかである。
上述の式12に示したように、実施の形態1では、調整回路902は、QMF領域で位相調整および振幅調整を行う。これまでにも述べているとおり、QMF解析フィルタバンク901は、単位時間毎に区切られた音響信号をQMFフィルタで逐次QMF係数(QMFブロック)に変換する。そして、調整回路902は、予め指定された伸張率(s倍、たとえばs=2,3,4など)に応じて隣り合うQMFブロック毎の位相および振幅の連続性を保持するように、各QMFブロックの振幅および位相を調整する。これにより、フェーズボコーダー処理が実現される。
QMF合成フィルタバンク903は、QMF領域でフェーズボコーダー処理されたQMF係数を、時間領域の信号へ変換する。これにより、s倍に伸張された時間領域の音響信号が得られる。また、時間伸張処理の後段の信号処理によって、QMF係数の方が、都合が良い場合がある。例えば、QMF領域でフェーズボコーダー処理されたQMF係数に、SBR技術に基づく帯域拡大処理など、何らかの音響処理が施されてもよい。そして、後段の信号処理の後、QMF合成フィルタバンク903は、時間領域の音響信号に変換する構成を取っても良い。
図3に示された構成は、そのような組み合わせの一例である。これは、QMF領域でのフェーズボコーダー処理と、音響信号の帯域拡大技術とを組み合わせた音響復号装置の一例である。以下に、フェーズボコーダー処理を用いた音響復号装置の構成を説明する。
分離部1201は、入力のビットストリームを、高域生成のためのパラメータと、低域復号のための符号化情報とに分離する。パラメータ復号部1207は、高域生成のためのパラメータを復号する。復号部1202は、低域復号のための符号化情報から、低域成分の音響信号を復号する。QMF解析フィルタバンク1203は、復号された音響信号をQMF領域の音響信号に変換する。
周波数変調回路1205および時間伸張回路1204は、QMF領域の音響信号に、前記フェーズボコーダー処理を施す。その後、高域生成回路1206は、高域生成のためのパラメータを用いて高域周波数成分の信号を生成する。概形調整回路1208は、高域成分の周波数概形を調整する。QMF合成フィルタバンク1209は、QMF領域における低域成分および高域成分の音響信号を時間領域の音響信号へ変換する。
なお、上記低域成分の符号化処理または復号処理には、MPEG−AAC方式、MPEG−Layer3などの音響符号化方式が用いられてもよいし、あるいは、ACELPなどの音声符号化方式が用いられてもよい。
また、調整回路902は、QMF領域でフェーズボコーダー処理を行う際、式12による調整後のQMF係数の算出に、QMFブロックのサブバンドインデックス毎に重み付け演算を行ってもよい。これにより、調整回路902は、サブバンドインデックス毎に異なる値を持つ変調係数で変調することも可能である。たとえば、高域周波数に対応するサブバンドインデックスにおいて、伸張時に歪みが大きくなる音響信号がある。調整回路902は、そういう音響信号を小さくするような変調係数を用いてもよい。
さらに、QMF領域でフェーズボコーダー処理をする別の構成として、音響信号処理装置は、QMF解析フィルタバンク901の後段に、さらに、別のQMF解析フィルタバンクを備えてもよい。QMF解析フィルタバンク901のみでは低域の周波数分解能が低い場合がある。その場合、低域成分を多く含む音響信号にフェーズボコーダー処理を施しても、十分な効果が得られない。
そこで、低域成分の周波数分解能を向上させるため、低域部分(たとえば、QMF解析フィルタバンク901の出力に含まれる全QMFブロックの半分)を解析するための別のQMF解析フィルタバンクが用いられてもよい。これにより、周波数分解能が2倍に向上する。その上で、調整回路902は、上述のような、QMF領域でのフェーズボコーダー処理を施す。これにより、音質を維持したまま、演算量およびメモリ消費量の削減効果が高くなる。
図4は、QMF領域の分解能を向上させる構成の例を示す図である。QMF合成フィルタバンク2401は、入力の音響信号を一旦QMF合成フィルタで合成する。その後、QMF解析フィルタバンク2402は、2倍の解像度のQMF解析フィルタで、QMF係数を算出する。2倍の分解能になったQMF領域の信号に対して、2倍の時間伸張と、2倍、3倍または4倍のピッチシフト処理を行うフェーズボコーダー処理回路(第1時間伸張回路2403、第2時間伸張回路2404および第3時間伸張回路2405)が並列に構成される。
そして、各フェーズボコーダー処理回路は、2倍の解像度で、伸張割合の異なるフェーズボコーダー処理を統一的に行う。そして、マージ回路2406は、フェーズボコーダー処理された信号を合成する。
QMFフィルタによるフェーズボコーダー処理は、上記からもわかるように、STFTベースのフェーズボコーダー処理と比較して、演算量の大きなFFT処理を用いる必要がない。そのため、演算量を大幅に削減できるという顕著な効果が存在する。
(実施の形態2)
実施の形態2として、実施の形態1に記載のブロックベースによる時間軸伸張方法を拡張する形態を述べる。実施の形態2に係る音響信号処理装置は、図1に示された実施の形態1に係る音響信号処理装置と同様の構成要素を備える。そして、上述の位相情報の不連続による影響を避けるため、位相情報の算出は、下記の2種類の方法で行われる。
(a)調整回路902は、調整後のQMFブロックにおいて、オーバーラップしているタイムスロットの位相情報がブロック間で連続するように、位相情報を調整する。すなわち、調整回路902は、ψ0 (m)(k)=ψ0 (m-1)(k)+Δφm-1(k)により、位相情報を調整する。
(b)調整回路902は、調整後の各QMFブロックにおいて、ブロック内で連続しているタイムスロット間で位相情報が連続するように、位相情報を調整する。すなわち、調整回路902は、ψu (m)(k)=ψu-1 (m)(k)+Δφm+u-1(k)(ここで、u=1,…,L/M−1)により、位相情報を調整する。
上記では、位相情報の調整方法は、トナリティの強い成分に応じて、位相情報が調整前のQMFブロックから変化していると仮定している。
しかしながら、実際には、上述の仮定は常に正しいとは限らない。典型的には、元の信号が音響的に過渡的な信号の場合、上述の仮定は正しくない。過渡信号は、時間領域で鋭いアタック音がある場合など、非定常な形式の信号である。位相情報と周波数成分の間に一定の関係を仮定することで、次のことが分かる。すなわち、トナリティの強い成分が離散的に大量に含まれており、かつ、短い時間間隔の間に間隔の広い周波数成分が含まれているような場合、過渡信号を処理することが困難である。結果として、伸縮処理により、知覚できる音響的な歪みを有する出力信号が、生成されることになってしまう。
実施の形態2では、過渡信号を多く含む信号を伸張処理する際に発生する上記の問題に対処するため、実施の形態1に係る位相情報の調整を伴う時間伸縮処理が、トナリティの強い信号と過渡信号との両方に対応可能な時間伸縮処理に変形される。
まず初めに、調整回路902は、潜在的に問題になりそうな時間伸縮処理を除外するため、過渡信号に含まれる過渡成分をQMF領域で検出する。
過渡状態を検出する手法は、様々な手法があり、数多くの文献で開示されている。実施の形態2では、QMFブロックでの過渡応答を検出する2つの簡単な手法が示される。
図5Aは、QMF変換により算出されたQMFブロックX(u,k)(2L/M個のタイムスロット、M個のサブバンド)に対して時間伸張する場合に関して説明するための説明図である。1つめの手法は、前記QMFブロック毎のエネルギー値の変化に応じて過渡状態を検出する方法であり、2つめの手法は、周波数軸でQMFブロック毎の振幅値の変化を検出する方法である。
1つめの検出方法は、次の通りである。調整回路902は、図5Bに示されるように、各QMFブロックのタイムスロット毎にエネルギー値E0〜E2L/M-1を算出する。図5Cは、サブバンド毎のエネルギー値を示す図である。調整回路902は、タイムスロット毎にエネルギー値の差分をdEu=Eu+1−Eu(ここでu=0,…,2L/M−2)として算出する。所定の閾値T0により、もし、
Figure 2011048792
である場合、i番目のタイムスロットにおいて過渡成分が検出される。
2つめの検出方法は、次の通りである。QMFブロックに含まれるすべてのタイムスロットおよびサブバンドでの振幅がA(u,k)である場合、各タイムスロットについて、振幅情報の概形は、
Figure 2011048792
として計算される。所定の閾値T1とT2により、Fi>T1であり、
Figure 2011048792
である場合、i番目のタイムスロットにおいて過渡成分が検出される。
もし、u0番目のタイムスロットで過渡成分が検出された場合、上記の位相情報の伸張処理は、u0番目のタイムスロットを含む新しいQMFブロックに対して、修正される。
伸張処理の修正は、2つの目的を持っている。1つは、任意の位相情報伸張処理においてu0番目のタイムスロットの処理をさけるためである。もう1つは、仮にu0番目のタイムスロットが何も処理されずにバイパスされている場合、QMFブロック内およびQMFブロック間の連続性を保持するためである。これら2つの目的を達成するために、前記の位相情報伸張処理は次のように修正される。
m番目の新しいQMFブロック(m=2,…,L/M+1)において、その位相ψu (m)(k)は、次のようになる。
(a)m<u0<m+L/M−1の場合、QMFブロック内の位相情報の連続性を担保するために、位相ψu (m)(k)は、
Figure 2011048792
で算出される(図6A)。
(b)m=u0かつmod(u0,s)=0の場合、任意の位相情報処理からu0番目のタイムスロットの処理を避けるために、位相ψ0 (m)(k)は、
Figure 2011048792
で算出される(図6B)。また、QMFブロック間での位相情報の連続性を担保するために、位相ψ1 (m)(k)は、
Figure 2011048792
で算出される。
(c)m=u0かつmod(u0,s)≠0の場合、任意の位相情報処理からu0番目のタイムスロットの処理を避けるために、位相ψ0 (m)(k)は、
Figure 2011048792
で算出される(図6C)。また、QMFブロック間の位相情報の連続性を担保するために、位相ψ1 (m)(k)は、
Figure 2011048792
で算出される。
実際のところ、音響的観点から、上記の過渡信号に対する伸張処理は、好ましくない場合も多い。調整回路902は、過渡信号を伸張処理しない代わりに、QMFブロックから過渡信号成分を取り除いたうえで伸張処理を施し、伸張処理したQMFブロックに対して、さきほど取り除いた過渡信号を戻してもよい。
図7Aおよび図7Bには、上述の処理が示されている。ここでは、QMF変換によって算出されたQMFブロック信号X(u,k)(L/M個のタイムスロットおよびM個のサブバンドを有すると仮定)が時間伸張される場合で、かつ、上記の過渡信号検出方法でu0番目のタイムスロットで過渡信号が検出されている場合を説明する。各ブロックの時間伸張は、次のステップで実施される。
(1)調整回路902は、u0番目のタイムスロット成分をQMFブロックから取り除き、取り出したu0番目のタイムスロットを“0”詰め、あるいは、“内挿”処理をする。
(2)調整回路902は、新しいQMFブロックの信号を、上記伸張方法に従って、s・L/M個のタイムスロットへ伸張する。
(3)調整回路902は、上記(1)で取り除いたタイムスロットの信号を、上記(2)で伸張したブロックの位置(s・u0番目のタイムスロットの位置)に挿入する。
ここで、上記の手法は、s・u0番目のタイムスロットが過渡応答成分に対する適切な位置でない場合の単純な例でもある。それは、QMF変換の時間分解能が低いためである。
より高音質な時間伸張回路を実現するためには、上記の単純化された例を拡張することが必要になる。そして、過渡応答成分の正確な位置が必要になる。実際には、QMF領域のいくつかの情報、たとえば、振幅情報および位相遷移情報などは、過渡応答成分の正確な位置を特定するために有用である。
過渡応答成分の位置(以下では、過渡位置と呼ぶ)は、各QMFブロックの信号の振幅成分および位相遷移情報のそれぞれを検出する2つのステップによって特定されることが好ましい。t0時刻でのみにインパルス成分が存在する場合を説明する。インパルス成分は、過渡応答成分の典型的な例である。
まず、調整回路902は、QMF領域で各QMFブロックの振幅情報を算出することで、過渡位置t0の大まかな推定を行う。
上記のQMF変換の手続きを考慮すると、次のことが分かる。すなわち、解析窓処理をしているため、インパルス成分はQMF領域の複数のタイムスロットにわたって、影響を与える。これらのタイムスロットの振幅値の分布を解析することで、次の2つの場合が存在することが分かった。
(1)n0番目のタイムスロットが、より高いエネルギー(振幅値の自乗)を持っている場合、調整回路902は、(n0−5)・64−32<t0<(n0−5)・64+32として、過渡位置t0を推定する。
(2)n0−1番目とn0番目のタイムスロットがほぼ同じエネルギーである場合、調整回路902は、t0=(n0−5)・64−32として、過渡位置t0を推定する。
(n0−5)は、QMF解析フィルタバンク901で5つのタイムスロット分だけ遅延させておくことを示している。また、上記(2)の場合、調整回路902は、過渡位置を振幅解析のみによって正確に決定することができる。
そして、上記(1)の場合、調整回路902は、QMF領域の位相情報を用いることで、更に効率的に過渡位置t0を決定することができる。
以下、n0番目のタイムスロット内の位相情報φ(n0,k)(k=0,1,…,M−1)を解析する場合について説明する。2πで巡回(ラウンド)する位相情報φ(n0,k)の遷移割合は、過渡位置t0と、過渡位置t0に最も近い左(時間的に過去)のタイムスロット、あるいは、n0番目のタイムスロットの中間の位置との間に完全線形関係を有しなければならない。つまり、k・Δt=C0−g0が成立する。ここで、位相遷移割合は、
Figure 2011048792
である。
unwrap(P)は、ラジアン位相Pを2πで巡回させ、π以上の変化を修正する関数である。C0は定数である。
Δtは、過渡位置t0と、過渡位置t0に最も近い左(時間的に過去)のタイムスロット、または、n0番目のタイムスロットとの距離である。つまり、Δtは、式19によって算出される。
Figure 2011048792
上記のパラメータの例は、式20によって示されるような値である。
Figure 2011048792
図8は、過渡位置t0とQMF位相遷移割合g0との間にある線形関係を示す図である。図8に示されているように、n0(最もエネルギーが高いタイムスロットのインデックス)が固定である限り、t0とg0とは、一対一に対応づけられる。
上記に基づいて、別の例を説明する。それは、QMF領域において、時間伸張処理をしている間に過渡成分を扱う手法である。上述の簡易手法と比較すると、本手法は、次の点に利点がある。すなわち、本手法は、元々の信号の過渡位置を正確に検出することができる。また、本手法は、時間伸張された過渡成分が存在するタイムスロットも、適切な位相情報とともに検出することができる。本手法の詳細を次に記載する。なお、本手法の手順は、図9にフローチャートとしても示される。
QMF解析フィルタバンク901は、入力された時間信号時間信号x(n)を受け取る(S2001)。QMF解析フィルタバンク901は、時間伸張の対象となる時間信号x(n)から、QMFブロックX(m,k)を計算する(S2002)。ここで、X(m,k)の振幅はr(m,k)であり、位相情報はφ(m,k)であるとする。このQMFブロックに過渡成分の信号が含まれる場合、最適な時間伸張手法は次の通りである。
(a)調整回路902は、過渡信号の存在するタイムスロットm0を、エネルギー分布に基づいて、式21により、検出する(S2003)。
Figure 2011048792
(b)調整回路902は、過渡応答が存在するタイムスロットのうち、過渡応答が目立つタイムスロットの位相遷移割合
Figure 2011048792
を推定する(S2004)。すなわち、調整回路902は、タイムスロットの位相角ω0と位相遷移割合
Figure 2011048792
を推定する。
(c)調整回路902は、多項式残差を式22で算出する。
Figure 2011048792
(d)調整回路902は、過渡位置t0を式23に従って決定する(S2005)。
Figure 2011048792
ここで、定数Kは、K=0.0491である。
(e)調整回路902は、過渡状態にある領域を式24に従って決定する(S2006)。
Figure 2011048792
調整回路902は、スカラー値を用いて、過渡状態にある領域内でQMF係数を式25に従って小さくする(S2007)。
Figure 2011048792
αは、小さい値であって、たとえばα=0.001である。
(f)調整回路902は、過渡状態にないQMFブロックに対して通常の時間伸張処理を施す(S2008)。
(g)調整回路902は、次のように、過渡位置s・t0における新しいタイムスロットおよび位相遷移割合を計算する。
<i>調整回路902は、時間伸張したタイムスロットインデックスm1をm1=ceil((s・t0−32)/64)+5により算出する(S2009)。ここで、ceilは、最も近い整数に切り上げる処理である。
<ii>調整回路902は、過渡位置と、新しいタイムスロットの最も近い左(時間的に過去)の位置との距離を式26に従って算出する。
Δt1=s・t0−(m1−5)・64+32 (式26)
<iii>調整回路902は、新しい位相遷移割合を式27で算出する。
Figure 2011048792
(h)調整回路902は、過渡応答の目立つタイムスロットm1でのQMF係数を新たに合成する。
タイムスロットm1の振幅は、伸張前のタイムスロットm0の振幅を継承している。調整回路902は、位相情報を新しい位相遷移割合と位相差に基づいて式28によって算出する(S2010)。
Figure 2011048792
そして、調整回路902は、新しいQMF係数を式29で算出する(S2011)。
Figure 2011048792
(i)調整回路902は、新しい過渡領域を式30で決定する(S2013)。
Figure 2011048792
(j)新しく決定した過渡領域
Figure 2011048792
に複数のタイムスロットが含まれる場合、調整回路902は、それらのタイムスロットの位相を式31により再調整する(S2015)。
Figure 2011048792
そして、調整回路902は、このようにして調整したタイムスロットで構成されるQMFブロック係数を、式32に従って再合成する。
Figure 2011048792
最後に、調整回路902は、時間伸張処理されたQMFブロックを出力する(S2012)。
演算量の観点では、過渡位置を検出するために実行される上記の(a)〜(d)は、直接時間領域での過渡応答検出手法で置き換えられてもよい。たとえば、時間領域で過渡位置を検出するための過渡位置検出部(図示せず)が、QMF解析フィルタバンク901の前段に配置される。そして、時間領域での過渡応答検出手法として典型的な手順は、次の通りである。
(1)過渡位置検出部は、時間信号x(n)(n=0,1,…,N・L0−1)を、長さL0のN個のセグメントに分割する。
(2)過渡位置検出部は、各セグメントでのエネルギーを
Figure 2011048792
として計算する。
(3)過渡位置検出部は、全体のセグメントでのエネルギーをElt(i)=α・Elt(i−1)+(1−α)・Es(i)に従って計算する。
(4)もし、Es(i)/Elt(i)>R1であり、Es(i)>R2であれば、過渡位置検出部は、i番目のセグメントは過渡応答成分を含んでいる過渡セグメントであるとして判断する。ここで、R1およびR2は、所定の閾値である。
(5)過渡位置検出部は、最終的な過渡位置の概算の位置として、過渡セグメントの真ん中の位置をt0=(i+0.5)・L0によって算出する。
もし、時間領域の過渡成分検出を用いる場合、図9のフローチャートは、図10のように変更される。
なお、実施の形態1と同様に、実施の形態2に係る音響信号処理をQMF領域での別の音響処理と組み合わせる構成も可能である。例えば、QMF解析フィルタバンク901は、単位時間毎に区切られた音響信号をQMFフィルタで逐次QMF係数(QMFブロック)に変換する。そして、調整回路902は、予め指定された伸張率(s倍、たとえばs=2,3,4など)に応じて隣り合うQMFブロック毎の位相および振幅の連続性を保持するように、各QMFブロックの振幅および位相を調整する。これにより、フェーズボコーダー処理が実現される。
QMF合成フィルタバンク903は、QMF領域でフェーズボコーダー処理されたQMF係数を、時間領域の信号へ変換する。これにより、s倍に伸張された時間領域の音響信号が得られる。また、時間伸張処理の後段の信号処理によって、QMF係数の方が、都合が良い場合がある。例えば、QMF領域でフェーズボコーダー処理されたQMF係数に、SBR技術に基づく帯域拡大処理など、何らかの音響処理が施されてもよい。そして、後段の信号処理の後、QMF合成フィルタバンク903は、時間領域の音響信号に変換する構成を取っても良い。
図3に示された構成は、そのような組み合わせの一例である。これは、QMF領域でのフェーズボコーダー処理と、音響信号の帯域拡大技術とを組み合わせた音響復号装置の一例である。以下に、フェーズボコーダー処理を用いた音響復号装置の構成を説明する。
分離部1201は、入力のビットストリームを高域生成のためのパラメータと低域復号のための符号化情報とに分離する。パラメータ復号部1207は、高域生成のためのパラメータを復号する。復号部1202は、低域復号のための符号化情報から、低域成分の音響信号を復号する。QMF解析フィルタバンク1203は、復号された音響信号をQMF領域の音響信号に変換する。
周波数変調回路1205および時間伸張回路1204は、QMF領域の音響信号に、前記フェーズボコーダー処理を施す。その後、高域生成回路1206は、高域生成のためのパラメータを用いて高域周波数成分の信号を生成する。概形調整回路1208は、高域成分の周波数概形を調整する。QMF合成フィルタバンク1209は、QMF領域における低域成分および高域成分の音響信号を時間領域の音響信号へ変換する。
なお、上記低域成分の符号化処理または復号処理には、MPEG−AAC方式、MPEG−Layer3などの音響符号化方式が用いられてもよいし、あるいは、ACELPなどの音声符号化方式が用いられてもよい。
さらに、QMF領域でフェーズボコーダー処理する別の構成として、音響信号処理装置は、QMF解析フィルタバンク901の後段に、さらに、別のQMF解析フィルタバンクを備えてもよい。QMF解析フィルタバンク901のみでは低域の周波数分解能が低い場合がある。その場合、低域成分を多く含む音響信号にフェーズボコーダー処理を施しても、十分な効果が得られない。
そこで、低域成分の周波数分解能を向上させるため、低域部分(たとえば、QMF解析フィルタバンク901の出力に含まれる全QMFブロックの半分)を解析するための別のQMF解析フィルタバンクが用いられてもよい。これにより、周波数分解能が2倍に向上する。その上で、調整回路902は、上述のような、QMF領域でのフェーズボコーダー処理を施す。これにより、音質を維持したまま、演算量およびメモリ消費量の削減の効果が高くなる。
図4は、QMF領域の分解能を向上させる構成の例を示す図である。QMF合成フィルタバンク2401は、入力の音響信号を一旦QMF合成フィルタで合成する。その後、QMF解析フィルタバンク2402は、2倍の解像度のQMF解析フィルタで、QMF係数を算出する。2倍の分解能になったQMF領域の信号に対して、2倍の時間伸張と、2倍、3倍または4倍のピッチシフト処理を行うフェーズボコーダー処理回路(第1時間伸張回路2403、第2時間伸張回路2404および第3時間伸張回路2405)が並列に構成される。
そして、各フェーズボコーダー処理回路は、2倍の解像度で、伸張割合の異なるフェーズボコーダー処理を統一的に行う。そして、マージ回路2406は、フェーズボコーダー処理された信号を合成する。
なお、実施の形態2に係る音響信号処理装置は、下記に示す構成を備えてもよい。
調整回路902は、入力の音響信号のトナリティ(音響調波構造の大きさ)と音響信号の過渡特性に応じて、柔軟に調整してもよい。調整回路902は、QMF領域の係数に過渡信号を検出することによって位相情報を調整してもよい。調整回路902は、位相情報の連続性を確保するように、かつ、QMF領域の係数の過渡信号成分が変化しないように、位相情報を調整してもよい。調整回路902は、時間伸縮を避けた過渡信号成分に関連したQMF係数を、過渡信号成分を伸張または圧縮したQMF係数に戻すことによって、位相情報を調整してもよい。
音響信号処理装置は、さらに、入力信号の過渡特性を検出する検出部と、検出部によって検出した過渡成分を弱める処理を施すアッテネーターとを備えてもよい。アッテネーターは、位相が調整される前段に備えられる。調整回路902は、時間伸張処理をした後で、弱める処理を施した過渡成分を拡張する。アッテネーターは、周波数領域の係数の振幅値を調整することにより、過渡成分を弱めてもよい。
調整回路902は、時間伸張した過渡成分について、周波数領域の振幅を増加させ、位相を調整することで、時間伸張した過渡成分を拡張してもよい。
(実施の形態3)
実施の形態3に係る音響信号処理装置は、入力された音響信号に対して、QMF変換を行い、QMF係数に対して位相調整および振幅調整を行うことにより、時間伸張および周波数変調処理を実現する。
実施の形態3に係る音響信号処理装置は、図1に示された実施の形態1に係る音響信号処理装置と同様の構成要素を備える。QMF解析フィルタバンク901は、入力の音響信号をQMF係数X(m,n)に変換する。調整回路902は、QMF係数を調整する。調整前のQMF係数X(m,n)は、振幅および位相を用いて、式33のように表現される。
Figure 2011048792
位相情報a(m,n)は、調整回路902で調整されて、
Figure 2011048792
となる。調整回路902は、調整後の位相情報と元の振幅情報r(m,n)によって、新しいQMF係数を式34に従って計算する。
Figure 2011048792
最後に、QMF合成フィルタバンク903は、式34で計算された新しいQMF係数を時間信号に変換する。なお、実施の形態3に係る音響信号処理装置は、QMF合成フィルタを施さずに、新しいQMF係数をそのまま後段の別の音響信号処理装置に出力しても良い。後段の音響信号処理装置は、たとえば、SBR技術に基づく音響信号処理などを実行する。
実施の形態1と異なる点は、図11に示すように、時間伸張係数がsである場合、元々のQMF領域のタイムスロットの後ろに、(s−1)個の仮想タイムスロットが挿入されることである。
この場合、調整回路902は、元々の音響信号のピッチを維持する必要がある。また、調整回路902は、位相情報を聴感的な音質劣化を避けるように算出する必要がある。たとえば、元々のQMFブロックの位相情報をφn(k)(タイムスロットインデックスn=1,…,L/M、サブバンドインデックスk=0,1,…,M−1)とすると、調整回路902は、上記仮想タイムスロットにおける調整後の新しい位相情報を、式35で算出する。
ψq(k)=ψq-1(k)+Δφn(k)
(q=s・(n−1)+1,…,s・n、n=1,…,L/M) (式35)
ここで、実施の形態1と同様に、位相差Δφn(k)は、Δφn(k)=φn(k)−φn-1(k)で算出される。
また、位相差Δφn(k)は、式36でも算出される。
Figure 2011048792
挿入されるタイムスロットの振幅情報は、挿入される境界部で連続になるように、前のタイムスロットと後ろのタイムスロットの間を線形補完(内挿)する値で構成される。たとえば、元のQMFブロックをan(k)とすると、挿入される仮想タイムスロットの振幅情報は、式37により線形補完される。
Figure 2011048792
QMF合成フィルタバンク903は、このようにして仮想タイムスロットを挿入することにより構成された新しいQMFブロックを実施の形態1と同様に時間領域の信号へと変換する。これにより、時間伸張された信号が算出される。なお、上述の通り、実施の形態3に係る音響信号処理装置は、QMF合成フィルタバンクを施さずに、新しいQMF係数をそのまま後段の音響信号処理装置に出力しても良い。
実施の形態3に係る音響信号処理装置も、FFT演算を用いておらず、STFTベースのフェーズボコーダー処理に比べて圧倒的に少ない演算量で同等の効果を実現する。
(実施の形態4)
実施の形態4に係る音響信号処理装置は、入力された音響信号に対して、QMF変換を行い、QMF係数に対して位相調整を行う。そして、実施の形態4に係る音響信号処理装置は、元のQMFブロックをサブバンド毎に処理することで、時間伸張処理を実現する。
実施の形態4に係る音響信号処理装置は、図1に示された実施の形態1に係る音響信号処理装置と同様の構成要素を備える。QMF解析フィルタバンク901は、入力の音響信号をQMF係数X(m,n)に変換する。調整回路902は、QMF係数を調整する。調整前のQMF係数X(m,n)は、振幅および位相を用いて、式38のように表現される。
Figure 2011048792
位相情報a(m,n)は、調整回路902で調整されて
Figure 2011048792
となる。調整回路902は、調整後の位相情報と元の振幅情報r(m,n)によって、新しいQMF係数を式39に従って計算する。
Figure 2011048792
最後に、QMF合成フィルタバンク903は、式39で計算された新しいQMF係数を時間信号に変換する。なお、実施の形態4に係る音響信号処理装置は、QMF合成フィルタを施さずに、新しいQMF係数をそのまま後段の別の音響信号処理装置に出力しても良い。後段の音響信号処理装置は、たとえば、SBR技術に基づく音響信号処理などを実行する。
QMF変換には、入力された音響信号を、時間特性を持つ合成周波数領域に変換する作用がある。従って、STFTベースの時間伸張手法は、QMFブロックの時間特性に対して適用可能である。
実施の形態1と異なる点は、図12に示すように、元のQMFブロックをサブバンド毎に時間伸張する点である。
元のQMFブロックは、L/M個のタイムスロットとM個のサブバンドで構成されている。各QMFブロックがM個のスカラー値で構成されていて、各スカラー値は経時情報をL/M個の係数で構成されている。
実施の形態4では、STFTベースの時間伸張手法が、各サブバンドのスカラー値に対して直接適用される。すなわち、調整回路902は、各サブバンドのスカラー値を連続してFFT変換し、位相情報を調整し、逆FFTを施す。これにより、調整回路902は、新しいサブバンドのスカラー値を算出する。なお、この時間伸張処理は、サブバンド毎に実行されるため、演算量は大きくない。
たとえば、時間伸張係数が2である場合(音響信号を2倍の時間に伸張する場合)、調整回路902は、ホップサイズRa毎に上記の処理を繰り返す。その結果として、元のQMFブロックのサブバンドが2・L/M個の係数を含むような、時間伸張が実現される。調整回路902は、上記のステップを繰り返すことにより、元のQMFブロックを2倍の長さのQMFブロックに変換することが出来る。
QMF合成フィルタバンク903は、こうして得られた新しいQMFブロックを時間信号へと合成する。これにより、実施の形態4に係る音響信号処理装置は、元の時間信号をその2倍の長さを持つ時間信号へと時間伸張することができる。なお、ここでは、実施の形態4に係る音響信号処理方法をサブバンドベースの時間伸張手法と呼ぶことにする。
以上、3つの異なる手法を用いた時間伸張処理が、複数の実施の形態に基づいて、述べられた。表1は、それらの演算量(複雑性評価:Complexity Measurement)の大小を整理された比較表である。
Figure 2011048792
3つの時間伸張手法はどれも、古典的なSTFTベースの時間伸張手法よりも演算量が非常に少ないことが分かる。これは、STFTベースの時間伸張手法では、内部的にループする処理が行われているためである。QMFベースでは、そのようなループ処理が行われない。
(実施の形態5)
実施の形態5では、実施の形態1〜4と同じように、QMF領域での時間伸張が実現される。異なる点は、図13に示すように、QMF領域にてQMF係数を調整する点である。
QMF解析フィルタバンク1001は、時間伸縮および周波数変調の両方を実現するため、入力音響信号をQMF係数へと変換する。そして、調整回路1002は、実施の形態1〜4と同様に、得られたQMF係数の位相調整を行う。
そして、QMF領域変換器1003は、調整されたQMF係数を新しいQMF係数に変換する。バンドパスフィルタ1004は、必要に応じて、QMF領域で、帯域制限を実施する。帯域制限は、折り返し歪みを低減させる際に必要である。最後に、QMF合成フィルタバンク1005は、新しいQMF係数を時間領域の信号へと変換する。
なお、実施の形態5に係る音響信号処理装置は、QMF合成フィルタを施さずに、新しいQMF係数をそのまま後段の別の音響信号処理装置に出力しても良い。後段の音響信号処理装置は、たとえば、SBR技術に基づく音響信号処理などを実行する。以上が、実施の形態5の概要である。
図14に示された構成は、QMF領域の位相および振幅を変換処理することで、対象とする音響信号の時間伸縮処理および周波数変調処理を実現する構成である。
まず、QMF解析フィルタバンク1801は、時間伸縮および周波数変調の両方を実現するため、音響信号をQMF係数に変換する。周波数変調回路1803は、こうして得られたQMF係数に対して、QMF領域にて、周波数変調処理を実施する。バンドパスフィルタである帯域制限フィルタ1802は、周波数変調処理の前に、折り返し歪みを除去するために帯域制限をかける場合がある。
そして、周波数変調回路1803は、位相変換処理および振幅変換処理を複数のQMFブロックに対して連続して適用することにより、周波数変調処理を行う。そして、時間伸張回路1804は、周波数変調処理によって生成されたQMF係数の時間伸縮処理を行う。時間伸縮処理は、実施の形態1等と同様の方法で実現される。
なお、周波数変調回路1803と時間伸張回路1804とが順に接続された構成が記載されているが、それらの接続順序はこれに限らない。すなわち、時間伸張回路1804が時間伸縮処理を実行した後、周波数変調回路1803が周波数変調処理を施しても良い。
最後に、QMF合成フィルタバンク1805は、周波数変調処理と時間伸縮処理とが施されたQMF係数を新たな音響信号に変換する。新たな音響信号は、元の音響信号と比較して、時間軸方向および周波数軸方向に伸縮された信号になる。
なお、図14に示された音響信号処理装置も、QMF合成フィルタを施さずに、新しいQMF係数をそのまま後段の別の音響信号処理装置に出力しても良い。後段の音響信号処理装置は、たとえば、SBR技術に基づく音響信号処理などを実行する。
実施の形態1〜4では、時間伸張手法が示された。実施の形態5に係る音響信号処理装置の構成は、それらの実施の形態に係る音響信号処理装置の構成に、ピッチ伸張処理による周波数変調処理を加えた構成である。時間あるいは周波数を理想的な状態に調整するためのいくつかの手法がある。しかし、古典的なピッチ伸張処理、すなわち、時間伸張された信号をリサンプリングする(間引く)方法は、そのままでは、周波数変調処理に適用することができない。
図14に示された音響信号処理装置は、QMF解析フィルタバンク1801による処理の後、QMF領域上でピッチ伸張処理を実現する。QMF解析フィルタバンク1801の処理により、時間領域の所定の信号成分(特定周波数における正弦波成分)が、2つの異なるQMFサブバンドの信号となる。そのため、その後に、1つのQMF係数ブロックから、周波数と振幅との両方について、正しい信号成分を分離して、ピッチ変換することは困難になる。
従って、実施の形態5に係る音響信号処理装置は、ピッチ伸張処理がより前に実施される構成に変形されてもよい。すなわち、図15に示すように、QMF解析フィルタバンクの前段で、時間領域の入力信号をリサンプリングする構成とする。図15では、リサンプリング部500が音響信号をリサンプリングし、QMF解析フィルタバンク504が音響信号をQMF係数に変換し、時間伸張回路505がQMF係数を調整する。
図15に示されたリサンプリング部500は、次の3つのモジュールから構成されている。すなわち、リサンプリング部500は、(1)M倍のアップサンプリング部501、(2)折り返し歪みを抑制するためのローパスフィルタ502、(3)D倍のダウンサンプリング部503を備える。つまり、リサンプリング部500は、QMF解析フィルタバンク504の処理の前に、入力の元信号を、係数M/D倍にリサンプリングする。そうすることで、リサンプリング部500は、全体のQMF領域の周波数成分を、M/D倍にする。
複数回のピッチ伸張処理が必要な場合、たとえば、2倍と3倍の両方のピッチ伸張処理が必要な場合、次のような処理が最良である。異なる倍率のリサンプリング処理を整合させるためには、それぞれのリサンプリング処理に応じて異なる遅延量をもつ複数の遅延回路が必要である。それらの遅延回路は、2倍または3倍にピッチ伸張処理された出力信号が合成される前に、時間調整を実施する。
以下、低域を含んだ信号を、2倍もしくは3倍のピッチ伸張処理によって、周波数帯域を拡張する場合を説明する。これを実現するため、音響信号処理装置は、まずリサンプリング処理を実施する。図16Aは、ピッチ伸張処理された出力を示す図である。図16Aの縦軸は、周波数軸を示し、横軸は、時間軸を示す。
音響信号処理装置は、リサンプリング処理により、低域を含んだ信号(図16Aの最も太い黒線)の2倍(図16Aの太い黒線)および3倍(図16Aの薄い黒線)のピッチ伸張処理した信号を生成する。もし、時間領域でずれが生じている場合、2倍のピッチ伸張処理信号には、d0時間の遅延時間があり、3倍のピッチ伸張処理信号には、d1時間の遅延時間がある。
音響信号処理装置は、高帯域の信号を得るため、元の信号、2倍の周波数帯域を持つ信号、および、3倍の周波数帯域を持つ信号を、それぞれ、2倍、3倍および4倍に時間伸張する。その結果、音響信号処理装置は、それらの信号の合成信号を図16Bに示すように高帯域の信号として生成することが可能である。
なお、時間ずれが生じている場合、図16Cに示すように遅延量の不一致もそのままピッチ伸張されるため、高帯域信号には、遅延量不一致の問題が発生する場合もある。上述の複数の遅延回路は、時間ずれを低減させるように、時間調整を実施する。
上記のリサンプリング方法をそのまま実施しても良い。しかし、更に上記処理の演算量を削減するために、ローパスフィルタ502は、ポリフェーズフィルタバンクによって実現されてもよい。ローパスフィルタ502の次数が高い場合、演算量を削減するために、畳み込み原理に基づいて、FFT領域でローパスフィルタ502が実現されても良い。
更には、M/D<1.0である場合、つまり、ピッチ伸張処理によってピッチが高くなる場合、後段のQMF解析フィルタバンク504と時間伸張回路505における演算量が、リサンプリング処理に必要な処理量よりも大きい。そのため、時間伸張およびリサンプリング処理の順番を入れ替えることにより、演算量が削減される。
また、図15では、リサンプリング部500がQMF解析フィルタバンク504の前段に設けられている。これは、特定音源(たとえば単一正弦波など)に対して、ピッチ伸張処理を施した場合に発生する音質劣化を最小限に防ぐためである。QMF解析フィルタバンク504の処理後にピッチシフト処理が実施される場合、元の音響信号に含まれる正弦波信号が、複数のQMFブロックに分離された状態になる。そのため、その信号に対してピッチシフト処理が施された場合、元の正弦波信号が多数のQMFブロックに拡散してしまう。
すなわち、単一正弦波などの特殊音源には、上述の構成でリサンプリング処理が行われた方がよい。しかし、一般の音響信号のピッチシフト処理に、単一正弦波のみが入力されることは、ほぼ無いに等しい。そのため、演算量の増大要因となるリサンプリング処理は、省略されてもよい。
また、音響信号処理装置は、QMF解析フィルタバンク504によって得られたQMF係数に対して直接ピッチ伸張処理を施す構成であってもよい。この構成の場合、ピッチ伸張処理が施された音響信号の品質は、単一正弦波などの特殊音源では若干劣る場合がある。しかし、このような構成を有する音響信号処理装置は、それ以外の一般的な音響信号に対して、十分な品質を保持することが可能である。そのことを鑑みて、リサンプリング処理を省くことによって、処理量の非常に大きな処理部が省かれる。したがって、全体の処理量が削減される。
そして、音響信号処理装置は、適用用途に合わせて、適切な組み合わせで構成されてもよい。
(実施の形態6)
実施の形態6に係る音響信号処理装置は、実施の形態5と同じように、QMF領域での時間伸縮および周波数変調処理を行う。実施の形態6では、実施の形態5で用いられたリサンプリング処理を用いない点が、実施の形態5とは異なる点である。実施の形態6に係る音響信号処理装置は、図13に示された音響信号処理装置の構成要素を備える。
図13に示された音響信号処理装置は、時間伸縮処理および周波数変調処理の両方を行う。そのため、QMF解析フィルタバンク1001は、音響信号をQMF係数へと変換する。そして、調整回路1002は、得られたQMF係数を、実施の形態1〜4に記載されたように、位相調整を行う。
そして、QMF領域変換器1003は、調整されたQMF係数を新しいQMF係数に変換する。バンドパスフィルタ1004は、必要に応じて、QMF領域で、帯域制限を実施する。帯域制限は、折り返し歪みを低減させる際に必要である。最後に、QMF合成フィルタバンク1005は、新しいQMF係数を時間領域の信号へと変換する。
なお、実施の形態6に係る音響信号処理装置は、QMF合成フィルタを施さずに、新しいQMF係数をそのまま後段の別の音響信号処理装置に出力しても良い。後段の音響信号処理装置は、たとえば、SBR技術に基づく音響信号処理などを実行する。以上が、実施の形態6の全体構成である。
実施の形態6に係る音響信号処理装置は、ピッチ伸張処理による周波数変調処理に関して、実施の形態5とは異なる処理を行う。
ピッチを伸縮することで周波数変調処理を施すために、時間領域の音響信号をリサンプリングする手法は非常に単純である。しかし、折り返し歪みを抑制するために必要なローパスフィルタが構成上必要である。そのため、ローパスフィルタにより遅延が発生する。一般的には、リサンプリング処理の精度を高めるためには次数の大きなローパスフィルタが必要である。一方、次数が大きいとフィルタの遅延が大きくなる。
そこで、図17に示された実施の形態6に係る音響信号処理装置は、QMF領域で係数の構成を変換するQMF領域変換器603を備える。そして、QMF領域変換器603によって、リサンプリング処理とは異なるピッチシフト処理が実行される。
QMF解析フィルタバンク601は、入力の時間信号からQMF係数を算出する。実施の形態1〜5と同様に、時間伸張回路602は、算出したQMF係数を時間伸張する。QMF領域変換器603は、時間伸張されたQMF係数にピッチ伸張処理を施す。
図18に示すように、QMF領域変換器603は、新たにQMF合成フィルタおよびQMF解析フィルタを用いずに、あるQMF領域のQMF係数を、周波数および時間の分解能がそれぞれ異なる別のQMF領域のQMF係数へと直接変換するものである。図18で示されているように、QMF領域変換器603は、M個のサブバンドおよびL/M個のタイムスロットで構成されるあるQMFブロックを、N個のサブバンドとL/N個のタイムスロットで構成される新しいQMFブロックに変換することが可能となる。
QMF領域変換器603は、タイムスロット数およびサブバンド数を変えることができる。そして、その出力信号の時間および周波数の分解能は、入力信号から変更される。そのため、時間伸張処理およびピッチ伸張処理の両方を同時に実現するためには、新しい時間伸張係数が、算出される必要がある。たとえば、所望の時間伸張係数をs、所望のピッチ伸張係数をwとすると、新しい時間伸張係数は、
Figure 2011048792
で計算される。
図17は、時間伸張処理とピッチ伸張処理の両方を実現する構成を示す図である。なお、図17に示された音響信号処理装置は、時間伸張処理(時間伸張回路602)とピッチ伸張処理(QMF領域変換器603)との順序で構成されている。しかし、音響信号処理装置は、先にピッチ伸張処理を行い、その後に時間伸張処理を行う構成であっても良い。ここでは、L個の入力サンプルがあることを想定している。
QMF解析フィルタバンク601は、L個のサンプルからM個のサブバンドおよびL/M個のタイムスロットで構成するQMFブロックを算出する。時間伸張回路602は、このようにして算出したQMFブロックの各QMF係数から、M個のサブバンドおよび
Figure 2011048792
個のタイムスロットで構成するQMFブロックを算出する。最後に、QMF領域変換器603は、伸張されたQMFブロックをw・M個のサブバンドおよびs・L/M個のタイムスロットで構成される別のQMFブロックへと変換する(w>1.0の場合、最も小さいM個のサブバンドが最終的な出力信号になる)。
QMF領域変換器603の処理は、QMF合成フィルタバンクおよびQMF解析フィルタバンクの演算処理を数学的に圧縮することに相当する。音響信号処理装置は、QMF合成フィルタバンクおよびQMF解析フィルタバンクを用いて演算する場合、内部に遅延回路を包含する構成になる。それに比べて、QMF領域変換器603を備える音響信号処理装置は、演算遅延および演算量を削減することができる。たとえば、音響信号処理装置は、サブバンドインデックスがSk(k=0,…,M−1)であるサブバンドを、サブバンドインデックスSl(l=0,…,wM−1)に変換する場合、式40の計算を実行する。
Figure 2011048792
ここで、PMとPwMはそれぞれ、QMF解析フィルタバンクとQMF合成フィルタバンクのプロトタイプ関数を表している。
次に、ピッチシフト処理の別の例に関して述べる。上記に述べたピッチシフト処理と違い、音響信号処理装置は、下記の通りに処理する。
(a)音響信号処理装置は、伸張処理前のQMFブロックに含まれる信号の周波数成分を検出する。
(b)音響信号処理装置は、所定の変換係数によって周波数をシフトする。周波数シフトするための単純な方法は、前記変換係数を入力信号のピッチに乗算する方法である。
(c)音響信号処理装置は、所望のシフト周波数成分での新しいQMFブロックを構成する。
音響信号処理装置は、QMF変換によって算出したQMFブロックに対し、信号の周波数成分ω(n,k)を式41により算出する。
Figure 2011048792
ここで、princarg(α)はαにおける基礎周波数を示す。また、Δφ(n,k)は、Δφ(n,k)=φ(n,k)−φ(n−1,k)であり、同一サブバンドkにおける、2つのQMF成分の位相差を示している。
所望の伸張後の基礎周波数は、変換係数P0(P0>1と仮定する)を用いてP0・ω(n,k)として算出される。
ピッチの伸張および圧縮(あわせてシフトと呼ぶ)の本質は、所望の周波数成分を、シフト後のQMFブロック上に構築することである。ピッチシフト処理は、図19に示すように、下記のステップでも実現される。
(a)まず、音響信号処理装置は、シフト後のQMFブロックを初期化する(S1301)。音響信号処理装置は、すべてのQMFブロックにおける位相ψ(n,k)および振幅r1(n,k)を0に設定する。
(b)次に、音響信号処理装置は、サブバンドを変換係数P0分だけ繰り上げることで、サブバンドの境界を決定する(S1302)。P0>1の場合、音響信号処理装置は、折り返し歪みを避けるため、低い方のサブバンド境界klbをklb=0として算出し、高い方のサブバンド境界kubをkub=floor(M/P0)として算出する。
これは、すべての周波数成分が
Figure 2011048792
に含まれているからである。
(c)音響信号処理装置は、[klb,kub]にあるj番目のサブバンドに対して、シフト処理後の周波数P0・ω(n,j)をインデックスq(n)=round(P0・ω(n,j))にマッピングする(S1305)。
(d)音響信号処理装置は、新しいブロック(n,q(n))の位相および振幅を再構築する(S1306)。ここで、音響信号処理装置は、新しい振幅を式42により算出する。
Figure 2011048792
関数F()は後ほど述べる。
音響信号処理装置は、新しい位相を、式43により算出する。
Figure 2011048792
ここでは、df(n)=P0・ω(n,j)−q(n)およびψ(n,q(n))が“包含された”調整が前提である。音響信号処理装置は、−π≦ψ(n,q(n))<πを保証するため、複数回、2πを加算している。
(e)音響信号処理装置は、所望の周波数成分P0・ω(n,j)についてのサブバンドインデックス
Figure 2011048792
を式44により算出したサブバンドにマッピングする(S1307)。
Figure 2011048792
(f)音響信号処理装置は、新しいブロック
Figure 2011048792
の位相および振幅を再構築する(S1308)。そして、音響信号処理装置は、新しい振幅を式45により算出する。
Figure 2011048792
関数F()は後ほど述べる。
音響信号処理装置は、新しい位相を式46により算出する。
Figure 2011048792
Figure 2011048792
は“包含された”調整が前提である。音響信号処理装置は、
Figure 2011048792
を保証するため、複数回、2πを加算している。
(g)音響信号処理装置が、[klb,kub]の範囲に含まれるすべてのサブバンド信号を一旦処理した後、P0>1であるため、新しいQMFブロックに含まれる値が“0”になる場合がある。音響信号処理装置は、このようなブロックに対して、各々の位相情報を“非0”なるように線形補完する。また、音響信号処理装置は、各々の振幅を位相情報に基づいて補完する(S1310)。
(h)音響信号処理装置は、新しいQMFブロックの振幅および位相情報を複素係数のブロック信号に変換する(S1311)。
上記の振幅調整および補完に関しては、ここでは説明を省略する。それら両方が、QMF領域における信号の周波数成分と振幅との間にある関係性に関しているからである。
正弦的なトナリティの強い信号は、上記(c)および(e)で示されたように、2つの異なるQMFサブバンドの信号成分を発生させるかもしれない。解析の結果、それら2つのサブバンドにおける振幅の関係は、QMF解析フィルタバンク(QMF変換)のプロトタイプフィルタに依存している。
たとえば、QMF解析フィルタバンク(QMF変換)は、MPEGSurroundおよびHE−AAC方式で用いられているフィルタバンクであることを前提とする。図20Aは、プロトタイプフィルタp(n)(フィルタ長640サンプル)の振幅応答を示す図である。ほぼ完全に再構築性を達成するため、その振幅応答は、周波数[−0.5,0.5]の外側では急激に減衰している。そのプロトタイプフィルタを基準として、M個のバンド数をもつ複素QMF解析フィルタバンクの係数は、
Figure 2011048792
として定義される。
この場合、複素フィルタバンクは、k番目のサブバンドにおいて、周波数の中央がk+1/2になるように、構成されている。図20Bは、間引かれた周波数応答を示す図である。便宜上、k−1番目のサブバンドの振幅特性は、図20Bの左側に折れ線で示されており、k+1番目のサブバンドの振幅特性は、図20Bの右側に折れ線で示されている。
図20Bに示されているように、周波数f0(k−1≦f0<k+1)の成分について、もし、0<df=f0−(k+1/2)<1であるなら、k番目とk+1番目のサブバンドの2つのブロックがそれぞれ提供される。また、−1<df=f0−(k+1/2)<0である場合、k−1番目とk番目のサブバンドの2つのブロックが提供される(上記(e)参照)。それに応じた振幅は、周波数f0とk番目のサブバンドの中央周波数との差、および、サブバンドフィルタの振幅に依存する。
サブバンドの振幅F(df)は、−1≦df<1において対称の関数であって、
Figure 2011048792
で表される。
2つのブロックが同じ周波数に存在するため、それらの位相差は
Figure 2011048792
を満たす必要がある(上記(f)参照)。
以上より、振幅の補完処理は、線形補完として扱うべきではないことがわかる。その代わり、信号の周波数成分と振幅情報との間にある関係が上記のようになるべきである。
上述したように、実施の形態6では、QMF領域での位相調整および振幅調整が行われる。これまでにも述べているとおり、音響信号処理装置は、単位時間毎に区切られた音響信号をQMFフィルタバンクで逐次QMF領域の係数(QMFブロック)に変換する。そして、音響信号処理装置は、予め指定された伸張率(s倍、たとえばs=2,3,4など)に応じて隣り合うQMFブロック毎の位相および振幅の連続性を保持するように、各QMFブロックの振幅および位相を調整する。これにより、音響信号処理装置は、フェーズボコーダー処理を実現する。
音響信号処理装置は、QMF領域でフェーズボコーダー処理されたQMF係数を、QMF合成フィルタバンクで時間領域の信号へ変換する。これにより、s倍に伸張された時間領域の音響信号が得られる。また、後段の別の音響信号処理装置で、QMF係数が用いられる場合がある。このような場合、後段の別の音響信号処理装置が、QMF領域でフェーズボコーダー処理されたQMFブロックの係数に、SBR技術に基づく帯域拡大処理など、何らかの音響処理を施してもよい。そして、そのような後段の別の音響信号処理装置が、QMF合成フィルタバンクでQMF係数を時間領域の音響信号に変換しも良い。
図3に示された構成は、そのような組み合わせの一例である。これは、QMF領域でのフェーズボコーダー処理と、音響信号の帯域拡大技術を組み合わせた音響復号装置の一例である。以下に、フェーズボコーダー処理を用いた音響復号装置の構成を説明する。
分離部1201は、入力のビットストリームを高域生成のためのパラメータと低域復号のための符号化情報とへ分離する。パラメータ復号部1207は、高域生成のためのパラメータを復号する。復号部1202は、低域復号のための符号化情報から、低域成分の音響信号を復号する。QMF解析フィルタバンク1203は、復号された音響信号をQMF領域の音響信号に変換する。
周波数変調回路1205および時間伸張回路1204は、QMF領域の音響信号に、前記フェーズボコーダー処理を施す。その後、高域生成回路1206は、高域生成のためのパラメータを用いて高域周波数成分の信号を生成する。概形調整回路1208は、高域成分の周波数概形を調整する。QMF合成フィルタバンク1209は、QMF領域における低域成分および高域成分の音響信号を時間領域の音響信号へと変換する。
なお、上記低域成分の符号化処理または復号処理には、MPEG−AAC方式、MPEG−Layer3などの音響符号化方式が用いられてもよいし、あるいは、ACELPなどの音声符号化方式が用いられてもよい。
また、QMF領域でフェーズボコーダー処理が行われる場合に、変調係数r(m,n)について、QMFブロックのサブバンドインデックス(m,n)毎に重み付けが行われてもよい。これにより、QMF係数が、サブバンドインデックス毎に異なる値を持つ変調係数で変調される。たとえば、高域周波数に対応するサブバンドインデックスにおいて、伸張した際に音響信号の歪みが大きくなる場合がある。そのようなサブバンドインデックスに対して、伸張の割合を小さくなるような伸張係数が用いられる。
さらに、QMF領域でフェーズボコーダー処理する別の構成として、音響信号処理装置は、QMF解析フィルタバンクの後段に、さらに別のQMF解析フィルタバンクを備えてもよい。第1のQMF解析フィルタバンクのみでは低域の周波数分解能が低い場合がある。その場合、低域成分を多く含む音響信号にフェーズボコーダー処理を施しても、十分な効果が得られない。
そこで、低域成分の周波数分解能を向上させるために、低域部分(たとえば、第1のQMF解析フィルタバンクの出力に含まれる全QMFブロックの半分)を解析するための第2のQMF解析フィルタバンクが用いられてもより。これにより、周波数分解能が2倍に向上する。その上で、上述のQMF領域でのフェーズボコーダー処理が施されることで、音質を維持したまま、演算量およびメモリ消費量の削減効果が高められる。
図4は、QMF領域の分解能を向上させる構成の例を示す図である。QMF合成フィルタバンク2401は、入力の音響信号を一旦QMF合成フィルタで合成する。その後、QMF解析フィルタバンク2402は、2倍の解像度のQMF解析フィルタで、QMF係数を算出する。2倍の分解能になったQMF領域の信号に対して、2倍の時間伸張と、2倍、3倍または4倍のピッチシフト処理を行うフェーズボコーダー処理回路(第1時間伸張回路2403、第2時間伸張回路2404および第3時間伸張回路2405)が並列に構成される。
そして、各フェーズボコーダー処理回路は、2倍の解像度で、伸張割合の異なるフェーズボコーダー処理を統一的に行える。そして、マージ回路2406は、フェーズボコーダー処理された信号を合成する。
これまで説明してきた時間伸張処理およびピッチ伸張処理を、音響信号の符号化装置に用いる例に関して、以下に説明する。
図21は、時間伸張処理およびピッチ伸張処理を用いて、音響信号を符号化する音響符号化装置を示す構成図である。図21に示された音響符号化装置は、一定数のサンプル毎に分割した音響信号をフレーム処理する。
まず初めに、ダウンサンプリング部1102は、音響信号をダウンサンプリングすることにより、低域の周波数成分のみを含む信号を生成する。符号化部1103は、その低域のみ含んだ音響信号をMPEG−AAC、MPEG−Layer3またはAC3方式などで代表される音響符号化方式を用いて符号化することにより、符号化情報を生成する。また、同時に、QMF解析フィルタバンク1104は、低域成分のみを含む音響信号をQMF係数に変換する。一方、QMF解析フィルタバンク1101は、全帯域成分を含む音響信号をQMF係数に変換する。
時間伸張回路1105および周波数変調回路1106は、低域成分のみを含む音響信号をQMF領域に変換した信号(QMF係数)を、上述の複数の実施の形態で示されたように調整して、高域の仮想的なQMF係数を生成する。
パラメータ算出部1107は、上記の仮想的な高域QMF係数と、全帯域成分を含むQMF係数(実際のQMF係数)とを比較することで、高域成分の概形情報を算出する。重畳部1108は、算出された概形情報を符号化情報に重畳する。
図3は、音響復号装置の構成を示す図である。図3に示された音響復号装置は、上述の音響符号化装置で符号化された符号化情報を受信して音響信号へ復号する装置である。分離部1201は、受信した符号化情報を、第1の符号化情報と、第2の符号化情報とに分離する。パラメータ復号部1207は、第2の符号化情報を高域のQMF係数の概形情報へ変換する。一方で、復号部1202は、第1の符号化情報から、低域成分のみを含む音響信号を復号する。QMF解析フィルタバンク1203は、復号された音響信号を、低域成分のみを含むQMF係数へ変換する。そして、時間伸張回路1204および周波数変調回路1205は、その低域成分のみを含むQMF係数に対して、上述の複数の実施の形態で示されたように、時間およびピッチを調整する。これにより、高域成分を含む仮想的なQMF係数が生成される。
概形調整回路1208および高域生成回路1206は、高域成分を含む仮想的なQMF係数を、受信した第2の符号化情報に含まれる概形情報に基づいて、調整する。QMF合成フィルタバンク1209は、調整されたQMF係数と低域のQMF係数とを合成する。そして、QMF合成フィルタバンク1209は、得られた合成QMF係数をQMF合成フィルタで、低域成分と高域成分の両方を含んだ時間領域の音響信号へ変換する。
このようにして、音響符号化装置は、時間伸縮比を符号化情報として伝送する。音響復号装置は、時間伸縮比を用いて、音響信号を復号する。これにより、音響符号化装置は、フレーム毎に時間伸縮比を様々に変化させることができる。よって、高域成分の制御が柔軟になる。したがって、高い符号化効率が達成される。
図22は、従来のSFTFベースの時間伸張回路および周波数変調回路を用いた場合と、QMFベースの時間伸張回路および周波数変調回路を用いた場合とで、音質比較実験を行った結果を示す図である。図22に示された結果は、ビットレートが16kbps、モノラル信号の条件での実験に基づいている。また、この結果は、MUSHRA(Multiple Stimuli with Hidden Reference and Anchor)法による評価に基づいている。
図22において、縦軸はSTFT方式との音質差を示しており、横軸は異なる音響特性を持つ複数の音源を示している。図22からわかるように、SFTFベースの方式と比較してもQMFベースの方式がほぼ同等の音質で符号化および復号できていることがわかる。本実験で用いられた音源は、符号化および復号した際に劣化が特に起こりやすい音源である。そのため、それ以外の一般的な音響信号に対しても、同等の性能を有しつつ、符号化および復号が行われることは、明白である。
このように、本発明に係る音響信号処理装置は、QMF領域において、時間伸張処理およびピッチ伸張処理を行う。本発明に係る音響信号処理は、古典的なSTFTベースの時間伸張処理およびピッチ伸張処理に比べ、QMFフィルタを用いて実現されている。そのため、本発明に係る音響信号処理は、演算量の大きいFFTを使用する必要がなく、同等の効果をより少ない演算量で実現することができる。また、STFTベースでは、ホップサイズによる処理を実施する必要があるため、処理遅延が発生する。QMFベースでは、QMFフィルタの処理遅延が非常に短い。そのため、本発明に係る音響信号処理装置は、処理遅延を非常に小さくすることができるという優れた利点も備えている。
(実施の形態7)
図23Aは、実施の形態7に係る音響信号処理装置を示す構成図である。図23Aに示された音響信号処理装置は、フィルタバンク2601と調整部2602とを備える。フィルタバンク2601は、図1に示されたQMF解析フィルタバンク901等と同様の動作を行う。調整部2602は、図1に示された調整回路902等と同様の動作を行う。そして、図23Aに示された音響信号処理装置は、所定の調整係数を用いて、入力音響信号列を変換する。ここで、所定の調整係数は、時間伸縮比、周波数変調比、および、それらを組み合わせた比率のいずれかに相当する。
図23Bは、図23Aに示された音響信号処理装置の処理を示すフローチャートである。フィルタバンク2601は、入力音響信号列を、QMF解析フィルタを用いて、QMF係数列へ変換する(S2601)。調整部2602は、QMF係数列を所定の調整係数に依存させて調整する(S2602)。
例えば、調整部2602は、調整されたQMF係数列から、予め定められた時間伸縮比で時間伸縮された入力音響信号列が得られるように、予め定められた時間伸縮比を示す調整係数に依存させて、QMF係数列の位相情報および振幅情報を調整する。あるいは、調整部2602は、調整されたQMF係数列から、予め定められた周波数変調比で周波数変調(ピッチシフト)された入力音響信号列が得られるように、予め定められた周波数変調比を示す調整係数に依存させて、QMF係数列の位相情報および振幅情報を調整する。
図24は、図23Aに示された音響信号処理装置の変形例を示す構成図である。図24に示された音響信号処理装置は、図23Aに示された音響信号処理装置に加えて、高域生成部2705および高域補完部2706を備える。また、調整部2602は、帯域制限部2701、算出回路2702、調整回路2703および領域変換器2704を備える。
フィルタバンク2601は、入力音響信号列を一定時間間隔毎にQMF係数列へ逐次変換することにより、一定時間間隔毎のQMF係数列を生成する。算出回路2702は、一定時間間隔毎に生成されたQMF係数列のタイムスロット毎およびサブバンド毎に位相情報および振幅情報を算出する。調整回路2703は、タイムスロット毎およびサブバンド毎の位相情報を所定の調整係数に依存させて調整することにより、QMF係数列の位相情報および振幅情報を調整する。
帯域制限部2701は、図14に示された帯域制限フィルタ1802と同様の動作をする。すなわち、帯域制限部2701は、QMF係数列の調整前に、QMF係数列から、予め定められた帯域幅に対応する新たなQMF係数列を取り出す。領域変換器2704は、図17に示されたQMF領域変換器と同様の動作をする。すなわち、領域変換器2704は、QMF係数列の調整後に、QMF係数列を時間および周波数の分解能がそれぞれ異なる新たなQMF係数列に変換する。
なお、帯域制限部2701は、QMF係数列の調整後に、QMF係数列から、予め定められた帯域幅に対応する新たなQMF係数列を取り出してもよい。また、領域変換器2704は、QMF係数列の調整前に、QMF係数列を時間および周波数の分解能がそれぞれ異なる新たなQMF係数列に変換してもよい。
高域生成部2705は、図3に示された高域生成回路1206と同様の動作をする。すなわち、高域生成部2705は、調整後のQMF係数列から、予め定められた変換係数を用いて、調整前のQMF係数列に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する。
高域補完部2706は、図3に示された概形調整回路1208と同様の動作をする。すなわち、高域補完部2706は、高周波数帯域のうち、高域生成部2705によって高域係数列が生成されなかった周波数帯域である欠落帯域の係数を欠落帯域の両側に隣接する帯域に属する高域係数列を用いて補完する。
図25は、実施の形態7に係る音響符号化装置を示す構成図である。図25に示された音響符号化装置は、ダウンサンプリング部2802、第1フィルタバンク2801、第2フィルタバンク2804、第1符号化部2803、第2符号化部2807、調整部2806および重畳部2808を備える。図25に示された音響符号化装置は、図21に示された音響符号化装置と同様の動作をする。そして、図25に示された構成要素は、図21に示された構成要素に対応する。
すなわち、ダウンサンプリング部2802は、ダウンサンプリング部1102と同様の動作をする。第1フィルタバンク2801は、QMF解析フィルタバンク1101と同様の動作をする。第2フィルタバンク2804は、QMF解析フィルタバンク1104と同様の動作をする。第1符号化部2803は、符号化部1103と同様の動作をする。第2符号化部2807は、パラメータ算出部1107と同様の動作をする。調整部2806は、時間伸張回路1105と同様の動作をする。重畳部2808は、重畳部1108と同様の動作をする。
図26は、図25に示された音響符号化装置の処理を示すフローチャートである。
まず、第1フィルタバンク2801は、音響信号列を、QMF解析フィルタを用いて、QMF係数列に変換する(S2901)。次に、ダウンサンプリング部2802は、音響信号列をダウンサンプリングすることにより、新たな音響信号列を生成する(S2902)。次に、第1符号化部2803は、生成された新たな音響信号列を符号化する(S2903)。次に、第2フィルタバンク2804は、生成された新たな音響信号列を、QMF解析フィルタを用いて、第2QMF係数列に変換する(S2904)。
次に、調整部2806は、第2QMF係数列を所定の調整係数に依存させて調整する(S2905)。所定の調整係数は、上述の通り、時間伸縮比、周波数変調比、および、それらを組み合わせた比率のいずれかに相当する。
次に、第2符号化部2807は、第1QMF係数列と、調整された第2QMF係数列とを比較することで、復号に用いられるパラメータを生成し、生成したパラメータを符号化する(S2906)。次に、重畳部2808は、符号化された音響信号列と、符号化されたパラメータとを重畳する(S2907)。
図27は、実施の形態7に係る音響復号装置を示す構成図である。図27に示された音響復号装置は、分離部3001、第1復号部3007、第2復号部3002、第1フィルタバンク3003、第2フィルタバンク3009、調整部3004および高域生成部3006を備える。図27に示された音響復号装置は、図3に示された音響復号装置と同様の動作をする。そして、図27に示された構成要素は、図3に示された構成要素に対応する。
すなわち、分離部3001は、分離部1201と同様の動作をする。第1復号部3007は、パラメータ復号部1207と同様の動作をする。第2復号部3002は、復号部1202と同様の動作をする。第1フィルタバンク3003は、QMF解析フィルタバンク1203と同様の動作をする。第2フィルタバンク3009は、QMF合成フィルタバンク1209と同様の動作をする。調整部3004は、時間伸張回路1204と同様の動作をする。高域生成部3006は、高域生成回路1206と同様の動作をする。
図28は、図27に示された音響復号装置の処理を示すフローチャートである。
まず、分離部3001は、入力されたビットストリームから、符号化されたパラメータと符号化された音響信号列とを分離する(S3101)。次に、第1復号部3007は、符号化されたパラメータを復号する(S3102)。次に、第2復号部3002は、符号化された音響信号列を復号する(S3103)。次に、第1フィルタバンク3003は、第2復号部3002によって復号された音響信号列を、QMF解析フィルタを用いて、QMF係数列に変換する(S3104)。
次に、調整部3004は、QMF係数列を所定の調整係数に依存させて調整する(S3105)。所定の調整係数は、上述の通り、時間伸縮比、周波数変調比、および、それらを組み合わせた比率のいずれかに相当する。
次に、高域生成部3006は、調整されたQMF係数列から、復号されたパラメータを用いて、QMF係数に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する(S3106)。次に、第2フィルタバンク3009は、QMF係数列と高域係数列とを、QMF合成フィルタを用いて、時間領域の音響信号列に変換する。
図29は、図27に示された音響復号装置の変形例を示す構成図である。図29に示された音響復号装置は、復号部2501、QMF解析フィルタバンク2502、周波数変調回路2503、結合部2504、高周波再構築部2505およびQMF合成フィルタバンク2506を備える。
復号部2501は、ビットストリームから、音響信号を復号する。QMF解析フィルタバンク2502は、復号された音響信号をQMF係数に変換する。周波数変調回路2503は、QMF係数に周波数変調処理を施す。この周波数変調回路2503は、図4に示された構成要素を備える。図4に示されたように、周波数変調処理において、内部的に時間伸張処理が実行される。そして、結合部2504は、QMF解析フィルタバンク2502から得られるQMF係数と、周波数変調回路2503から得られるQMF係数とを結合する。高周波再構築部2505は、結合されたQMF係数から、高域に対応するQMF係数を再構築する。QMF合成フィルタバンク2506は、高周波再構築部2505から得られるQMF係数を音響信号に変換する。
本発明に係る音響信号処理装置は、STFTベースのフェーズボコーダー処理に比べて、演算量の削減が可能となる。また、音響信号処理装置は、QMF領域で信号を出力するため、SBR技術またはParametricStereoなどのパラメトリック符号化処理において、領域変換の非効率性を解消することができる。そして、音響信号処理装置は、領域変換の演算に必要なメモリの容量も削減できる。
以上、本発明に係る音響信号処理装置、音響符号化装置および音響復号装置について、複数の実施の形態に基づいて説明したが、本発明はこれらの実施の形態に限定されるものではない。これらの実施の形態に対して当業者が思いつく変形を施して得られる形態、および、これらの実施の形態における構成要素を任意に組み合わせて実現される別の形態も本発明に含まれる。
例えば、特定の処理部が実行する処理を別の処理部が実行してもよい。また、処理を実行する順番が変更されてもよいし、複数の処理が並行して実行されてもよい。
また、本発明は、音響信号処理装置、音響符号化装置または音響復号装置として実現できるだけでなく、音響信号処理装置、音響符号化装置または音響復号装置を構成する処理手段をステップとする方法として実現できる。そして、本発明は、それらの方法に含まれるステップをコンピュータに実行させるプログラムとして実現できる。さらに、本発明は、そのプログラムを記録したCD−ROM等のコンピュータ読み取り可能な記録媒体として実現できる。
また、音響信号処理装置、音響符号化装置または音響復号装置に含まれる複数の構成要素は、集積回路であるLSI(Large Scale Integration)として実現されてもよい。これらの構成要素は、個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC(Integrated Circuit)、システムLSI、スーパーLSIまたはウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。プログラムすることが可能なFPGA(Field Programmable Gate Array)、または、LSI内部の回路セルの接続および設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて、音響信号処理装置、音響符号化装置または音響復号装置に含まれる構成要素の集積回路化を行ってもよい。
本発明に係る音響信号処理装置は、オーディオレコーダ、オーディオプレーヤー、携帯電話等に有用である。
500 リサンプリング部
501 アップサンプリング部
502 ローパスフィルタ
503、1102、2802 ダウンサンプリング部
504、601、901、1001、1101、1104、1203、1801、2402、2502 QMF解析フィルタバンク
505、602、1105、1204、1804 時間伸張回路
603、1003 QMF領域変換器
902、1002、2703 調整回路
903、1005、1209、1805、2401、2506 QMF合成フィルタバンク
1004 バンドパスフィルタ
1103 符号化部
1106、1205、1803、2503 周波数変調回路
1107 パラメータ算出部
1108、2808 重畳部
1201、3001 分離部
1202、2501 復号部
1206 高域生成回路
1207 パラメータ復号部
1208 概形調整回路
1802 帯域制限フィルタ
2403 第1時間伸張回路
2404 第2時間伸張回路
2405 第3時間伸張回路
2406 マージ回路
2504 結合部
2505 高周波再構築部
2601 フィルタバンク
2602、2806、3004 調整部
2701 帯域制限部
2702 算出回路
2704 領域変換器
2705、3006 高域生成部
2706 高域補完部
2801、3003 第1フィルタバンク
2803 第1符号化部
2804、3009 第2フィルタバンク
2807 第2符号化部
3002 第2復号部
3007 第1復号部
本発明は、音響信号および音声信号(以下、音響信号と呼ぶ)をデジタル信号処理する音響信号処理装置に関するものである。
音響信号を時間軸上で、圧縮したり伸張したりする技術として、フェーズボコーダー(Phase Vocoder)という技術がある。非特許文献1に開示されているフェーズボコーダー装置は、デジタル化した音響信号に高速フーリエ変換(FFT:Fast Fourier Transform)または短時間フーリエ変換(STFT:Short Time Fourier Transform)を適用し、周波数領域で、時間方向の伸縮処理(時間伸張処理)、および、ピッチ変換処理(ピッチシフト処理)などを実現している。
ピッチは、ピッチ周波数とも呼ばれ、音の高さを意味する。時間伸張処理は、音響信号のピッチを変えずに音響信号の時間長を伸縮する処理である。ピッチシフト処理は、周波数変調処理の例であり、音響信号の時間長を変えずに音響信号のピッチを変える処理である。ピッチシフト処理は、ピッチ伸張処理とも呼ばれる。
音響信号の再生速度が単純に変更された場合、音響信号の時間長およびピッチの両方が変更される。一方、ピッチを変えずに時間伸縮された音響信号の再生速度が変更されることにより、音響信号の時間長が元に戻り、音響信号のピッチのみが変換される場合もある。そのため、ピッチシフト処理には、時間伸張処理が含まれる場合がある。逆に、時間伸張処理には、ピッチシフト処理が含まれる場合もある。このように時間伸張処理とピッチシフト処理とは、対応する関係を有する。
時間伸張処理は、入力音響信号をFFTして得られたスペクトル信号の局所的なスペクトル特性を変えることなく、入力音響信号の継続時間(再生時間)を変化させることが出来る。その原理は以下の通りである。
(a)時間伸張処理を実行する音響信号処理装置は、まず、入力音響信号を一定時間間隔に分割して、一定時間間隔毎(たとえば1024サンプル毎)に解析する。その際、音響信号処理装置は、分割した時間単位内で、分割時間単位よりも短い時間間隔(たとえば128サンプル)毎にオーバーラップさせて入力音響信号を処理する。ここでは、オーバーラップさせる時間間隔をホップサイズ(Hop Size)と呼ぶことにする。
図30Aでは、入力信号のホップサイズは、Raである。また、フェーズボコーダー処理によって算出される出力音響信号も、時間間隔が一定サンプル数だけオーバーラップされた音響信号になる。図30Bでは、出力音響信号のホップサイズは、Rsである。時間伸張する場合は、Rs>Raとなり、時間圧縮する場合は、Rs<Raとなる。ここでは、時間伸張する場合(Rs>Ra)を例にとって説明する。時間伸張の割合rを式1のように定義する。
Figure 2011048792
(b)上述のように、一定時間間隔毎に分割され、オーバーラップされた状態の各時間ブロック信号は、時間的にコヒーレント(Coherent)なパターンを有している場合が多い。そこで、音響信号処理装置は、各時間ブロック信号に周波数変換を施す。典型的には、音響信号処理装置は、入力の各時間ブロック信号を周波数変換し、位相情報を調整する。その後、音響信号処理装置は、出力の時間ブロック信号として、周波数領域の信号を時間領域の信号に戻す。
上記の原理に従って、これまでの古典的なフェーズボコーダー装置は、STFTを用いて、周波数領域への変換を行い、周波数領域でのさまざまな調整処理の後、短時間フーリエ逆変換を行っていた。そして、これにより、時間変換およびピッチシフト処理を実現していた。次に、STFTベースの処理について、説明する。
(1)解析
まず、音響信号処理装置は、ホップサイズRaでオーバーラップされた時間ブロック単位毎に窓長Lの解析窓関数を実行する。具体的には、音響信号処理装置は、各ブロックを、FFTを用いて周波数領域に変換する。たとえば、uRa(u∈N)という点における周波数特性は、式2によって算出される。
Figure 2011048792
ここで、h(n)は解析窓関数であり、kは、周波数インデックスを示し、範囲としてはk=0,…,L−1である。また、WL mkは、
Figure 2011048792
により算出される。
(2)調整
このようにして算出された周波数信号の位相情報、すなわち、調整前の位相情報は、φ(uRa,k)であるとする。調整フェーズにおいて、音響信号処理装置は、周波数インデックスがkである周波数成分ω(uRa,k)を次の方法で算出する。
まず、周波数成分ω(uRa,k)を算出するため、音響信号処理装置は、連続する解析点である(u−1)RaとuRaの位相信号の増加分Δφk uを式3に従って算出する。
Figure 2011048792
時間間隔Raで増加分Δφk uが算出されるため、音響信号処理装置は、各周波数成分ω(uRa,k)を式4に従って計算することができる。
Figure 2011048792
次に、音響信号処理装置は、合成点uRsにおける位相を、式5によって計算する。
ψ(uRs,k)=ψ((u−1)Rs,k)+Rs・ω(uRa,k) (式5)
(3)再合成
音響信号処理装置は、FFTにより算出された周波数信号の振幅|X(uRa,k)|と、調整後の位相ψ(uRs,k)とをすべての周波数インデックスに対して算出する。そして、音響信号処理装置は、逆FFT変換を用いて、周波数信号を時間信号に再合成する。再合成は、式6に従って実行される。
Figure 2011048792
音響信号処理装置は、再合成された時間ブロック信号を、合成点uRsに挿入する。そして、音響信号処理装置は、合成出力された信号と、前のブロックで合成出力された信号とをオーバーラップ加算することで、時間伸張信号を生成する。前ブロックの合成出力とのオーバーラップ加算は、式7に示される。
Figure 2011048792
上記の3つのステップは、解析点(u+1)Raに関しても、施される。そして、上記の3つのステップは、すべての入力信号ブロックに対して繰り返される。この結果として、音響信号処理装置は、伸張比Rs/Raで時間伸張した信号を算出することが出来る。
なお、時間伸張された信号の振幅方向のモジュレーション(時間的な揺らぎ)を補正するため、窓関数h(m)は、電力補償(power−complemntary)条件を満たす必要がある。
時間伸張に対応する処理として、ピッチシフト処理がある。ピッチシフト処理は、信号の経過時間を変えることなく信号のピッチを変える方法である。デジタル音響信号のピッチを変える簡単な方法は、入力信号を間引く(resample)ことである。ピッチシフト処理は、時間伸張処理とも組み合わせることが可能である。例えば、音響信号処理装置は、時間伸張処理の後で、元の入力信号の時間長にresampleすることも可能である。
一方で、ピッチシフト処理を直接そのまま計算する手法も存在する。ピッチシフト処理を計算する手法は、一般的に、時間軸でのresample処理よりもかなり悪い副作用を発生する場合があるが、本発明ではその詳細は述べない。
なお、時間伸張の処理は、伸張比により、時間圧縮の処理になる場合がある。そのため、ここでは、時間伸張の表現は、時間伸縮を示し、時間圧縮を含む。
Improved Phase Vocoder Time−Scale Modification of Audio(IEEE Trans ASP Vol.7 No.3,May 1989)
しかしながら、上述のように、FFTおよび逆FFTで構成する古典的なフェーズボコーダー装置で高品質な時間伸張を実現するためには、細かいホップサイズを設定する必要がある。したがって、結果的にFFTおよび逆FFTを膨大な回数実施することが必要であり、演算量が大きい。
また、音響信号処理装置は、時間伸張処理の後、時間伸張処理とは異なる処理を実行する場合がある。この場合、音響信号処理装置は、時間領域の信号を解析用の領域の信号へ変換する必要がある。例えば、このような解析用の領域として、時間軸方向と周波数軸方向との両方に成分を有するQMF(Quadrature Mirror Filter)領域がある。QMF領域は、時間軸方向と周波数軸方向との両方に成分を有するため、合成複素領域、合成周波数領域、サブバンド領域、または、周波数サブバンド領域等とも呼ばれることもある。
一般的に、複素QMFフィルタバンクは、時間領域の信号を、時間軸と周波数軸との両方に成分を持つ合成複素領域へと変換する手法の一つである。QMFフィルタバンクは、典型的には、Spectral Band Replication(SBR)技術、Parametric Stereo(PS)、および、Spatial Audio Coding(SAC)などのパラメトリックベースのオーディオ符号化方法に用いられている。これらの符号化で用いられているQMFフィルタバンクは、サブバンド毎に複素数の値で表現される周波数領域の信号を2倍にオーバーサンプリングするような特性を持つ。これは、折り返し歪みを発生させずに、サブバンド周波数領域の信号を処理することを実現するための仕様である。
以下に、もう少し詳しく述べる。QMF解析フィルタバンクは、入力信号の実数値の離散時間信号x(n)をサブバンド周波数領域の複素信号sk(n)に変換する。sk(n)は、式8によって算出される。
Figure 2011048792
ここで、p(n)は、low−pass特性を持つL−1次のプロトタイプフィルタのインパルス応答である。αは位相パラメータ、Mはサブバンド数である。また、kは、サブバンドのインデックスを示しており、k=0,1,…,M−1である。
ここでは、QMF解析フィルタバンクによってサブバンド領域の信号に分割された信号をQMF係数と呼ぶ。QMF係数は、パラメトリック符号化手法において、合成処理の前段階で、調整されることが多い。
QMF合成フィルタバンクは、QMF係数の先頭のM個の係数をゼロパディングする(値を0で埋める)ことによって、サブバンド信号s’k(n)を算出する。そして、QMF合成フィルタバンクは、式9に従って時間信号x’(n)を算出する。
Figure 2011048792
ここで、βは位相パラメータを示す。
以上のケースでは、入力の実数値信号x(n)の再合成可能条件(perfect reconstruction)をほぼ満たすように、実数値で構成された線形位相プロトタイプフィルタ係数p(n)および位相パラメータが設計されている。
上述のように、QMF変換は、時間軸方向と周波数軸方向との混合の変換である。すなわち、信号に含まれる周波数成分と、時間毎の周波数の変化を示す情報を抽出することが可能である。そして、周波数成分は、サブバンドおよび単位時間毎に抽出することができる。ここでは、単位時間のことをタイムスロットと呼ぶことにする。
図31に詳しく図示する。実数の入力信号は、長さLおよびホップサイズMのオーバーラップされたブロックに分割される。QMF解析処理では、各ブロックは、M個の複素サブバンド信号が1個のタイムスロットになった形へと変換される(図31の上段)。こうして、時間領域のLサンプルの信号が、L個の複素QMF係数へと変換される。この複素QMF係数は、図31の中段で示すように、L/M個のタイムスロットおよびM個のサブバンドで構成される。各タイムスロットは、当該タイムスロットよりも前の(L/M−1)個のタイムスロットのQMF係数を用いて、QMF合成処理で、M個の実数時間信号へと合成される(図31の下段)。
上述のSTFTと同様に、音響信号処理装置は、時間分解能と周波数分解能の本来の組み合わせによって、ある瞬間の周波数信号をQMF領域で算出することが可能である。
また、音響信号処理装置は、L/M個のタイムスロットおよびM個のサブバンドで構成されている複素QMF係数ブロックから、あるタイムスロットの位相情報と隣接するタイムスロットの位相情報との間の位相差を算出することができる。例えば、あるタイムスロットの位相情報と隣接するタイムスロットの位相情報との間の位相差は、式10で算出される。
Δφ(n,k)=φ(n,k)−φ(n−1,k) (式10)
ここで、φ(n,k)は、位相情報を示す。nは、タイムスロットインデックスを示し、n=0,1,…,L/M−1である。kは、サブバンドインデックスを示し、k=0,1,…,M−1である。
時間伸張処理された後に、音響信号が、このようなQMF領域で信号処理される場合がある。しかし、この場合、音響信号処理装置は、演算量が大きいFFTおよび逆FFTを伴う時間伸張処理に加えて、時間領域の信号をQMF領域の信号へ変換する処理をしなければならない。よって、演算量がさらに増加していた。
そこで、本発明は、低い演算量で、音響信号処理を実現できる音響信号処理装置を提供することを目的とする。
上記課題を解決するため、本発明に係る音響信号処理装置は、所定の調整係数を用いて、入力音響信号列を変換する音響信号処理装置であって、前記入力音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列へ変換するフィルタバンクと、前記QMF係数列を前記所定の調整係数に依存させて調整する調整部とを備える。
これにより、音響信号処理がQMF領域で実行される。したがって、演算量の大きな従来の音響信号処理が用いられないため、演算量が低減する。
また、前記調整部は、調整された前記QMF係数列から、所定の時間伸縮比で時間伸縮された前記入力音響信号列が得られるように、前記所定の時間伸縮比を示す前記所定の調整係数に依存させて、前記QMF係数列を調整してもよい。
これにより、音響信号の時間伸縮に相当する処理がQMF領域で実行される。したがって、演算量の大きな従来の時間伸縮処理が用いられないため、演算量が低減する。
また、前記調整部は、調整された前記QMF係数列から、所定の周波数変調比で周波数変調された前記入力音響信号列が得られるように、前記所定の周波数変調比を示す前記所定の調整係数に依存させて、前記QMF係数列を調整してもよい。
これにより、音響信号の周波数変調に相当する処理がQMF領域で実行される。したがって、演算量の大きな従来の周波数変調処理が用いられないため、演算量が低減する。
また、前記フィルタバンクは、前記入力音響信号列を時間間隔毎に前記QMF係数列へ逐次変換することにより、前記時間間隔毎の前記QMF係数列を生成し、前記調整部は、前記時間間隔毎に生成された前記QMF係数列のタイムスロット毎およびサブバンド毎に位相情報を算出する算出回路と、前記タイムスロット毎および前記サブバンド毎の前記位相情報を前記所定の調整係数に依存させて調整することにより、前記QMF係数列を調整する調整回路とを備えてもよい。
これにより、QMF係数の位相情報が、調整係数に応じて、適応的に調整される。
また、前記調整回路は、前記サブバンド毎に、前記QMF係数列の最初のタイムスロットの前記位相情報と、前記所定の調整係数とに依存させて算出した値を、前記タイムスロット毎の前記位相情報に加算することにより、前記タイムスロット毎の前記位相情報を調整してもよい。
これにより、位相情報が、タイムスロット毎に、調整係数に応じて、適応的に調整される。
また、前記算出回路は、さらに、前記時間間隔毎に生成された前記QMF係数列の前記タイムスロット毎および前記サブバンド毎に振幅情報を算出し、前記調整回路は、さらに、前記タイムスロット毎および前記サブバンド毎の前記振幅情報を前記所定の調整係数に依存させて調整することにより、前記QMF係数列を調整してもよい。
これにより、QMF係数の振幅情報が、調整係数に応じて、適応的に調整される。
また、前記調整部は、さらに、前記QMF係数列の調整前または調整後に、前記QMF係数列から、予め定められた帯域幅に対応する新たなQMF係数列を取り出す帯域制限部を備えてもよい。
これにより、必要な周波数帯域のQMF係数のみが得られる。
また、前記調整部は、前記QMF係数列を調整する割合をサブバンド毎に重み付けして、前記サブバンド毎に前記QMF係数列を調整してもよい。
これにより、周波数帯域に応じて、適応的に、QMF係数が調整される。
また、前記調整部は、さらに、前記QMF係数列の調整前または調整後に、前記QMF係数列を時間および周波数の分解能が異なる新たなQMF係数列に変換する領域変換器を備えてもよい。
これにより、QMF係数列が、処理に応じたサブバンド数を有するQMF係数列に変換される。
また、前記調整部は、調整前の前記QMF係数列から過渡成分を検出し、検出した前記過渡成分を調整前の前記QMF係数列から取り出し、取り出した前記過渡成分を調整し、調整した前記過渡成分を調整後の前記QMF係数列に戻すことにより、前記QMF係数列を調整してもよい。
これにより、時間伸張処理に不適切な過渡成分による影響が抑制される。
また、前記音響信号処理装置は、さらに、調整後の前記QMF係数列から、予め定められた変換係数を用いて、調整前の前記QMF係数列に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する高域生成部と、前記高周波数帯域のうち、前記高域生成部によって前記高域係数列が生成されなかった周波数帯域である欠落帯域の係数を前記欠落帯域の両側に隣接する帯域に属する前記高域係数列を用いて補完する高域補完部とを備えてもよい。
これにより、高周波数帯域に対応するQMF係数が得られる。
また、本発明に係る音響符号化装置は、第1音響信号列を符号化する音響符号化装置であって、前記第1音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、第1QMF係数列に変換する第1フィルタバンクと、前記第1音響信号列をダウンサンプリングすることにより、第2音響信号列を生成するダウンサンプリング部と、前記第2音響信号列を符号化する第1符号化部と、前記第2音響信号列を、QMF解析フィルタを用いて、第2QMF係数列に変換する第2フィルタバンクと、前記第2QMF係数列を所定の調整係数に依存させて調整する調整部と、前記第1QMF係数列と、調整された前記第2QMF係数列とを比較することで、復号に用いられるパラメータを生成し、前記パラメータを符号化する第2符号化部と、符号化された前記第2音響信号列と、符号化された前記パラメータとを重畳する重畳部とを備えてもよい。
これにより、QMF領域での音響信号処理を用いて、音響信号が符号化される。したがって、演算量の大きな従来の音響信号処理が用いられないため、演算量が低減する。また、QMF領域での音響信号処理により得られたQMF係数は、時間領域の音響信号に変換されることなく、後段の処理に用いられる。したがって、さらに、演算量が低減する。
また、本発明に係る音響復号装置は、入力されたビットストリームから、第1音響信号列を復号する音響復号装置であって、入力された前記ビットストリームから、符号化されたパラメータと符号化された第2音響信号列とに分離する分離部と、符号化された前記パラメータを復号する第1復号部と、符号化された前記第2音響信号列を復号する第2復号部と、前記第2復号部によって復号された前記第2音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列に変換する第1フィルタバンクと、前記QMF係数列を所定の調整係数に依存させて調整する調整部と、復号された前記パラメータを用いて、調整後の前記QMF係数列から、調整前の前記QMF係数列に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する高域生成部と、前記高域係数列、および、調整前の前記QMF係数列を、QMF合成フィルタを用いて、時間領域の前記第1音響信号列に変換する第2フィルタバンクとを備えてもよい。
これにより、QMF領域での音響信号処理を用いて、音響信号が復号される。したがって、演算量の大きな従来の音響信号処理が用いられないため、演算量が低減する。また、QMF領域での音響信号処理により得られたQMF係数は、時間領域の音響信号に変換されることなく、後段の処理に用いられる。したがって、さらに、演算量が低減する。
また、本発明に係る音響信号処理方法は、所定の調整係数を用いて、入力音響信号列を変換する音響信号処理方法であって、前記入力音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列へ変換する変換ステップと、前記QMF係数列を前記所定の調整係数に依存させて調整する調整ステップとを含んでもよい。
これにより、本発明に係る音響信号処理装置が、音響信号処理方法として実現される。
また、本発明に係る音響符号化方法は、第1音響信号列を符号化する音響符号化方法であって、前記第1音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、第1QMF係数列に変換する第1変換ステップと、前記第1音響信号列をダウンサンプリングすることにより、第2音響信号列を生成するダウンサンプリングステップと、前記第2音響信号列を符号化する第1符号化ステップと、前記第2音響信号列を、QMF解析フィルタを用いて、第2QMF係数列に変換する第2変換ステップと、前記第2QMF係数列を所定の調整係数に依存させて調整する調整ステップと、前記第1QMF係数列と、調整された前記第2QMF係数列とを比較することで、復号に用いられるパラメータを生成し、前記パラメータを符号化する第2符号化ステップと、符号化された前記第2音響信号列と、符号化された前記パラメータとを重畳する重畳ステップとを含んでもよい。
これにより、本発明に係る音響符号化装置が、音響符号化方法として実現される。
また、本発明に係る音響復号方法は、入力されたビットストリームから、第1音響信号列を復号する音響復号方法であって、入力された前記ビットストリームから、符号化されたパラメータと符号化された第2音響信号列とに分離する分離ステップと、符号化された前記パラメータを復号する第1復号ステップと、符号化された前記第2音響信号列を復号する第2復号ステップと、前記第2復号ステップによって復号された前記第2音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列に変換する第1変換ステップと、前記QMF係数列を所定の調整係数に依存させて調整する調整ステップと、復号された前記パラメータを用いて、調整後の前記QMF係数列から、調整前の前記QMF係数列に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する高域生成ステップと、前記高域係数列、および、調整前の前記QMF係数列を、QMF合成フィルタを用いて、時間領域の前記第1音響信号列に変換する第2変換ステップとを含んでもよい。
これにより、本発明に係る音響復号装置が、音響復号方法として実現される。
また、本発明に係るプログラムは、前記音響信号処理方法に含まれるステップをコンピュータに実行させるためのプログラムであってもよい。
これにより、本発明に係る音響信号処理方法が、プログラムとして実現される。
また、本発明に係るプログラムは、前記音響符号化方法に含まれるステップをコンピュータに実行させるためのプログラムであってもよい。
これにより、本発明に係る音響符号化方法が、プログラムとして実現される。
また、本発明に係るプログラムは、前記音響復号方法に含まれるステップをコンピュータに実行させるためのプログラムであってもよい。
これにより、本発明に係る音響復号方法が、プログラムとして実現される。
また、本発明に係る集積回路は、所定の調整係数を用いて、入力音響信号列を変換する集積回路であって、前記入力音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列へ変換するフィルタバンクと、前記QMF係数列を前記所定の調整係数に依存させて調整する調整部とを備えてもよい。
これにより、本発明に係る音響信号処理装置が、集積回路として実現される。
また、本発明に係る集積回路は、第1音響信号列を符号化する集積回路であって、前記第1音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、第1QMF係数列に変換する第1フィルタバンクと、前記第1音響信号列をダウンサンプリングすることにより、第2音響信号列を生成するダウンサンプリング部と、前記第2音響信号列を符号化する第1符号化部と、前記第2音響信号列を、QMF解析フィルタを用いて、第2QMF係数列に変換する第2フィルタバンクと、前記第2QMF係数列を所定の調整係数に依存させて調整する調整部と、前記第1QMF係数列と、調整された前記第2QMF係数列とを比較することで、復号に用いられるパラメータを生成し、前記パラメータを符号化する第2符号化部と、符号化された前記第2音響信号列と、符号化された前記パラメータとを重畳する重畳部とを備えてもよい。
これにより、本発明に係る音響符号化装置が、集積回路として実現される。
また、本発明に係る集積回路は、入力されたビットストリームから、第1音響信号列を復号する集積回路であって、入力された前記ビットストリームから、符号化されたパラメータと符号化された第2音響信号列とに分離する分離部と、符号化された前記パラメータを復号する第1復号部と、符号化された前記第2音響信号列を復号する第2復号部と、前記第2復号部によって復号された前記第2音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列に変換する第1フィルタバンクと、前記QMF係数列を所定の調整係数に依存させて調整する調整部と、復号された前記パラメータを用いて、調整後の前記QMF係数列から、調整前の前記QMF係数列に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する高域生成部と、前記高域係数列、および、調整前の前記QMF係数列を、QMF合成フィルタを用いて、時間領域の前記第1音響信号列に変換する第2フィルタバンクとを備えてもよい。
これにより、本発明に係る音響復号装置が、集積回路として実現される。
本発明により、低い演算量で、音響信号処理を実現できる。
図1は、実施の形態1に係る音響信号処理装置を示す構成図である。 図2は、実施の形態1に係る時間伸張処理を示す説明図である。 図3は、音響復号装置を示す構成図である。 図4は、実施の形態1に係る周波数変調回路を示す構成図である。 図5Aは、実施の形態2に係るQMF係数ブロックを示す説明図である。 図5Bは、QMF領域でのタイムスロット毎のエネルギー分布を示す図である。 図5Cは、QMF領域でのサブバンド毎のエネルギー分布を示す図である。 図6Aは、過渡成分に応じた時間伸張処理の第1パターンを示す説明図である。 図6Bは、過渡成分に応じた時間伸張処理の第2パターンを示す説明図である。 図6Cは、過渡成分に応じた時間伸張処理の第3パターンを示す説明図である。 図7Aは、実施の形態2に係る過渡成分抽出処理を示す説明図である。 図7Bは、実施の形態2に係る過渡成分挿入処理を示す説明図である。 図8は、過渡位置とQMF位相遷移割合との線形関係を示す図である。 図9は、実施の形態2に係る時間伸張処理のフローチャートである。 図10は、実施の形態2に係る時間伸張処理の変形例のフローチャートである。 図11は、実施の形態3に係る時間伸張処理を示す説明図である。 図12は、実施の形態4に係る時間伸張処理を示す説明図である。 図13は、実施の形態5に係る音響信号処理装置を示す構成図である。 図14は、実施の形態5に係る音響信号処理装置の第1変形例を示す構成図である。 図15は、実施の形態5に係る音響信号処理装置の第2変形例を示す構成図である。 図16Aは、リサンプリング処理によりピッチシフト処理された出力を示す図である。 図16Bは、時間伸張処理により期待される出力を示す図である。 図16Cは、時間伸張処理により誤った出力を示す図である。 図17は、実施の形態6に係る音響信号処理装置を示す構成図である。 図18は、実施の形態6に係るQMF領域変換処理を示す概念図である。 図19は、実施の形態6に係る周波数変調処理のフローチャートである。 図20Aは、QMFプロトタイプフィルタの振幅応答を示す図である。 図20Bは、周波数と振幅との関係を示す図である。 図21は、実施の形態6に係る音響符号化装置を示す構成図である。 図22は、音質の評価を示す説明図である。 図23Aは、実施の形態7に係る音響信号処理装置を示す構成図である。 図23Bは、実施の形態7に係る音響信号処理装置の処理を示すフローチャートである。 図24は、実施の形態7に係る音響信号処理装置の変形例を示す構成図である。 図25は、実施の形態7に係る音響符号化装置を示す構成図である。 図26は、実施の形態7に係る音響符号化装置の処理を示すフローチャートである。 図27は、実施の形態7に係る音響復号装置を示す構成図である。 図28は、実施の形態7に係る音響復号装置の処理を示すフローチャートである。 図29は、実施の形態7に係る音響復号装置の変形例を示す構成図である。 図30Aは、時間伸張処理前の音響信号の状態を示す説明図である。 図30Bは、時間伸張処理後の音響信号の状態を示す説明図である。 図31は、QMF解析処理およびQMF合成処理を示す説明図である。
以下、本発明の実施の形態を、図面を参照しながら説明する。
(実施の形態1)
実施の形態1に係る音響信号処理装置は、入力された音響信号に対して、QMF変換を行い、位相調整を行い、逆QMF変換を施すことで、時間伸張処理を実現する。
図1は、実施の形態1に係る音響信号処理装置の構成図である。まず、はじめに、QMF解析フィルタバンク901は、入力された音響信号をQMF係数X(m,n)に変換する。ここで、mは、サブバンドインデックスを示し、nは、タイムスロットインデックスを示す。調整回路902は、変換で得られたQMF係数を調整する。以下、調整回路902での調整に関して説明する。式11は、調整前の各QMF係数を、それぞれの振幅および位相を用いて表現している。
Figure 2011048792
r(m、n)は、振幅情報を示し、a(m、n)は、位相情報を示す。調整回路902は、位相情報a(m,n)を位相情報
Figure 2011048792
に調整する。調整回路902は、調整後の位相情報と調整前の振幅情報r(m,n)によって、新しいQMF係数を式12に従って計算する。
Figure 2011048792
最後に、QMF合成フィルタバンク903は、式12で計算された新しいQMF係数を時間信号に変換する。以下に、位相情報を調整する手法に関して説明する。
実施の形態1において、QMFベースの時間伸張処理は、次に示すステップで構成される。すなわち、時間伸張処理は、(1)位相情報を調整するステップと、(2)QMF変換の加法定理に基づいて、QMF領域でのオーバーラップ加算を実行するステップとで、構成される。
以下は、時間伸張に関する説明で、2Lサンプルの実数値の時間信号を伸張係数sで時間伸張を行う場合の例である。QMF解析フィルタバンク901は、例えば、2Lサンプルの実数値の時間信号を、2L/M個の時間スロットおよびM個のサブバンドで構成される2L個のQMF係数に変換する。すなわち、QMF解析フィルタバンク901は、2Lサンプルの実数値の時間信号を合成周波数領域のQMF係数に変換する。
STFTベースの時間伸張方法と同じように、QMF変換によって算出されるQMF係数は、位相情報を調整する前段で、解析窓関数の影響を受けやすい。実施の形態1では、QMF係数への変換を下記の3ステップで実現する。
(1)解析窓関数h(n)(窓長L)がQMF領域用に変換されることにより、QMF領域用の解析窓関数H(ν,k)(L/M個のタイムスロットと、M個のサブバンドで構成)が算出される。
(2)算出された解析窓関数H(ν,k)は、
Figure 2011048792
によって、簡易化される。
(3)QMF解析フィルタバンク901は、X(m,k)=X(m,k)・H0(w)(ここで、w=mod(m,L/M)、mod()は剰余を算出する演算である)によって、QMF係数を算出する。
元々のQMF係数は、図2の上段に示すようにL/M個のタイムスロットで、ホップサイズが1タイムスロット毎にオーバーラップされたL/M+1個のQMFブロックで構成される。
調整回路902は、位相情報が非連続になることを確実に避けるため、調整前の各QMFブロックの位相情報を調整し、新しいQMFブロックを構成する。つまり、μ番目とμ+1番目のQMFブロックがオーバーラップしている場合に新しいQMFブロックの位相情報はμ・sサンプル点において連続性を確保する必要がある(sは伸張係数)。これは、時間領域で言うと、ジャンプポイントμ・M・s(μ∈N)における連続性を確保することに相当する。
調整回路902は、調整前の各QMFブロックの位相情報φu(k)を、複素数であるQMF係数X(u,k)(タイムスロットインデックスu=0,…,2L/M−1、サブバンドインデックスk=0,1,…,M−1)から算出する。図2の中段に示すように、調整回路902は、各QMFブロックを、タイムスロットが古い順番から演算して、新しいQMFブロックを生成する。各QMFブロックは、それぞれ、異なる模様で図示されている。図2は、2タイムスロット分のホップサイズでずらして処理する場合を示している。
n番目(n=1,…,L/M+1)の新しいQMFブロックの位相情報は、ψu (n)(k)(タイムスロットインデックスu=0,…,L/M−1、サブバンドインデックスk=0,1,…,M−1)として表現される。新しい位相情報ψu (n)(k)は、時間伸張後の新しいQMFブロックが、どこに再配置されるかで異なる。
1番目のQMFブロックX(1)(u,k)(u=0,…,L/M−1)が再配置される際、そのQMFブロックの新しい位相情報ψu (1)(k)は、調整前のQMFブロックの位相情報φu(k)と同じとする。すなわち、新しい位相情報ψu (1)(k)は、ψu (1)(k)=φu(k)(u=0,…,L/M−1、k=0,1,…,M−1)で算出される。
2番目のQMFブロックX(2)(u,k)(u=0,…,L/M−1)は、sタイムスロットのホップサイズだけ移動して再配置される(図2は、2タイムスロットの場合を示している)。この場合、ブロックの先頭の周波数成分は、1番目の新しいQMFブロックX(1)(u,k)のs番目のタイムスロットと連続している必要がある。従って、X(2)(u,k)の1番目のタイムスロットの周波数成分は、元々のQMFブロックの2番目のタイムスロットの周波数成分と一致させる。すなわち、新しい位相情報ψ0 (2)(k)は、ψ0 (2)(k)=ψ0 (1)(k)+Δφ1(k)で算出される。
1番目のタイムスロットの位相情報が変わったため、残りの位相情報も、元々のQMFブロックの位相情報に応じて調整される。すなわち、新しい位相情報ψu (2)(k)は、ψu (2)(k)=ψu-1 (2)(k)+Δφu+1(k)(u=0,…,L/M−1)で算出される。
ここで、Δφu(k)は、Δφu(k)=φu(k)−φu-1(k)で算出され、調整前のQMFブロックの位相差である。
調整回路902は、以上のプロセスをL/M+1回繰り返して、調整後のQMFブロックを生成する。すなわち、m番目(m=3,…,L/M+1)の新しいQMFブロックの調整後の位相情報ψu (m)(k)は、式13および式14で算出される。
ψ0 (m)(k)=ψ0 (m-1)(k)+Δφm-1(k) (式13)
ψu (m)(k)=ψu-1 (m)(k)+Δφm+u-1(k)(u=1,…,L/M−1) (式14)
調整回路902は、新しいQMFブロックの振幅情報に元々のQMFブロックの振幅情報を用いることで、新しいQMFブロックのQMF係数を算出することが可能になる。
調整回路902は、QMF領域の偶数番目のサブバンドと奇数番目のサブバンドとで異なる調整方法により、位相情報を調整してもよい。例えば、調波構造が強い(トナリティの強い)音響信号では、QMF領域において、周波数成分毎に位相差情報(Δφ(n,k)=φ(n,k)−φ(n−1,k))が異なる。この場合、調整回路902は、瞬時周波数成分ω(n,k)を式15により決定する。
Figure 2011048792
ここで、princarg(α)は、αの変換を示し、式16のように定義される。
princarg(α)=mod(α+π,−2π)+π (式16)
mod(a,b)は、aをbで割った余りを示す。
これらをまとめると、上記の位相調整方法における、位相差情報Δφu(k)は、式17により算出される。
Figure 2011048792
更に、QMF合成フィルタバンク903は、時間伸張処理の演算量を削減するため、QMF合成処理を新しいQMFブロックの各々に対して適用しなくてもよい。その代わり、QMF合成フィルタバンク903は、新しいQMFブロックをオーバーラップ加算し、得られた信号に対して、QMF合成処理を適用する。
STFTベースの伸張処理と同じように、QMF変換によって算出されるQMF係数は、オーバーラップ加算する前段階で、合成窓関数の影響を受けやすい。そこで、上述の解析窓関数と同様に、合成窓関数は、X(n+1)(u,k)=X(n+1)(u,k)・H0(w)(ここでw=mod(u,L/M))によって実現する。
QMF変換では加法定理が成立するため、L/M+1個のすべてのQMFブロックはsタイムスロットのホップサイズでオーバーラップ加算することが可能である。オーバーラップ加算の結果であるY(u,k)は、式18で算出される。
Y(ns+u,k)=Y(ns+u,k)+X(n+1)(u,k)(n=0,…,L/M、u=1,…,L/M,k=0,1,…,M−1) (式18)
QMF合成フィルタバンク903は、最終的な時間伸張後の音響信号を、上記Y(u,k)にQMF合成フィルタを適用することで、生成することが可能である。元の信号に対して、s倍の時間伸張処理を施すことができることは、Y(u,k)の時間インデックスuの範囲からも明らかである。
上述の式12に示したように、実施の形態1では、調整回路902は、QMF領域で位相調整および振幅調整を行う。これまでにも述べているとおり、QMF解析フィルタバンク901は、単位時間毎に区切られた音響信号をQMFフィルタで逐次QMF係数(QMFブロック)に変換する。そして、調整回路902は、予め指定された伸張率(s倍、たとえばs=2,3,4など)に応じて隣り合うQMFブロック毎の位相および振幅の連続性を保持するように、各QMFブロックの振幅および位相を調整する。これにより、フェーズボコーダー処理が実現される。
QMF合成フィルタバンク903は、QMF領域でフェーズボコーダー処理されたQMF係数を、時間領域の信号へ変換する。これにより、s倍に伸張された時間領域の音響信号が得られる。また、時間伸張処理の後段の信号処理によって、QMF係数の方が、都合が良い場合がある。例えば、QMF領域でフェーズボコーダー処理されたQMF係数に、SBR技術に基づく帯域拡大処理など、何らかの音響処理が施されてもよい。そして、後段の信号処理の後、QMF合成フィルタバンク903は、時間領域の音響信号に変換する構成を取っても良い。
図3に示された構成は、そのような組み合わせの一例である。これは、QMF領域でのフェーズボコーダー処理と、音響信号の帯域拡大技術とを組み合わせた音響復号装置の一例である。以下に、フェーズボコーダー処理を用いた音響復号装置の構成を説明する。
分離部1201は、入力のビットストリームを、高域生成のためのパラメータと、低域復号のための符号化情報とに分離する。パラメータ復号部1207は、高域生成のためのパラメータを復号する。復号部1202は、低域復号のための符号化情報から、低域成分の音響信号を復号する。QMF解析フィルタバンク1203は、復号された音響信号をQMF領域の音響信号に変換する。
周波数変調回路1205および時間伸張回路1204は、QMF領域の音響信号に、前記フェーズボコーダー処理を施す。その後、高域生成回路1206は、高域生成のためのパラメータを用いて高域周波数成分の信号を生成する。概形調整回路1208は、高域成分の周波数概形を調整する。QMF合成フィルタバンク1209は、QMF領域における低域成分および高域成分の音響信号を時間領域の音響信号へ変換する。
なお、上記低域成分の符号化処理または復号処理には、MPEG−AAC方式、MPEG−Layer3などの音響符号化方式が用いられてもよいし、あるいは、ACELPなどの音声符号化方式が用いられてもよい。
また、調整回路902は、QMF領域でフェーズボコーダー処理を行う際、式12による調整後のQMF係数の算出に、QMFブロックのサブバンドインデックス毎に重み付け演算を行ってもよい。これにより、調整回路902は、サブバンドインデックス毎に異なる値を持つ変調係数で変調することも可能である。たとえば、高域周波数に対応するサブバンドインデックスにおいて、伸張時に歪みが大きくなる音響信号がある。調整回路902は、そういう音響信号を小さくするような変調係数を用いてもよい。
さらに、QMF領域でフェーズボコーダー処理をする別の構成として、音響信号処理装置は、QMF解析フィルタバンク901の後段に、さらに、別のQMF解析フィルタバンクを備えてもよい。QMF解析フィルタバンク901のみでは低域の周波数分解能が低い場合がある。その場合、低域成分を多く含む音響信号にフェーズボコーダー処理を施しても、十分な効果が得られない。
そこで、低域成分の周波数分解能を向上させるため、低域部分(たとえば、QMF解析フィルタバンク901の出力に含まれる全QMFブロックの半分)を解析するための別のQMF解析フィルタバンクが用いられてもよい。これにより、周波数分解能が2倍に向上する。その上で、調整回路902は、上述のような、QMF領域でのフェーズボコーダー処理を施す。これにより、音質を維持したまま、演算量およびメモリ消費量の削減効果が高くなる。
図4は、QMF領域の分解能を向上させる構成の例を示す図である。QMF合成フィルタバンク2401は、入力の音響信号を一旦QMF合成フィルタで合成する。その後、QMF解析フィルタバンク2402は、2倍の解像度のQMF解析フィルタで、QMF係数を算出する。2倍の分解能になったQMF領域の信号に対して、2倍の時間伸張と、2倍、3倍または4倍のピッチシフト処理を行うフェーズボコーダー処理回路(第1時間伸張回路2403、第2時間伸張回路2404および第3時間伸張回路2405)が並列に構成される。
そして、各フェーズボコーダー処理回路は、2倍の解像度で、伸張割合の異なるフェーズボコーダー処理を統一的に行う。そして、マージ回路2406は、フェーズボコーダー処理された信号を合成する。
QMFフィルタによるフェーズボコーダー処理は、上記からもわかるように、STFTベースのフェーズボコーダー処理と比較して、演算量の大きなFFT処理を用いる必要がない。そのため、演算量を大幅に削減できるという顕著な効果が存在する。
(実施の形態2)
実施の形態2として、実施の形態1に記載のブロックベースによる時間軸伸張方法を拡張する形態を述べる。実施の形態2に係る音響信号処理装置は、図1に示された実施の形態1に係る音響信号処理装置と同様の構成要素を備える。そして、上述の位相情報の不連続による影響を避けるため、位相情報の算出は、下記の2種類の方法で行われる。
(a)調整回路902は、調整後のQMFブロックにおいて、オーバーラップしているタイムスロットの位相情報がブロック間で連続するように、位相情報を調整する。すなわち、調整回路902は、ψ0 (m)(k)=ψ0 (m-1)(k)+Δφm-1(k)により、位相情報を調整する。
(b)調整回路902は、調整後の各QMFブロックにおいて、ブロック内で連続しているタイムスロット間で位相情報が連続するように、位相情報を調整する。すなわち、調整回路902は、ψu (m)(k)=ψu-1 (m)(k)+Δφm+u-1(k)(ここで、u=1,…,L/M−1)により、位相情報を調整する。
上記では、位相情報の調整方法は、トナリティの強い成分に応じて、位相情報が調整前のQMFブロックから変化していると仮定している。
しかしながら、実際には、上述の仮定は常に正しいとは限らない。典型的には、元の信号が音響的に過渡的な信号の場合、上述の仮定は正しくない。過渡信号は、時間領域で鋭いアタック音がある場合など、非定常な形式の信号である。位相情報と周波数成分の間に一定の関係を仮定することで、次のことが分かる。すなわち、トナリティの強い成分が離散的に大量に含まれており、かつ、短い時間間隔の間に間隔の広い周波数成分が含まれているような場合、過渡信号を処理することが困難である。結果として、伸縮処理により、知覚できる音響的な歪みを有する出力信号が、生成されることになってしまう。
実施の形態2では、過渡信号を多く含む信号を伸張処理する際に発生する上記の問題に対処するため、実施の形態1に係る位相情報の調整を伴う時間伸縮処理が、トナリティの強い信号と過渡信号との両方に対応可能な時間伸縮処理に変形される。
まず初めに、調整回路902は、潜在的に問題になりそうな時間伸縮処理を除外するため、過渡信号に含まれる過渡成分をQMF領域で検出する。
過渡状態を検出する手法は、様々な手法があり、数多くの文献で開示されている。実施の形態2では、QMFブロックでの過渡応答を検出する2つの簡単な手法が示される。
図5Aは、QMF変換により算出されたQMFブロックX(u,k)(2L/M個のタイムスロット、M個のサブバンド)に対して時間伸張する場合に関して説明するための説明図である。1つめの手法は、前記QMFブロック毎のエネルギー値の変化に応じて過渡状態を検出する方法であり、2つめの手法は、周波数軸でQMFブロック毎の振幅値の変化を検出する方法である。
1つめの検出方法は、次の通りである。調整回路902は、図5Bに示されるように、各QMFブロックのタイムスロット毎にエネルギー値E0〜E2L/M-1を算出する。図5Cは、サブバンド毎のエネルギー値を示す図である。調整回路902は、タイムスロット毎にエネルギー値の差分をdEu=Eu+1−Eu(ここでu=0,…,2L/M−2)として算出する。所定の閾値T0により、もし、
Figure 2011048792
である場合、i番目のタイムスロットにおいて過渡成分が検出される。
2つめの検出方法は、次の通りである。QMFブロックに含まれるすべてのタイムスロットおよびサブバンドでの振幅がA(u,k)である場合、各タイムスロットについて、振幅情報の概形は、
Figure 2011048792
として計算される。所定の閾値T1とT2により、Fi>T1であり、
Figure 2011048792
である場合、i番目のタイムスロットにおいて過渡成分が検出される。
もし、u0番目のタイムスロットで過渡成分が検出された場合、上記の位相情報の伸張処理は、u0番目のタイムスロットを含む新しいQMFブロックに対して、修正される。
伸張処理の修正は、2つの目的を持っている。1つは、任意の位相情報伸張処理においてu0番目のタイムスロットの処理をさけるためである。もう1つは、仮にu0番目のタイムスロットが何も処理されずにバイパスされている場合、QMFブロック内およびQMFブロック間の連続性を保持するためである。これら2つの目的を達成するために、前記の位相情報伸張処理は次のように修正される。
m番目の新しいQMFブロック(m=2,…,L/M+1)において、その位相ψu (m)(k)は、次のようになる。
(a)m<u0<m+L/M−1の場合、QMFブロック内の位相情報の連続性を担保するために、位相ψu (m)(k)は、
Figure 2011048792
で算出される(図6A)。
(b)m=u0かつmod(u0,s)=0の場合、任意の位相情報処理からu0番目のタイムスロットの処理を避けるために、位相ψ0 (m)(k)は、
Figure 2011048792
で算出される(図6B)。また、QMFブロック間での位相情報の連続性を担保するために、位相ψ1 (m)(k)は、
Figure 2011048792
で算出される。
(c)m=u0かつmod(u0,s)≠0の場合、任意の位相情報処理からu0番目のタイムスロットの処理を避けるために、位相ψ0 (m)(k)は、
Figure 2011048792
で算出される(図6C)。また、QMFブロック間の位相情報の連続性を担保するために、位相ψ1 (m)(k)は、
Figure 2011048792
で算出される。
実際のところ、音響的観点から、上記の過渡信号に対する伸張処理は、好ましくない場合も多い。調整回路902は、過渡信号を伸張処理しない代わりに、QMFブロックから過渡信号成分を取り除いたうえで伸張処理を施し、伸張処理したQMFブロックに対して、さきほど取り除いた過渡信号を戻してもよい。
図7Aおよび図7Bには、上述の処理が示されている。ここでは、QMF変換によって算出されたQMFブロック信号X(u,k)(L/M個のタイムスロットおよびM個のサブバンドを有すると仮定)が時間伸張される場合で、かつ、上記の過渡信号検出方法でu0番目のタイムスロットで過渡信号が検出されている場合を説明する。各ブロックの時間伸張は、次のステップで実施される。
(1)調整回路902は、u0番目のタイムスロット成分をQMFブロックから取り除き、取り出したu0番目のタイムスロットを“0”詰め、あるいは、“内挿”処理をする。
(2)調整回路902は、新しいQMFブロックの信号を、上記伸張方法に従って、s・L/M個のタイムスロットへ伸張する。
(3)調整回路902は、上記(1)で取り除いたタイムスロットの信号を、上記(2)で伸張したブロックの位置(s・u0番目のタイムスロットの位置)に挿入する。
ここで、上記の手法は、s・u0番目のタイムスロットが過渡応答成分に対する適切な位置でない場合の単純な例でもある。それは、QMF変換の時間分解能が低いためである。
より高音質な時間伸張回路を実現するためには、上記の単純化された例を拡張することが必要になる。そして、過渡応答成分の正確な位置が必要になる。実際には、QMF領域のいくつかの情報、たとえば、振幅情報および位相遷移情報などは、過渡応答成分の正確な位置を特定するために有用である。
過渡応答成分の位置(以下では、過渡位置と呼ぶ)は、各QMFブロックの信号の振幅成分および位相遷移情報のそれぞれを検出する2つのステップによって特定されることが好ましい。t0時刻でのみにインパルス成分が存在する場合を説明する。インパルス成分は、過渡応答成分の典型的な例である。
まず、調整回路902は、QMF領域で各QMFブロックの振幅情報を算出することで、過渡位置t0の大まかな推定を行う。
上記のQMF変換の手続きを考慮すると、次のことが分かる。すなわち、解析窓処理をしているため、インパルス成分はQMF領域の複数のタイムスロットにわたって、影響を与える。これらのタイムスロットの振幅値の分布を解析することで、次の2つの場合が存在することが分かった。
(1)n0番目のタイムスロットが、より高いエネルギー(振幅値の自乗)を持っている場合、調整回路902は、(n0−5)・64−32<t0<(n0−5)・64+32として、過渡位置t0を推定する。
(2)n0−1番目とn0番目のタイムスロットがほぼ同じエネルギーである場合、調整回路902は、t0=(n0−5)・64−32として、過渡位置t0を推定する。
(n0−5)は、QMF解析フィルタバンク901で5つのタイムスロット分だけ遅延させておくことを示している。また、上記(2)の場合、調整回路902は、過渡位置を振幅解析のみによって正確に決定することができる。
そして、上記(1)の場合、調整回路902は、QMF領域の位相情報を用いることで、更に効率的に過渡位置t0を決定することができる。
以下、n0番目のタイムスロット内の位相情報φ(n0,k)(k=0,1,…,M−1)を解析する場合について説明する。2πで巡回(ラウンド)する位相情報φ(n0,k)の遷移割合は、過渡位置t0と、過渡位置t0に最も近い左(時間的に過去)のタイムスロット、あるいは、n0番目のタイムスロットの中間の位置との間に完全線形関係を有しなければならない。つまり、k・Δt=C0−g0が成立する。ここで、位相遷移割合は、
Figure 2011048792
である。
unwrap(P)は、ラジアン位相Pを2πで巡回させ、π以上の変化を修正する関数である。C0は定数である。
Δtは、過渡位置t0と、過渡位置t0に最も近い左(時間的に過去)のタイムスロット、または、n0番目のタイムスロットとの距離である。つまり、Δtは、式19によって算出される。
Figure 2011048792
上記のパラメータの例は、式20によって示されるような値である。
Figure 2011048792
図8は、過渡位置t0とQMF位相遷移割合g0との間にある線形関係を示す図である。図8に示されているように、n0(最もエネルギーが高いタイムスロットのインデックス)が固定である限り、t0とg0とは、一対一に対応づけられる。
上記に基づいて、別の例を説明する。それは、QMF領域において、時間伸張処理をしている間に過渡成分を扱う手法である。上述の簡易手法と比較すると、本手法は、次の点に利点がある。すなわち、本手法は、元々の信号の過渡位置を正確に検出することができる。また、本手法は、時間伸張された過渡成分が存在するタイムスロットも、適切な位相情報とともに検出することができる。本手法の詳細を次に記載する。なお、本手法の手順は、図9にフローチャートとしても示される。
QMF解析フィルタバンク901は、入力された時間信号時間信号x(n)を受け取る(S2001)。QMF解析フィルタバンク901は、時間伸張の対象となる時間信号x(n)から、QMFブロックX(m,k)を計算する(S2002)。ここで、X(m,k)の振幅はr(m,k)であり、位相情報はφ(m,k)であるとする。このQMFブロックに過渡成分の信号が含まれる場合、最適な時間伸張手法は次の通りである。
(a)調整回路902は、過渡信号の存在するタイムスロットm0を、エネルギー分布に基づいて、式21により、検出する(S2003)。
Figure 2011048792
(b)調整回路902は、過渡応答が存在するタイムスロットのうち、過渡応答が目立つタイムスロットの位相遷移割合
Figure 2011048792
を推定する(S2004)。すなわち、調整回路902は、タイムスロットの位相角ω0と位相遷移割合
Figure 2011048792
を推定する。
(c)調整回路902は、多項式残差を式22で算出する。
Figure 2011048792
(d)調整回路902は、過渡位置t0を式23に従って決定する(S2005)。
Figure 2011048792
ここで、定数Kは、K=0.0491である。
(e)調整回路902は、過渡状態にある領域を式24に従って決定する(S2006)。
Figure 2011048792
調整回路902は、スカラー値を用いて、過渡状態にある領域内でQMF係数を式25に従って小さくする(S2007)。
Figure 2011048792
αは、小さい値であって、たとえばα=0.001である。
(f)調整回路902は、過渡状態にないQMFブロックに対して通常の時間伸張処理を施す(S2008)。
(g)調整回路902は、次のように、過渡位置s・t0における新しいタイムスロットおよび位相遷移割合を計算する。
<i>調整回路902は、時間伸張したタイムスロットインデックスm1をm1=ceil((s・t0−32)/64)+5により算出する(S2009)。ここで、ceilは、最も近い整数に切り上げる処理である。
<ii>調整回路902は、過渡位置と、新しいタイムスロットの最も近い左(時間的に過去)の位置との距離を式26に従って算出する。
Δt1=s・t0−(m1−5)・64+32 (式26)
<iii>調整回路902は、新しい位相遷移割合を式27で算出する。
Figure 2011048792
(h)調整回路902は、過渡応答の目立つタイムスロットm1でのQMF係数を新たに合成する。
タイムスロットm1の振幅は、伸張前のタイムスロットm0の振幅を継承している。調整回路902は、位相情報を新しい位相遷移割合と位相差に基づいて式28によって算出する(S2010)。
Figure 2011048792
そして、調整回路902は、新しいQMF係数を式29で算出する(S2011)。
Figure 2011048792
(i)調整回路902は、新しい過渡領域を式30で決定する(S2013)。
Figure 2011048792
(j)新しく決定した過渡領域
Figure 2011048792
に複数のタイムスロットが含まれる場合、調整回路902は、それらのタイムスロットの位相を式31により再調整する(S2015)。
Figure 2011048792
そして、調整回路902は、このようにして調整したタイムスロットで構成されるQMFブロック係数を、式32に従って再合成する。
Figure 2011048792
最後に、調整回路902は、時間伸張処理されたQMFブロックを出力する(S2012)。
演算量の観点では、過渡位置を検出するために実行される上記の(a)〜(d)は、直接時間領域での過渡応答検出手法で置き換えられてもよい。たとえば、時間領域で過渡位置を検出するための過渡位置検出部(図示せず)が、QMF解析フィルタバンク901の前段に配置される。そして、時間領域での過渡応答検出手法として典型的な手順は、次の通りである。
(1)過渡位置検出部は、時間信号x(n)(n=0,1,…,N・L0−1)を、長さL0のN個のセグメントに分割する。
(2)過渡位置検出部は、各セグメントでのエネルギーを
Figure 2011048792
として計算する。
(3)過渡位置検出部は、全体のセグメントでのエネルギーをElt(i)=α・Elt(i−1)+(1−α)・Es(i)に従って計算する。
(4)もし、Es(i)/Elt(i)>R1であり、Es(i)>R2であれば、過渡位置検出部は、i番目のセグメントは過渡応答成分を含んでいる過渡セグメントであるとして判断する。ここで、R1およびR2は、所定の閾値である。
(5)過渡位置検出部は、最終的な過渡位置の概算の位置として、過渡セグメントの真ん中の位置をt0=(i+0.5)・L0によって算出する。
もし、時間領域の過渡成分検出を用いる場合、図9のフローチャートは、図10のように変更される。
なお、実施の形態1と同様に、実施の形態2に係る音響信号処理をQMF領域での別の音響処理と組み合わせる構成も可能である。例えば、QMF解析フィルタバンク901は、単位時間毎に区切られた音響信号をQMFフィルタで逐次QMF係数(QMFブロック)に変換する。そして、調整回路902は、予め指定された伸張率(s倍、たとえばs=2,3,4など)に応じて隣り合うQMFブロック毎の位相および振幅の連続性を保持するように、各QMFブロックの振幅および位相を調整する。これにより、フェーズボコーダー処理が実現される。
QMF合成フィルタバンク903は、QMF領域でフェーズボコーダー処理されたQMF係数を、時間領域の信号へ変換する。これにより、s倍に伸張された時間領域の音響信号が得られる。また、時間伸張処理の後段の信号処理によって、QMF係数の方が、都合が良い場合がある。例えば、QMF領域でフェーズボコーダー処理されたQMF係数に、SBR技術に基づく帯域拡大処理など、何らかの音響処理が施されてもよい。そして、後段の信号処理の後、QMF合成フィルタバンク903は、時間領域の音響信号に変換する構成を取っても良い。
図3に示された構成は、そのような組み合わせの一例である。これは、QMF領域でのフェーズボコーダー処理と、音響信号の帯域拡大技術とを組み合わせた音響復号装置の一例である。以下に、フェーズボコーダー処理を用いた音響復号装置の構成を説明する。
分離部1201は、入力のビットストリームを高域生成のためのパラメータと低域復号のための符号化情報とに分離する。パラメータ復号部1207は、高域生成のためのパラメータを復号する。復号部1202は、低域復号のための符号化情報から、低域成分の音響信号を復号する。QMF解析フィルタバンク1203は、復号された音響信号をQMF領域の音響信号に変換する。
周波数変調回路1205および時間伸張回路1204は、QMF領域の音響信号に、前記フェーズボコーダー処理を施す。その後、高域生成回路1206は、高域生成のためのパラメータを用いて高域周波数成分の信号を生成する。概形調整回路1208は、高域成分の周波数概形を調整する。QMF合成フィルタバンク1209は、QMF領域における低域成分および高域成分の音響信号を時間領域の音響信号へ変換する。
なお、上記低域成分の符号化処理または復号処理には、MPEG−AAC方式、MPEG−Layer3などの音響符号化方式が用いられてもよいし、あるいは、ACELPなどの音声符号化方式が用いられてもよい。
さらに、QMF領域でフェーズボコーダー処理する別の構成として、音響信号処理装置は、QMF解析フィルタバンク901の後段に、さらに、別のQMF解析フィルタバンクを備えてもよい。QMF解析フィルタバンク901のみでは低域の周波数分解能が低い場合がある。その場合、低域成分を多く含む音響信号にフェーズボコーダー処理を施しても、十分な効果が得られない。
そこで、低域成分の周波数分解能を向上させるため、低域部分(たとえば、QMF解析フィルタバンク901の出力に含まれる全QMFブロックの半分)を解析するための別のQMF解析フィルタバンクが用いられてもよい。これにより、周波数分解能が2倍に向上する。その上で、調整回路902は、上述のような、QMF領域でのフェーズボコーダー処理を施す。これにより、音質を維持したまま、演算量およびメモリ消費量の削減の効果が高くなる。
図4は、QMF領域の分解能を向上させる構成の例を示す図である。QMF合成フィルタバンク2401は、入力の音響信号を一旦QMF合成フィルタで合成する。その後、QMF解析フィルタバンク2402は、2倍の解像度のQMF解析フィルタで、QMF係数を算出する。2倍の分解能になったQMF領域の信号に対して、2倍の時間伸張と、2倍、3倍または4倍のピッチシフト処理を行うフェーズボコーダー処理回路(第1時間伸張回路2403、第2時間伸張回路2404および第3時間伸張回路2405)が並列に構成される。
そして、各フェーズボコーダー処理回路は、2倍の解像度で、伸張割合の異なるフェーズボコーダー処理を統一的に行う。そして、マージ回路2406は、フェーズボコーダー処理された信号を合成する。
なお、実施の形態2に係る音響信号処理装置は、下記に示す構成を備えてもよい。
調整回路902は、入力の音響信号のトナリティ(音響調波構造の大きさ)と音響信号の過渡特性に応じて、柔軟に調整してもよい。調整回路902は、QMF領域の係数に過渡信号を検出することによって位相情報を調整してもよい。調整回路902は、位相情報の連続性を確保するように、かつ、QMF領域の係数の過渡信号成分が変化しないように、位相情報を調整してもよい。調整回路902は、時間伸縮を避けた過渡信号成分に関連したQMF係数を、過渡信号成分を伸張または圧縮したQMF係数に戻すことによって、位相情報を調整してもよい。
音響信号処理装置は、さらに、入力信号の過渡特性を検出する検出部と、検出部によって検出した過渡成分を弱める処理を施すアッテネーターとを備えてもよい。アッテネーターは、位相が調整される前段に備えられる。調整回路902は、時間伸張処理をした後で、弱める処理を施した過渡成分を拡張する。アッテネーターは、周波数領域の係数の振幅値を調整することにより、過渡成分を弱めてもよい。
調整回路902は、時間伸張した過渡成分について、周波数領域の振幅を増加させ、位相を調整することで、時間伸張した過渡成分を拡張してもよい。
(実施の形態3)
実施の形態3に係る音響信号処理装置は、入力された音響信号に対して、QMF変換を行い、QMF係数に対して位相調整および振幅調整を行うことにより、時間伸張および周波数変調処理を実現する。
実施の形態3に係る音響信号処理装置は、図1に示された実施の形態1に係る音響信号処理装置と同様の構成要素を備える。QMF解析フィルタバンク901は、入力の音響信号をQMF係数X(m,n)に変換する。調整回路902は、QMF係数を調整する。調整前のQMF係数X(m,n)は、振幅および位相を用いて、式33のように表現される。
Figure 2011048792
位相情報a(m,n)は、調整回路902で調整されて、
Figure 2011048792
となる。調整回路902は、調整後の位相情報と元の振幅情報r(m,n)によって、新しいQMF係数を式34に従って計算する。
Figure 2011048792
最後に、QMF合成フィルタバンク903は、式34で計算された新しいQMF係数を時間信号に変換する。なお、実施の形態3に係る音響信号処理装置は、QMF合成フィルタを施さずに、新しいQMF係数をそのまま後段の別の音響信号処理装置に出力しても良い。後段の音響信号処理装置は、たとえば、SBR技術に基づく音響信号処理などを実行する。
実施の形態1と異なる点は、図11に示すように、時間伸張係数がsである場合、元々のQMF領域のタイムスロットの後ろに、(s−1)個の仮想タイムスロットが挿入されることである。
この場合、調整回路902は、元々の音響信号のピッチを維持する必要がある。また、調整回路902は、位相情報を聴感的な音質劣化を避けるように算出する必要がある。たとえば、元々のQMFブロックの位相情報をφn(k)(タイムスロットインデックスn=1,…,L/M、サブバンドインデックスk=0,1,…,M−1)とすると、調整回路902は、上記仮想タイムスロットにおける調整後の新しい位相情報を、式35で算出する。
ψq(k)=ψq-1(k)+Δφn(k)
(q=s・(n−1)+1,…,s・n、n=1,…,L/M) (式35)
ここで、実施の形態1と同様に、位相差Δφn(k)は、Δφn(k)=φn(k)−φn-1(k)で算出される。
また、位相差Δφn(k)は、式36でも算出される。
Figure 2011048792
挿入されるタイムスロットの振幅情報は、挿入される境界部で連続になるように、前のタイムスロットと後ろのタイムスロットの間を線形補完(内挿)する値で構成される。たとえば、元のQMFブロックをan(k)とすると、挿入される仮想タイムスロットの振幅情報は、式37により線形補完される。
Figure 2011048792
QMF合成フィルタバンク903は、このようにして仮想タイムスロットを挿入することにより構成された新しいQMFブロックを実施の形態1と同様に時間領域の信号へと変換する。これにより、時間伸張された信号が算出される。なお、上述の通り、実施の形態3に係る音響信号処理装置は、QMF合成フィルタバンクを施さずに、新しいQMF係数をそのまま後段の音響信号処理装置に出力しても良い。
実施の形態3に係る音響信号処理装置も、FFT演算を用いておらず、STFTベースのフェーズボコーダー処理に比べて圧倒的に少ない演算量で同等の効果を実現する。
(実施の形態4)
実施の形態4に係る音響信号処理装置は、入力された音響信号に対して、QMF変換を行い、QMF係数に対して位相調整を行う。そして、実施の形態4に係る音響信号処理装置は、元のQMFブロックをサブバンド毎に処理することで、時間伸張処理を実現する。
実施の形態4に係る音響信号処理装置は、図1に示された実施の形態1に係る音響信号処理装置と同様の構成要素を備える。QMF解析フィルタバンク901は、入力の音響信号をQMF係数X(m,n)に変換する。調整回路902は、QMF係数を調整する。調整前のQMF係数X(m,n)は、振幅および位相を用いて、式38のように表現される。
Figure 2011048792
位相情報a(m,n)は、調整回路902で調整されて
Figure 2011048792
となる。調整回路902は、調整後の位相情報と元の振幅情報r(m,n)によって、新しいQMF係数を式39に従って計算する。
Figure 2011048792
最後に、QMF合成フィルタバンク903は、式39で計算された新しいQMF係数を時間信号に変換する。なお、実施の形態4に係る音響信号処理装置は、QMF合成フィルタを施さずに、新しいQMF係数をそのまま後段の別の音響信号処理装置に出力しても良い。後段の音響信号処理装置は、たとえば、SBR技術に基づく音響信号処理などを実行する。
QMF変換には、入力された音響信号を、時間特性を持つ合成周波数領域に変換する作用がある。従って、STFTベースの時間伸張手法は、QMFブロックの時間特性に対して適用可能である。
実施の形態1と異なる点は、図12に示すように、元のQMFブロックをサブバンド毎に時間伸張する点である。
元のQMFブロックは、L/M個のタイムスロットとM個のサブバンドで構成されている。各QMFブロックがM個のスカラー値で構成されていて、各スカラー値は経時情報をL/M個の係数で構成されている。
実施の形態4では、STFTベースの時間伸張手法が、各サブバンドのスカラー値に対して直接適用される。すなわち、調整回路902は、各サブバンドのスカラー値を連続してFFT変換し、位相情報を調整し、逆FFTを施す。これにより、調整回路902は、新しいサブバンドのスカラー値を算出する。なお、この時間伸張処理は、サブバンド毎に実行されるため、演算量は大きくない。
たとえば、時間伸張係数が2である場合(音響信号を2倍の時間に伸張する場合)、調整回路902は、ホップサイズRa毎に上記の処理を繰り返す。その結果として、元のQMFブロックのサブバンドが2・L/M個の係数を含むような、時間伸張が実現される。調整回路902は、上記のステップを繰り返すことにより、元のQMFブロックを2倍の長さのQMFブロックに変換することが出来る。
QMF合成フィルタバンク903は、こうして得られた新しいQMFブロックを時間信号へと合成する。これにより、実施の形態4に係る音響信号処理装置は、元の時間信号をその2倍の長さを持つ時間信号へと時間伸張することができる。なお、ここでは、実施の形態4に係る音響信号処理方法をサブバンドベースの時間伸張手法と呼ぶことにする。
以上、3つの異なる手法を用いた時間伸張処理が、複数の実施の形態に基づいて、述べられた。表1は、それらの演算量(複雑性評価:Complexity Measurement)の大小を整理された比較表である。
Figure 2011048792
3つの時間伸張手法はどれも、古典的なSTFTベースの時間伸張手法よりも演算量が非常に少ないことが分かる。これは、STFTベースの時間伸張手法では、内部的にループする処理が行われているためである。QMFベースでは、そのようなループ処理が行われない。
(実施の形態5)
実施の形態5では、実施の形態1〜4と同じように、QMF領域での時間伸張が実現される。異なる点は、図13に示すように、QMF領域にてQMF係数を調整する点である。
QMF解析フィルタバンク1001は、時間伸縮および周波数変調の両方を実現するため、入力音響信号をQMF係数へと変換する。そして、調整回路1002は、実施の形態1〜4と同様に、得られたQMF係数の位相調整を行う。
そして、QMF領域変換器1003は、調整されたQMF係数を新しいQMF係数に変換する。バンドパスフィルタ1004は、必要に応じて、QMF領域で、帯域制限を実施する。帯域制限は、折り返し歪みを低減させる際に必要である。最後に、QMF合成フィルタバンク1005は、新しいQMF係数を時間領域の信号へと変換する。
なお、実施の形態5に係る音響信号処理装置は、QMF合成フィルタを施さずに、新しいQMF係数をそのまま後段の別の音響信号処理装置に出力しても良い。後段の音響信号処理装置は、たとえば、SBR技術に基づく音響信号処理などを実行する。以上が、実施の形態5の概要である。
図14に示された構成は、QMF領域の位相および振幅を変換処理することで、対象とする音響信号の時間伸縮処理および周波数変調処理を実現する構成である。
まず、QMF解析フィルタバンク1801は、時間伸縮および周波数変調の両方を実現するため、音響信号をQMF係数に変換する。周波数変調回路1803は、こうして得られたQMF係数に対して、QMF領域にて、周波数変調処理を実施する。バンドパスフィルタである帯域制限フィルタ1802は、周波数変調処理の前に、折り返し歪みを除去するために帯域制限をかける場合がある。
そして、周波数変調回路1803は、位相変換処理および振幅変換処理を複数のQMFブロックに対して連続して適用することにより、周波数変調処理を行う。そして、時間伸張回路1804は、周波数変調処理によって生成されたQMF係数の時間伸縮処理を行う。時間伸縮処理は、実施の形態1等と同様の方法で実現される。
なお、周波数変調回路1803と時間伸張回路1804とが順に接続された構成が記載されているが、それらの接続順序はこれに限らない。すなわち、時間伸張回路1804が時間伸縮処理を実行した後、周波数変調回路1803が周波数変調処理を施しても良い。
最後に、QMF合成フィルタバンク1805は、周波数変調処理と時間伸縮処理とが施されたQMF係数を新たな音響信号に変換する。新たな音響信号は、元の音響信号と比較して、時間軸方向および周波数軸方向に伸縮された信号になる。
なお、図14に示された音響信号処理装置も、QMF合成フィルタを施さずに、新しいQMF係数をそのまま後段の別の音響信号処理装置に出力しても良い。後段の音響信号処理装置は、たとえば、SBR技術に基づく音響信号処理などを実行する。
実施の形態1〜4では、時間伸張手法が示された。実施の形態5に係る音響信号処理装置の構成は、それらの実施の形態に係る音響信号処理装置の構成に、ピッチ伸張処理による周波数変調処理を加えた構成である。時間あるいは周波数を理想的な状態に調整するためのいくつかの手法がある。しかし、古典的なピッチ伸張処理、すなわち、時間伸張された信号をリサンプリングする(間引く)方法は、そのままでは、周波数変調処理に適用することができない。
図14に示された音響信号処理装置は、QMF解析フィルタバンク1801による処理の後、QMF領域上でピッチ伸張処理を実現する。QMF解析フィルタバンク1801の処理により、時間領域の所定の信号成分(特定周波数における正弦波成分)が、2つの異なるQMFサブバンドの信号となる。そのため、その後に、1つのQMF係数ブロックから、周波数と振幅との両方について、正しい信号成分を分離して、ピッチ変換することは困難になる。
従って、実施の形態5に係る音響信号処理装置は、ピッチ伸張処理がより前に実施される構成に変形されてもよい。すなわち、図15に示すように、QMF解析フィルタバンクの前段で、時間領域の入力信号をリサンプリングする構成とする。図15では、リサンプリング部500が音響信号をリサンプリングし、QMF解析フィルタバンク504が音響信号をQMF係数に変換し、時間伸張回路505がQMF係数を調整する。
図15に示されたリサンプリング部500は、次の3つのモジュールから構成されている。すなわち、リサンプリング部500は、(1)M倍のアップサンプリング部501、(2)折り返し歪みを抑制するためのローパスフィルタ502、(3)D倍のダウンサンプリング部503を備える。つまり、リサンプリング部500は、QMF解析フィルタバンク504の処理の前に、入力の元信号を、係数M/D倍にリサンプリングする。そうすることで、リサンプリング部500は、全体のQMF領域の周波数成分を、M/D倍にする。
複数回のピッチ伸張処理が必要な場合、たとえば、2倍と3倍の両方のピッチ伸張処理が必要な場合、次のような処理が最良である。異なる倍率のリサンプリング処理を整合させるためには、それぞれのリサンプリング処理に応じて異なる遅延量をもつ複数の遅延回路が必要である。それらの遅延回路は、2倍または3倍にピッチ伸張処理された出力信号が合成される前に、時間調整を実施する。
以下、低域を含んだ信号を、2倍もしくは3倍のピッチ伸張処理によって、周波数帯域を拡張する場合を説明する。これを実現するため、音響信号処理装置は、まずリサンプリング処理を実施する。図16Aは、ピッチ伸張処理された出力を示す図である。図16Aの縦軸は、周波数軸を示し、横軸は、時間軸を示す。
音響信号処理装置は、リサンプリング処理により、低域を含んだ信号(図16Aの最も太い黒線)の2倍(図16Aの太い黒線)および3倍(図16Aの薄い黒線)のピッチ伸張処理した信号を生成する。もし、時間領域でずれが生じている場合、2倍のピッチ伸張処理信号には、d0時間の遅延時間があり、3倍のピッチ伸張処理信号には、d1時間の遅延時間がある。
音響信号処理装置は、高帯域の信号を得るため、元の信号、2倍の周波数帯域を持つ信号、および、3倍の周波数帯域を持つ信号を、それぞれ、2倍、3倍および4倍に時間伸張する。その結果、音響信号処理装置は、それらの信号の合成信号を図16Bに示すように高帯域の信号として生成することが可能である。
なお、時間ずれが生じている場合、図16Cに示すように遅延量の不一致もそのままピッチ伸張されるため、高帯域信号には、遅延量不一致の問題が発生する場合もある。上述の複数の遅延回路は、時間ずれを低減させるように、時間調整を実施する。
上記のリサンプリング方法をそのまま実施しても良い。しかし、更に上記処理の演算量を削減するために、ローパスフィルタ502は、ポリフェーズフィルタバンクによって実現されてもよい。ローパスフィルタ502の次数が高い場合、演算量を削減するために、畳み込み原理に基づいて、FFT領域でローパスフィルタ502が実現されても良い。
更には、M/D<1.0である場合、つまり、ピッチ伸張処理によってピッチが高くなる場合、後段のQMF解析フィルタバンク504と時間伸張回路505における演算量が、リサンプリング処理に必要な処理量よりも大きい。そのため、時間伸張およびリサンプリング処理の順番を入れ替えることにより、演算量が削減される。
また、図15では、リサンプリング部500がQMF解析フィルタバンク504の前段に設けられている。これは、特定音源(たとえば単一正弦波など)に対して、ピッチ伸張処理を施した場合に発生する音質劣化を最小限に防ぐためである。QMF解析フィルタバンク504の処理後にピッチシフト処理が実施される場合、元の音響信号に含まれる正弦波信号が、複数のQMFブロックに分離された状態になる。そのため、その信号に対してピッチシフト処理が施された場合、元の正弦波信号が多数のQMFブロックに拡散してしまう。
すなわち、単一正弦波などの特殊音源には、上述の構成でリサンプリング処理が行われた方がよい。しかし、一般の音響信号のピッチシフト処理に、単一正弦波のみが入力されることは、ほぼ無いに等しい。そのため、演算量の増大要因となるリサンプリング処理は、省略されてもよい。
また、音響信号処理装置は、QMF解析フィルタバンク504によって得られたQMF係数に対して直接ピッチ伸張処理を施す構成であってもよい。この構成の場合、ピッチ伸張処理が施された音響信号の品質は、単一正弦波などの特殊音源では若干劣る場合がある。しかし、このような構成を有する音響信号処理装置は、それ以外の一般的な音響信号に対して、十分な品質を保持することが可能である。そのことを鑑みて、リサンプリング処理を省くことによって、処理量の非常に大きな処理部が省かれる。したがって、全体の処理量が削減される。
そして、音響信号処理装置は、適用用途に合わせて、適切な組み合わせで構成されてもよい。
(実施の形態6)
実施の形態6に係る音響信号処理装置は、実施の形態5と同じように、QMF領域での時間伸縮および周波数変調処理を行う。実施の形態6では、実施の形態5で用いられたリサンプリング処理を用いない点が、実施の形態5とは異なる点である。実施の形態6に係る音響信号処理装置は、図13に示された音響信号処理装置の構成要素を備える。
図13に示された音響信号処理装置は、時間伸縮処理および周波数変調処理の両方を行う。そのため、QMF解析フィルタバンク1001は、音響信号をQMF係数へと変換する。そして、調整回路1002は、得られたQMF係数を、実施の形態1〜4に記載されたように、位相調整を行う。
そして、QMF領域変換器1003は、調整されたQMF係数を新しいQMF係数に変換する。バンドパスフィルタ1004は、必要に応じて、QMF領域で、帯域制限を実施する。帯域制限は、折り返し歪みを低減させる際に必要である。最後に、QMF合成フィルタバンク1005は、新しいQMF係数を時間領域の信号へと変換する。
なお、実施の形態6に係る音響信号処理装置は、QMF合成フィルタを施さずに、新しいQMF係数をそのまま後段の別の音響信号処理装置に出力しても良い。後段の音響信号処理装置は、たとえば、SBR技術に基づく音響信号処理などを実行する。以上が、実施の形態6の全体構成である。
実施の形態6に係る音響信号処理装置は、ピッチ伸張処理による周波数変調処理に関して、実施の形態5とは異なる処理を行う。
ピッチを伸縮することで周波数変調処理を施すために、時間領域の音響信号をリサンプリングする手法は非常に単純である。しかし、折り返し歪みを抑制するために必要なローパスフィルタが構成上必要である。そのため、ローパスフィルタにより遅延が発生する。一般的には、リサンプリング処理の精度を高めるためには次数の大きなローパスフィルタが必要である。一方、次数が大きいとフィルタの遅延が大きくなる。
そこで、図17に示された実施の形態6に係る音響信号処理装置は、QMF領域で係数の構成を変換するQMF領域変換器603を備える。そして、QMF領域変換器603によって、リサンプリング処理とは異なるピッチシフト処理が実行される。
QMF解析フィルタバンク601は、入力の時間信号からQMF係数を算出する。実施の形態1〜5と同様に、時間伸張回路602は、算出したQMF係数を時間伸張する。QMF領域変換器603は、時間伸張されたQMF係数にピッチ伸張処理を施す。
図18に示すように、QMF領域変換器603は、新たにQMF合成フィルタおよびQMF解析フィルタを用いずに、あるQMF領域のQMF係数を、周波数および時間の分解能がそれぞれ異なる別のQMF領域のQMF係数へと直接変換するものである。図18で示されているように、QMF領域変換器603は、M個のサブバンドおよびL/M個のタイムスロットで構成されるあるQMFブロックを、N個のサブバンドとL/N個のタイムスロットで構成される新しいQMFブロックに変換することが可能となる。
QMF領域変換器603は、タイムスロット数およびサブバンド数を変えることができる。そして、その出力信号の時間および周波数の分解能は、入力信号から変更される。そのため、時間伸張処理およびピッチ伸張処理の両方を同時に実現するためには、新しい時間伸張係数が、算出される必要がある。たとえば、所望の時間伸張係数をs、所望のピッチ伸張係数をwとすると、新しい時間伸張係数は、
Figure 2011048792
で計算される。
図17は、時間伸張処理とピッチ伸張処理の両方を実現する構成を示す図である。なお、図17に示された音響信号処理装置は、時間伸張処理(時間伸張回路602)とピッチ伸張処理(QMF領域変換器603)との順序で構成されている。しかし、音響信号処理装置は、先にピッチ伸張処理を行い、その後に時間伸張処理を行う構成であっても良い。ここでは、L個の入力サンプルがあることを想定している。
QMF解析フィルタバンク601は、L個のサンプルからM個のサブバンドおよびL/M個のタイムスロットで構成するQMFブロックを算出する。時間伸張回路602は、このようにして算出したQMFブロックの各QMF係数から、M個のサブバンドおよび
Figure 2011048792
個のタイムスロットで構成するQMFブロックを算出する。最後に、QMF領域変換器603は、伸張されたQMFブロックをw・M個のサブバンドおよびs・L/M個のタイムスロットで構成される別のQMFブロックへと変換する(w>1.0の場合、最も小さいM個のサブバンドが最終的な出力信号になる)。
QMF領域変換器603の処理は、QMF合成フィルタバンクおよびQMF解析フィルタバンクの演算処理を数学的に圧縮することに相当する。音響信号処理装置は、QMF合成フィルタバンクおよびQMF解析フィルタバンクを用いて演算する場合、内部に遅延回路を包含する構成になる。それに比べて、QMF領域変換器603を備える音響信号処理装置は、演算遅延および演算量を削減することができる。たとえば、音響信号処理装置は、サブバンドインデックスがSk(k=0,…,M−1)であるサブバンドを、サブバンドインデックスSl(l=0,…,wM−1)に変換する場合、式40の計算を実行する。
Figure 2011048792
ここで、PMとPwMはそれぞれ、QMF解析フィルタバンクとQMF合成フィルタバンクのプロトタイプ関数を表している。
次に、ピッチシフト処理の別の例に関して述べる。上記に述べたピッチシフト処理と違い、音響信号処理装置は、下記の通りに処理する。
(a)音響信号処理装置は、伸張処理前のQMFブロックに含まれる信号の周波数成分を検出する。
(b)音響信号処理装置は、所定の変換係数によって周波数をシフトする。周波数シフトするための単純な方法は、前記変換係数を入力信号のピッチに乗算する方法である。
(c)音響信号処理装置は、所望のシフト周波数成分での新しいQMFブロックを構成する。
音響信号処理装置は、QMF変換によって算出したQMFブロックに対し、信号の周波数成分ω(n,k)を式41により算出する。
Figure 2011048792
ここで、princarg(α)はαにおける基礎周波数を示す。また、Δφ(n,k)は、Δφ(n,k)=φ(n,k)−φ(n−1,k)であり、同一サブバンドkにおける、2つのQMF成分の位相差を示している。
所望の伸張後の基礎周波数は、変換係数P0(P0>1と仮定する)を用いてP0・ω(n,k)として算出される。
ピッチの伸張および圧縮(あわせてシフトと呼ぶ)の本質は、所望の周波数成分を、シフト後のQMFブロック上に構築することである。ピッチシフト処理は、図19に示すように、下記のステップでも実現される。
(a)まず、音響信号処理装置は、シフト後のQMFブロックを初期化する(S1301)。音響信号処理装置は、すべてのQMFブロックにおける位相ψ(n,k)および振幅r1(n,k)を0に設定する。
(b)次に、音響信号処理装置は、サブバンドを変換係数P0分だけ繰り上げることで、サブバンドの境界を決定する(S1302)。P0>1の場合、音響信号処理装置は、折り返し歪みを避けるため、低い方のサブバンド境界klbをklb=0として算出し、高い方のサブバンド境界kubをkub=floor(M/P0)として算出する。
これは、すべての周波数成分が
Figure 2011048792
に含まれているからである。
(c)音響信号処理装置は、[klb,kub]にあるj番目のサブバンドに対して、シフト処理後の周波数P0・ω(n,j)をインデックスq(n)=round(P0・ω(n,j))にマッピングする(S1305)。
(d)音響信号処理装置は、新しいブロック(n,q(n))の位相および振幅を再構築する(S1306)。ここで、音響信号処理装置は、新しい振幅を式42により算出する。
Figure 2011048792
関数F()は後ほど述べる。
音響信号処理装置は、新しい位相を、式43により算出する。
Figure 2011048792
ここでは、df(n)=P0・ω(n,j)−q(n)およびψ(n,q(n))が“包含された”調整が前提である。音響信号処理装置は、−π≦ψ(n,q(n))<πを保証するため、複数回、2πを加算している。
(e)音響信号処理装置は、所望の周波数成分P0・ω(n,j)についてのサブバンドインデックス
Figure 2011048792
を式44により算出したサブバンドにマッピングする(S1307)。
Figure 2011048792
(f)音響信号処理装置は、新しいブロック
Figure 2011048792
の位相および振幅を再構築する(S1308)。そして、音響信号処理装置は、新しい振幅を式45により算出する。
Figure 2011048792
関数F()は後ほど述べる。
音響信号処理装置は、新しい位相を式46により算出する。
Figure 2011048792
Figure 2011048792
は“包含された”調整が前提である。音響信号処理装置は、
Figure 2011048792
を保証するため、複数回、2πを加算している。
(g)音響信号処理装置が、[klb,kub]の範囲に含まれるすべてのサブバンド信号を一旦処理した後、P0>1であるため、新しいQMFブロックに含まれる値が“0”になる場合がある。音響信号処理装置は、このようなブロックに対して、各々の位相情報を“非0”なるように線形補完する。また、音響信号処理装置は、各々の振幅を位相情報に基づいて補完する(S1310)。
(h)音響信号処理装置は、新しいQMFブロックの振幅および位相情報を複素係数のブロック信号に変換する(S1311)。
上記の振幅調整および補完に関しては、ここでは説明を省略する。それら両方が、QMF領域における信号の周波数成分と振幅との間にある関係性に関しているからである。
正弦的なトナリティの強い信号は、上記(c)および(e)で示されたように、2つの異なるQMFサブバンドの信号成分を発生させるかもしれない。解析の結果、それら2つのサブバンドにおける振幅の関係は、QMF解析フィルタバンク(QMF変換)のプロトタイプフィルタに依存している。
たとえば、QMF解析フィルタバンク(QMF変換)は、MPEGSurroundおよびHE−AAC方式で用いられているフィルタバンクであることを前提とする。図20Aは、プロトタイプフィルタp(n)(フィルタ長640サンプル)の振幅応答を示す図である。ほぼ完全に再構築性を達成するため、その振幅応答は、周波数[−0.5,0.5]の外側では急激に減衰している。そのプロトタイプフィルタを基準として、M個のバンド数をもつ複素QMF解析フィルタバンクの係数は、
Figure 2011048792
として定義される。
この場合、複素フィルタバンクは、k番目のサブバンドにおいて、周波数の中央がk+1/2になるように、構成されている。図20Bは、間引かれた周波数応答を示す図である。便宜上、k−1番目のサブバンドの振幅特性は、図20Bの左側に折れ線で示されており、k+1番目のサブバンドの振幅特性は、図20Bの右側に折れ線で示されている。
図20Bに示されているように、周波数f0(k−1≦f0<k+1)の成分について、もし、0<df=f0−(k+1/2)<1であるなら、k番目とk+1番目のサブバンドの2つのブロックがそれぞれ提供される。また、−1<df=f0−(k+1/2)<0である場合、k−1番目とk番目のサブバンドの2つのブロックが提供される(上記(e)参照)。それに応じた振幅は、周波数f0とk番目のサブバンドの中央周波数との差、および、サブバンドフィルタの振幅に依存する。
サブバンドの振幅F(df)は、−1≦df<1において対称の関数であって、
Figure 2011048792
で表される。
2つのブロックが同じ周波数に存在するため、それらの位相差は
Figure 2011048792
を満たす必要がある(上記(f)参照)。
以上より、振幅の補完処理は、線形補完として扱うべきではないことがわかる。その代わり、信号の周波数成分と振幅情報との間にある関係が上記のようになるべきである。
上述したように、実施の形態6では、QMF領域での位相調整および振幅調整が行われる。これまでにも述べているとおり、音響信号処理装置は、単位時間毎に区切られた音響信号をQMFフィルタバンクで逐次QMF領域の係数(QMFブロック)に変換する。そして、音響信号処理装置は、予め指定された伸張率(s倍、たとえばs=2,3,4など)に応じて隣り合うQMFブロック毎の位相および振幅の連続性を保持するように、各QMFブロックの振幅および位相を調整する。これにより、音響信号処理装置は、フェーズボコーダー処理を実現する。
音響信号処理装置は、QMF領域でフェーズボコーダー処理されたQMF係数を、QMF合成フィルタバンクで時間領域の信号へ変換する。これにより、s倍に伸張された時間領域の音響信号が得られる。また、後段の別の音響信号処理装置で、QMF係数が用いられる場合がある。このような場合、後段の別の音響信号処理装置が、QMF領域でフェーズボコーダー処理されたQMFブロックの係数に、SBR技術に基づく帯域拡大処理など、何らかの音響処理を施してもよい。そして、そのような後段の別の音響信号処理装置が、QMF合成フィルタバンクでQMF係数を時間領域の音響信号に変換しも良い。
図3に示された構成は、そのような組み合わせの一例である。これは、QMF領域でのフェーズボコーダー処理と、音響信号の帯域拡大技術を組み合わせた音響復号装置の一例である。以下に、フェーズボコーダー処理を用いた音響復号装置の構成を説明する。
分離部1201は、入力のビットストリームを高域生成のためのパラメータと低域復号のための符号化情報とへ分離する。パラメータ復号部1207は、高域生成のためのパラメータを復号する。復号部1202は、低域復号のための符号化情報から、低域成分の音響信号を復号する。QMF解析フィルタバンク1203は、復号された音響信号をQMF領域の音響信号に変換する。
周波数変調回路1205および時間伸張回路1204は、QMF領域の音響信号に、前記フェーズボコーダー処理を施す。その後、高域生成回路1206は、高域生成のためのパラメータを用いて高域周波数成分の信号を生成する。概形調整回路1208は、高域成分の周波数概形を調整する。QMF合成フィルタバンク1209は、QMF領域における低域成分および高域成分の音響信号を時間領域の音響信号へと変換する。
なお、上記低域成分の符号化処理または復号処理には、MPEG−AAC方式、MPEG−Layer3などの音響符号化方式が用いられてもよいし、あるいは、ACELPなどの音声符号化方式が用いられてもよい。
また、QMF領域でフェーズボコーダー処理が行われる場合に、変調係数r(m,n)について、QMFブロックのサブバンドインデックス(m,n)毎に重み付けが行われてもよい。これにより、QMF係数が、サブバンドインデックス毎に異なる値を持つ変調係数で変調される。たとえば、高域周波数に対応するサブバンドインデックスにおいて、伸張した際に音響信号の歪みが大きくなる場合がある。そのようなサブバンドインデックスに対して、伸張の割合を小さくなるような伸張係数が用いられる。
さらに、QMF領域でフェーズボコーダー処理する別の構成として、音響信号処理装置は、QMF解析フィルタバンクの後段に、さらに別のQMF解析フィルタバンクを備えてもよい。第1のQMF解析フィルタバンクのみでは低域の周波数分解能が低い場合がある。その場合、低域成分を多く含む音響信号にフェーズボコーダー処理を施しても、十分な効果が得られない。
そこで、低域成分の周波数分解能を向上させるために、低域部分(たとえば、第1のQMF解析フィルタバンクの出力に含まれる全QMFブロックの半分)を解析するための第2のQMF解析フィルタバンクが用いられてもより。これにより、周波数分解能が2倍に向上する。その上で、上述のQMF領域でのフェーズボコーダー処理が施されることで、音質を維持したまま、演算量およびメモリ消費量の削減効果が高められる。
図4は、QMF領域の分解能を向上させる構成の例を示す図である。QMF合成フィルタバンク2401は、入力の音響信号を一旦QMF合成フィルタで合成する。その後、QMF解析フィルタバンク2402は、2倍の解像度のQMF解析フィルタで、QMF係数を算出する。2倍の分解能になったQMF領域の信号に対して、2倍の時間伸張と、2倍、3倍または4倍のピッチシフト処理を行うフェーズボコーダー処理回路(第1時間伸張回路2403、第2時間伸張回路2404および第3時間伸張回路2405)が並列に構成される。
そして、各フェーズボコーダー処理回路は、2倍の解像度で、伸張割合の異なるフェーズボコーダー処理を統一的に行える。そして、マージ回路2406は、フェーズボコーダー処理された信号を合成する。
これまで説明してきた時間伸張処理およびピッチ伸張処理を、音響信号の符号化装置に用いる例に関して、以下に説明する。
図21は、時間伸張処理およびピッチ伸張処理を用いて、音響信号を符号化する音響符号化装置を示す構成図である。図21に示された音響符号化装置は、一定数のサンプル毎に分割した音響信号をフレーム処理する。
まず初めに、ダウンサンプリング部1102は、音響信号をダウンサンプリングすることにより、低域の周波数成分のみを含む信号を生成する。符号化部1103は、その低域のみ含んだ音響信号をMPEG−AAC、MPEG−Layer3またはAC3方式などで代表される音響符号化方式を用いて符号化することにより、符号化情報を生成する。また、同時に、QMF解析フィルタバンク1104は、低域成分のみを含む音響信号をQMF係数に変換する。一方、QMF解析フィルタバンク1101は、全帯域成分を含む音響信号をQMF係数に変換する。
時間伸張回路1105および周波数変調回路1106は、低域成分のみを含む音響信号をQMF領域に変換した信号(QMF係数)を、上述の複数の実施の形態で示されたように調整して、高域の仮想的なQMF係数を生成する。
パラメータ算出部1107は、上記の仮想的な高域QMF係数と、全帯域成分を含むQMF係数(実際のQMF係数)とを比較することで、高域成分の概形情報を算出する。重畳部1108は、算出された概形情報を符号化情報に重畳する。
図3は、音響復号装置の構成を示す図である。図3に示された音響復号装置は、上述の音響符号化装置で符号化された符号化情報を受信して音響信号へ復号する装置である。分離部1201は、受信した符号化情報を、第1の符号化情報と、第2の符号化情報とに分離する。パラメータ復号部1207は、第2の符号化情報を高域のQMF係数の概形情報へ変換する。一方で、復号部1202は、第1の符号化情報から、低域成分のみを含む音響信号を復号する。QMF解析フィルタバンク1203は、復号された音響信号を、低域成分のみを含むQMF係数へ変換する。そして、時間伸張回路1204および周波数変調回路1205は、その低域成分のみを含むQMF係数に対して、上述の複数の実施の形態で示されたように、時間およびピッチを調整する。これにより、高域成分を含む仮想的なQMF係数が生成される。
概形調整回路1208および高域生成回路1206は、高域成分を含む仮想的なQMF係数を、受信した第2の符号化情報に含まれる概形情報に基づいて、調整する。QMF合成フィルタバンク1209は、調整されたQMF係数と低域のQMF係数とを合成する。そして、QMF合成フィルタバンク1209は、得られた合成QMF係数をQMF合成フィルタで、低域成分と高域成分の両方を含んだ時間領域の音響信号へ変換する。
このようにして、音響符号化装置は、時間伸縮比を符号化情報として伝送する。音響復号装置は、時間伸縮比を用いて、音響信号を復号する。これにより、音響符号化装置は、フレーム毎に時間伸縮比を様々に変化させることができる。よって、高域成分の制御が柔軟になる。したがって、高い符号化効率が達成される。
図22は、従来のSFTFベースの時間伸張回路および周波数変調回路を用いた場合と、QMFベースの時間伸張回路および周波数変調回路を用いた場合とで、音質比較実験を行った結果を示す図である。図22に示された結果は、ビットレートが16kbps、モノラル信号の条件での実験に基づいている。また、この結果は、MUSHRA(Multiple Stimuli with Hidden Reference and Anchor)法による評価に基づいている。
図22において、縦軸はSTFT方式との音質差を示しており、横軸は異なる音響特性を持つ複数の音源を示している。図22からわかるように、SFTFベースの方式と比較してもQMFベースの方式がほぼ同等の音質で符号化および復号できていることがわかる。本実験で用いられた音源は、符号化および復号した際に劣化が特に起こりやすい音源である。そのため、それ以外の一般的な音響信号に対しても、同等の性能を有しつつ、符号化および復号が行われることは、明白である。
このように、本発明に係る音響信号処理装置は、QMF領域において、時間伸張処理およびピッチ伸張処理を行う。本発明に係る音響信号処理は、古典的なSTFTベースの時間伸張処理およびピッチ伸張処理に比べ、QMFフィルタを用いて実現されている。そのため、本発明に係る音響信号処理は、演算量の大きいFFTを使用する必要がなく、同等の効果をより少ない演算量で実現することができる。また、STFTベースでは、ホップサイズによる処理を実施する必要があるため、処理遅延が発生する。QMFベースでは、QMFフィルタの処理遅延が非常に短い。そのため、本発明に係る音響信号処理装置は、処理遅延を非常に小さくすることができるという優れた利点も備えている。
(実施の形態7)
図23Aは、実施の形態7に係る音響信号処理装置を示す構成図である。図23Aに示された音響信号処理装置は、フィルタバンク2601と調整部2602とを備える。フィルタバンク2601は、図1に示されたQMF解析フィルタバンク901等と同様の動作を行う。調整部2602は、図1に示された調整回路902等と同様の動作を行う。そして、図23Aに示された音響信号処理装置は、所定の調整係数を用いて、入力音響信号列を変換する。ここで、所定の調整係数は、時間伸縮比、周波数変調比、および、それらを組み合わせた比率のいずれかに相当する。
図23Bは、図23Aに示された音響信号処理装置の処理を示すフローチャートである。フィルタバンク2601は、入力音響信号列を、QMF解析フィルタを用いて、QMF係数列へ変換する(S2601)。調整部2602は、QMF係数列を所定の調整係数に依存させて調整する(S2602)。
例えば、調整部2602は、調整されたQMF係数列から、予め定められた時間伸縮比で時間伸縮された入力音響信号列が得られるように、予め定められた時間伸縮比を示す調整係数に依存させて、QMF係数列の位相情報および振幅情報を調整する。あるいは、調整部2602は、調整されたQMF係数列から、予め定められた周波数変調比で周波数変調(ピッチシフト)された入力音響信号列が得られるように、予め定められた周波数変調比を示す調整係数に依存させて、QMF係数列の位相情報および振幅情報を調整する。
図24は、図23Aに示された音響信号処理装置の変形例を示す構成図である。図24に示された音響信号処理装置は、図23Aに示された音響信号処理装置に加えて、高域生成部2705および高域補完部2706を備える。また、調整部2602は、帯域制限部2701、算出回路2702、調整回路2703および領域変換器2704を備える。
フィルタバンク2601は、入力音響信号列を一定時間間隔毎にQMF係数列へ逐次変換することにより、一定時間間隔毎のQMF係数列を生成する。算出回路2702は、一定時間間隔毎に生成されたQMF係数列のタイムスロット毎およびサブバンド毎に位相情報および振幅情報を算出する。調整回路2703は、タイムスロット毎およびサブバンド毎の位相情報を所定の調整係数に依存させて調整することにより、QMF係数列の位相情報および振幅情報を調整する。
帯域制限部2701は、図14に示された帯域制限フィルタ1802と同様の動作をする。すなわち、帯域制限部2701は、QMF係数列の調整前に、QMF係数列から、予め定められた帯域幅に対応する新たなQMF係数列を取り出す。領域変換器2704は、図17に示されたQMF領域変換器と同様の動作をする。すなわち、領域変換器2704は、QMF係数列の調整後に、QMF係数列を時間および周波数の分解能がそれぞれ異なる新たなQMF係数列に変換する。
なお、帯域制限部2701は、QMF係数列の調整後に、QMF係数列から、予め定められた帯域幅に対応する新たなQMF係数列を取り出してもよい。また、領域変換器2704は、QMF係数列の調整前に、QMF係数列を時間および周波数の分解能がそれぞれ異なる新たなQMF係数列に変換してもよい。
高域生成部2705は、図3に示された高域生成回路1206と同様の動作をする。すなわち、高域生成部2705は、調整後のQMF係数列から、予め定められた変換係数を用いて、調整前のQMF係数列に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する。
高域補完部2706は、図3に示された概形調整回路1208と同様の動作をする。すなわち、高域補完部2706は、高周波数帯域のうち、高域生成部2705によって高域係数列が生成されなかった周波数帯域である欠落帯域の係数を欠落帯域の両側に隣接する帯域に属する高域係数列を用いて補完する。
図25は、実施の形態7に係る音響符号化装置を示す構成図である。図25に示された音響符号化装置は、ダウンサンプリング部2802、第1フィルタバンク2801、第2フィルタバンク2804、第1符号化部2803、第2符号化部2807、調整部2806および重畳部2808を備える。図25に示された音響符号化装置は、図21に示された音響符号化装置と同様の動作をする。そして、図25に示された構成要素は、図21に示された構成要素に対応する。
すなわち、ダウンサンプリング部2802は、ダウンサンプリング部1102と同様の動作をする。第1フィルタバンク2801は、QMF解析フィルタバンク1101と同様の動作をする。第2フィルタバンク2804は、QMF解析フィルタバンク1104と同様の動作をする。第1符号化部2803は、符号化部1103と同様の動作をする。第2符号化部2807は、パラメータ算出部1107と同様の動作をする。調整部2806は、時間伸張回路1105と同様の動作をする。重畳部2808は、重畳部1108と同様の動作をする。
図26は、図25に示された音響符号化装置の処理を示すフローチャートである。
まず、第1フィルタバンク2801は、音響信号列を、QMF解析フィルタを用いて、QMF係数列に変換する(S2901)。次に、ダウンサンプリング部2802は、音響信号列をダウンサンプリングすることにより、新たな音響信号列を生成する(S2902)。次に、第1符号化部2803は、生成された新たな音響信号列を符号化する(S2903)。次に、第2フィルタバンク2804は、生成された新たな音響信号列を、QMF解析フィルタを用いて、第2QMF係数列に変換する(S2904)。
次に、調整部2806は、第2QMF係数列を所定の調整係数に依存させて調整する(S2905)。所定の調整係数は、上述の通り、時間伸縮比、周波数変調比、および、それらを組み合わせた比率のいずれかに相当する。
次に、第2符号化部2807は、第1QMF係数列と、調整された第2QMF係数列とを比較することで、復号に用いられるパラメータを生成し、生成したパラメータを符号化する(S2906)。次に、重畳部2808は、符号化された音響信号列と、符号化されたパラメータとを重畳する(S2907)。
図27は、実施の形態7に係る音響復号装置を示す構成図である。図27に示された音響復号装置は、分離部3001、第1復号部3007、第2復号部3002、第1フィルタバンク3003、第2フィルタバンク3009、調整部3004および高域生成部3006を備える。図27に示された音響復号装置は、図3に示された音響復号装置と同様の動作をする。そして、図27に示された構成要素は、図3に示された構成要素に対応する。
すなわち、分離部3001は、分離部1201と同様の動作をする。第1復号部3007は、パラメータ復号部1207と同様の動作をする。第2復号部3002は、復号部1202と同様の動作をする。第1フィルタバンク3003は、QMF解析フィルタバンク1203と同様の動作をする。第2フィルタバンク3009は、QMF合成フィルタバンク1209と同様の動作をする。調整部3004は、時間伸張回路1204と同様の動作をする。高域生成部3006は、高域生成回路1206と同様の動作をする。
図28は、図27に示された音響復号装置の処理を示すフローチャートである。
まず、分離部3001は、入力されたビットストリームから、符号化されたパラメータと符号化された音響信号列とを分離する(S3101)。次に、第1復号部3007は、符号化されたパラメータを復号する(S3102)。次に、第2復号部3002は、符号化された音響信号列を復号する(S3103)。次に、第1フィルタバンク3003は、第2復号部3002によって復号された音響信号列を、QMF解析フィルタを用いて、QMF係数列に変換する(S3104)。
次に、調整部3004は、QMF係数列を所定の調整係数に依存させて調整する(S3105)。所定の調整係数は、上述の通り、時間伸縮比、周波数変調比、および、それらを組み合わせた比率のいずれかに相当する。
次に、高域生成部3006は、調整されたQMF係数列から、復号されたパラメータを用いて、QMF係数に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する(S3106)。次に、第2フィルタバンク3009は、QMF係数列と高域係数列とを、QMF合成フィルタを用いて、時間領域の音響信号列に変換する。
図29は、図27に示された音響復号装置の変形例を示す構成図である。図29に示された音響復号装置は、復号部2501、QMF解析フィルタバンク2502、周波数変調回路2503、結合部2504、高周波再構築部2505およびQMF合成フィルタバンク2506を備える。
復号部2501は、ビットストリームから、音響信号を復号する。QMF解析フィルタバンク2502は、復号された音響信号をQMF係数に変換する。周波数変調回路2503は、QMF係数に周波数変調処理を施す。この周波数変調回路2503は、図4に示された構成要素を備える。図4に示されたように、周波数変調処理において、内部的に時間伸張処理が実行される。そして、結合部2504は、QMF解析フィルタバンク2502から得られるQMF係数と、周波数変調回路2503から得られるQMF係数とを結合する。高周波再構築部2505は、結合されたQMF係数から、高域に対応するQMF係数を再構築する。QMF合成フィルタバンク2506は、高周波再構築部2505から得られるQMF係数を音響信号に変換する。
本発明に係る音響信号処理装置は、STFTベースのフェーズボコーダー処理に比べて、演算量の削減が可能となる。また、音響信号処理装置は、QMF領域で信号を出力するため、SBR技術またはParametricStereoなどのパラメトリック符号化処理において、領域変換の非効率性を解消することができる。そして、音響信号処理装置は、領域変換の演算に必要なメモリの容量も削減できる。
以上、本発明に係る音響信号処理装置、音響符号化装置および音響復号装置について、複数の実施の形態に基づいて説明したが、本発明はこれらの実施の形態に限定されるものではない。これらの実施の形態に対して当業者が思いつく変形を施して得られる形態、および、これらの実施の形態における構成要素を任意に組み合わせて実現される別の形態も本発明に含まれる。
例えば、特定の処理部が実行する処理を別の処理部が実行してもよい。また、処理を実行する順番が変更されてもよいし、複数の処理が並行して実行されてもよい。
また、本発明は、音響信号処理装置、音響符号化装置または音響復号装置として実現できるだけでなく、音響信号処理装置、音響符号化装置または音響復号装置を構成する処理手段をステップとする方法として実現できる。そして、本発明は、それらの方法に含まれるステップをコンピュータに実行させるプログラムとして実現できる。さらに、本発明は、そのプログラムを記録したCD−ROM等のコンピュータ読み取り可能な記録媒体として実現できる。
また、音響信号処理装置、音響符号化装置または音響復号装置に含まれる複数の構成要素は、集積回路であるLSI(Large Scale Integration)として実現されてもよい。これらの構成要素は、個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC(Integrated Circuit)、システムLSI、スーパーLSIまたはウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。プログラムすることが可能なFPGA(Field Programmable Gate Array)、または、LSI内部の回路セルの接続および設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて、音響信号処理装置、音響符号化装置または音響復号装置に含まれる構成要素の集積回路化を行ってもよい。
本発明に係る音響信号処理装置は、オーディオレコーダ、オーディオプレーヤー、携帯電話等に有用である。
500 リサンプリング部
501 アップサンプリング部
502 ローパスフィルタ
503、1102、2802 ダウンサンプリング部
504、601、901、1001、1101、1104、1203、1801、2402、2502 QMF解析フィルタバンク
505、602、1105、1204、1804 時間伸張回路
603、1003 QMF領域変換器
902、1002、2703 調整回路
903、1005、1209、1805、2401、2506 QMF合成フィルタバンク
1004 バンドパスフィルタ
1103 符号化部
1106、1205、1803、2503 周波数変調回路
1107 パラメータ算出部
1108、2808 重畳部
1201、3001 分離部
1202、2501 復号部
1206 高域生成回路
1207 パラメータ復号部
1208 概形調整回路
1802 帯域制限フィルタ
2403 第1時間伸張回路
2404 第2時間伸張回路
2405 第3時間伸張回路
2406 マージ回路
2504 結合部
2505 高周波再構築部
2601 フィルタバンク
2602、2806、3004 調整部
2701 帯域制限部
2702 算出回路
2704 領域変換器
2705、3006 高域生成部
2706 高域補完部
2801、3003 第1フィルタバンク
2803 第1符号化部
2804、3009 第2フィルタバンク
2807 第2符号化部
3002 第2復号部
3007 第1復号部

Claims (22)

  1. 所定の調整係数を用いて、入力音響信号列を変換する音響信号処理装置であって、
    前記入力音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列へ変換するフィルタバンクと、
    前記QMF係数列を前記所定の調整係数に依存させて調整する調整部とを備える
    音響信号処理装置。
  2. 前記調整部は、調整された前記QMF係数列から、所定の時間伸縮比で時間伸縮された前記入力音響信号列が得られるように、前記所定の時間伸縮比を示す前記所定の調整係数に依存させて、前記QMF係数列を調整する
    請求項1に記載の音響信号処理装置。
  3. 前記調整部は、調整された前記QMF係数列から、所定の周波数変調比で周波数変調された前記入力音響信号列が得られるように、前記所定の周波数変調比を示す前記所定の調整係数に依存させて、前記QMF係数列を調整する
    請求項1に記載の音響信号処理装置。
  4. 前記フィルタバンクは、前記入力音響信号列を時間間隔毎に前記QMF係数列へ逐次変換することにより、前記時間間隔毎の前記QMF係数列を生成し、
    前記調整部は、
    前記時間間隔毎に生成された前記QMF係数列のタイムスロット毎およびサブバンド毎に位相情報を算出する算出回路と、
    前記タイムスロット毎および前記サブバンド毎の前記位相情報を前記所定の調整係数に依存させて調整することにより、前記QMF係数列を調整する調整回路とを備える
    請求項1〜3のいずれか1項に記載の音響信号処理装置。
  5. 前記調整回路は、前記サブバンド毎に、前記QMF係数列の最初のタイムスロットの前記位相情報と、前記所定の調整係数とに依存させて算出した値を、前記タイムスロット毎の前記位相情報に加算することにより、前記タイムスロット毎の前記位相情報を調整する
    請求項4に記載の音響信号処理装置。
  6. 前記算出回路は、さらに、前記時間間隔毎に生成された前記QMF係数列の前記タイムスロット毎および前記サブバンド毎に振幅情報を算出し、
    前記調整回路は、さらに、前記タイムスロット毎および前記サブバンド毎の前記振幅情報を前記所定の調整係数に依存させて調整することにより、前記QMF係数列を調整する
    請求項4または請求項5に記載の音響信号処理装置。
  7. 前記調整部は、さらに、前記QMF係数列の調整前または調整後に、前記QMF係数列から、予め定められた帯域幅に対応する新たなQMF係数列を取り出す帯域制限部を備える
    請求項1〜6のいずれか1項に記載の音響信号処理装置。
  8. 前記調整部は、前記QMF係数列を調整する割合をサブバンド毎に重み付けして、前記サブバンド毎に前記QMF係数列を調整する
    請求項1〜7のいずれか1項に記載の音響信号処理装置。
  9. 前記調整部は、さらに、前記QMF係数列の調整前または調整後に、前記QMF係数列を時間および周波数の分解能が異なる新たなQMF係数列に変換する領域変換器を備える
    請求項1〜8のいずれか1項に記載の音響信号処理装置。
  10. 前記調整部は、調整前の前記QMF係数列から過渡成分を検出し、検出した前記過渡成分を調整前の前記QMF係数列から取り出し、取り出した前記過渡成分を調整し、調整した前記過渡成分を調整後の前記QMF係数列に戻すことにより、前記QMF係数列を調整する
    請求項1〜9のいずれか1項に記載の音響信号処理装置。
  11. 前記音響信号処理装置は、さらに、
    調整後の前記QMF係数列から、予め定められた変換係数を用いて、調整前の前記QMF係数列に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する高域生成部と、
    前記高周波数帯域のうち、前記高域生成部によって前記高域係数列が生成されなかった周波数帯域である欠落帯域の係数を前記欠落帯域の両側に隣接する帯域に属する前記高域係数列を用いて補完する高域補完部とを備える
    請求項1〜10のいずれか1項に記載の音響信号処理装置。
  12. 第1音響信号列を符号化する音響符号化装置であって、
    前記第1音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、第1QMF係数列に変換する第1フィルタバンクと、
    前記第1音響信号列をダウンサンプリングすることにより、第2音響信号列を生成するダウンサンプリング部と、
    前記第2音響信号列を符号化する第1符号化部と、
    前記第2音響信号列を、QMF解析フィルタを用いて、第2QMF係数列に変換する第2フィルタバンクと、
    前記第2QMF係数列を所定の調整係数に依存させて調整する調整部と、
    前記第1QMF係数列と、調整された前記第2QMF係数列とを比較することで、復号に用いられるパラメータを生成し、前記パラメータを符号化する第2符号化部と、
    符号化された前記第2音響信号列と、符号化された前記パラメータとを重畳する重畳部とを備える
    音響符号化装置。
  13. 入力されたビットストリームから、第1音響信号列を復号する音響復号装置であって、
    入力された前記ビットストリームから、符号化されたパラメータと符号化された第2音響信号列とに分離する分離部と、
    符号化された前記パラメータを復号する第1復号部と、
    符号化された前記第2音響信号列を復号する第2復号部と、
    前記第2復号部によって復号された前記第2音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列に変換する第1フィルタバンクと、
    前記QMF係数列を所定の調整係数に依存させて調整する調整部と、
    復号された前記パラメータを用いて、調整後の前記QMF係数列から、調整前の前記QMF係数列に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する高域生成部と、
    前記高域係数列、および、調整前の前記QMF係数列を、QMF合成フィルタを用いて、時間領域の前記第1音響信号列に変換する第2フィルタバンクとを備える
    音響復号装置。
  14. 所定の調整係数を用いて、入力音響信号列を変換する音響信号処理方法であって、
    前記入力音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列へ変換する変換ステップと、
    前記QMF係数列を前記所定の調整係数に依存させて調整する調整ステップとを含む
    音響信号処理方法。
  15. 第1音響信号列を符号化する音響符号化方法であって、
    前記第1音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、第1QMF係数列に変換する第1変換ステップと、
    前記第1音響信号列をダウンサンプリングすることにより、第2音響信号列を生成するダウンサンプリングステップと、
    前記第2音響信号列を符号化する第1符号化ステップと、
    前記第2音響信号列を、QMF解析フィルタを用いて、第2QMF係数列に変換する第2変換ステップと、
    前記第2QMF係数列を所定の調整係数に依存させて調整する調整ステップと、
    前記第1QMF係数列と、調整された前記第2QMF係数列とを比較することで、復号に用いられるパラメータを生成し、前記パラメータを符号化する第2符号化ステップと、
    符号化された前記第2音響信号列と、符号化された前記パラメータとを重畳する重畳ステップとを含む
    音響符号化方法。
  16. 入力されたビットストリームから、第1音響信号列を復号する音響復号方法であって、
    入力された前記ビットストリームから、符号化されたパラメータと符号化された第2音響信号列とに分離する分離ステップと、
    符号化された前記パラメータを復号する第1復号ステップと、
    符号化された前記第2音響信号列を復号する第2復号ステップと、
    前記第2復号ステップによって復号された前記第2音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列に変換する第1変換ステップと、
    前記QMF係数列を所定の調整係数に依存させて調整する調整ステップと、
    復号された前記パラメータを用いて、調整後の前記QMF係数列から、調整前の前記QMF係数列に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する高域生成ステップと、
    前記高域係数列、および、調整前の前記QMF係数列を、QMF合成フィルタを用いて、時間領域の前記第1音響信号列に変換する第2変換ステップとを含む
    音響復号方法。
  17. 請求項14に記載の音響信号処理方法に含まれるステップをコンピュータに実行させるための
    プログラム。
  18. 請求項15に記載の音響符号化方法に含まれるステップをコンピュータに実行させるための
    プログラム。
  19. 請求項16に記載の音響復号方法に含まれるステップをコンピュータに実行させるための
    プログラム。
  20. 所定の調整係数を用いて、入力音響信号列を変換する集積回路であって、
    前記入力音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列へ変換するフィルタバンクと、
    前記QMF係数列を前記所定の調整係数に依存させて調整する調整部とを備える
    集積回路。
  21. 第1音響信号列を符号化する集積回路であって、
    前記第1音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、第1QMF係数列に変換する第1フィルタバンクと、
    前記第1音響信号列をダウンサンプリングすることにより、第2音響信号列を生成するダウンサンプリング部と、
    前記第2音響信号列を符号化する第1符号化部と、
    前記第2音響信号列を、QMF解析フィルタを用いて、第2QMF係数列に変換する第2フィルタバンクと、
    前記第2QMF係数列を所定の調整係数に依存させて調整する調整部と、
    前記第1QMF係数列と、調整された前記第2QMF係数列とを比較することで、復号に用いられるパラメータを生成し、前記パラメータを符号化する第2符号化部と、
    符号化された前記第2音響信号列と、符号化された前記パラメータとを重畳する重畳部とを備える
    集積回路。
  22. 入力されたビットストリームから、第1音響信号列を復号する集積回路であって、
    入力された前記ビットストリームから、符号化されたパラメータと符号化された第2音響信号列とに分離する分離部と、
    符号化された前記パラメータを復号する第1復号部と、
    符号化された前記第2音響信号列を復号する第2復号部と、
    前記第2復号部によって復号された前記第2音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列に変換する第1フィルタバンクと、
    前記QMF係数列を所定の調整係数に依存させて調整する調整部と、
    復号された前記パラメータを用いて、調整後の前記QMF係数列から、調整前の前記QMF係数列に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する高域生成部と、
    前記高域係数列、および、調整前の前記QMF係数列を、QMF合成フィルタを用いて、時間領域の前記第1音響信号列に変換する第2フィルタバンクとを備える
    集積回路。
JP2011537131A 2009-10-21 2010-10-19 音響信号処理装置、音響符号化装置および音響復号装置 Active JP5422664B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011537131A JP5422664B2 (ja) 2009-10-21 2010-10-19 音響信号処理装置、音響符号化装置および音響復号装置

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
JP2009242603 2009-10-21
JP2009242603 2009-10-21
JP2010005282 2010-01-13
JP2010005282 2010-01-13
JP2010059784 2010-03-16
JP2010059784 2010-03-16
JP2011537131A JP5422664B2 (ja) 2009-10-21 2010-10-19 音響信号処理装置、音響符号化装置および音響復号装置
PCT/JP2010/006180 WO2011048792A1 (ja) 2009-10-21 2010-10-19 音響信号処理装置、音響符号化装置および音響復号装置

Publications (2)

Publication Number Publication Date
JPWO2011048792A1 true JPWO2011048792A1 (ja) 2013-03-07
JP5422664B2 JP5422664B2 (ja) 2014-02-19

Family

ID=43900037

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011537131A Active JP5422664B2 (ja) 2009-10-21 2010-10-19 音響信号処理装置、音響符号化装置および音響復号装置

Country Status (6)

Country Link
US (1) US9026236B2 (ja)
EP (2) EP2704143B1 (ja)
JP (1) JP5422664B2 (ja)
CN (1) CN102257567B (ja)
TW (1) TWI509596B (ja)
WO (1) WO2011048792A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018512100A (ja) * 2015-02-12 2018-05-10 ディーティーエス・インコーポレイテッドDTS,Inc. オーディオ処理のためのマルチレートシステム

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG183966A1 (en) * 2010-03-09 2012-10-30 Fraunhofer Ges Forschung Improved magnitude response and temporal alignment in phase vocoder based bandwidth extension for audio signals
JP5807453B2 (ja) * 2011-08-30 2015-11-10 富士通株式会社 符号化方法、符号化装置および符号化プログラム
EP2631906A1 (en) * 2012-02-27 2013-08-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Phase coherence control for harmonic signals in perceptual audio codecs
JP2014041240A (ja) * 2012-08-22 2014-03-06 Pioneer Electronic Corp タイムスケーリング方法、ピッチシフト方法、オーディオデータ処理装置およびプログラム
MX346945B (es) 2013-01-29 2017-04-06 Fraunhofer Ges Forschung Aparato y metodo para generar una señal de refuerzo de frecuencia mediante una operacion de limitacion de energia.
CN117253497A (zh) 2013-04-05 2023-12-19 杜比国际公司 音频信号的解码方法和解码器、介质以及编码方法
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
CN106297813A (zh) * 2015-05-28 2017-01-04 杜比实验室特许公司 分离的音频分析和处理
US9613628B2 (en) 2015-07-01 2017-04-04 Gopro, Inc. Audio decoder for wind and microphone noise reduction in a microphone array system
CN106454449A (zh) * 2016-10-25 2017-02-22 深圳芯智汇科技有限公司 主音箱、从音箱及路由器控制同步播放音频的方法
CN108429713B (zh) * 2017-02-13 2020-06-16 大唐移动通信设备有限公司 一种数据压缩方法及装置
EP3382700A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
EP3382701A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
US10726828B2 (en) * 2017-05-31 2020-07-28 International Business Machines Corporation Generation of voice data as data augmentation for acoustic model training
US20190074805A1 (en) * 2017-09-07 2019-03-07 Cirrus Logic International Semiconductor Ltd. Transient Detection for Speaker Distortion Reduction
CN111093302B (zh) * 2019-11-26 2023-05-12 深圳市奋达科技股份有限公司 音箱灯光控制方法和音箱
US11317203B2 (en) * 2020-08-04 2022-04-26 Nuvoton Technology Corporation System for preventing distortion of original input signal
TWI763207B (zh) * 2020-12-25 2022-05-01 宏碁股份有限公司 聲音訊號處理評估方法及裝置
US20230143318A1 (en) * 2021-11-09 2023-05-11 Landis+Gyr Innovations, Inc. Sampling rate converter with line frequency and phase locked loops for energy metering

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0287741B1 (en) 1987-04-22 1993-03-31 International Business Machines Corporation Process for varying speech speed and device for implementing said process
JP3491425B2 (ja) * 1996-01-30 2004-01-26 ソニー株式会社 信号符号化方法
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US20030182106A1 (en) * 2002-03-13 2003-09-25 Spectral Design Method and device for changing the temporal length and/or the tone pitch of a discrete audio signal
US7627056B1 (en) * 2002-03-29 2009-12-01 Scientific Research Corporation System and method for orthogonally multiplexed signal transmission and reception on a non-contiguous spectral basis
US7160619B2 (en) 2003-10-14 2007-01-09 Advanced Energy Technology Inc. Heat spreader for emissive display device
EP1914723B1 (en) 2004-05-19 2010-07-07 Panasonic Corporation Audio signal encoder and audio signal decoder
KR101120911B1 (ko) 2004-07-02 2012-02-27 파나소닉 주식회사 음성신호 복호화 장치 및 음성신호 부호화 장치
WO2006027038A2 (en) * 2004-09-09 2006-03-16 Fujitsu Siemens Computers, Inc. Computer arrangement for providing services for clients over a network
WO2006107838A1 (en) 2005-04-01 2006-10-12 Qualcomm Incorporated Systems, methods, and apparatus for highband time warping
PT1875463T (pt) 2005-04-22 2019-01-24 Qualcomm Inc Sistemas, métodos e aparelho para nivelamento de fator de ganho
ATE448638T1 (de) 2006-04-13 2009-11-15 Fraunhofer Ges Forschung Audiosignaldekorrelator
EP2012305B1 (en) 2006-04-27 2011-03-09 Panasonic Corporation Audio encoding device, audio decoding device, and their method
EP2372701B1 (en) 2006-10-16 2013-12-11 Dolby International AB Enhanced coding and parameter representation of multichannel downmixed object coding
US7647229B2 (en) * 2006-10-18 2010-01-12 Nokia Corporation Time scaling of multi-channel audio signals
US20100241434A1 (en) 2007-02-20 2010-09-23 Kojiro Ono Multi-channel decoding device, multi-channel decoding method, program, and semiconductor integrated circuit
KR101513028B1 (ko) * 2007-07-02 2015-04-17 엘지전자 주식회사 방송 수신기 및 방송신호 처리방법
CA2699316C (en) * 2008-07-11 2014-03-18 Max Neuendorf Apparatus and method for calculating bandwidth extension data using a spectral tilt controlled framing
JP5326465B2 (ja) 2008-09-26 2013-10-30 富士通株式会社 オーディオ復号方法、装置、及びプログラム
AU2010209673B2 (en) * 2009-01-28 2013-05-16 Dolby International Ab Improved harmonic transposition
AU2011226211B2 (en) * 2010-03-09 2014-01-09 Dolby International Ab Apparatus and method for processing an audio signal using patch border alignment

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018512100A (ja) * 2015-02-12 2018-05-10 ディーティーエス・インコーポレイテッドDTS,Inc. オーディオ処理のためのマルチレートシステム

Also Published As

Publication number Publication date
CN102257567B (zh) 2014-05-07
TW201137859A (en) 2011-11-01
CN102257567A (zh) 2011-11-23
WO2011048792A1 (ja) 2011-04-28
US9026236B2 (en) 2015-05-05
EP2360688A1 (en) 2011-08-24
EP2360688B1 (en) 2018-12-05
JP5422664B2 (ja) 2014-02-19
EP2704143B1 (en) 2015-01-07
EP2704143A2 (en) 2014-03-05
EP2704143A3 (en) 2014-04-02
TWI509596B (zh) 2015-11-21
US20120022676A1 (en) 2012-01-26
EP2360688A4 (en) 2013-09-04

Similar Documents

Publication Publication Date Title
JP5422664B2 (ja) 音響信号処理装置、音響符号化装置および音響復号装置
JP7160968B2 (ja) サブバンドブロックに基づく高調波移調の改善
RU2582061C2 (ru) Способ расширения ширины полосы, устройство расширения ширины полосы, программа, интегральная схема и устройство декодирования аудио
JP6573703B2 (ja) 高調波転換
JP6672322B2 (ja) オーディオ処理のためのマルチレートシステム
AU2023202547B2 (en) Improved Subband Block Based Harmonic Transposition
RU2800676C1 (ru) Усовершенствованное гармоническое преобразование на основе блока поддиапазонов
AU2019240701B2 (en) Improved Subband Block Based Harmonic Transposition
RU2772356C2 (ru) Усовершенствованное гармоническое преобразование на основе блока поддиапазонов
RU2813317C1 (ru) Усовершенствованное гармоническое преобразование на основе блока поддиапазонов

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130806

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131125

R150 Certificate of patent or registration of utility model

Ref document number: 5422664

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350