JPWO2007052612A1 - ステレオ符号化装置およびステレオ信号予測方法 - Google Patents

ステレオ符号化装置およびステレオ信号予測方法 Download PDF

Info

Publication number
JPWO2007052612A1
JPWO2007052612A1 JP2007542732A JP2007542732A JPWO2007052612A1 JP WO2007052612 A1 JPWO2007052612 A1 JP WO2007052612A1 JP 2007542732 A JP2007542732 A JP 2007542732A JP 2007542732 A JP2007542732 A JP 2007542732A JP WO2007052612 A1 JPWO2007052612 A1 JP WO2007052612A1
Authority
JP
Japan
Prior art keywords
channel signal
prediction
low
cross
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007542732A
Other languages
English (en)
Other versions
JP5025485B2 (ja
Inventor
道代 後藤
道代 後藤
吉田 幸司
幸司 吉田
江原 宏幸
宏幸 江原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2007542732A priority Critical patent/JP5025485B2/ja
Publication of JPWO2007052612A1 publication Critical patent/JPWO2007052612A1/ja
Application granted granted Critical
Publication of JP5025485B2 publication Critical patent/JP5025485B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

ステレオ信号の各チャネル間の予測性能を向上させ、復号信号の音質を改善すること。LPF(101−1)は、S1の高域成分を遮断して、S1’(低域成分)を出力する。LPF(101−2)は、S2の高域成分を遮断して、S2’(低域成分)を出力する。予測部(102)は、S1’からS2’を予測し、遅延時間差τおよび振幅比gからなる予測パラメータを出力する。第1チャネル符号化部(103)は、S1を符号化する。予測パラメータ符号化部(104)は、予測パラメータを符号化する。S1の符号化パラメータと予測パラメータの符号化パラメータが最終的に出力される。

Description

本発明は、ステレオ符号化装置およびステレオ信号予測方法に関する。
携帯電話機を用いた通話のように、移動体通信システムにおける音声通信では、現在、モノラル方式による同一ビットレートでの通信が主流である。しかし、今後、第4世代の移動体通信システムのように、伝送レートのさらなる高ビットレート化が進めば、より臨場感の高いステレオ信号を用いた音声通信が普及することが期待される。
ステレオ音声信号の符号化方法としては、非特許文献1記載のものがある。この符号化方法は、以下の式(1)を用いて一方のチャネル信号xから他方のチャネル信号yを予測し、その予測誤差を最小にするような予測パラメータaおよびdを符号化する。ここで、aはK次の予測係数、dは二つのチャネル信号の時間差を表している。
Figure 2007052612
Hendrik Fuchs, "Improving Joint Stereo Audio Coding by Adaptive Inter-Channel Prediction," Applications of Signal Processing to Audio and Acoustics, Final Program and Paper Summaries, 1993 IEEE Workshop on 17-20 Oct. 1993, Page(s) 39-42.
しかしながら、上記の符号化方法は、予測誤差を小さくするために予測係数の次数をある次数以上に維持することが必要であり、そのため符号化ビットレートが高くなるという問題がある。例えば、符号化ビットレートを低くするために予測係数の次数を低く設定すると、予測性能が低下し、聴覚的に音質劣化が生じる。
本発明の目的は、ステレオ信号の各チャネル間の予測性能を向上させ、復号信号の音質を改善することができるステレオ符号化装置およびステレオ信号予測方法を提供することである。
本発明のステレオ符号化装置は、第1チャネル信号の低域成分を通過させる第1ローパスフィルタと、第2チャネル信号の低域成分を通過させる第2ローパスフィルタと、前記第1チャネル信号の低域成分から前記第2チャネル信号の低域成分を予測して予測パラメータを生成する予測手段と、前記第1チャネル信号を符号化する第1符号化手段と、前記予測パラメータを符号化する第2符号化手段と、を具備する構成を採る。
また、本発明のステレオ信号予測方法は、第1チャネル信号の低域成分を通過させるステップと、第2チャネル信号の低域成分を通過させるステップと、前記第1チャネル信号の低域成分から前記第2チャネル信号の低域成分を予測するステップと、を具備するようにした。
本発明によれば、ステレオ信号の各チャネル間の予測性能を向上させ、復号信号の音質を改善することができる。
実施の形態1に係るステレオ符号化装置の主要な構成を示すブロック図 第1チャネル信号のスペクトルの一例を示した図 第2チャネル信号のスペクトルの一例を示した図 音声信号またはオーディオ信号の特徴を説明するための図 実施の形態1の他のバリエーションに係るステレオ符号化装置の主要な構成を示すブロック図 実施の形態1のさらなるバリエーションに係るステレオ符号化装置の主要な構成を示すブロック図 実施の形態2に係るステレオ符号化装置の主要な構成を示すブロック図 実施の形態3に係るステレオ符号化装置の主要な構成を示すブロック図 実施の形態3の他のバリエーションに係るステレオ符号化装置の主要な構成を示すブロック図 実施の形態4に係るステレオ符号化装置の主要な構成を示すブロック図 実施の形態5に係るステレオ符号化装置の主要な構成を示すブロック図 相互相関関数の一例を示した図 相互相関関数の一例を示した図 実施の形態6に係るステレオ符号化装置の主要な構成を示すブロック図 有声音の場合の相互相関関数の一例を示した図 無声音の場合の相互相関関数の一例を示した図 実施の形態7に係るステレオ符号化装置の主要な構成を示すブロック図 有声音の場合の相互相関関数の一例を示した図 無声音の場合の相互相関関数の一例を示した図 実施の形態8に係るステレオ符号化装置の主要な構成を示すブロック図 実施の形態9に係るステレオ符号化装置の主要な構成を示すブロック図 相互相関関数のローカルピークが重み付けされることによって最大相互相関値となる場合の一例を示した図 閾値φthを超えていなかった最大相互相関値が重み付けされることによって閾値φthを超える最大相互相関値となる場合の一例を示した図 閾値φthを超えていなかった最大相互相関値が重み付けされても閾値φthを超えなかった場合の一例を示した図
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図1は、本発明の実施の形態1に係るステレオ符号化装置100の主要な構成を示すブロック図である。
ステレオ符号化装置100は、LPF101−1、LPF101−2、予測部102、第1チャネル符号化部103、および予測パラメータ符号化部104を備え、第1チャネル信号および第2チャネル信号からなるステレオ信号が入力され、これに符号化を施し、符号化パラメータを出力する。なお、本明細書において、同様の機能を有する複数の構成に対して同一の符号を付すこととし、さらに各符号に続けて異なる枝番を付して互いを区別する。
ステレオ符号化装置100の各部は以下の動作を行う。
LPF101−1は、入力信号(原信号)の低域成分のみを通過させるローパスフィルタであり、具体的には、入力される第1チャネル信号S1において遮断周波数(カットオフ周波数)よりも高域の周波数成分を遮断し、低域成分のみが残った第1チャネル信号S1’を予測部102に出力する。LPF101−2も同様に、LPF101−1と同一の遮断周波数を用いて、入力される第2チャネル信号S2の高域成分を遮断し、低域成分のみの第2チャネル信号S2’を予測部102に出力する。
予測部102は、LPF101−1から出力される第1チャネル信号S1’(低域成分)およびLPF101−2から出力される第2チャネル信号S2’(低域成分)を用いて、第1チャネル信号から第2チャネル信号を予測し、この予測に関する情報(予測パラメータ)を予測パラメータ符号化部104に出力する。具体的には、予測部102は、信号S1’と信号S2’とを比較することにより、これら2つの信号間の遅延時間差τおよび振幅比g(共に第1チャネル信号を基準とした値)を求め、これらを予測パラメータとして予測パラメータ符号化部104に出力する。
第1チャネル符号化部103は、原信号S1に対し、所定の符号化処理を行い、第1チャネルに関して得られる符号化パラメータを出力する。原信号が音声信号であるならば、第1チャネル符号化部103は、例えば、CELP(Code-Excited Linear Prediction)方式による符号化を行い、得られる適応符号帳ラグ、LPC係数等のCELPパラメータを符号化パラメータとして出力する。また、原信号がオーディオ信号であるならば、第1チャネル符号化部103は、例えば、MPEG−4(Moving Picture Experts Group phase-4)に規定されるAAC(Advanced Audio Coding)方式による符号化を行い、得られる符号化パラメータを出力する。
予測パラメータ符号化部104は、予測部102から出力される予測パラメータに対し、所定の符号化処理を施し、得られる符号化パラメータを出力する。例えば、所定の符号化処理として、予測パラメータの候補を予め記憶した符号帳を備え、この符号帳から最適な予測パラメータを選択し、この予測パラメータに対応するインデックスを出力する方法をとる。
次いで、予測部102で行われる上記予測処理について、より詳細に説明する。
予測部102は、遅延時間差τおよび振幅比gを求める際に、まず遅延時間差τから求める。LPF101−1通過後の第1チャネル信号の低域成分S1’と、LPF101−2通過後の第2チャネル信号の低域成分S2’との間の遅延時間差τは、次式(2)で表される相互相関関数の値を最大にするm=mmaxとして求まる。
Figure 2007052612
ここで、nおよびmはサンプル番号を、FLはフレーム長(サンプル数)を示す。相互相関関数は、一方の信号をmだけシフトさせ、2つの信号相互の相関値を算出したものである。
次に、予測部102は、求まった遅延時間差τを用いて、S1’とS2’との間の振幅比gを次式(3)に従って求める。
Figure 2007052612
上記式(3)は、S2’と遅延時間差τ分だけずらしたS1’との振幅比を算出している。
そして、予測部102は、τおよびgを用いて、第1チャネル信号の低域成分S1’から第2チャネル信号の低域成分S2”を次式(4)に従って予測する。
Figure 2007052612
このように、予測部102が、第1チャネル信号の低域成分を用いて、第2チャネル信号の低域成分を予測することにより、ステレオ信号の予測性能が向上する。この原理について以下詳細に説明する。
図2A及び図2Bは、原信号である第1チャネル信号および第2チャネル信号の各スペクトルの一例を示した図である。なお、ここでは、説明を簡単にするために、音源(音の発生源)が1つである場合を例にとって説明する。
そもそもステレオ信号は、全チャネル共通のある音源で発生した音を、互いに離れて設置された複数の(本実施の形態では2つの)マイクロフォンで収音した信号である。よって、音源からマイクロフォンまで遠ければ遠いほど信号のエネルギーが減衰し、また到達時間にも遅延が生じる。そのため、図2A及び図2Bにも現れているように、各チャネルのスペクトルは異なる波形を示すものの、遅延時間差Δtおよび振幅差ΔAを補正すれば、両チャネルの信号は良く類似するようになる。ここで、遅延時間差および振幅差というパラメータは、マイクロフォンの設置位置によって決まる特性パラメータであるため、1つのマイクロフォンで収音された信号に対し1組の値が対応するパラメータである。
一方、音声信号またはオーディオ信号には、図3に示すように、信号のエネルギーが高域よりもより低域の方に偏るという特徴がある。そのため、符号化処理の一部として予測を行う場合には、高域成分よりも低域成分に重点を置いて予測を行うことが予測性能向上の観点から望ましい。
そこで、本実施の形態では、入力信号の高域成分を遮断し、残った低域成分を用いて予測パラメータを求める。そして、求まった予測パラメータの符号化パラメータを復号側に出力する。すなわち、予測パラメータ自体は、入力信号の低域成分に基づいて求めたものであるが、これを高域まで含めた全帯域に対する予測パラメータとして出力する。既に説明した通り、予測パラメータは、1つのマイクロフォンで収音された信号に対し1組の値が対応するものであるから、低域成分のみに基づいて求めたものであっても、その予測パラメータ自体は全帯域に対して有効であると考えられるからである。
また、エネルギーの低い高域成分をも含めて予測を行うと、この精度の悪い高域成分の影響で予測性能が低下する可能性があるが、本実施の形態では、高域成分を予測に用いないため、高域成分の影響を受けて予測性能が低下するおそれもない。
ステレオ符号化装置100に対応する本実施の形態に係るステレオ復号装置は、第1チャネル符号化部103から出力される第1チャネルの符号化パラメータを受信し、この符号化パラメータを復号することにより、第1チャネルの復号信号を得ると共に、予測パラメータ符号化部104から出力される符号化パラメータ(予測パラメータ)および第1チャネルの復号信号を用いることにより、全帯域の第2チャネルの復号信号を得ることができる。
このように、本実施の形態によれば、LPF101−1で第1チャネル信号の高域成分を遮断し、LPF101−2で第2チャネル信号の高域成分を遮断し、予測部102で第1チャネル信号の低域成分から第2チャネル信号の低域成分を予測することにより、予測パラメータを得る。そして、第1チャネル信号の符号化パラメータと共にこの予測パラメータの符号化パラメータを出力することにより、ステレオ信号の各チャネル間の予測性能を向上させ、復号信号の音質を改善することができる。また、原信号の高域成分を遮断しているので、予測係数の次数も低く抑えることができる。
なお、本実施の形態では、原信号の第1チャネル信号に対し第1チャネル符号化部103において符号化を施し、予測部102において、第1チャネル信号S1’から第2チャネル信号S2’を予測する場合を例にとって説明したが、第1チャネル符号化部103の代わりに第2チャネル符号化部を設け、原信号の第2チャネル信号に対し符号化を施す態様としても良い。かかる場合、予測部102において、第2チャネル信号S2’から第1チャネル信号S1’を予測するような構成とする。
また、本実施の形態は、第1チャネル信号および第2チャネル信号を入力信号とする代わりに、別の入力信号に対して上記の符号化を行うことも可能である。図4は、本実施の形態の他のバリエーションに係るステレオ符号化装置100aの主要な構成を示すブロック図である。ここでは、第1チャネル信号S1および第2チャネル信号S2がステレオ/モノラル変換部110に入力され、ステレオ/モノラル変換部110において、ステレオ信号S1、S2がモノラル信号SMONOに変換され、出力される。
ステレオ/モノラル変換部110における変換方法としては、例えば、第1チャネル信号S1および第2チャネル信号S2の平均信号または重み付き平均信号を求め、これをモノラル信号SMONOとする。すなわち、このバリエーションにおいては、実質的な符号化の対象は、モノラル信号SMONOおよび第1チャネル信号S1ということになる。
そこで、LPF111は、モノラル信号SMONOの高域部をカットしてモノラル信号S’MONOを生成し、予測部102aは、モノラル信号S’MONOから第1チャネル信号S1を予測し、予測パラメータを算出する。一方、第1チャネル符号化部103の代わりにモノラル符号化部112が設けられており、このモノラル符号化部112は、モノラル信号SMONOに対し所定の符号化処理を施す。他の動作はステレオ符号化装置100と同様である。
また、本実施の形態は、予測部102から出力される予測パラメータに対し、平滑化処理を施すような構成としても良い。図5は、本実施の形態のさらなるバリエーションに係るステレオ符号化装置100bの主要な構成を示すブロック図である。ここでは、予測部102の後段に平滑化部120が設けられ、予測部102から出力される予測パラメータに対し平滑化処理が施される。また、メモリ121が設けられ、平滑部120から出力される平滑化された予測パラメータが保存される。より詳細には、平滑化部120は、予測部102から入力される現フレームのτ(i)、g(i)、およびメモリ121から入力される過去フレームのτ(i−1)、g(i−1)の双方を用いて、以下の式(5)、(6)に示す平滑化処理を施し、平滑化された予測パラメータを予測パラメータ符号化部104bに出力する。
Figure 2007052612
予測パラメータ符号化部104bは、この平滑化された予測パラメータに対し、次式(7)を用いた予測を行い、予測パラメータを得る。
Figure 2007052612
他の動作はステレオ符号化装置100と同様である。このように、τおよびgの値の変化がフレーム間で平滑化されることにより、第2チャネル信号の予測信号S2”のフレーム間の連続性を向上させることができる。
また、本実施の形態では、予測パラメータとして遅延時間差τおよび振幅比gを用いる場合を例にとって説明したが、これらのパラメータの代わりに遅延時間差τおよび予測系数列aを用いて、次式(8)により第1チャネル信号から第2チャネル信号を予測するような構成としても良い。
Figure 2007052612
この構成により、予測性能をより高めることができる。
また、本実施の形態では、予測パラメータの1つとして振幅比を用いる場合を例にとって説明したが、同様の特性を示すパラメータとして振幅差、エネルギー比、エネルギー差等を用いても良い。
(実施の形態2)
図6は、本発明の実施の形態2に係るステレオ符号化装置200の主要な構成を示すブロック図である。なお、ステレオ符号化装置200は、実施の形態1に示したステレオ符号化装置100と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
ステレオ符号化装置200は、メモリ201をさらに備え、このメモリ201に保存されているデータを予測部202が適宜参照し、実施の形態1に係る予測部102と異なる動作を行う。
より詳細には、メモリ201は、予測部202から出力される予測パラメータ(遅延時間差τ、振幅比g)を過去の所定フレーム(フレーム数N)について蓄積し、これを予測部202に適宜出力する。
予測部202には、メモリ201から過去フレームの予測パラメータが入力される。予測部202は、メモリ201から入力される過去フレームの予測パラメータの値に応じて、現フレームにおいて予測パラメータを探索する際の探索範囲を決定する。予測部202は、決定された探索範囲内において予測パラメータの探索を行い、最終的に得られる予測パラメータを予測パラメータ符号化部104に出力する。
上記処理を数式を用いて説明すると、過去の遅延時間差をτ(i−1)、τ(i−2)、τ(i−3)、・・・、τ(i−j)・・・、τ(i−N)として、現フレームの遅延時間差τ(i)は、次式(9)に示す範囲内で検索が行われる。
Figure 2007052612
ここで、jは1からNまでの値である。
また、過去の振幅比をg(i−1)、g(i−1)、g(i−2)、g(i−3)、・・・、g(i−j)、・・・、g(i−N)として、現フレームの振幅比g(i)は、次式(10)に示す範囲内で検索が行われる。
Figure 2007052612
jは1からNまでの値である。
このように、本実施の形態によれば、予測パラメータを求める際の探索範囲を、過去フレームにおける予測パラメータの値に基づいて決定することにより、より詳細には、現フレームの予測パラメータを過去フレームの予測パラメータの近傍の値に制限することにより、極端な予測誤りが発生することを防止し、復号信号の音質劣化を回避することができる。
(実施の形態3)
図7は、本発明の実施の形態3に係るステレオ符号化装置300の主要な構成を示すブロック図である。ステレオ符号化装置300も、実施の形態1に示したステレオ符号化装置100と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
ステレオ符号化装置300は、パワ検出部301および遮断周波数決定部302をさらに備え、パワ検出部301の検出結果に基づいて、遮断周波数決定部302がLPF101−1、101−2の遮断周波数を適応的に制御する。
より詳細には、パワ検出部301は、第1チャネル信号S1および第2チャネル信号S2の双方のパワをモニタし、モニタ結果を遮断周波数決定部302に出力する。ここで、パワとして各サブバンドごとの平均値を使用する。
遮断周波数決定部302は、まず、第1チャネル信号S1について、各サブバンド毎のパワを全帯域に亘って平均し、全帯域の平均パワを算出する。次に、遮断周波数決定部302は、算出された全帯域の平均パワを閾値として、第1チャネル信号S1の各サブバンドのパワを閾値と大小比較する。そして、閾値よりも大きなサブバンドを全て含むような遮断周波数f1を決定する。
第2チャネル信号S2についても第1チャネル信号S1と同様の処理を行い、遮断周波数決定部302は、LPF101−2の遮断周波数f2の値を決定する。そして、遮断周波数f1、f2に基づいて、最終的なLPF101−1、101−2に共通の遮断周波数fcを決定し、LPF101−1、101−2に指示する。これにより、LPF101−1、101−2は、相対的にパワが大きな周波数帯域の成分を全て残して、予測部102に出力することができる。
通常、f1とf2とは同一の値になると考えられるので、遮断周波数決定部302は、f1(またはf2)を最終的な遮断周波数fcとする。もし、f1とf2とが異なる値を示す場合は、情報を安全に残すという観点から、より低域成分が残る方の遮断周波数、すなわち値の大きい方の遮断周波数を採用してfcとする。
このように、本実施の形態によれば、相対的にパワの高い信号を対象として、予測パラメータである遅延時間差および振幅比を求めるので、予測パラメータの算出精度、すなわち予測性能を向上させることができる。
なお、本実施の形態では、入力信号のパワに基づいてローパスフィルタの遮断周波数を決定する例を示したが、例えば、入力信号のサブバンド毎のS/N比を用いる構成としても良い。図8は、本実施の形態の他のバリエーションに係るステレオ符号化装置300aの主要な構成を示すブロック図である。ステレオ符号化装置300aは、パワ検出部301の代わりにS/N比検出部301aを備え、入力信号のサブバンド毎のS/N比をモニタする。ノイズレベルは、入力信号から推定する。遮断周波数決定部302aは、S/N比検出部301aのモニタ結果に基づき、相対的にS/N比の高いサブバンドを全て含むように、ローパスフィルタの遮断周波数を決定する。これにより、周囲騒音が存在する環境下で遮断周波数を適応的に制御することができる。よって、周囲騒音のレベルが相対的に低いサブバンドに基づいて遅延時間差および振幅比を算出することができ、予測パラメータの算出精度を向上させることができる。
また、遮断周波数がフレーム毎に不連続に変動すると、ローパスフィルタ通過後の信号の特性が変化し、τやgの値もフレーム毎に不連続となって予測性能が低下する。そこで、遮断周波数がフレーム間で連続性を保つように、遮断周波数自体の平滑化を行っても良い。
(実施の形態4)
図9は、本発明の実施の形態4に係るステレオ符号化装置400の主要な構成を示すブロック図である。ここでは、入力信号が音声信号であり、また、ステレオ符号化装置400が、モノラル信号の符号化パラメータとステレオ信号の符号化パラメータとを生成するスケーラブル符号化装置である例を示す。
ステレオ符号化装置400の一部の構成は、実施の形態1のバリエーションにおいて示したステレオ符号化装置100aと同一である(図4参照。同一の構成要素には同一の符号を付す。)。しかし、入力信号が音声であるので、ステレオ符号化装置100aにはない構成である第1チャネル符号化部410において、音声符号化に適したCELP符号化の手法を第1チャネル信号の符号化に応用できるような工夫が施されている。
具体的には、ステレオ符号化装置400は、第1チャネル信号および第2チャネル信号を入力信号とし、コアレイヤにおいてモノラル信号の符号化を行い、拡張レイヤにおいてステレオ信号のうち第1チャネル信号について符号化を行い、モノラル信号の符号化パラメータおよび第1チャネル信号の符号化パラメータの双方を復号側に出力する。復号側では、モノラル信号の符号化パラメータおよび第1チャネル信号の符号化パラメータを用いて、第2チャネル信号も復号することができる。
コアレイヤは、ステレオ/モノラル変換部110、LPF111、およびモノラル符号化部112を備え、これらの構成は、ステレオ符号化装置100aに示した構成と基本的に同一であるが、モノラル符号化部112はさらに、符号化処理の途中で得られるモノラル信号の駆動音源信号を拡張レイヤに出力する。
拡張レイヤは、LPF101−1、予測部102a、予測パラメータ符号化部104、および第1チャネル符号化部410を備える。予測部102aは、実施の形態1と同様に、モノラル信号の低域成分から第1チャネル信号の低域成分を予測して、生成された予測パラメータを予測パラメータ符号化部104に出力すると共に、駆動音源予測部401にも出力する。
第1チャネル符号化部410は、第1チャネル信号を音源情報と声道情報とに分けて符号化を行う。音源情報については、駆動音源予測部401で予測部102aから出力される予測パラメータを用いて、モノラル符号化部112から出力されるモノラル信号の駆動音源信号を用いて、第1チャネル信号の駆動音源信号を予測する。そして、第1チャネル符号化部410は、通常のCELP符号化と同様に、音源符号帳402、合成フィルタ405、歪み最小化部408等を用いた音源探索を行い、音源情報の符号化パラメータを得る。一方、声道情報については、LPC分析/量子化部404で第1チャネル信号の線形予測分析およびその分析結果の量子化を行い、声道情報の符号化パラメータを得て、これは合成フィルタ405での合成信号の生成に使用される。
このように、本実施の形態によれば、ステレオ/モノラル変換部110で第1チャネル信号および第2チャネル信号からモノラル信号を生成し、LPF111でモノラル信号の高域成分を遮断してモノラルの低域成分を生成する。そして、予測部102aで、実施の形態1と同様の処理により、モノラル信号の低域成分から第1チャネル信号の低域成分を予測して予測パラメータを得、この予測パラメータを用いてCELP符号化に準じた方法により第1チャネル信号の符号化を行い、第1チャネル信号の符号化パラメータを得る。この第1チャネル信号の符号化パラメータは、モノラル信号の符号化パラメータと共に復号側に出力される。この構成により、モノラル−ステレオのスケーラブル符号化装置を実現し、かつ、ステレオ信号の各チャネル間の予測性能を向上させ、復号信号の音質を改善することができる。
(実施の形態5)
図10は、本発明の実施の形態5に係るステレオ符号化装置500の主要な構成を示すブロック図である。ステレオ符号化装置500も、実施の形態1に示したステレオ符号化装置100と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
ステレオ符号化装置500は、閾値設定部501および予測部502を備え、予測部502は、閾値設定部501に予め設定されている閾値φthと相互相関関数φの値とを比較することにより、この相互相関関数の信頼性を判定する。
具体的には、予測部502は、まず、LPF101−1通過後の第1チャネル信号の低域成分S1’と、LPF101−2通過後の第2チャネル信号の低域成分S2’とを用い、次式(11)で表される相互相関関数φを求める。
Figure 2007052612
但し、相互相関関数φは、各々のチャネル信号の自己相関関数で正規化されているとする。また、nおよびmはサンプル番号を、FLはフレーム長(サンプル数)を示す。式(11)から明らかなように、φの最大値は1である。
そして、予測部502は、閾値設定部501に予め設定されている閾値φthと相互相関関数φの最大値とを比較し、これが閾値以上の場合、この相互相関関数を信頼できるものと判定する。言い換えれば、予測部502は、閾値設定部501に予め設定されている閾値φthと相互相関関数φの各サンプル値とを比較し、少なくとも1点において閾値以上のサンプル点が存在する場合、この相互相関関数を信頼できるものと判定する。図11は、相互相関関数φの一例を示した図である。これは、相互相関関数の最大値が閾値を超える例である。
かかる場合、予測部502は、第1チャネル信号の低域成分S1’と、第2チャネル信号の低域成分S2’との間の遅延時間差τを、上記式(11)で表される相互相関関数の値を最大にするm=mmaxとして求める。
一方、予測部502は、相互相関関数φの最大値が閾値φthに達しない場合、前フレームで既に求まっている遅延時間差τを当該フレームの遅延時間差τとして決定する。図12も、相互相関関数φの一例を示した図である。ここでは、相互相関関数の最大値が閾値を超えない例を示している。
なお、予測部502は、振幅比gについては、実施の形態1と同様の方法により算出する。
このように、本実施の形態によれば、信頼性の高い遅延時間差τを求めるために、相互相関関数の値が信頼できるか否かの判定を行った上で、遅延時間差τの値を決定する。具体的には、遅延時間差を求める際の相互相関関数として、各々のチャネル信号の自己相関関数で正規化されている相互相関関数を使用し、予め閾値を設けておいて、相互相関関数の最大値が閾値以上となる場合、相互相関関数の値を最大にするm=mmaxを遅延時間差として決定する。一方、相互相関関数が全く閾値に達しない場合は、前フレームで求まっている遅延時間差を当該フレームの遅延時間差として決定する。このような構成を採ることにより、遅延時間差をより精度良く求めることができる。
(実施の形態6)
図13は、本発明の実施の形態6に係るステレオ符号化装置600の主要な構成を示すブロック図である。ステレオ符号化装置600は、実施の形態5に示したステレオ符号化装置500と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
ステレオ符号化装置600は、有声/無声判定部601をさらに備え、閾値設定部501の閾値設定のために、ローパスフィルタを通過する前の第1チャネル信号および第2チャネル信号の有声/無声判定を行う。
具体的には、有声/無声判定部601は、第1チャネル信号S1および第2チャネル信号S2の各々を用いて、自己相関関数φSSの値を次式(12)に従って算出する。
Figure 2007052612
ここで、S(n)は第1チャネル信号または第2チャネル信号を、nおよびmはサンプル番号を、FLはフレーム長(サンプル数)を示す。式(12)から明らかなように、φSSの最大値は1である。
有声/無声判定部601には、有声/無声判定のための閾値が予め設定されている。有声/無声判定部601は、第1チャネル信号または第2チャネル信号の自己相関関数φSSの値を閾値と比較し、閾値を超えた場合は有声と判定し、超えなかった場合は有声ではない(すなわち無声)と判定する。すなわち、有声/無声判定は、第1チャネル信号および第2チャネル信号の双方に対し行われる。そして、第1チャネル信号の自己相関関数φSSおよび第2チャネル信号の自己相関関数φSSの双方の値を、例えば平均値をとる等することにより考慮し、これらのチャネル信号が有声であるか無声であるかを決定する。判定結果は、閾値設定部501へ出力される。
閾値設定部501は、有声と判断された場合と、有声と判断されなかった場合とで、閾値設定を変える。具体的には、有声の場合の閾値φを無声の場合の閾値φUVよりも小さく設定する。その理由は、有声音の場合は周期性があるので、ローカルピークとなる相互相関関数の値と、他のローカルピークとならない相互相関関数の値との差が大きいからである。一方、無声音の場合は周期性がないので(雑音的であるので)、ローカルピークとなる相互相関関数の値と、他のローカルピークとならない相互相関関数の値との差が大きくならないからである。
図14は、有声音の場合の相互相関関数の一例を示した図である。また、図15は、無声音の場合の相互相関関数の一例を示した図である。共に、閾値も併せて示している。この図に示すように、有声音と無声音とでは相互相関関数の様相が異なるので、信頼できる相互相関関数の値を採用するために、閾値を設定し、有声性を有する信号と、無声性を有する信号とで、閾値の設定の仕方を変える。すなわち、無声性を示すと判断された信号に対しては、相互相関関数の閾値を大きく設定することにより、他のローカルピークとならない相互相関関数の値との差が大きくない限りは、遅延時間差として採用されないこととなり、相互相関関数の信頼性を高めることができる。
このように、本実施の形態によれば、ローパスフィルタを通過する前の第1チャネル信号および第2チャネル信号を用いて有声/無声判定を行い、有声の場合と無声の場合とで、相互相関関数の信頼度を判断する際の閾値を変える。具体的には、有声の場合の閾値を無声の場合の閾値よりも小さく設定する。よって、遅延時間差をより精度良く求めることができる。
(実施の形態7)
図16は、本発明の実施の形態7に係るステレオ符号化装置700の主要な構成を示すブロック図である。ステレオ符号化装置700は、実施の形態6に示したステレオ符号化装置600と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
ステレオ符号化装置700は、有声/無声判定部601の後段に、係数設定部701、閾値設定部702、および予測部703を備え、有声/無声の判定結果に応じた係数を相互相関関数の最大値に乗じ、この係数乗算後の相互相関関数の最大値を用いて、遅延時間差を求める。
具体的には、係数設定部701は、有声/無声判定部601から出力される判定結果に基づいて、有声の場合と無声の場合とで異なる係数gを設定し、閾値設定部702へ出力する。ここで係数gは、相互相関関数の最大値を基準にして、1未満の正の値が設定される。また、有声の場合の係数gが無声の場合の係数gUVよりも大きくなるように設定される。閾値設定部702は、相互相関関数の最大値φmaxに係数gを乗じた値を閾値φthに設定し、予測部703へ出力する。予測部703は、この閾値φthと相互相関関数の最大値φmaxとの間の領域にピークの頂点が含まれるローカルピークを検出する。
図17は、有声音の場合の相互相関関数の一例を示した図である。また、図18は、無声音の場合の相互相関関数の一例を示した図である。共に、閾値も併せて示している。予測部703は、ピークの頂点が最大値φmaxと閾値φthとの間の領域に存在する相互相関関数のローカルピークを検出し、最大値を示すピーク(図中、丸で囲んだピーク)以外にローカルピークが検出されなければ、相互相関関数の値を最大とするm=mmaxを遅延時間差として決定する。例えば、図17の例では、φmaxとφthとの間の領域にローカルピークが1箇所だけ存在するので、m=mmaxを遅延時間差τとして採用する。一方、最大値を示すピーク以外にもローカルピークが検出されれば、前フレームの遅延時間差を当該フレームの遅延時間差として決定する。例えば、図18の例では、φmaxとφthの間の領域にローカルピークが4箇所存在するので(図中、丸で囲んだピーク)、m=mmaxを遅延時間差τとしては採用せず、前フレームの遅延時間差を当該フレームの遅延時間差として採用する。
有声と無声で係数を変えることにより閾値の設定を変更する理由は、有声音の場合は周期性があるので、通常ローカルピークとなる相互相関関数の値と、他のローカルピークとならない相互相関関数の値との差が大きいので、最大値φmaxの近傍だけを確認すれば良いためである。一方、無声音の場合、通常、周期性がないので(雑音的であるので)、ローカルピークとなる相互相関関数の値と、他のローカルピークとならない相互相関関数の値との差が大きくならないので、最大値φmaxと他のローカルピークとの差が充分にあるかを確認する必要があるためである。
このように、本実施の形態によれば、相互相関関数の最大値を基準にして、最大値に1未満の正の係数を乗じた値を閾値とする。ここで、有声の場合と無声の場合とで、乗じる係数の値を変える(有声の場合の方が無声の場合よりも大きくする)。そして、相互相関関数の最大値と閾値との間に存在する相互相関関数のローカルピークを検出し、最大値を示すピーク以外にローカルピークが検出されなければ、相互相関関数の値を最大とするm=mmaxの値を遅延時間差として決定する。一方、最大値を示すピーク以外にローカルピークが検出される場合は、前フレームの遅延時間差を当該フレームの遅延時間差として決定する。すなわち、相互相関関数の最大値を基準として、相互相関関数の最大値から所定の範囲内に含まれるローカルピークの個数の大小に応じて、遅延時間差を設定する。このような構成を採ることにより、遅延時間差をより精度良く求めることができる。
(実施の形態8)
図19は、本発明の実施の形態8に係るステレオ符号化装置800の主要な構成を示すブロック図である。ステレオ符号化装置800は、実施の形態5に示したステレオ符号化装置500と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
ステレオ符号化装置800は、相互相関関数値保存部801をさらに備え、この相互相関関数値保存部801に保存されている相互相関関数値を予測部802が参照し、実施の形態5に係る予測部502とは異なる動作を行う。
具体的には、相互相関関数値保存部801は、予測部802から出力される平滑化後の最大相互相関値を蓄積し、これを予測部802に適宜出力する。
予測部802は、閾値設定部501に予め設定されている閾値φthと相互相関関数φの最大値とを比較し、これが閾値以上の場合、この相互相関関数を信頼できるものと判定する。言い換えれば、予測部802は、閾値設定部501に予め設定されている閾値φthと相互相関関数φの各サンプル値とを比較し、少なくとも1点において閾値以上のサンプル点が存在する場合、この相互相関関数を信頼できるものと判定する。
かかる場合、予測部802は、第1チャネル信号の低域成分S1’と、第2チャネル信号の低域成分S2’との間の遅延時間差τを、上記式(12)で表される相互相関関数の値を最大にするm=mmaxとして求める。
一方、予測部802は、相互相関関数φの最大値が閾値φthに達しない場合、相互相関関数値保存部801から出力された前フレームの平滑化後の最大相互相関値を用いて、遅延時間差τを決定する。平滑化後の最大相互相関値は次式(13)によって表される。
Figure 2007052612
ここで、φsmooth_prevは前フレームの平滑化後の最大相互相関値を、φmaxは現フレームの最大相互相関値を、αは平滑化の係数であり、0<α<1を満たす定数である。
なお、相互相関関数値保存部801に蓄積された平滑化後の最大相互相関値は、次のフレームの遅延時間差決定の際、φsmooth_prevとして用いられる。
具体的には、相互相関関数φの最大値が閾値φthに達しない場合、予測部802は、前フレームの平滑化後の最大相互相関値φsmooth_prevを予め定められた閾値φth_smooth_prevと比較する。この結果、φsmooth_prevがφth_smooth_prevより大きい場合、前フレームの遅延時間差を現フレームの遅延時間差τとして決定する。逆に、φsmooth_prevがφth_smooth_prevを超えない場合、現フレームの遅延時間差を0とする。
なお、予測部802は、振幅比gについては、実施の形態1と同様の方法により算出する。
このように、本実施の形態によれば、現フレームの最大相互相関値が低い場合に得られた遅延時間差は信頼性も低いため、前フレームでの平滑化最大相互相関値を用いて判定されたより信頼性の高い前フレームの遅延時間差で代用することにより、遅延時間差をより精度良く求めることができる。
(実施の形態9)
図20は、本発明の実施の形態9に係るステレオ符号化装置900の主要な構成を示すブロック図である。ステレオ符号化装置900は、実施の形態6に示したステレオ符号化装置600と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
ステレオ符号化装置900は、重み設定部901及び遅延時間差保存部902をさらに備え、第1チャネル信号および第2チャネル信号の有声/無声判定結果に応じた重みが重み設定部901から出力され、この重みと、遅延時間差保存部902に保存されている遅延時間差とを用いて、予測部903が実施の形態6に係る予測部502とは異なる動作を行う。
重み設定部901は、有声/無声判定部601において有声と判断された場合と、無声と判断された場合とで、重みw(>1.0)を変える。具体的には、無声の場合の重みwを有声の場合の重みwよりも大きく設定する。
その理由は、有声音の場合は周期性があるので、相互相関関数の最大値と、ローカルピークでの他の相互相関関数の値との差が比較的大きく、最大相互相関値を示すシフト量が正しい遅延差であることの信頼性が高いのに対して、無声音の場合は周期性がない(雑音的である)ので、相互相関関数の最大値と、ローカルピークでの他の相互相関関数の値との差が比較的小さく、最大相互相関値を示すシフト量が必ずしも正しい遅延差を示しているとは限らないからである。このため、無声の場合の重みwをより大きく設定し、前フレームの遅延差をより選びやすくすることで、より精度の高い遅延差を求めることができる。
遅延時間差保存部902は、予測部903から出力される遅延時間差τを蓄積し、これを予測部903に適宜出力する。
予測部903は、重み設定部901によって設定された重みwを用いて、遅延差を以下のように決定する。まず、LPF101−1通過後の第1チャネル信号の低域成分S1’と、LPF101−2通過後の第2チャネル信号の低域成分S2’との間の遅延時間差τの候補を上記式(11)で表される相互相関関数の値を最大にするm=mmaxとして求める。相互相関関数は、各々のチャネル信号の自己相関関数で正規化されている。
ただし、式(11)において、nはサンプル番号を、FLはフレーム長(サンプル数)を示す。また、mはシフト量を示す。
ここで、予測部903は、mの値と、遅延時間差保存部902に保存されている前フレームの遅延時間差の値との差分が予め設定された範囲内にあれば、次式(14)に示すように、上記式(11)によって得られる相互相関値に対して、重み設定部901によって設定された重みを乗じる。なお、予め設定された範囲とは、遅延時間差保存部902に保存されている前フレームの遅延時間差τprevを中心に設定される。
Figure 2007052612
一方、mの値が予め設定された範囲外にあれば、次式(15)に示すようになる。
Figure 2007052612
このように求めた遅延時間差τの候補の信頼性を上記式(14)及び上記式(15)によって表される相互相関関数の最大値(最大相互相関値)φmaxにより判定し、最終的な遅延時間差τを決定する。具体的には、閾値設定部501に予め設定されている閾値φthと最大相互相関値φmaxとを比較し、最大相互相関値φmaxが閾値φth以上の場合、この相互相関関数を信頼できるものと判定し、相互相関関数の値を最大にするm=mmaxを遅延時間差τとして決定する。
図21は、相互相関関数のローカルピークが重み付けされることによって最大相互相関値となる場合の一例を示した図である。また、図22は、閾値φthを超えていなかった最大相互相関値が重み付けされることによって閾値φthを超える最大相互相関値となる場合の一例を示した図である。さらに、図23は、閾値φthを超えていなかった最大相互相関値が重み付けされても閾値φthを超えなかった場合の一例を示した図である。図23に示す場合、現フレームの遅延時間差を0に設定する。
このように、本実施の形態によれば、サンプルのシフト量mと前フレームの遅延時間差との差分が所定範囲内である場合、相互相関関数値に重み付けを行うことにより、前フレームの遅延時間差付近のシフト量での相互相関関数値をそれ以外のシフト量での相互相関関数値に比べて相対的により大きい値として評価し、前フレームの遅延時間差付近のシフト量が選ばれやすくなり、これにより、現フレームの遅延時間差をより精度良く求めることができる。
なお、本実施の形態では、有声無声判定結果によって、相互相関関数値に乗じる重みを変える構成として説明したが、有声無声判定結果によらず常に固定の重みを乗じるような構成としてもよい。
なお、実施の形態5から実施の形態9では、ローパスフィルタを通過した後の第1チャネル信号および第2チャネル信号に対する処理を例にとって説明したが、ローパスフィルタ処理を行わない信号に対して実施の形態5から実施の形態9までの処理を適用することも可能である。
また、ローパスフィルタを通過した第1チャネル信号および第2チャネル信号の代わりに、ローパスフィルタを通過した第1チャネル信号の残差信号およびローパスフィルタを通過した第2チャネル信号の残差信号を用いることも可能である。
さらに、ローパスフィルタ処理を行わない第1チャネル信号および第2チャネル信号の代わりに、第1チャネル信号の残差信号および第2チャネル信号の残差信号を用いることも可能である。
以上、本発明の各実施の形態について説明した。
本発明に係るステレオ符号化装置およびステレオ信号予測方法は、上記各実施の形態に限定されず、種々変更して実施することが可能である。例えば、各実施の形態は、適宜組み合わせて実施することが可能である。
本発明に係るステレオ音声符号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。
なお、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るステレオ信号予測方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係るステレオ符号化装置の一部の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
本明細書は、2005年10月31日出願の特願2005−316754、2006年6月15日出願の特願2006−166458及び2006年10月2日出願の特願2006−271040に基づくものである。この内容は全てここに含めておく。
本発明に係るステレオ符号化装置およびステレオ信号予測方法は、移動体通信システムにおける通信端末装置、基地局装置等の用途に適用することができる。
本発明は、ステレオ符号化装置およびステレオ信号予測方法に関する。
携帯電話機を用いた通話のように、移動体通信システムにおける音声通信では、現在、モノラル方式による同一ビットレートでの通信が主流である。しかし、今後、第4世代の移動体通信システムのように、伝送レートのさらなる高ビットレート化が進めば、より臨場感の高いステレオ信号を用いた音声通信が普及することが期待される。
ステレオ音声信号の符号化方法としては、非特許文献1記載のものがある。この符号化方法は、以下の式(1)を用いて一方のチャネル信号xから他方のチャネル信号yを予測し、その予測誤差を最小にするような予測パラメータaおよびdを符号化する。ここで、aはK次の予測係数、dは二つのチャネル信号の時間差を表している。
Figure 2007052612
Hendrik Fuchs, "Improving Joint Stereo Audio Coding by Adaptive Inter-Channel Prediction," Applications of Signal Processing to Audio and Acoustics, Final Program and Paper Summaries, 1993 IEEE Workshop on 17-20 Oct. 1993, Page(s) 39-42.
しかしながら、上記の符号化方法は、予測誤差を小さくするために予測係数の次数をある次数以上に維持することが必要であり、そのため符号化ビットレートが高くなるという問題がある。例えば、符号化ビットレートを低くするために予測係数の次数を低く設定すると、予測性能が低下し、聴覚的に音質劣化が生じる。
本発明の目的は、ステレオ信号の各チャネル間の予測性能を向上させ、復号信号の音質を改善することができるステレオ符号化装置およびステレオ信号予測方法を提供することである。
本発明のステレオ符号化装置は、第1チャネル信号の低域成分を通過させる第1ローパスフィルタと、第2チャネル信号の低域成分を通過させる第2ローパスフィルタと、前記第1チャネル信号の低域成分から前記第2チャネル信号の低域成分を予測して予測パラメータを生成する予測手段と、前記第1チャネル信号を符号化する第1符号化手段と、前記予測パラメータを符号化する第2符号化手段と、を具備する構成を採る。
また、本発明のステレオ信号予測方法は、第1チャネル信号の低域成分を通過させるステップと、第2チャネル信号の低域成分を通過させるステップと、前記第1チャネル信号の低域成分から前記第2チャネル信号の低域成分を予測するステップと、を具備するようにした。
本発明によれば、ステレオ信号の各チャネル間の予測性能を向上させ、復号信号の音質を改善することができる。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図1は、本発明の実施の形態1に係るステレオ符号化装置100の主要な構成を示すブロック図である。
ステレオ符号化装置100は、LPF101−1、LPF101−2、予測部102、第1チャネル符号化部103、および予測パラメータ符号化部104を備え、第1チャネル信号および第2チャネル信号からなるステレオ信号が入力され、これに符号化を施し、符号化パラメータを出力する。なお、本明細書において、同様の機能を有する複数の構成に対して同一の符号を付すこととし、さらに各符号に続けて異なる枝番を付して互いを区別する。
ステレオ符号化装置100の各部は以下の動作を行う。
LPF101−1は、入力信号(原信号)の低域成分のみを通過させるローパスフィルタであり、具体的には、入力される第1チャネル信号S1において遮断周波数(カットオフ周波数)よりも高域の周波数成分を遮断し、低域成分のみが残った第1チャネル信号S1’を予測部102に出力する。LPF101−2も同様に、LPF101−1と同一の遮断周波数を用いて、入力される第2チャネル信号S2の高域成分を遮断し、低域成分のみの第2チャネル信号S2’を予測部102に出力する。
予測部102は、LPF101−1から出力される第1チャネル信号S1’(低域成分)およびLPF101−2から出力される第2チャネル信号S2’(低域成分)を用いて、第1チャネル信号から第2チャネル信号を予測し、この予測に関する情報(予測パラメータ)を予測パラメータ符号化部104に出力する。具体的には、予測部102は、信号S1’と信号S2’とを比較することにより、これら2つの信号間の遅延時間差τおよび振幅比g(共に第1チャネル信号を基準とした値)を求め、これらを予測パラメータとして予測パラメータ符号化部104に出力する。
第1チャネル符号化部103は、原信号S1に対し、所定の符号化処理を行い、第1チャネルに関して得られる符号化パラメータを出力する。原信号が音声信号であるならば、第1チャネル符号化部103は、例えば、CELP(Code-Excited Linear Prediction)方式による符号化を行い、得られる適応符号帳ラグ、LPC係数等のCELPパラメータを符号化パラメータとして出力する。また、原信号がオーディオ信号であるならば、第1チャネル符号化部103は、例えば、MPEG−4(Moving Picture Experts Group phase-4)に規定されるAAC(Advanced Audio Coding)方式による符号化を行い、得られる符号化パラメータを出力する。
予測パラメータ符号化部104は、予測部102から出力される予測パラメータに対し、所定の符号化処理を施し、得られる符号化パラメータを出力する。例えば、所定の符号化処理として、予測パラメータの候補を予め記憶した符号帳を備え、この符号帳から最適な予測パラメータを選択し、この予測パラメータに対応するインデックスを出力する方法をとる。
次いで、予測部102で行われる上記予測処理について、より詳細に説明する。
予測部102は、遅延時間差τおよび振幅比gを求める際に、まず遅延時間差τから求める。LPF101−1通過後の第1チャネル信号の低域成分S1’と、LPF101−2通過後の第2チャネル信号の低域成分S2’との間の遅延時間差τは、次式(2)で表される相互相関関数の値を最大にするm=mmaxとして求まる。
Figure 2007052612
ここで、nおよびmはサンプル番号を、FLはフレーム長(サンプル数)を示す。相互相関関数は、一方の信号をmだけシフトさせ、2つの信号相互の相関値を算出したものである。
次に、予測部102は、求まった遅延時間差τを用いて、S1’とS2’との間の振幅比gを次式(3)に従って求める。
Figure 2007052612
上記式(3)は、S2’と遅延時間差τ分だけずらしたS1’との振幅比を算出している。
そして、予測部102は、τおよびgを用いて、第1チャネル信号の低域成分S1’から第2チャネル信号の低域成分S2”を次式(4)に従って予測する。
Figure 2007052612
このように、予測部102が、第1チャネル信号の低域成分を用いて、第2チャネル信号の低域成分を予測することにより、ステレオ信号の予測性能が向上する。この原理について以下詳細に説明する。
図2A及び図2Bは、原信号である第1チャネル信号および第2チャネル信号の各スペクトルの一例を示した図である。なお、ここでは、説明を簡単にするために、音源(音の発生源)が1つである場合を例にとって説明する。
そもそもステレオ信号は、全チャネル共通のある音源で発生した音を、互いに離れて設置された複数の(本実施の形態では2つの)マイクロフォンで収音した信号である。よって、音源からマイクロフォンまで遠ければ遠いほど信号のエネルギーが減衰し、また到達時間にも遅延が生じる。そのため、図2A及び図2Bにも現れているように、各チャネルのスペクトルは異なる波形を示すものの、遅延時間差Δtおよび振幅差ΔAを補正すれば、両チャネルの信号は良く類似するようになる。ここで、遅延時間差および振幅差というパラメータは、マイクロフォンの設置位置によって決まる特性パラメータであるため、1つのマイクロフォンで収音された信号に対し1組の値が対応するパラメータである。
一方、音声信号またはオーディオ信号には、図3に示すように、信号のエネルギーが高域よりもより低域の方に偏るという特徴がある。そのため、符号化処理の一部として予測を行う場合には、高域成分よりも低域成分に重点を置いて予測を行うことが予測性能向上の観点から望ましい。
そこで、本実施の形態では、入力信号の高域成分を遮断し、残った低域成分を用いて予測パラメータを求める。そして、求まった予測パラメータの符号化パラメータを復号側に出力する。すなわち、予測パラメータ自体は、入力信号の低域成分に基づいて求めたものであるが、これを高域まで含めた全帯域に対する予測パラメータとして出力する。既に説明した通り、予測パラメータは、1つのマイクロフォンで収音された信号に対し1組の値が対応するものであるから、低域成分のみに基づいて求めたものであっても、その予測パラメータ自体は全帯域に対して有効であると考えられるからである。
また、エネルギーの低い高域成分をも含めて予測を行うと、この精度の悪い高域成分の
影響で予測性能が低下する可能性があるが、本実施の形態では、高域成分を予測に用いないため、高域成分の影響を受けて予測性能が低下するおそれもない。
ステレオ符号化装置100に対応する本実施の形態に係るステレオ復号装置は、第1チャネル符号化部103から出力される第1チャネルの符号化パラメータを受信し、この符号化パラメータを復号することにより、第1チャネルの復号信号を得ると共に、予測パラメータ符号化部104から出力される符号化パラメータ(予測パラメータ)および第1チャネルの復号信号を用いることにより、全帯域の第2チャネルの復号信号を得ることができる。
このように、本実施の形態によれば、LPF101−1で第1チャネル信号の高域成分を遮断し、LPF101−2で第2チャネル信号の高域成分を遮断し、予測部102で第1チャネル信号の低域成分から第2チャネル信号の低域成分を予測することにより、予測パラメータを得る。そして、第1チャネル信号の符号化パラメータと共にこの予測パラメータの符号化パラメータを出力することにより、ステレオ信号の各チャネル間の予測性能を向上させ、復号信号の音質を改善することができる。また、原信号の高域成分を遮断しているので、予測係数の次数も低く抑えることができる。
なお、本実施の形態では、原信号の第1チャネル信号に対し第1チャネル符号化部103において符号化を施し、予測部102において、第1チャネル信号S1’から第2チャネル信号S2’を予測する場合を例にとって説明したが、第1チャネル符号化部103の代わりに第2チャネル符号化部を設け、原信号の第2チャネル信号に対し符号化を施す態様としても良い。かかる場合、予測部102において、第2チャネル信号S2’から第1チャネル信号S1’を予測するような構成とする。
また、本実施の形態は、第1チャネル信号および第2チャネル信号を入力信号とする代わりに、別の入力信号に対して上記の符号化を行うことも可能である。図4は、本実施の形態の他のバリエーションに係るステレオ符号化装置100aの主要な構成を示すブロック図である。ここでは、第1チャネル信号S1および第2チャネル信号S2がステレオ/モノラル変換部110に入力され、ステレオ/モノラル変換部110において、ステレオ信号S1、S2がモノラル信号SMONOに変換され、出力される。
ステレオ/モノラル変換部110における変換方法としては、例えば、第1チャネル信号S1および第2チャネル信号S2の平均信号または重み付き平均信号を求め、これをモノラル信号SMONOとする。すなわち、このバリエーションにおいては、実質的な符号化の対象は、モノラル信号SMONOおよび第1チャネル信号S1ということになる。
そこで、LPF111は、モノラル信号SMONOの高域部をカットしてモノラル信号S’MONOを生成し、予測部102aは、モノラル信号S’MONOから第1チャネル信号S1を予測し、予測パラメータを算出する。一方、第1チャネル符号化部103の代わりにモノラル符号化部112が設けられており、このモノラル符号化部112は、モノラル信号SMONOに対し所定の符号化処理を施す。他の動作はステレオ符号化装置100と同様である。
また、本実施の形態は、予測部102から出力される予測パラメータに対し、平滑化処理を施すような構成としても良い。図5は、本実施の形態のさらなるバリエーションに係るステレオ符号化装置100bの主要な構成を示すブロック図である。ここでは、予測部102の後段に平滑化部120が設けられ、予測部102から出力される予測パラメータに対し平滑化処理が施される。また、メモリ121が設けられ、平滑部120から出力される平滑化された予測パラメータが保存される。より詳細には、平滑化部120は、予測
部102から入力される現フレームのτ(i)、g(i)、およびメモリ121から入力される過去フレームのτ(i−1)、g(i−1)の双方を用いて、以下の式(5)、(6)に示す平滑化処理を施し、平滑化された予測パラメータを予測パラメータ符号化部104bに出力する。
Figure 2007052612
予測パラメータ符号化部104bは、この平滑化された予測パラメータに対し、次式(7)を用いた予測を行い、予測パラメータを得る。
Figure 2007052612
他の動作はステレオ符号化装置100と同様である。このように、τおよびgの値の変化がフレーム間で平滑化されることにより、第2チャネル信号の予測信号S2”のフレーム間の連続性を向上させることができる。
また、本実施の形態では、予測パラメータとして遅延時間差τおよび振幅比gを用いる場合を例にとって説明したが、これらのパラメータの代わりに遅延時間差τおよび予測系数列aを用いて、次式(8)により第1チャネル信号から第2チャネル信号を予測するような構成としても良い。
Figure 2007052612
この構成により、予測性能をより高めることができる。
また、本実施の形態では、予測パラメータの1つとして振幅比を用いる場合を例にとって説明したが、同様の特性を示すパラメータとして振幅差、エネルギー比、エネルギー差等を用いても良い。
(実施の形態2)
図6は、本発明の実施の形態2に係るステレオ符号化装置200の主要な構成を示すブロック図である。なお、ステレオ符号化装置200は、実施の形態1に示したステレオ符号化装置100と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
ステレオ符号化装置200は、メモリ201をさらに備え、このメモリ201に保存されているデータを予測部202が適宜参照し、実施の形態1に係る予測部102と異なる動作を行う。
より詳細には、メモリ201は、予測部202から出力される予測パラメータ(遅延時間差τ、振幅比g)を過去の所定フレーム(フレーム数N)について蓄積し、これを予測部202に適宜出力する。
予測部202には、メモリ201から過去フレームの予測パラメータが入力される。予測部202は、メモリ201から入力される過去フレームの予測パラメータの値に応じて、現フレームにおいて予測パラメータを探索する際の探索範囲を決定する。予測部202は、決定された探索範囲内において予測パラメータの探索を行い、最終的に得られる予測パラメータを予測パラメータ符号化部104に出力する。
上記処理を数式を用いて説明すると、過去の遅延時間差をτ(i−1)、τ(i−2)、τ(i−3)、・・・、τ(i−j)・・・、τ(i−N)として、現フレームの遅延時間差τ(i)は、次式(9)に示す範囲内で検索が行われる。
Figure 2007052612
ここで、jは1からNまでの値である。
また、過去の振幅比をg(i−1)、g(i−1)、g(i−2)、g(i−3)、・・・、g(i−j)、・・・、g(i−N)として、現フレームの振幅比g(i)は、次式(10)に示す範囲内で検索が行われる。
Figure 2007052612
jは1からNまでの値である。
このように、本実施の形態によれば、予測パラメータを求める際の探索範囲を、過去フレームにおける予測パラメータの値に基づいて決定することにより、より詳細には、現フレームの予測パラメータを過去フレームの予測パラメータの近傍の値に制限することにより、極端な予測誤りが発生することを防止し、復号信号の音質劣化を回避することができる。
(実施の形態3)
図7は、本発明の実施の形態3に係るステレオ符号化装置300の主要な構成を示すブロック図である。ステレオ符号化装置300も、実施の形態1に示したステレオ符号化装置100と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
ステレオ符号化装置300は、パワ検出部301および遮断周波数決定部302をさらに備え、パワ検出部301の検出結果に基づいて、遮断周波数決定部302がLPF101−1、101−2の遮断周波数を適応的に制御する。
より詳細には、パワ検出部301は、第1チャネル信号S1および第2チャネル信号S2の双方のパワをモニタし、モニタ結果を遮断周波数決定部302に出力する。ここで、
パワとして各サブバンドごとの平均値を使用する。
遮断周波数決定部302は、まず、第1チャネル信号S1について、各サブバンド毎のパワを全帯域に亘って平均し、全帯域の平均パワを算出する。次に、遮断周波数決定部302は、算出された全帯域の平均パワを閾値として、第1チャネル信号S1の各サブバンドのパワを閾値と大小比較する。そして、閾値よりも大きなサブバンドを全て含むような遮断周波数f1を決定する。
第2チャネル信号S2についても第1チャネル信号S1と同様の処理を行い、遮断周波数決定部302は、LPF101−2の遮断周波数f2の値を決定する。そして、遮断周波数f1、f2に基づいて、最終的なLPF101−1、101−2に共通の遮断周波数fcを決定し、LPF101−1、101−2に指示する。これにより、LPF101−1、101−2は、相対的にパワが大きな周波数帯域の成分を全て残して、予測部102に出力することができる。
通常、f1とf2とは同一の値になると考えられるので、遮断周波数決定部302は、f1(またはf2)を最終的な遮断周波数fcとする。もし、f1とf2とが異なる値を示す場合は、情報を安全に残すという観点から、より低域成分が残る方の遮断周波数、すなわち値の大きい方の遮断周波数を採用してfcとする。
このように、本実施の形態によれば、相対的にパワの高い信号を対象として、予測パラメータである遅延時間差および振幅比を求めるので、予測パラメータの算出精度、すなわち予測性能を向上させることができる。
なお、本実施の形態では、入力信号のパワに基づいてローパスフィルタの遮断周波数を決定する例を示したが、例えば、入力信号のサブバンド毎のS/N比を用いる構成としても良い。図8は、本実施の形態の他のバリエーションに係るステレオ符号化装置300aの主要な構成を示すブロック図である。ステレオ符号化装置300aは、パワ検出部301の代わりにS/N比検出部301aを備え、入力信号のサブバンド毎のS/N比をモニタする。ノイズレベルは、入力信号から推定する。遮断周波数決定部302aは、S/N比検出部301aのモニタ結果に基づき、相対的にS/N比の高いサブバンドを全て含むように、ローパスフィルタの遮断周波数を決定する。これにより、周囲騒音が存在する環境下で遮断周波数を適応的に制御することができる。よって、周囲騒音のレベルが相対的に低いサブバンドに基づいて遅延時間差および振幅比を算出することができ、予測パラメータの算出精度を向上させることができる。
また、遮断周波数がフレーム毎に不連続に変動すると、ローパスフィルタ通過後の信号の特性が変化し、τやgの値もフレーム毎に不連続となって予測性能が低下する。そこで、遮断周波数がフレーム間で連続性を保つように、遮断周波数自体の平滑化を行っても良い。
(実施の形態4)
図9は、本発明の実施の形態4に係るステレオ符号化装置400の主要な構成を示すブロック図である。ここでは、入力信号が音声信号であり、また、ステレオ符号化装置400が、モノラル信号の符号化パラメータとステレオ信号の符号化パラメータとを生成するスケーラブル符号化装置である例を示す。
ステレオ符号化装置400の一部の構成は、実施の形態1のバリエーションにおいて示したステレオ符号化装置100aと同一である(図4参照。同一の構成要素には同一の符号を付す。)。しかし、入力信号が音声であるので、ステレオ符号化装置100aにはな
い構成である第1チャネル符号化部410において、音声符号化に適したCELP符号化の手法を第1チャネル信号の符号化に応用できるような工夫が施されている。
具体的には、ステレオ符号化装置400は、第1チャネル信号および第2チャネル信号を入力信号とし、コアレイヤにおいてモノラル信号の符号化を行い、拡張レイヤにおいてステレオ信号のうち第1チャネル信号について符号化を行い、モノラル信号の符号化パラメータおよび第1チャネル信号の符号化パラメータの双方を復号側に出力する。復号側では、モノラル信号の符号化パラメータおよび第1チャネル信号の符号化パラメータを用いて、第2チャネル信号も復号することができる。
コアレイヤは、ステレオ/モノラル変換部110、LPF111、およびモノラル符号化部112を備え、これらの構成は、ステレオ符号化装置100aに示した構成と基本的に同一であるが、モノラル符号化部112はさらに、符号化処理の途中で得られるモノラル信号の駆動音源信号を拡張レイヤに出力する。
拡張レイヤは、LPF101−1、予測部102a、予測パラメータ符号化部104、および第1チャネル符号化部410を備える。予測部102aは、実施の形態1と同様に、モノラル信号の低域成分から第1チャネル信号の低域成分を予測して、生成された予測パラメータを予測パラメータ符号化部104に出力すると共に、駆動音源予測部401にも出力する。
第1チャネル符号化部410は、第1チャネル信号を音源情報と声道情報とに分けて符号化を行う。音源情報については、駆動音源予測部401で予測部102aから出力される予測パラメータを用いて、モノラル符号化部112から出力されるモノラル信号の駆動音源信号を用いて、第1チャネル信号の駆動音源信号を予測する。そして、第1チャネル符号化部410は、通常のCELP符号化と同様に、音源符号帳402、合成フィルタ405、歪み最小化部408等を用いた音源探索を行い、音源情報の符号化パラメータを得る。一方、声道情報については、LPC分析/量子化部404で第1チャネル信号の線形予測分析およびその分析結果の量子化を行い、声道情報の符号化パラメータを得て、これは合成フィルタ405での合成信号の生成に使用される。
このように、本実施の形態によれば、ステレオ/モノラル変換部110で第1チャネル信号および第2チャネル信号からモノラル信号を生成し、LPF111でモノラル信号の高域成分を遮断してモノラルの低域成分を生成する。そして、予測部102aで、実施の形態1と同様の処理により、モノラル信号の低域成分から第1チャネル信号の低域成分を予測して予測パラメータを得、この予測パラメータを用いてCELP符号化に準じた方法により第1チャネル信号の符号化を行い、第1チャネル信号の符号化パラメータを得る。この第1チャネル信号の符号化パラメータは、モノラル信号の符号化パラメータと共に復号側に出力される。この構成により、モノラル−ステレオのスケーラブル符号化装置を実現し、かつ、ステレオ信号の各チャネル間の予測性能を向上させ、復号信号の音質を改善することができる。
(実施の形態5)
図10は、本発明の実施の形態5に係るステレオ符号化装置500の主要な構成を示すブロック図である。ステレオ符号化装置500も、実施の形態1に示したステレオ符号化装置100と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
ステレオ符号化装置500は、閾値設定部501および予測部502を備え、予測部502は、閾値設定部501に予め設定されている閾値φthと相互相関関数φの値とを比
較することにより、この相互相関関数の信頼性を判定する。
具体的には、予測部502は、まず、LPF101−1通過後の第1チャネル信号の低域成分S1’と、LPF101−2通過後の第2チャネル信号の低域成分S2’とを用い、次式(11)で表される相互相関関数φを求める。
Figure 2007052612
但し、相互相関関数φは、各々のチャネル信号の自己相関関数で正規化されているとする。また、nおよびmはサンプル番号を、FLはフレーム長(サンプル数)を示す。式(11)から明らかなように、φの最大値は1である。
そして、予測部502は、閾値設定部501に予め設定されている閾値φthと相互相関関数φの最大値とを比較し、これが閾値以上の場合、この相互相関関数を信頼できるものと判定する。言い換えれば、予測部502は、閾値設定部501に予め設定されている閾値φthと相互相関関数φの各サンプル値とを比較し、少なくとも1点において閾値以上のサンプル点が存在する場合、この相互相関関数を信頼できるものと判定する。図11は、相互相関関数φの一例を示した図である。これは、相互相関関数の最大値が閾値を超える例である。
かかる場合、予測部502は、第1チャネル信号の低域成分S1’と、第2チャネル信号の低域成分S2’との間の遅延時間差τを、上記式(11)で表される相互相関関数の値を最大にするm=mmaxとして求める。
一方、予測部502は、相互相関関数φの最大値が閾値φthに達しない場合、前フレームで既に求まっている遅延時間差τを当該フレームの遅延時間差τとして決定する。図12も、相互相関関数φの一例を示した図である。ここでは、相互相関関数の最大値が閾値を超えない例を示している。
なお、予測部502は、振幅比gについては、実施の形態1と同様の方法により算出する。
このように、本実施の形態によれば、信頼性の高い遅延時間差τを求めるために、相互相関関数の値が信頼できるか否かの判定を行った上で、遅延時間差τの値を決定する。具体的には、遅延時間差を求める際の相互相関関数として、各々のチャネル信号の自己相関関数で正規化されている相互相関関数を使用し、予め閾値を設けておいて、相互相関関数の最大値が閾値以上となる場合、相互相関関数の値を最大にするm=mmaxを遅延時間差として決定する。一方、相互相関関数が全く閾値に達しない場合は、前フレームで求まっている遅延時間差を当該フレームの遅延時間差として決定する。このような構成を採ることにより、遅延時間差をより精度良く求めることができる。
(実施の形態6)
図13は、本発明の実施の形態6に係るステレオ符号化装置600の主要な構成を示すブロック図である。ステレオ符号化装置600は、実施の形態5に示したステレオ符号化装置500と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
ステレオ符号化装置600は、有声/無声判定部601をさらに備え、閾値設定部501の閾値設定のために、ローパスフィルタを通過する前の第1チャネル信号および第2チャネル信号の有声/無声判定を行う。
具体的には、有声/無声判定部601は、第1チャネル信号S1および第2チャネル信号S2の各々を用いて、自己相関関数φSSの値を次式(12)に従って算出する。
Figure 2007052612
ここで、S(n)は第1チャネル信号または第2チャネル信号を、nおよびmはサンプル番号を、FLはフレーム長(サンプル数)を示す。式(12)から明らかなように、φSSの最大値は1である。
有声/無声判定部601には、有声/無声判定のための閾値が予め設定されている。有声/無声判定部601は、第1チャネル信号または第2チャネル信号の自己相関関数φSSの値を閾値と比較し、閾値を超えた場合は有声と判定し、超えなかった場合は有声ではない(すなわち無声)と判定する。すなわち、有声/無声判定は、第1チャネル信号および第2チャネル信号の双方に対し行われる。そして、第1チャネル信号の自己相関関数φSSおよび第2チャネル信号の自己相関関数φSSの双方の値を、例えば平均値をとる等することにより考慮し、これらのチャネル信号が有声であるか無声であるかを決定する。判定結果は、閾値設定部501へ出力される。
閾値設定部501は、有声と判断された場合と、有声と判断されなかった場合とで、閾値設定を変える。具体的には、有声の場合の閾値φを無声の場合の閾値φUVよりも小さく設定する。その理由は、有声音の場合は周期性があるので、ローカルピークとなる相互相関関数の値と、他のローカルピークとならない相互相関関数の値との差が大きいからである。一方、無声音の場合は周期性がないので(雑音的であるので)、ローカルピークとなる相互相関関数の値と、他のローカルピークとならない相互相関関数の値との差が大きくならないからである。
図14は、有声音の場合の相互相関関数の一例を示した図である。また、図15は、無声音の場合の相互相関関数の一例を示した図である。共に、閾値も併せて示している。この図に示すように、有声音と無声音とでは相互相関関数の様相が異なるので、信頼できる相互相関関数の値を採用するために、閾値を設定し、有声性を有する信号と、無声性を有する信号とで、閾値の設定の仕方を変える。すなわち、無声性を示すと判断された信号に対しては、相互相関関数の閾値を大きく設定することにより、他のローカルピークとならない相互相関関数の値との差が大きくない限りは、遅延時間差として採用されないこととなり、相互相関関数の信頼性を高めることができる。
このように、本実施の形態によれば、ローパスフィルタを通過する前の第1チャネル信号および第2チャネル信号を用いて有声/無声判定を行い、有声の場合と無声の場合とで、相互相関関数の信頼度を判断する際の閾値を変える。具体的には、有声の場合の閾値を無声の場合の閾値よりも小さく設定する。よって、遅延時間差をより精度良く求めることができる。
(実施の形態7)
図16は、本発明の実施の形態7に係るステレオ符号化装置700の主要な構成を示すブロック図である。ステレオ符号化装置700は、実施の形態6に示したステレオ符号化装置600と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
ステレオ符号化装置700は、有声/無声判定部601の後段に、係数設定部701、閾値設定部702、および予測部703を備え、有声/無声の判定結果に応じた係数を相互相関関数の最大値に乗じ、この係数乗算後の相互相関関数の最大値を用いて、遅延時間差を求める。
具体的には、係数設定部701は、有声/無声判定部601から出力される判定結果に基づいて、有声の場合と無声の場合とで異なる係数gを設定し、閾値設定部702へ出力する。ここで係数gは、相互相関関数の最大値を基準にして、1未満の正の値が設定される。また、有声の場合の係数gが無声の場合の係数gUVよりも大きくなるように設定される。閾値設定部702は、相互相関関数の最大値φmaxに係数gを乗じた値を閾値φthに設定し、予測部703へ出力する。予測部703は、この閾値φthと相互相関関数の最大値φmaxとの間の領域にピークの頂点が含まれるローカルピークを検出する。
図17は、有声音の場合の相互相関関数の一例を示した図である。また、図18は、無声音の場合の相互相関関数の一例を示した図である。共に、閾値も併せて示している。予測部703は、ピークの頂点が最大値φmaxと閾値φthとの間の領域に存在する相互相関関数のローカルピークを検出し、最大値を示すピーク(図中、丸で囲んだピーク)以外にローカルピークが検出されなければ、相互相関関数の値を最大とするm=mmaxを遅延時間差として決定する。例えば、図17の例では、φmaxとφthとの間の領域にローカルピークが1箇所だけ存在するので、m=mmaxを遅延時間差τとして採用する。一方、最大値を示すピーク以外にもローカルピークが検出されれば、前フレームの遅延時間差を当該フレームの遅延時間差として決定する。例えば、図18の例では、φmaxとφthの間の領域にローカルピークが4箇所存在するので(図中、丸で囲んだピーク)、m=mmaxを遅延時間差τとしては採用せず、前フレームの遅延時間差を当該フレームの遅延時間差として採用する。
有声と無声で係数を変えることにより閾値の設定を変更する理由は、有声音の場合は周期性があるので、通常ローカルピークとなる相互相関関数の値と、他のローカルピークとならない相互相関関数の値との差が大きいので、最大値φmaxの近傍だけを確認すれば良いためである。一方、無声音の場合、通常、周期性がないので(雑音的であるので)、ローカルピークとなる相互相関関数の値と、他のローカルピークとならない相互相関関数の値との差が大きくならないので、最大値φmaxと他のローカルピークとの差が充分にあるかを確認する必要があるためである。
このように、本実施の形態によれば、相互相関関数の最大値を基準にして、最大値に1未満の正の係数を乗じた値を閾値とする。ここで、有声の場合と無声の場合とで、乗じる係数の値を変える(有声の場合の方が無声の場合よりも大きくする)。そして、相互相関関数の最大値と閾値との間に存在する相互相関関数のローカルピークを検出し、最大値を示すピーク以外にローカルピークが検出されなければ、相互相関関数の値を最大とするm=mmaxの値を遅延時間差として決定する。一方、最大値を示すピーク以外にローカルピークが検出される場合は、前フレームの遅延時間差を当該フレームの遅延時間差として決定する。すなわち、相互相関関数の最大値を基準として、相互相関関数の最大値から所定の範囲内に含まれるローカルピークの個数の大小に応じて、遅延時間差を設定する。こ
のような構成を採ることにより、遅延時間差をより精度良く求めることができる。
(実施の形態8)
図19は、本発明の実施の形態8に係るステレオ符号化装置800の主要な構成を示すブロック図である。ステレオ符号化装置800は、実施の形態5に示したステレオ符号化装置500と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
ステレオ符号化装置800は、相互相関関数値保存部801をさらに備え、この相互相関関数値保存部801に保存されている相互相関関数値を予測部802が参照し、実施の形態5に係る予測部502とは異なる動作を行う。
具体的には、相互相関関数値保存部801は、予測部802から出力される平滑化後の最大相互相関値を蓄積し、これを予測部802に適宜出力する。
予測部802は、閾値設定部501に予め設定されている閾値φthと相互相関関数φの最大値とを比較し、これが閾値以上の場合、この相互相関関数を信頼できるものと判定する。言い換えれば、予測部802は、閾値設定部501に予め設定されている閾値φthと相互相関関数φの各サンプル値とを比較し、少なくとも1点において閾値以上のサンプル点が存在する場合、この相互相関関数を信頼できるものと判定する。
かかる場合、予測部802は、第1チャネル信号の低域成分S1’と、第2チャネル信号の低域成分S2’との間の遅延時間差τを、上記式(12)で表される相互相関関数の値を最大にするm=mmaxとして求める。
一方、予測部802は、相互相関関数φの最大値が閾値φthに達しない場合、相互相関関数値保存部801から出力された前フレームの平滑化後の最大相互相関値を用いて、遅延時間差τを決定する。平滑化後の最大相互相関値は次式(13)によって表される。
Figure 2007052612
ここで、φsmooth_prevは前フレームの平滑化後の最大相互相関値を、φmaxは現フレームの最大相互相関値を、αは平滑化の係数であり、0<α<1を満たす定数である。
なお、相互相関関数値保存部801に蓄積された平滑化後の最大相互相関値は、次のフレームの遅延時間差決定の際、φsmooth_prevとして用いられる。
具体的には、相互相関関数φの最大値が閾値φthに達しない場合、予測部802は、前フレームの平滑化後の最大相互相関値φsmooth_prevを予め定められた閾値φth_smooth_prevと比較する。この結果、φsmooth_prevがφth_smooth_prevより大きい場合、前フレームの遅延時間差を現フレームの遅延時間差τとして決定する。逆に、φsmooth_prevがφth_smooth_prevを超えない場合、現フレームの遅延時間差を0とする。
なお、予測部802は、振幅比gについては、実施の形態1と同様の方法により算出する。
このように、本実施の形態によれば、現フレームの最大相互相関値が低い場合に得られた遅延時間差は信頼性も低いため、前フレームでの平滑化最大相互相関値を用いて判定されたより信頼性の高い前フレームの遅延時間差で代用することにより、遅延時間差をより精度良く求めることができる。
(実施の形態9)
図20は、本発明の実施の形態9に係るステレオ符号化装置900の主要な構成を示すブロック図である。ステレオ符号化装置900は、実施の形態6に示したステレオ符号化装置600と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
ステレオ符号化装置900は、重み設定部901及び遅延時間差保存部902をさらに備え、第1チャネル信号および第2チャネル信号の有声/無声判定結果に応じた重みが重み設定部901から出力され、この重みと、遅延時間差保存部902に保存されている遅延時間差とを用いて、予測部903が実施の形態6に係る予測部502とは異なる動作を行う。
重み設定部901は、有声/無声判定部601において有声と判断された場合と、無声と判断された場合とで、重みw(>1.0)を変える。具体的には、無声の場合の重みwを有声の場合の重みwよりも大きく設定する。
その理由は、有声音の場合は周期性があるので、相互相関関数の最大値と、ローカルピークでの他の相互相関関数の値との差が比較的大きく、最大相互相関値を示すシフト量が正しい遅延差であることの信頼性が高いのに対して、無声音の場合は周期性がない(雑音的である)ので、相互相関関数の最大値と、ローカルピークでの他の相互相関関数の値との差が比較的小さく、最大相互相関値を示すシフト量が必ずしも正しい遅延差を示しているとは限らないからである。このため、無声の場合の重みwをより大きく設定し、前フレームの遅延差をより選びやすくすることで、より精度の高い遅延差を求めることができる。
遅延時間差保存部902は、予測部903から出力される遅延時間差τを蓄積し、これを予測部903に適宜出力する。
予測部903は、重み設定部901によって設定された重みwを用いて、遅延差を以下のように決定する。まず、LPF101−1通過後の第1チャネル信号の低域成分S1’と、LPF101−2通過後の第2チャネル信号の低域成分S2’との間の遅延時間差τの候補を上記式(11)で表される相互相関関数の値を最大にするm=mmaxとして求める。相互相関関数は、各々のチャネル信号の自己相関関数で正規化されている。
ただし、式(11)において、nはサンプル番号を、FLはフレーム長(サンプル数)を示す。また、mはシフト量を示す。
ここで、予測部903は、mの値と、遅延時間差保存部902に保存されている前フレームの遅延時間差の値との差分が予め設定された範囲内にあれば、次式(14)に示すように、上記式(11)によって得られる相互相関値に対して、重み設定部901によって設定された重みを乗じる。なお、予め設定された範囲とは、遅延時間差保存部902に保存されている前フレームの遅延時間差τprevを中心に設定される。
Figure 2007052612
一方、mの値が予め設定された範囲外にあれば、次式(15)に示すようになる。
Figure 2007052612
このように求めた遅延時間差τの候補の信頼性を上記式(14)及び上記式(15)によって表される相互相関関数の最大値(最大相互相関値)φmaxにより判定し、最終的な遅延時間差τを決定する。具体的には、閾値設定部501に予め設定されている閾値φthと最大相互相関値φmaxとを比較し、最大相互相関値φmaxが閾値φth以上の場合、この相互相関関数を信頼できるものと判定し、相互相関関数の値を最大にするm=mmaxを遅延時間差τとして決定する。
図21は、相互相関関数のローカルピークが重み付けされることによって最大相互相関値となる場合の一例を示した図である。また、図22は、閾値φthを超えていなかった最大相互相関値が重み付けされることによって閾値φthを超える最大相互相関値となる場合の一例を示した図である。さらに、図23は、閾値φthを超えていなかった最大相互相関値が重み付けされても閾値φthを超えなかった場合の一例を示した図である。図23に示す場合、現フレームの遅延時間差を0に設定する。
このように、本実施の形態によれば、サンプルのシフト量mと前フレームの遅延時間差との差分が所定範囲内である場合、相互相関関数値に重み付けを行うことにより、前フレームの遅延時間差付近のシフト量での相互相関関数値をそれ以外のシフト量での相互相関関数値に比べて相対的により大きい値として評価し、前フレームの遅延時間差付近のシフト量が選ばれやすくなり、これにより、現フレームの遅延時間差をより精度良く求めることができる。
なお、本実施の形態では、有声無声判定結果によって、相互相関関数値に乗じる重みを変える構成として説明したが、有声無声判定結果によらず常に固定の重みを乗じるような構成としてもよい。
なお、実施の形態5から実施の形態9では、ローパスフィルタを通過した後の第1チャネル信号および第2チャネル信号に対する処理を例にとって説明したが、ローパスフィルタ処理を行わない信号に対して実施の形態5から実施の形態9までの処理を適用することも可能である。
また、ローパスフィルタを通過した第1チャネル信号および第2チャネル信号の代わりに、ローパスフィルタを通過した第1チャネル信号の残差信号およびローパスフィルタを通過した第2チャネル信号の残差信号を用いることも可能である。
さらに、ローパスフィルタ処理を行わない第1チャネル信号および第2チャネル信号の代わりに、第1チャネル信号の残差信号および第2チャネル信号の残差信号を用いることも可能である。
以上、本発明の各実施の形態について説明した。
本発明に係るステレオ符号化装置およびステレオ信号予測方法は、上記各実施の形態に限定されず、種々変更して実施することが可能である。例えば、各実施の形態は、適宜組み合わせて実施することが可能である。
本発明に係るステレオ音声符号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。
なお、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るステレオ信号予測方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係るステレオ符号化装置の一部の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
本明細書は、2005年10月31日出願の特願2005−316754、2006年6月15日出願の特願2006−166458及び2006年10月2日出願の特願2006−271040に基づくものである。この内容は全てここに含めておく。
本発明に係るステレオ符号化装置およびステレオ信号予測方法は、移動体通信システムにおける通信端末装置、基地局装置等の用途に適用することができる。
実施の形態1に係るステレオ符号化装置の主要な構成を示すブロック図 第1チャネル信号のスペクトルの一例を示した図 第2チャネル信号のスペクトルの一例を示した図 音声信号またはオーディオ信号の特徴を説明するための図 実施の形態1の他のバリエーションに係るステレオ符号化装置の主要な構成を示すブロック図 実施の形態1のさらなるバリエーションに係るステレオ符号化装置の主要な構成を示すブロック図 実施の形態2に係るステレオ符号化装置の主要な構成を示すブロック図 実施の形態3に係るステレオ符号化装置の主要な構成を示すブロック図 実施の形態3の他のバリエーションに係るステレオ符号化装置の主要な構成を示すブロック図 実施の形態4に係るステレオ符号化装置の主要な構成を示すブロック図 実施の形態5に係るステレオ符号化装置の主要な構成を示すブロック図 相互相関関数の一例を示した図 相互相関関数の一例を示した図 実施の形態6に係るステレオ符号化装置の主要な構成を示すブロック図 有声音の場合の相互相関関数の一例を示した図 無声音の場合の相互相関関数の一例を示した図 実施の形態7に係るステレオ符号化装置の主要な構成を示すブロック図 有声音の場合の相互相関関数の一例を示した図 無声音の場合の相互相関関数の一例を示した図 実施の形態8に係るステレオ符号化装置の主要な構成を示すブロック図 実施の形態9に係るステレオ符号化装置の主要な構成を示すブロック図 相互相関関数のローカルピークが重み付けされることによって最大相互相関値となる場合の一例を示した図 閾値φthを超えていなかった最大相互相関値が重み付けされることによって閾値φthを超える最大相互相関値となる場合の一例を示した図 閾値φthを超えていなかった最大相互相関値が重み付けされても閾値φthを超えなかった場合の一例を示した図

Claims (17)

  1. 第1チャネル信号の低域成分を通過させる第1ローパスフィルタと、
    第2チャネル信号の低域成分を通過させる第2ローパスフィルタと、
    前記第1チャネル信号の低域成分から前記第2チャネル信号の低域成分を予測して予測パラメータを生成する予測手段と、
    前記第1チャネル信号を符号化する第1符号化手段と、
    前記予測パラメータを符号化する第2符号化手段と、
    を具備するステレオ符号化装置。
  2. 前記予測手段は、
    前記予測を行って、前記第1チャネル信号の低域成分と前記第2チャネル信号の低域成分との間の遅延時間差および振幅比に関する情報を生成する、
    請求項1記載のステレオ符号化装置。
  3. 前記予測パラメータを記憶するメモリをさらに具備し、
    前記予測手段は、
    前記メモリに記憶された過去の前記予測パラメータに基づいて、当該予測パラメータを基準として所定範囲内の予測パラメータを生成する、
    請求項1記載のステレオ符号化装置。
  4. 前記第1チャネル信号および前記第2チャネル信号のパワを取得する取得手段と、
    前記第1チャネル信号および前記第2チャネル信号のパワに基づいて、前記第1ローパスフィルタおよび前記第2ローパスフィルタの遮断周波数を決定する決定手段と、
    をさらに具備する請求項1記載のステレオ符号化装置。
  5. 前記第1チャネル信号および前記第2チャネル信号のS/N比を検出する検出手段と、
    前記第1チャネル信号および前記第2チャネル信号のS/N比に基づいて、前記第1ローパスフィルタおよび前記第2ローパスフィルタの遮断周波数を決定する決定手段と、
    をさらに具備する請求項1記載のステレオ符号化装置。
  6. 第1チャネル信号および第2チャネル信号をモノラル信号に変換する変換手段と、
    前記モノラル信号の低域成分を通過させる第1ローパスフィルタと、
    前記第1チャネル信号の低域成分を通過させる第2ローパスフィルタと、
    前記モノラル信号の低域成分から前記第1チャネル信号の低域成分を予測して予測パラメータを生成する予測手段と、
    前記モノラル信号を符号化する第1符号化手段と、
    前記予測パラメータを用いて前記第1チャネル信号を符号化する第2符号化手段と、
    を具備するステレオ符号化装置。
  7. 前記第2符号化手段は、
    前記第1チャネル信号を音源情報と声道情報とに分けて符号化し、前記音源情報の符号化において前記予測パラメータを使用する、
    請求項6記載のステレオ符号化装置。
  8. 前記予測パラメータの平滑化を行う平滑化手段をさらに具備し、
    前記第2符号化手段は、
    平滑化された前記予測パラメータを符号化する、
    請求項1記載のステレオ符号化装置。
  9. 前記第1チャネル信号の低域成分と前記第2チャネル信号の低域成分とを互いにシフトさせ、これら2つの信号の相互相関関数の値を算出する算出手段をさらに具備し、
    前記予測手段は、
    前記遅延時間差に関する情報の生成にあたり、前記相互相関関数の値が閾値以上の場合、当該相互相関関数を最大とするシフト量を遅延時間差とし、前記相互相関関数の値が閾値未満の場合、前フレームの遅延時間差を再度使用する、
    請求項2記載のステレオ符号化装置。
  10. 前記第1チャネル信号および前記第2チャネル信号の有声無声判定を行う判定手段をさらに具備し、
    前記予測手段は、
    前記判定手段の判定結果に基づいて前記閾値を設定する、
    請求項9記載のステレオ符号化装置。
  11. 前記予測手段は、
    前記相互相関関数の最大値が第1閾値以上の場合、当該相互相関関数を最大とするシフト量を遅延時間差とし、前記相互相関関数の最大値が前記第1閾値未満の場合、前フレームの平滑化された相互相関値の最大値が第2閾値以上の場合、前フレームの遅延時間差を現フレームの遅延時間差とし、前フレームの平滑化された相互相関値の最大値が第2閾値未満の場合、現フレームの遅延時間差を0とする、
    請求項9記載のステレオ符号化装置。
  12. 前記予測手段は、
    前記第1チャネル信号の低域成分と前記第2チャネル信号の低域成分とを互いにシフトさせた際のサンプルのシフト量と、前フレームの遅延時間差との差分が所定範囲内である場合、前記相互相関関数の値に重み付けを行う、
    請求項9記載のステレオ符号化装置。
  13. 前記第1チャネル信号および前記第2チャネル信号の有声無声判定を行う判定手段と、
    前記判定手段の判定結果に基づいて前記重みを設定する重み設定手段と、
    をさらに具備する請求項12記載のステレオ符号化装置。
  14. 前記第1チャネル信号および前記第2チャネル信号の有声無声判定を行う判定手段と、
    前記第1チャネル信号の低域成分と前記第2チャネル信号の低域成分とを互いにシフトさせ、これら2つの信号の相互相関関数の値を算出する算出手段と、
    をさらに具備し、
    前記予測手段は、
    前記遅延時間差に関する情報の生成にあたり、前記相互相関関数の最大値から所定範囲内に含まれるローカルピークの数に応じて、前記遅延時間差を設定する、
    請求項2記載のステレオ符号化装置。
  15. 請求項1記載のステレオ符号化装置を具備する通信端末装置。
  16. 請求項1記載のステレオ符号化装置を具備する基地局装置。
  17. 第1チャネル信号の低域成分を通過させるステップと、
    第2チャネル信号の低域成分を通過させるステップと、
    前記第1チャネル信号の低域成分から前記第2チャネル信号の低域成分を予測するステップと、
    を具備するステレオ信号予測方法。
JP2007542732A 2005-10-31 2006-10-30 ステレオ符号化装置およびステレオ信号予測方法 Expired - Fee Related JP5025485B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007542732A JP5025485B2 (ja) 2005-10-31 2006-10-30 ステレオ符号化装置およびステレオ信号予測方法

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
JP2005316754 2005-10-31
JP2005316754 2005-10-31
JP2006166458 2006-06-15
JP2006166458 2006-06-15
JP2006271040 2006-10-02
JP2006271040 2006-10-02
PCT/JP2006/321673 WO2007052612A1 (ja) 2005-10-31 2006-10-30 ステレオ符号化装置およびステレオ信号予測方法
JP2007542732A JP5025485B2 (ja) 2005-10-31 2006-10-30 ステレオ符号化装置およびステレオ信号予測方法

Publications (2)

Publication Number Publication Date
JPWO2007052612A1 true JPWO2007052612A1 (ja) 2009-04-30
JP5025485B2 JP5025485B2 (ja) 2012-09-12

Family

ID=38005765

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007542732A Expired - Fee Related JP5025485B2 (ja) 2005-10-31 2006-10-30 ステレオ符号化装置およびステレオ信号予測方法

Country Status (4)

Country Link
US (1) US8112286B2 (ja)
EP (1) EP1953736A4 (ja)
JP (1) JP5025485B2 (ja)
WO (1) WO2007052612A1 (ja)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8036390B2 (en) * 2005-02-01 2011-10-11 Panasonic Corporation Scalable encoding device and scalable encoding method
CN101548316B (zh) * 2006-12-13 2012-05-23 松下电器产业株式会社 编码装置、解码装置以及其方法
US20100049508A1 (en) * 2006-12-14 2010-02-25 Panasonic Corporation Audio encoding device and audio encoding method
US20100049512A1 (en) * 2006-12-15 2010-02-25 Panasonic Corporation Encoding device and encoding method
WO2008084688A1 (ja) * 2006-12-27 2008-07-17 Panasonic Corporation 符号化装置、復号装置及びこれらの方法
JPWO2008090970A1 (ja) * 2007-01-26 2010-05-20 パナソニック株式会社 ステレオ符号化装置、ステレオ復号装置、およびこれらの方法
JP4708446B2 (ja) 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
US8306813B2 (en) * 2007-03-02 2012-11-06 Panasonic Corporation Encoding device and encoding method
CN101622663B (zh) * 2007-03-02 2012-06-20 松下电器产业株式会社 编码装置以及编码方法
JP4871894B2 (ja) 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
JPWO2008108077A1 (ja) * 2007-03-02 2010-06-10 パナソニック株式会社 符号化装置および符号化方法
US8983830B2 (en) * 2007-03-30 2015-03-17 Panasonic Intellectual Property Corporation Of America Stereo signal encoding device including setting of threshold frequencies and stereo signal encoding method including setting of threshold frequencies
US11217237B2 (en) * 2008-04-14 2022-01-04 Staton Techiya, Llc Method and device for voice operated control
GB2453117B (en) 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
CN101842832B (zh) * 2007-10-31 2012-11-07 松下电器产业株式会社 编码装置和解码装置
EP2237267A4 (en) * 2007-12-21 2012-01-18 Panasonic Corp STEREOSIGNALUMSETZER, STEREOSIGNALWANDLER AND METHOD THEREFOR
WO2009084226A1 (ja) * 2007-12-28 2009-07-09 Panasonic Corporation ステレオ音声復号装置、ステレオ音声符号化装置、および消失フレーム補償方法
US8386267B2 (en) * 2008-03-19 2013-02-26 Panasonic Corporation Stereo signal encoding device, stereo signal decoding device and methods for them
EP2144228A1 (en) * 2008-07-08 2010-01-13 Siemens Medical Instruments Pte. Ltd. Method and device for low-delay joint-stereo coding
JP4516157B2 (ja) * 2008-09-16 2010-08-04 パナソニック株式会社 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
EP2381439B1 (en) * 2009-01-22 2017-11-08 III Holdings 12, LLC Stereo acoustic signal encoding apparatus, stereo acoustic signal decoding apparatus, and methods for the same
CN102292769B (zh) * 2009-02-13 2012-12-19 华为技术有限公司 一种立体声编码方法和装置
CN101848412B (zh) 2009-03-25 2012-03-21 华为技术有限公司 通道间延迟估计的方法及其装置和编码器
KR101320963B1 (ko) * 2009-03-31 2013-10-23 후아웨이 테크놀러지 컴퍼니 리미티드 신호 잡음 제거 방법, 신호 잡음 제거 장치, 및 오디오 디코딩 시스템
EP2439964B1 (en) * 2009-06-01 2014-06-04 Mitsubishi Electric Corporation Signal processing devices for processing stereo audio signals
EP2671221B1 (en) * 2011-02-03 2017-02-01 Telefonaktiebolaget LM Ericsson (publ) Determining the inter-channel time difference of a multi-channel audio signal
JP5949270B2 (ja) * 2012-07-24 2016-07-06 富士通株式会社 オーディオ復号装置、オーディオ復号方法、オーディオ復号用コンピュータプログラム
CN104282309A (zh) 2013-07-05 2015-01-14 杜比实验室特许公司 丢包掩蔽装置和方法以及音频处理系统
EP3155618B1 (en) * 2014-06-13 2022-05-11 Oticon A/S Multi-band noise reduction system and methodology for digital audio signals
US9398374B2 (en) * 2014-08-12 2016-07-19 Cirrus Logic, Inc. Systems and methods for nonlinear echo cancellation
CN106033671B (zh) * 2015-03-09 2020-11-06 华为技术有限公司 确定声道间时间差参数的方法和装置
US10373608B2 (en) * 2015-10-22 2019-08-06 Texas Instruments Incorporated Time-based frequency tuning of analog-to-information feature extraction
US10045145B2 (en) * 2015-12-18 2018-08-07 Qualcomm Incorporated Temporal offset estimation
KR102219752B1 (ko) 2016-01-22 2021-02-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 채널 간 시간 차를 추정하기 위한 장치 및 방법
US10210871B2 (en) * 2016-03-18 2019-02-19 Qualcomm Incorporated Audio processing for temporally mismatched signals
US10433076B2 (en) 2016-05-30 2019-10-01 Oticon A/S Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
DK3252766T3 (da) 2016-05-30 2021-09-06 Oticon As Audiobehandlingsanordning og fremgangsmåde til estimering af signal-til-støj-forholdet for et lydsignal
US10861478B2 (en) 2016-05-30 2020-12-08 Oticon A/S Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
US11483663B2 (en) 2016-05-30 2022-10-25 Oticon A/S Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
CN107742521B (zh) * 2016-08-10 2021-08-13 华为技术有限公司 多声道信号的编码方法和编码器
CN107731238B (zh) * 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
US10555107B2 (en) * 2016-10-28 2020-02-04 Panasonic Intellectual Property Corporation Of America Binaural rendering apparatus and method for playing back of multiple audio sources
EP3416309A1 (en) * 2017-05-30 2018-12-19 Northeastern University Underwater ultrasonic communication system and method
CN109215667B (zh) 2017-06-29 2020-12-22 华为技术有限公司 时延估计方法及装置
WO2020250369A1 (ja) * 2019-06-13 2020-12-17 日本電信電話株式会社 音信号受信復号方法、音信号復号方法、音信号受信側装置、復号装置、プログラム及び記録媒体
EP4133482A1 (en) * 2020-04-09 2023-02-15 Starkey Laboratories, Inc. Reduced-bandwidth speech enhancement with bandwidth extension

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2758189B2 (ja) * 1989-01-31 1998-05-28 株式会社東芝 ステレオ音声伝送システム
NL9100173A (nl) * 1991-02-01 1992-09-01 Philips Nv Subbandkodeerinrichting, en een zender voorzien van de kodeerinrichting.
KR100263599B1 (ko) * 1991-09-02 2000-08-01 요트.게.아. 롤페즈 인코딩 시스템
DE4320990B4 (de) * 1993-06-05 2004-04-29 Robert Bosch Gmbh Verfahren zur Redundanzreduktion
JPH0787033A (ja) * 1993-09-17 1995-03-31 Sharp Corp ステレオ音声信号符号化装置
DE19526366A1 (de) * 1995-07-20 1997-01-23 Bosch Gmbh Robert Verfahren zur Redundanzreduktion bei der Codierung von mehrkanaligen Signalen und Vorrichtung zur Dekodierung von redundanzreduzierten, mehrkanaligen Signalen
JP2003018604A (ja) 2001-07-04 2003-01-17 Matsushita Electric Ind Co Ltd 画像信号符号化方法、画像信号符号化装置および記録媒体
US7191136B2 (en) * 2002-10-01 2007-03-13 Ibiquity Digital Corporation Efficient coding of high frequency signal information in a signal using a linear/non-linear prediction model based on a low pass baseband
JP4528024B2 (ja) 2004-04-28 2010-08-18 富士通株式会社 回路解析方法を実行させるためのプログラム
CN1973319B (zh) * 2004-06-21 2010-12-01 皇家飞利浦电子股份有限公司 编码和解码多通道音频信号的方法和设备
EP1783745B1 (en) 2004-08-26 2009-09-09 Panasonic Corporation Multichannel signal decoding
US20060119382A1 (en) 2004-12-07 2006-06-08 Shumarayev Sergey Y Apparatus and methods for adjusting performance characteristics of programmable logic devices
US7945447B2 (en) 2004-12-27 2011-05-17 Panasonic Corporation Sound coding device and sound coding method
CN101091206B (zh) * 2004-12-28 2011-06-01 松下电器产业株式会社 语音编码装置和语音编码方法
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
JP2006271040A (ja) 2005-03-22 2006-10-05 Yamaha Motor Co Ltd 鞍乗型ハイブリッド車両

Also Published As

Publication number Publication date
US20090119111A1 (en) 2009-05-07
EP1953736A4 (en) 2009-08-05
EP1953736A1 (en) 2008-08-06
JP5025485B2 (ja) 2012-09-12
US8112286B2 (en) 2012-02-07
WO2007052612A1 (ja) 2007-05-10

Similar Documents

Publication Publication Date Title
JP5025485B2 (ja) ステレオ符号化装置およびステレオ信号予測方法
US11282529B2 (en) Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver, and system for transmitting audio signals
JP6306565B2 (ja) 帯域幅拡張のための高周波数符号化/復号化方法及びその装置
KR101092167B1 (ko) 피치-조정 및 비-피치-조정 코딩을 이용한 신호 인코딩
JP5173800B2 (ja) 音声符号化装置、音声復号化装置、およびこれらの方法
US20140032213A1 (en) Adaptive time/frequency-based audio encoding and decoding apparatuses and methods
JP5285162B2 (ja) ピーク検出に基づいた選択型スケーリングマスク演算
US7852792B2 (en) Packet based echo cancellation and suppression
JP5706445B2 (ja) 符号化装置、復号装置およびそれらの方法
KR20130036364A (ko) 하모닉 신호들의 코딩을 위한 시스템들, 방법들, 장치, 및 컴퓨터 판독가능 매체들
US20100169082A1 (en) Enhancing Receiver Intelligibility in Voice Communication Devices
KR20110111443A (ko) 다수 채널 오디오 코딩 시스템 내에서 인핸스먼트 레이어를 생성하기 위한 방법 및 장치
WO2012169133A1 (ja) 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
JP5764488B2 (ja) 復号装置及び復号方法
WO2008070554A2 (en) Systems and methods for dynamic normalization to reduce loss in precision for low-level signals
JP2014507681A (ja) 帯域幅を拡張する方法および装置
KR20160138373A (ko) 부호화 장치, 복호 장치, 부호화 방법, 복호 방법, 및 프로그램
US20130346073A1 (en) Audio encoder/decoder apparatus
JP2014509408A (ja) オーディオ符号化方法および装置
JP5774490B2 (ja) 符号化装置、復号装置およびこれらの方法
JPWO2011048798A1 (ja) 符号化装置、復号化装置およびこれらの方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120529

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120619

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150629

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5025485

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees