JPWO2005036527A1 - スペクトル包絡線符号化のための時間境界及び周波数分解能の決定方法 - Google Patents

スペクトル包絡線符号化のための時間境界及び周波数分解能の決定方法 Download PDF

Info

Publication number
JPWO2005036527A1
JPWO2005036527A1 JP2005514625A JP2005514625A JPWO2005036527A1 JP WO2005036527 A1 JPWO2005036527 A1 JP WO2005036527A1 JP 2005514625 A JP2005514625 A JP 2005514625A JP 2005514625 A JP2005514625 A JP 2005514625A JP WO2005036527 A1 JPWO2005036527 A1 JP WO2005036527A1
Authority
JP
Japan
Prior art keywords
boundary
time
frequency
time boundary
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005514625A
Other languages
English (en)
Other versions
JP4767687B2 (ja
Inventor
コック セン チョン
コック セン チョン
スア ホン ネオ
スア ホン ネオ
田中 直也
直也 田中
則松 武志
武志 則松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2005514625A priority Critical patent/JP4767687B2/ja
Publication of JPWO2005036527A1 publication Critical patent/JPWO2005036527A1/ja
Application granted granted Critical
Publication of JP4767687B2 publication Critical patent/JP4767687B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/667Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using a division in frequency subbands

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

現行SBRフレームのフレームタイプは、先行フレームの終了境界のタイプに応じて決定される。開始境界は、先行SBRフレームの終了境界に応じて決定される。FIXFIXフレームでは、低時間分解能設定が用いられる。FIXVARフレームやVARVARフレームにおいては、中間境界の探索は、過渡事象の境界位置と許容範囲内における最大の終了境界位置との間の領域中において行われる。終了境界はまたこの段階において決定される。より多くの境界を設置することができる場合においては、別の探索が過渡事象の境界と開始境界との間の帯域において行われる。VARFIXフレームにおいては、可変開始境界と固定終了帯域とを境とする全ての領域において、1つの探索のみが行われる必要がある。上述の全ては2つの前方探索処理と1つの後方探索処理を用いて達成される。これらは時間セグメントの信号変化を評価することに基づいた同じ原理が用いられるが、それらが適応される条件に適応させるために、軽度の変更が行なわれる。

Description

本発明は、周波数帯域複製(SBR:Spectral Band Replication)のようなサブバンド符号化手法に関する帯域幅延長技術のための時間境界や周波数分解能を決定する体系化されたセグメント化に関する。特に、時間境界と周波数境界とを区分して、各フレームをサブバンド符号化に適したセグメントに分割する方法に関する。
SBR等の帯域幅拡張方法に基づいたサブバンド符号化において、時間方向と周波数方法の両方において適切な分割は、低エネルギーエリアが同じ平均エネルギー値を共有することを防止するために重要となる。この問題により、デコーダにおいて好ましくない増幅が行われ聴覚的に認識できる異音が発生する可能性がある。
音声符号化の目的は、音声符号化装置においてデジタル化された音声ストリームを圧縮したビットストリームに変換することであり、その結果、復号化器におけるビットストリームの処理後においても、できるだけ原音に近い音質を保つことにある。よく知られた圧縮法は、図1に示される通りである。図1は、復号化器と符号化器からなる典型的な音声符号化システムを示す。モジュール1000は、時間領域の音声信号を連続したフレームに分割し、モジュール1010は、音声信号の各フレームを周波数帯域に変換し、モジュール1020は、所定の周波数(ハンド帯として知られる)まで周波数帯域を量子化する。図2は、音声符号化における典型的な時間/周波数格子図である。モジュール1010が音声信号を周波数帯域に変換する1つの可能な方法は、図2に示すような時間/周波数格子を用いる手法である。図2において、フィルタバンクは、音声信号を多重のサブバンドに分割するためのものであり、各サブバンドは時間領域での狭い周波数範囲内の信号の一部を代表している。復号化器においては、音声周波数帯域は、モジュール1030によって逆量子化され、モジュール1040において音声フレームに変換される。そして、音声フレームはモジュール1050において連続する音声ストリームを適切に形成するために組み立てられる。
符号化のビットレート(各秒におけるビット数)が減少するに伴って、高周波帯域は聴覚的には低周波帯域ほど重要でないとみなされる。そのため、高周波帯域を符号化しないことにより、伝送される音声信号の帯域幅に犠牲が生じる。その結果、いくつかの高周波数音と低周波数音の倍音構造が実現されなくなる。図3は、ビットレートにおける帯域幅の限定が高周波数長や調和の損失を起こすことを示す図である。図3は、上述の帯域制限処理を示すものであり、2020は符号化された音声の帯域幅の結果を示すものである。
帯域幅拡張の目的は、高周波帯域を非常に少ない追加的なビットを用いて音声信号を符号化することにより、高周波帯域を回復することである。この技術の1つとして、SBR法(国際公開WO98/57436)があり、これは今MPEG標準となっている(ISO/IEC 14496−3.2001 AMD1)。図4は、帯域幅拡張のためのサブバンド符号化機能を有する符号化器の例を示す図である。図4は、この発明に関連するSBR法の符号化器の構成を示すものである。最初に、音声信号は、3010の分析フィルタバンクにおけるN個のサブバンドフィルタを用いてN個のサブバンドに帯域分割され、各分析フィルタは信号のある周波数範囲を取り出す。このフィルタによって生成されるN個の信号は、冗長性を除くために間引かれる。帯域幅拡張符号器3020は、フィルタ出力から幾つかの情報を抽出し、結果、復号化器において、低周波サブバンドの音声信号の帯域幅を拡張するための情報として用いられる。帯域幅拡張情報は、ビットストリームを形成するために、低周波サブバンドの音声信号を符号化するコアコーデック3000からの出力と共にビットストリーム多重化器3030において多重化される。通常のSBRフレームはLサンプルのサブバンドフィルタ出口によって構成される。
図5は、帯域幅拡張のためのサブバンド符号化機能を有する復号化器を示す図である。図5は、本発明に関連するSBR法の復号化器を示す。最初に、4000においてビットストリームは中核音声ビットストリーム及び帯域幅拡張ビットストームになるように逆多重化される。中核復号化器4010は、時間領域において帯域制限された音声信号を生成するために中核音声ビットストリームを復号化する。帯域制限音声信号は、4020の分析フィルタバンクのM個のサブバンドフィルタを用いてM個のサブバンドに帯域分割される。高周波サブバンドは、このサブバンドレベルにおいて帯域幅拡張情報を用いて合成される。新たな高周波サブバンドは、低周波サブバンドも同じように、アップサンプリングされ、N個のフィルタを持つ最終的な帯域幅拡張信号を出力する合成フィルタバンク4040で合成される。
分析フィルタバンク3010からの出力は、図2の音声信号の時間/周波数格子図において見ることができる。帯域幅の拡張情報の一部として、時間/周波数格子図は、最初に時間軸中に示す時間セグメントに分割され、それから、周波数軸中に示す周波数帯域に分割される。各周波数帯域は、その平均的なエネルギーが計算され、量子化され、そして符号化される。この過程は、スペクトル包絡線符号化として知られている。すなわち、スペクトル包絡線符号化において、音声信号は、時間軸と周波数軸とで形成される2次元平面上の各セグメントにおける平均エネルギーの分布によって表される。図6は、時間方向及び周波数方向のセグメントを示す図である。図6は、そのような分割過程を示すものであり、IPP(WO01/26095A1)に示されている。図においては、5010は、時間軸方向の分割を示す。5020は、周波数軸方向の分割を示す。復号化器においては、この処理で生成されるデータは、合成された高周波帯域のエネルギーを形付けるために用いられ、結果、原音の音声信号と同様のエネルギー包絡線を取得する。適切な分割なしには、低エネルギーエリアは高エネルギーエリアと同じ平均エネルギー値を共有することが強いられることとなるだろう。また、視聴的に感知できる異音に至るかもしれない誤った増幅が復号化器において生じるかもしれない。
各SBRフレームは境界を用いて時間軸中において時間断片に部分化される。従来技術においては、効率的なスペクトル包絡線符号化を達成するために、固定や可変境界が用いられる。図7は、4つのフレームタイプの境界関係を示す図である。図7を参照すると、固定された境界6060、6070、6100は規定のSBRフレームである境界6010、6020、6050と一致する。そして、現フレームの境界6080、6090は次の規定のSBRフレーム中に侵食することを許容範囲内とする。可変SBRフレームの開始境界と終了境界とのどちらかは、固定境界又は可変境界となることができる。開始境界と終了境界の両方が固定境界である場合においては、可変SBRフレームは規定のSBRフレームと一致することとなる。現行のSBRフレームの終了境界は自動的に次のSBRフレームの開始境界となる。
開始境界と終了境界の間においては、従来技術によれば、SBRフレームは、さらに中間境界により、幾つかの時間セグメントに部分化される。開始境界と終了境界が共に固定された境界である場合においては、SBRフレームは一様な時間セグメントに分割される。これは、従来技術においてはFIXFIXフレーム(すなわち、開始境界としてのFIX境界や終了境界としてのFIX境界)として知られる。図8は、固定開始境界及び固定終了境界を用いるFIXFIXフレームを示す図である。図8に示されるように、7010は開始境界であり、7020は終了境界である。閾値検出部が現行のSBRフレーム中に過渡事象領域を検出する場合においては、その終了境界は次の規定のSBRフレームと等しいか又はより大きくなくてはならない可変境界となる。
図9は、固定開始境界、規定のSBRフレーム境界よりも大きい可変終了境界、そして最終境界との相関、又はお互いの相関により特定される幾つかの中間境界を用いるFIXVARフレームを示す図である。このフレームは開始境界8010としてFIX(固定)境界を持ち、終了境界8050としてVAR(可変)境界を持つ。中間境界8020、8030、8040は、お互いに、若しくは前記可変境界に対して相対的に特定され、ここでd0,d1,d2等は相対境界距離である。図9においては、最初の相対距離d0は可変境界より開始しなければならない。連続する相対距離は先に決められた中間境界より開始する。
現行のSBRフレームの終了境界は、自動的に次のSBRフレームの開始境界となるため、連続したSBRフレーム中の過渡事象の振る舞いにおいては、SBRフレームが2つの可変境界を持つことも可能となる。図10は、そのようなフレーム、つまり、可変開始境界、規定のSBRフレーム境界よりも大きい可変終了境界、そして2つの最終境界との相関、又はお互いの相関により特定される幾つかの中間境界を用いるVARVARフレームを示す図である。VARVARフレームにおいては、中間境界は可変境界のいずれか1つを用いて相対的に特定される。この図においては、中間境界9020は開始境界9010と相対的に決定され、中間境界9030、9040、9050はお互い、若しくは可変終了境界9060に対して相対的に決定される。
最後に、可変境界から開始しているが、過渡事象検出部が現行のSBRフレーム中に過渡事象を検出できない場合においては、終了境界として固定境界を適用する。これは従来技術で紹介されている最終フレーム種別である。図11は、そのようなフレーム、つまり、可変開始境界、固定終了境界、そして開始境界との相関、又はお互いの相関により特定される幾つかの中間境界を用いるVARFIXフレームを示す図である。ここで、10010は可変開始境界であり、10050は固定終了境界である。10020,10030,10040はd0,d1,d2から漸次導出された中間境界を構成する。
ビット消費を削減するために、中間境界と可変境界の間の相対境界距離は、2〜3の予め決められたサイズのみをとることができる。
上述した境界によって定められるいくつかの時間セグメントを設定した後、2つの境界に挟まれる各時間セグメントは、周波数軸方向での周波数帯域に分割される。実際のスペクトルの境界は、本発明とは無関係な方法で導出される。図12は、高分解能時間セグメントと低分解能時間セグメントとの間の境界の関係を示す図である。図12は2つの取り得る分解能である高分解能分割と低分解能分割との間の境界関係を示している。低分解能分割の境界と高分解能分割の境界とは相互可変となる。
現行SBRフレームにおいては、先行SBRフレームの終了境界に基づく開始境界の決定や、閾値検出部を用いた過渡事象境界の決定に従って、終了境界や全ての中間境界を決定するのに、ある手法が必要とされる。すなわち、終了境界や全ての中間境界を決定するために、工夫が必要なのである。
この問題は単純ではない。というのも、上述したように、全ての中間境界diはお互いに若しくは可変境界に対して相対的に特定され、そして、全ての相対距離は2〜3の予め決められたサイズ(di[D1,D2,D3,D4],with0<D1<D2<D3<D4.)のみをとることができる。さらに、規格上、予め定められた数の中間境界しか設置することはできない。FIXVARフレームやVARVARフレームタイプにおいては、終了境界は規定のSBR境界と等しいか、より大きなものでなければならない。したがって、全ての課される制約を満たす体系的な手法が必要とされる。すなわち、時間/周波数格子符号化を行うシステムでは、このように課されたすべての制約を満足しながら、かつ、符号化効率が高くなるように中間境界および終了境界を決定しなければならない。
従来技術において用いられるスペクトル符号化手法においては、低時間分解能だが高スペクトル分解能(例えば、2〜3の時間セグメントに対して、多くの周波数帯域に渡って周波数スペクトルを導出すること)に頼るものである。過渡事象が検出される場合において、従来技術においては、過渡事象の後の帯域を符号化するために、高時間分解能だが、低スペクトル分解能(例えば、多くの時間セグメントに対して、少ない周波数帯域の周波数スペクトルを導出すること)に変更している。分解能のレベルを変更するのは、過渡事象はスペクトル変化より時間変化を示す傾向があると考えられるからである。周波数分解能を低くすることは、ビット消費における急激な増加を防止することができる。しかし、この方法は、後の過渡事象帯域が、例えばトーン信号の急激な発生を表すような、より高度な分解能を必要とする大きいスペクトル変化を示す場合においては充分なものではない。
<時間境界の決定>
時間境界を決定するためには、本発明においては、復号化器により課される全ての規格上の制約を考慮に入れて、終了境界や全ての中間境界を決定する体系的な手法を提供することを目的とする。
従来技術のように、現行のSBRフレームのフレームタイプは、先行フレームの終了境界のタイプや、現行SBRフレームの過渡事象の存在に応じて決定される。開始境界もまた、先行SBRフレームの終了境界に従って決定される。
FIXFIXフレームにおいては、低時間分解能の設定が用いられる。すなわち、図8に示したように時間幅dの等間隔で中間境界が設定される。
フレーム中において過渡事象が発生するFIXVARフレームやVARVARフレームにおいては、可能な中間境界の探索は、過渡事象時間位置の後の領域中において最初に実施される。終了境界もまたこの段階において決定される。それから、最初の段階で既に許容範囲内における境界の最大数を使い果たしていない場合においては、過渡事象の位置に対して時間的に前の領域において中間境界を設定できるかどうかの探索が行われる。
VARFIXフレームにおいては、1つの探索が可変開始境界と固定終了境界とを境とする全ての領域中において実行される必要がある。
上述の全ては、2つの前方探索処理と1つの後方探索処理により達成される。これらは同じ原則を用いている。それは、時間セグメントの信号変化を評価することに基づくが、適応されるシナリオに適合するために少しずつ異なっている。
<周波数分解能の決定>
周波数分解能を決定するために、本発明は、スペクトル方向中でエネルギー変化を客観的に評価する適応的な方法を提供する。
低分解能区分の境界は高分解能区分の代替的な境界であるので、高分解能が最初に仮定され、平均エネルギーは各周波数帯域において計算される。低分解能境界を境とする周波数帯域の全てのペアのために、エネルギー比が計算される。全ての時間区分において計算された全てのエネルギー差の最小値が予め決められた閾値を超えているような場合においては、高周波数分解能が採用される。そうでない場合においては、低周波数分解能が採用される。後の過渡事象の領域中で高時間分解能を与える重要性に鑑みて、この方法は、この領域において高周波数分解能を適用するための厳密な判定基準を採用している。
本発明のスペクトル包絡線符号化の時間境界及び周波数分解能の決定方法は、時間/周波数格子を用いた音声信号のスペクトル包絡線符号化において時間境界及び周波数分解能を決定する方法であって、包絡線データにおける先行フレームの終了時間境界から現行フレームの開始時間境界を導出し、前記開始時間境界と所定の許容範囲内における終了時間境界との間のスペクトルデータ中から、過渡事象検出部により、一定以上に程度が大きい過渡事象の時間位置を検出し、前記過渡事象の大きさを、所定の信号変化基準と比較することにより、前記許容範囲内における現行フレームの終了時間境界と前記過渡事象の時間位置との間のスペクトルデータ中の中間時間境界及び実際の終了時間境界を見つけ出して具体値化する。従って、時間境界決定方法によって、時間方向中のエネルギーの変化を評価することで前と後の過渡事象領域のフレーム分割を実行する好ましい体系的な手法が実現される。この方法においては、全ての課せられた規格上の制約を考慮したうえで、過渡事象よりも後ろの領域を優先することにより、あるいは、過渡事象よりも遠い領域に対してより近い領域を優先することによって良い音質が実現されている。
また、本発明において適応される周波数分解能の決定方法は、過渡事象よりも後ろの領域における周波数方向のエネルギー分布を検出する。中間時間境界および前記終了時間境界による分割で取得された各時間セグメントについて、所定の周波数で示される低分解能境界を境とする全ての周波数帯域のエネルギーを評価することにより、前記時間セグメントにおける周波数分解能を導出する。この方法では、エネルギー分布に大きな変化が発見される場合においては、高分解能分割を用いる。本発明に係る2つの方法を同時に用いることにより、SBR技術の時間−周波数図の分割の好ましく、かつ、簡単に実現することが可能な手法が提供される。
なお、本発明は、このようなスペクトル包絡線符号化の時間境界及び周波数分解能の決定方法として実現することができるだけでなく、それらのステップをコンピュータに実行させるプログラムとして実現したりすることもできる。さらに、これらのステップを集積回路などに組み込んだ音響符号化装置および音響復号化装置として実現することもできる。そして、そのようなプログラムは、CD−ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。
図1は、典型的な音声符号化システムを示す図である。
図2は、音声符号化における典型的な時間/周波数格子図である。
図3は、ビットレートにおける帯域幅の限定が高周波数長や調和の損失を起こすことを示す図である。
図4は、帯域幅拡張のためのサブバンド符号化機能を有する符号化器の例を示す図である。
図5は、帯域幅拡張のためのサブバンド符号化機能を有する復号化器を示す図である。
図6は、時間方向及び周波数方向のセグメントを示す図である。
図7は、4つのフレームタイプの境界関係を示す図である。
図8は、固定開始境界及び固定終了境界を用いるFIXFIXフレームを示す図である。
図9は、固定開始境界、規定のSBRフレーム境界よりも大きい可変終了境界、そして最終境界との相関、又はお互いの相関により特定される幾つかの中間境界を用いるFIXVARフレームを示す図である。
図10は、可変開始境界、規定のSBRフレーム境界よりも大きい可変終了境界、そして2つの最終境界との相関、又はお互いの相関により特定される幾つかの中間境界を用いるVARVARフレームを示す図である。
図11は、可変開始境界、固定終了境界、そして開始境界との相関、又はお互いの相関により特定される幾つかの中間境界を用いるVARFIXフレームを示す図である。
図12は、高分解能時間セグメントと低分解能時間セグメントとの間の境界の関係を示す図である。
図13は、本発明に係る時間境界決定部の全体を示すフローチャートを示す図である。
図14は、4つのフレームタイプの可変部中における3つの探索タイプの使用を示す図である。
図15は、前方探索(タイプ1)処理のフローチャートを示す図である。
図16は、前方探索(タイプ2)処理のフローチャートを示す図である。
図17は、後方探索処理のフローチャートを示す図である。
図18は、本発明に係る周波数分解能決定部を示すイラスト図である。
下記に述べる方法は、SBRの文脈中で説明された例である。しかし、本発明の適応範囲は、時間/周波数格子に基づいたスペクトル包絡線符号化方法を利用しているどのような形態にも拡張されるものである。
3.5.1 時間境界の決定
時間境界の決定の実施例は、図13から17までの一連のフローチャートにおいて示されている。
3.5.1.1 概要
図13は、本発明に係る時間境界決定部の全体を示すフローチャートを示す図である。図13は、全ての時間境界の決定処理の全体図を示す。12010において、先行SBRフレームの終了境界に最初のborder[0]を設定し、また、境界カウンターのnoBorderを1に初期化する。12020において、過渡事象検出部を現行フレームにおいて作動させる。border0から(次の規定のSBR境界+V)までで最も急激な過渡事象の振る舞いを検出するためである。これにより、現行フレーム内における過渡事象の有無を検出する。ここでVは、構成によって許容される次のSBRフレームの中に入り込む量である。
過渡事象が見つかれば、12030において、先行SBRフレームの終了境界の種別を確認する。それが固定境界であれば、現行フレームは12050中においてFIXVARタイプとなる。それが可変境界であれば、現行フレームは12090中においてVARVARタイプとなる。いずれのケースにおいても、過渡事象の位置を示す境界はborder1中に登録され、現行フレーム内の境界の数を示すnoBorderはインクリメントされて増加する。
過渡事象が見つからない場合においては、12040において、先行SBRフレームの終了境界の種別を確認する。それが固定境界であれば、現行フレームは12130中においてFIXFIXタイプとなる。可変境界であれば、現行フレームは12150中においてVARFIXタイプとなる。
現行フレームがFIXVARである場合においては、12060において、中間境界の必要性を確認するために、前記過渡事象と(次の規定のSBR境界+V)との間の領域を確認する。3.5.1.2において述べる前方探索(タイプ1)の方法はこの目的のために用いられる。前方探索の最後において、12070で、境界数noBorderが確認される。noBorderが境界数として許容される最大値MaxBorderよりも少ない場合においては、12080において、前記過渡事象及び開始境界の間の領域を確認するために後方探索を用い、必要であるならばより多くの中間境界を具体値化する。上述のシーケンス処理は、過渡事象位置よりも後ろの領域で検出される中間境界を優先する。
現行フレームがVARVARである場合においては、12100において、中間境界のための可能性ある必要性のために、3.5.1.2において述べる前方探索(タイプ1)の方法を用いて、前記過渡事象と(次の規定のSBR境界+V)との間の領域を確認する。前方探索の最後において、12110中において、noBorderが確認される。noBorderが境界数として許容される最大値MaxBorderよりも少ない場合においては、12120において、前記過渡事象及び開始境界の間の領域を確認するために別の前方探索(タイプ2)を用い、必要であるならばより多くの中間境界を具体値化する。上述と同様となるが、上述のシーケンス処理は、過渡事象位置よりも後ろの領域で検出される中間境界を優先する。
現行フレームがFIXFIXである場合においては、12140において、低時間分解能の設定を選択する。より詳細は3.5.2において述べる。
現行フレームがVARFIXである場合においては、12160において、中間境界の必要性を確認するために開始境界と次の規定のSBRフレーム境界との間の領域を確認する。上記の前方探索(タイプ1)方法はこの目的のために用いられる。
上述した各処理の4つ分岐は、12170において後の処理のために検出した境界を昇順に並べ換えて終了する。
図14は、4つのフレームタイプの可変部中における3つの探索タイプの使用を示す図である。図14は、4つのフレーム種別中における3つの探索タイプの使用を描画するものであり、ここで17010と17020は前方探索処理(タイプ1)を示し、17040と17050は前方探索処理(タイプ2)を示し、17030は後方探索処理を示す。
過渡事象位置よりも後ろの領域は、上述の実施例において、中間境界決定処理中で優先されるが、信号変化を評価することにより、どのような領域が優先されるかを選択することも可能となる。信号変化が過渡事象よりも前の領域において、より大きいような場合においては、過渡事象よりも前の領域が優先され、また、信号変化が過渡事象よりも後の領域において、より大きい場合においては、過渡事象の後ろの領域が優先される。
3.5.1.2 前方探索(タイプ1)
この前方探索法(タイプ1)は、過渡事象の位置から開始し、まだ決定していない可変境界において終了する領域のために設計されている。その目的は、中間境界と終了境界を定めることにある。3つの入力されるパラメータであるborder1、border2、noBorderLimitは、(border1とborder2との間の)探索領域を設定するために図13の12060と12100に従って初期化されなければならない。また、noBorderLimitは許される最大の境界数に初期化される。
図15は、前方探索(タイプ1)処理のフローチャートを示す図である。図15には、この方法のフローチャートを示す。この方法は、時間セグメントの左境界と右境界を表現するために、2つの中間の変数iとjを用いる。セグメントの左境界をiとし、右境界をjとする。kは現行時間セグメントの相対境界距離Dkを参照するために用いる。全ての相対距離は予め決められたサイズ(di[D1,D2,D3,D4],with0<D1<D2<D3<D4.)のみをとることができるからである。13010において、iとkをi=border1、k=2に初期化する。border1は、過渡事象の時間位置である。すなわち、13010では、過渡事象の時間位置を示す境界i=border1から、前方に時間セグメントの相対境界距離D2の位置に中間境界jを決定することを予定している。13020において、iがまだ規定のSBRフレーム境界より下か否か(すなわち、過渡事象の時間位置が、現行フレームとすべき規定のSBRフレーム境界を越えていないか否か)を判定する。また、境界数noBorderが境界数の上限であるnoBorderLimitを超えていないかを判定する。超えていない状態においては、より多くの中間境界がまだ具体値化されることができる。そこで13030中において、隣の可能な端部である現行時間セグメントj=i+D2に設定する。すなわち、過渡事象の時間位置から幅D2の幅をもつ中間境界が設定可能かどうかを調べる。13040中において、j<=border2か否かの判定を行う。すなわち、jで表される中間境界が現行フレームの終端となる(規定のSBR境界+V)を超えていないかを判定する。
noの場合においては、Dk(ただし、Dk=D2)は有効な相対境界距離ではなくなる。この方法では、13090中において、k=k−1とすることにより、以前の相対境界距離D(k−1)、すなわち、D1に逆戻りし、i+Dkすなわち、j=i+D1に新しい境界jを登録する。境界の数はnoBorderを増加することにより更新される。この方法によれば、13040中において「no」の選択を経て、13100に至るならば、最後に登録される境界は、このSBRフレームの可変終了境界となる。
一方、13040中において「Yes」を選択する場合においては、それは新たな境界が必要か否かを判定するための信号変化基準を評価するための処理に進む。しかし、Dkが既に相対境界距離(本例においてはD4)として許容範囲内における最大である場合においては、すなわち、13050のように相対化境界距離を最大幅にしてしまう場合には、13050中において反映するように、信号変化基準は評価される必要はない。というのも、このようにした場合、新たな境界は強制的に決めるためである。13050中において「Yes」を選択する場合においては、新たな境界を登録するために、直接13100に至ることとなる。
DkがまだD4でない場合においては、13050はnoであり、以下に示す変数peak_ratioはiと(j−1)の間で示される領域のために13060中において評価される。新たな中間境界を決定するための基準は、全ての時間セグメントの平均エネルギーと、各時間位置のエネルギー比とを確認することに基づく。それは13070中において下記の式で実行される。
Figure 2005036527
この式において、
ETmは時間位置mのエネルギーである。
ETはiから(j−1)までにおいて計算された全ての時間位置の平均エネルギーである。
Tr1は予め定められた閾値である。
別の可能な信号変化基準として、下記の最大及び最小のエネルギー値を比較することに基づいてもよい。
Figure 2005036527
最後に、信号変化基準として、下記の絶対振幅の最大値及び最小値を比較することに基づいてもよい。
peak_ratioが閾値Tr1を超える場合においては、大きな信号変化により新たな境界が決定される。しかし、現行のDkが、より大きな信号変化を引き起こすならば、D(k−1)は望まれる相対境界距離となるべきである。結果として、13090において、kの値は減算され、13100において、新たな境界が登録される。
Figure 2005036527
peak_ratioが上記閾値Tr1を越えない場合においては、信号変化は、十分に穏やかであると考えられ、従って、13080中において、より時間幅の大きなDkが、まずkの値を増加させた後、jを調整することによって適用される。すなわち、信号変化の小さい場所ではより大きな時間間隔で境界を作成する。
この処理は最終的に13020中において「no」の選択がなされるまで繰り返される。それから、全てのnoBorderLimitが使用されているにも関わらず、可変終了境界となるであろう終了境界が、まだ規定のSBRフレーム境界以下であるか否かを確認するための13110に進む。このステップは重要であり、というのも、SBR構成は、標準値のSBRフレーム境界と等しいか又は大きい終了境界を要求するためである。終了境界が規定のSBRフレームよりも小さくなければ、処理は安全に終了する。終了境界が規定のSBRフレームよりも小さい場合においては、この方法は、終了境界が前記要求を満たすまで相対境界距離を拡張する処理を開始する。
この相対境界距離を拡張する1つの可能な方法は、最初の過渡事象の境界から最も離れた相対境界距離を犠牲にすることによって実現される。13120から開始して、iは終了境界を参照するために初期化される。13130中において、border iとborder(i−1)の間の相対境界距離を引き続いて確認する。この相対境界距離がD4よりも小さくない場合においては、この相対境界距離は拡張できないために、iは減少され、その結果、border(i−1)とborder(i−2)の間の相対境界距離が確認される。しかし、その相対境界距離がD4よりも低いような場合においては、border iとborder(i−1)の間の相対距離は13160中において拡張される。この処理は、13170中において検証されるように、終了境界が規定のSBRフレーム境界より大きいか、等しくなるまで繰り返される。
相対境界距離を拡張する1つの可能な方法は、より多くの処理を必要とする方法である。それは、境界の間の全ての相対境界距離を増加させ、新たな境界間の信号特性を確認し、境界間の信号変化が最小となる境界において相対距離を増加させる。そして、この処理は終了境界が規定のSBRフレーム境界と等しいかより大きくなるまで繰り返される。しかし、経験的に、最小の変化をしている領域は、過渡事象境界から最も離れた領域である。その理由は、過渡事象境界に近い領域が最も変化しているならば、この特性は過渡事象境界に近くに位置して存在する中間境界の存在によって既に捉えられているからである。
3.5.1.3 前方探索(タイプ2)
この前方探索法(タイプ2)は、可変境界又は固定境界と共に開始し、また既に決定された境界で終了する帯域において設定される。タイプ1の前方探索法とは異なり、目的は中間境界を決定することのみを目的とする。3つの入力されるパラメータ、border1、border2、noBorderLimitは、探索領域及び許容範囲内における境界の最大数を設定するため、図13の12120及び12160に従って初期化されなければならない。
図16は、前方探索(タイプ2)処理のフローチャートを示す図である。図16にこの方法のフローチャートを示す。原則的に、2つの前方探索方法は同じとなる。従って、14010から14100の処理においては、図15の13010から13100の処理と、幾つかの例外を除けばほとんど同様である。
14020において、現行時間セグメントの先頭端が、次の規定のSBRフレームより小さいかを確認する代わりに、前記先頭端がborder2−D2より小さくなるかを確認することが新たな制約となる。
14020中において「no」を選択する場合においては、処理は終了する。すなわち、図15に13110以降の処理とは異なり、幾つかの相対境界距離を拡張する処理を必要とはしない。というのも終了境界は見つける必要がないためである。
同様に、14040中では、現行時間セグメントの後端がborder2を越えるならば、終了境界は必要がないので、新たな境界をi+D(k−1)(図15の13040から13090までの枝分かれに示されるように)に登録せずに、すぐに終了する。
14100中では、新たな境界のpeak_ratioは、それが初期化される際には保存されなければならない。これは14110中において冗長な境界を取り除くためである。これらの冗長な境界は、現行フレームにおける時間セグメント長を許される最大値に設定するために作成されることがある。というのも、各境界の位置は相互の相対位置で表されるために、次に境界を設定するために便宜的に冗長な境界を設置する必要が生じる場合があるためである。しかし、これが終了境界であれば、それは問題を引き起こすことなく取り除かれることができる。
3.5.1.4 後方探索
この後方探索方法は、過渡事象と共に開始する境界と開始境界と共に終了する境界の領域のために設定される。3つの入力されるパラメータ、border1、border2、及びnoBorderLimitは、探索帯域及び許容範囲内における最大数を設定するための図13の12080中に従って初期化されなければならない。
図17は、後方探索処理のフローチャートを示す図である。原則的に、この方法は前方探索(タイプ2)と同様となる。従って、逆方向で実行される処理を除いて、15010から15110までの処理はほとんど14010から14110までの処理と同じとなる。iに相対するjを増加する代わりに、後方探索においてはiに相対するjを減少させる。
具体的には、14020中でi<=border2−D2とする代わりに、15020において、i>=border2+D2とする。というのもiは徐々に開始境界(すなわち、border2)に近づくためである。 14040中でj<=border2とする代わりに、上記同様の理由により、15040において、j>=border2とする。
14060中で時間位置iからj−1の間のpeak_ratioを計算する代わりに、15060において、時間位置jからi−1の間のpeak_ratioを計算する。
14030と14080中でのj=i+Dkを計算する代わりに、15030と15080においてj=i−Dkを計算する。
最後に、14100中でi=i+Dkを計算する代わりに、15100中ではi=i−Dkを計算する。
3.5.2 FIXFIXにおける低時間分解能
FIXFIXフレームはその近傍中に過渡事象の特性を有していない。そこで、符号化ビットを削減するために少ない時間境界を使うことが論理的となる。SBRにとって、FIXFIXフレームのための時間/周波数図は選択された境界の数に基づいて均一的に中間境界により分割される。境界の数を選択する簡単な方法は、境界の最も低い数を使用してみて、形成される時間セグメントのpeak_ratioを評価することである。peak_ratioのいずれもがある閾値を越える場合においては、より多くの数の境界が必要とされ、形成される各時間セグメントのpeak_ratioの評価は繰り返される。形成される全時間セグメントのpeak_ratioがある閾値よりも低くなる場合において、又は境界の最大数に至る場合において、処理は終了する。
3.5.3 周波数分解能の決定
周波数分解能の決定の実施例は、図18中に参考図として示される。図18は、本発明に係る周波数分能決定部を示すイラスト図である。低分解能分割の境界は高分解能分割の境界を1つおきにとったものとなる。
最初に、高周波数分解能が適用されることを前提とすると、時間セグメント中の全ての周波数帯域の平均エネルギーが計算される。平均エネルギーはEiを用いて示す。
図18において、高周波数分解能の境界が「偶数」で表される場合においては、下記の式を満たすことにより高周波数分解能が選択される。そうでない場合においては、低周波数分解能が選択される
Figure 2005036527
図18において、高周波数分解能の境界が「奇数」で表される場合においては、下記の式を満たすことにより高周波数分解能が選択される。そうでない場合においては。低周波数分解能が選択される。
Figure 2005036527
ここで、しきい境界の後の最初のn個の時間セグメントにおいては、
Figure 2005036527
であり、またそれ以外においては
FREQ_RES_THRESHOLD>FREQ_RES_THRESHOLD
となる。
これは、閾値の時間位置の後のn個の時間セグメントにおいて高周波数分解能を適用することは適していないということを示唆する。というのも、より高い時間分解能が必要とされるためである。
上述の実施例においては、平均エネルギーが決定のために用いられるが、信号変化を示す振幅情報のような他のパラメータを代わりに用いることも可能である。
産業上の利用の可能性
本発明の符号化装置は、通信機能を備えるパーソナルコンピュータ、PDA、デジタル放送の放送局、コンテンツ配信を行う配信サーバおよび携帯電話機などに備えられる音響信号符号化装置として有用である。また、本発明に係る復号化装置は、音楽コンテンツ等の配信を受けるための通信機能および記録媒体読み出し機能を備えたパーソナルコンピュータ、PDA、携帯電話機、携帯型オーディオ再生装置およびデジタル放送を受信するSTBなどに備えられるオーディオ復号化装置などとして有用である。
本発明は、周波数帯域複製(SBR:Spectral Band Replication)のようなサブバンド符号化手法に関する帯域幅延長技術のための時間境界や周波数分解能を決定する体系化されたセグメント化に関する。特に、時間境界と周波数境界とを区分して、各フレームをサブバンド符号化に適したセグメントに分割する方法に関する。
SBR等の帯域幅拡張方法に基づいたサブバンド符号化において、時間方向と周波数方法の両方において適切な分割は、低エネルギーエリアが同じ平均エネルギー値を共有することを防止するために重要となる。この問題により、デコーダにおいて好ましくない増幅が行われ聴覚的に認識できる異音が発生する可能性がある。
音声符号化の目的は、音声符号化装置においてデジタル化された音声ストリームを圧縮したビットストリームに変換することであり、その結果、復号化器におけるビットストリームの処理後においても、できるだけ原音に近い音質を保つことにある。よく知られた圧縮法は、図1に示される通りである。図1は、復号化器と符号化器からなる典型的な音声符号化システムを示す。モジュール1000は、時間領域の音声信号を連続したフレームに分割し、モジュール1010は、音声信号の各フレームを周波数帯域に変換し、モジュール1020は、所定の周波数(ハンド帯として知られる)まで周波数帯域を量子化する。図2は、音声符号化における典型的な時間/周波数格子図である。モジュール1010が音声信号を周波数帯域に変換する1つの可能な方法は、図2に示すような時間/周波数格子を用いる手法である。図2において、フィルタバンクは、音声信号を多重のサブバンドに分割するためのものであり、各サブバンドは時間領域での狭い周波数範囲内の信号の一部を代表している。復号化器においては、音声周波数帯域は、モジュール1030によって逆量子化され、モジュール1040において音声フレームに変換される。そして、音声フレームはモジュール1050において連続する音声ストリームを適切に形成するために組み立てられる。
符号化のビットレート(各秒におけるビット数)が減少するに伴って、高周波帯域は聴覚的には低周波帯域ほど重要でないとみなされる。そのため、高周波帯域を符号化しないことにより、伝送される音声信号の帯域幅に犠牲が生じる。その結果、いくつかの高周波数音と低周波数音の倍音構造が実現されなくなる。図3は、ビットレートにおける帯域幅の限定が高周波数長や調和の損失を起こすことを示す図である。図3は、上述の帯域制限処理を示すものであり、2020は符号化された音声の帯域幅の結果を示すものである。
帯域幅拡張の目的は、高周波帯域を非常に少ない追加的なビットを用いて音声信号を符号化することにより、高周波帯域を回復することである。この技術の1つとして、SBR法(国際公開 WO98/57436)があり、これは今MPEG標準となっている(ISO/IEC 14496-3.2001 AMD1)。図4は、帯域幅拡張のためのサブバンド符号化機能を有する符号化器の例を示す図である。図4は、この発明に関連するSBR法の符号化器の構成を示すものである。最初に、音声信号は、3010の分析フィルタバンクにおけるN個のサブバンドフィルタを用いてN個のサブバンドに帯域分割され、各分析フィルタは信号のある周波数範囲を取り出す。このフィルタによって生成されるN個の信号は、冗長性を除くために間引かれる。帯域幅拡張符号器3020は、フィルタ出力から幾つかの情報を抽出し、結果、復号化器において、低周波サブバンドの音声信号の帯域幅を拡張するための情報として用いられる。帯域幅拡張情報は、ビットストリームを形成するために、低周波サブバンドの音声信号を符号化するコアコーデック3000からの出力と共にビットストリーム多重化器3030において多重化される。通常のSBRフレームはLサンプルのサブバンドフィルタ出口によって構成される。
図5は、帯域幅拡張のためのサブバンド符号化機能を有する復号化器を示す図である。図5は、本発明に関連するSBR法の復号化器を示す。最初に、4000においてビットストリームは中核音声ビットストリーム及び帯域幅拡張ビットストームになるように逆多重化される。中核復号化器4010は、時間領域において帯域制限された音声信号を生成するために中核音声ビットストリームを復号化する。帯域制限音声信号は、4020の分析フィルタバンクのM個のサブバンドフィルタを用いてM個のサブバンドに帯域分割される。高周波サブバンドは、このサブバンドレベルにおいて帯域幅拡張情報を用いて合成される。新たな高周波サブバンドは、低周波サブバンドも同じように、アップサンプリングされ、N個のフィルタを持つ最終的な帯域幅拡張信号を出力する合成フィルタバンク4040で合成される。
分析フィルタバンク3010からの出力は、図2の音声信号の時間/周波数格子図において見ることができる。帯域幅の拡張情報の一部として、時間/周波数格子図は、最初に時間軸中に示す時間セグメントに分割され、それから、周波数軸中に示す周波数帯域に分割される。各周波数帯域は、その平均的なエネルギーが計算され、量子化され、そして符号化される。この過程は、スペクトル包絡線符号化として知られている。すなわち、スペクトル包絡線符号化において、音声信号は、時間軸と周波数軸とで形成される2次元平面上の各セグメントにおける平均エネルギーの分布によって表される。図6は、時間方向及び周波数方向のセグメントを示す図である。図6は、そのような分割過程を示すものであり、IPP(WO01/26095A1)に示されている。図においては、5010は、時間軸方向の分割を示す。5020は、周波数軸方向の分割を示す。復号化器においては、この処理で生成されるデータは、合成された高周波帯域のエネルギーを形付けるために用いられ、結果、原音の音声信号と同様のエネルギー包絡線を取得する。適切な分割なしには、低エネルギーエリアは高エネルギーエリアと同じ平均エネルギー値を共有することが強いられることとなるだろう。また、視聴的に感知できる異音に至るかもしれない誤った増幅が復号化器において生じるかもしれない。
各SBRフレームは境界を用いて時間軸中において時間断片に部分化される。従来技術においては、効率的なスペクトル包絡線符号化を達成するために、固定や可変境界が用いられる。図7は、4つのフレームタイプの境界関係を示す図である。図7を参照すると、固定された境界6060、6070、6100は規定のSBRフレームである境界6010、6020、6050と一致する。そして、現フレームの境界6080、6090は次の規定のSBRフレーム中に侵食することを許容範囲内とする。可変SBRフレームの開始境界と終了境界とのどちらかは、固定境界又は可変境界となることができる。開始境界と終了境界の両方が固定境界である場合においては、可変SBRフレームは規定のSBRフレームと一致することとなる。現行のSBRフレームの終了境界は自動的に次のSBRフレームの開始境界となる。
開始境界と終了境界の間においては、従来技術によれば、SBRフレームは、さらに中間境界により、幾つかの時間セグメントに部分化される。開始境界と終了境界が共に固定された境界である場合においては、SBRフレームは一様な時間セグメントに分割される。これは、従来技術においてはFIXFIXフレーム(すなわち、開始境界としてのFIX境界や終了境界としてのFIX境界)として知られる。図8は、固定開始境界及び固定終了境界を用いるFIXFIXフレームを示す図である。図8に示されるように、7010は開始境界であり、7020は終了境界である。閾値検出部が現行のSBRフレーム中に過渡事象領域を検出する場合においては、その終了境界は次の規定のSBRフレームと等しいか又はより大きくなくてはならない可変境界となる。
図9は、固定開始境界、規定のSBRフレーム境界よりも大きい可変終了境界、そして最終境界との相関、又はお互いの相関により特定される幾つかの中間境界を用いるFIXVARフレームを示す図である。このフレームは開始境界8010としてFIX(固定)境界を持ち、終了境界8050としてVAR(可変)境界を持つ。中間境界8020、8030、8040は、お互いに、若しくは前記可変境界に対して相対的に特定され、ここでd0,d1,d2等は相対境界距離である。図9においては、最初の相対距離d0は可変境界より開始しなければならない。連続する相対距離は先に決められた中間境界より開始する。
現行のSBRフレームの終了境界は、自動的に次のSBRフレームの開始境界となるため、連続したSBRフレーム中の過渡事象の振る舞いにおいては、SBRフレームが2つの可変境界を持つことも可能となる。図10は、そのようなフレーム、つまり、可変開始境界、規定のSBRフレーム境界よりも大きい可変終了境界、そして2つの最終境界との相関、又はお互いの相関により特定される幾つかの中間境界を用いるVARVARフレームを示す図である。VARVARフレームにおいては、中間境界は可変境界のいずれか1つを用いて相対的に特定される。この図においては、中間境界9020は開始境界9010と相対的に決定され、中間境界9030、9040、9050はお互い、若しくは可変終了境界9060に対して相対的に決定される。
最後に、可変境界から開始しているが、過渡事象検出部が現行のSBRフレーム中に過渡事象を検出できない場合においては、終了境界として固定境界を適用する。これは従来技術で紹介されている最終フレーム種別である。図11は、そのようなフレーム、つまり、可変開始境界、固定終了境界、そして開始境界との相関、又はお互いの相関により特定される幾つかの中間境界を用いるVARFIXフレームを示す図である。ここで、10010は可変開始境界であり、10050は固定終了境界である。10020,10030,10040はd0,d1,d2から漸次導出された中間境界を構成する。
ビット消費を削減するために、中間境界と可変境界の間の相対境界距離は、2〜3の予め決められたサイズのみをとることができる。
上述した境界によって定められるいくつかの時間セグメントを設定した後、2つの境界に挟まれる各時間セグメントは、周波数軸方向での周波数帯域に分割される。実際のスペクトルの境界は、本発明とは無関係な方法で導出される。図12は、高分解能時間セグメントと低分解能時間セグメントとの間の境界の関係を示す図である。図12は2つの取り得る分解能である高分解能分割と低分解能分割との間の境界関係を示している。低分解能分割の境界と高分解能分割の境界とは相互可変となる。
現行SBRフレームにおいては、先行SBRフレームの終了境界に基づく開始境界の決定や、閾値検出部を用いた過渡事象境界の決定に従って、終了境界や全ての中間境界を決定するのに、ある手法が必要とされる。すなわち、終了境界や全ての中間境界を決定するために、工夫が必要なのである。
この問題は単純ではない。というのも、上述したように、全ての中間境界diはお互いに若しくは可変境界に対して相対的に特定され、そして、全ての相対距離は2〜3の予め決められたサイズ(di [D1, D2, D3, D4], with 0<D1<D2<D3<D4.)のみをとることができる。さらに、規格上、予め定められた数の中間境界しか設置することはできない。FIXVARフレームやVARVARフレームタイプにおいては、終了境界は規定のSBR境界と等しいか、より大きなものでなければならない。したがって、全ての課される制約を満たす体系的な手法が必要とされる。すなわち、時間/周波数格子符号化を行うシステムでは、このように課されたすべての制約を満足しながら、かつ、符号化効率が高くなるように中間境界および終了境界を決定しなければならない。
従来技術において用いられるスペクトル符号化手法においては、低時間分解能だが高スペクトル分解能(例えば、2〜3の時間セグメントに対して、多くの周波数帯域に渡って周波数スペクトルを導出すること)に頼るものである。過渡事象が検出される場合において、従来技術においては、過渡事象の後の帯域を符号化するために、高時間分解能だが、低スペクトル分解能(例えば、多くの時間セグメントに対して、少ない周波数帯域の周波数スペクトルを導出すること)に変更している。分解能のレベルを変更するのは、過渡事象はスペクトル変化より時間変化を示す傾向があると考えられるからである。周波数分解能を低くすることは、ビット消費における急激な増加を防止することができる。しかし、この方法は、後の過渡事象帯域が、例えばトーン信号の急激な発生を表すような、より高度な分解能を必要とする大きいスペクトル変化を示す場合においては充分なものではない。
<時間境界の決定>
時間境界を決定するためには、本発明においては、復号化器により課される全ての規格上の制約を考慮に入れて、終了境界や全ての中間境界を決定する体系的な手法を提供することを目的とする。
従来技術のように、現行のSBRフレームのフレームタイプは、先行フレームの終了境界のタイプや、現行SBRフレームの過渡事象の存在に応じて決定される。開始境界もまた、先行SBRフレームの終了境界に従って決定される。
FIXFIXフレームにおいては、低時間分解能の設定が用いられる。すなわち、図8に示したように時間幅dの等間隔で中間境界が設定される。
フレーム中において過渡事象が発生するFIXVARフレームやVARVARフレームにおいては、可能な中間境界の探索は、過渡事象時間位置の後の領域中において最初に実施される。終了境界もまたこの段階において決定される。それから、最初の段階で既に許容範囲内における境界の最大数を使い果たしていない場合においては、過渡事象の位置に対して時間的に前の領域において中間境界を設定できるかどうかの探索が行われる。
VARFIXフレームにおいては、1つの探索が可変開始境界と固定終了境界とを境とする全ての領域中において実行される必要がある。
上述の全ては、2つの前方探索処理と1つの後方探索処理により達成される。これらは同じ原則を用いている。それは、時間セグメントの信号変化を評価することに基づくが、適応されるシナリオに適合するために少しずつ異なっている。
<周波数分解能の決定>
周波数分解能を決定するために、本発明は、スペクトル方向中でエネルギー変化を客観的に評価する適応的な方法を提供する。
低分解能区分の境界は高分解能区分の代替的な境界であるので、高分解能が最初に仮定され、平均エネルギーは各周波数帯域において計算される。低分解能境界を境とする周波数帯域の全てのペアのために、エネルギー比が計算される。全ての時間区分において計算された全てのエネルギー差の最小値が予め決められた閾値を超えているような場合においては、高周波数分解能が採用される。そうでない場合においては、低周波数分解能が採用される。後の過渡事象の領域中で高時間分解能を与える重要性に鑑みて、この方法は、この領域において高周波数分解能を適用するための厳密な判定基準を採用している。
本発明のスペクトル包絡線符号化の時間境界及び周波数分解能の決定方法は、時間/周波数格子を用いた音声信号のスペクトル包絡線符号化において時間境界及び周波数分解能を決定する方法であって、包絡線データにおける先行フレームの終了時間境界から現行フレームの開始時間境界を導出し、前記開始時間境界と所定の許容範囲内における終了時間境界との間のスペクトルデータ中から、過渡事象検出部により、一定以上に程度が大きい過渡事象の時間位置を検出し、前記過渡事象の大きさを、所定の信号変化基準と比較することにより、前記許容範囲内における現行フレームの終了時間境界と前記過渡事象の時間位置との間のスペクトルデータ中の中間時間境界及び実際の終了時間境界を見つけ出して具体値化する。従って、時間境界決定方法によって、時間方向中のエネルギーの変化を評価することで前と後の過渡事象領域のフレーム分割を実行する好ましい体系的な手法が実現される。この方法においては、全ての課せられた規格上の制約を考慮したうえで、過渡事象よりも後ろの領域を優先することにより、あるいは、過渡事象よりも遠い領域に対してより近い領域を優先することによって良い音質が実現されている。
また、本発明において適応される周波数分解能の決定方法は、過渡事象よりも後ろの領域における周波数方向のエネルギー分布を検出する。中間時間境界および前記終了時間境界による分割で取得された各時間セグメントについて、所定の周波数で示される低分解能境界を境とする全ての周波数帯域のエネルギーを評価することにより、前記時間セグメントにおける周波数分解能を導出する。この方法では、エネルギー分布に大きな変化が発見される場合においては、高分解能分割を用いる。本発明に係る2つの方法を同時に用いることにより、SBR技術の時間―周波数図の分割の好ましく、かつ、簡単に実現することが可能な手法が提供される。
なお、本発明は、このようなスペクトル包絡線符号化の時間境界及び周波数分解能の決定方法として実現することができるだけでなく、それらのステップをコンピュータに実行させるプログラムとして実現したりすることもできる。さらに、これらのステップを集積回路などに組み込んだ音響符号化装置および音響復号化装置として実現することもできる。そして、そのようなプログラムは、CD−ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。
下記に述べる方法は、SBRの文脈中で説明された例である。しかし、本発明の適応範囲は、時間/周波数格子に基づいたスペクトル包絡線符号化方法を利用しているどのような形態にも拡張されるものである。
3.5.1 時間境界の決定
時間境界の決定の実施例は、図13から17までの一連のフローチャートにおいて示されている。
3.5.1.1 概要
図13は、本発明に係る時間境界決定部の全体を示すフローチャートを示す図である。図13は、全ての時間境界の決定処理の全体図を示す。12010において、先行SBRフレームの終了境界に最初のborder[0]を設定し、また、境界カウンターのnoBorderを1に初期化する。12020において、過渡事象検出部を現行フレームにおいて作動させる。border0から(次の規定のSBR境界+V)までで最も急激な過渡事象の振る舞いを検出するためである。これにより、現行フレーム内における過渡事象の有無を検出する。ここでVは、構成によって許容される次のSBRフレームの中に入り込む量である。
過渡事象が見つかれば、12030において、先行SBRフレームの終了境界の種別を確認する。それが固定境界であれば、現行フレームは12050中においてFIXVARタイプとなる。それが可変境界であれば、現行フレームは12090中においてVARVARタイプとなる。いずれのケースにおいても、過渡事象の位置を示す境界はborder1中に登録され、現行フレーム内の境界の数を示すnoBorderはインクリメントされて増加する。
過渡事象が見つからない場合においては、12040において、先行SBRフレームの終了境界の種別を確認する。それが固定境界であれば、現行フレームは12130中においてFIXFIXタイプとなる。可変境界であれば、現行フレームは12150中においてVARFIXタイプとなる。
現行フレームがFIXVARである場合においては、12060において、中間境界の必要性を確認するために、前記過渡事象と(次の規定のSBR境界+V)との間の領域を確認する。3.5.1.2において述べる前方探索(タイプ1)の方法はこの目的のために用いられる。前方探索の最後において、12070で、境界数noBorderが確認される。noBorderが境界数として許容される最大値MaxBorderよりも少ない場合においては、12080において、前記過渡事象及び開始境界の間の領域を確認するために後方探索を用い、必要であるならばより多くの中間境界を具体値化する。上述のシーケンス処理は、過渡事象位置よりも後ろの領域で検出される中間境界を優先する。
現行フレームがVARVARである場合においては、12100において、中間境界のための可能性ある必要性のために、3.5.1.2において述べる前方探索(タイプ1)の方法を用いて、前記過渡事象と(次の規定のSBR境界+V)との間の領域を確認する。前方探索の最後において、12110中において、noBorderが確認される。noBorderが境界数として許容される最大値MaxBorderよりも少ない場合においては、12120において、前記過渡事象及び開始境界の間の領域を確認するために別の前方探索(タイプ2)を用い、必要であるならばより多くの中間境界を具体値化する。上述と同様となるが、上述のシーケンス処理は、過渡事象位置よりも後ろの領域で検出される中間境界を優先する。
現行フレームがFIXFIXである場合においては、12140において、低時間分解能の設定を選択する。より詳細は3.5.2において述べる。
現行フレームがVARFIXである場合においては、12160において、中間境界の必要性を確認するために開始境界と次の規定のSBRフレーム境界との間の領域を確認する。上記の前方探索(タイプ1)方法はこの目的のために用いられる。
上述した各処理の4つ分岐は、12170において後の処理のために検出した境界を昇順に並べ換えて終了する。
図14は、4つのフレームタイプの可変部中における3つの探索タイプの使用を示す図である。図14は、4つのフレーム種別中における3つの探索タイプの使用を描画するものであり、ここで17010と17020は前方探索処理(タイプ1)を示し、17040と17050は前方探索処理(タイプ2)を示し、17030は後方探索処理を示す。
過渡事象位置よりも後ろの領域は、上述の実施例において、中間境界決定処理中で優先されるが、信号変化を評価することにより、どのような領域が優先されるかを選択することも可能となる。信号変化が過渡事象よりも前の領域において、より大きいような場合においては、過渡事象よりも前の領域が優先され、また、信号変化が過渡事象よりも後の領域において、より大きい場合においては、過渡事象の後ろの領域が優先される。
3.5.1.2 前方探索(タイプ1)
この前方探索法(タイプ1)は、過渡事象の位置から開始し、まだ決定していない可変境界において終了する領域のために設計されている。その目的は、中間境界と終了境界を定めることにある。3つの入力されるパラメータであるborder1、border2、noBorderLimitは、(border1とborder2との間の)探索領域を設定するために図13の12060と12100に従って初期化されなければならない。また、noBorderLimitは許される最大の境界数に初期化される。
図15は、前方探索(タイプ1)処理のフローチャートを示す図である。図15には、この方法のフローチャートを示す。この方法は、時間セグメントの左境界と右境界を表現するために、2つの中間の変数iとjを用いる。セグメントの左境界をiとし、右境界をjとする。kは現行時間セグメントの相対境界距離Dkを参照するために用いる。全ての相対距離は予め決められたサイズ(di [D1, D2, D3, D4], with 0<D1<D2<D3<D4.)のみをとることができるからである。13010において、iとkをi=border1、k=2に初期化する。border1は、過渡事象の時間位置である。すなわち、13010では、過渡事象の時間位置を示す境界i=border1から、前方に時間セグメントの相対境界距離D2の位置に中間境界jを決定することを予定している。13020において、iがまだ規定のSBRフレーム境界より下か否か(すなわち、過渡事象の時間位置が、現行フレームとすべき規定のSBRフレーム境界を越えていないか否か)を判定する。また、境界数noBorderが境界数の上限であるnoBorderLimitを超えていないかを判定する。超えていない状態においては、より多くの中間境界がまだ具体値化されることができる。そこで13030中において、隣の可能な端部である現行時間セグメントj=i+D2に設定する。すなわち、過渡事象の時間位置から幅D2の幅をもつ中間境界が設定可能かどうかを調べる。13040中において、j<=border2か否かの判定を行う。すなわち、jで表される中間境界が現行フレームの終端となる(規定のSBR境界+V)を超えていないかを判定する。
noの場合においては、Dk(ただし、Dk=D2)は有効な相対境界距離ではなくなる。この方法では、13090中において、k=k−1とすることにより、以前の相対境界距離D(k-1)、すなわち、D1に逆戻りし、i+Dkすなわち、j=i+D1に新しい境界jを登録する。境界の数はnoBorderを増加することにより更新される。この方法によれば、13040中において「no」の選択を経て、13100に至るならば、最後に登録される境界は、このSBRフレームの可変終了境界となる。
一方、13040中において「Yes」を選択する場合においては、それは新たな境界が必要か否かを判定するための信号変化基準を評価するための処理に進む。しかし、Dkが既に相対境界距離(本例においてはD4)として許容範囲内における最大である場合においては、すなわち、13050のように相対化境界距離を最大幅にしてしまう場合には、13050中において反映するように、信号変化基準は評価される必要はない。というのも、このようにした場合、新たな境界は強制的に決めるためである。13050中において「Yes」を選択する場合においては、新たな境界を登録するために、直接13100に至ることとなる。
DkがまだD4でない場合においては、13050はnoであり、以下に示す変数peak_ratioはiと(j-1)の間で示される領域のために13060中において評価される。新たな中間境界を決定するための基準は、全ての時間セグメントの平均エネルギーと、各時間位置のエネルギー比とを確認することに基づく。それは13070中において下記の式で実行される。
Figure 2005036527
この式において、
ETmは時間位置mのエネルギーである。
ETはiから(j-1)までにおいて計算された全ての時間位置の平均エネルギーである。
Tr1は予め定められた閾値である。
別の可能な信号変化基準として、下記の最大及び最小のエネルギー値を比較することに基づいてもよい。
Figure 2005036527
最後に、信号変化基準として、下記の絶対振幅の最大値及び最小値を比較することに基づいてもよい。
peak_ratioが閾値Tr1を超える場合においては、大きな信号変化により新たな境界が決定される。しかし、現行のDkが、より大きな信号変化を引き起こすならば、D(k-1)は望まれる相対境界距離となるべきである。結果として、13090において、kの値は減算され、13100において、新たな境界が登録される。
Figure 2005036527
peak_ratioが上記閾値Tr1を越えない場合においては、信号変化は、十分に穏やかであると考えられ、従って、13080中において、より時間幅の大きなDkが、まずkの値を増加させた後、jを調整することによって適用される。すなわち、信号変化の小さい場所ではより大きな時間間隔で境界を作成する。
この処理は最終的に13020中において「no」の選択がなされるまで繰り返される。それから、全てのnoBorderLimitが使用されているにも関わらず、可変終了境界となるであろう終了境界が、まだ規定のSBRフレーム境界以下であるか否かを確認するための13110に進む。このステップは重要であり、というのも、SBR構成は、標準値のSBRフレーム境界と等しいか又は大きい終了境界を要求するためである。終了境界が規定のSBRフレームよりも小さくなければ、処理は安全に終了する。終了境界が規定のSBRフレームよりも小さい場合においては、この方法は、終了境界が前記要求を満たすまで相対境界距離を拡張する処理を開始する。
この相対境界距離を拡張する1つの可能な方法は、最初の過渡事象の境界から最も離れた相対境界距離を犠牲にすることによって実現される。13120から開始して、iは終了境界を参照するために初期化される。13130中において、borderiとborder(i-1)の間の相対境界距離を引き続いて確認する。この相対境界距離がD4よりも小さくない場合においては、この相対境界距離は拡張できないために、iは減少され、その結果、border(i-1)とborder(i-2)の間の相対境界距離が確認される。しかし、その相対境界距離がD4よりも低いような場合においては、borderiとborder(i-1)の間の相対距離は13160中において拡張される。この処理は、13170中において検証されるように、終了境界が規定のSBRフレーム境界より大きいか、等しくなるまで繰り返される。
相対境界距離を拡張する1つの可能な方法は、より多くの処理を必要とする方法である。それは、境界の間の全ての相対境界距離を増加させ、新たな境界間の信号特性を確認し、境界間の信号変化が最小となる境界において相対距離を増加させる。そして、この処理は終了境界が規定のSBRフレーム境界と等しいかより大きくなるまで繰り返される。しかし、経験的に、最小の変化をしている領域は、過渡事象境界から最も離れた領域である。その理由は、過渡事象境界に近い領域が最も変化しているならば、この特性は過渡事象境界に近くに位置して存在する中間境界の存在によって既に捉えられているからである。
3.5.1.3 前方探索(タイプ2)
この前方探索法(タイプ2)は、可変境界又は固定境界と共に開始し、また既に決定された境界で終了する帯域において設定される。タイプ1の前方探索法とは異なり、目的は中間境界を決定することのみを目的とする。3つの入力されるパラメータ、border1、border2、noBorderLimitは、探索領域及び許容範囲内における境界の最大数を設定するため、図13の12120及び12160に従って初期化されなければならない。
図16は、前方探索(タイプ2)処理のフローチャートを示す図である。図16にこの方法のフローチャートを示す。原則的に、2つの前方探索方法は同じとなる。従って、14010から14100の処理においては、図15の13010から13100の処理と、幾つかの例外を除けばほとんど同様である。
14020において、現行時間セグメントの先頭端が、次の規定のSBRフレームより小さいかを確認する代わりに、前記先頭端がborder2-D2より小さくなるかを確認することが新たな制約となる。
14020中において「no」を選択する場合においては、処理は終了する。すなわち、図15に13110以降の処理とは異なり、幾つかの相対境界距離を拡張する処理を必要とはしない。というのも終了境界は見つける必要がないためである。
同様に、14040中では、現行時間セグメントの後端がborder2を越えるならば、終了境界は必要がないので、新たな境界をi+D(k-1)(図15の13040から13090までの枝分かれに示されるように)に登録せずに、すぐに終了する。
14100中では、新たな境界のpeak_ratioは、それが初期化される際には保存されなければならない。これは14110中において冗長な境界を取り除くためである。これらの冗長な境界は、現行フレームにおける時間セグメント長を許される最大値に設定するために作成されることがある。というのも、各境界の位置は相互の相対位置で表されるために、次に境界を設定するために便宜的に冗長な境界を設置する必要が生じる場合があるためである。しかし、これが終了境界であれば、それは問題を引き起こすことなく取り除かれることができる。
3.5.1.4 後方探索
この後方探索方法は、過渡事象と共に開始する境界と開始境界と共に終了する境界の領域のために設定される。3つの入力されるパラメータ、border1、border2、及びnoBorderLimitは、探索帯域及び許容範囲内における最大数を設定するための図13の12080中に従って初期化されなければならない。
図17は、後方探索処理のフローチャートを示す図である。原則的に、この方法は前方探索(タイプ2)と同様となる。従って、逆方向で実行される処理を除いて、15010から15110までの処理はほとんど14010から14110までの処理と同じとなる。iに相対するjを増加する代わりに、後方探索においてはiに相対するjを減少させる。
具体的には、14020中でi<=border2−D2とする代わりに、15020において、i>=border2+D2とする。というのもiは徐々に開始境界(すなわち、border2)に近づくためである。 14040中でj<=border2とする代わりに、上記同様の理由により、15040において、j>=border2とする。
14060中で時間位置iからj−1の間のpeak_ratioを計算する代わりに、15060において、時間位置jからi―1の間のpeak_ratioを計算する。
14030と14080中でのj=i+Dkを計算する代わりに、15030と15080においてj=i-Dkを計算する。
最後に、14100中でi=i+Dkを計算する代わりに、15100中ではi=i―Dkを計算する。
3.5.2 FIXFIXにおける低時間分解能
FIXFIXフレームはその近傍中に過渡事象の特性を有していない。そこで、符号化ビットを削減するために少ない時間境界を使うことが論理的となる。SBRにとって、FIXFIXフレームのための時間/周波数図は選択された境界の数に基づいて均一的に中間境界により分割される。境界の数を選択する簡単な方法は、境界の最も低い数を使用してみて、形成される時間セグメントのpeak_ratioを評価することである。peak_ratioのいずれもがある閾値を越える場合においては、より多くの数の境界が必要とされ、形成される各時間セグメントのpeak_ratioの評価は繰り返される。形成される全時間セグメントのpeak_ratioがある閾値よりも低くなる場合において、又は境界の最大数に至る場合において、処理は終了する。
3.5.3 周波数分解能の決定
周波数分解能の決定の実施例は、図18中に参考図として示される。図18は、本発明に係る周波数分能決定部を示すイラスト図である。低分解能分割の境界は高分解能分割の境界を1つおきにとったものとなる。
最初に、高周波数分解能が適用されることを前提とすると、時間セグメント中の全ての周波数帯域の平均エネルギーが計算される。平均エネルギーはEiを用いて示す。
図18において、高周波数分解能の境界が「偶数」で表される場合においては、下記の式を満たすことにより高周波数分解能が選択される。そうでない場合においては、低周波数分解能が選択される
Figure 2005036527
図18において、高周波数分解能の境界が「奇数」で表される場合においては、下記の式を満たすことにより高周波数分解能が選択される。そうでない場合においては。低周波数分解能が選択される。
Figure 2005036527
ここで、しきい境界の後の最初のn個の時間セグメントにおいては、
Figure 2005036527
であり、またそれ以外においては
FREQ_RES_THRESHOLD2 > FREQ_RES_THRESHOLD1
となる。
これは、閾値の時間位置の後のn個の時間セグメントにおいて高周波数分解能を適用することは適していないということを示唆する。というのも、より高い時間分解能が必要とされるためである。
上述の実施例においては、平均エネルギーが決定のために用いられるが、信号変化を示す振幅情報のような他のパラメータを代わりに用いることも可能である。
本発明の符号化装置は、通信機能を備えるパーソナルコンピュータ、PDA、デジタル放送の放送局、コンテンツ配信を行う配信サーバおよび携帯電話機などに備えられる音響信号符号化装置として有用である。
また、本発明に係る復号化装置は、音楽コンテンツ等の配信を受けるための通信機能および記録媒体読み出し機能を備えたパーソナルコンピュータ、PDA、携帯電話機、携帯型オーディオ再生装置およびデジタル放送を受信するSTBなどに備えられるオーディオ復号化装置などとして有用である。
図1は、典型的な音声符号化システムを示す図である。 図2は、音声符号化における典型的な時間/周波数格子図である。 図3は、ビットレートにおける帯域幅の限定が高周波数長や調和の損失を起こすことを示す図である。 図4は、帯域幅拡張のためのサブバンド符号化機能を有する符号化器の例を示す図である。 図5は、帯域幅拡張のためのサブバンド符号化機能を有する復号化器を示す図である。 図6は、時間方向及び周波数方向のセグメントを示す図である。 図7は、4つのフレームタイプの境界関係を示す図である。 図8は、固定開始境界及び固定終了境界を用いるFIXFIXフレームを示す図である。 図9は、固定開始境界、規定のSBRフレーム境界よりも大きい可変終了境界、そして最終境界との相関、又はお互いの相関により特定される幾つかの中間境界を用いるFIXVARフレームを示す図である。 図10は、可変開始境界、規定のSBRフレーム境界よりも大きい可変終了境界、そして2つの最終境界との相関、又はお互いの相関により特定される幾つかの中間境界を用いるVARVARフレームを示す図である。 図11は、可変開始境界、固定終了境界、そして開始境界との相関、又はお互いの相関により特定される幾つかの中間境界を用いるVARFIXフレームを示す図である。 図12は、高分解能時間セグメントと低分解能時間セグメントとの間の境界の関係を示す図である。 図13は、本発明に係る時間境界決定部の全体を示すフローチャートを示す図である。 図14は、4つのフレームタイプの可変部中における3つの探索タイプの使用を示す図である。 図15は、前方探索(タイプ1)処理のフローチャートを示す図である。 図16は、前方探索(タイプ2)処理のフローチャートを示す図である。 図17は、後方探索処理のフローチャートを示す図である。 図18は、本発明に係る周波数分解能決定部を示すイラスト図である。

Claims (17)

  1. 時間/周波数格子を用いた音声信号のスペクトル包絡線符号化において時間境界及び周波数分解能を決定する方法であって、
    包絡線データにおける先行フレームの終了時間境界から現行フレームの開始時間境界を導出し、
    前記開始時間境界と所定の許容範囲内における終了時間境界との間のスペクトルデータ中から、過渡事象検出部により、一定以上に程度が大きい過渡事象の時間位置を検出し、
    前記過渡事象の大きさを、所定の信号変化基準と比較することにより、前記許容範囲内における現行フレームの終了時間境界と前記過渡事象の時間位置との間のスペクトルデータ中の中間時間境界及び実際の終了時間境界を見つけ出して具体値化する
    ことを特徴とする時間境界及び周波数分解能決定方法。
  2. 前記方法は、さらに、
    上記中間時間境界および前記終了時間境界による分割で取得された各時間セグメントについて、所定の周波数で示される低分解能境界を境とする全ての周波数帯域のエネルギーを評価することにより、前記時間セグメントにおける周波数分解能を導出する
    ことを特徴とする請求の範囲1記載の時間境界及び周波数分解能決定方法。
  3. 現行フレームにおいて、許容範囲内における境界の数が残されていないが、開始時間境界から終了時間境界までの幅が最小要求値を満たしていない場合においては、要求される最小値が達成されるまで直前の前記中間境界の間隔を拡張する
    ことを特徴とする請求項1記載の時間境界及び周波数分解能決定方法。
  4. 許容範囲内における境界の数が残されている場合においては、所定の信号変化基準を評価することにより、過渡事象の時間位置と開始時間境界の間とのスペクトルデータ中の中間時間境界をさらに具体値化する
    ことを特徴とする請求項1記載の時間境界及び周波数分解能決定方法。
  5. 中間時間境界を発見するための処理では、まず、先に見つけられた時間境界と前記先の時間境界から離れて前方に動いている動き時間境界によって定められる一時的な時間セグメントを定義し、次に、前記動き時間境界の全ての変化に対して前記信号変化基準を評価する
    ことを特徴とする請求項1記載の時間境界及び周波数分解能決定方法。
  6. 前記信号変化基準は、前記一時的な時間セグメント内の時間位置の最小エネルギーと前記一時的な時間セグメントの平均エネルギーとの比である
    ことを特徴とする請求項5記載の時間境界及び周波数分解能決定方法。
  7. 計算された前記比が閾値を越えるような場合においては、新たな時間セグメントを定義するための前記動き時間境界に従って、新たな中間境界又は終了境界を具体値化する
    ことを特徴とする請求項6記載の時間境界及び周波数分解能決定方法。
  8. 前記中間境界の拡張は、前記フレームの中の過渡事象時間位置から最も遠くに離れた時間セグメントについて行い、さらに遠くの境界の拡張がその規格上の限界に達した場合にだけ、過渡事象時間セグメントにより近い時間セグメントについても考慮する
    ことを特徴とする請求項3記載の時間境界及び周波数分解能決定方法。
  9. 前記境界の拡張では、全ての時間セグメントを増加させ、形成される新たな時間セグメントの信号特性を確認し、境界間での信号変化を最小にするように時間セグメント数を増加させる
    ことを特徴とする請求項3記載の時間境界及び周波数分解能決定方法。
  10. 前記信号変化基準の評価は、各時間セグメントの周波数帯ごとのエネルギー間の比率を計算することであり、
    前記比の最小値が閾値を超えるような場合においては、高周波分解能が適用され、そうでない場合においては、低周波数分解能が適用される
    ことを特徴とする請求項2記載の時間境界及び周波数分解能決定方法。
  11. 前記過渡事象の時間位置を含む領域における高周波数分解能への切り替えが抑制されるように、過渡事象の時間位置を含む時間境界より後の複数の時間セグメントは、前記閾値がより高く設定される
    ことを特徴とする請求項10記載の時間境界及び周波数分解能決定方法。
  12. 時間/周波数格子を用いた音声信号のスペクトル包絡線符号化による帯域幅拡張における時間境界及び周波数分解能を決定する方法であって、
    分析フィルタバンクは音声信号を複数の低周波数サブバンド信号に変換し、
    前記サブバンド信号の一部は高周波数帯域に複製され、前記複製されたサブバンドは時間境界情報を用いて時間セグメントに分割された後、前記周波数分解能情報を用いて周波数帯に分割され、その後に前記包絡線データによって調整され、
    合成フィルタバンクは前記低周波数サブバンド信号と前記包絡線調節サブバンド信号をバンド幅拡張された時間寄与信号に変換し、
    前記方法では、
    包絡線データにおける先行フレームの終了時間境界から開始時間境界を導出し、
    前記開始時間境界と最も離れた許容範囲内における終了時間境界との間のスペクトルデータ中から、過渡事象検出部により、最も程度が大きい過渡事象時間位置を検出し、
    信号変化基準を評価することにより、最も離れた許容範囲内における終了時間境界と前記過渡事象時間位置の間のスペクトルデータ中の中間時間境界及び実際の終了時間境界を見つけ出して具体値化し、
    上記で取得された各時間セグメントについて、低分解能境界を境とする全ての周波数帯域のエネルギーを評価することにより、周波数分解能を導出する
    ことを特徴とする時間境界及び周波数分解能決定方法。
  13. 時間/周波数格子を用いた音声信号のスペクトル包絡線符号化において時間境界及び周波数分解能を決定する方法であって、
    包絡線データにおける先行フレームの終了時間境界から開始時間境界を導出し、
    前記開始時間境界と最も離れた許容範囲内における終了時間境界との間のスペクトルデータ中から、過渡事象検出部により、最も程度が大きい過渡事象時間位置を検出し、
    前記過渡事象境界と前記開始時間境界の間の帯域、又は前記過渡事象境界及び最も遠く離れた終了時間境界の間の帯域のどちらの領域が最も変化するスペクトルデータを有するかを検出し、
    前記最も変化しているスペクトルデータが前記過渡境界と前記最も離れた許容範囲内における終了境界との間の領域において発見される場合には、信号変化基準を評価することにより、前記領域中において、実際の終了時間境界と中間時間境界を見つけ出して具体値化し、
    前記最も変化しているスペクトルデータが前記過渡境界と前記開始時間境界の間の帯域で発見される場合においては、信号変化基準を評価することにより、前記領域中の中間境界を見つけ出して具体値化し、また、信号変化基準を評価することにより、他の領域中の実際の終了時間境界と中間時間境界を見つけ出して具体値化し、
    上述において獲得される各時間セグメントについて、低分解能境界を境とする各周波数帯のエネルギーを評価することによって周波数分解能を導き出す
    ことを特徴とする時間境界及び周波数分解能決定方法。
  14. 時間/周波数格子を用いた音声信号のスペクトル包絡線符号化による帯域幅拡張における時間境界及び周波数分解能を決定する方法であって、
    分析フィルタバンクは音声信号を複数の低周波数サブバンド信号に変換し、
    前記サブバンド信号の一部は高周波数帯域に複製され、前記複製されたサブバンドは前記時間境界情報を用いて時間セグメントに分割された後に、前記周波数分解能情報を用いて周波数帯に分割され、その後に前記包絡線データによって調整され、
    合成フィルタバンクは前記低周波数サブバンド信号と前記包絡線調節サブバンド信号をバンド幅拡張、時間寄与信号に変換し、
    前記方法では、
    包絡線データにおける先行フレームの終了時間境界から開始時間境界を導出し、
    前記開始時間境界と最も離れた許容範囲内における終了時間境界との間のスペクトルデータ中から、過渡事象検出部により、最も程度が大きい過渡事象時間位置を検出し、
    前記過渡事象境界と前記開始時間境界の間の帯域、又は前記過渡事象境界及び最も遠く離れた終了時間境界の間の帯域のどちらの領域が最も変化するスペクトルデータを有するかを検出し、
    最も変化している前記スペクトルデータが前記過渡境界と最も離れた前記許容範囲内における終了境界との間の領域において発見される場合には、信号変化基準を評価することにより、前記領域中において、実際の終了時間境界と中間時間境界を見つけ出して具体値化し、
    最も変化している前記スペクトルデータが前記過渡境界と前記開始時間境界の間の帯域で発見される場合においては、信号変化基準を評価することにより、前記領域中の中間境界を見つけ出して具体値化するとともに、信号変化基準を評価することにより、他の領域中の実際の終了時間境界と中間時間境界を見つけ出して具体値化し、
    獲得された各時間セグメントについて、低分解能境界を境とする各周波数帯のエネルギーを評価することによって周波数分解能を導き出す
    ことを特徴とする時間境界及び周波数分解能決定方法。
  15. 請求項1から請求項14のいずれかに記載の時間境界及び周波数分解能決定方法により達成される機能を提供するプログラム言語で記述されたプログラム。
  16. 請求項15記載のプログラムを格納している記録媒体。
  17. 時間/周波数格子を用いた音声信号のスペクトル包絡線符号化において時間境界及び周波数分解能を決定する装置であって、
    包絡線データにおける先行フレームの終了時間境界から現行フレームの開始時間境界を導出する手段と、
    前記開始時間境界と所定の許容範囲内における終了時間境界との間のスペクトルデータ中から、過渡事象検出部により、一定以上に程度が大きい過渡事象の時間位置を検出する手段と、
    前記過渡事象の大きさを、所定の信号変化基準と比較することにより、前記許容範囲内における現行フレームの終了時間境界と前記過渡事象の時間位置との間のスペクトルデータ中の中間時間境界及び実際の終了時間境界を見つけ出して具体値化する手段と、
    上記中間時間境界および前記終了時間境界による分割で取得された各時間セグメントについて、所定の周波数で示される低分解能境界を境とする全ての周波数帯域のエネルギーを評価することにより、前記時間セグメントにおける周波数分解能を導出する手段と
    を備えることを特徴とする時間境界及び周波数分解能決定装置。
JP2005514625A 2003-10-07 2004-10-04 スペクトル包絡線符号化のための時間境界及び周波数分解能の決定方法 Expired - Fee Related JP4767687B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005514625A JP4767687B2 (ja) 2003-10-07 2004-10-04 スペクトル包絡線符号化のための時間境界及び周波数分解能の決定方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2003348621 2003-10-07
JP2003348621 2003-10-07
JP2005514625A JP4767687B2 (ja) 2003-10-07 2004-10-04 スペクトル包絡線符号化のための時間境界及び周波数分解能の決定方法
PCT/JP2004/014977 WO2005036527A1 (ja) 2003-10-07 2004-10-04 スペクトル包絡線符号化のための時間境界及び周波数分解能の決定方法

Publications (2)

Publication Number Publication Date
JPWO2005036527A1 true JPWO2005036527A1 (ja) 2006-12-21
JP4767687B2 JP4767687B2 (ja) 2011-09-07

Family

ID=34430971

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005514625A Expired - Fee Related JP4767687B2 (ja) 2003-10-07 2004-10-04 スペクトル包絡線符号化のための時間境界及び周波数分解能の決定方法

Country Status (5)

Country Link
US (1) US7451091B2 (ja)
EP (1) EP1672618B1 (ja)
JP (1) JP4767687B2 (ja)
DE (1) DE602004030594D1 (ja)
WO (1) WO2005036527A1 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080275709A1 (en) * 2004-06-22 2008-11-06 Koninklijke Philips Electronics, N.V. Audio Encoding and Decoding
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US20060269024A1 (en) * 2005-05-27 2006-11-30 Francis Dominique Initial multi-path acquisition of random access channels
US7929499B2 (en) * 2005-07-13 2011-04-19 Alcatel-Lucent Usa Inc. Methods of multipath acquisition for dedicated traffic channels
US7764656B2 (en) * 2005-07-13 2010-07-27 Alcatel-Lucent Usa Inc. Methods of multipath acquisition for dedicated traffic channels
US7856071B2 (en) * 2005-07-26 2010-12-21 Alcatel-Lucent Usa Inc. Multi-path acquisition in the presence of very high data rate users
US8041578B2 (en) * 2006-10-18 2011-10-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
US8126721B2 (en) 2006-10-18 2012-02-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
DE102006049154B4 (de) * 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
US8417532B2 (en) * 2006-10-18 2013-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
JP4967618B2 (ja) * 2006-11-24 2012-07-04 富士通株式会社 復号化装置および復号化方法
JP5103880B2 (ja) * 2006-11-24 2012-12-19 富士通株式会社 復号化装置および復号化方法
JP4984983B2 (ja) 2007-03-09 2012-07-25 富士通株式会社 符号化装置および符号化方法
JP5302190B2 (ja) * 2007-05-24 2013-10-02 パナソニック株式会社 オーディオ復号装置、オーディオ復号方法、プログラム及び集積回路
WO2009088257A2 (ko) * 2008-01-09 2009-07-16 Lg Electronics Inc. 프레임 타입 식별 방법 및 장치
CN102089817B (zh) * 2008-07-11 2013-01-09 弗劳恩霍夫应用研究促进协会 用于计算频谱包络数目的装置与方法
JP5325293B2 (ja) 2008-07-11 2013-10-23 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 符号化されたオーディオ信号を復号化するための装置および方法
CN101751926B (zh) * 2008-12-10 2012-07-04 华为技术有限公司 信号编码、解码方法及装置、编解码系统
EP3598446B1 (en) 2009-01-16 2021-12-22 Dolby International AB Cross product enhanced harmonic transposition
AU2014201331B2 (en) * 2009-06-29 2015-10-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Bandwidth extension encoder, bandwidth extension decoder and phase vocoder
EP2273493B1 (en) 2009-06-29 2012-12-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Bandwidth extension encoding and decoding
CA2807889C (en) 2010-08-12 2016-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Resampling output signals of qmf based audio codecs
JP5633431B2 (ja) * 2011-03-02 2014-12-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
EP2710588B1 (en) 2011-05-19 2015-09-09 Dolby Laboratories Licensing Corporation Forensic detection of parametric audio coding schemes
CN104143341B (zh) * 2013-05-23 2015-10-21 腾讯科技(深圳)有限公司 爆音检测方法和装置
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
JP6763194B2 (ja) * 2016-05-10 2020-09-30 株式会社Jvcケンウッド 符号化装置、復号装置、通信システム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1039897A (ja) * 1996-03-19 1998-02-13 Lucent Technol Inc オーディオ信号を符号化する方法および装置および知覚的に符号化されたオーディオ信号を処理する装置
WO2001026095A1 (en) * 1999-10-01 2001-04-12 Coding Technologies Sweden Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
JP2001521648A (ja) * 1997-06-10 2001-11-06 コーディング テクノロジーズ スウェーデン アクチボラゲット スペクトル帯域複製を用いた原始コーディングの強化
JP2002041097A (ja) * 2000-06-02 2002-02-08 Lucent Technol Inc 符号化方法、復号化方法、符号化器、及び復号化器

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0685607A (ja) * 1992-08-31 1994-03-25 Alpine Electron Inc 高域成分復元装置
CA2102080C (en) * 1992-12-14 1998-07-28 Willem Bastiaan Kleijn Time shifting for generalized analysis-by-synthesis coding
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JPH11504733A (ja) * 1996-02-26 1999-04-27 エイ・ティ・アンド・ティ・コーポレーション 聴覚モデルによる量子化を伴う予測残余信号の変形符号化による多段音声符号器
JP2000267700A (ja) 1999-03-17 2000-09-29 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 音声符号化復号方法および装置
US6377915B1 (en) 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
CA2290037A1 (en) * 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
JP4313993B2 (ja) 2002-07-19 2009-08-12 パナソニック株式会社 オーディオ復号化装置およびオーディオ復号化方法
JP3879922B2 (ja) * 2002-09-12 2007-02-14 ソニー株式会社 信号処理システム、信号処理装置および方法、記録媒体、並びにプログラム
SE0301273D0 (sv) * 2003-04-30 2003-04-30 Coding Technologies Sweden Ab Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1039897A (ja) * 1996-03-19 1998-02-13 Lucent Technol Inc オーディオ信号を符号化する方法および装置および知覚的に符号化されたオーディオ信号を処理する装置
JP2001521648A (ja) * 1997-06-10 2001-11-06 コーディング テクノロジーズ スウェーデン アクチボラゲット スペクトル帯域複製を用いた原始コーディングの強化
WO2001026095A1 (en) * 1999-10-01 2001-04-12 Coding Technologies Sweden Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
JP2003529787A (ja) * 1999-10-01 2003-10-07 コーディング テクノロジーズ スウェーデン アクチボラゲット 可変時間/周波数分解能および時間/周波数切り替えを使用する効率的なスペクトルエンベロープ符号化
JP2002041097A (ja) * 2000-06-02 2002-02-08 Lucent Technol Inc 符号化方法、復号化方法、符号化器、及び復号化器

Also Published As

Publication number Publication date
WO2005036527A1 (ja) 2005-04-21
US20060256971A1 (en) 2006-11-16
EP1672618B1 (en) 2010-12-15
US7451091B2 (en) 2008-11-11
DE602004030594D1 (de) 2011-01-27
EP1672618A4 (en) 2008-06-25
EP1672618A1 (en) 2006-06-21
JP4767687B2 (ja) 2011-09-07

Similar Documents

Publication Publication Date Title
JP4767687B2 (ja) スペクトル包絡線符号化のための時間境界及び周波数分解能の決定方法
JP4918841B2 (ja) 符号化システム
JP3762579B2 (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
EP1334484B1 (en) Enhancing the performance of coding systems that use high frequency reconstruction methods
JP6037156B2 (ja) 符号化装置および方法、並びにプログラム
KR101586317B1 (ko) 신호 처리 방법 및 장치
US8856049B2 (en) Audio signal classification by shape parameter estimation for a plurality of audio signal samples
US7110941B2 (en) System and method for embedded audio coding with implicit auditory masking
AU2009267529B2 (en) Apparatus and method for calculating bandwidth extension data using a spectral tilt controlling framing
JP5942358B2 (ja) 符号化装置および方法、復号装置および方法、並びにプログラム
JP5485909B2 (ja) オーディオ信号処理方法及び装置
JP3739959B2 (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
US20040083110A1 (en) Packet loss recovery based on music signal classification and mixing
JP2010540990A (ja) 埋め込み話声およびオーディオコーデックにおける変換情報の効率的量子化のための方法および装置
JP4021124B2 (ja) デジタル音響信号符号化装置、方法及び記録媒体
EP1441330B1 (en) Method of encoding and/or decoding digital audio using time-frequency correlation and apparatus performing the method
JP2009534713A (ja) 低減ビットレートを有するデジタル音声データを符号化するための装置および方法
JP5390690B2 (ja) 音声コーデックの品質向上装置およびその方法
US7466245B2 (en) Digital signal processing apparatus, digital signal processing method, digital signal processing program, digital signal reproduction apparatus and digital signal reproduction method
US20080027732A1 (en) Bitrate control for perceptual coding
JP2005148539A (ja) オーディオ信号符号化装置およびオーディオ信号符号化方法
JP2002304184A (ja) 電子透かし情報埋め込み装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110615

R150 Certificate of patent or registration of utility model

Ref document number: 4767687

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140624

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees