JPWO2008072524A1 - オーディオ信号符号化方法及び復号化方法 - Google Patents

オーディオ信号符号化方法及び復号化方法 Download PDF

Info

Publication number
JPWO2008072524A1
JPWO2008072524A1 JP2008549262A JP2008549262A JPWO2008072524A1 JP WO2008072524 A1 JPWO2008072524 A1 JP WO2008072524A1 JP 2008549262 A JP2008549262 A JP 2008549262A JP 2008549262 A JP2008549262 A JP 2008549262A JP WO2008072524 A1 JPWO2008072524 A1 JP WO2008072524A1
Authority
JP
Japan
Prior art keywords
audio signal
subframe
value
encoding
gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008549262A
Other languages
English (en)
Other versions
JP5238512B2 (ja
Inventor
津島 峰生
峰生 津島
明久 川村
明久 川村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2008549262A priority Critical patent/JP5238512B2/ja
Publication of JPWO2008072524A1 publication Critical patent/JPWO2008072524A1/ja
Application granted granted Critical
Publication of JP5238512B2 publication Critical patent/JP5238512B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

低遅延を実現することができるだけでなく、符号化効率を高め、かつ、符号化に伴う音質の劣化を削減する。オーディオ信号を符号化するオーディオ信号符号化方法であって、複数のサンプル毎に分割したフレームに含まれるオーディオ信号に基づいて、フレームを2以上に分割したサブフレーム毎に符号化すべきか否かをフレーム毎に判断する判断ステップと、サブフレーム毎に符号化すべきと判断された場合に、サブフレーム毎に、該サブフレームのオーディオ信号の特性を示す値を決定し、決定された値を用いてオーディオ信号を符号化するサブフレーム処理ステップとを含み、サブフレーム処理ステップでは、サブフレーム毎に決定された値が全て同じであるか否かを判定し、値が全て同じである場合、例外処理として決定された値が示すオーディオ信号の特性とは異なる特性を用いて、前記オーディオ信号を符号化する。

Description

本発明は、オーディオ信号の符号化方法及び復号化方法に関するものである。
従来のオーディオ信号符号化方法及び復号化方法としては、公知なものとしてISO/IECの国際標準方式、通称MPEG(Moving Picture Experts Group)方式などが挙げられる。現在、幅広い応用を持ち、低ビットレート時でも高音質な符号化方式として、ISO/IEC14496−3、通称MPEG−4 GA(General Audio Coding)(非特許文献1参照)などがあげられる。本方式の拡張規格も複数規格化が現在なされている。
その一つとして、符号化及び復号化における遅延を小さくする低遅延技術がある。例えば、ISO/IEC国際標準規格であるMPEG−4 Audio(ISO/IEC 14496−3)において定められたLow Delay AAC(Advanced Audio Coding)方式がある。また、別の例としては、特許文献1及び非特許文献2に記載の技術がある。
以下では、非特許文献2に記載された従来のオーディオ信号符号化方法及び復号化方法について説明する。
図1は、従来のオーディオ信号符号化装置の構成図である。同図のオーディオ信号符号化装置100は、特に、処理にかかる遅延を小さくすることを特徴とする装置である。オーディオ信号符号化装置100は、聴覚的冗長性除去部101と、情報量的冗長性除去部102とを備える。
聴覚的冗長性除去部101は、入力されたオーディオ信号から、聴覚的な冗長性を除去する。すなわち、人が有する聴覚の特性に基づいてオーディオ信号から人が知覚しない成分を除去する。聴覚的冗長性除去部101は、聴覚モデル103と、プレフィルタ部104と、量子化部105とを備える。
聴覚モデル103は、符号化されたオーディオ信号の音質劣化を決定する重要な要素であり、継時マスキングや同時マスキングなど当業者には公知な技術を用いて、人に知覚されない周波数成分の音及びそのレベルを選別する。その結果、人に知覚される周波数成分の音が各周波数帯域においてどのレベルであるのかを入力されたオーディオ信号に対して適応的に算出する。聴覚モデル103は、算出した結果に基づいてプレフィルタ部104がいかなるフィルタを用いるかを示す情報をプレフィルタ部104に出力する。同時に、この情報をオーディオ信号符号化装置の出力信号であるオーディオ信号の符号化列に含めて出力する。聴覚モデル103は、例えば、MPEG−1 Layer III(通称MP3)の規格書に記載のある聴覚モデルである。入力されるデジタルオーディオ信号列は、まず聴覚モデル103に入力される。
プレフィルタ部104は、聴覚モデル103から入力されるいかなるフィルタを用いるかを示す情報、具体的には、人に知覚される周波数成分の音が各帯域においてどのレベルであるかを示す値を基に、入力されたデジタルオーディオ信号列から人に知覚されないレベルの成分の音をフィルタによって除去する。これにより、プレフィルタ部104は、人が知覚しない成分を除去したオーディオ信号列を出力する。プレフィルタ部104は、非特許文献2にあるように、複数の線形予測フィルタで構成する。
量子化部105は、プレフィルタ部104から入力されるオーディオ信号列に対して、整数値以下の値を四捨五入することで量子化を行い、整数値のオーディオ信号列を出力する。
以上のように、聴覚的冗長性除去部101は、入力されるオーディオ信号列に対して、人が知覚しない成分を除去し、整数値に量子化したオーディオ信号列を出力する。
情報量的冗長性除去部102は、聴覚的冗長性除去部101から入力されるオーディオ信号列から、情報量的な冗長性を除去することによって、符号化効率を高める。情報量的冗長性除去部102は、ロスレス符号化部106を備える。
ロスレス符号化部106は、従来から提案されており、当業者には公知の技術であるハフマン符号化などの手法で構成される。ロスレス符号化部106へ入力されるオーディオ信号列は、前段の量子化部105によって、整数値化されている。このため、ハフマン符号化などのロスレス符号化部106は、その整数値化された値に対して、情報量的な冗長性を取り除くことによって符号化効率が高まることになる。
以上の構成により、従来のオーディオ信号符号化装置100は、プレフィルタ部104でいかなるプレフィルタが使用されたか、具体的には、どのような線形予測係数で構成されたのかを示す情報と、ロスレス符号化部106で符号化されたオーディオ信号列(情報)との両方を符号化列として出力する。
続いて、従来のオーディオ信号復号化装置について説明する。
図2は、従来のオーディオ信号復号化装置の構成図である。同図のオーディオ信号復号化装置200は、符号化されたオーディオ信号を復号化する。オーディオ信号復号化装置200は、ロスレス復号化部201と、ポストフィルタ部202とを備える。
ロスレス復号化部201は、ロスレス符号化部106が出力する符号化列に対してロスレス復号によりオーディオ信号列を復号化する。
ポストフィルタ部202では、復号化された線形予測係数列から、ポストフィルタ(プレフィルタ部104で用いられたフィルタの逆フィルタ)を構成する。ロスレス復号化部201でロスレス復号されたオーディオ信号列に対してポストフィルタを施すことで得られた結果であるオーディオ信号列を最終的に出力する。
以上のように図1及び図2に示すオーディオ信号符号化装置及びオーディオ信号復号化装置を用いることで、AAC等の符号化及び復号化方法を用いるよりも遅延が小さくなる。これは、AAC等の方式が有する1フレームが1024サンプルなどの一括直交変換部分に要する遅延がなくなり、対して、プレフィルタやポストフィルタの消費する遅延が小さいことから、結果的に低遅延化することが可能になるためである。
WO2005/078705号公報 ISO/IEC 14496−3:2005"General Audio Coding" 学会論文"Perceptual Audio Coding Using Adaptive Pre− and Post−Filters and Lossless Compression"(IEEE Transaction on Speech and Audio Processing, vol.10, No.6, September 2002)
しかしながら、上記従来のオーディオ信号符号化方法及び復号化方法では、以下の課題がある。
例えば、MPEG規格であるLow Delay AACなどでは、AAC方式を用いた技術としては低遅延であるが、それでも遅延は60ms程度であり、さらなる改良を加えたものでも40ms程度である。双方向のコミュニケーションで使用する際には、遅延が十分に小さいとは言えないという課題があった。
一方、非特許文献2に記載の技術では、遅延は10数ms程度に抑えられるが、低レート化が難しいという課題がある。さらに、入力されるオーディオ信号に対して、量子化部105が量子化する処理は、フレーム毎に処理される。このため、時間的に大きな変動を有するオーディオ信号列が入力された場合、量子化部105による量子化ノイズ(符号化にともなう音質劣化)が適切に制御できないという課題がある。また、十分な符号化効率をロスレス符号化部106で確保できないという課題がある。
そこで、本発明は、上記課題を解決するためになされたものであり、低遅延を実現することができるだけでなく、さらに、符号化効率を高め、かつ、符号化に伴う音質の劣化を削減することができるオーディオ信号符号化方法及び復号化方法を提供することを目的とする。
上記課題を解決するため、本発明のオーディオ信号符号化方法は、オーディオ信号を符号化するオーディオ信号符号化方法であって、前記オーディオ信号を複数のサンプル毎に分割したフレームに含まれるオーディオ信号に基づいて、前記フレームを2以上に分割したサブフレーム毎に符号化すべきか否かを前記フレーム毎に判断する判断ステップと、前記サブフレーム毎に符号化すべきでないと判断された場合に、前記フレーム毎に、該フレームのオーディオ信号の特性を示す第1の値を決定し、決定された前記第1の値を用いて前記オーディオ信号を符号化するフレーム処理ステップと、前記サブフレーム毎に符号化すべきと判断された場合に、前記サブフレーム毎に、該サブフレームのオーディオ信号の特性を示す第2の値を決定し、決定された前記第2の値を用いて前記オーディオ信号を符号化するサブフレーム処理ステップとを含み、前記サブフレーム処理ステップでは、前記サブフレーム毎に決定された前記第2の値が全て同じであるか否かを判定し、前記第2の値が全て同じである場合、例外処理として前記第2の値の少なくとも1つは異なる値とすることで、前記オーディオ信号を符号化する。
これにより、低遅延を実現することができるだけでなく、さらに、符号化効率を高め、かつ、符号化に伴う音質の劣化を削減することができる。さらに、例外的な処理を実行させる機能を有しており、符号化の無駄を活用することができる。ここで、符号化の無駄とは、サブフレーム毎に分割して得られた符号化データと、フレーム毎に分割して得られた符号化データとが同一の意味を示していることをいう。サブフレーム毎に分割して得られた符号化データは、フレーム毎に分割して得られた符号化データよりビット数が、通常、多くなる。すなわち、同一のことを示すのであれば、フレーム毎に分割して得られた符号化データの方が、ビット数が少なくすむので好ましい。
また、前記サブフレーム処理ステップでは、隣接するサブフレーム間で前記第2の値が同じ値であるか異なる値であるかを識別する識別符号を、全てのサブフレーム間に対して符号化し、全ての前記識別符号が、全ての前記第2の値が同じであることを示す場合に、前記例外処理として前記第2の値の少なくとも1つは異なる値とすることで、前記オーディオ信号を符号化してもよい。
これにより、符号化効率を高めることができる。
また、前記例外処理では、前記第2の値が、隣接するサブフレーム間において単調増加又は単調減少するものとみなすことで、前記オーディオ信号を符号化してもよい。
また、前記第1の値及び前記第2の値は、前記オーディオ信号の正規化に用いられるゲイン値、又は、量子化精度を決定する値としてもよい。
また、本発明のオーディオ信号復号化方法は、上述のオーディオ信号符号化方法によって符号化されたオーディオ信号の符号化列を復号化するオーディオ信号復号化方法であって、前記符号化列が前記サブフレーム処理で符号化されている場合、前記例外処理が実行されていることを識別することで、前記符号化列を復号化する復号化ステップを含む。
これにより、例外処理を含んだ符号化処理が実行された符号化列に対して、適した復号化を実施することができる。
また、本発明のオーディオ信号符号化方法及び復号化方法は、装置として実現することができる。さらに、本発明は、それぞれの方法の各ステップをコンピュータに実行させるプログラム、及び、該プログラムを記録するコンピュータ読み取り可能な記録媒体として実現することができる。
本発明のオーディオ信号符号化方法及び復号化方法では、低遅延を実現することができるだけでなく、さらに、符号化効率を高め、かつ、符号化に伴う音質の劣化を削減することができる。
図1は、従来のオーディオ信号符号化装置の構成図である。 図2は、従来のオーディオ信号復号化装置の構成図である。 図3は、本実施の形態のオーディオ信号符号化装置の構成図である。 図4は、入力された1フレームのオーディオ信号列をサブフレームに分割したことを示す図である。 図5は、符号ストリーム構造の一例を示す図である。 図6は、ビットストリームシンタックスの一例を示す図である。 図7は、本実施の形態のオーディオ信号符号化装置の動作を示すフローチャートである。 図8は、例外処理となりうるオーディオ信号列の一例を示す図である。 図9は、本実施の形態のオーディオ信号復号化装置の構成図である。 図10は、従来のビットストリームシンタックスの一例を示す図である。 図11は、ビットストリームシンタックスの一例を示す図である。 図12は、例外処理となりうるオーディオ信号列の一例を示す図である。 図13は、例外処理となりうるオーディオ信号列の一例を示す図である。
符号の説明
100、300 オーディオ信号符号化装置
101、311、321 聴覚的冗長性除去部
102、312、322 情報量的冗長性除去部
103、313、323 聴覚モデル
104、314、324 プレフィルタ部
105、315 量子化部
106、316、326 ロスレス符号化部
200、400 オーディオ信号復号化装置
201、401 ロスレス復号化部
202、402 ポストフィルタ部
301 判断部
310 フレーム処理部
320 サブフレーム処理部
325 サブフレーム量子化部
403 ゲイン増幅部
以下、本発明の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
本実施の形態のオーディオ信号符号化装置は、フレーム毎に符号化するフレーム符号化モードと、フレームをさらに2以上に分割したサブフレーム毎に符号化するサブフレーム符号化モードとを選択することができる。さらに、サブフレーム符号化モードにおいて、サブフレーム毎に決定されたゲイン値が、時間的に連続するサブフレーム間で同じ値であるか、異なる値であるかを示す情報を符号化する。決定されたゲイン値が全てのサブフレームで同じ値である場合、フレーム毎に1つのゲイン値を決定した場合と同様であるため、通常の処理(全てのサブフレームでゲイン値を同じ値であるとみなした場合の符号化処理)とは異なる例外処理を行う。なお、本実施の形態において、ゲインは、オーディオ信号のある振幅を1としたときの比を表すものであり、オーディオ信号の正規化に用いられる値である。
図3は、本実施の形態のオーディオ信号符号化装置の構成図である。
同図のオーディオ信号符号化装置300は、判断部301と、フレーム処理部310と、サブフレーム処理部320とを備える。なお、フレーム処理部310は、図1に示す従来のオーディオ信号符号化装置100に相当する。フレーム処理部310が備える聴覚的冗長性除去部311と、情報量的冗長性除去部312とは、それぞれ、図1の聴覚的冗長性除去部101と、情報量的冗長性除去部102とに相当する。また、聴覚的冗長性除去部311が備える聴覚モデル313と、プレフィルタ部314と、量子化部315とは、それぞれ、図1の聴覚モデル103と、プレフィルタ部104と、量子化部105とに相当する。情報量的冗長性除去部312が備えるロスレス符号化部316は、図1のロスレス符号化部106に相当する。したがって、ここでは同じ構成要素については説明を省略し、異なる点を中心に説明する。
判断部301は、フレームに含まれるオーディオ信号に基づいて、サブフレーム毎に符号化するべきか否かを判断することで、フレーム処理部310とサブフレーム処理部320とのいずれにオーディオ信号列を出力するかを決定する。
具体的には、判断部301は、入力されたオーディオ信号列に対して、サブフレーム毎に最大振幅(エネルギー)を検出することで、フレーム毎に符号化を行うべき(フレーム符号化モード)か、サブフレーム毎に符号化を行うべき(サブフレーム符号化モード)かを判断する。フレーム符号化モードが選択された場合は、入力されたオーディオ信号列をフレーム処理部310に出力する。サブフレーム符号化モードが選択された場合は、入力されたオーディオ信号列をサブフレーム処理部320に出力する。
サブフレーム処理部320は、入力されたオーディオ信号列に対して、サブフレーム毎に符号化を実行する。サブフレーム処理部320は、聴覚的冗長性除去部321と、情報量的冗長性除去部322とを備える。なお、情報量的冗長性除去部322、及び、該情報量的冗長性除去部322が備えるロスレス符号化部326は、図1の情報量的冗長性除去部102とロスレス符号化部106とに相当する。したがって、ここでは、情報量的冗長性除去部102とロスレス符号化部106とについては説明を省略し、聴覚的冗長性除去部321について説明する。
聴覚的冗長性除去部321は、サブフレーム毎に聴覚的な冗長性を除去する。聴覚的冗長性除去部321は、聴覚モデル323と、プレフィルタ部324と、サブフレーム量子化部325とを備える。なお、聴覚モデル323とプレフィルタ部324とは、それぞれ、図1の聴覚モデル103とプレフィルタ部104と同じ構成である。したがって、ここでは、聴覚モデル323とプレフィルタ部324とについては説明を省略し、サブフレーム量子化部325について説明する。
サブフレーム量子化部325は、プレフィルタ部324から入力されるオーディオ信号列に対して、1フレームのオーディオ信号を2以上のサブフレームに分けて、サブフレーム毎に、ゲインを乗じて量子化を実施する。
サブフレーム量子化部325に入力されるオーディオ信号列をy(i)として、ゲインをGpとした場合、量子化の対象となる値x(i)について、式1で示すような関係が得られる。
(式1) y(i)= Gp × x(i)
式1のような関係から、ゲインGpを決定することで、x(i)が導出される。一般に、x(i)は実数値であり、サブフレーム量子化部325は、実数値であるx(i)を整数値に量子化する。そして、量子化されたx(i)をロスレス符号化部326へ出力する。
図4は、入力された1フレームのオーディオ信号列を4つのサブフレームに分割したことを示す図である。図4において、横軸に時間、縦軸にオーディオ信号の振幅を示した。1フレームのサンプル数を、特に限定しないが一例として、128個のサンプルとした。1フレームのオーディオ信号列を、32個のサンプル毎に4つのサブフレームに均一に分割した場合を示した。なお、本発明は、サブフレームの数や各サブフレームの長さが均一であることに拘らない。
図4の場合、サブフレーム2及びサブフレーム3の振幅がサブフレーム1及びサブフレーム4の振幅と比較して大きい。このため、全てのサブフレームを均一に整数値に量子化する場合、サブフレーム2及びサブフレーム3の振幅値を小さくするようなゲインの値を取ると、サブフレーム1及びサブフレーム4の振幅値にゼロが頻出して、音質劣化が発生する可能性がある。また、サブフレーム1及びサブフレーム4の振幅値を確保するようにゲインの値を取ると、サブフレーム2及びサブフレーム3の値が大きくなることで、符号化効率が悪くなり、結果的にビットレートが高くなる可能性がある。
以上のことから、図4の場合は、サブフレーム1及びサブフレーム4に対して、サブフレーム2及びサブフレーム3のサブフレーム量子化(設定すべきゲインの値)を切り替えた方が音質劣化を抑え、かつ、符号化効率を高められる可能性がある。
音質劣化を抑え、かつ、符号化効率を高める符号化を実施可能とするため、図3に示すように、サブフレーム量子化部325は、入力された原音に相当するオーディオ信号列、プレフィルタ部324の出力結果、及び、聴覚モデル323の出力のいずれか、又は、全てを参照として用いてもよい。例えば、プレフィルタ部324から入力されたオーディオ信号列の振幅値の大小に関わらず、原音の振幅値に基づいて大振幅の前にある小振幅を有するサブフレームでは、音質向上のために十分に大きなゲインを確保してもよい。
図5は、符号化ストリーム構造の一例を示す図である。
ゲイン情報を格納するストリームの最初は、ゲインがどのように格納されるかを示すゲインコンフィグレーション情報を示す。同図に示す例では、値が“0”の場合には、複数のサブフレームに対して、ゲインがただ1つの値を与える場合を示す。値が“1”の場合には、複数のサブフレームに対して、ゲインが2つ以上の値が与えられる場合を示す。ゲインコンフィグレーション情報の設定は、判断部301によって行われる。判断部301は、入力された1フレームのオーディオ信号に対して、サブフレームで共通のゲインの値を利用するか(値を“0”に設定)、サブフレーム毎に異なるゲインの値を利用するか(値を“1”に設定)を選択する。
すなわち、ゲインコンフィグレーション情報の先頭の値が“0”であることは、フレーム符号化モードを実行することを示す。ゲインコンフィグレーション情報の先頭の値が“1”であることは、サブフレーム符号化モードを実行することを示す。
ゲインコンフィグレーション情報の先頭の値が“1”である場合に“1”に続く値として、図5に示すように、サブフレームの数が4つである場合、サブフレームより1つ少ない3つの値“x”、“y”、“z”を格納する構造を有する。これらの“x”、“y”、“z”は、サブフレーム間の相互関係を示す値である。当然ながらサブフレームの数は4に限定されない。“x”はサブフレーム1とサブフレーム2のゲインの値が同じ値である場合に、“0”を値としてとる。サブフレーム1とサブフレーム2のゲインの値が異なる場合には“1”を値としてとる。“y”はサブフレーム2とサブフレーム3のゲインの値が同じ値である場合に“0”を値としてとる。サブフレーム2とサブフレーム3のゲインの値が異なる場合には“1”を値としてとる。“z”はサブフレーム3とサブフレーム4のゲインの値が同じ値である場合に“0”を値としてとる。サブフレーム3とサブフレーム4のゲインの値が異なる場合には“1”を値としてとる。ゲインコンフィグレーション情報の先頭の値が“1”である場合に続くサブフレーム間の相互関係を示す値の設定は、サブフレーム量子化部325によって行われる。なお、当然ながら、“0”と“1”は反対の意味を持たせてもよい。すなわち、“0”が時間的に連続するサブフレーム間でのゲインの値が異なる場合を示し、“1”が時間的に連続するサブフレーム間でのゲインの値が同じ値である場合を示してもよい。
以上のようにしてゲインコンフィグレーション情報を設定する。ゲインのコンフィグレーション情報が“0”の場合は、ゲインのパラメタは全部で1つしかない。また、ゲインのコンフィグレーション情報が、例えば“1010”の場合は、ゲインのパラメタは2つである。具体的には、サブフレーム1とサブフレーム2のゲインの値が同じ値で、サブフレーム2とサブフレーム3のゲインの値は異なる値で、サブフレーム3とサブフレーム4のゲインの値が同じ値となる。
なお、特異的に、ゲインのコンフィグレーション情報が“1000”となる場合が考えられる。この場合、通常の処理とは異なる例外的な処理を実行するものとする。このように例外的な処理を設けた理由は、以下の通りである。
ゲインのコンフィグレーション情報が“1000”となる場合は、上記に述べた通常の意味として捉えるとゲインの値が2以上あり、しかしながら、サブフレーム1からサブフレーム4の全てのゲインの値が同じと定義されてしまう。つまり、ゲインコンフィグレーション情報が“0”と“1000”とは、1つのフレーム(全てのサブフレーム)で単一のゲインを有することを意味する。つまり、同じ情報を示すために、少なくとも3ビットが無駄になる。このように、判断部301がサブフレーム符号化モードを選択し、サブフレーム毎に分割して処理を行った場合であっても、フレーム符号化モードを実行した場合と、同様の結果が出力されることがある。この場合、結果的に、符号化効率が悪くなってしまうためである。
通常の処理とは異なる例外的な処理として、サブフレームのゲインは、例えば、単調増加(又は、単調減少)と定義する。
なお、符号化ストリームにおいて、ゲインコンフィグレーション情報に続く、実際のサブフレームのゲインを導出する符号化列については、まず、値g1が続き、さらに、値delta_gxが続く。値g1は、サブフレーム1に含まれるオーディオ信号の最大振幅などを利用して求められたゲインを符号化することで得られる値である。値delta_gxは、サブフレームx−1のゲインとサブフレームxのゲインとの差を符号化することで得られる値である。xは2以上の整数値であり、xの最大値はサブフレーム数(図5では4)である。
値g1及び値delta_gxに対して、後述する復号化処理を行うことで、それぞれ、G1及びdelta_Gxが導出される。G1は、サブフレーム1のゲインを示す値である。delta_Gxは、サブフレームx−1のゲインとサブフレームxのゲインとの差を示す値である。
1つのフレームでゲインの値が1つの場合は、符号化処理では、符号化された値g1のみがゲインコンフィグレーション情報に続く。復号化処理では、値g1からゲインG1を導出し、G1=G2=G3=G4とする。1つのフレームでゲインの値が2つ以上の異なる値である場合は、符号化処理では、値g1に続いて、値delta_g2、delta_g3、delta_g4が続く。復号化処理では、まず、値g1からゲインG1を導出する。続いて、delta_g2を復号化した値であるdelta_G2から、G2=G1+delta_G2を算出する。以下、delta_g3及びdelta_g4を復号化し、順次、ゲインG3及びG4を算出する。
図6はビットストリームシンタックスの一例であり、図5の符号化ストリーム構造例をより具体的に示したものである。“syntax”側に書かれたものがビットストリームシンタックスの一例で、“number of bits”がその際に使用されるビット数の一例である。syntaxにボールドフォントのイタリック体で記載されたものが、ビットストリームとして符号化されるべきものである。ボールドフォントでないイタリック体で記載されたものは、一度ビットストリームとして読み込まれた場合にその値を保持した変数である。ビット数で記載のあるnumGainBits、numMonoDeltaBits及びnumDeltaBitsは、実装の際に、ある整数値があてがわれる。
図6において、bs_multi_gainは、ゲインが単一であるのか、複数のサブフレームで少なくとも2つ以上の異なる値からなるのかを識別するフラグ情報である。すなわち、図5のゲインコンフィグレーション情報の先頭の値を示す。例として、図5と同様に、bs_multi_gainが0であれば、ゲインは単一であることを示す。bs_multi_gainが1であれば複数のサブフレームで少なくとも2つ以上の異なる値からなることを示す。
bs_same_gain[num]は、num−1番目のサブフレーム(以下、num−1サブフレームと記す)のゲインと、num番目のサブフレーム(以下、numサブフレームと記す)のゲインとが同一であるかどうかを識別するフラグ情報である。すなわち、図5のゲインコンフィグレーション情報の“x”、“y”、“z”を示す。例として、bs_same_gain[num]が0である場合は、num−1サブフレームとnumサブフレームのゲインが同一であることを示す。bs_same_gain[num]が1である場合は、違う値のゲインであることを示す。
bs_gain[0]は、ゲインを導出するために用いられる値である。ゲインが単一である(bs_multi_gainが0である)場合は、bs_gain[0]を用いて導出されるゲイン値が、全てのサブフレームのゲイン値である。複数のサブフレームで少なくとも2つ以上の異なる値からなる(bs_multi_gainが1である)場合は、bs_gain[0]を用いて導出されるゲイン値は、最初のサブフレームのゲイン値である。
bs_same_gain[num]が0であるフレームにおいては、numが小さなフレームから順に、num−1サブフレームとnumサブフレームのゲインの差を導出(又は、numサブフレームのゲイン値を導出)する値を、bs_delta[num]として符号化している。
図6に示すsyntaxでは、bs_same_gain[num]が全て0である場合に備え、例外処理を行う記載がなされている。ここでは、例外処理として、ゲインが単調増加することを意味している。したがって、あるサブフレームとその直前のサブフレームとの差分を導出する値をbs_mono_deltaとして符号化している。すなわち、bs_mono_deltaは、単調増加の増加割合を導出するための値である。よって、単調増加の増加量を直接符号化してもよく、また、間接的にテーブルなどから導出してもよい。
次に、本実施の形態のオーディオ信号符号化装置の動作について説明する。
図7は、本実施の形態のオーディオ信号符号化装置の動作を示すフローチャートである。
判断部301は、オーディオ信号列が入力されると、フレーム符号化処理モード及びサブフレーム符号化モードのいずれかを選択する(S101)。すなわち、図6のbs_multi_gainを決定する。フレーム符号化モードが選択された場合(S101でNo)、オーディオ信号列をフレーム処理部310へ出力する。この場合、フレーム処理部310において、bs_multi_gainが0と設定される。サブフレーム符号化モードが選択された場合(S101でYes)、オーディオ信号列をサブフレーム処理部320へ出力する。この場合、サブフレーム処理部320において、bs_multi_gainが1と設定される。
具体的には、判断部301は、オーディオ信号列の最大振幅を用いてオーディオ信号列の変動を検出する。オーディオ信号に変動がほとんどない場合、例えば、最大振幅がある閾値以下である場合は、フレーム毎で量子化及び符号化するべきであり、オーディオ信号列をフレーム処理部310へ出力する。逆に、最大振幅がある閾値より大きい場合は、サブフレーム毎で量子化及び符号化するべきであり、オーディオ信号列をサブフレーム処理部320へ出力する。図4の例のオーディオ信号列は変動が大きいために、サブフレーム処理部320へ出力され、サブフレーム毎に量子化及び符号化される。
サブフレーム符号化モードが選択された場合(S101でYes)、サブフレーム量子化部325は、サブフレーム毎にゲインを決定し、決定されたゲインの相互関係を検出する(S102)。具体的には、サブフレーム毎に決定されたゲイン値が同じ値であるか、異なる値であるかを検出する。すなわち、図5の“x”、“y”、“z”に相当する値を検出する。
次に、検出された相互関係(サブフレーム毎のゲインの値)を判断する(S103)。決定されたゲインが、複数のサブフレームで少なくとも2つ以上の異なる値である場合(S103でYes)、サブフレーム毎にゲインを導出する(S104)。
具体的には、サブフレーム毎に決定されたゲインの値に対して、1番目のサブフレームのゲインの値との差を算出する。
決定されたゲインが、全てのサブフレームで同じ値である場合(S103でNo)、例外処理を実行する(S105)。ここでは、例外処理の一例として、決定されたゲインが単調増加(又は単調減少)するものとみなす。
図8は、例外処理が起こる可能性があるオーディオ信号列の一例を示す図である。なお、このようなオーディオ信号列は、ノイズに近い音から楽音などにフェードインする場合などに生じる。
同図に示すオーディオ信号列が入力されると、判断部301は、サブフレーム毎の最大振幅を用いることでオーディオ信号の変動が大きいと判断することができ、サブフレーム符号化モードを選択する。このとき、サブフレーム量子化部325は、サブフレームに含まれるオーディオ信号列をエネルギーレベルで判断することでゲイン値を決定するものとする。図8に示す例では、サブフレーム1〜サブフレーム4のエネルギーは、ほぼ等しい。したがって、ゲイン値は全てのサブフレームで単一の等しい値となる。つまり、ゲインコンフィグレーション情報は“1000”となる。
なお、仮に図8に示すオーディオ信号列に対して、判断部301でフレーム符号化モードが選択されたとすると、サブフレーム1〜サブフレーム4を1つのフレームとして判断され、単一のゲイン値が決定される。これにより、サブフレーム符号化モードを選択したにもかかわらず、フレーム符号化モードが選択された場合と同じ結果が出力される。すなわち、サブフレーム符号化モードが選択されたことが無駄になる。
以上のように、サブフレーム符号化モードが選択されたことが無駄になることを防ぐために、ゲインコンフィグレーション情報が“1000”となった場合に、例外処理として、ゲインが単調増加するものとみなして、サブフレーム毎にゲインの量子化及び符号化処理を実行する。
なお、選択処理(S101)において、フレーム符号化モードが選択された場合(S101でNo)、フレーム毎で1つのゲインを決定し、決定されたゲインを量子化及び符号化する(S106)。
1つのフレームに対して、上記の処理(S101〜S106)が終了すると、次のフレームに対して、同じ処理を繰り返す。
以上のように、本実施の形態では、サブフレーム符号化モードが選択された場合であっても、フレーム符号化モードが選択された場合と同様の結果が生じる場合に、例外的な処理を行う。これにより、処理が無駄になることを防ぐことができる。
ここで、本実施の形態との違いを明確にするために、従来のビットストリームシンタックスを示す。
図10は、従来のビットストリームシンタックスの一例であり、このシンタックスはAAC方式における複数のグルーピングと呼ばれるモジュールを構成するものである。このシンタックスにおいて、window_sequenceがEIGHT_SHORT_SEQUENCEと同値になった場合に、8つのMDCT(Modified Discrete Cosine Transform)係数列を何組かにグルーピングする構成である。いかにグループが構成されるかはビットストリーム変数であるscale_factor_grouping(7ビット)で示される。具体的には、8つのMDCT係数列が1つ前のMDCT係数列とグループを構成するか否かを示す情報が各1ビットずつの計7ビットで符号化されるものである。全てのビットで同じグループとして構成される情報が示された場合では、8つのMDCT係数列が1つのグループとされ符号化及び復号化される定義となっているだけである。すなわち、ゲインの単調増加などの別の処理に移ることはない。本実施の形態のように、結果的に無駄が生じる場合に、無駄の発生を防ぐための例外処理を実行することはない。
続いて、本実施の形態のオーディオ信号復号化方法を用いた装置について説明する。
図9は、本実施の形態のオーディオ信号復号化装置の構成図である。同図のオーディオ信号復号化装置400は、符号化されたオーディオ信号を復号化する。オーディオ信号復号化装置400は、ロスレス復号化部401と、ポストフィルタ部402と、ゲイン増幅部403とを備える。なお、ロスレス復号化部401と、ポストフィルタ部402とは、図1のロスレス復号化部201と、ポストフィルタ部202とに相当する。したがって、ロスレス復号化部401と、ポストフィルタ部402とについては説明を省略し、ゲイン増幅部403について説明する。
ゲイン増幅部403は、ポストフィルタ部402から入力されるオーディオ信号に対して、サブフレーム毎に、復号化されたオーディオ信号を増幅する。
以上のように、本実施の形態のオーディオ信号符号化方法及び復号化方法によれば、符号化時に無駄となりうる符号化パターンに対して例外処理を行うことで、有効に利用することができる。これにより、低遅延処理の利点を維持しつつ、音質劣化を抑え、かつ、高効率な符号化を達成することが可能となる。
以上、本実施の形態のオーディオ信号符号化方法及び復号化方法について説明したが、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
例えば、例外処理として、サブフレームが単調増加するとみなせる場合において、図11に示すように、単調増加するサブフレームの個数を符号化してもよい。
図11は、図6とは異なる形態のビットストリームシンタックスの一例であり、図5の符号化ストリーム構造例をより具体的に示したものである。“syntax”側に書かれたものがビットストリームシンタックスの一例で、“number of bits”がその際に使用されるビット数の一例である。syntaxに、ボールドフォントのイタリック体で記載されたものが、ビットストリームとして符号化されるべきものである。ボールドフォントでないイタリック体で記載されたものは、一度ビットストリームとして読み込まれた場合にその値を保持した変数である。ビット数で記載のあるnumGainBits、numSubFrBits、numMonoDeltaBits及びnumDeltaBitsは、実装の際に、ある整数値があてがわれる。
図11において、bs_multi_gain、bs_same_gain[num]及びbs_gain[0]は、図6のbs_multi_gain、bs_same_gain[num]及びbs_gain[0]と同じである。よって、これらについての説明は省略する。
図11において、図6と同様にbs_same_gain[num]がすべて0である場合においては、単調増加を意味している。bs_num_contは、いくつのサブフレームが単調増加するのかを導出する値である。そして、単調増加する個数のサブフレームにおいては、あるサブフレームとその直前にサブフレームとの差分を導出する値をbs_mono_deltaとして符号化している。例えば、全サブフレーム数が8つで、bs_num_contによって3つが単調増加であると導出される場合、サブフレーム1からサブフレーム2、サブフレーム2からサブフレーム3、サブフレーム3からサブフレーム4とbs_mono_deltaで導出される差分値でゲインは単調増加する。それ以降のサブフレーム、つまり、サブフレーム5からサブフレーム8は、例えば、サブフレーム4と同一の値をとるとする。
一方、bs_same_gain[num]が0であるフレームにおいては、numが小さなフレームから順に、num−1サブフレームのゲインとnumサブフレームのゲインとの差を導出(又は、numサブフレームのゲイン値を導出)する値を、bs_delta[num]として符号化している。
以上のように、図11のビットストリームシンタックスでは、例外処理を実施する場合において単調増加するサブフレームの個数を符号化することができる。これにより、符号化効率を高めることができる。
また、本実施の形態では、判断部301は、オーディオ信号の最大振幅を用いて、フレーム符号化モードとサブフレーム符号化モードとを選択したが、最大振幅ではなく、オーディオ信号のエネルギーを用いてもよい。
この場合であっても、図12に示すようなオーディオ信号列が入力された場合、例外処理を行う必要がある。図12は、例外処理が起こる可能性があるオーディオ信号列の一例を示す図であり、例えば、弦楽器又は打楽器で演奏された音源の場合のオーディオ信号列をしめす。弦楽器又は打楽器の場合、一音あたりの強度(最大振幅)は同じであるが、サブフレームに入る数が違うため、図12に示すようなオーディオ信号列が得られる。
図12に示すように、判断部301は、サブフレーム毎のエネルギーの変動が大きいことから、サブフレーム符号化モードを選択する。このとき、サブフレーム量子化部325は、サブフレームに含まれるオーディオ信号列を最大振幅で判断することでゲイン値を決定するものとする。図12に示す例では、サブフレーム1〜サブフレーム4の最大振幅はほぼ等しい。したがって、ゲイン値は全てのサブフレームで単一の等しい値となる。つまり、ゲインコンフィグレーション情報は“1000”となる。これにより、サブフレーム量子化部325は、図8の場合と同様に、例外処理を実行することとなる。
また、判断部301は、エネルギーを用いて判定し、サブフレーム符号化モードを選択した場合であっても、制限によりビットレートを上げることができない場合が考えられる。この場合、結果的に、各サブフレームでビット消費の小さいものを選択せざるを得なくなり、各サブフレームで同じ符号化処理を選択する。この場合も、ゲインコンフィグレーション情報は“1000”となる。これにより、図8及び図12の場合と同様に、サブフレーム量子化部325は、例外処理を実行することになる。
また、図13に示すように、AACなどの方式では、フレーム間の接続における連続性確保のため、時間的に前後するフレームがサブフレーム符号化モードで符号化されている場合、符号化の規程により現フレームもサブフレーム符号化を選択せざるを得なくなる。これにより、現フレームのオーディオ信号列に変動がほとんどないのであれば、ゲインコンフィグレーション情報は“1000”となる。これにより、サブフレーム量子化部325は、例外処理を実行することとなる。
また、本実施の形態では、ゲインの値を導出する際に、ゲインの値が予め用意されたテーブルなどで定義されていてもよい。この場合は、G1=table(g1)などの方法で復号化される場合もあり、その場合は、G2=table(g1+g2)や、G2=table(g1)+table2(g2)などとして復号化される場合もある。
ゲインのコンフィグレーション情報によって、単調増加(単調減少)と定義された場合においては、G2からG4の値は、Gp=Gp−1+delta Gp、Gp=table(gp−1+gp)、又は、Gp=table(gp−1)+tablep(gp)などのように復号化される。この場合pは2以上の整数である。
また、2つ以上のゲインの符号化において、差分符号化などを用いたが、差分情報を用いず、2つ目以降のゲインについて、前サブフレームの値を用いずにそのサブフレームの値を直接復号化できる値を用いてもよい。
また、本実施の形態では、フレーム毎での処理とサブフレーム毎の処理とを明確に分けて示すために、オーディオ信号符号化装置300は、図3に示すようにフレーム処理部310とサブフレーム処理部320とを備えるとしたが、例えば、聴覚モデル313と聴覚モデル323、プレフィルタ部314とプレフィルタ部324、及び、ロスレス符号化部316とロスレス符号化部326とは、それぞれ共通としてもよい。
(実施の形態2)
本実施の形態のオーディオ信号符号化方法及び復号化方法では、ロスレス符号化を行う際の符号化効率に影響を与える量子化精度情報に対して、符号化及び復号化を行う。すなわち、符号化及び復号化の対象がゲインではなく、量子化精度情報であるのが実施の形態1と異なる点である。本実施の形態では、実施の形態1と同じ点は説明を省略し、異なる点を中心に説明する。
本実施の形態のオーディオ信号符号化方法を実施する装置は、実施の形態1と同様に図3に示すオーディオ信号符号化装置である。
本実施の形態において、サブフレーム量子化部325は、量子化精度情報を量子化する。例えば、聴感上、重要なサンプルのオーディオ信号に対しては、十分な量子化精度を保持するために、量子化精度情報Rpを小さな値に設定する。
サブフレーム量子化部325に入力されるオーディオ信号を、y(i)として、量子化精度情報をRpとした場合、量子化の対象となるz(i)について、式2で示すような関係が得られる。
(式2) y(i)= Rp × z(i)
式2のような関係から、量子化精度情報Rpを決定することで、z(i)が導出される。一般に、z(i)は実数値であるので、サブフレーム量子化部325は、実数値であるz(i)を整数値に量子化する。そして、量子化されたz(i)をロスレス符号化部326へ出力する。
実施の形態1に示した式1と式2を比較して判るように、ゲインGpが量子化精度情報Rpになり、それに伴いx(i)がz(i)になっただけである。それ以外のモジュール、例えばロスレス符号化部326や聴覚モデル323などに変更はない。
以上のように、本実施の形態のオーディオ信号符号化方法及び復号化方法では、音質劣化を抑え、聴感上、重要なサンプルのオーディオ信号に対して、量子化精度情報Rpを小さな値に設定することで、結果z(i)の絶対値を大きくすることができる。これにより、実数から整数値に変換する量子化の過程で生じる量子化誤差の影響を小さくすることが可能となる。
(実施の形態3)
本実施の形態のオーディオ信号符号化方法及び復号化方法は、時間周波数変換を有するオーディオ信号符号化及び復号化方法へ適用することができる。この点が、実施の形態1及び2が、主に時間周波数変換処理を伴わない、いわゆる時間領域の符号化及び復号化方法であったこととの相違点である。
1つ目の適用は、MPEG2−AACに代表される、複数の変換長を有する一括直交変換方式における系への適用である。
この系では、入力されたオーディオ信号をあるサンプルごとにフレームを構成し、そのフレームのサンプルを一括直交変換して周波数スペクトル列を生成し、そのスペクトルを量子化及び符号化するものである。1フレームに対して1つの一括直交変換する場合と、1フレームに対して時間的に連続な複数の一括直交変換する場合とを切り替えて使用する。
1フレームに対して、時間的に連続な複数の一括直交変換をして、各々の一括直交変換から周波数スペクトル列を得るとき、各々の周波数スペクトル列に対する代表ゲインに対して、実施の形態1で述べた符号化方法を適用することで、符号化効率を高めることが可能となる。
2つ目の適用は、Low Delay AACに代表される、単一の変換長を有する一括直交変換方式における系への適用である。
この系では、入力されたオーディオ信号をあるサンプルごとにフレームを構成し、そのフレームのサンプルを一括直交変換して周波数スペクトル列を生成し、そのスペクトルを量子化及び符号化するものである。1フレームに対して1つの直交変換を施すものである。
したがって、1フレームに対して1つの直交変換しかないため、1フレーム内の時間的な変動を得られない。この場合は、時間的な変動情報を直交変換とは関係なく、別途、予め時間的な複数のサブフレームを構成しておいて、その時間的なゲイン情報を量子化し符号化するのに複数のサブフレームを用いる。復号化のプロセスでは、一括直交変換で復号化された1フレームのオーディオ信号に対して、前記の時間的なゲイン情報で補正するなどに複数のサブフレームを用いてもよい。
若しくは、1つの直交変換から得られる周波数スペクトル列に対して、周波数軸上で、複数のサブバンド(時間軸上のサブフレームに相当する)に分割して、各々のサブバンドに対する代表ゲインに対して、実施の形態1で述べた符号化方法を適用することで、符号化効率を高めることも可能である。
3つ目の適用は、QMF(Quadrature Mirror Filter)フィルタに代表される、時間周波数マトリクスを構成するポリフェーズフィルター方式における系への適用である。
この系では、複数の周波数サブバンドにおける複数サンプルからなる時間信号列が得られるものである。したがって、ある時間サンプルにおける複数の周波数サブバンドの信号のゲインに対して、実施の形態1で述べた符号化方法を適用してもよい。また、ある周波数サブバンドを選んで、その周波数サブバンドの複数サンプルからなる時間信号列に対して、1つ毎又は幾つか毎に、グルーピングした代表ゲインに対して、実施の形態1で述べた符号化方法を適用してもよい。
4つ目の適用は、3つ目の適用であるポリフェーズフィルター方式に加えて、追加処理として、DCTに代表される一括直交変換を加えた系における適用である。
この系では、ポリフェーズフィルター方式での出力は3つ目の適用と同様であるが、サブバンドの周波数間隔が大きい場合などにおいては、特に低域成分の周波数分解能が不足する。したがって、低域周波数成分の周波数分解能を向上させるため、ポリフェーズフィルターからの出力のうち、低域周波数成分に相当する時間信号列に対して、離散コサイン変換(DCT変換)などの直交変換を用いて、時間周波数変換し、低域の周波数分解能を向上させるものである。
この4つ目の適用では、前記2つ目と3つ目の適用の組み合わせで実現でき、例えば、低域においては、2つ目の適用と同様の手法をとり、高域においては、3つ目の手法を適用することができ、同様に符号化効率を高めることができる。
以上、オーディオ信号符号化方法及び復号化方法における時間周波数変換を有する様々な系においても、基本的に実施の形態1と同様の符号化方法及び復号化方法を用いれば、符号化効率を高めることができる。上記ではゲインの符号化について、述べたが、量子化精度に置き換えて実施の形態2と同様の符号化方法及び復号化方法を実施しても、同じように符号化効率の向上が期待できる。
以上のように、本実施の形態のオーディオ信号符号化方法及び復号化方法は、符号化対象をいくつかのグループ(例えば、時間軸上のフレーム及び周波数軸上のバンド)に分割して符号化する場合に、さらに、1つのグループを複数のサブグループ(例えば、時間軸上のサブフレーム及び周波数軸上のサブバンド)に分割して、サブグループ毎に符号化する場合に適用することができる。
以上、本発明のオーディオ信号符号化方法及び復号化方法について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。
例えば、本実施の形態では、例外処理としてゲイン値などを単調増加又は単調減少するものとみなす処理を用いたが、通常の処理でなければいかなる処理であってもよい。例えば、サブフレーム毎にゲイン値などが大小2つの値を交互にとるとみなす処理でもよい。また、サブフレーム毎にゲイン値などがあらかじめ定められた規則に従って変動するとみなす処理でもよい。
また、本実施の形態では、ゲイン値又は量子化精度を決定する値を量子化及び符号化するとしたが、量子化及び符号化の対象はこれらに限られない。オーディオ信号の符号化に関する他の値を量子化及び符号化するとしてもよい。
本発明のオーディオ信号符号化方法及び復号化方法に含まれるステップをコンピュータに実行させるプログラムとして実現したり、そのプログラムを記録したコンピュータ読み取り可能なCD−ROMなどの記録媒体として実現したり、そのプログラムを示す情報、データ又は信号として実現したりすることもできる。そして、それらプログラム、情報、データ及び信号は、インターネット等の通信ネットワークを介して配信してもよい。
本発明のオーディオ信号符号化方法及び復号化方法は、従来からオーディオ符号化及び復号化方法が適用されていたあらゆるアプリケーションにおいて、適用可能である。特に放送コンテンツの伝送、DVDやSDカードなどの蓄積媒体に記録され再生される応用、携帯電話に代表される通信機器にAVコンテンツを伝送する場合などに用いることができる。また、インターネット上でやりとりされる電子データとして、オーディオ信号を伝送する場合においても有用である。
本発明は、オーディオ信号の符号化方法及び復号化方法に関するものである。
従来のオーディオ信号符号化方法及び復号化方法としては、公知なものとしてISO/IECの国際標準方式、通称MPEG(Moving Picture Experts Group)方式などが挙げられる。現在、幅広い応用を持ち、低ビットレート時でも高音質な符号化方式として、ISO/IEC 14496−3、通称MPEG−4 GA(General Audio Coding)(非特許文献1参照)などがあげられる。本方式の拡張規格も複数規格化が現在なされている。
その一つとして、符号化及び復号化における遅延を小さくする低遅延技術がある。例えば、ISO/IEC国際標準規格であるMPEG−4 Audio(ISO/IEC 14496−3)において定められたLow Delay AAC(Advanced Audio Coding)方式がある。また、別の例としては、特許文献1及び非特許文献2に記載の技術がある。
以下では、非特許文献2に記載された従来のオーディオ信号符号化方法及び復号化方法について説明する。
図1は、従来のオーディオ信号符号化装置の構成図である。同図のオーディオ信号符号化装置100は、特に、処理にかかる遅延を小さくすることを特徴とする装置である。オーディオ信号符号化装置100は、聴覚的冗長性除去部101と、情報量的冗長性除去部102とを備える。
聴覚的冗長性除去部101は、入力されたオーディオ信号から、聴覚的な冗長性を除去する。すなわち、人が有する聴覚の特性に基づいてオーディオ信号から人が知覚しない成分を除去する。聴覚的冗長性除去部101は、聴覚モデル103と、プレフィルタ部104と、量子化部105とを備える。
聴覚モデル103は、符号化されたオーディオ信号の音質劣化を決定する重要な要素であり、継時マスキングや同時マスキングなど当業者には公知な技術を用いて、人に知覚されない周波数成分の音及びそのレベルを選別する。その結果、人に知覚される周波数成分の音が各周波数帯域においてどのレベルであるのかを入力されたオーディオ信号に対して適応的に算出する。聴覚モデル103は、算出した結果に基づいてプレフィルタ部104がいかなるフィルタを用いるかを示す情報をプレフィルタ部104に出力する。同時に、この情報をオーディオ信号符号化装置の出力信号であるオーディオ信号の符号化列に含めて出力する。聴覚モデル103は、例えば、MPEG−1 Layer III(通称MP3)の規格書に記載のある聴覚モデルである。入力されるデジタルオーディオ信号列は、まず聴覚モデル103に入力される。
プレフィルタ部104は、聴覚モデル103から入力されるいかなるフィルタを用いるかを示す情報、具体的には、人に知覚される周波数成分の音が各帯域においてどのレベルであるかを示す値を基に、入力されたデジタルオーディオ信号列から人に知覚されないレベルの成分の音をフィルタによって除去する。これにより、プレフィルタ部104は、人が知覚しない成分を除去したオーディオ信号列を出力する。プレフィルタ部104は、非特許文献2にあるように、複数の線形予測フィルタで構成する。
量子化部105は、プレフィルタ部104から入力されるオーディオ信号列に対して、整数値以下の値を四捨五入することで量子化を行い、整数値のオーディオ信号列を出力する。
以上のように、聴覚的冗長性除去部101は、入力されるオーディオ信号列に対して、人が知覚しない成分を除去し、整数値に量子化したオーディオ信号列を出力する。
情報量的冗長性除去部102は、聴覚的冗長性除去部101から入力されるオーディオ信号列から、情報量的な冗長性を除去することによって、符号化効率を高める。情報量的冗長性除去部102は、ロスレス符号化部106を備える。
ロスレス符号化部106は、従来から提案されており、当業者には公知の技術であるハフマン符号化などの手法で構成される。ロスレス符号化部106へ入力されるオーディオ信号列は、前段の量子化部105によって、整数値化されている。このため、ハフマン符号化などのロスレス符号化部106は、その整数値化された値に対して、情報量的な冗長性を取り除くことによって符号化効率が高まることになる。
以上の構成により、従来のオーディオ信号符号化装置100は、プレフィルタ部104でいかなるプレフィルタが使用されたか、具体的には、どのような線形予測係数で構成されたのかを示す情報と、ロスレス符号化部106で符号化されたオーディオ信号列(情報)との両方を符号化列として出力する。
続いて、従来のオーディオ信号復号化装置について説明する。
図2は、従来のオーディオ信号復号化装置の構成図である。同図のオーディオ信号復号化装置200は、符号化されたオーディオ信号を復号化する。オーディオ信号復号化装置200は、ロスレス復号化部201と、ポストフィルタ部202とを備える。
ロスレス復号化部201は、ロスレス符号化部106が出力する符号化列に対してロスレス復号によりオーディオ信号列を復号化する。
ポストフィルタ部202では、復号化された線形予測係数列から、ポストフィルタ(プレフィルタ部104で用いられたフィルタの逆フィルタ)を構成する。ロスレス復号化部201でロスレス復号されたオーディオ信号列に対してポストフィルタを施すことで得られた結果であるオーディオ信号列を最終的に出力する。
以上のように図1及び図2に示すオーディオ信号符号化装置及びオーディオ信号復号化装置を用いることで、AAC等の符号化及び復号化方法を用いるよりも遅延が小さくなる。これは、AAC等の方式が有する1フレームが1024サンプルなどの一括直交変換部分に要する遅延がなくなり、対して、プレフィルタやポストフィルタの消費する遅延が小さいことから、結果的に低遅延化することが可能になるためである。
国際公開第2005/078705号 ISO/IEC 14496−3:2005"General Audio Coding" 学会論文"Perceptual Audio Coding Using Adaptive Pre− and Post−Filters and Lossless Compression"(IEEE Transaction on Speech and Audio Processing, vol.10, No.6, September 2002)
しかしながら、上記従来のオーディオ信号符号化方法及び復号化方法では、以下の課題がある。
例えば、MPEG規格であるLow Delay AACなどでは、AAC方式を用いた技術としては低遅延であるが、それでも遅延は60ms程度であり、さらなる改良を加えたものでも40ms程度である。双方向のコミュニケーションで使用する際には、遅延が十分に小さいとは言えないという課題があった。
一方、非特許文献2に記載の技術では、遅延は10数ms程度に抑えられるが、低レート化が難しいという課題がある。さらに、入力されるオーディオ信号に対して、量子化部105が量子化する処理は、フレーム毎に処理される。このため、時間的に大きな変動を有するオーディオ信号列が入力された場合、量子化部105による量子化ノイズ(符号化にともなう音質劣化)が適切に制御できないという課題がある。また、十分な符号化効率をロスレス符号化部106で確保できないという課題がある。
そこで、本発明は、上記課題を解決するためになされたものであり、低遅延を実現することができるだけでなく、さらに、符号化効率を高め、かつ、符号化に伴う音質の劣化を削減することができるオーディオ信号符号化方法及び復号化方法を提供することを目的とする。
上記課題を解決するため、本発明のオーディオ信号符号化方法は、オーディオ信号を符号化するオーディオ信号符号化方法であって、前記オーディオ信号を複数のサンプル毎に分割したフレームに含まれるオーディオ信号に基づいて、前記フレームを2以上に分割したサブフレーム毎に符号化すべきか否かを前記フレーム毎に判断する判断ステップと、前記サブフレーム毎に符号化すべきでないと判断された場合に、前記フレーム毎に、該フレームのオーディオ信号の特性を示す第1の値を決定し、決定された前記第1の値を用いて前記オーディオ信号を符号化するフレーム処理ステップと、前記サブフレーム毎に符号化すべきと判断された場合に、前記サブフレーム毎に、該サブフレームのオーディオ信号の特性を示す第2の値を決定し、決定された前記第2の値を用いて前記オーディオ信号を符号化するサブフレーム処理ステップとを含み、前記サブフレーム処理ステップでは、前記サブフレーム毎に決定された前記第2の値が全て同じであるか否かを判定し、前記第2の値が全て同じである場合、例外処理として前記第2の値の少なくとも1つは異なる値とすることで、前記オーディオ信号を符号化する。
これにより、低遅延を実現することができるだけでなく、さらに、符号化効率を高め、かつ、符号化に伴う音質の劣化を削減することができる。さらに、例外的な処理を実行させる機能を有しており、符号化の無駄を活用することができる。ここで、符号化の無駄とは、サブフレーム毎に分割して得られた符号化データと、フレーム毎に分割して得られた符号化データとが同一の意味を示していることをいう。サブフレーム毎に分割して得られた符号化データは、フレーム毎に分割して得られた符号化データよりビット数が、通常、多くなる。すなわち、同一のことを示すのであれば、フレーム毎に分割して得られた符号化データの方が、ビット数が少なくすむので好ましい。
また、前記サブフレーム処理ステップでは、隣接するサブフレーム間で前記第2の値が同じ値であるか異なる値であるかを識別する識別符号を、全てのサブフレーム間に対して符号化し、全ての前記識別符号が、全ての前記第2の値が同じであることを示す場合に、前記例外処理として前記第2の値の少なくとも1つは異なる値とすることで、前記オーディオ信号を符号化してもよい。
これにより、符号化効率を高めることができる。
また、前記例外処理では、前記第2の値が、隣接するサブフレーム間において単調増加又は単調減少するものとみなすことで、前記オーディオ信号を符号化してもよい。
また、前記第1の値及び前記第2の値は、前記オーディオ信号の正規化に用いられるゲイン値、又は、量子化精度を決定する値としてもよい。
また、本発明のオーディオ信号復号化方法は、上述のオーディオ信号符号化方法によって符号化されたオーディオ信号の符号化列を復号化するオーディオ信号復号化方法であって、前記符号化列が前記サブフレーム処理で符号化されている場合、前記例外処理が実行されていることを識別することで、前記符号化列を復号化する復号化ステップを含む。
これにより、例外処理を含んだ符号化処理が実行された符号化列に対して、適した復号化を実施することができる。
また、本発明のオーディオ信号符号化方法及び復号化方法は、装置として実現することができる。さらに、本発明は、それぞれの方法の各ステップをコンピュータに実行させるプログラム、及び、該プログラムを記録するコンピュータ読み取り可能な記録媒体として実現することができる。
本発明のオーディオ信号符号化方法及び復号化方法では、低遅延を実現することができるだけでなく、さらに、符号化効率を高め、かつ、符号化に伴う音質の劣化を削減することができる。
以下、本発明の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
本実施の形態のオーディオ信号符号化装置は、フレーム毎に符号化するフレーム符号化モードと、フレームをさらに2以上に分割したサブフレーム毎に符号化するサブフレーム符号化モードとを選択することができる。さらに、サブフレーム符号化モードにおいて、サブフレーム毎に決定されたゲイン値が、時間的に連続するサブフレーム間で同じ値であるか、異なる値であるかを示す情報を符号化する。決定されたゲイン値が全てのサブフレームで同じ値である場合、フレーム毎に1つのゲイン値を決定した場合と同様であるため、通常の処理(全てのサブフレームでゲイン値を同じ値であるとみなした場合の符号化処理)とは異なる例外処理を行う。なお、本実施の形態において、ゲインは、オーディオ信号のある振幅を1としたときの比を表すものであり、オーディオ信号の正規化に用いられる値である。
図3は、本実施の形態のオーディオ信号符号化装置の構成図である。
同図のオーディオ信号符号化装置300は、判断部301と、フレーム処理部310と、サブフレーム処理部320とを備える。なお、フレーム処理部310は、図1に示す従来のオーディオ信号符号化装置100に相当する。フレーム処理部310が備える聴覚的冗長性除去部311と、情報量的冗長性除去部312とは、それぞれ、図1の聴覚的冗長性除去部101と、情報量的冗長性除去部102とに相当する。また、聴覚的冗長性除去部311が備える聴覚モデル313と、プレフィルタ部314と、量子化部315とは、それぞれ、図1の聴覚モデル103と、プレフィルタ部104と、量子化部105とに相当する。情報量的冗長性除去部312が備えるロスレス符号化部316は、図1のロスレス符号化部106に相当する。したがって、ここでは同じ構成要素については説明を省略し、異なる点を中心に説明する。
判断部301は、フレームに含まれるオーディオ信号に基づいて、サブフレーム毎に符号化するべきか否かを判断することで、フレーム処理部310とサブフレーム処理部320とのいずれにオーディオ信号列を出力するかを決定する。
具体的には、判断部301は、入力されたオーディオ信号列に対して、サブフレーム毎に最大振幅(エネルギー)を検出することで、フレーム毎に符号化を行うべき(フレーム符号化モード)か、サブフレーム毎に符号化を行うべき(サブフレーム符号化モード)かを判断する。フレーム符号化モードが選択された場合は、入力されたオーディオ信号列をフレーム処理部310に出力する。サブフレーム符号化モードが選択された場合は、入力されたオーディオ信号列をサブフレーム処理部320に出力する。
サブフレーム処理部320は、入力されたオーディオ信号列に対して、サブフレーム毎に符号化を実行する。サブフレーム処理部320は、聴覚的冗長性除去部321と、情報量的冗長性除去部322とを備える。なお、情報量的冗長性除去部322、及び、該情報量的冗長性除去部322が備えるロスレス符号化部326は、図1の情報量的冗長性除去部102とロスレス符号化部106とに相当する。したがって、ここでは、情報量的冗長性除去部102とロスレス符号化部106とについては説明を省略し、聴覚的冗長性除去部321について説明する。
聴覚的冗長性除去部321は、サブフレーム毎に聴覚的な冗長性を除去する。聴覚的冗長性除去部321は、聴覚モデル323と、プレフィルタ部324と、サブフレーム量子化部325とを備える。なお、聴覚モデル323とプレフィルタ部324とは、それぞれ、図1の聴覚モデル103とプレフィルタ部104と同じ構成である。したがって、ここでは、聴覚モデル323とプレフィルタ部324とについては説明を省略し、サブフレーム量子化部325について説明する。
サブフレーム量子化部325は、プレフィルタ部324から入力されるオーディオ信号列に対して、1フレームのオーディオ信号を2以上のサブフレームに分けて、サブフレーム毎に、ゲインを乗じて量子化を実施する。
サブフレーム量子化部325に入力されるオーディオ信号列をy(i)として、ゲインをGpとした場合、量子化の対象となる値x(i)について、式1で示すような関係が得られる。
(式1) y(i)= Gp × x(i)
式1のような関係から、ゲインGpを決定することで、x(i)が導出される。一般に、x(i)は実数値であり、サブフレーム量子化部325は、実数値であるx(i)を整数値に量子化する。そして、量子化されたx(i)をロスレス符号化部326へ出力する。
図4は、入力された1フレームのオーディオ信号列を4つのサブフレームに分割したことを示す図である。図4において、横軸に時間、縦軸にオーディオ信号の振幅を示した。1フレームのサンプル数を、特に限定しないが一例として、128個のサンプルとした。1フレームのオーディオ信号列を、32個のサンプル毎に4つのサブフレームに均一に分割した場合を示した。なお、本発明は、サブフレームの数や各サブフレームの長さが均一であることに拘らない。
図4の場合、サブフレーム2及びサブフレーム3の振幅がサブフレーム1及びサブフレーム4の振幅と比較して大きい。このため、全てのサブフレームを均一に整数値に量子化する場合、サブフレーム2及びサブフレーム3の振幅値を小さくするようなゲインの値を取ると、サブフレーム1及びサブフレーム4の振幅値にゼロが頻出して、音質劣化が発生する可能性がある。また、サブフレーム1及びサブフレーム4の振幅値を確保するようにゲインの値を取ると、サブフレーム2及びサブフレーム3の値が大きくなることで、符号化効率が悪くなり、結果的にビットレートが高くなる可能性がある。
以上のことから、図4の場合は、サブフレーム1及びサブフレーム4に対して、サブフレーム2及びサブフレーム3のサブフレーム量子化(設定すべきゲインの値)を切り替えた方が音質劣化を抑え、かつ、符号化効率を高められる可能性がある。
音質劣化を抑え、かつ、符号化効率を高める符号化を実施可能とするため、図3に示すように、サブフレーム量子化部325は、入力された原音に相当するオーディオ信号列、プレフィルタ部324の出力結果、及び、聴覚モデル323の出力のいずれか、又は、全てを参照として用いてもよい。例えば、プレフィルタ部324から入力されたオーディオ信号列の振幅値の大小に関わらず、原音の振幅値に基づいて大振幅の前にある小振幅を有するサブフレームでは、音質向上のために十分に大きなゲインを確保してもよい。
図5は、符号化ストリーム構造の一例を示す図である。
ゲイン情報を格納するストリームの最初は、ゲインがどのように格納されるかを示すゲインコンフィグレーション情報を示す。同図に示す例では、値が“0”の場合には、複数のサブフレームに対して、ゲインがただ1つの値を与える場合を示す。値が“1”の場合には、複数のサブフレームに対して、ゲインが2つ以上の値が与えられる場合を示す。ゲインコンフィグレーション情報の設定は、判断部301によって行われる。判断部301は、入力された1フレームのオーディオ信号に対して、サブフレームで共通のゲインの値を利用するか(値を“0”に設定)、サブフレーム毎に異なるゲインの値を利用するか(値を“1”に設定)を選択する。
すなわち、ゲインコンフィグレーション情報の先頭の値が“0”であることは、フレーム符号化モードを実行することを示す。ゲインコンフィグレーション情報の先頭の値が“1”であることは、サブフレーム符号化モードを実行することを示す。
ゲインコンフィグレーション情報の先頭の値が“1”である場合に“1”に続く値として、図5に示すように、サブフレームの数が4つである場合、サブフレームより1つ少ない3つの値“x”、“y”、“z”を格納する構造を有する。これらの“x”、“y”、“z”は、サブフレーム間の相互関係を示す値である。当然ながらサブフレームの数は4に限定されない。“x”はサブフレーム1とサブフレーム2のゲインの値が同じ値である場合に、“0”を値としてとる。サブフレーム1とサブフレーム2のゲインの値が異なる場合には“1”を値としてとる。“y”はサブフレーム2とサブフレーム3のゲインの値が同じ値である場合に“0”を値としてとる。サブフレーム2とサブフレーム3のゲインの値が異なる場合には“1”を値としてとる。“z”はサブフレーム3とサブフレーム4のゲインの値が同じ値である場合に“0”を値としてとる。サブフレーム3とサブフレーム4のゲインの値が異なる場合には“1”を値としてとる。ゲインコンフィグレーション情報の先頭の値が“1”である場合に続くサブフレーム間の相互関係を示す値の設定は、サブフレーム量子化部325によって行われる。なお、当然ながら、“0”と“1”は反対の意味を持たせてもよい。すなわち、“0”が時間的に連続するサブフレーム間でのゲインの値が異なる場合を示し、“1”が時間的に連続するサブフレーム間でのゲインの値が同じ値である場合を示してもよい。
以上のようにしてゲインコンフィグレーション情報を設定する。ゲインのコンフィグレーション情報が“0”の場合は、ゲインのパラメタは全部で1つしかない。また、ゲインのコンフィグレーション情報が、例えば“1010”の場合は、ゲインのパラメタは2つである。具体的には、サブフレーム1とサブフレーム2のゲインの値が同じ値で、サブフレーム2とサブフレーム3のゲインの値は異なる値で、サブフレーム3とサブフレーム4のゲインの値が同じ値となる。
なお、特異的に、ゲインのコンフィグレーション情報が“1000”となる場合が考えられる。この場合、通常の処理とは異なる例外的な処理を実行するものとする。このように例外的な処理を設けた理由は、以下の通りである。
ゲインのコンフィグレーション情報が“1000”となる場合は、上記に述べた通常の意味として捉えるとゲインの値が2以上あり、しかしながら、サブフレーム1からサブフレーム4の全てのゲインの値が同じと定義されてしまう。つまり、ゲインコンフィグレーション情報が“0”と“1000”とは、1つのフレーム(全てのサブフレーム)で単一のゲインを有することを意味する。つまり、同じ情報を示すために、少なくとも3ビットが無駄になる。このように、判断部301がサブフレーム符号化モードを選択し、サブフレーム毎に分割して処理を行った場合であっても、フレーム符号化モードを実行した場合と、同様の結果が出力されることがある。この場合、結果的に、符号化効率が悪くなってしまうためである。
通常の処理とは異なる例外的な処理として、サブフレームのゲインは、例えば、単調増加(又は、単調減少)と定義する。
なお、符号化ストリームにおいて、ゲインコンフィグレーション情報に続く、実際のサブフレームのゲインを導出する符号化列については、まず、値g1が続き、さらに、値delta_gxが続く。値g1は、サブフレーム1に含まれるオーディオ信号の最大振幅などを利用して求められたゲインを符号化することで得られる値である。値delta_gxは、サブフレームx−1のゲインとサブフレームxのゲインとの差を符号化することで得られる値である。xは2以上の整数値であり、xの最大値はサブフレーム数(図5では4)である。
値g1及び値delta_gxに対して、後述する復号化処理を行うことで、それぞれ、G1及びdelta_Gxが導出される。G1は、サブフレーム1のゲインを示す値である。delta_Gxは、サブフレームx−1のゲインとサブフレームxのゲインとの差を示す値である。
1つのフレームでゲインの値が1つの場合は、符号化処理では、符号化された値g1のみがゲインコンフィグレーション情報に続く。復号化処理では、値g1からゲインG1を導出し、G1=G2=G3=G4とする。1つのフレームでゲインの値が2つ以上の異なる値である場合は、符号化処理では、値g1に続いて、値delta_g2、delta_g3、delta_g4が続く。復号化処理では、まず、値g1からゲインG1を導出する。続いて、delta_g2を復号化した値であるdelta_G2から、G2=G1+delta_G2を算出する。以下、delta_g3及びdelta_g4を復号化し、順次、ゲインG3及びG4を算出する。
図6はビットストリームシンタックスの一例であり、図5の符号化ストリーム構造例をより具体的に示したものである。“syntax”側に書かれたものがビットストリームシンタックスの一例で、“number of bits”がその際に使用されるビット数の一例である。syntaxにボールドフォントのイタリック体で記載されたものが、ビットストリームとして符号化されるべきものである。ボールドフォントでないイタリック体で記載されたものは、一度ビットストリームとして読み込まれた場合にその値を保持した変数である。ビット数で記載のあるnumGainBits、numMonoDeltaBits及びnumDeltaBitsは、実装の際に、ある整数値があてがわれる。
図6において、bs_multi_gainは、ゲインが単一であるのか、複数のサブフレームで少なくとも2つ以上の異なる値からなるのかを識別するフラグ情報である。すなわち、図5のゲインコンフィグレーション情報の先頭の値を示す。例として、図5と同様に、bs_multi_gainが0であれば、ゲインは単一であることを示す。bs_multi_gainが1であれば複数のサブフレームで少なくとも2つ以上の異なる値からなることを示す。
bs_same_gain[num]は、num−1番目のサブフレーム(以下、num−1サブフレームと記す)のゲインと、num番目のサブフレーム(以下、numサブフレームと記す)のゲインとが同一であるかどうかを識別するフラグ情報である。すなわち、図5のゲインコンフィグレーション情報の“x”、“y”、“z”を示す。例として、bs_same_gain[num]が0である場合は、num−1サブフレームとnumサブフレームのゲインが同一であることを示す。bs_same_gain[num]が1である場合は、違う値のゲインであることを示す。
bs_gain[0]は、ゲインを導出するために用いられる値である。ゲインが単一である(bs_multi_gainが0である)場合は、bs_gain[0]を用いて導出されるゲイン値が、全てのサブフレームのゲイン値である。複数のサブフレームで少なくとも2つ以上の異なる値からなる(bs_multi_gainが1である)場合は、bs_gain[0]を用いて導出されるゲイン値は、最初のサブフレームのゲイン値である。
bs_same_gain[num]が0であるフレームにおいては、numが小さなフレームから順に、num−1サブフレームとnumサブフレームのゲインの差を導出(又は、numサブフレームのゲイン値を導出)する値を、bs_delta[num]として符号化している。
図6に示すsyntaxでは、bs_same_gain[num]が全て0である場合に備え、例外処理を行う記載がなされている。ここでは、例外処理として、ゲインが単調増加することを意味している。したがって、あるサブフレームとその直前のサブフレームとの差分を導出する値をbs_mono_deltaとして符号化している。すなわち、bs_mono_deltaは、単調増加の増加割合を導出するための値である。よって、単調増加の増加量を直接符号化してもよく、また、間接的にテーブルなどから導出してもよい。
次に、本実施の形態のオーディオ信号符号化装置の動作について説明する。
図7は、本実施の形態のオーディオ信号符号化装置の動作を示すフローチャートである。
判断部301は、オーディオ信号列が入力されると、フレーム符号化処理モード及びサブフレーム符号化モードのいずれかを選択する(S101)。すなわち、図6のbs_multi_gainを決定する。フレーム符号化モードが選択された場合(S101でNo)、オーディオ信号列をフレーム処理部310へ出力する。この場合、フレーム処理部310において、bs_multi_gainが0と設定される。サブフレーム符号化モードが選択された場合(S101でYes)、オーディオ信号列をサブフレーム処理部320へ出力する。この場合、サブフレーム処理部320において、bs_multi_gainが1と設定される。
具体的には、判断部301は、オーディオ信号列の最大振幅を用いてオーディオ信号列の変動を検出する。オーディオ信号に変動がほとんどない場合、例えば、最大振幅がある閾値以下である場合は、フレーム毎で量子化及び符号化するべきであり、オーディオ信号列をフレーム処理部310へ出力する。逆に、最大振幅がある閾値より大きい場合は、サブフレーム毎で量子化及び符号化するべきであり、オーディオ信号列をサブフレーム処理部320へ出力する。図4の例のオーディオ信号列は変動が大きいために、サブフレーム処理部320へ出力され、サブフレーム毎に量子化及び符号化される。
サブフレーム符号化モードが選択された場合(S101でYes)、サブフレーム量子化部325は、サブフレーム毎にゲインを決定し、決定されたゲインの相互関係を検出する(S102)。具体的には、サブフレーム毎に決定されたゲイン値が同じ値であるか、異なる値であるかを検出する。すなわち、図5の“x”、“y”、“z”に相当する値を検出する。
次に、検出された相互関係(サブフレーム毎のゲインの値)を判断する(S103)。決定されたゲインが、複数のサブフレームで少なくとも2つ以上の異なる値である場合(S103でYes)、サブフレーム毎にゲインを導出する(S104)。
具体的には、サブフレーム毎に決定されたゲインの値に対して、1番目のサブフレームのゲインの値との差を算出する。
決定されたゲインが、全てのサブフレームで同じ値である場合(S103でNo)、例外処理を実行する(S105)。ここでは、例外処理の一例として、決定されたゲインが単調増加(又は単調減少)するものとみなす。
図8は、例外処理が起こる可能性があるオーディオ信号列の一例を示す図である。なお、このようなオーディオ信号列は、ノイズに近い音から楽音などにフェードインする場合などに生じる。
同図に示すオーディオ信号列が入力されると、判断部301は、サブフレーム毎の最大振幅を用いることでオーディオ信号の変動が大きいと判断することができ、サブフレーム符号化モードを選択する。このとき、サブフレーム量子化部325は、サブフレームに含まれるオーディオ信号列をエネルギーレベルで判断することでゲイン値を決定するものとする。図8に示す例では、サブフレーム1〜サブフレーム4のエネルギーは、ほぼ等しい。したがって、ゲイン値は全てのサブフレームで単一の等しい値となる。つまり、ゲインコンフィグレーション情報は“1000”となる。
なお、仮に図8に示すオーディオ信号列に対して、判断部301でフレーム符号化モードが選択されたとすると、サブフレーム1〜サブフレーム4を1つのフレームとして判断され、単一のゲイン値が決定される。これにより、サブフレーム符号化モードを選択したにもかかわらず、フレーム符号化モードが選択された場合と同じ結果が出力される。すなわち、サブフレーム符号化モードが選択されたことが無駄になる。
以上のように、サブフレーム符号化モードが選択されたことが無駄になることを防ぐために、ゲインコンフィグレーション情報が“1000”となった場合に、例外処理として、ゲインが単調増加するものとみなして、サブフレーム毎にゲインの量子化及び符号化処理を実行する。
なお、選択処理(S101)において、フレーム符号化モードが選択された場合(S101でNo)、フレーム毎で1つのゲインを決定し、決定されたゲインを量子化及び符号化する(S106)。
1つのフレームに対して、上記の処理(S101〜S106)が終了すると、次のフレームに対して、同じ処理を繰り返す。
以上のように、本実施の形態では、サブフレーム符号化モードが選択された場合であっても、フレーム符号化モードが選択された場合と同様の結果が生じる場合に、例外的な処理を行う。これにより、処理が無駄になることを防ぐことができる。
ここで、本実施の形態との違いを明確にするために、従来のビットストリームシンタックスを示す。
図10は、従来のビットストリームシンタックスの一例であり、このシンタックスはAAC方式における複数のグルーピングと呼ばれるモジュールを構成するものである。このシンタックスにおいて、window_sequenceがEIGHT_SHORT_SEQUENCEと同値になった場合に、8つのMDCT(Modified Discrete Cosine Transform)係数列を何組かにグルーピングする構成である。いかにグループが構成されるかはビットストリーム変数であるscale_factor_grouping(7ビット)で示される。具体的には、8つのMDCT係数列が1つ前のMDCT係数列とグループを構成するか否かを示す情報が各1ビットずつの計7ビットで符号化されるものである。全てのビットで同じグループとして構成される情報が示された場合では、8つのMDCT係数列が1つのグループとされ符号化及び復号化される定義となっているだけである。すなわち、ゲインの単調増加などの別の処理に移ることはない。本実施の形態のように、結果的に無駄が生じる場合に、無駄の発生を防ぐための例外処理を実行することはない。
続いて、本実施の形態のオーディオ信号復号化方法を用いた装置について説明する。
図9は、本実施の形態のオーディオ信号復号化装置の構成図である。同図のオーディオ信号復号化装置400は、符号化されたオーディオ信号を復号化する。オーディオ信号復号化装置400は、ロスレス復号化部401と、ポストフィルタ部402と、ゲイン増幅部403とを備える。なお、ロスレス復号化部401と、ポストフィルタ部402とは、図1のロスレス復号化部201と、ポストフィルタ部202とに相当する。したがって、ロスレス復号化部401と、ポストフィルタ部402とについては説明を省略し、ゲイン増幅部403について説明する。
ゲイン増幅部403は、ポストフィルタ部402から入力されるオーディオ信号に対して、サブフレーム毎に、復号化されたオーディオ信号を増幅する。
以上のように、本実施の形態のオーディオ信号符号化方法及び復号化方法によれば、符号化時に無駄となりうる符号化パターンに対して例外処理を行うことで、有効に利用することができる。これにより、低遅延処理の利点を維持しつつ、音質劣化を抑え、かつ、高効率な符号化を達成することが可能となる。
以上、本実施の形態のオーディオ信号符号化方法及び復号化方法について説明したが、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
例えば、例外処理として、サブフレームが単調増加するとみなせる場合において、図11に示すように、単調増加するサブフレームの個数を符号化してもよい。
図11は、図6とは異なる形態のビットストリームシンタックスの一例であり、図5の符号化ストリーム構造例をより具体的に示したものである。“syntax”側に書かれたものがビットストリームシンタックスの一例で、“number of bits”がその際に使用されるビット数の一例である。syntaxに、ボールドフォントのイタリック体で記載されたものが、ビットストリームとして符号化されるべきものである。ボールドフォントでないイタリック体で記載されたものは、一度ビットストリームとして読み込まれた場合にその値を保持した変数である。ビット数で記載のあるnumGainBits、numSubFrBits、numMonoDeltaBits及びnumDeltaBitsは、実装の際に、ある整数値があてがわれる。
図11において、bs_multi_gain、bs_same_gain[num]及びbs_gain[0]は、図6のbs_multi_gain、bs_same_gain[num]及びbs_gain[0]と同じである。よって、これらについての説明は省略する。
図11において、図6と同様にbs_same_gain[num]がすべて0である場合においては、単調増加を意味している。bs_num_contは、いくつのサブフレームが単調増加するのかを導出する値である。そして、単調増加する個数のサブフレームにおいては、あるサブフレームとその直前にサブフレームとの差分を導出する値をbs_mono_deltaとして符号化している。例えば、全サブフレーム数が8つで、bs_num_contによって3つが単調増加であると導出される場合、サブフレーム1からサブフレーム2、サブフレーム2からサブフレーム3、サブフレーム3からサブフレーム4とbs_mono_deltaで導出される差分値でゲインは単調増加する。それ以降のサブフレーム、つまり、サブフレーム5からサブフレーム8は、例えば、サブフレーム4と同一の値をとるとする。
一方、bs_same_gain[num]が0であるフレームにおいては、numが小さなフレームから順に、num−1サブフレームのゲインとnumサブフレームのゲインとの差を導出(又は、numサブフレームのゲイン値を導出)する値を、bs_delta[num]として符号化している。
以上のように、図11のビットストリームシンタックスでは、例外処理を実施する場合において単調増加するサブフレームの個数を符号化することができる。これにより、符号化効率を高めることができる。
また、本実施の形態では、判断部301は、オーディオ信号の最大振幅を用いて、フレーム符号化モードとサブフレーム符号化モードとを選択したが、最大振幅ではなく、オーディオ信号のエネルギーを用いてもよい。
この場合であっても、図12に示すようなオーディオ信号列が入力された場合、例外処理を行う必要がある。図12は、例外処理が起こる可能性があるオーディオ信号列の一例を示す図であり、例えば、弦楽器又は打楽器で演奏された音源の場合のオーディオ信号列をしめす。弦楽器又は打楽器の場合、一音あたりの強度(最大振幅)は同じであるが、サブフレームに入る数が違うため、図12に示すようなオーディオ信号列が得られる。
図12に示すように、判断部301は、サブフレーム毎のエネルギーの変動が大きいことから、サブフレーム符号化モードを選択する。このとき、サブフレーム量子化部325は、サブフレームに含まれるオーディオ信号列を最大振幅で判断することでゲイン値を決定するものとする。図12に示す例では、サブフレーム1〜サブフレーム4の最大振幅はほぼ等しい。したがって、ゲイン値は全てのサブフレームで単一の等しい値となる。つまり、ゲインコンフィグレーション情報は“1000”となる。これにより、サブフレーム量子化部325は、図8の場合と同様に、例外処理を実行することとなる。
また、判断部301は、エネルギーを用いて判定し、サブフレーム符号化モードを選択した場合であっても、制限によりビットレートを上げることができない場合が考えられる。この場合、結果的に、各サブフレームでビット消費の小さいものを選択せざるを得なくなり、各サブフレームで同じ符号化処理を選択する。この場合も、ゲインコンフィグレーション情報は“1000”となる。これにより、図8及び図12の場合と同様に、サブフレーム量子化部325は、例外処理を実行することになる。
また、図13に示すように、AACなどの方式では、フレーム間の接続における連続性確保のため、時間的に前後するフレームがサブフレーム符号化モードで符号化されている場合、符号化の規程により現フレームもサブフレーム符号化を選択せざるを得なくなる。これにより、現フレームのオーディオ信号列に変動がほとんどないのであれば、ゲインコンフィグレーション情報は“1000”となる。これにより、サブフレーム量子化部325は、例外処理を実行することとなる。
また、本実施の形態では、ゲインの値を導出する際に、ゲインの値が予め用意されたテーブルなどで定義されていてもよい。この場合は、G1=table(g1)などの方法で復号化される場合もあり、その場合は、G2=table(g1+g2)や、G2=table(g1)+table2(g2)などとして復号化される場合もある。
ゲインのコンフィグレーション情報によって、単調増加(単調減少)と定義された場合においては、G2からG4の値は、Gp=Gp−1+delta Gp、Gp=table(gp−1+gp)、又は、Gp=table(gp−1)+tablep(gp)などのように復号化される。この場合pは2以上の整数である。
また、2つ以上のゲインの符号化において、差分符号化などを用いたが、差分情報を用いず、2つ目以降のゲインについて、前サブフレームの値を用いずにそのサブフレームの値を直接復号化できる値を用いてもよい。
また、本実施の形態では、フレーム毎での処理とサブフレーム毎の処理とを明確に分けて示すために、オーディオ信号符号化装置300は、図3に示すようにフレーム処理部310とサブフレーム処理部320とを備えるとしたが、例えば、聴覚モデル313と聴覚モデル323、プレフィルタ部314とプレフィルタ部324、及び、ロスレス符号化部316とロスレス符号化部326とは、それぞれ共通としてもよい。
(実施の形態2)
本実施の形態のオーディオ信号符号化方法及び復号化方法では、ロスレス符号化を行う際の符号化効率に影響を与える量子化精度情報に対して、符号化及び復号化を行う。すなわち、符号化及び復号化の対象がゲインではなく、量子化精度情報であるのが実施の形態1と異なる点である。本実施の形態では、実施の形態1と同じ点は説明を省略し、異なる点を中心に説明する。
本実施の形態のオーディオ信号符号化方法を実施する装置は、実施の形態1と同様に図3に示すオーディオ信号符号化装置である。
本実施の形態において、サブフレーム量子化部325は、量子化精度情報を量子化する。例えば、聴感上、重要なサンプルのオーディオ信号に対しては、十分な量子化精度を保持するために、量子化精度情報Rpを小さな値に設定する。
サブフレーム量子化部325に入力されるオーディオ信号を、y(i)として、量子化精度情報をRpとした場合、量子化の対象となるz(i)について、式2で示すような関係が得られる。
(式2) y(i)= Rp × z(i)
式2のような関係から、量子化精度情報Rpを決定することで、z(i)が導出される。一般に、z(i)は実数値であるので、サブフレーム量子化部325は、実数値であるz(i)を整数値に量子化する。そして、量子化されたz(i)をロスレス符号化部326へ出力する。
実施の形態1に示した式1と式2を比較して判るように、ゲインGpが量子化精度情報Rpになり、それに伴いx(i)がz(i)になっただけである。それ以外のモジュール、例えばロスレス符号化部326や聴覚モデル323などに変更はない。
以上のように、本実施の形態のオーディオ信号符号化方法及び復号化方法では、音質劣化を抑え、聴感上、重要なサンプルのオーディオ信号に対して、量子化精度情報Rpを小さな値に設定することで、結果z(i)の絶対値を大きくすることができる。これにより、実数から整数値に変換する量子化の過程で生じる量子化誤差の影響を小さくすることが可能となる。
(実施の形態3)
本実施の形態のオーディオ信号符号化方法及び復号化方法は、時間周波数変換を有するオーディオ信号符号化及び復号化方法へ適用することができる。この点が、実施の形態1及び2が、主に時間周波数変換処理を伴わない、いわゆる時間領域の符号化及び復号化方法であったこととの相違点である。
1つ目の適用は、MPEG2−AACに代表される、複数の変換長を有する一括直交変換方式における系への適用である。
この系では、入力されたオーディオ信号をあるサンプルごとにフレームを構成し、そのフレームのサンプルを一括直交変換して周波数スペクトル列を生成し、そのスペクトルを量子化及び符号化するものである。1フレームに対して1つの一括直交変換する場合と、1フレームに対して時間的に連続な複数の一括直交変換する場合とを切り替えて使用する。
1フレームに対して、時間的に連続な複数の一括直交変換をして、各々の一括直交変換から周波数スペクトル列を得るとき、各々の周波数スペクトル列に対する代表ゲインに対して、実施の形態1で述べた符号化方法を適用することで、符号化効率を高めることが可能となる。
2つ目の適用は、Low Delay AACに代表される、単一の変換長を有する一括直交変換方式における系への適用である。
この系では、入力されたオーディオ信号をあるサンプルごとにフレームを構成し、そのフレームのサンプルを一括直交変換して周波数スペクトル列を生成し、そのスペクトルを量子化及び符号化するものである。1フレームに対して1つの直交変換を施すものである。
したがって、1フレームに対して1つの直交変換しかないため、1フレーム内の時間的な変動を得られない。この場合は、時間的な変動情報を直交変換とは関係なく、別途、予め時間的な複数のサブフレームを構成しておいて、その時間的なゲイン情報を量子化し符号化するのに複数のサブフレームを用いる。復号化のプロセスでは、一括直交変換で復号化された1フレームのオーディオ信号に対して、前記の時間的なゲイン情報で補正するなどに複数のサブフレームを用いてもよい。
若しくは、1つの直交変換から得られる周波数スペクトル列に対して、周波数軸上で、複数のサブバンド(時間軸上のサブフレームに相当する)に分割して、各々のサブバンドに対する代表ゲインに対して、実施の形態1で述べた符号化方法を適用することで、符号化効率を高めることも可能である。
3つ目の適用は、QMF(Quadrature Mirror Filter)フィルタに代表される、時間周波数マトリクスを構成するポリフェーズフィルター方式における系への適用である。
この系では、複数の周波数サブバンドにおける複数サンプルからなる時間信号列が得られるものである。したがって、ある時間サンプルにおける複数の周波数サブバンドの信号のゲインに対して、実施の形態1で述べた符号化方法を適用してもよい。また、ある周波数サブバンドを選んで、その周波数サブバンドの複数サンプルからなる時間信号列に対して、1つ毎又は幾つか毎に、グルーピングした代表ゲインに対して、実施の形態1で述べた符号化方法を適用してもよい。
4つ目の適用は、3つ目の適用であるポリフェーズフィルター方式に加えて、追加処理として、DCTに代表される一括直交変換を加えた系における適用である。
この系では、ポリフェーズフィルター方式での出力は3つ目の適用と同様であるが、サブバンドの周波数間隔が大きい場合などにおいては、特に低域成分の周波数分解能が不足する。したがって、低域周波数成分の周波数分解能を向上させるため、ポリフェーズフィルターからの出力のうち、低域周波数成分に相当する時間信号列に対して、離散コサイン変換(DCT変換)などの直交変換を用いて、時間周波数変換し、低域の周波数分解能を向上させるものである。
この4つ目の適用では、前記2つ目と3つ目の適用の組み合わせで実現でき、例えば、低域においては、2つ目の適用と同様の手法をとり、高域においては、3つ目の手法を適用することができ、同様に符号化効率を高めることができる。
以上、オーディオ信号符号化方法及び復号化方法における時間周波数変換を有する様々な系においても、基本的に実施の形態1と同様の符号化方法及び復号化方法を用いれば、符号化効率を高めることができる。上記ではゲインの符号化について、述べたが、量子化精度に置き換えて実施の形態2と同様の符号化方法及び復号化方法を実施しても、同じように符号化効率の向上が期待できる。
以上のように、本実施の形態のオーディオ信号符号化方法及び復号化方法は、符号化対象をいくつかのグループ(例えば、時間軸上のフレーム及び周波数軸上のバンド)に分割して符号化する場合に、さらに、1つのグループを複数のサブグループ(例えば、時間軸上のサブフレーム及び周波数軸上のサブバンド)に分割して、サブグループ毎に符号化する場合に適用することができる。
以上、本発明のオーディオ信号符号化方法及び復号化方法について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。
例えば、本実施の形態では、例外処理としてゲイン値などを単調増加又は単調減少するものとみなす処理を用いたが、通常の処理でなければいかなる処理であってもよい。例えば、サブフレーム毎にゲイン値などが大小2つの値を交互にとるとみなす処理でもよい。また、サブフレーム毎にゲイン値などがあらかじめ定められた規則に従って変動するとみなす処理でもよい。
また、本実施の形態では、ゲイン値又は量子化精度を決定する値を量子化及び符号化するとしたが、量子化及び符号化の対象はこれらに限られない。オーディオ信号の符号化に関する他の値を量子化及び符号化するとしてもよい。
本発明のオーディオ信号符号化方法及び復号化方法に含まれるステップをコンピュータに実行させるプログラムとして実現したり、そのプログラムを記録したコンピュータ読み取り可能なCD−ROMなどの記録媒体として実現したり、そのプログラムを示す情報、データ又は信号として実現したりすることもできる。そして、それらプログラム、情報、データ及び信号は、インターネット等の通信ネットワークを介して配信してもよい。
本発明のオーディオ信号符号化方法及び復号化方法は、従来からオーディオ符号化及び復号化方法が適用されていたあらゆるアプリケーションにおいて、適用可能である。特に放送コンテンツの伝送、DVDやSDカードなどの蓄積媒体に記録され再生される応用、携帯電話に代表される通信機器にAVコンテンツを伝送する場合などに用いることができる。また、インターネット上でやりとりされる電子データとして、オーディオ信号を伝送する場合においても有用である。
図1は、従来のオーディオ信号符号化装置の構成図である。 図2は、従来のオーディオ信号復号化装置の構成図である。 図3は、本実施の形態のオーディオ信号符号化装置の構成図である。 図4は、入力された1フレームのオーディオ信号列をサブフレームに分割したことを示す図である。 図5は、符号ストリーム構造の一例を示す図である。 図6は、ビットストリームシンタックスの一例を示す図である。 図7は、本実施の形態のオーディオ信号符号化装置の動作を示すフローチャートである。 図8は、例外処理となりうるオーディオ信号列の一例を示す図である。 図9は、本実施の形態のオーディオ信号復号化装置の構成図である。 図10は、従来のビットストリームシンタックスの一例を示す図である。 図11は、ビットストリームシンタックスの一例を示す図である。 図12は、例外処理となりうるオーディオ信号列の一例を示す図である。 図13は、例外処理となりうるオーディオ信号列の一例を示す図である。
100、300 オーディオ信号符号化装置
101、311、321 聴覚的冗長性除去部
102、312、322 情報量的冗長性除去部
103、313、323 聴覚モデル
104、314、324 プレフィルタ部
105、315 量子化部
106、316、326 ロスレス符号化部
200、400 オーディオ信号復号化装置
201、401 ロスレス復号化部
202、402 ポストフィルタ部
301 判断部
310 フレーム処理部
320 サブフレーム処理部
325 サブフレーム量子化部
403 ゲイン増幅部

Claims (11)

  1. オーディオ信号を符号化するオーディオ信号符号化方法であって、
    前記オーディオ信号を複数のサンプル毎に分割したフレームに含まれるオーディオ信号に基づいて、前記フレームを2以上に分割したサブフレーム毎に符号化すべきか否かを前記フレーム毎に判断する判断ステップと、
    前記サブフレーム毎に符号化すべきと判断された場合に、前記サブフレーム毎に、該サブフレームのオーディオ信号の特性を示す値を決定し、決定された前記値を用いて前記オーディオ信号を符号化するサブフレーム処理ステップとを含み、
    前記サブフレーム処理ステップでは、
    前記サブフレーム毎に決定された前記値が全て同じであるか否かを判定し、前記値が全て同じである場合、例外処理として前記値が示すオーディオ信号の特性とは異なる特性を用いて、前記オーディオ信号を符号化する
    ことを特徴とするオーディオ信号符号化方法。
  2. 前記サブフレーム処理ステップでは、
    隣接するサブフレーム間で前記値が同じ値であるか異なる値であるかを識別する識別符号を、全てのサブフレーム間に対して符号化し、
    全ての前記識別符号が、全ての前記値が同じであることを示す場合に、前記例外処理として前記値が示すオーディオ信号の特性とは異なる特性を用いて、前記オーディオ信号を符号化する
    ことを特徴とする請求項1記載のオーディオ信号符号化方法。
  3. 前記例外処理では、前記値が、隣接するサブフレーム間において単調増加するものとみなすことで、前記オーディオ信号を符号化する
    ことを特徴とする請求項1記載のオーディオ信号符号化方法。
  4. 前記例外処理では、前記値が、隣接するサブフレーム間において単調減少するものとみなすことで、前記オーディオ信号を符号化する
    ことを特徴とする請求項1記載のオーディオ信号符号化方法。
  5. 前記値は、前記オーディオ信号の正規化に用いられるゲイン値である
    ことを特徴とする請求項1〜4のいずれか1項に記載のオーディオ信号符号化方法。
  6. 前記値は、量子化精度を決定する値である
    ことを特徴とする請求項1〜4のいずれか1項に記載のオーディオ信号符号化方法。
  7. 請求項1記載のオーディオ信号符号化方法によって符号化されたオーディオ信号の符号化列を復号化するオーディオ信号復号化方法であって、
    前記符号化列が前記サブフレーム処理で符号化されている場合、前記例外処理が実行されていることを識別することで、前記符号化列を復号化する復号化ステップを含む
    ことを特徴とするオーディオ信号復号化方法。
  8. オーディオ信号を符号化するオーディオ信号符号化装置であって、
    前記オーディオ信号を複数のサンプル毎に分割したフレームに含まれるオーディオ信号に基づいて、前記フレームを2以上に分割したサブフレーム毎に符号化すべきか否かを前記フレーム毎に判断する判断手段と、
    前記サブフレーム毎に符号化すべきと判断された場合に、前記サブフレーム毎に、該サブフレームのオーディオ信号の特性を示す値を決定し、決定された前記値を用いて前記オーディオ信号を符号化するサブフレーム処理手段とを備え、
    前記サブフレーム処理手段は、
    前記サブフレーム毎に決定された前記値が全て同じであるか否かを判定し、前記値が全て同じである場合、例外処理として前記値が示すオーディオ信号の特性とは異なる特性を用いて、前記オーディオ信号を符号化する
    ことを特徴とするオーディオ信号符号化装置。
  9. 請求項9記載のオーディオ信号符号化装置によって符号化されたオーディオ信号の符号化列を復号化するオーディオ信号復号化装置であって、
    前記符号化列が前記サブフレーム処理で符号化されている場合、前記例外処理が実行されていることを識別することで、前記符号化列を復号化する復号化手段を備える
    ことを特徴とするオーディオ信号復号化装置。
  10. オーディオ信号を符号化するオーディオ信号符号化方法をコンピュータに実行させるプログラムであって、
    前記オーディオ信号を複数のサンプル毎に分割したフレームに含まれるオーディオ信号に基づいて、前記フレームを2以上に分割したサブフレーム毎に符号化すべきか否かを前記フレーム毎に判断する判断ステップと、
    前記サブフレーム毎に符号化すべきと判断された場合に、前記サブフレーム毎に、該サブフレームのオーディオ信号の特性を示す値を決定し、決定された前記値を用いて前記オーディオ信号を符号化するサブフレーム処理ステップとを含み、
    前記サブフレーム処理ステップでは、
    前記サブフレーム毎に決定された前記値が全て同じであるか否かを判定し、前記値が全て同じである場合、例外処理として前記値が示すオーディオ信号の特性とは異なる特性を用いて、前記オーディオ信号を符号化する
    ことを特徴とするプログラム。
  11. 請求項10記載のプログラムを記録するコンピュータ読み取り可能な記録媒体。
JP2008549262A 2006-12-13 2007-12-05 オーディオ信号符号化方法及び復号化方法 Active JP5238512B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008549262A JP5238512B2 (ja) 2006-12-13 2007-12-05 オーディオ信号符号化方法及び復号化方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006335399 2006-12-13
JP2006335399 2006-12-13
JP2008549262A JP5238512B2 (ja) 2006-12-13 2007-12-05 オーディオ信号符号化方法及び復号化方法
PCT/JP2007/073503 WO2008072524A1 (ja) 2006-12-13 2007-12-05 オーディオ信号符号化方法及び復号化方法

Publications (2)

Publication Number Publication Date
JPWO2008072524A1 true JPWO2008072524A1 (ja) 2010-03-25
JP5238512B2 JP5238512B2 (ja) 2013-07-17

Family

ID=39511545

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008549262A Active JP5238512B2 (ja) 2006-12-13 2007-12-05 オーディオ信号符号化方法及び復号化方法

Country Status (3)

Country Link
US (1) US8160890B2 (ja)
JP (1) JP5238512B2 (ja)
WO (1) WO2008072524A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8325073B2 (en) * 2010-11-30 2012-12-04 Qualcomm Incorporated Performing enhanced sigma-delta modulation
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
JP2002026738A (ja) 2000-07-11 2002-01-25 Mitsubishi Electric Corp オーディオデータ復号処理装置および方法、ならびにオーディオデータ復号処理プログラムを記録したコンピュータ読取可能な記録媒体
US7200561B2 (en) 2001-08-23 2007-04-03 Nippon Telegraph And Telephone Corporation Digital signal coding and decoding methods and apparatuses and programs therefor
JP3811110B2 (ja) * 2001-08-23 2006-08-16 日本電信電話株式会社 ディジタル信号符号化方法、復号化方法、これらの装置、プログラム及び記録媒体
JP2005049429A (ja) 2003-07-30 2005-02-24 Sharp Corp 符号化装置及びそれを用いた情報記録装置
JP2005165183A (ja) 2003-12-05 2005-06-23 Matsushita Electric Ind Co Ltd 無線通信装置
DE102004007191B3 (de) 2004-02-13 2005-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
JP4201192B2 (ja) 2004-03-09 2008-12-24 株式会社リコー 画像復号装置、プログラム及び情報記録媒体
US7752039B2 (en) * 2004-11-03 2010-07-06 Nokia Corporation Method and device for low bit rate speech coding
US7953595B2 (en) * 2006-10-18 2011-05-31 Polycom, Inc. Dual-transform coding of audio signals
ES2834024T3 (es) * 2006-10-25 2021-06-16 Fraunhofer Ges Forschung Aparato y procedimiento para la generación de muestras de audio en el dominio temporal

Also Published As

Publication number Publication date
WO2008072524A1 (ja) 2008-06-19
US20100042415A1 (en) 2010-02-18
JP5238512B2 (ja) 2013-07-17
US8160890B2 (en) 2012-04-17

Similar Documents

Publication Publication Date Title
JP6728416B2 (ja) パラメトリック・マルチチャネル・エンコードのための方法
KR101455915B1 (ko) 일반 오디오 및 음성 프레임을 포함하는 오디오 신호용 디코더
JP5048697B2 (ja) 符号化装置、復号化装置、符号化方法、復号化方法、プログラムおよび記録媒体
RU2459282C2 (ru) Масштабируемое кодирование речи и аудио с использованием комбинаторного кодирования mdct-спектра
US8527282B2 (en) Method and an apparatus for processing a signal
US7383180B2 (en) Constant bitrate media encoding techniques
JP5027799B2 (ja) 符号化効率向上のためのパラメータの適応グループ化
JP3926726B2 (ja) 符号化装置および復号化装置
KR100814673B1 (ko) 오디오 부호화
US20100010810A1 (en) Post filter and filtering method
IL201469A (en) Formulation of a temporary envelope for spatial drilling using WIENER DOMAIN filter for frequency
KR100813193B1 (ko) 정보 신호의 양자화 방법 및 장치
CA3181066A1 (en) Method, apparatus, and system for processing audio data
JP2007504503A (ja) 低ビットレートオーディオ符号化
JP2007522511A (ja) オーディオ符号化
JP4022504B2 (ja) 少ない計算量で高周波数成分を復元するオーディオデコーディング方法及び装置
JP4308229B2 (ja) 符号化装置および復号化装置
JP5238512B2 (ja) オーディオ信号符号化方法及び復号化方法
CN105122358A (zh) 用于处理编码信号的装置和方法与用于产生编码信号的编码器和方法
JP2008026372A (ja) 符号化データの符号化則変換方法および装置
KR20080092823A (ko) 부호화/복호화 장치 및 방법
JP2009239437A (ja) オーディオ信号伝送システム
JPH10228298A (ja) 音声信号符号化方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130401

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160405

Year of fee payment: 3