WO2006008817A1

WO2006008817A1 - オーディオ符号化装置及びオーディオ符号化方法

Info

Publication number: WO2006008817A1
Application number: PCT/JP2004/010416
Authority: WO
Inventors: Masanao Suzuki; Yoshiteru Tsuchinaga; Miyuki Shirakawa
Original assignee: Fujitsu Limited
Priority date: 2004-07-22
Filing date: 2004-07-22
Publication date: 2006-01-26
Also published as: EP1775718A4; EP1775718A1; JPWO2006008817A1; US20070118368A1; JP4533386B2

Abstract

　処理量を軽減しつつ、ブロック長を適切に選択することが可能なオーディオ符号化装置及びオーディオ符号化方法を提供する。　電力算出部４０２が、入力信号から電力変動比を算出し、予測利得変動比算出部４０６が、入力信号から予測利得変動比を算出し、ブロック長判定部４０７が、電力変動比と予測利得変動比とから、長ブロックによる符号化を行うか又は短ブロックによる符号化を行うかを判定し、この判定に基づいて、長ブロック用のＭＤＣＴ変換部４０９又は短ブロック用のＭＤＣＴ変換部４１０が入力信号に対して離散コサイン変換を行う。

Description

明細書

オーディオ符号化装置及びオーディオ符号化方法

技術分野

[0001] 本発明は、オーディオ信号を符号化するオーディオ符号化装置及びオーディオ符号化方法に関する。

背景技術

[0002] 近年、インターネットや衛星放送等の通信分野が急速に普及している。また、 DVD 等の AV機器も急速に普及している。これらの普及に伴い、オーディオ信号を効率良く圧縮するオーディオ符号化に対する需要が高まってレ、る。近年のオーディオ符号化装置は、人間の聴覚特性を利用した適応変換オーディオ符号化装置が主流である。適応変換オーディオ符号化装置の基本的な符号化処理は、以下の通りである。

[0003] この符号化処理では、時間領域のオーディオ信号が周波数領域へ変換される。そして、周波数軸上の信号が聴覚の周波数分解能に対応する周波数帯域で区切られる。そして、人間の聴覚特性を利用して、各周波数帯域で符号化に必要な最適な情報量が計算される。

[0004] そして、各周波数帯域に割り振られた情報量に従い、周波数軸上の信号が量子化される。適応変換オーディオ符号化装置の中に、 ISO (International Organizati on for Standardization; /IEC (International Electrotechmcal し ommis sion)で標準化された MPEG (Moving Picture Experts Group) -2 AAC ( Advanced Audio Coding)方式がある。この方式は、 BSデジタル放送にも採用されている。この方式は、低いビットレートで高い音質を実現できるオーディオ符号化装置として近年注目を浴びてレ、る。

[0005] (第 1の従来技術）

図 10は、第 1の従来技術である、 MPEG-2 AACのエンコーダの構成を示す構成図である。以下、この図に示される技術を第 1の従来技術とする。 AAC ェンコ一ダの詳細は、例えば下記の非特許文献 1に詳しく記載されている。

[0006] AACエンコーダは、入力信号を所定のサンプル数からなるフレームに分割する。そして、 AACエンコーダは、フレーム毎に符号化処理を行う。 AAC方式のフレームで、 1フレームと 1長ブロックの長さとは同じである。以下の説明は、図 10に示される A ACエンコーダの処理手順である。

[0007] (1)まず、入力信号がフレーム化部 1001に入力される。フレーム化部 1001は、入力信号を所定のサンプノレ数からなるフレーム (長ブロック）に分割する。フレーム化部 1001から出力された信号が、長ブロック用の離散コサイン変換部（以下、単に、 MD CT変換部と記す。） 1002と短ブロック用の MDCT変換部 1003とに入力される。

[0008] 長ブロック用の MDCT変換部 1002は、入力した信号に対して 1024点の MDCT 変換を行う。そして、長ブロック用の MDCT変換部 1002は、 MDCT係数（MDCT1 )を算出する。また、短ブロック用の MDCT変換部 1003は、入力した信号に対して 1 28点の MDCT変換を行う。そして、短ブロック用の MDCT変換部 1003は、 MDCT 係数（MDCT2)を算出する。尚、 1フレームにっき短ブロックは 8ブロックあるので、 MDCT2は 8組生成される。

[0009] (2)次に、フレーム化部 1001は、分割した入力信号を、長ブロック用の心理聴覚分析部 1004へ出力する。そして、長ブロック用の心理聴覚分析部 1004は、入力信号力ら長ブロック用のマスキング閾値 Thlと心理聴覚エントロピー PE1とを求める。ここで、 Thlと PE1との算出方法は、非特許文献 1の心理聴覚モデルの項に示されている方法が公知である。同様にして、フレーム化部 1001は、フレームに分割した入力信号を、短ブロック用の心理聴覚分析部 1005へ出力する。そして、短ブロック用の心理聴覚分析部 1005は、入力信号から短ブロック用のマスキング閾値 Th2と心理聴覚エントロピー PE2とを求める。

[0010] ここで、心理聴覚エントロピーとは、信号を量子化するのに最低限必要なビット数を表す情報量である。また、マスキングとは、量子化部により信号を量子化した時の誤差がある基準以下であれば、その誤差を人間が知覚できないという現象を指す。また、人間が知覚できない誤差の限界を示す基準値は、マスキング閾値と呼ばれる。

[0011] (3)長ブロック力得られた PE1及び Thlと、短ブロック力、ら得られた PE2及び Th2 と力ブロック長判定部 1006へ入力される。ブロック長判定部 1006は、長ブロックと短ブロックとのどちらで量子化すべきかを判定する。

[0012] 一般に、性質がほとんど変化しない定常的な信号は、長ブロックで量子化することが望ましい。ところが、ブロック内で振幅が急峻に変化する信号を長ブロックで量子化すると、入力信号にはないプリエコーと呼ばれる雑音が発生する。この雑音の発生は、音質劣化の原因となる。図 11は、プリエコーの例を示す概略図である。図 11の（a) は、符号化する前の入力信号を示す概略図であり、図 11の（b)は、長ブロックのみで符号化した時の復号音を示すグラフである。図 11の（b)の先頭部分には、アタック音の手前に、入力信号にはない雑音が発生している。

[0013] この雑音は、プリエコーと呼ばれる。プリエコーは、量子化ブロック長を短くすることで解消できる。そのため、 AAC方式は、ブロック長判定部 1006において入力信号の性質を判別している。そして、ブロック長判定部 1006は、量子化に最適なブロック長を判定する。具体的には、ブロック長判定部 1006は、 PEl >PEl_thrであれば長ブロックを選択し、それ以外の場合は短ブロックを選択する。ここで、 PE1— thrは、あら力じめ決められた閾値（定数）である。

[0014] (4)ブロック長判定部 1006の判定結果は、 MDCTを選択する選択器 1007に出力される。また、ブロック長判定部 1006が選択したマスキング閾値は、スペクトル量子化部 1008に出力される。つまり、ブロック長判定部 1006が長ブロックを選択した場合は、 MDCT1と Thlとがスペクトル量子化部 1008に入力する。また、ブロック長半 IJ 定部 1006が短ブロックを選択した場合は、 MDCT2と Th2とがスぺクトノレ量子化部 1 008に入力する。

[0015] (5)スペクトル量子化部 1008は、入力されたマスキング閾値に従って周波数バンド毎に MDCT係数を量子化する。そして、スペクトル量子化部 1008は、量子化符号 1 を出力する。

[0016] (6)スペクトル量子化部 1008から出力された量子化符号 1は、ハフマン符号化部 1 009へ入力する。ハフマン符号化部 1009は、量子化符号 1を、量子化符号 1よりも更に冗長度が除去された量子化符号 2に変換する。

[0017] (7)上記量子化符号 2は、ハフマン符号ィ匕部 1009から量子化制御部 1011に出力される。そして、量子化制御部 1011は、入力した量子化符号 2から、最終的に出力されるビットストリームの総ビット数を計算する。なお、図 10において、点線で囲まれた範囲は、量子化制御部 1011が制御可能な範囲である。

[0018] (8)量子化制御部 1011は、計算した総ビット数が現ブロックに許されるビット数を上回る場合、処理（5) 処理（7)を繰り返すように、スペクトル量子化部 1008と、ハフマン符号化部 1009とを制御する。また、量子化制御部 1011は、計算した総ビット数が現ブロックに許されるビット数を下回る場合、ハフマン符号化部 1009からビットストリーム生成部 1010に対して量子化符号 2を出力させる。そして、量子化制御部 1011 は、ビットストリーム生成部 1010がビットストリームを出力するように制御する。

[0019] ここで、 AAC方式の量子化プロセスの詳細を説明する。

(a) AAC方式は、 MDCTスペクトルの指数部を初期値に設定する。

(b) AAC方式は、 MDCTスペクトルを仮数部と指数部とに変形する。すなわち、 A AC方式は、 MDCTスペクトルを浮動小数点表示に変形する。そして、 AAC方式は、仮数部を量子化する（MDCT量子化)。

(c) AAC方式は、 (b)で量子化された仮数部と指数部とをハフマン符号化した時に必要となるビット数 (総ビット数）を求める。

(d) AAC方式は、（c)で求めた総ビット数が現フレームに許された量子化ビット数（許容ビット数）以下であれば、量子化を終了する。 AAC方式は、総ビット数が許容ビット数以上の場合は、（a)で設定した指数部を不適当と判断する。そして、 AAC方式は、指数部を変更して (b)一 (d)の処理を繰り返す。そして、 AAC方式は、総ビット数が許容ビット数以下となる指数部を決定する。

[0020] すなわち、 AAC方式は、まず指数部を仮に固定する。そして、 AAC方式は、仮数部を決定して MDCTスペクトルの量子化を行う。そして、 AAC方式は、 MDCTスぺタトルを指数部と仮数部とに変形した時の量子化誤差が許容誤差以下となるような総ビット数を求める。そして、 AAC方式は、総ビット数があらカ^め設定されたビットレートよりも大きければ不適当と判断する。そして、 AAC方式は、指数部を変更して、再び、 MDCTスぺタトノレの指数部の固定処理及び仮数部の量子化処理を行う。そして、 AAC方式は、量子化誤差が許容誤差以下であり、かつ、総ビット数が設定されたビットレート以下となるような最適な指数部と仮数部を決定する。 [0021] 以上のように、 AAC方式は、量子化とハフマン符号化を行った後に、必要な総ビット数を計算する。そして、 AAC方式は、総ビット数が現フレームに許される許容ビット数以下となるような最適な指数部と仮数部を決定する。ここで、「最適な」とは、「量子化誤差が許容誤差以下となる」という意味である。

[0022] 以上説明した通り、第 1の従来技術は、長ブロックと短ブロックと力、ら最適なブロック長を選択する。よって、第 1の従来技術は、プリエコーの少ない良好な音質が得ること力 Sできる。ところが、第 1の従来技術は、 MDCT変換及び心理聴覚分析を、長ブロック用と短ブロック用とのそれぞれで行う。そのため、第 1の従来技術は、処理量が多い

[0023] (第 2の従来技術）

上記第 1の従来技術の問題を解決する方法として、 MDCT変換と心理聴覚分析との前に、入力信号の性質を調べてブロック長を先に決定する方法が知られている。入力信号の性質を調べる方法には、例えば下記の特許文献 1に開示された方法がある。この方法は公知である。

[0024] 以下、特許文献 1に開示された方法を、第 2の従来技術とする。そして、この方法の構成を図 12に示す。図 12は、第 2の従来技術の構成を示す構成図である。この第 2 の従来技術は、 1フレームをさらに短い短ブロックに分割する。

[0025] (1)まず、入力信号がフレーム化部 1201に入力する。フレーム化部 1201は、入力信号を所定のサンプノレ数からなるフレーム (長ブロック）に分割する。フレーム化部 12

01から出力された信号は、電力算出部 1202と、選択器 1204と、心理聴覚分析部 1

208とに出力される。

[0026] 電力算出部 1202は、入力した信号から、電力及び電力変動比を算出する。電力算出部 1202は、算出した電力変動比をブロック長判定部 1203に出力する。

[0027] ブロック長判定部 1203は、入力した電力変動比に基づいて、長ブロック又は短ブロックのいずれを用いるのかを判定する。そして、ブロック長判定部 1203は、その判定結果を、選択器 1204及び選択器 1207に出力する。各選択器 1204及び選択器 1207は、ブロック長判定部 1203の判定結果に基づいて、長ブロック又は短ブロックのいずれを用いるのか選択する。 [0028] 長ブロック用の MDCT変換部 1205は、入力した信号に対して 1024点の MDCT 変換を行う。そして、長ブロック用の MDCT変換部 1205は、 MDCT係数（MDCT1

)を算出する。

[0029] また、短ブロック用の MDCT変換部 1206は、入力した信号に対して 128点の MD CT変換を行う。そして、短ブロック用の MDCT変換部 1206は、 MDCT係数（MDC T2)を算出する。尚、 1フレームにっき短ブロックは 8ブロックあるので、 MDCT2は 8 組生成される。

[0030] (2)次に、心理聴覚分析部 1208は、入力信号からマスキング閾値を求める。そして、入力信号から得られたマスキング閾値は、スペクトル量子化部 1209に入力する

[0031] (3)スペクトル量子化部 1209は、入力されたマスキング閾値に従って周波数バンド毎に MDCT係数を量子化する。そして、スぺクトノレ量子化部 1209は、 MDCT係数を量子化した量子化符号 1を出力する。

[0032] (4)スペクトル量子化部 1209から出力された量子化符号 1は、ハフマン符号化部 1

210へ入力する。ハフマン符号化部 1210は、量子化符号 1を、量子化符号 1よりも更に冗長度が除去された量子化符号 2に変換する。

[0033] (5)この量子化符号 2は、量子化制御部 1212に入力する。量子化制御部 1212は

、入力した量子化符号 2に基づいて、最終的に出力されるビットストリームの総数を計算する。なお、図 12において、点線で囲まれた範囲は、量子化制御部 1212が制御可能な範囲である。

[0034] (6)量子化制御部 1212は、計算した総ビット数が現ブロックに許されるビット数を上回る場合、処理（3) 処理（5)を繰り返すように、スペクトル量子化部 1209と、ハフマン符号化部 1210とを制御する。また、量子化制御部 1212は、計算した総ビット数が現ブロックに許されるビット数を下回る場合、ハフマン符号化部 1210からビットストリーム生成部 1211に対して量子化符号 2を出力させる。そして、量子化制御部 1212 は、ビットストリーム生成部 1211に対して、ビットストリームを出力するように制御する

[0035] 図 13は、第 2の従来技術においてフレームを短ブロックに分割する場合の例を示す概念図である。図 13は、 1フレームを 4つの短ブロックに分割する場合を示している。第 2の従来技術は、各短ブロックの入力信号電力 P (l)、 P (2)、 P (3)、 P (4)を求める。そして、第 2の従来技術は、隣接する短ブロック間の電力変動比 Δ (1， 2)、 Δ

P

(2， 3)、 Δ (3， 4)を求める。ここで、 Δ (i， j)は、短ブロック iと短ブロック iの間の電

P P P

力変動比である。 Δ (i, j)は、次式で求められる。

P

[0036] [数 1]

Δ_Ρ( ϋ 式 (1 )

[0037] 電力変動比は、入力信号が急激に大きくなる場合に大きくなる。逆に、電力変動比は、入力信号が急に小さくなる場合に小さくなる。したがって、電力変動比がほとんど変化しない場合、ブロック長判定部 1203は、長ブロックを選択する。また、ブロック長判定部 1203は、電力変動比が急激に大きくなつた場合や小さくなる場合に、短プロックを選択する。この処理により、第 2の従来技術は、最適な窓長を選ぶことができる

[0038] また、第 2の従来技術は、ブロック長を、 MDCT変換及び心理聴覚分析の前に決定する。そのため、第 2の従来技術は、長ブロック又は短ブロックの一方のみに対して、 MDCT変換及び心理聴覚分析を実行する。したがって、第 2の従来技術は、第 1の従来技術に比べて少ない処理量でオーディオ信号を符号化することができる。

[0039] ところ力電力変動比が変化しなくても入力信号の性質が変化する場合、第 2の従来技術は、入力信号の性質変化を検知できない場合がある。例えば、正弦波を入力とし、かつ、電力が一定のままで正弦波の周波数が変化した場合、第 2の従来技術は、電力変動比のみを用いる方法では信号の変化点を検出することができない。

[0040] ここで、入力信号、電力変動比及び予測利得変動比の例について図 14を参照して説明する。図 14は、入力信号、電力変動比及び予測利得変動比の例を示すダラフである。図 14の（a)は、符号ィ匕する前の入力信号を示すグラフであり、図 14の（b) は、電力変動比のグラフであり、図 14の（c)は、予測利得変動比のグラフである。図 1 4の区間 Bや区間 Cは、無音部から有音部へ変化する。この場合は、電力変動比も大きく変化する。そのため、第 2の従来技術は、これらの区間では、信号の変化点を検出すること力 Sできる。

[0041] ところ力区間 Aは、入力信号の性質が定常部から過渡部に変化する。この場合、電力変動比は、ほとんど変化しない。そのため、この場合、第 2の従来技術は、信号の変化を検出することができない。そのため、この場合、第 2の従来技術は、長ブロックを選択する。しかし、この第 2の従来技術のように、信号が急に変化する部分を長ブロックで処理すると、プリエコーが発生する。そのため、第 2の従来技術は、音質が劣化する。

特許文献 1：特開平 7 - 66733号公報

非特許文献 l : ISO/lEC 13818—7の PART7, "Advanced Audio Coding ( AAC) "

発明の開示

発明が解決しょうとする課題

[0042] 前述のように、第 1の従来技術は、 MDCT変換及び心理聴覚分析を、長ブロック用と短ブロック用とのそれぞれで行う。そのため、第 1の従来技術は、長ブロック又は短ブロックのみの処理の場合に比べて処理量が多くなるという問題がある。

[0043] また、第 2の従来技術は、入力信号の性質が変化した場合であっても電力変動比が変化しなければ信号の性質の変化を検知できない。そのため、第 2の従来技術は、適切なブロック長を選択できない場合があるという問題がある。

[0044] 本発明の目的は、処理量を軽減しつつ、ブロック長を適切に選択することが可能なオーディオ符号化装置及びオーディオ符号化方法を提供することにある。

課題を解決するための手段

[0045] 本発明のオーディオ符号化装置は、

入力信号を一定のサンプル数からなるフレームに分割し、 1フレームの入力信号を符号化する長ブロックモードと、前記フレームを分割して短ブロックとし、該短ブロックを符号ィ匕する短ブロックモードとを備えたオーディオ符号ィ匕装置において、

前記入力信号から電力変動比を算出する電力算出手段と、前記入力信号から予測利得変動比を算出する算出手段と、

前記電力変動比と前記予測利得変動比とから、長ブロックによる符号化を行うか又は短ブロックによる符号化を行うかを判定するブロック長判定手段とを備える。

[0046] また、本発明のオーディオ符号化装置は、

前記ブロック長判定手段が、

前記電力変動比及び前記予測利得変動比のいずれか一方があらかじめ決められた閾値より大きい場合に短ブロックによる符号化を選択し、前記電力変動比及び前記予測利得変動比のいずれか一方があらかじめ決められた閾値より大きい場合以外の場合に、長ブロックによる符号化を選択する。

[0047] また、本発明のオーディオ符号化装置は、

前記ブロック長判定手段が用いる符号ィ匕する際のブロック長を判定するための閾値を、前記ブロック長判定手段の判定結果に応じて変化させる閾値決定手段を備える。

[0048] また、本発明のオーディオ符号化装置は、

前記閾値決定手段が、

前記ブロック長判定手段の判定結果が短ブロックによる符号化を表す場合に、前記閾値を初期値よりも大きな値に設定する。

[0049] また、本発明のオーディオ符号化装置は、

前記算出手段が、

前記電力算出手段が電力を算出するブロックを所定数用いて 1つのブロックとし、該 1つのブロックの前記予測利得変動比を算出する。

[0050] また、本発明のオーディオ符号化装置は、

前記電力算出手段が、

前記算出手段が予測利得を算出するブロックを所定数用いて 1つのブロックとし、該 1つのブロックの前記電力変動比を算出する。

[0051] また、本発明のオーディオ符号化装置は、

入力信号を一定のサンプル数からなるフレームに分割し、 1フレームの入力信号を符号化する長ブロックモードと、前記フレームを分割して短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号ィヒ装置において、

前記入力信号から電力変動比を算出する電力算出手段と、

前記入力信号から予測利得変動比を算出する算出手段と、

前記電力変動比と前記予測利得変動比とから、長ブロックによる符号化を行うか又は短ブロックによる符号化を行うかを判定するブロック長判定手段と、

前記ブロック長判定手段により長ブロックによる符号化が選択された場合は、長プロック単位で入力信号を離散コサイン変換して第 1の係数を求める第 1の変換手段と、前記ブロック長判定手段により短ブロックによる符号化が選択された場合は、短プロック単位で入力信号を離散コサイン変換して第 2の係数を求める第 2の変換手段と、前記ブロック長判定手段の判定結果に応じて前記第 1の係数又は前記第 2の係数を第 3の係数として選択する選択手段と、

前記入力信号からマスキング閾値を求める心理聴覚分析手段と、

前記マスキング閾値に従って前記第 3の係数をスペクトル量子化して第 1の符号を求める量子化手段と、

前記第 1の符号をハフマン符号化して第 2の符号を求めるハフマン符号化手段と、前記第 2の符号から、出力されるビットストリームの総ビット数を計算し、該計算の結果に基づいてビットストリームの出力を指示する量子化制御手段と、

前記第 2の符号からビットストリームを生成し、前記量子化制御手段の指示に基づレ、てビットストリームを出力するビットストリーム生成手段とを備える。

[0052] また、本発明のオーディオ符号化装置は、

前記ブロック長判定手段が、

前記電力変動比及び前記予測利得変動比の少なくともいずれか一方があらかじめ決められた閾値より大きい場合に短ブロックによる符号化を選択し、前記電力変動比及び前記予測利得変動比の少なくともいずれか一方があらかじめ決められた閾値より大きい場合以外の場合は長ブロックによる符号化を選択する。

[0053] また、本発明のオーディオ符号化装置は、

[0054] また、本発明のオーディオ符号化装置は、

前記閾値決定手段が、

前記ブロック長判定手段の判定結果が短ブロックによる符号化を表す場合に、前記閾値を初期値よりも大きい値に設定する。

[0055] また、本発明のオーディオ符号化装置は、

前記算出手段が、

[0056] また、本発明のオーディオ符号化装置は、

前記電力算出手段が、

[0057] さらに、本発明のオーディオ符号化方法は、

入力信号を一定のサンプル数からなるフレームに分割し、 1フレームの入力信号を符号化する長ブロックモードと、前記フレームを分割して短ブロックとし、該短ブロックを符号ィ匕する短ブロックモードとを備えたオーディオ符号ィ匕方法において、

前記入力信号から電力変動比を算出する電力算出工程と、

前記入力信号から予測利得変動比を算出する算出工程と、

前記電力変動比と前記予測利得変動比とから、長ブロックによる符号化を行うか又は短ブロックによる符号化を行うかを判定するブロック長判定工程とを備える。

[0058] また、本発明のオーディオ符号化方法は、

入力信号を一定のサンプル数からなるフレームに分割し、 1フレームの入力信号を符号化する長ブロックモードと、

前記フレームを分割して短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号ィヒ方法において、

前記入力信号から電力変動比を算出する電力算出工程と、前記入力信号から予測利得変動比を算出する算出工程と、

前記電力変動比と前記予測利得変動比とから、長ブロックによる符号化を行うか又は短ブロックによる符号化を行うかを判定するブロック長判定工程と、

前記ブロック長判定工程において長ブロックによる符号ィ匕が選択された場合は、長ブロック単位で入力信号を離散コサイン変換して第 1の係数を求める第 1の変換工程と、

前記ブロック長判定工程において短ブロックによる符号ィ匕が選択された場合は、短ブロック単位で入力信号を離散コサイン変換して第 2の係数を求める第 2の変換工程と、

前記ブロック長判定工程の判定結果に応じて前記第 1の係数又は前記第 2の係数を第 3の係数として選択する選択工程と、

前記入力信号からマスキング閾値を求める心理聴覚分析工程と、

前記マスキング閾値に従って前記第 3の係数をスペクトル量子化して第 1の符号を求める量子化工程と、

前記第 1の符号をハフマン符号化して第 2の符号を求めるハフマン符号化工程と、前記第 2の符号から、出力されるビットストリームの総ビット数を計算し、該計算の結果に基づいてビットストリームの出力を指示する量子化制御工程と、

前記第 2の符号からビットストリームを生成し、前記量子化制御工程における指示に基づいてビットストリームを出力するビットストリーム生成工程とを備える。

[0059] 本発明のオーディオ符号化装置及びオーディオ符号化方法は、電力変動比と予測利得変動比とから、長ブロックによる符号ィ匕を行うか又は短ブロックによる符号ィ匕を行うかを判定する。そのため、本発明のオーディオ符号化装置及びオーディオ符号化方法は、長ブロックによる符号化と短ブロックによる符号化との双方を行う必要が無くなる。そのため、本発明のオーディオ符号化装置及びオーディオ符号化方法は、処理量を軽減することができると共に、電力変動比と予測利得変動比との双方を用いて符号ィヒするブロック長の判定を行っているため、より適切なブロック長による符号化を行うことができる。

[0060] また、本発明のオーディオ符号化装置及びオーディオ符号化方法は、ブロック長判定に用いるブロック長判定用の閾値を、ブロック長の判定結果に応じて変化させることにより、例えば、短ブロックによる符号化が頻繁に選択されることを防止でき、出力される音の音質の低下を軽減することができる。

[0061] また、本発明のオーディオ符号化装置及びオーディオ符号化方法は、電力を算出するブロックを所定数用いて 1つのブロックとし、この 1つのブロックの予測利得変動比を算出することにより、処理量を軽減することができる。

[0062] また、本発明のオーディオ符号化装置及びオーディオ符号化方法は、予測利得を算出するブロックを所定数用いて 1つのブロックとし、この 1つのブロックの電力変動比を算出することにより、処理量を軽減することができる。

発明の効果

[0063] 以上のように、本発明によれば、処理量を軽減しつつ、ブロック長を適切に選択することが可能なオーディオ符号化装置及びオーディオ符号化方法を提供することができる。

図面の簡単な説明

[0064] [図 1]本発明のオーディオ符号化装置の概要図である。

[図 2]本発明のオーディオ符号化装置で用いる長ブロックと短ブロックの一例の概念図である。

[図 3]本発明のオーディオ符号化装置における、予測利得変動比の算出方法の概念図である。

[図 4]本発明のオーディオ符号化装置の第 1の実施形態の構成図である。

[図 5]本発明のオーディオ符号化装置の第 1の実施形態が行うブロック長判定方法の動作のフローチャートである。

[図 6]本発明のオーディオ符号化装置の第 2の実施形態の構成図である。

[図 7]本発明のオーディオ符号化装置の第 2の実施形態の閾値決定部における、閾値制御の動作を示すグラフである。

[図 8]本発明のオーディオ符号化装置の第 3の実施形態において、予測利得変動比と電力変動比とを求める方法の概念図である。

[図 9]本発明のオーディオ符号化装置の第 4の実施形態における、電力変動比の算出方法を示す概念図である。

[図 10]第 1の従来技術である、 MPEG-2 AACのエンコーダの構成を示す構成図である。

[図 11]プリエコーの例を示す概略図である。

園 12]第 2の従来技術の構成を示す構成図である。

園 13]第 2の従来技術においてフレームを短ブロックに分割する場合の例を示す概念図である。

園 14]入力信号、電力変動比及び予測利得変動比の例を示すグラフである。符号の説明

101 フレーム化部

102 電力算出部

103 算出部

104 ブロック長判定部

105 選択器

106 長ブロック用の MDCT変換部

107 短ブロック用の MDCT変換部

108 選択器

109 心理聴覚分析部

110 量子化部

111 ハフマン符号化部

112 ビットストリーム生成部

113 量子化制御部

401 フレーム化部

402 電力算出部

403 自己相関算出部

404 kパラメータ算出部

405 予測利得算出部

406 予測利得変動比算出部 407 ブロック長判定部

408 選択器

409 長ブロック用の MDCT変換部

410 短ブロック用の MDCT変換部

411 選択器

412 心理聴覚分析部

413 量子化部

414 ハフマン符号化部

415 ビットストリーム生成部

416 量子化制御部

601 フレーム化部

602 電力算出部

603 自己相関算出部

604 kパラメータ算出部

605 予測利得算出部

606 予測利得変動比算出部

607 ブロック長判定部

608 閾値決定部

609 選択器

610 長ブロック用の MDCT変換部

611 短ブロック用の MDCT変換部

612 選択器

613 心理聴覚分析部

614 量子化部

615 ハフマン符号化部

616 ビットストリーム生成部

617 量子化制御部

発明を実施するための最良の形態 [0066] (本発明の概要）

以下、図面を参照して本発明を実施するための最良の形態について説明する。まず、本発明のオーディオ符号化装置及びオーディオ符号化方法の概要について説明する。図 1は、本発明のオーディオ符号化装置の概要図である。以下の説明は、本発明のオーディオ符号化方法の概要の説明も兼ねる。図 1において、フレームィ匕部 101は、入力信号を、所定のサンプノレ数からなる入力信号フレーム (長ブロック）に分割する。次に、長ブロック用の MDCT変換部 106、短ブロック用の MDCT変換部 107、電力算出部 102及び算出部 103は、 1フレームを長ブロックよりも更に短い短ブロックに分割する。図 2は、本発明のオーディオ符号化装置で用いる長ブロックと短ブロックの一例の概念図である。図 2は、 1フレーム（長ブロック）を 4つ短ブロックに分割する場合を示している。以下では、図 2に示される例を元に説明する。しかし、本発明は、 1フレームを n個（n> 0)に分割する場合でも同様に実施できる。

[0067] (1)電力算出部 102は、短ブロック毎に入力信号電力 P (l)、 P (2)、 P (3)、 P (4) を求める。次に、電力算出部 102は、隣接するブロック間の電力変動比 Δ (1， 2)、

P

Δ (2， 3)、 Δ (3， 4)を求める。ここで、 Δ (i， j)は短ブロック iと短ブロック jの間の電

P P P

力変動比であり、前述の式（1)で求められる。

[0068] (2)次に、算出部 103は、短ブロックの入力信号に対して LPC分析 (線形予測分析法）を実行して kパラメータを求める。図 3は、本発明のオーディオ符号化装置における、予測利得変動比の算出方法の概念図である。本発明では、 kパラメータの算出方法は任意である。しかし、本発明は、例えば入力信号から自己相関関数を求め、レビンソンアルゴリズム等の公知の方法により自己相関関数から kパラメータを算出する方法を用いることができる。

[0069] (3)次に、算出部 103は、短ブロック iから求めた kパラメータ k (i， m)，（m= l， · · · , ρ)から、次式により予測利得 G (i)を求める。ここで、 pは予測次数である。

[0070] [数 2] 式 (2)

Π (ト k(i , m)² )

m=1

[0071] (4)次に、算出部 103は、短ブロック i、 jから求めた予測利得 G (i)、 G (j)力次式により予測利得変動比 Δ (i，j)を求める。

G

[0072] [数 3]

A_G( i， j) = 式 (3)

G ( i )

[0073] (5)次に、電力変動比 Δ (i, j)はブロック長判定部 104に入力する。また、予測利

P

得変動比 Δ (i, j)はブロック長判定部 104に入力する。そして、ブロック長判定部 10

G

4は、長ブロックと短ブロックとのどちらで量子化するかを判定する。ブロック長判定部 104による判定方法は、以下の方法を用いることができる。なお、以下の説明において、ブロック長判定部が長ブロックを選択するとは、ブロック長判定部が、長ブロックによる符号化を選択することを意味する。同様に、ブロック長判定部が短ブロックを選択するとは、ブロック長判定部が、短ブロックによる符号化を選択することを意味する。すなわち、ブロック長判定部がブロックを選択するとは、ブロック長判定部が、そのブロックによる符号ィ匕を選択することを意味する。

[0074] A)ブロック長判定部 104は、電力変動比に対する閾値 THと、予測利得変動比 T

P

Hを設定する。

G

B)次に、ブロック長判定部 104は、 Δ (1 , 2)、 Δ (2, 3)、 Δ (3, 4)の中で閾値 T

P P P

Hよりも大きレ、ものが一つでもあれば短ブロックを選択し、なければ次の C)へ進む。

P

C)次に、ブロック長判定部 104は、 Δ (1 , 2)、 Δ (2, 3)、 Δ (3, 4)の中で閾値

G G G

THよりも大きいものが一つでもあれば短ブロックを選択し、なければ長ブロックを選

G

択する。 [0075] つまり、ブロック長判定部 104は、フレーム内の電力変動比と予測利得変動比とのどちらか一方があら力じめ設定した閾値を越えた場合のみ短ブロックを選択し、それ以外は長ブロックを選択する。

[0076] (6)ブロック長判定部 104が長ブロックを選択した場合、その判定結果は選択器 10 5及び選択器 108に出力される。選択器 105及び選択器 108は、ブロック長判定部 1 04の判定結果に基づいてブロックを選択をする。そのため、ブロック長判定部 104が長ブロックを選択した場合、選択器 105及び選択器 108は、長ブロックを選択する。

[0077] そして、フレーム化部 101から出力された入力信号が長ブロック用の MDCT変換部 106へ入力する。そして、長ブロック用の MDCT変換部 106は、 MDCT1を出力する。

[0078] また、ブロック長判定部 104が短ブロックを選択した場合、その判定結果は選択器 1 05及び選択器 108に出力される。そして、選択器 105及び選択器 108は、短ブロックを選択する。

[0079] そして、フレーム化部 101から出力された入力信号が短ブロック用の MDCT変換部 107へ入力する。そして、短ブロック用の MDCT変換部 107は、短ブロックの数だけ MDCT係数を出力する。つまり、 1フレームが 4つの短ブロックに分割される場合は、短ブロック用の MDCT変換部 107は、 4組の MDCT係数を出力する。

[0080] (7)次に、心理聴覚分析部 109は、入力した入力信号から、マスキング閾値を求める。ここで、心理聴覚分析部 109は、ブロック長判定部 104が長ブロックを選択した場合、長ブロック用のマスキング閾値を求める。また、心理聴覚分析部 109は、ブロック長判定部 104が短ブロックを選択した場合、短ブロック用のマスキング閾値を求める

[0081] 本発明において、マスキング閾値の算出方法は、任意の方法を用いることができる。例えば、心理聴覚分析部 109は、非特許文献 1に開示されている方法を用いることができる。つまり、心理聴覚分析部 109は、入力信号に対して FFT分析を行う。そして、心理聴覚分析部 109は、 FFTスぺクトノレを求める。そして、心理聴覚分析部 109 は、 FFTスペクトルからマスキング閾値を算出する。

[0082] (8)次に、 MDCT係数とマスキング閾値とは、量子化部 110へ入力される。量子化部 110は、入力されたマスキング閾値に従って周波数バンド毎に MDCT係数を量子化する。そして、量子化部 110は、 MDCT係数が量子化された量子化符号 1を出力する。

[0083] (9)次に、量子化符号 1は、ハフマン符号化部 111へ入力する。そして、ハフマン符号化部 111は、量子化符号 1を、量子化符号 1より更に冗長度が除去された量子化符号 2に変換する。

[0084] (10)次に、ハフマン符号ィ匕部 111は、量子化符号 2を量子化制御部 113に出力する。量子化制御部 113は、入力した量子化符号 2から最終的に出力されるビットストリ一ムの総ビット数を計算する。なお、図 1において、点線で囲まれた範囲は、量子化制御部 113が制御可能な範囲である。

[0085] (11)量子化制御部 113は、計算した総ビット数が現ブロックに許されるビット数を上回る場合、処理（8) 処理（10)を繰り返すように、量子化部 110と、ハフマン符号ィ匕部 111とを制御する。また、量子化制御部 113は、計算した総ビット数が現ブロックに許されるビット数を下回る場合、ハフマン符号化部 111からビットストリーム生成部 11 2に対して量子化符号 2を出力させる。そして、量子化制御部 113は、ビットストリーム生成部 112に対して、ビットストリームを出力するように制御する。これにより、図 1に示されるオーディオ符号化装置は、量子化を実現する。なお、本発明での量子化のプロセスは、前述の従来技術の欄で説明した、 AAC方式の量子化プロセスの詳細と同様であるため、その詳細な説明を省略する。

[0086] 次に、図面を参照して本発明の実施形態について説明する。以下の実施の形態の構成は例示であり、本発明は実施の形態の構成に限定されない。また、以下の各実施形態の説明は、オーディオ信号を符号化するオーディオ符号化装置を例に用いて説明する。なお、以下に説明する本発明のオーディオ符号化装置の各実施形態の説明は、本発明のオーディオ符号化方法の各実施形態の説明を兼ねる。

[0087] (第 1の実施形態）

図 4は、本発明のオーディオ符号化装置の第 1の実施形態の構成図である。図 4において、フレーム化部 401は、入力した信号を所定のサンプノレ数からなる入力信号フレーム（長ブロック）に分割する。 [0088] 次に、短ブロック用の MDCT変換部 410、電力算出部 402及び自己相関算出部 4 03は、入力した 1フレームを短ブロックに分割する。本実施形態におけるフレームの分割について前述の図 2を参照して説明する。図 2は、長ブロックと短ブロックの例を示す概念図である。図 2に示される例は、 1フレーム（長ブロック）を 4つの短ブロックに分割する。以下では、この例を元に説明する。しかし、本実施形態は、 1フレームを n個（nは非負の整数）に分割する場合でも同様に成り立つ。

[0089] (1)まず、電力算出部 402は、短ブロック毎に入力信号電力 P (l)、 P (2)、 P (3)、 P (4)を求める。そして、電力算出部 402は、隣接するブロック間の電力変動比 Δ (1

P

， 2)、 Δ (2， 3)、 Δ (3， 4)を求める。ここで、 Δ (i， j)は短ブロック iと短ブロック jとの

P P P

間の電力変動比である。この電力変動比は、前述の式（1)で求められる。

[0090] (2)次に、自己相関算出部 403は、短ブロックの入力信号から自己相関を求める。

そして、自己相関算出部 403は、この自己相関を kパラメータ算出部 404に出力する

[0091] 次に、 kパラメータ算出部 404は、自己相関関数からレビンソンアルゴリズム等の公知の方法により kパラメータを算出する。なお、 kパラメータ算出部 404が、自己相関関数力 LPC係数を求め、 kパラメータ算出部 404が、 LPC係数を kパラメータに変換するとしても良い。

[0092] (3)そして、予測利得算出部 405は、短ブロック iから求めた kパラメータ k (i, m) , ( m= l， · · ·， p)から次式により予測利得 G (i)を求める。ここで、 pは予測次数である。この予測利得 G (i)は、予測利得変動比算出部 406に入力する。

[0093] [数 4]

(4)次に、予測利得変動比算出部 406は、短ブロック i、短ブロック jで求めた予測利得 G (i)、 G (j)から、次式で示される予測利得変動比 Δ—(i， j)を求める。ここで、自己相関算出部 403、 kパラメータ算出部 404、予測利得算出部 405及び予測利得変動比算出部 406は、図 1に示される算出部 103の機能の一部であるとして良い。

[0095] [数 5]

式 (5)

[0096] (5)次に、電力変動比 Δ (i, j)と、予測利得変動比 Δ (i, j)とは、ブロック長判定

P G

部 407へ入力する。そして、ブロック長判定部 407は、長ブロックと短ブロックとのどちらで量子化するかを判定する。ブロック長判定部 407が用いる判定方法は、以下の方法を用いることができる。以下、ブロック長判定部が行う判定方法について、図 5を参照して説明する。図 5は、本発明のオーディオ符号化装置の第 1の実施形態が行うブロック長判定方法の動作のフローチャートである。なお、以下の説明では、前述のように、ブロック長判定部が長ブロックを選択するとは、ブロック長判定部が、長プロックによる符号化を選択することを意味する。同様に、ブロック長判定部が短ブロックを選択するとは、ブロック長判定部が、短ブロックによる符号化を選択することを意味する。すなわち、ブロック長判定部がブロックを選択するとは、ブロック長判定部が、そのブロックによる符号化を選択することを意味する。

[0097] (A)ブロック長判定部 407は、電力変動比に対する閾値 THと、予測利得変動比

P

に対する閾値 THを設定する。

G

(B)ブロック長判定部 407は、 Δ (1， 2)、 Δ (2, 3)、 Δ (3, 4)の中で閾値 THよ

P P P P

りも大きレヽもの力 ^s—つでもあれは、短ブロックを選択し（S501， S502, S503, S508) 、なければ（C)へ進む。

[0098] (C)ブロック長判定部 407は、 Δ (1 , 2)、 Δ (2, 3)、 Δ (3， 4)の中で閾値 TH

G G G G

よりも大きレヽもの力 S—つでもあれは、短ブロックを選択し（S504, S505, S506, S508 )、なければ長ブロックを選択する（S507)。

[0099] つまり、ブロック長判定部 407は、フレーム内の電力変動比と予測利得変動比とのどちらか一方があら力じめ設定した閾値を越えた場合のみ、短ブロックを選択し、それ以外は長ブロックを選択する。

[0100] (6)ブロック長判定部 407の判定結果は、選択器 408及び選択器 411に入力する

。各選択器 408及び選択器 411は、ブロック長判定部 407の判定結果に基づいて、用いるブロック長を選択する。

[0101] ブロック長判定部 407が、長ブロックを選択した場合は、入力信号が長ブロック用の

MDCT変換部 409へ入力する。そして、長ブロック用の MDCT変換部 409は、 MD

CT係数を出力する。

[0102] また、ブロック長判定部 407が短ブロックを選択した場合は、入力信号が短ブロック用の MDCT変換部 410へ入力する。そして、短ブロック用の MDCT変換部 410は、短ブロックの数分の MDCT係数を出力する。つまり、 1フレームが 4つの短ブロックに分割される場合、短ブロック用の MDCT変換部 410は、 4組の MDCT係数を出力する。

[0103] (7)次に、心理聴覚分析部 412は、入力した入力信号から、マスキング閾値を求める。心理聴覚分析部 412には、フレーム化部 401から出力された入力信号が入力する。ここで、心理聴覚分析部 412は、ブロック長判定部 407が長ブロックを選択した場合、長ブロック用のマスキング閾値を求める。また、心理聴覚分析部 412は、ブロック長判定部 407が短ブロックを選択した場合、短ブロック用のマスキング閾値を求める

[0104] 本実施形態において、マスキング閾値の算出方法は、任意の方法を用いることができる。例えば、心理聴覚分析部 412は、非特許文献 1に開示されている方法を用レ、ることができる。つまり、心理聴覚分析部 412は、入力信号に対して FFT分析を行う。そして、心理聴覚分析部 412は、 FFTスペクトルを求める。そして、心理聴覚分析部 412は、 FFTスペクトルからマスキング閾値を算出する。

[0105] (8) MDCT係数とマスキング閾値とは、量子化部 413へ入力される。量子化部 413 は、入力されたマスキング閾値に従って周波数バンド毎に MDCT係数を量子化する。量子化部 413は、 MDCT係数を量子化した量子化符号 1を出力する。

[0106] (9)次に、量子化符号 1は、ハフマン符号化部 414へ入力する。そして、ハフマン符号化部 414は、量子化符号 1を、量子化符号 1より更に冗長度が除去された量子化符号 2に変換する。

[0107] (10)次に、ハフマン符号ィ匕部 414は、量子化符号 2を量子化制御部 416に出力する。量子化制御部 416は、入力された量子化符号 2から最終的に出力されるビットストリームの総ビット数を計算する。なお、図 4において、点線で囲まれた範囲は、量子化制御部 416が制御可能な範囲である。

[0108] (11)量子化制御部 416は、計算した総ビット数が現ブロックに許されるビット数を上回る場合、処理（8) 処理（10)を繰り返すように、量子化部 413と、ハフマン符号ィ匕部 414とを制御する。また、量子化制御部 416は、計算した総ビット数が現ブロックに許されるビット数を下回る場合、ハフマン符号化部 414からビットストリーム生成部 41 5に対して量子化符号 2を出力させる。そして、量子化制御部 415は、ビットストリーム生成部 415に対して、ビットストリームを出力するように制御する。これにより、本実施形態は、量子化を実現する。なお、本実施形態での量子化のプロセスは、前述の従来技術の欄で説明した、 AAC方式の量子化プロセスの詳細と同様であるため、その詳細な説明を省略する。

[0109] なお、本実施形態では 1フレームを 4つの短ブロックに分割する場合を例に説明した。本発明は、 1フレームを任意の個数 (例えば、 8ブロック）に分割する場合でも同様にして実現することができる。

[0110] 以上説明の通り、本実施形態は、 MDCT変換の前にブロック長を判定しているため、第 1の従来技術に比べて少ない処理量で高品質なオーディオ信号の符号化が可能である。また、本実施形態は、電力変動比と予測利得変動比とを用いてブロック長の判定を行っているため、第 2の従来技術よりもブロック長の判定が高精度であるため、第 2の従来技術よりも高品質なオーディオ信号の符号化が可能である。

[0111] すなわち、本実施形態は、 MDCT変換及び心理聴覚分析の前に、符号化を行うブロック長を判定する。そのため、本実施形態は、第 1の従来技術に比べて少ない処理量で高品質な符号化が可能である。更に、本実施形態は、ブロック長判定手段において、電力変動比と予測利得変動比とを用いる。そのため、本実施形態は、第 2の従来技術に比べてブロック長を精度良く判定することができる。

[0112] 本実施形態の効果について、前述の図 14を用いてさらに詳細に説明する。図 14 は、電力変動比と予測利得変動比との算出結果を示すグラフである。図 14の（a)に示される入力信号は、区間 Aでは電力変動比の値が 0でほとんど変化していない（図 14の（b) )。これに対し、図 14の（a)に示される入力信号は、区間 Aでは予測利得変動比が大きく変動している（図 14の（c) )。

[0113] 本実施形態は、電力変動比と予測利得変動比との両方を算出する。そして、本実施形態は、電力変動比と予測利得変動比とのどちらか一方が閾値を越えた場合に、短ブロックを選択する。そのため、本実施形態は、図 14に示される区間 Aのような入力信号でも精度良くブロック長を判定することができる。

[0114] なお、図 14に示される区間 B、区間 Cでは、予測利得変動比はほとんど変動しない。一方、図 14に示される区間 B、区間 Cでは、電力変動比が大きく変動する。したがつて、本実施形態は、区間 B、区間 Cについても第 2の従来技術と同様に信号の変化点を検出可能である。

[0115] (第 2の実施形態）

図 6は、本発明のオーディオ符号化装置の第 2の実施形態の構成図である。本実施形態は、第 1の実施形態と比較して、電力変動比に対する閾値 THと予測利得変

P

動比に対する閾値 THとを動的に変化させる部分が異なる。それ以外の部分は第 1

G

の実施形態と共通であるので説明を省略する。

[0116] 一般に、短ブロックはアタック音などの急激に変化する部分で選択される場合が多レ、。アタック音は、広い周波数範囲に渡って MDCTスペクトルの振幅が大きい。そのため、アタック音は、符号ィ匕する場合に大量の量子化ビット数が必要になる。

[0117] 連続して短ブロックが選択されると、量子化ビット数が不足して音質が極端に劣化する場合がある。そのため、低ビットレートでオーディオ信号を符号ィ匕するには、なるベく短ブロックが連続して選択されなレ、ように制御することが必要な場合がある。

[0118] そこで、本実施形態では、一度、短ブロックが選択された場合、その後一定時間の間は閾値 THと閾値 THとを大きくする。その結果、本実施形態では、できるだけ短

P G

ブロックが連続して選ばれないようにする。

[0119] ここで、本発明のオーディオ符号化装置の第 2の実施形態の構成について説明する。本実施形態の構成は、図 6に示される。そして、図 6に示される各ブロックのうち、ブロック長判定部 607及び閾値決定部 608以外のブロックの動作は、図 4に示される対応する各ブロックの動作と同様であるため、その詳細な説明を省略する。

[0120] すなわち、図 6に示される、フレーム化部 601の動作は図 4に示されるフレーム化部 401の動作と同様であり、電力算出部 602の動作は図 4に示される電力算出部 402 の動作と同様であり、自己相関算出部 603の動作は図 4に示される自己相関算出部 403の動作と同様であり、 kパラメータ算出部 604の動作は図 4に示される kパラメ一タ算出部 404の動作と同様であり、予測利得算出部 605の動作は図 4に示される予測利得算出部 405の動作と同様である。

[0121] さらに、予測利得変動比算出部 606の動作は図 4に示される予測利得変動比算出部 406の動作と同様であり、選択器 609の動作は図 4に示される選択器 408の動作と同様であり、長ブロック用の MDCT変換部 610の動作は図 4に示される長ブロック用の MDCT変換部 409の動作と同様である。

[0122] また、短ブロック用の MDCT変換部 611の動作は図 4に示される短ブロック用の M DCT変換部 410の動作と同様であり、選択器 612の動作は図 4に示される選択器 4 11の動作と同様であり、心理聴覚分析部 613の動作は図 4に示される心理聴覚分析部 412の動作と同様であり、量子化部 614の動作は図 4に示される量子化部 413の動作と同様であり、ハフマン符号化部 615の動作は図 4に示されるハフマン符号ィ匕部 414の動作と同様であり、ビットストリーム生成部 616の動作は図 4に示されるビットストリーム生成部 415の動作と同様であり、量子化制御部 617の動作は図 4に示される量子化制御部 416の動作と同様である。なお、図 6において、点線で囲まれた範囲は、量子化制御部 617が制御可能な範囲である。

[0123] 他方、図 6に示されるブロック長判定部 607は、閾値決定部 608において決定された閾値を受信する。また、ブロック長判定部 607は、ブロック長の判定結果を、選択器 609、選択器 612及び閾値決定部 608に出力する。閾値決定部 608は、ブロック長判定部 607から出力された判定結果に基づいて、閾値を決定する。すなわち、閾値決定部 608は、ブロック長判定部 607から出力された判定結果が短ブロックを選択する判定結果である場合は、増加した閾値の値を出力する。また、ブロック長判定部 607は、閾値決定部 608から受信した閾値に基づいて、判定処理を行う。閾値が変動しうる点以外は、ブロック長判定部 607における判定処理は、前述の図 5に示される場合と同様であるため、その詳細な説明を省略する。また、閾値決定部 608は、図 1に示される算出部 103の機能の一部であるとして良い。

[0124] 図 7は、本発明のオーディオ符号ィヒ装置の第 2の実施形態の閾値決定部における、閾値制御の動作を示すグラフである。図 7に示されるグラフでは、短ブロックが選択されると、閾値 THは TH + aに変更されている。ここでひ〉 0とする。同様に、短ブ

G G

ロック力選択されると、閾値 THは TH + βに変更される。ここで、 β > 0とする。

Ρ Ρ

[0125] その後、一定時間 A tが経過すると、閾値は元の値 (初期値) TH 、 THに変更され

G P

る。つまり、本実施形態では、一度、短ブロックが選択された場合、その後一定時間は閾値 THと閾値 THとを大きくして、できるだけ短ブロックが連続して選ばれないよ

P G

うにする。

[0126] 以上の説明の通り、本実施形態は、前述の第 1の実施形態と同様の効果を得ることができる。さらに、本実施形態は、一度短ブロックが選択された場合に、その後一定時間は短ブロックが選ばれないように閾値を制御する。そのため、本実施形態では、連続して短ブロックが選択されることにより生じる音質劣化を軽減することができる。

[0127] なお、本実施形態の変形例として、以下の方法を実施することもできる。以下の変形例でも、上記本発明のオーディオ符号化装置の第 2の実施形態と同様の効果を得ること力 Sできる。

(1)本実施形態の変形例は、短ブロックが選ばれた後、一定時間は短ブロックを選択しない。

(2)本実施形態の変形例は、短ブロックが選ばれた後、 α又は βを十分に大きくする。ただし、本実施形態の変形例は、 ΤΗ又は ΤΗ範囲をあらかじめ調べておく必要

G Ρ

力 Sある。

(3)本実施形態の変形例は、短ブロックが選択され、閾値が ΤΗ + ひ又は ΤΗ +

G Ρ

βとなっている場合に、再度短ブロックが選択された場合、閾値を、 ΤΗ + ひ + ひ又

G

は ΤΗ + β + βとする。ただし、本実施形態の変形例は、一定時間後は、閾値を元 ρ

の値に戻す。

[0128] (第 3の実施形態）次に、本発明のオーディオ符号化装置の第 3の実施形態について説明する。本実施形態の構成は、図 4に示される第 1の実施形態と同じである。しかし、第 3の実施形態は、予測利得変動比をフレーム単位で求める点が前述の第 1の実施形態とは異なる。すなわち、本実施形態では、電力を算出するブロックを所定数用いて 1つのプロックとし、この 1つのブロックの予測利得変動比を算出する。

[0129] 第 1の実施形態は、短ブロック毎に LPC分析を行う。そのため、第 1の実施形態は、精密に予測利得変動比を算出できる。しかし、第 1の実施形態では、 LPC分析の実行回数が多くなるため処理量も増える。本実施形態では 1つの長ブロックにっき 1回の LPC分析を行う。そのため、本実施形態は、第 1の実施形態に比べると演算量をより少なくすることができる。

[0130] 図 8は、本発明のオーディオ符号ィ匕装置の第 3の実施形態において、予測利得変動比と電力変動比とを求める方法の概念図である。第 1の実施形態は、短ブロック毎に LPC分析を行って得られた kパラメータから予測利得を求める。そして、第 1の実施形態は、 1つ前の短ブロックで同様にして求めた予測利得との比により予測利得変動比を算出する。

[0131] これに対し、本実施形態は、図 8の（a)に示されるように、 1つの長ブロック（第 nフレーム）の入力信号に対して LPC分析を行って kパラメータを求める。すなわち、 kパラメータ算出部が、 1つの長ブロック（第 nフレーム）の入力信号に対して LPC分析を行つて kパラメータを求める。そして、本実施形態は、 kパラメータから予測利得 G (n)を算出する。次に、本実施形態は、 1つ前のフレーム（第 n-1フレーム目）で同様にして求めた予測利得電力 G (n— 1)と G (n)とを用いて、次式により予測利得変動比 Δ (n

G

)を算出する。

[0132] [数 6]

A_G ^ ¾ 式 (6)

[0133] 一方、本実施形態は、図 8の（b)に示されるように、第 1の実施形態と同様に、短ブロック毎に電力変動比 Δ (1 , 2)、 Δ (2, 3)、 Δ (3, 4)を算出する。次に、本実施

Ρ Ρ Ρ

形態は、算出された予測利得変動比と電力変動比とから最適なブロック長を決定する。以下、この決定動作について説明する。

[0134] (1)ブロック長判定部は、 Δ (η)があら力め決められた閾値 ΤΗよりも大きければ

G G

短ブロックを選択する。

(2)次に、ブロック長判定部は、 Δ (1， 2)、 Δ (2, 3)、 Δ (3, 4)の中で、一つで

Ρ Ρ Ρ

もあら力、じめ決められた閾値 ΤΗよりも大きいものがあれば短ブロックを選択する ρ

[0135] (3)そして、ブロック長判定部は、（1)又は（2)のいずれか一方で短ブロックが選択されなかった場合は長ブロックを選択する。本実施形態は、ブロック長を選択した後の構成と処理内容は第 1の実施形態と共通である。そのため、本実施形態のブロック長を選択した後の構成と処理内容については、説明を省略する。

[0136] 以上の説明の通り、本実施形態は、前述の本発明の第 1の実施形態と同様の効果を得ることができる。さらに、本実施形態は、 LPC分析を長ブロックにっき 1回だけ行うことにより、第 1の実施形態に比べてより少ない処理量でブロック長を選択することができる。ただし、本実施形態では、予測利得を算出するブロックとして、 1フレームのブロックを用いる場合に限定されるものではなぐ電力を算出するブロックを任意の数用いて 1つのブロックとし、この 1つのブロックの予測利得を算出するとしても良い。この場合でも、本実施形態は、上記と同様の効果を得ることができる。

[0137] (第 4の実施形態）

次に、本発明のオーディオ符号化装置の第 4の実施形態について説明する。本実施形態の構成は第 1の実施形態の構成と同じある。しかし、本実施形態は、 1フレームを 8つの短ブロックに分割して行う電力変動比の計算方法が第 1の実施形態と異なる。すなわち、本実施形態は、予測利得を算出するブロックを所定数用いて 1つのブロックとし、この 1つのブロックの電力変動比を算出する。

[0138] 図 9は、本発明のオーディオ符号化装置の第 4の実施形態における、電力変動比の算出方法を示す概念図である。図 9に示されるように、本実施形態は、 1フレームを 8つの短ブロックに分割し、電力変動比を計算する。ただし、本実施形態は、第 1の実施形態のように 1個の短ブロックについて 1個の電力変動比を求めるのではない。すなわち、本実施形態は、隣接する複数の短ブロックから電力変動比を求める点が、第 1の実施形態と異なる。本実施形態の電力変動比の算出方法を以下に示す。

[0139] 本実施形態では、第 1及び第 2の短ブロックから電力 P (1)を求める。また、本実施形態は、第 3及び第 4の短ブロックから電力 P (2)を求める。また、本実施形態は、第 5 及び第 6の短ブロックから電力 P (3)を求める。また、本実施形態は、第 7及び第 8の短ブロックから電力 P (4)を求める。

[0140] 次に、本実施形態は、 P (l)と P (2)とから電力変動比 Δ (1， 2)を求める。また、本

P

実施形態は、 P (2)と P (3)とから電力変動比 Δ (2, 3)を求める。また、本実施形態

P

は、 P (3)と P (4)とからから電力変動比 Δ (3, 4)を求める。

P

[0141] 上記のように、本実施形態は、 2つの短ブロックの電力を求める点が第 1の実施形態とは異なる。すなわち、第 1の実施形態では、予測利得変動比が 8個、電力変動比力^個、計算されるのに対して、本実施形態では、予測利得変動比が 8個、電力変動比が 4個しか計算されない。つまり、本実施形態では、 1フレーム内で算出する予測利得変動比と電力変動比との数が異なってもよい。本実施形態の、上述の部分以外については第 1の実施形態と同じであるので説明を省略する。

[0142] このように、本実施形態は、前述の本発明の第 1の実施形態と同様の効果を得ることができる。さらに、本実施形態は、 2つの短ブロックの電力を求めることにより、電力の算出処理の計算量を、第 1の実施形態に比べて軽減することができる。なお、本実施形態は、電力を算出するブロックとして、短ブロックの 2つを用いる場合に限定されるのではなぐ 3つ以上の任意の数の短ブロックを用いて電力を算出するとしても良レ、。この場合でも、上記の効果と同様の効果を得ることができる。

Claims

請求の範囲

[1] 入力信号を一定のサンプノレ数からなるフレームに分割し、 1フレームの入力信号を符号化する長ブロックモードと、前記フレームを分割して短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化装置において、

前記入力信号から電力変動比を算出する電力算出手段と、

前記入力信号から予測利得変動比を算出する算出手段と、

前記電力変動比と前記予測利得変動比とから、長ブロックによる符号化を行うか又は短ブロックによる符号化を行うかを判定するブロック長判定手段とを備えるオーディォ符号化装置。

[2] 前記ブロック長判定手段は、

前記電力変動比及び前記予測利得変動比のいずれか一方があらかじめ決められた閾値より大きい場合に短ブロックによる符号化を選択し、前記電力変動比及び前記予測利得変動比のいずれか一方があらかじめ決められた閾値より大きい場合以外の場合に、長ブロックによる符号化を選択する請求項 1記載のオーディオ符号化装置。

[3] 前記ブロック長判定手段が用いる符号化する際のブロック長を判定するための閾値を、前記ブロック長判定手段の判定結果に応じて変化させる閾値決定手段を備える請求項 1記載のオーディオ符号化装置。

[4] 前記閾値決定手段は、

前記ブロック長判定手段の判定結果が短ブロックによる符号化を表す場合に、前記閾値を初期値よりも大きな値に設定する請求項 3記載のオーディオ符号化装置。

[5] 前記算出手段は、

前記電力算出手段が電力を算出するブロックを所定数用いて 1つのブロックとし、該 1つのブロックの前記予測利得変動比を算出する請求項 1記載のオーディオ符号化装置。

[6] 前記電力算出手段は、

前記算出手段が予測利得を算出するブロックを所定数用いて 1つのブロックとし、該 1つのブロックの前記電力変動比を算出する請求項 1記載のオーディオ符号化装置。

[7] 入力信号を一定のサンプノレ数からなるフレームに分割し、 1フレームの入力信号を符号化する長ブロックモードと、

前記フレームを分割して短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号ィヒ装置において、

前記入力信号から電力変動比を算出する電力算出手段と、

前記入力信号から予測利得変動比を算出する算出手段と、

前記第 2の符号からビットストリームを生成し、前記量子化制御手段の指示に基づレ、てビットストリームを出力するビットストリーム生成手段とを備えるオーディオ符号化装置。

[8] 前記ブロック長判定手段は、

前記電力変動比及び前記予測利得変動比の少なくともいずれか一方があらかじめ決められた閾値より大きい場合に短ブロックによる符号化を選択し、前記電力変動比及び前記予測利得変動比の少なくともいずれか一方があらかじめ決められた閾値より大きい場合以外の場合は長ブロックによる符号化を選択する請求項 7記載のォーディォ符号化装置。

[9] 前記ブロック長判定手段が用いる符号化する際のブロック長を判定するための閾値を、前記ブロック長判定手段の判定結果に応じて変化させる閾値決定手段を備える請求項 7記載のオーディオ符号化装置。

[10] 前記閾値決定手段は、

前記ブロック長判定手段の判定結果が短ブロックによる符号化を表す場合に、前記閾値を初期値よりも大きい値に設定する請求項 9記載のオーディオ符号化装置。

[11] 前記算出手段は、

前記電力算出手段が電力を算出するブロックを所定数用いて 1つのブロックとし、該 1つのブロックの前記予測利得変動比を算出する請求項 7記載のオーディオ符号化装置。

[12] 前記電力算出手段は、

前記算出手段が予測利得を算出するブロックを所定数用いて 1つのブロックとし、該 1つのブロックの前記電力変動比を算出する請求項 7記載のオーディオ符号化装置。

[13] 入力信号を一定のサンプノレ数からなるフレームに分割し、 1フレームの入力信号を符号化する長ブロックモードと、前記フレームを分割して短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号化方法において、

前記入力信号から電力変動比を算出する電力算出工程と、

前記入力信号から予測利得変動比を算出する算出工程と、

前記電力変動比と前記予測利得変動比とから、長ブロックによる符号化を行うか又は短ブロックによる符号化を行うかを判定するブロック長判定工程とを備えるオーディォ符号化方法。

[14] 入力信号を一定のサンプノレ数からなるフレームに分割し、 1フレームの入力信号を符号化する長ブロックモードと、

前記フレームを分割して短ブロックとし、該短ブロックを符号化する短ブロックモードとを備えたオーディオ符号ィヒ方法において、前記入力信号から電力変動比を算出する電力算出工程と、前記入力信号から予測利得変動比を算出する算出工程と、

前記第 2の符号からビットストリームを生成し、前記量子化制御工程における指示に基づいてビットストリームを出力するビットストリーム生成工程とを備えるオーディオ符号化方法。