JPWO2010016270A1 - 量子化装置、符号化装置、量子化方法及び符号化方法 - Google Patents

量子化装置、符号化装置、量子化方法及び符号化方法 Download PDF

Info

Publication number
JPWO2010016270A1
JPWO2010016270A1 JP2010523771A JP2010523771A JPWO2010016270A1 JP WO2010016270 A1 JPWO2010016270 A1 JP WO2010016270A1 JP 2010523771 A JP2010523771 A JP 2010523771A JP 2010523771 A JP2010523771 A JP 2010523771A JP WO2010016270 A1 JPWO2010016270 A1 JP WO2010016270A1
Authority
JP
Japan
Prior art keywords
signal
power
value
correlation
correlation value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010523771A
Other languages
English (en)
Inventor
利幸 森井
利幸 森井
佐藤 薫
薫 佐藤
江原 宏幸
宏幸 江原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Publication of JPWO2010016270A1 publication Critical patent/JPWO2010016270A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Abstract

バランス重み係数の量子化における計算量を少なくして、より効率的な量子化を行うことができる量子化装置。この装置では、パワ・相関計算部(201)は、L信号とM信号との相関値及びR信号とM信号との相関値を求めるとともに、M信号のパワを計算する。中間値計算部(202)は、M信号のパワと各相関値とを用いて2つの中間値を求める。符号帳(203)は、複数のスカラ値を保持する。探索部(204)は、2つの中間値に基づいて、複数の前記スカラ値の中から、L信号に対するM信号の振幅のバランス調整用の係数を選択する。復号部(205)は、L信号とR信号とをダウンミックスしてM信号を生成する際の各信号間の振幅の定量的関係に基づいて、探索部(204)により選択されたL信号に対するM信号のバランス調整用の係数を用いて、R信号に対するM信号のバランス調整用の係数を求める。

Description

本発明は、量子化装置、符号化装置、量子化方法及び符号化方法に関し、例えばステレオ音響信号を低ビットレートで符号化する方式であるインテンシティステレオ方式の手法を応用した量子化装置、符号化装置及び量子化方法に関する。
移動体通信においては伝送帯域の有効利用のために音声や画像のディジタル情報の圧縮符号化が必須である。その中でも携帯電話で広く利用されている音声コーデック(符号化/復号)技術において、更に良い音質を得るべく、圧縮率の高い従来の高効率符号化に対する要求が強まっている。
また、近年では多層構造を持つスケーラブルコーデックの標準化がITU−T(International Telecommunication Union Telecommunication Standardization Sector)やMPEG(Moving Picture Experts Group)で検討されており、より効率的で高品質の音声コーデックが求められている。また、近年では、音声コーデックの際に、16kbps〜32kbpsの高いビットレートが設定されるようになり、また、音楽に対する品質や臨場感(マルチチャネル、ステレオ音響)のニーズを満たすものが求められるようになってきた。
ステレオ音響信号を低ビットレートで符号化する方式として、インテンシティステレオ方式が知られている。インテンシティステレオ方式では、モノラル信号(以下「M信号」と記載する)にスケーリング係数を乗じて左チャネル信号(以下「L信号」と記載する)と右チャネル信号(以下「R信号」と記載する)とを生成する手法を採る。このような手法は振幅パニング(amplitude panning)とも呼ばれる。
振幅パニングの最も基本的な手法は、時間領域におけるM信号に振幅パニング用の利得係数(バランス重み係数)を乗じてL信号およびR信号を求めるものである(例えば、非特許文献1)。
また、別な手法として、周波数領域において個々の周波数成分ごと、または周波数グループごとにM信号にバランス重み係数を乗じてL信号およびR信号を求めるものもある(例えば、非特許文献2)。
バランス重み係数をパラメトリックステレオの符号化パラメータとして符号化することによりステレオ信号の符号化を実現することができる(例えば、特許文献1および特許文献2)。バランス重み係数は、特許文献1においてはバランスパラメータとして、特許文献2においてはILD(レベル差)として、それぞれ説明されている。
また、従来においては、非特許文献1〜2及び特許文献1〜2のように、L信号とR信号とのステレオ信号の効率的な符号化を行っていた。
その中でも、特許文献1には、インテンシティステレオにおけるバランス重み係数である左右の音量の比を求めてから、その比を符号化する旨が開示されている。
特表2004−535145号公報 特表2005−533271号公報
V.Pulkki and M.Karjalainen,"Localization of amplitude-panned virtual sources I: Stereophonic panning",Journal of the Audio Engineering Society,Vol.49,No.9,2001年9月,pp.739-752 B.Cheng,C.Ritz and I.Burnett,"Principles and analysis of the squeezing approach to low bit rate spatial audio coding",proc.IEEE ICASSP2007,pp.I-13-I-16,2007年4月
しかしながら、従来の装置においては、バランス重み係数を量子化する際に、バランス重み係数の算出と量子化における計算量が大きくなるという問題がある。例えば特許文献1には、左右の音量の比を求めてからその比を符号化する旨が開示されているが、音量比を求めるために複雑な算術である「除算」を使用しているために計算量が多くなっている。
本発明の目的は、バランス重み係数の量子化における計算量を少なくして、より効率的な量子化を行うことができる量子化装置、符号化装置、量子化方法及び符号化方法を提供することである。
本発明の量子化装置は、第1の信号と第2の信号とをダウンミックスした結果を利用して得られた第3の信号の振幅のバランスを調整する2つの係数を量子化する量子化装置であって、前記第1の信号、前記第2の信号、及び前記第3の信号の3つの信号を入力し、前記第1の信号と前記第3の信号との第1相関値及び前記第2の信号と前記第3の信号との第2相関値を算出するとともに、前記第3の信号の第1パワを算出するパワ・相関計算手段と、前記第1パワを用いて第1中間値を算出するとともに、前記第1相関値及び前記第2相関値の少なくとも1つの相関値と前記第1パワとを用いて、第2中間値を算出する中間値計算手段と、複数のスカラ値が格納された符号帳と、前記第1中間値及び前記第2中間値に基づいて、前記第1の信号に対して前記第3の信号の振幅のバランスを調整するバランス重み係数を、前記符号帳に格納されている前記複数のスカラ値の中から探索して、求められたスカラ値に対応する符号を得る探索手段と、を具備する構成を採る。
本発明の符号化装置は、第1の信号と第2の信号とを入力してダウンミックスした結果を用いて第3の信号を生成するダウンミックス手段と、前記第1の信号と前記第2の信号と前記第3の信号とを入力し、前記第3の信号の振幅のバランスを調整する2つの係数に関する量子化を行って得られた符号を出力する量子化手段と、前記第1の信号に対して前記第3の信号の振幅のバランスを調整する第1のバランス重み係数を、前記符号を用いて決定し、前記第2の信号に対して前記第3の信号の振幅のバランスを調整する第2のバランス重み係数を、前記第1のバランス重み係数を用いて算出する係数決定手段と、前記第1の信号と前記第3の信号と前記第1のバランス重み係数とを用いて第1ターゲット信号を生成し、前記第1ターゲット信号を符号化するとともに、前記第2の信号と前記第3の信号と前記第2のバランス重み係数とを用いて第2ターゲット信号を生成し、前記第2ターゲット信号を符号化する符号化手段と、を具備し、前記量子化手段は、前記第1の信号と前記第3の信号との第1相関値及び前記第2の信号と前記第3の信号との第2相関値を算出するとともに、前記第3の信号の第1パワを算出するパワ・相関計算手段と、前記第1パワを用いて第1中間値を算出するとともに、前記第1相関値及び前記第2相関値の少なくとも1つの相関値と前記第1パワとを用いて第2中間値を算出する中間値計算手段と、複数のスカラ値が格納された符号帳と、前記第1中間値及び前記第2中間値に基づいて、前記第1のバランス重み係数を、前記複数のスカラ値の中から探索して、求められたスカラ値に対応する前記符号を得る探索手段と、を具備する構成を採る。
本発明の量子化方法は、第1の信号と第2の信号とをダウンミックスした結果を利用して得られた第3の信号の振幅のバランスを調整する2つの係数を量子化する量子化方法であって、前記第1の信号、前記第2の信号、及び前記第3の信号の3つの信号を入力し、前記第1の信号と前記第3の信号との第1相関値及び前記第2の信号と前記第3の信号との第2相関値を算出するとともに、前記第3の信号の第1パワを算出するパワ・相関計算ステップと、前記第1パワを用いて第1中間値を算出するとともに、前記第1相関値及び前記第2相関値の少なくとも1つの相関値と前記第1パワとを用いて第2中間値を算出する中間値計算ステップと、前記第1中間値及び前記第2中間値に基づいて、前記第1の信号に対して前記第3の信号の振幅のバランスを調整するバランス重み係数を、符号帳に格納されている複数のスカラ値の中から探索して、求められたスカラ値に対応する符号を得る探索ステップと、を有するようにした。
本発明の符号化方法は、第1の信号と第2の信号とを入力してダウンミックスした結果を用いて第3の信号を生成するダウンミックスステップと、前記第1の信号と前記第2の信号と前記第3の信号とを入力し、前記第3の信号の振幅のバランスを調整する2つの係数に関する量子化を行って得られた符号を出力する量子化ステップと、前記第1の信号に対して前記第3の信号の振幅のバランスを調整する第1のバランス重み係数を、前記符号を用いて決定し、前記第2の信号に対して前記第3の信号の振幅のバランスを調整する第2のバランス重み係数を、前記第1のバランス重み係数を用いて算出する係数決定ステップと、前記第1の信号と前記第3の信号と前記第1のバランス重み係数とを用いて第1ターゲット信号を生成し、前記第1ターゲット信号を符号化するとともに、前記第2の信号と前記第3の信号と前記第2のバランス重み係数とを用いて第2ターゲット信号を生成し、前記第2ターゲット信号を符号化する符号化ステップと、を有し、前記量子化ステップは、前記第1の信号と前記第3の信号との第1相関値及び前記第2の信号と前記第3の信号との第2相関値を算出するとともに、前記第3の信号の第1パワを算出するパワ・相関計算ステップと、前記第1パワを用いて第1中間値を算出するとともに、前記第1相関値及び前記第2相関値の少なくとも1つの相関値と前記第1パワとを用いて第2中間値を算出する中間値計算ステップと、前記第1中間値及び前記第2中間値に基づいて、前記第1のバランス重み係数を、符号帳に格納されている複数のスカラ値の中から探索して、求められたスカラ値に対応する前記符号を得る探索ステップと、を有するようにした。
本発明によれば、より効率的なバランス重み係数の量子化を行うことができる。
本発明の実施の形態1及び2に係る符号化装置の構成を示すブロック図 本発明の実施の形態1及び2に係る量子化装置の構成を示すブロック図 本発明の実施の形態1に係る符号帳に番号付けられて格納されているスカラ値の一例を示す図 本発明の実施の形態3に係る符号帳に格納されている情報の一部を示す図
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
(実施の形態1)
本実施の形態においては、パニング(以後「バランス調整」と呼ぶ)を利用して符号化及び復号を行う構成を、以下の構成を用いて説明する。すなわち、「ISO/IEC 14496-3:1999(E) “MPEG-2”, p.232, FIG.B.13」(以後、非特許文献3と呼ぶ)に示されている、ISO/IECにおけるMPEG−2及びMPEG−4の標準方式であるAAC(Advanced Audio Codec)として広く使用されている符号化器の構成の一部(FIG.B.13の左半分の構成からサイド信号を生成する部分を除いた構成)を用い、この構成の右側に特許文献1記載のインテンシティステレオの構成要素を加え、それぞれの信号の出力先に符号器を追加することにより、全体の情報を符号化して伝送する、という構成を全体構成として挙げる。
また、ステレオ信号は、聞く人の左耳と右耳とに異なる音響信号を入れることによって、聞く人が臨場感のある音響を楽しめるようになっている。したがって、コンテンツである音響信号において、最もシンプルなステレオ信号は、L信号とR信号との2チャンネルの場合であり、本実施の形態では入力信号が2チャンネルの場合について説明する。
最初に、本発明の実施の形態に係る符号化装置の構成について説明する。
図1は、本実施の形態に係る符号化装置100の構成を示すブロック図である。
図1は、ステレオ信号をスケーラブル(多層構造)で符号化するものであり、M信号をコア符号化器で符号化し、その後、コア復号器で復号することにより生成した復号信号を用いて、周波数領域でステレオ信号を符号化する構成をとる。
符号化装置100は、ダウンミックス部101、コア符号化器102、コア復号器103、修正離散コサイン変換(以下「MDCT(Modified Discrete Cosine Transform)」と記載する)部104、MDCT部105、MDCT部106、ダウンミックス部107、加算部108、量子化装置109、乗算部110、乗算部111、加算部112、加算部113、符号化器114、符号化器115及び符号化器116から主に構成される。
ダウンミックス部101は、予め定められた長さのベクトルである、L信号(第1の信号)とR信号(第2の信号)とを入力し、入力したL信号とR信号とをダウンミックスしてM信号(第3の信号)を求める。そして、ダウンミックス部101は、求めたM信号をコア符号化器102へ出力する。(1)式は、ダウンミックス部101における、ダウンミックスの計算方法の一例を示すものである。本実施の形態では、L信号とR信号とを加算して0.5を乗ずるという最もシンプルなダウンミックス方法を用いる。
Figure 2010016270
コア符号化器102は、ダウンミックス部101から入力したM信号を符号化して符号を求め、求められた符号をコア復号器103及び多重化部117へ出力する。
コア復号器103は、コア符号化器102から入力した符号を復号して復号信号を生成し、生成した復号信号をMDCT部105へ出力する。
MDCT部104は、L信号を入力し、入力したL信号に対して、離散コサイン変換を行い、時間領域(タイムドメイン)の信号から周波数領域(フリケンシードメイン)の信号(周波数スペクトル)へ変換する。そして、MDCT部104は、変換後の信号をダウンミックス部107、加算部112及び量子化装置109へ出力する。
MDCT部105は、コア復号器103から入力した復号信号に対して、離散コサイン変換を行い、時間領域(タイムドメイン)の信号から周波数領域(フリケンシードメイン)の信号(周波数スペクトル)へ変換する。そして、MDCT部105は、変換後の信号を加算部108へ出力する。
MDCT部106は、R信号を入力し、入力したR信号に対して、離散コサイン変換を行い、時間領域(タイムドメイン)の信号から周波数領域(フリケンシードメイン)の信号(周波数スペクトル)へ変換する。そして、MDCT部106は、変換後の信号をダウンミックス部107、加算部113及び量子化装置109へ出力する。
ダウンミックス部107は、MDCT部104から入力したL信号とMDCT部106から入力したR信号をダウンミックスしてM信号を求める。そして、ダウンミックス部107は、求めたM信号を加算部108へ出力する。ダウンミックス部107がダウンミックス部101と異なる点は、時間領域の信号をダウンミックスするのではなく、周波数領域の信号をダウンミックスする点である。なお、ダウンミックスの計算方法は式(1)と同様であるため、その説明を省略する。
加算部108は、MDCT部105から入力した信号を、ダウンミックス部107から入力したM信号から減じて、ターゲットとなるM信号(以下「ターゲットM信号」と記載する)を算出する。そして、加算部108は、算出したターゲットM信号を乗算部110、乗算部111、符号化器115及び量子化装置109へ出力する。
量子化装置109は、MDCT部104から入力したL信号、加算部108から入力したターゲットM信号、及びMDCT部106から入力したR信号を用いて、バランス調整に使用するバランス重み係数を符号化して重み係数の符号を求める。また、量子化装置109は、求めた符号を多重化部117へ出力する。また、量子化装置109は、求めた符号を復号してL信号に対するターゲットM信号の振幅のバランスを調整するバランス重み係数w(以下、「L信号のバランス重み係数w」と記載する)を取得し、取得したL信号のバランス重み係数wを乗算部110にセットする。また、量子化装置109は、取得したL信号のバランス重み係数wを用いて、R信号に対するターゲットM信号の振幅のバランスを調整するバランス重み係数w(以下、「R信号のバランス重み係数w」と記載する)を求めて、求めたR信号のバランス重み係数wを乗算部111にセットする。なお、量子化装置109の詳細な構成については後述する。
乗算部110は、加算部108から入力したターゲットM信号に対して、量子化装置109から入力したL信号のバランス重み係数wを乗じて加算部112へ出力する。
乗算部111は、加算部108から入力したターゲットM信号に対して、量子化装置109から入力したR信号のバランス重み係数wを乗じて加算部113へ出力する。
加算部112は、乗算部110から入力した、L信号のバランス重み係数wを乗じたターゲットM信号を、MDCT部104から入力したL信号から減じて、ターゲットとなるL信号(以下「ターゲットL信号」と記載する)を求める。そして、加算部112は、求めたターゲットL信号を符号化器114へ出力する。
加算部113は、乗算部111から入力した、R信号のバランス重み係数wを乗じたターゲットM信号を、MDCT部106から入力したR信号から減じて、ターゲットとなるR信号(以下「ターゲットR信号」と記載する)を求める。そして、加算部113は、求めたターゲットR信号を符号化器116へ出力する。加算部112及び加算部113における計算を(2)式に示す。
Figure 2010016270
上記アルゴリズムがバランス調整を利用したL信号とR信号との変換に相当する。バランス重み係数は、ターゲットM信号と、L信号またはR信号との類似性を表している。従って、バランス重み係数を乗じたターゲットM信号を、L信号及びR信号から減じたターゲットL信号及びターゲットR信号は、ターゲットM信号により冗長となる部分を省かれた信号となり、信号としてのパワが減少するので、両者は効率よく符号化できるようになる。
符号化器114は、加算部112から入力したターゲットL信号を符号化して求められた符号を多重化部117へ出力する。符号化器115は、加算部108から入力したターゲットM信号を符号化して求められた符号を多重化部117へ出力する。符号化器116は、加算部113から入力したターゲットR信号を符号化して求められた符号を多重化部117へ出力する。
多重化部117は、コア符号化器102、量子化装置109、符号化器114、符号化器115および符号化器116から入力した各符号を多重化し、多重化後のビットストリームを出力する。
次に、量子化装置109の構成について、図2を用いて説明する。図2は、量子化装置109の構成を示すブロック図である。
量子化装置109は、パワ・相関計算部201、中間値計算部202、符号帳203、探索部204及び復号部205から主に構成される。
パワ・相関計算部201は、MDCT部104から入力したL信号、加算部108から入力したターゲットM信号、及びMDCT部106から入力したR信号を用いて、パワの計算と相関値の計算とを行う。そして、パワ・相関計算部201は、計算したパワと相関値とを中間値計算部202へ出力する。パワと相関値とは、(3)式により求めることができる。
Figure 2010016270
中間値計算部202は、パワ・相関計算部201から入力したパワと相関値とを用いて2つの中間値を求める。そして、中間値計算部202は、求めた中間値を探索部204へ出力する。中間値は、一例として、(4)式により求めることができる。
Figure 2010016270
符号帳203は、ROM(Read Only Memory)等の記憶手段に格納されている情報であり、L信号の重み係数として選択される複数のスカラ値から成る。図3は、本実施の形態における符号帳203に番号付けられて格納されているスカラ値の一例を示す図である。なお、符号帳203に格納されているスカラ値はバランス重み係数のL側のみの値である。
探索部204は、符号帳203に格納されている複数のスカラ値の中から最適なものを探索し、探索により見つけた最適なスカラ値に対応する番号を選択することによりバランス重み係数を符号化する。具体的な例としては、探索部204は、(5)式に示すコスト関数が最も小さくなる番号Nを探索する。そして、探索部204は、選択した番号Nを符号として多重化部117へ出力する。また、探索部204は、多重化部117へ出力した符号を復号部205へ出力する。
Figure 2010016270
なお、(5)式において、符号帳203に格納されたスカラ値を2乗しているが、この場合は、2乗した値を符号帳203にあらかじめ格納しておくことにより、さらに少ない計算量で探索することができる。
復号部205は、探索部204から入力した符号(番号N)を復号してL信号のバランス重み係数を求める(w=w )。即ち、復号部205は、符号帳203に格納されている複数のスカラ値の中から、探索部204から入力した符号(番号N)に対応するスカラ値を、L信号のバランス重み係数として取り出す。
また、復号部205は、得られたL信号のバランス重み係数を所定の定数から減算した減算結果をR信号のバランス重み係数とする。例えば、復号部205は、定数2.0からL信号のバランス重み係数を減算してR信号のバランス重み係数を求める(w=2.0−w )。ここで、Nは、L信号のバランス重み係数の符号であり、w及びwは、復号されたバランス重み係数である。定数2.0は、ダウンミックス部101におけるダウンミックスの際の各信号間の振幅の定量的関係に応じて設定された値である。なお、定数2.0からL信号のバランス重み係数を減じることによりR信号のバランス重み係数を求める理由は後述する。
また、復号部205は、L信号のバランス重み係数を乗算部110にセットし、R信号のバランス重み係数を乗算部111にセットする。
次に、本発明によって量子化及び復号されたバランス重み係数によるバランス調整の理論的裏づけについて詳細に説明を行う。
まず、バランス調整を利用したL信号とR信号との効率的な符号化は、(6)式における変換値のパワを最小にすることにより行われる。なお、この場合のM信号は、L信号とR信号との平均値を取ったものとする。
Figure 2010016270
Figure 2010016270
次に、(6)式において、L信号側のパワを最小にするバランス重み係数を計算すると、(8)式のようになる。
Figure 2010016270
また、同様に、(6)式において、R信号側の式のパワを最小にするバランス重み係数は(9)式のようになる。
Figure 2010016270
つまり、上記(8)式及び(9)式のバランス重み係数を選択すれば、L信号及びR信号のパワを最小にすることができる。
また、M信号に(1)式の関係があることにより、L信号のバランス重み係数とR信号のバランス重み係数との加算結果は、(1)式及び(3)式より、(10)式のようになる。
Figure 2010016270
そこで、本実施の形態では、ターゲットM信号は、(1)式のような単純な関係ではなく、図1の様にスケーラブルにて量子化されるものではあるが、(1)式の関係が支配的であると仮定して、(10)式の関係において、バランス重み係数の量子化を行うものとする。この仮定により、量子化(符号化)するパラメータを1つにすることが出来るので低ビットレートでの符号化が可能になる。
また、L信号のバランス重み係数wのみを、符号帳203を用いて探索して量子化(符号化)を行い、R信号のバランス重み係数wは(10)式の関係より求める。この場合の探索のコスト関数Fは、(11)式のようになる。
Figure 2010016270
上記の(11)式において、第3項はL信号のバランス重み係数wと無関係なので省略し、第1項と第2項との和のみをコスト関数として使用する。この各バランス重み係数に乗じられる各々の値が、(4)式に示す2つの中間値になる。また、このコスト関数が小さいほど、ターゲットL信号とターゲットR信号とのパワの総和を小さくすることができ、そのようなL信号のバランス重み係数wを探索することが、最適なバランス重み係数を量子化(符号化)することになる。
また、上記の符号化によって得られたバランス重み係数を使用することによって、ターゲットL信号のパワと、ターゲットR信号のパワとを小さくすることができ、低ビットレートで良好な品質の音声を伝送することができる。
次に、本実施の形態について、実証実験を行ったので、その結果について説明する。使用した符号化器は非特許文献3と同様のステレオ信号(16kHzサンプリング)のスケーラブルスペクトル量子化を行うコーデックシミュレータである。評価データは、様々な音源位置から発声した6音声をアペンドしたデータ(24秒間)である。バランス重み係数の量子化ビット数は、4ビットである。
上記の条件により実証実験を行った結果、従来の符号化装置を本実施の形態の符号化装置と置き換えることにより、本実施の形態におけるバランス重み係数を実際に求めて量子化を行う場合の計算量は、従来と比べて3/5になる。従って、本実施の形態においては、従来に比べて、計算量を大きく節約することができることが分かる。
上記のように大きな効果が得られた理由としては、バランス重み係数そのものを算出しないことで、特許文献1のように複雑な算術である除算等の、計算量が大きくなるような計算を行わないこと、及び符号帳203に格納される番号とスカラ値との組が、4ビットで番号を特定することができる16種類と比較的少ないということが挙げられる。
このように、本発明によれば、バランス重み係数そのものの算出を行わないことにより、量子化における計算量が少なくなり、より効率的な量子化を行うことができる。
(実施の形態2)
本実施の形態は、バランス調整を利用して符号化及び復号を行う際に、量子化装置において、上記の実施の形態1とは異なる計算を行うことを特徴とする。なお、本実施の形態において、符号化装置の構成は図1と同一構成であるので、その説明を省略する。また、本実施の形態において、量子化装置の構成は図2と同一構成である。以下の説明では、図1及び図2の符号を用いて説明する。
パワ・相関計算部201は、MDCT部104から入力したL信号、加算部108から入力したターゲットM信号、及びMDCT部106から入力したR信号を用いて、パワの計算と相関値の計算とを行う。そして、パワ・相関計算部201は、計算したパワと相関値とを中間値計算部202へ出力する。パワ・相関計算部201は、(12)式によりパワと相関値とを求める。
Figure 2010016270
(12)式において、パワ成分を加算する割合を示すγ、η、ζは変数でも良いし定数でも良いし、それぞれ異なる数値でも良い。一例として、γ、η、ζを定数にする場合には、3つのγ、η、ζを予め約0.25に設定しておくことにより、良好な性能を得られることを実験により確認している。
なお、ターゲットM信号の調整パワ、ターゲットM信号とL信号との調整相関値、及びターゲットM信号とR信号との調整相関値は、ターゲットM信号のパワ、ターゲットM信号とL信号との相関値、及びターゲットM信号とR信号との相関値を、L信号のパワ、R信号のパワ、L信号のパワとR信号のパワとの和、及びパワ成分を加算する割合(3つの係数)を用いて調整したものであるので、以降の説明においては、ターゲットM信号の調整パワをターゲットM信号のパワと再定義し、ターゲットM信号とL信号との調整相関値をターゲットM信号とL信号との相関値と再定義し、及びターゲットM信号とR信号との調整相関値をターゲットM信号とR信号との相関値と再定義して説明を行うこととする。
また、パワ・相関計算部201は、γ、η、ζを変数にした場合には、変数の時間的変動を抑えるために平滑化を行う。パワ・相関計算部201は、(13)式による計算を行い、(13)式の結果を(14)式に適用して各状態を更新することにより平滑化を行う。
Figure 2010016270
Figure 2010016270
(13)式及び(14)式において、ターゲットM信号のパワの状態と、ターゲットM信号とL信号との相関値の状態と、ターゲットM信号とR信号との相関値の状態との3つの状態は、いずれも符号化処理の間、スタティックなメモリ領域に格納される変数である。したがって、符号化処理を開始する際に、3つの状態を「0」にして初期化することが必要である。また平滑化の割合を示すαは、変数でも良いし定数でも良い。一例として、αを0.5〜0.7に設定した場合には、良好な性能が得られることを実験により確認している。なお、パワ・相関計算部201は、αが1.0の場合には平滑化を行わない。
なお、ターゲットM信号の平滑化パワ、ターゲットM信号とL信号との平滑化相関値、及びターゲットM信号とR信号との平滑化相関値は、ターゲットM信号のパワ、ターゲットM信号とL信号との相関値、及びターゲットM信号とR信号との相関値を、ターゲットM信号のパワの状態、ターゲットM信号とL信号との相関値の状態、ターゲットM信号とR信号との相関値の状態、及び平滑化の割合を用いて平滑化したものであるので、以降の説明においては、ターゲットM信号の平滑化パワをターゲットM信号のパワと再定義し、ターゲットM信号とL信号との平滑化相関値をターゲットM信号とL信号との相関値と再定義し、ターゲットM信号とR信号との平滑化相関値をターゲットM信号とR信号との相関値と再定義して説明を行うこととする。
なお、本実施の形態において、中間値計算部202と、符号帳203と、探索部204と、復号部205とにおける処理は、上記の実施の形態1と同一であるので、その説明を省略する。
ここで、本実施の形態では、(12)式におけるL信号のパワまたはR信号のパワを加算する点が、上記の実施の形態1と異なる。以下に、L信号のパワまたはR信号のパワを加算することによる効果について説明する。
まず、コスト関数は(11)式に示した通りである。このコスト関数を最小にするωは、偏微分した結果が0となることから、以下の(15)式のようになる。
Figure 2010016270
(15)式において、クロスタームCLRが安定した正の相関を有する(正の値になる)場合は、ωは安定した重みであり、聴感的な違和感は少ない。一方、クロスタームCLRが、負の相関を有する場合、または正と負とが時間的に激しく動く場合などは、コスト関数Fを小さくするにも関わらず、その重みを復号器で使用して得られた復号音声は、左右に激しく音圧が移動する、聴感的に違和感のある音になる。この現象は特に符号化歪が大きい場合に見られる現象である。
そこで、重みの量子化において、クロスタームCLRの値により影響を受け難い方向にコスト関数を変形すれば、符号化歪が大きい場合においても良好な音質が得られる。
ここで、(4)式の各項を、ターゲットM信号をダウンミックスした信号として近似的に展開すると、以下の(16)式のようになる。
Figure 2010016270
(16)式の各項に含まれるクロスタームCLRの影響を少なくするためには、クロスタームCLR以外のパワの項の値を加算して大きくすれば良い。この点は、本実施の形態における重要な要素である。したがって、結局、(12)式を導くことができる。実験により、特に伝送レートが低い場合(符号化歪が大きい場合)に、良好な音質が得られることを検証している。
また、(12)式において、クロスタームCLR以外のパワの項の値の加算は、既存の信号のパワの加算であるので、重みの量子化に必要な計算量を大きく増加させることにはならない。したがって、少ない計算量の増加で大きな効果を得ることが出来る。
このように、本実施の形態によれば、上記の実施の形態1の効果に加えて、複数の信号間のクロスタームの影響を少なくすることにより、量子化誤差が比較的大きな場合に、音圧が極端に変化するような違和感のある音質になるのを避けることができ、計算量の増大を抑えて、良質な音質を得ることができる。
(実施の形態3)
本実施の形態は、バランス調整を利用して符号化及び復号を行う際に、量子化装置において、上記の実施の形態1及び実施の形態2とは異なる計算を行うことを特徴とする。なお、本実施の形態において、符号化装置の構成は図1と同一構成であるので、その説明を省略する。また、本実施の形態において、量子化装置の構成は図2と同一構成である。以下の量子化装置の説明では、図1及び図2の符号を用いて説明する。
パワ・相関計算部201は、MDCT部104から入力したL信号、加算部108から入力したターゲットM信号、及びMDCT部106から入力したR信号を用いて、パワの計算と相関値の計算とを行う。そして、パワ・相関計算部201は、計算したパワと相関値とを中間値計算部202へ出力する。パワ・相関計算部201は、(12)式または以下の(17)式によりパワと相関値とを求める。なお、(17)式では実施の形態1に対応したアルゴリズムになり、(12)式では実施の形態2に対応したアルゴリズムになる。
Figure 2010016270
また、パワ・相関計算部201は、(12)式によりパワと相関値とを求めた場合には、(12)式における変数の時間的変動を抑えるために、(13)式及び(14)式に示すように平滑化を行う。また、パワ・相関計算部201は、(17)式によりパワと相関値とを求めた場合には、(17)式における変数の時間的変動を抑えるために、(18)式による計算を行い、(18)式の結果を(19)式に適用して各状態を更新することにより平滑化を行う。
Figure 2010016270
Figure 2010016270
なお、ターゲットM信号の平滑化パワ、ターゲットM信号とL信号との平滑化相関値、ターゲットM信号とR信号との平滑化相関値、L信号の平滑化パワ、及びR信号の平滑化パワは、ターゲットM信号のパワ、ターゲットM信号とL信号との相関値、ターゲットM信号とR信号との相関値、L信号のパワ、及びR信号のパワを、ターゲットM信号のパワの状態、ターゲットM信号とL信号の相関値の状態、ターゲットM信号とR信号の相関値の状態、L信号のパワの状態、R信号のパワの状態、及び平滑化の割合を用いて平滑化したものであるので、以降の説明においては、ターゲットM信号の平滑化パワをターゲットM信号のパワと再定義し、ターゲットM信号とL信号との平滑化相関値をターゲットM信号とL信号との相関値と再定義し、ターゲットM信号とR信号との平滑化相関値をターゲットM信号とR信号との相関値と再定義し、L信号の平滑化パワをL信号のパワと再定義し、R信号の平滑化パワをR信号のパワと再定義して説明を行うこととする。
中間値計算部202は、パワ・相関計算部201から入力したパワと相関値とを用いて5つの中間値を求める。そして、中間値計算部202は、求めた中間値を探索部204へ出力する。中間値は、一例として、(20)式により求めることができる。
Figure 2010016270
符号帳203は、ROM等の記憶手段に格納されている情報であり、L信号のバランス重み係数として選択される複数のスカラ値と、重み係数と、重み係数から求めた計算値とから成る。なお、符号帳203に格納されている情報の内容については後述する。
探索部204は、符号帳203に格納されている複数のスカラ値の中から最適なものを探索し、探索により見つけた最適なスカラ値に対応する番号を選択することによりバランス重み係数を符号化する。具体的な例としては、探索部204は、(21)式に示すコスト関数が最も小さくなる番号Nを探索する。そして、探索部204は、選択した番号Nを符号として多重化部117へ出力する。また、探索部204は、多重化部117へ出力した符号を復号部205へ出力する。なお、本実施の形態において、復号部205における処理は、上記の実施の形態1と同一であるので、その説明を省略する。
Figure 2010016270
以上で、量子化装置109の構成の説明を終える。
次に、本実施の形態の考え方、及び本実施の形態の符号帳203の設計方法について説明する。
バランス調整の理論的裏づけについては実施の形態1で述べたものと同様であるが、本実施の形態では、コスト関数が実施の形態1及び実施の形態2と異なる。実施の形態1及び実施の形態2では、(11)式のコスト関数を用いるが、(11)式のコスト関数を用いた場合、信号Lのパワと信号Rのパワとの間にあまり差がない場合には良好な音質を得られるが、信号Lのパワと信号Rのパワとの間に大きな差がある場合、すなわちバランス重み係数w が極端に小さい場合またはバランス重み係数w が極端に大きい場合には、L信号側とR信号側のうち、パワの大きい方が支配的になり、パワの小さい方の誤差が評価に値しなくなる。したがって、そのような場合には、パワの小さい方の信号のパワがより小さくなるという現象が起こる。もちろん、実施の形態1及び実施の形態2において、パワの大きい方の信号の歪は小さくなることにより、支配的な信号の音質が向上するので、良好なステレオ音声が得られる。一方、大きい音と共に聞こえる小さい音の信号のパワを落とさないようにする方法もあり、その場合には工夫が必要になる。そこで、本実施の形態では、以下の(22)式のコスト関数を用いる。
Figure 2010016270
すなわち、L信号の復号されたバランス重み係数の大きさにより、L信号のパワとR信号のパワとの差は分かるので、それに対応したコスト関数の重み付けを行うことにより上記課題を解決しようとするものである。本実施の形態では、図4に示す重み係数を用いる。図4は、本実施の形態における符号帳203に格納する情報の一部を示す図である。図4では、符号帳203のサイズを16(4ビット)としている。
図4から明らかなように、L信号側の重み係数ωの値が小さい場合にはR信号側の重み係数ωの値が大きく設定され、R信号側の重み係数ωの値が小さい場合にはL信号側の重み係数ωの値が大きく設定される。これにより、(22)式のコスト関数の重みを調整することができる。
ここで、(22)式のコスト関数を展開して中間値を求める。展開式を以下の(23)式に示す。
Figure 2010016270
また、(21)式の計算に必要な計算値w 、w 、w は、予め以下の(24)式により求めて符号帳203に格納する。
Figure 2010016270
このように、本実施の形態によれば、(20)式により中間値を求めるとともに、上記の手順により設計された符号帳203及び(21)式により効率よくスカラ値を求め、バランス重み係数の量子化ができる。この結果、コスト関数を構成するL信号側とR信号側の2つの項の値に大きな違いがある場合において、値の大きい方の項が主体的となるために生じる値の小さい方の信号の劣化を避けることができ、総合的により音質の良い合成音を得ることができる。
なお、本実施の形態において、符号帳のサイズを16種類(4ビット)としたが、本実施の形態はこれに限らず、他のサイズを用いることができることは明らかである。本発明は符号帳のサイズに依存しないからである。
また、上記の実施の形態1〜実施の形態3において、ステレオ信号の符号化の前にM信号をコア符号化器102で符号化するスケーラブル構成にて符号化する場合を例に挙げたが、本発明はこれに限らず、コア符号化器が無いステレオ信号の符号化にも適用できる。なぜなら本発明は、M信号がダウンミックスで得られることを利用してバランス重み係数を効率よく符号化するものであるため、コア符号化器の有無に拠らないからである。
また、量子化装置109で扱うM信号として、ダウンミックスで得られたM信号とコア復号器103により得られる復号信号との差分をターゲットM信号として用いたが、本発明はこれに限らず、復号信号またはダウンミックスしたM信号を量子化装置109で扱うようにしても良い。なぜなら本発明は、M信号がダウンミックスで得られることを利用してバランス重み係数を効率よく符号化するものであるため、用いるM信号の質に拠らないからである。
また、上記の実施の形態1〜実施の形態3において、L信号とR信号とのバランス重み係数の和を2.0と固定した場合を開示したが、本発明はこれに限らず、L信号とR信号とのバランス重み係数の和は、M信号の性質によって最適値が異なる場合もあるため、1.9、または1.85等の2.0以外の値であっても良い。本実施の形態においては、コア符号化器102によって得られたターゲットM信号は、ダウンミックスしただけのM信号の特徴を多少失っているとも考えられるので、2.0よりも多少少ない値を設定した方が、良い符号化性能を得られる可能性がある。具体的方法としては、この和の数を少しずつ変えながら符号化性能を評価し、ピークとなる値をL信号とR信号とのバランス重み係数の和の値として固定して符号化に使用するという方法が挙げられる。
また、上記の実施の形態1〜実施の形態3において、周波数領域へ変換した後にダウンミックスを行っているが、本発明はこれに限らず、時間領域でダウンミックスした信号を周波数領域へ変換しても本発明の有効性は明らかである。本発明は、ダウンミックスが行われる領域に依存しないからである。
また、上記の実施の形態1〜実施の形態3において、周波数領域への変換方法としてMDCTを用いているが、本発明はこれに限らず、「DCT」または「FFT」等のMDCTに類したディジタル変換方式ならばどのような方式を用いても良い。本発明は、周波数変換方法に依存しないからである。
また、上記の実施の形態1〜実施の形態3において、3つの信号は、時間領域の信号でも、周波数領域の信号でも、またそれらの部分区間でも良い。本発明は、ベクトルの性質に依存しないからである。
また、上記の実施の形態1〜実施の形態3において得られる符号は、通信に用いられる場合は伝送され、蓄積に使われる場合は記録媒体(メモリ、ディスクまたは印刷コード等)に格納されるようにしても良い。本発明は、符号の利用方法には依存しないからである。
また、上記の実施の形態1〜実施の形態3において、2チャンネルの場合について説明したが、本発明はこれに限らず、5.1ch等の多チャンネルの場合にも適用することができる。
また、上記の実施の形態1〜実施の形態3において、L信号、R信号及びM信号を符号化したが、本発明はこれに限らず、L信号、R信号及びM信号から得られる周波数スペクトル、またはその部分区間を各々第1の信号、第2の信号及び第3の信号として符号化しても良い。
また、上記の実施の形態1〜実施の形態3において、ターゲットM信号は、符号化前にバランス調整を行っているが、本発明はこれに限らず、バランス調整前に符号化しても良い。即ち、符号化器115は、加算部108よりも入力に近い位置に存在していても良い。本発明では、ターゲットM信号のバランス調整は、符号化の前後には依存しないからである。
なお、以上の説明は本発明の好適な実施の形態の例証であり、本発明の範囲はこれに限定されることはない。本発明は、符号化装置を有するシステムであればどのような場合にも適用することができる。
また、本発明に係る量子化装置および符号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。
また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る符号化装置等と同様の機能を実現することができる。
また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
2008年8月8日出願の特願2008−205643の日本出願、2009年3月12日出願の特願2009−59502の日本出願、及び2009年4月9日出願の特願2009−95260の日本出願に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。
本発明にかかる量子化装置、符号化装置、量子化方法及び符号化方法は、例えばステレオ音響信号を低ビットレートで符号化するのに好適である。
本発明は、量子化装置、符号化装置、量子化方法及び符号化方法に関し、例えばステレオ音響信号を低ビットレートで符号化する方式であるインテンシティステレオ方式の手法を応用した量子化装置、符号化装置及び量子化方法に関する。
移動体通信においては伝送帯域の有効利用のために音声や画像のディジタル情報の圧縮符号化が必須である。その中でも携帯電話で広く利用されている音声コーデック(符号化/復号)技術において、更に良い音質を得るべく、圧縮率の高い従来の高効率符号化に対する要求が強まっている。
また、近年では多層構造を持つスケーラブルコーデックの標準化がITU−T(International Telecommunication Union Telecommunication Standardization Sector)やMPEG(Moving Picture Experts Group)で検討されており、より効率的で高品質の音声コーデックが求められている。また、近年では、音声コーデックの際に、16kbps〜32kbpsの高いビットレートが設定されるようになり、また、音楽に対する品質や臨場感(マルチチャネル、ステレオ音響)のニーズを満たすものが求められるようになってきた。
ステレオ音響信号を低ビットレートで符号化する方式として、インテンシティステレオ方式が知られている。インテンシティステレオ方式では、モノラル信号(以下「M信号」と記載する)にスケーリング係数を乗じて左チャネル信号(以下「L信号」と記載する)と右チャネル信号(以下「R信号」と記載する)とを生成する手法を採る。このような手法は振幅パニング(amplitude panning)とも呼ばれる。
振幅パニングの最も基本的な手法は、時間領域におけるM信号に振幅パニング用の利得係数(バランス重み係数)を乗じてL信号およびR信号を求めるものである(例えば、非特許文献1)。
また、別な手法として、周波数領域において個々の周波数成分ごと、または周波数グループごとにM信号にバランス重み係数を乗じてL信号およびR信号を求めるものもある(例えば、非特許文献2)。
バランス重み係数をパラメトリックステレオの符号化パラメータとして符号化することによりステレオ信号の符号化を実現することができる(例えば、特許文献1および特許文献2)。バランス重み係数は、特許文献1においてはバランスパラメータとして、特許文献2においてはILD(レベル差)として、それぞれ説明されている。
また、従来においては、非特許文献1〜2及び特許文献1〜2のように、L信号とR信号とのステレオ信号の効率的な符号化を行っていた。
その中でも、特許文献1には、インテンシティステレオにおけるバランス重み係数である左右の音量の比を求めてから、その比を符号化する旨が開示されている。
特表2004−535145号公報 特表2005−533271号公報
V.Pulkki and M.Karjalainen,"Localization of amplitude-panned virtual sources I: Stereophonic panning",Journal of the Audio Engineering Society,Vol.49,No.9,2001年9月,pp.739-752 B.Cheng,C.Ritz and I.Burnett,"Principles and analysis of the squeezing approach to low bit rate spatial audio coding",proc.IEEE ICASSP2007,pp.I-13-I-16,2007年4月
しかしながら、従来の装置においては、バランス重み係数を量子化する際に、バランス重み係数の算出と量子化における計算量が大きくなるという問題がある。例えば特許文献1には、左右の音量の比を求めてからその比を符号化する旨が開示されているが、音量比を求めるために複雑な算術である「除算」を使用しているために計算量が多くなっている。
本発明の目的は、バランス重み係数の量子化における計算量を少なくして、より効率的な量子化を行うことができる量子化装置、符号化装置、量子化方法及び符号化方法を提供することである。
本発明の量子化装置は、第1の信号と第2の信号とをダウンミックスした結果を利用して得られた第3の信号の振幅のバランスを調整する2つの係数を量子化する量子化装置であって、前記第1の信号、前記第2の信号、及び前記第3の信号の3つの信号を入力し、前記第1の信号と前記第3の信号との第1相関値及び前記第2の信号と前記第3の信号との第2相関値を算出するとともに、前記第3の信号の第1パワを算出するパワ・相関計算手段と、前記第1パワを用いて第1中間値を算出するとともに、前記第1相関値及び前記第2相関値の少なくとも1つの相関値と前記第1パワとを用いて、第2中間値を算出する中間値計算手段と、複数のスカラ値が格納された符号帳と、前記第1中間値及び前記第2中間値に基づいて、前記第1の信号に対して前記第3の信号の振幅のバランスを調整するバランス重み係数を、前記符号帳に格納されている前記複数のスカラ値の中から探索して、求められたスカラ値に対応する符号を得る探索手段と、を具備する構成を採る。
本発明の符号化装置は、第1の信号と第2の信号とを入力してダウンミックスした結果を用いて第3の信号を生成するダウンミックス手段と、前記第1の信号と前記第2の信号と前記第3の信号とを入力し、前記第3の信号の振幅のバランスを調整する2つの係数に関する量子化を行って得られた符号を出力する量子化手段と、前記第1の信号に対して前記第3の信号の振幅のバランスを調整する第1のバランス重み係数を、前記符号を用いて決定し、前記第2の信号に対して前記第3の信号の振幅のバランスを調整する第2のバランス重み係数を、前記第1のバランス重み係数を用いて算出する係数決定手段と、前記第1の信号と前記第3の信号と前記第1のバランス重み係数とを用いて第1ターゲット信号を生成し、前記第1ターゲット信号を符号化するとともに、前記第2の信号と前記第3の信号と前記第2のバランス重み係数とを用いて第2ターゲット信号を生成し、前記第2ターゲット信号を符号化する符号化手段と、を具備し、前記量子化手段は、前記第1の信号と前記第3の信号との第1相関値及び前記第2の信号と前記第3の信号との第2相関値を算出するとともに、前記第3の信号の第1パワを算出するパワ・相関計算手段と、前記第1パワを用いて第1中間値を算出するとともに、前記第1相関値及び前記第2相関値の少なくとも1つの相関値と前記第1パワとを用いて第2中間値を算出する中間値計算手段と
、複数のスカラ値が格納された符号帳と、前記第1中間値及び前記第2中間値に基づいて、前記第1のバランス重み係数を、前記複数のスカラ値の中から探索して、求められたスカラ値に対応する前記符号を得る探索手段と、を具備する構成を採る。
本発明の量子化方法は、第1の信号と第2の信号とをダウンミックスした結果を利用して得られた第3の信号の振幅のバランスを調整する2つの係数を量子化する量子化方法であって、前記第1の信号、前記第2の信号、及び前記第3の信号の3つの信号を入力し、前記第1の信号と前記第3の信号との第1相関値及び前記第2の信号と前記第3の信号との第2相関値を算出するとともに、前記第3の信号の第1パワを算出するパワ・相関計算ステップと、前記第1パワを用いて第1中間値を算出するとともに、前記第1相関値及び前記第2相関値の少なくとも1つの相関値と前記第1パワとを用いて第2中間値を算出する中間値計算ステップと、前記第1中間値及び前記第2中間値に基づいて、前記第1の信号に対して前記第3の信号の振幅のバランスを調整するバランス重み係数を、符号帳に格納されている複数のスカラ値の中から探索して、求められたスカラ値に対応する符号を得る探索ステップと、を有するようにした。
本発明の符号化方法は、第1の信号と第2の信号とを入力してダウンミックスした結果を用いて第3の信号を生成するダウンミックスステップと、前記第1の信号と前記第2の信号と前記第3の信号とを入力し、前記第3の信号の振幅のバランスを調整する2つの係数に関する量子化を行って得られた符号を出力する量子化ステップと、前記第1の信号に対して前記第3の信号の振幅のバランスを調整する第1のバランス重み係数を、前記符号を用いて決定し、前記第2の信号に対して前記第3の信号の振幅のバランスを調整する第2のバランス重み係数を、前記第1のバランス重み係数を用いて算出する係数決定ステップと、前記第1の信号と前記第3の信号と前記第1のバランス重み係数とを用いて第1ターゲット信号を生成し、前記第1ターゲット信号を符号化するとともに、前記第2の信号と前記第3の信号と前記第2のバランス重み係数とを用いて第2ターゲット信号を生成し、前記第2ターゲット信号を符号化する符号化ステップと、を有し、前記量子化ステップは、前記第1の信号と前記第3の信号との第1相関値及び前記第2の信号と前記第3の信号との第2相関値を算出するとともに、前記第3の信号の第1パワを算出するパワ・相関計算ステップと、前記第1パワを用いて第1中間値を算出するとともに、前記第1相関値及び前記第2相関値の少なくとも1つの相関値と前記第1パワとを用いて第2中間値を算出する中間値計算ステップと、前記第1中間値及び前記第2中間値に基づいて、前記第1のバランス重み係数を、符号帳に格納されている複数のスカラ値の中から探索して、求められたスカラ値に対応する前記符号を得る探索ステップと、を有するようにした。
本発明によれば、より効率的なバランス重み係数の量子化を行うことができる。
本発明の実施の形態1及び2に係る符号化装置の構成を示すブロック図 本発明の実施の形態1及び2に係る量子化装置の構成を示すブロック図 本発明の実施の形態1に係る符号帳に番号付けられて格納されているスカラ値の一例を示す図 本発明の実施の形態3に係る符号帳に格納されている情報の一部を示す図
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
(実施の形態1)
本実施の形態においては、パニング(以後「バランス調整」と呼ぶ)を利用して符号化及び復号を行う構成を、以下の構成を用いて説明する。すなわち、「ISO/IEC 14496-3:1999(E) “MPEG-2”, p.232, FIG.B.13」(以後、非特許文献3と呼ぶ)に示されている、ISO/IECにおけるMPEG−2及びMPEG−4の標準方式であるAAC(Advanced Audio Codec)として広く使用されている符号化器の構成の一部(FIG.B.13の左半分の構成からサイド信号を生成する部分を除いた構成)を用い、この構成の右側に特許文献1記載のインテンシティステレオの構成要素を加え、それぞれの信号の出力先に符号器を追加することにより、全体の情報を符号化して伝送する、という構成を全体構成として挙げる。
また、ステレオ信号は、聞く人の左耳と右耳とに異なる音響信号を入れることによって、聞く人が臨場感のある音響を楽しめるようになっている。したがって、コンテンツである音響信号において、最もシンプルなステレオ信号は、L信号とR信号との2チャンネルの場合であり、本実施の形態では入力信号が2チャンネルの場合について説明する。
最初に、本発明の実施の形態に係る符号化装置の構成について説明する。
図1は、本実施の形態に係る符号化装置100の構成を示すブロック図である。
図1は、ステレオ信号をスケーラブル(多層構造)で符号化するものであり、M信号をコア符号化器で符号化し、その後、コア復号器で復号することにより生成した復号信号を用いて、周波数領域でステレオ信号を符号化する構成をとる。
符号化装置100は、ダウンミックス部101、コア符号化器102、コア復号器103、修正離散コサイン変換(以下「MDCT(Modified Discrete Cosine Transform)」と記載する)部104、MDCT部105、MDCT部106、ダウンミックス部107、加算部108、量子化装置109、乗算部110、乗算部111、加算部112、加算部113、符号化器114、符号化器115及び符号化器116から主に構成される。
ダウンミックス部101は、予め定められた長さのベクトルである、L信号(第1の信号)とR信号(第2の信号)とを入力し、入力したL信号とR信号とをダウンミックスしてM信号(第3の信号)を求める。そして、ダウンミックス部101は、求めたM信号をコア符号化器102へ出力する。(1)式は、ダウンミックス部101における、ダウンミックスの計算方法の一例を示すものである。本実施の形態では、L信号とR信号とを加算して0.5を乗ずるという最もシンプルなダウンミックス方法を用いる。
Figure 2010016270
コア符号化器102は、ダウンミックス部101から入力したM信号を符号化して符号を求め、求められた符号をコア復号器103及び多重化部117へ出力する。
コア復号器103は、コア符号化器102から入力した符号を復号して復号信号を生成し、生成した復号信号をMDCT部105へ出力する。
MDCT部104は、L信号を入力し、入力したL信号に対して、離散コサイン変換を行い、時間領域(タイムドメイン)の信号から周波数領域(フリケンシードメイン)の信号(周波数スペクトル)へ変換する。そして、MDCT部104は、変換後の信号をダウンミックス部107、加算部112及び量子化装置109へ出力する。
MDCT部105は、コア復号器103から入力した復号信号に対して、離散コサイン変換を行い、時間領域(タイムドメイン)の信号から周波数領域(フリケンシードメイン)の信号(周波数スペクトル)へ変換する。そして、MDCT部105は、変換後の信号を加算部108へ出力する。
MDCT部106は、R信号を入力し、入力したR信号に対して、離散コサイン変換を行い、時間領域(タイムドメイン)の信号から周波数領域(フリケンシードメイン)の信号(周波数スペクトル)へ変換する。そして、MDCT部106は、変換後の信号をダウンミックス部107、加算部113及び量子化装置109へ出力する。
ダウンミックス部107は、MDCT部104から入力したL信号とMDCT部106から入力したR信号をダウンミックスしてM信号を求める。そして、ダウンミックス部107は、求めたM信号を加算部108へ出力する。ダウンミックス部107がダウンミックス部101と異なる点は、時間領域の信号をダウンミックスするのではなく、周波数領域の信号をダウンミックスする点である。なお、ダウンミックスの計算方法は式(1)と同様であるため、その説明を省略する。
加算部108は、MDCT部105から入力した信号を、ダウンミックス部107から入力したM信号から減じて、ターゲットとなるM信号(以下「ターゲットM信号」と記載する)を算出する。そして、加算部108は、算出したターゲットM信号を乗算部110、乗算部111、符号化器115及び量子化装置109へ出力する。
量子化装置109は、MDCT部104から入力したL信号、加算部108から入力したターゲットM信号、及びMDCT部106から入力したR信号を用いて、バランス調整に使用するバランス重み係数を符号化して重み係数の符号を求める。また、量子化装置109は、求めた符号を多重化部117へ出力する。また、量子化装置109は、求めた符号を復号してL信号に対するターゲットM信号の振幅のバランスを調整するバランス重み係数w(以下、「L信号のバランス重み係数w」と記載する)を取得し、取得したL信号のバランス重み係数wを乗算部110にセットする。また、量子化装置109は、取得したL信号のバランス重み係数wを用いて、R信号に対するターゲットM信号の振幅のバランスを調整するバランス重み係数w(以下、「R信号のバランス重み係数w」と記載する)を求めて、求めたR信号のバランス重み係数wを乗算部111にセットする。なお、量子化装置109の詳細な構成については後述する。
乗算部110は、加算部108から入力したターゲットM信号に対して、量子化装置109から入力したL信号のバランス重み係数wを乗じて加算部112へ出力する。
乗算部111は、加算部108から入力したターゲットM信号に対して、量子化装置109から入力したR信号のバランス重み係数wを乗じて加算部113へ出力する。
加算部112は、乗算部110から入力した、L信号のバランス重み係数wを乗じた
ターゲットM信号を、MDCT部104から入力したL信号から減じて、ターゲットとなるL信号(以下「ターゲットL信号」と記載する)を求める。そして、加算部112は、求めたターゲットL信号を符号化器114へ出力する。
加算部113は、乗算部111から入力した、R信号のバランス重み係数wを乗じたターゲットM信号を、MDCT部106から入力したR信号から減じて、ターゲットとなるR信号(以下「ターゲットR信号」と記載する)を求める。そして、加算部113は、求めたターゲットR信号を符号化器116へ出力する。加算部112及び加算部113における計算を(2)式に示す。
Figure 2010016270
上記アルゴリズムがバランス調整を利用したL信号とR信号との変換に相当する。バランス重み係数は、ターゲットM信号と、L信号またはR信号との類似性を表している。従って、バランス重み係数を乗じたターゲットM信号を、L信号及びR信号から減じたターゲットL信号及びターゲットR信号は、ターゲットM信号により冗長となる部分を省かれた信号となり、信号としてのパワが減少するので、両者は効率よく符号化できるようになる。
符号化器114は、加算部112から入力したターゲットL信号を符号化して求められた符号を多重化部117へ出力する。符号化器115は、加算部108から入力したターゲットM信号を符号化して求められた符号を多重化部117へ出力する。符号化器116は、加算部113から入力したターゲットR信号を符号化して求められた符号を多重化部117へ出力する。
多重化部117は、コア符号化器102、量子化装置109、符号化器114、符号化器115および符号化器116から入力した各符号を多重化し、多重化後のビットストリームを出力する。
次に、量子化装置109の構成について、図2を用いて説明する。図2は、量子化装置109の構成を示すブロック図である。
量子化装置109は、パワ・相関計算部201、中間値計算部202、符号帳203、探索部204及び復号部205から主に構成される。
パワ・相関計算部201は、MDCT部104から入力したL信号、加算部108から入力したターゲットM信号、及びMDCT部106から入力したR信号を用いて、パワの計算と相関値の計算とを行う。そして、パワ・相関計算部201は、計算したパワと相関値とを中間値計算部202へ出力する。パワと相関値とは、(3)式により求めることができる。
Figure 2010016270
中間値計算部202は、パワ・相関計算部201から入力したパワと相関値とを用いて2つの中間値を求める。そして、中間値計算部202は、求めた中間値を探索部204へ出力する。中間値は、一例として、(4)式により求めることができる。
Figure 2010016270
符号帳203は、ROM(Read Only Memory)等の記憶手段に格納されている情報であり、L信号の重み係数として選択される複数のスカラ値から成る。図3は、本実施の形態における符号帳203に番号付けられて格納されているスカラ値の一例を示す図である。なお、符号帳203に格納されているスカラ値はバランス重み係数のL側のみの値である。
探索部204は、符号帳203に格納されている複数のスカラ値の中から最適なものを探索し、探索により見つけた最適なスカラ値に対応する番号を選択することによりバランス重み係数を符号化する。具体的な例としては、探索部204は、(5)式に示すコスト関数が最も小さくなる番号Nを探索する。そして、探索部204は、選択した番号Nを符号として多重化部117へ出力する。また、探索部204は、多重化部117へ出力した符号を復号部205へ出力する。
Figure 2010016270
なお、(5)式において、符号帳203に格納されたスカラ値を2乗しているが、この場合は、2乗した値を符号帳203にあらかじめ格納しておくことにより、さらに少ない計算量で探索することができる。
復号部205は、探索部204から入力した符号(番号N)を復号してL信号のバランス重み係数を求める(w=w )。即ち、復号部205は、符号帳203に格納されている複数のスカラ値の中から、探索部204から入力した符号(番号N)に対応するスカラ値を、L信号のバランス重み係数として取り出す。
また、復号部205は、得られたL信号のバランス重み係数を所定の定数から減算した減算結果をR信号のバランス重み係数とする。例えば、復号部205は、定数2.0からL信号のバランス重み係数を減算してR信号のバランス重み係数を求める(w=2.0−w )。ここで、Nは、L信号のバランス重み係数の符号であり、w及びwは、復号されたバランス重み係数である。定数2.0は、ダウンミックス部101におけるダウンミックスの際の各信号間の振幅の定量的関係に応じて設定された値である。なお、定数2.0からL信号のバランス重み係数を減じることによりR信号のバランス重み係数を求める理由は後述する。
また、復号部205は、L信号のバランス重み係数を乗算部110にセットし、R信号のバランス重み係数を乗算部111にセットする。
次に、本発明によって量子化及び復号されたバランス重み係数によるバランス調整の理論的裏づけについて詳細に説明を行う。
まず、バランス調整を利用したL信号とR信号との効率的な符号化は、(6)式における変換値のパワを最小にすることにより行われる。なお、この場合のM信号は、L信号とR信号との平均値を取ったものとする。
Figure 2010016270
Figure 2010016270
次に、(6)式において、L信号側のパワを最小にするバランス重み係数を計算すると
、(8)式のようになる。
Figure 2010016270
また、同様に、(6)式において、R信号側の式のパワを最小にするバランス重み係数は(9)式のようになる。
Figure 2010016270
つまり、上記(8)式及び(9)式のバランス重み係数を選択すれば、L信号及びR信号のパワを最小にすることができる。
また、M信号に(1)式の関係があることにより、L信号のバランス重み係数とR信号のバランス重み係数との加算結果は、(1)式及び(3)式より、(10)式のようになる。
Figure 2010016270
そこで、本実施の形態では、ターゲットM信号は、(1)式のような単純な関係ではなく、図1の様にスケーラブルにて量子化されるものではあるが、(1)式の関係が支配的であると仮定して、(10)式の関係において、バランス重み係数の量子化を行うものとする。この仮定により、量子化(符号化)するパラメータを1つにすることが出来るので低ビットレートでの符号化が可能になる。
また、L信号のバランス重み係数wのみを、符号帳203を用いて探索して量子化(符号化)を行い、R信号のバランス重み係数wは(10)式の関係より求める。この場合の探索のコスト関数Fは、(11)式のようになる。
Figure 2010016270
上記の(11)式において、第3項はL信号のバランス重み係数wと無関係なので省略し、第1項と第2項との和のみをコスト関数として使用する。この各バランス重み係数に乗じられる各々の値が、(4)式に示す2つの中間値になる。また、このコスト関数が小さいほど、ターゲットL信号とターゲットR信号とのパワの総和を小さくすることができ、そのようなL信号のバランス重み係数wを探索することが、最適なバランス重み係数を量子化(符号化)することになる。
また、上記の符号化によって得られたバランス重み係数を使用することによって、ターゲットL信号のパワと、ターゲットR信号のパワとを小さくすることができ、低ビットレートで良好な品質の音声を伝送することができる。
次に、本実施の形態について、実証実験を行ったので、その結果について説明する。使用した符号化器は非特許文献3と同様のステレオ信号(16kHzサンプリング)のスケーラブルスペクトル量子化を行うコーデックシミュレータである。評価データは、様々な音源位置から発声した6音声をアペンドしたデータ(24秒間)である。バランス重み係数の量子化ビット数は、4ビットである。
上記の条件により実証実験を行った結果、従来の符号化装置を本実施の形態の符号化装置と置き換えることにより、本実施の形態におけるバランス重み係数を実際に求めて量子化を行う場合の計算量は、従来と比べて3/5になる。従って、本実施の形態においては、従来に比べて、計算量を大きく節約することができることが分かる。
上記のように大きな効果が得られた理由としては、バランス重み係数そのものを算出しないことで、特許文献1のように複雑な算術である除算等の、計算量が大きくなるような計算を行わないこと、及び符号帳203に格納される番号とスカラ値との組が、4ビットで番号を特定することができる16種類と比較的少ないということが挙げられる。
このように、本発明によれば、バランス重み係数そのものの算出を行わないことにより、量子化における計算量が少なくなり、より効率的な量子化を行うことができる。
(実施の形態2)
本実施の形態は、バランス調整を利用して符号化及び復号を行う際に、量子化装置において、上記の実施の形態1とは異なる計算を行うことを特徴とする。なお、本実施の形態において、符号化装置の構成は図1と同一構成であるので、その説明を省略する。また、本実施の形態において、量子化装置の構成は図2と同一構成である。以下の説明では、図1及び図2の符号を用いて説明する。
パワ・相関計算部201は、MDCT部104から入力したL信号、加算部108から入力したターゲットM信号、及びMDCT部106から入力したR信号を用いて、パワの計算と相関値の計算とを行う。そして、パワ・相関計算部201は、計算したパワと相関
値とを中間値計算部202へ出力する。パワ・相関計算部201は、(12)式によりパワと相関値とを求める。
Figure 2010016270
(12)式において、パワ成分を加算する割合を示すγ、η、ζは変数でも良いし定数でも良いし、それぞれ異なる数値でも良い。一例として、γ、η、ζを定数にする場合には、3つのγ、η、ζを予め約0.25に設定しておくことにより、良好な性能を得られることを実験により確認している。
なお、ターゲットM信号の調整パワ、ターゲットM信号とL信号との調整相関値、及びターゲットM信号とR信号との調整相関値は、ターゲットM信号のパワ、ターゲットM信号とL信号との相関値、及びターゲットM信号とR信号との相関値を、L信号のパワ、R信号のパワ、L信号のパワとR信号のパワとの和、及びパワ成分を加算する割合(3つの係数)を用いて調整したものであるので、以降の説明においては、ターゲットM信号の調整パワをターゲットM信号のパワと再定義し、ターゲットM信号とL信号との調整相関値をターゲットM信号とL信号との相関値と再定義し、及びターゲットM信号とR信号との調整相関値をターゲットM信号とR信号との相関値と再定義して説明を行うこととする。
また、パワ・相関計算部201は、γ、η、ζを変数にした場合には、変数の時間的変動を抑えるために平滑化を行う。パワ・相関計算部201は、(13)式による計算を行い、(13)式の結果を(14)式に適用して各状態を更新することにより平滑化を行う。
Figure 2010016270
Figure 2010016270
(13)式及び(14)式において、ターゲットM信号のパワの状態と、ターゲットM信号とL信号との相関値の状態と、ターゲットM信号とR信号との相関値の状態との3つの状態は、いずれも符号化処理の間、スタティックなメモリ領域に格納される変数である。したがって、符号化処理を開始する際に、3つの状態を「0」にして初期化することが
必要である。また平滑化の割合を示すαは、変数でも良いし定数でも良い。一例として、αを0.5〜0.7に設定した場合には、良好な性能が得られることを実験により確認している。なお、パワ・相関計算部201は、αが1.0の場合には平滑化を行わない。
なお、ターゲットM信号の平滑化パワ、ターゲットM信号とL信号との平滑化相関値、及びターゲットM信号とR信号との平滑化相関値は、ターゲットM信号のパワ、ターゲットM信号とL信号との相関値、及びターゲットM信号とR信号との相関値を、ターゲットM信号のパワの状態、ターゲットM信号とL信号との相関値の状態、ターゲットM信号とR信号との相関値の状態、及び平滑化の割合を用いて平滑化したものであるので、以降の説明においては、ターゲットM信号の平滑化パワをターゲットM信号のパワと再定義し、ターゲットM信号とL信号との平滑化相関値をターゲットM信号とL信号との相関値と再定義し、ターゲットM信号とR信号との平滑化相関値をターゲットM信号とR信号との相関値と再定義して説明を行うこととする。
なお、本実施の形態において、中間値計算部202と、符号帳203と、探索部204と、復号部205とにおける処理は、上記の実施の形態1と同一であるので、その説明を省略する。
ここで、本実施の形態では、(12)式におけるL信号のパワまたはR信号のパワを加算する点が、上記の実施の形態1と異なる。以下に、L信号のパワまたはR信号のパワを加算することによる効果について説明する。
まず、コスト関数は(11)式に示した通りである。このコスト関数を最小にするωは、偏微分した結果が0となることから、以下の(15)式のようになる。
Figure 2010016270
(15)式において、クロスタームCLRが安定した正の相関を有する(正の値になる)場合は、ωは安定した重みであり、聴感的な違和感は少ない。一方、クロスタームCLRが、負の相関を有する場合、または正と負とが時間的に激しく動く場合などは、コスト関数Fを小さくするにも関わらず、その重みを復号器で使用して得られた復号音声は、左右に激しく音圧が移動する、聴感的に違和感のある音になる。この現象は特に符号化歪が大きい場合に見られる現象である。
そこで、重みの量子化において、クロスタームCLRの値により影響を受け難い方向にコスト関数を変形すれば、符号化歪が大きい場合においても良好な音質が得られる。
ここで、(4)式の各項を、ターゲットM信号をダウンミックスした信号として近似的に展開すると、以下の(16)式のようになる。
Figure 2010016270
(16)式の各項に含まれるクロスタームCLRの影響を少なくするためには、クロスタームCLR以外のパワの項の値を加算して大きくすれば良い。この点は、本実施の形態における重要な要素である。したがって、結局、(12)式を導くことができる。実験により、特に伝送レートが低い場合(符号化歪が大きい場合)に、良好な音質が得られることを検証している。
また、(12)式において、クロスタームCLR以外のパワの項の値の加算は、既存の信号のパワの加算であるので、重みの量子化に必要な計算量を大きく増加させることにはならない。したがって、少ない計算量の増加で大きな効果を得ることが出来る。
このように、本実施の形態によれば、上記の実施の形態1の効果に加えて、複数の信号間のクロスタームの影響を少なくすることにより、量子化誤差が比較的大きな場合に、音圧が極端に変化するような違和感のある音質になるのを避けることができ、計算量の増大を抑えて、良質な音質を得ることができる。
(実施の形態3)
本実施の形態は、バランス調整を利用して符号化及び復号を行う際に、量子化装置において、上記の実施の形態1及び実施の形態2とは異なる計算を行うことを特徴とする。なお、本実施の形態において、符号化装置の構成は図1と同一構成であるので、その説明を省略する。また、本実施の形態において、量子化装置の構成は図2と同一構成である。以下の量子化装置の説明では、図1及び図2の符号を用いて説明する。
パワ・相関計算部201は、MDCT部104から入力したL信号、加算部108から入力したターゲットM信号、及びMDCT部106から入力したR信号を用いて、パワの計算と相関値の計算とを行う。そして、パワ・相関計算部201は、計算したパワと相関値とを中間値計算部202へ出力する。パワ・相関計算部201は、(12)式または以下の(17)式によりパワと相関値とを求める。なお、(17)式では実施の形態1に対応したアルゴリズムになり、(12)式では実施の形態2に対応したアルゴリズムになる。
Figure 2010016270
また、パワ・相関計算部201は、(12)式によりパワと相関値とを求めた場合には、(12)式における変数の時間的変動を抑えるために、(13)式及び(14)式に示すように平滑化を行う。また、パワ・相関計算部201は、(17)式によりパワと相関値とを求めた場合には、(17)式における変数の時間的変動を抑えるために、(18)式による計算を行い、(18)式の結果を(19)式に適用して各状態を更新することにより平滑化を行う。
Figure 2010016270
Figure 2010016270
なお、ターゲットM信号の平滑化パワ、ターゲットM信号とL信号との平滑化相関値、ターゲットM信号とR信号との平滑化相関値、L信号の平滑化パワ、及びR信号の平滑化パワは、ターゲットM信号のパワ、ターゲットM信号とL信号との相関値、ターゲットM信号とR信号との相関値、L信号のパワ、及びR信号のパワを、ターゲットM信号のパワの状態、ターゲットM信号とL信号の相関値の状態、ターゲットM信号とR信号の相関値の状態、L信号のパワの状態、R信号のパワの状態、及び平滑化の割合を用いて平滑化したものであるので、以降の説明においては、ターゲットM信号の平滑化パワをターゲットM信号のパワと再定義し、ターゲットM信号とL信号との平滑化相関値をターゲットM信号とL信号との相関値と再定義し、ターゲットM信号とR信号との平滑化相関値をターゲットM信号とR信号との相関値と再定義し、L信号の平滑化パワをL信号のパワと再定義し、R信号の平滑化パワをR信号のパワと再定義して説明を行うこととする。
中間値計算部202は、パワ・相関計算部201から入力したパワと相関値とを用いて5つの中間値を求める。そして、中間値計算部202は、求めた中間値を探索部204へ出力する。中間値は、一例として、(20)式により求めることができる。
Figure 2010016270
符号帳203は、ROM等の記憶手段に格納されている情報であり、L信号のバランス重み係数として選択される複数のスカラ値と、重み係数と、重み係数から求めた計算値とから成る。なお、符号帳203に格納されている情報の内容については後述する。
探索部204は、符号帳203に格納されている複数のスカラ値の中から最適なものを探索し、探索により見つけた最適なスカラ値に対応する番号を選択することによりバランス重み係数を符号化する。具体的な例としては、探索部204は、(21)式に示すコスト関数が最も小さくなる番号Nを探索する。そして、探索部204は、選択した番号Nを符号として多重化部117へ出力する。また、探索部204は、多重化部117へ出力した符号を復号部205へ出力する。なお、本実施の形態において、復号部205における処理は、上記の実施の形態1と同一であるので、その説明を省略する。
Figure 2010016270
以上で、量子化装置109の構成の説明を終える。
次に、本実施の形態の考え方、及び本実施の形態の符号帳203の設計方法について説明する。
バランス調整の理論的裏づけについては実施の形態1で述べたものと同様であるが、本実施の形態では、コスト関数が実施の形態1及び実施の形態2と異なる。実施の形態1及び実施の形態2では、(11)式のコスト関数を用いるが、(11)式のコスト関数を用いた場合、信号Lのパワと信号Rのパワとの間にあまり差がない場合には良好な音質を得られるが、信号Lのパワと信号Rのパワとの間に大きな差がある場合、すなわちバランス重み係数w が極端に小さい場合またはバランス重み係数w が極端に大きい場合には、L信号側とR信号側のうち、パワの大きい方が支配的になり、パワの小さい
方の誤差が評価に値しなくなる。したがって、そのような場合には、パワの小さい方の信号のパワがより小さくなるという現象が起こる。もちろん、実施の形態1及び実施の形態2において、パワの大きい方の信号の歪は小さくなることにより、支配的な信号の音質が向上するので、良好なステレオ音声が得られる。一方、大きい音と共に聞こえる小さい音の信号のパワを落とさないようにする方法もあり、その場合には工夫が必要になる。そこで、本実施の形態では、以下の(22)式のコスト関数を用いる。
Figure 2010016270
すなわち、L信号の復号されたバランス重み係数の大きさにより、L信号のパワとR信号のパワとの差は分かるので、それに対応したコスト関数の重み付けを行うことにより上記課題を解決しようとするものである。本実施の形態では、図4に示す重み係数を用いる。図4は、本実施の形態における符号帳203に格納する情報の一部を示す図である。図4では、符号帳203のサイズを16(4ビット)としている。
図4から明らかなように、L信号側の重み係数ωの値が小さい場合にはR信号側の重み係数ωの値が大きく設定され、R信号側の重み係数ωの値が小さい場合にはL信号側の重み係数ωの値が大きく設定される。これにより、(22)式のコスト関数の重みを調整することができる。
ここで、(22)式のコスト関数を展開して中間値を求める。展開式を以下の(23)式に示す。
Figure 2010016270
また、(21)式の計算に必要な計算値w 、w 、w は、予め以下の(24)式により求めて符号帳203に格納する。
Figure 2010016270
このように、本実施の形態によれば、(20)式により中間値を求めるとともに、上記の手順により設計された符号帳203及び(21)式により効率よくスカラ値を求め、バランス重み係数の量子化ができる。この結果、コスト関数を構成するL信号側とR信号側の2つの項の値に大きな違いがある場合において、値の大きい方の項が主体的となるために生じる値の小さい方の信号の劣化を避けることができ、総合的により音質の良い合成音を得ることができる。
なお、本実施の形態において、符号帳のサイズを16種類(4ビット)としたが、本実施の形態はこれに限らず、他のサイズを用いることができることは明らかである。本発明は符号帳のサイズに依存しないからである。
また、上記の実施の形態1〜実施の形態3において、ステレオ信号の符号化の前にM信号をコア符号化器102で符号化するスケーラブル構成にて符号化する場合を例に挙げたが、本発明はこれに限らず、コア符号化器が無いステレオ信号の符号化にも適用できる。なぜなら本発明は、M信号がダウンミックスで得られることを利用してバランス重み係数を効率よく符号化するものであるため、コア符号化器の有無に拠らないからである。
また、量子化装置109で扱うM信号として、ダウンミックスで得られたM信号とコア復号器103により得られる復号信号との差分をターゲットM信号として用いたが、本発明はこれに限らず、復号信号またはダウンミックスしたM信号を量子化装置109で扱うようにしても良い。なぜなら本発明は、M信号がダウンミックスで得られることを利用してバランス重み係数を効率よく符号化するものであるため、用いるM信号の質に拠らないからである。
また、上記の実施の形態1〜実施の形態3において、L信号とR信号とのバランス重み係数の和を2.0と固定した場合を開示したが、本発明はこれに限らず、L信号とR信号とのバランス重み係数の和は、M信号の性質によって最適値が異なる場合もあるため、1.9、または1.85等の2.0以外の値であっても良い。本実施の形態においては、コア符号化器102によって得られたターゲットM信号は、ダウンミックスしただけのM信号の特徴を多少失っているとも考えられるので、2.0よりも多少少ない値を設定した方が、良い符号化性能を得られる可能性がある。具体的方法としては、この和の数を少しずつ変えながら符号化性能を評価し、ピークとなる値をL信号とR信号とのバランス重み係数の和の値として固定して符号化に使用するという方法が挙げられる。
また、上記の実施の形態1〜実施の形態3において、周波数領域へ変換した後にダウンミックスを行っているが、本発明はこれに限らず、時間領域でダウンミックスした信号を周波数領域へ変換しても本発明の有効性は明らかである。本発明は、ダウンミックスが行われる領域に依存しないからである。
また、上記の実施の形態1〜実施の形態3において、周波数領域への変換方法としてMDCTを用いているが、本発明はこれに限らず、「DCT」または「FFT」等のMDCTに類したディジタル変換方式ならばどのような方式を用いても良い。本発明は、周波数変換方法に依存しないからである。
また、上記の実施の形態1〜実施の形態3において、3つの信号は、時間領域の信号でも、周波数領域の信号でも、またそれらの部分区間でも良い。本発明は、ベクトルの性質に依存しないからである。
また、上記の実施の形態1〜実施の形態3において得られる符号は、通信に用いられる
場合は伝送され、蓄積に使われる場合は記録媒体(メモリ、ディスクまたは印刷コード等)に格納されるようにしても良い。本発明は、符号の利用方法には依存しないからである。
また、上記の実施の形態1〜実施の形態3において、2チャンネルの場合について説明したが、本発明はこれに限らず、5.1ch等の多チャンネルの場合にも適用することができる。
また、上記の実施の形態1〜実施の形態3において、L信号、R信号及びM信号を符号化したが、本発明はこれに限らず、L信号、R信号及びM信号から得られる周波数スペクトル、またはその部分区間を各々第1の信号、第2の信号及び第3の信号として符号化しても良い。
また、上記の実施の形態1〜実施の形態3において、ターゲットM信号は、符号化前にバランス調整を行っているが、本発明はこれに限らず、バランス調整前に符号化しても良い。即ち、符号化器115は、加算部108よりも入力に近い位置に存在していても良い。本発明では、ターゲットM信号のバランス調整は、符号化の前後には依存しないからである。
なお、以上の説明は本発明の好適な実施の形態の例証であり、本発明の範囲はこれに限定されることはない。本発明は、符号化装置を有するシステムであればどのような場合にも適用することができる。
また、本発明に係る量子化装置および符号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。
また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る符号化装置等と同様の機能を実現することができる。
また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
2008年8月8日出願の特願2008−205643の日本出願、2009年3月12日出願の特願2009−59502の日本出願、及び2009年4月9日出願の特願2009−95260の日本出願に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。
本発明にかかる量子化装置、符号化装置、量子化方法及び符号化方法は、例えばステレオ音響信号を低ビットレートで符号化するのに好適である。

Claims (10)

  1. 第1の信号と第2の信号とをダウンミックスした結果を利用して得られた第3の信号の振幅のバランスを調整する2つの係数を量子化する量子化装置であって、
    前記第1の信号、前記第2の信号、及び前記第3の信号の3つの信号を入力し、前記第1の信号と前記第3の信号との第1相関値及び前記第2の信号と前記第3の信号との第2相関値を算出するとともに、前記第3の信号の第1パワを算出するパワ・相関計算手段と、
    前記第1パワを用いて第1中間値を算出するとともに、前記第1相関値及び前記第2相関値の少なくとも1つの相関値と前記第1パワとを用いて、第2中間値を算出する中間値計算手段と、
    複数のスカラ値が格納された符号帳と、
    前記第1中間値及び前記第2中間値に基づいて、前記第1の信号に対して前記第3の信号の振幅のバランスを調整するバランス重み係数を、前記符号帳に格納されている前記複数のスカラ値の中から探索して、求められたスカラ値に対応する符号を得る探索手段と、
    を具備する量子化装置。
  2. 前記中間値計算手段は、
    前記第2中間値を、前記第1パワ、前記第1相関値、及び前記第2相関値を用いて算出する、
    請求項1記載の量子化装置。
  3. 前記探索手段は、
    前記第1中間値と前記第2中間値とを用いて設定される式に、前記複数のスカラ値を適用して得られる値が最小となるスカラ値に対応する前記符号を求める、
    請求項1記載の量子化装置。
  4. 前記パワ・相関計算手段は、
    更に、前記第1の信号の第2パワと前記第2の信号の第3パワとをそれぞれ算出し、前記第2パワと前記第3パワとを用いて第4の信号を算出するとともに、前記第4の信号と予め設定された第1パワ調整係数とを用いて前記第1パワを調整した第1調整パワを算出し、前記第2パワと予め設定された第2パワ調整係数とを用いて前記第1相関値を調整した第1調整相関値、及び、前記第3パワと予め設定された第3パワ調整係数とを用いて前記第2相関値を調整した第2調整相関値を算出し、
    前記中間値計算手段は、
    前記第1パワの代わりに前記第1調整パワを用いて前記第1中間値を算出するとともに、前記第1相関値及び前記第2相関値の少なくとも1つの相関値の代わりに前記第1調整相関値及び前記第2調整相関値の少なくとも1つの調整相関値と、前記第1パワの代わりに前記第1調整パワと、を用いて前記第2中間値を算出する、
    請求項1記載の量子化装置。
  5. 前記パワ・相関計算手段は、
    更に、前記第1の信号の第2パワと前記第2の信号の第3パワとをそれぞれ算出し、
    前記中間値計算手段は、
    前記第2相関値と前記第1パワとを用いて前記第2中間値を算出するとともに、更に、前記第1相関値を用いて第3中間値を算出し、前記第2パワを用いて第4中間値を算出し、前記第1パワと前記第2相関値と前記第3パワとを用いて第5中間値を算出し、
    前記探索手段は、
    前記第1中間値、前記第2中間値、前記第3中間値、前記第4中間値、及び前記第5中間値に基づいて、前記バランス重み係数を探索し、対応する前記符号を得る、
    請求項1記載の量子化装置。
  6. 前記符号帳は、
    前記複数のスカラ値のそれぞれに対応付けられた、前記第1の信号に関する第1重み係数及び前記第2の信号に関する第2重み係数を更に格納し、
    前記探索手段は、
    前記第1中間値、前記第2中間値、前記第3中間値、前記第4中間値、及び前記第5中間値を用いて設定される式に、前記複数のスカラ値と、前記複数のスカラ値に対応する前記第1重み係数及び前記第2重み係数と、を適用して得られる値が最小となるスカラ値に対応する前記符号を得る、
    請求項5記載の量子化装置。
  7. 前記パワ・相関計算手段は、
    更に、前記第2パワと前記第3パワとを用いて第4の信号を算出するとともに、前記第4の信号と予め設定された第1パワ調整係数とを用いて前記第1パワを調整した第1調整パワを算出し、前記第2パワと予め設定された第2パワ調整係数とを用いて前記第1相関値を調整した第1調整相関値、及び、前記第3パワと予め設定された第3パワ調整係数とを用いて前記第2相関値を調整した第2調整相関値を算出し、
    前記中間値計算手段は、
    前記第1パワの代わりに前記第1調整パワを用いて前記第1中間値を算出するとともに、前記第2相関値及び前記第1パワの代わりに前記第2調整相関値及び前記第1調整パワを用いて前記第2中間値を算出し、前記第1相関値の代わりに前記第1調整相関値を用いて前記第3中間値を算出し、前記第1パワ及び前記第2相関値の代わりに前記第1調整パワと前記第2調整相関値とを用いて前記第5中間値を算出する、
    請求項5記載の量子化装置。
  8. 第1の信号と第2の信号とを入力してダウンミックスした結果を用いて第3の信号を生成するダウンミックス手段と、
    前記第1の信号と前記第2の信号と前記第3の信号とを入力し、前記第3の信号の振幅のバランスを調整する2つの係数に関する量子化を行って得られた符号を出力する量子化手段と、
    前記第1の信号に対して前記第3の信号の振幅のバランスを調整する第1のバランス重み係数を、前記符号を用いて決定し、前記第2の信号に対して前記第3の信号の振幅のバランスを調整する第2のバランス重み係数を、前記第1のバランス重み係数を用いて算出する係数決定手段と、
    前記第1の信号と前記第3の信号と前記第1のバランス重み係数とを用いて第1ターゲット信号を生成し、前記第1ターゲット信号を符号化するとともに、前記第2の信号と前記第3の信号と前記第2のバランス重み係数とを用いて第2ターゲット信号を生成し、前記第2ターゲット信号を符号化する符号化手段と、を具備し、
    前記量子化手段は、
    前記第1の信号と前記第3の信号との第1相関値及び前記第2の信号と前記第3の信号との第2相関値を算出するとともに、前記第3の信号の第1パワを算出するパワ・相関計算手段と、
    前記第1パワを用いて第1中間値を算出するとともに、前記第1相関値及び前記第2相関値の少なくとも1つの相関値と前記第1パワとを用いて第2中間値を算出する中間値計算手段と、
    複数のスカラ値が格納された符号帳と、
    前記第1中間値及び前記第2中間値に基づいて、前記第1のバランス重み係数を、前記複数のスカラ値の中から探索して、求められたスカラ値に対応する前記符号を得る探索手段と、
    を具備する符号化装置。
  9. 第1の信号と第2の信号とをダウンミックスした結果を利用して得られた第3の信号の振幅のバランスを調整する2つの係数を量子化する量子化方法であって、
    前記第1の信号、前記第2の信号、及び前記第3の信号の3つの信号を入力し、前記第1の信号と前記第3の信号との第1相関値及び前記第2の信号と前記第3の信号との第2相関値を算出するとともに、前記第3の信号の第1パワを算出するパワ・相関計算ステップと、
    前記第1パワを用いて第1中間値を算出するとともに、前記第1相関値及び前記第2相関値の少なくとも1つの相関値と前記第1パワとを用いて第2中間値を算出する中間値計算ステップと、
    前記第1中間値及び前記第2中間値に基づいて、前記第1の信号に対して前記第3の信号の振幅のバランスを調整するバランス重み係数を、符号帳に格納されている複数のスカラ値の中から探索して、求められたスカラ値に対応する符号を得る探索ステップと、
    を有する量子化方法。
  10. 第1の信号と第2の信号とを入力してダウンミックスした結果を用いて第3の信号を生成するダウンミックスステップと、
    前記第1の信号と前記第2の信号と前記第3の信号とを入力し、前記第3の信号の振幅のバランスを調整する2つの係数に関する量子化を行って得られた符号を出力する量子化ステップと、
    前記第1の信号に対して前記第3の信号の振幅のバランスを調整する第1のバランス重み係数を、前記符号を用いて決定し、前記第2の信号に対して前記第3の信号の振幅のバランスを調整する第2のバランス重み係数を、前記第1のバランス重み係数を用いて算出する係数決定ステップと、
    前記第1の信号と前記第3の信号と前記第1のバランス重み係数とを用いて第1ターゲット信号を生成し、前記第1ターゲット信号を符号化するとともに、前記第2の信号と前記第3の信号と前記第2のバランス重み係数とを用いて第2ターゲット信号を生成し、前記第2ターゲット信号を符号化する符号化ステップと、を有し、
    前記量子化ステップは、
    前記第1の信号と前記第3の信号との第1相関値及び前記第2の信号と前記第3の信号との第2相関値を算出するとともに、前記第3の信号の第1パワを算出するパワ・相関計算ステップと、
    前記第1パワを用いて第1中間値を算出するとともに、前記第1相関値及び前記第2相関値の少なくとも1つの相関値と前記第1パワとを用いて第2中間値を算出する中間値計算ステップと、
    前記第1中間値及び前記第2中間値に基づいて、前記第1のバランス重み係数を、符号帳に格納されている複数のスカラ値の中から探索して、求められたスカラ値に対応する前記符号を得る探索ステップと、
    を有する符号化方法。
JP2010523771A 2008-08-08 2009-08-07 量子化装置、符号化装置、量子化方法及び符号化方法 Pending JPWO2010016270A1 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP2008205643 2008-08-08
JP2008205643 2008-08-08
JP2009059502 2009-03-12
JP2009059502 2009-03-12
JP2009095260 2009-04-09
JP2009095260 2009-04-09
PCT/JP2009/003798 WO2010016270A1 (ja) 2008-08-08 2009-08-07 量子化装置、符号化装置、量子化方法及び符号化方法

Publications (1)

Publication Number Publication Date
JPWO2010016270A1 true JPWO2010016270A1 (ja) 2012-01-19

Family

ID=41663497

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010523771A Pending JPWO2010016270A1 (ja) 2008-08-08 2009-08-07 量子化装置、符号化装置、量子化方法及び符号化方法

Country Status (3)

Country Link
US (1) US20110137661A1 (ja)
JP (1) JPWO2010016270A1 (ja)
WO (1) WO2010016270A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2491553B1 (en) 2009-10-20 2016-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using an iterative interval size reduction
CN102792370B (zh) 2010-01-12 2014-08-06 弗劳恩霍弗实用研究促进协会 使用描述有效状态值及区间边界的散列表的音频编码器、音频解码器、编码音频信息的方法及解码音频信息的方法
US9299355B2 (en) 2011-08-04 2016-03-29 Dolby International Ab FM stereo radio receiver by using parametric stereo
US9972325B2 (en) * 2012-02-17 2018-05-15 Huawei Technologies Co., Ltd. System and method for mixed codebook excitation for speech coding
KR102024284B1 (ko) * 2012-03-14 2019-09-23 방 앤드 오루프센 에이/에스 통합 또는 하이브리드 사운드-필드 제어 전략을 적용하는 방법
CN108427268B (zh) * 2018-02-26 2023-05-23 河南理工大学 一种基于知识与数据信息决策的污水处理优化控制方法
CN113450846B (zh) * 2020-03-27 2024-01-23 上海汽车集团股份有限公司 一种声压级标定方法及装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0025413D0 (en) * 2000-10-17 2000-11-29 Emp Technologies Ltd Improvements in and relating to furnaces and methods of melting
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
SE527670C2 (sv) * 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Naturtrogenhetsoptimerad kodning med variabel ramlängd
US7809579B2 (en) * 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
EP2138999A1 (en) * 2004-12-28 2009-12-30 Panasonic Corporation Audio encoding device and audio encoding method
WO2007114290A1 (ja) * 2006-03-31 2007-10-11 Matsushita Electric Industrial Co., Ltd. ベクトル量子化装置、ベクトル逆量子化装置、ベクトル量子化方法及びベクトル逆量子化方法
ITMI20061360A1 (it) * 2006-07-13 2008-01-14 Valentino Fossati Struttura di molleggio particolarmente per la realizzazione di materassi e simili
CN104947491A (zh) * 2006-07-26 2015-09-30 索理思科技开曼公司 用于在纸浆和纸张制造方法中控制树脂障碍和粘性物的疏水改性的聚[乙二醇]
US20100185442A1 (en) * 2007-06-21 2010-07-22 Panasonic Corporation Adaptive sound source vector quantizing device and adaptive sound source vector quantizing method
US8249883B2 (en) * 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source

Also Published As

Publication number Publication date
WO2010016270A1 (ja) 2010-02-11
US20110137661A1 (en) 2011-06-09

Similar Documents

Publication Publication Date Title
JP7140817B2 (ja) ステレオ音声信号をプライマリチャンネルおよびセカンダリチャンネルに時間領域ダウンミックスするために左チャンネルと右チャンネルとの間の長期相関差を使用する方法およびシステム
JP5608660B2 (ja) エネルギ保存型マルチチャネルオーディオ符号化
KR101391110B1 (ko) 오디오 신호 디코더, 오디오 신호 인코더, 업믹스 신호 표현을 제공하는 방법, 다운믹스 신호 표현을 제공하는 방법, 공통 객체 간의 상관 파라미터 값을 이용한 컴퓨터 프로그램 및 비트스트림
RU2439718C1 (ru) Способ и устройство для обработки звукового сигнала
JP5413839B2 (ja) 符号化装置および復号装置
JP5737077B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
JP4963965B2 (ja) スケーラブル符号化装置、スケーラブル復号装置、及びこれらの方法
AU2016234987B2 (en) Decoder and method for a generalized spatial-audio-object-coding parametric concept for multichannel downmix/upmix cases
JPWO2007026763A1 (ja) ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法
JPWO2006041055A1 (ja) スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法
WO2010016270A1 (ja) 量子化装置、符号化装置、量子化方法及び符号化方法
JP2010078915A (ja) オーディオ復号方法、装置、及びプログラム
WO2010140350A1 (ja) ダウンミックス装置、符号化装置、及びこれらの方法
WO2023172865A1 (en) Methods, apparatus and systems for directional audio coding-spatial reconstruction audio processing
KR20140037118A (ko) 오디오 신호 처리방법, 오디오 부호화장치, 오디오 복호화장치, 및 이를 채용하는 단말기