JPWO2012144128A1 - 音声音響符号化装置、音声音響復号装置、およびこれらの方法 - Google Patents

音声音響符号化装置、音声音響復号装置、およびこれらの方法 Download PDF

Info

Publication number
JPWO2012144128A1
JPWO2012144128A1 JP2013510856A JP2013510856A JPWO2012144128A1 JP WO2012144128 A1 JPWO2012144128 A1 JP WO2012144128A1 JP 2013510856 A JP2013510856 A JP 2013510856A JP 2013510856 A JP2013510856 A JP 2013510856A JP WO2012144128 A1 JPWO2012144128 A1 JP WO2012144128A1
Authority
JP
Japan
Prior art keywords
band
important
encoding
linear prediction
bands
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013510856A
Other languages
English (en)
Other versions
JP5648123B2 (ja
Inventor
河嶋 拓也
拓也 河嶋
押切 正浩
正浩 押切
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2013510856A priority Critical patent/JP5648123B2/ja
Publication of JPWO2012144128A1 publication Critical patent/JPWO2012144128A1/ja
Application granted granted Critical
Publication of JP5648123B2 publication Critical patent/JP5648123B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

重要帯域を高精度に符号化することができるとともに、高音質化を可能にすることができる音声音響符号化装置。音声音響符号化装置(100)は、線形予測係数を符号化する。重要帯域検出部(106)は、線形予測係数から聴感的に重要な帯域を特定する。符号化帯域再配置部(107)は、重要帯域検出部(106)により特定された重要な帯域を再配置する。ビット配分算出部(108)は、符号化帯域再配置部(107)により再配置された重要な帯域に基づいて符号化のビット配分を決定する。

Description

本発明は、音声信号及び/又は音響信号を符号化する音声音響符号化装置、符号化された信号を復号する音声音響復号装置、およびこれらの方法に関する。
音声を、低ビットレート及び高品質に圧縮できる方式として、CELP(Code Excited Linear Prediction)がある。しかしながら、CELPは音声信号に対しては高効率に符号化できるが、音楽信号に対しては音質が低下してしまうという課題がある。この課題を解決するため、LPC(Linear Prediction Coefficients)逆フィルタにより生成されるLPC残差信号を周波数領域に変換して符号化するTCX(Transform Coded Excitation)が提案されている(例えば、非特許文献1)。TCXでは、周波数領域に変換された変換係数を直接量子化するため、スペクトルの微細な形状を表すことができ、音楽信号に対して高音質化を図ることができる。このように、音楽信号を符号化する場合には、TCXのように周波数領域で符号化する手法が主流になっている。ここで、周波数領域で符号化される対象の信号をターゲット信号と呼ぶこととする。
非特許文献1では、TCXによる広帯域信号の符号化について述べており、入力信号をLPC逆フィルタに通し、LPC残差信号を得て、LPC残差信号から長期相関成分を除いた後で重み付け合成フィルタを通す。重み付け合成フィルタを通した信号を周波数領域に変換し、LPC残差スペクトル信号を得る。ここで得たLPC残差スペクトル信号を周波数領域で符号化する。音楽信号の場合には、高域で時間的な相関性が高い傾向にあるため前フレームとの差分を一括してベクトル量子化により符号化する手法をとっている。
また、特許文献1では、ACELPとTCXを組み合わせた方式をベースに非特許文献1と同様に得たLPC残差スペクトル信号に対して、低周波数を強調して符号化する方法を提案している。ターゲットベクトルを8サンプル毎のサブバンドに区切り、サブバンド毎の利得と周波数形状の符号化を行っている。利得は、最大エネルギーのサブバンドに多くのビットを割り当てるが、最大サブバンドよりも低域側のサブバンドに対してビット割り当てが少なくなりすぎないようにすることで全体の音質を向上させている。周波数形状に関しては、格子ベクトル量子化により符号化している。
非特許文献1では、ターゲット信号に対して前フレームとの相関性を利用して情報量の圧縮を図った上で、振幅の大きい順にビットを割り当てている。特許文献1では、8サンプル毎にサブバンドを区切り、特に低域側に十分にビットが割り当たるように配慮しつつエネルギーの大きいサブバンドにビットを多く割り当てている。
特表2007−525707号公報
R.Lefebvre, R.Salami, C.Laflamme, J.P.Adoul,"Highquality coding of wideband audio signals using transform coded excitation(TCX)", Proc. ICASSP 1994, pp.I-193 - I-196,1994年
しかしながら、従来の方式においては、ターゲット信号のみに着目し振幅の大きい周波数の振幅を高精度で符号化するので、復号信号で考えた場合、必ずしも聴感的に重要な帯域の符号化精度が上がらないという問題がある。また、どの帯域にどの程度ビットを割り当てたかの付加情報が必要になるという問題がある。
本発明の目的は、聴感的に重要な帯域を、符号化単位であるサブバンドとは独立して自由に特定し、前記重要な帯域に含まれるスペクトル(または変換係数)を再配置することにより、聴感的に重要ではない帯域の影響を受けずに重要帯域を高精度に符号化し、高音質化を可能にする音声音響符号化装置、音声音響復号装置を提供することである。
本発明の音声音響符号化装置は、線形予測係数を符号化する音声音響符号化装置であって、前記線形予測係数から聴感的に重要な帯域を特定する特定手段と、特定された前記重要な帯域を再配置する再配置手段と、再配置された前記重要な帯域に基づいて符号化のビット配分を決定する決定手段と、を有する構成を採る。
本発明の音声音響復号装置は、聴感的に重要な帯域を再配置するとともに、再配置された前記重要な帯域に基づいて符号化のビット配分を決定する際に、前記重要な帯域を特定する線形予測係数を符号化した線形予測係数符号化データを取得する取得手段と、取得された前記線形予測係数符号化データを復号して得た前記線形予測係数から前記重要な帯域を特定する特定手段と、特定された前記重要な帯域の配置を再配置される前の配置に戻す再配置手段と、を有する構成を採る。
本発明の音声音響符号化方法は、線形予測係数を符号化する音声音響符号化装置における音声音響符号化方法であって、前記線形予測係数から聴感的に重要な帯域を特定するステップと、特定された前記重要な帯域を再配置するステップと、再配置された前記重要な帯域に基づいて符号化のビット配分を決定するステップと、を有するようにした。
本発明の音声音響復号方法は、聴感的に重要な帯域を再配置するとともに、再配置された前記重要な帯域に基づいて符号化のビット配分を決定する際に、前記重要な帯域を特定する線形予測係数を符号化した線形予測係数符号化データを取得するステップと、取得された前記線形予測係数符号化データを復号して得た前記線形予測係数から前記重要な帯域を特定するステップと、特定された前記重要な帯域の配置を再配置される前の配置に戻すステップと、を有するようにした。
本発明によれば、重要帯域を高精度に符号化することができるとともに、高音質化を可能にすることができる。
本発明の実施の形態1に係る音声音響符号化装置の構成を示すブロック図 本発明の実施の形態1における重要帯域の抽出を示す図 本発明の実施の形態1における重要帯域の再配置を示す図 本発明の実施の形態1における音声音響復号装置の構成を示すブロック図 本発明の実施の形態1の変形例に係る音声音響符号化装置の構成を示すブロック図 本発明の実施の形態1の変形例における音声音響復号装置の構成を示すブロック図 本発明の実施の形態2に係る音声音響符号化装置の構成を示すブロック図 本発明の実施の形態2における音声音響復号装置の構成を示すブロック図 従来の方式における課題を示す図 本発明の実施の形態3における再配置後の符号化の様子を示す図 本発明の実施の形態3における音声音響復号装置における再配置処理の復号結果を示す図
本発明は、音声音響符号化装置と音声音響復号装置の両者で参照可能な量子化された線形予測係数を用いて、聴感的に重要な帯域を、符号化単位であるサブバンドとは独立して自由に特定し、前記重要な帯域に含まれるスペクトル(または変換係数)を再配置する。これにより、聴感的に重要ではない帯域に影響を受けることなくビット配分を決定することができる。また、これにより、聴感的に重要な帯域に含まれるスペクトル(または変換係数)の周波数振幅及び利得等の符号化を行うことできる。すなわち、この発明により、重要帯域を高精度に符号化することが可能となり、高音質化が可能になる。
たとえば、符号化データの一つである線形予測係数から重要帯域を特定し、重要帯域を集約したうえでビット配分を決定することにより、聴感的に重要な周波数に多くのビットが配分されるような適切なビット配分にすることができる。また、符号化の処理単位であるサブバンド幅またはビット配分があらかじめ固定されている従来技術に対して、聴感上重要な帯域を前記処理単位となるサブバンドとは独立に自由に特定し、特定された帯域に含まれるスペクトル(または変換係数)を集約してから高いビットレートで符号化を行うことで、聴感上重要な帯域を高精度に符号化することが可能となり、高音質化を図ることができる。さらに、線形予測係数を用いて重要帯域の特定またはビット割り当てを算出できるため付加情報が不要となり、その分をターゲット信号の符号化に使うことができるため、復号信号の主観品質を向上させることができる。
本発明の音声音響符号化装置及び音声音響復号装置は、基地局装置または端末装置に各々適用することができる。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。なお、本発明に係る音声音響符号化装置の入力信号および音声音響復号装置の出力信号は、音声信号、楽音信号、及び、これらが混在した信号、のいずれでもよい。
(実施の形態1)
<音声音響符号化装置の構成>
図1は、本発明の実施の形態1に係る音声音響符号化装置100の構成を示すブロック図である。
図1に示すように、音響信号符号化装置100は、線形予測分析部101、線形予測係数符号化部102、LPC逆フィルタ部103、時間-周波数変換部104、サブバンド分割部105、重要帯域検出部106、符号化帯域再配置部107、ビット配分算出部108、音源符号化部109及び多重化部110より構成される。
線形予測分析部101は、入力信号が入力され、線形予測分析を行い、線形予測係数を算出する。線形予測分析部101は、線形予測係数を線形予測係数符号化部102に出力する。
線形予測係数符号化部102は、線形予測分析部101より出力される線形予測係数が入力され、線形予測係数符号化データを多重化部110に出力する。また、線形予測係数符号化部102は、線形予測係数符号化データを復号して得られる復号線形予測係数をLPC逆フィルタ部103と重要帯域検出部106とに出力する。線形予測係数は、一般的にはそのまま符号化されることはなく、反射係数、PARCOR、LSPまたはISP等のパラメータに変換を行ったうえで符号化されるのが一般的である。
LPC逆フィルタ部103は、入力信号と線形予測係数符号化部102より出力される復号線形予測係数とが入力され、LPC残差信号を時間―周波数変換部104に出力する。LPC逆フィルタ部103は、入力された復号線形予測係数によりLPC逆フィルタを構成し、入力信号をLPC逆フィルタに通すことで入力信号のスペクトル包絡を取り除き、周波数特性的が平坦化されたLPC残差信号を得る。
時間―周波数変換部104は、LPC逆フィルタ部103より出力されるLPC残差信号が入力され、周波数領域に変換して得られるLPC残差スペクトル信号をサブバンド分割部105に出力する。周波数領域に変換する方法として、DFT(Discrete Fourier Transform)、FFT(Fast Fourier Transform)、DCT(Discrete Cosine Transform)またはMDCT(Modified Discrete Cosine Transform)等がある。
サブバンド分割部105は、時間−周波数変換部104より出力されるLPC残差スペクトル信号が入力され、残差スペクトル信号をサブバンドに分割して符号化帯域再配置部107に出力する。サブバンドの帯域幅は、低域では狭く、高域では広くとるのが一般的であるが、音源符号化部で用いられる符号化方式にも依存するため、全て同じ長さのサブバンド幅で区切られる場合もある。ここでは、低域から順次サブバンドを区切っていくものとし、サブバンド幅も高域ほど長くなるものとする。
重要帯域検出部106は、線形予測係数符号化部102より出力される復号線形予測係数が入力され、そこから重要帯域を算出し、その情報を重要帯域情報として符号化帯域再配置部107に出力する。詳細は後述する。
符号化帯域再配置部107は、サブバンド分割部105より出力されるサブバンドに分割されたLPC残差スペクトル信号と、重要帯域検出部106より出力される重要帯域情報が入力される。符号化帯域再配置部107は、重要帯域情報に基づいて、サブバンドに分割されたLPC残差スペクトル信号を並べ替え、再配置サブバンド信号としてビット配分算出部108と音源符号化部109とに出力する。詳細は後述する。
ビット配分算出部108は、符号化帯域再配置部107より出力される再配置サブバンド信号が入力され、各サブバンドに配分する符号化ビット数を算出する。ビット配分算出部108は、算出した符号化ビット数をビット配分情報として音源符号化部109に出力し、さらにビット配分情報を復号装置へ送信するために符号化し、ビット配分符号化データとして多重化部110に出力する。具体的には、ビット配分算出部108は、再配置サブバンド信号のサブバンド毎に1周波数当たりのエネルギーを算出し、各サブバンドの対数エネルギー比でビットを分配する。
音源符号化部109は、符号化帯域再配置部107より出力される再配置サブバンド信号と、ビット配分算出部108より出力されるビット配分情報とが入力され、サブバンド毎に配分された符号化ビット量を使って再配置サブバンド信号を符号化し、音源符号化データとして多重化部110に出力する。符号化は、ベクトル量子化、AVQ(Algebraic Vector Quantization)、またはFPC(Factorial Pulse Coding)等を用いてスペクトル形状や利得を符号化する。一般的には、振幅の大きい周波数が符号化対象となるように符号化され、使えるビットが多い程符号化対象となる周波数が増え、利得の精度を向上させることができる。
多重化部110は、線形予測係数符号化部102より出力される線形予測係数符号化データと、音源符号化部109より出力される音源符号化データと、ビット配分算出部108より出力されるビット配分符号化データとが入力され、これらのデータを多重化して符号化データとして出力する。
<重要帯域検出部における処理>
重要帯域検出部106は、入力信号において聴感的に重要な帯域を検出するのが目的である。LPCを符号化する音声符号化方式であればLPCから概ね重要な帯域が算出できるため、本発明では線形予測係数からのみ算出する方法で説明する。符号化した線形予測係数を復号した復号線形予測係数を用いれば、符号化装置で算出した重要帯域が復号装置でも同様に得ることができる。
まず、線形予測係数から、LPC包絡を得る。LPC包絡は入力信号のおおよそのスペクトル包絡を表しており、形状的に鋭いピークを構成している部分は聴感的に非常に重要である。このようなピークは次のようにすれば取得できる。周波数軸方向にLPC包絡の移動平均をとり、調整のためのオフセットを加えて移動平均線を得る。このように求めた移動平均線をLPC包絡が超える部分をピーク部として検出することで、重要帯域を抽出することが可能となる。
図2は、重要帯域の抽出を示す図である。図2において、横軸は周波数を示し、縦軸はスペクトルのパワーを示す。細実線はLPC包絡を表し、太実線は移動平均線を表す。図2では、P1からP5の区間で、LPC包絡が移動平均線を上回っており、この区間を重要帯域として検出したことを示している。重要帯域以外の区間を低域側からNP1からNP6で表している。なお、残差スペクトル信号は、サブバンド分割部105によって低域側からサブバンドS1からサブバンドS5まで分割されているものとし、この例では低域側ほど狭い帯域になっている。
<符号化帯域再配置部における処理>
重要帯域検出部106において重要帯域が検出された場合には、重要帯域とされた帯域を低域から詰めて配置し、その後、重要帯域検出部106において重要帯域と判定されなかった帯域を低域から詰めて配置する。
上記の処理を図2及び図3を用いて説明する。図3は、重要帯域の再配置を示す図である。図3において、横軸は周波数を示し、縦軸はスペクトルパワーを示し、符号化帯域再配置部107によって再配置されたことを示している。
重要帯域検出部106によって図2のようにP1〜P5までの重要帯域が検出された場合、図3に示すように低域側に重要帯域をP1からP5の順に再配置していく。検出された重要帯域を再配置し終えると、その高域側に重要帯域に判定されなかった帯域をNP1からNP6を低域側から再配置していく。ここで、重要帯域は、図2に示すように、LPC包絡のスペクトルパワーが移動平均線のスペクトルパワーよりも大きい(LPC包絡のスペクトルパワー>移動平均線のスペクトルパワー)帯域P1〜P5である。
<ビット配分算出部における処理>
図2のサブバンドS1を例に考える。サブバンドS1では、重要帯域P1の一部が含まれている。サブバンドS1への符号化ビットは、このサブバンド全体のエネルギーに従って配分されるものとすると、重要帯域P1以外の帯域のエネルギーは必ずしも高くないため、サブバンドS1へは十分なビットが割り当てられない。
一方、符号化帯域再配置部107によって、重要帯域が再配置された配置サブバンド信号におけるビット配分を考える。図3に示すように、重要帯域を低域側に集約していることからサブバンドS1には重要帯域P1と重要帯域P2の一部が含まれている。この例から明らかなように、サブバンドS1には重要帯域しか含まれないため、聴感的に重要ではない帯域に影響されることなく適切なビット数を算出することができる。
<音声音響復号装置の構成>
図4は、本発明の実施の形態1における音声音響復号装置400の構成を示すブロック図である。音声音響復号装置400は、分離部401、線形予測係数復号部402、重要帯域検出部403、ビット配分復号部404、音源復号部405、復号帯域再配置部406、周波数―時間変換部407及びLPC合成フィルタ部408より構成される。
分離部401は、音声音響符号化装置100より符号化データを受信し、線形予測係数符号化データを線形予測係数復号部402に出力し、ビット配分符号化データをビット配分復号部404に出力し、音源符号化データを音源復号部405に出力する。
線形予測係数復号部402は、分離部401より出力された線形予測係数符号化データが入力され、線形予測係数符号化データを復号して得られた復号線形予測係数を、重要帯域検出部403とLPC合成フィルタ部408とに出力する。
重要帯域検出部403は、音声音響符号化装置100の重要帯域検出部106と同一である。重要帯域検出部403は、入力される復号線形予測係数も重要帯域検出部106と同一であるため、得られる重要帯域情報も重要帯域検出部106と同一である。
ビット配分復号部404は、分離部401より出力されるビット配分符号化データが入力され、ビット配分符号化データを復号して得られたビット配分情報を音源復号部405に出力する。ビット配分情報は、サブバンド毎に符号化に使用したビット数を示す情報である。
音源復号部405は、分離部401より出力された音源符号化データと、ビット配分復号部404より出力されたビット配分情報とが入力され、サブバンド毎に符号化ビット数をビット配分情報に従って確定し、その情報を使ってサブバンド毎に音源符号化データを復号し、再配置サブバンド信号を得る。音源復号部405は、得られた再配置サブバンド信号を復号帯域再配置部406に出力する。
復号帯域再配置部406は、音源復号部405より出力された再配置サブバンド信号と、重要帯域検出部403より出力された重要帯域情報とが入力され、再配置サブバンド信号の最も低域の信号を、検出された最も低域側の重要帯域の位置に戻す処理を行う。復号帯域再配置部406は、高域側にさらに重要帯域がある場合は、順次低域側の再配置サブバンド信号を検出された重要帯域に戻す処理を行っていく。復号帯域再配置部406は、重要帯域における処理が完了したら、重要帯域と判定されなかった再配置サブバンド信号を、順次重要帯域以外の帯域に低域側から移していく。復号帯域再配置部406は、以上の動作によって復号スペクトルを得ることができ、得た復号スペクトルを復号LPC残差スペクトル信号として周波数−時間変換部407に出力する。
周波数―時間変換部407は、復号帯域再配置部406より出力された復号LPC残差スペクトル信号が入力され、入力した復号LPC残差スペクトル信号を時間領域の信号に変換して、復号LPC残差信号を得る。この処理は、音声音響符号化装置100の時間―周波数変換部104の逆変換を行う。周波数−時間変換部407は、得られた復号LPC残差信号をLPC合成フィルタ部408に出力する。
LPC合成フィルタ部408は、線形予測係数復号部402より出力された復号線形予測係数と、周波数−時間変換部407より出力された復号LPC残差信号とが入力され、復号線形予測係数により、LPC合成フィルタを構成し、そのフィルタに復号LPC残差信号を入力することで復号信号を得ることができる。LPC合成フィルタ部408は、得られた復号信号を出力する。
以上の音声音響符号化装置及び音声音響復号装置の構成及び動作により、入力信号の聴感上重要帯域に着目し、非重要帯域の影響を受けることなく重要帯域の最適なビット配分を算出できるため、音源の符号化ビット数が同じ場合であってもより良好な音質を実現できる。
<本実施の形態の効果>
このように、本実施の形態によれば、聴感的に重要な帯域のみでビット配分を行うため、聴感的に重要な帯域内の個々の周波数に配分するビットを増やすことができることから、聴感的に重要な周波数成分を高精度に符号化することができ、主観品質を向上させることができる。
また、本実施の形態によれば、符号化の処理単位であるサブバンド幅やビット配分があらかじめ固定されている従来技術に対して、聴感上重要な帯域を前記処理単位となるサブバンドとは独立に自由に特定し、特定された帯域に含まれるスペクトル(または変換係数)を集約してから高いビットレートで符号化を行うことで、聴感上重要な帯域を高精度に符号化することが可能となり、高音質化を図ることができる。
また、本実施の形態によれば、線形予測係数を用いて重要帯域の特定やビット割り当てを算出できるため付加情報が不必要となり、その分をターゲット信号の符号化に使うことができるため復号信号の主観品質を向上させることができる。
<実施の形態1の変形例>
上記の説明では、重要帯域を集約したうえで、再配置サブバンド信号からビット配分を決定したが、この場合ビット配分情報を符号化して音声音響復号装置400側で送信する必要がある。しかしながら、LPC包絡自体が入力信号の大まかなスペクトルのエネルギー分布を示すものと考えられることから、LPC包絡からビット配分を決定することも妥当な方法であると考えられる。LPC包絡からビット配分を直接決定することで、ビット配分情報を符号化して送信することなく音声音響符号化装置100と音声音響復号装置400とでビット配分情報を共有することが可能になる。
図5は、本実施の形態の変形例に係る音声音響符号化装置500の構成を示すブロック図である。
図5に示す音声音響符号化装置500は、図1に示す音声音響符号化装置100に対して、ビット配分算出部108の代わりにビット配分算出部501を有する。なお、図5において、図1と同一構成である部分には同一の符号を付してその説明を省略する。
線形予測係数符号化部102は、線形予測係数符号化データを復号して得られる復号線形予測係数をLPC逆フィルタ部103と重要帯域検出部106とビット配分算出部501とに出力する。なお、線形予測係数符号化部102における他の構成及び処理は上記で説明したものと同一であるので、その説明を省略する。
ビット配分算出部501は、線形予測係数符号化部102より出力される復号線形予測係数が入力され、復号線形予測係数からビット配分を算出する。ビット配分算出部501は、算出したビット配分をビット配分情報として音源符号化部109に出力する。
音源符号化部109は、符号化帯域再配置部107より出力される再配置サブバンド信号と、ビット配分算出部501より出力されるビット配分情報とが入力され、サブバンド毎に配分された符号化ビット量を使って再配置サブバンド信号を符号化し、音源符号化データとして多重化部110に出力する。
多重化部110は、線形予測係数符号化部102より出力される線形予測係数符号化データと、音源符号化部109より出力される音源符号化データとが入力され、これらのデータを多重化して符号化データとして出力する。
このように、本実施の形態の変形例では、ビット配分算出部501の入力信号が重要帯域情報から復号線形予測係数に代わり、復号線形予測係数からビット配分を算出する。ここで算出したビット配分情報は、図1と同様に音源符号化部109に出力されるが、ビット配分情報は音声音響復号装置に送る必要が無いため、ビット配分情報を符号化する必要が無い。
図6は、本実施の形態の変形例における音声音響復号装置600の構成を示すブロック図である。図6に示す音声音響復号装置600は、図4に示す音声音響復号装置400に対して、ビット配分復号部404を除き、ビット配分算出部601を追加する。なお、図6において、図4と同一構成である部分には同一の符号を付してその説明を省略する。
分離部401は、音声音響符号化装置500からの符号化データを受信し、線形予測係数符号化データを線形予測係数復号部402に出力し、音源符号化データを音源復号部405に出力する。
線形予測係数復号部402は、分離部401より出力された線形予測係数符号化データが入力され、線形予測係数符号化データを復号して得られた復号線形予測係数を、重要帯域検出部403と、LPC合成フィルタ部408と、ビット配分算出部601とに出力する。
ビット配分算出部601は、線形予測係数復号部402より出力される復号線形予測係数が入力され、復号線形予測係数からビット配分を算出する。ビット配分算出部601は、算出したビット配分をビット配分情報として音源復号部405に出力する。ビット配分算出部601は、音声音響符号化装置500のビット配分算出部501と同一の入力信号を用いて同一の動作をするため、音声音響符号化装置500と同一のビット配分情報を得ることができる。
このような構成にすることで、ビット配分情報を符号化して送信する必要がなくなるため、ビット配分に当てていた情報量を音源の周波数形状や利得の符号化に当てることが可能となるため、より高音質な符号化を行うことができる。
(実施の形態2)
本実施の形態では、サブバンド毎のビット配分があらかじめ規定されている場合について説明する。ビット配分情報を符号化して送信する程にはビットレートが十分に高くない場合に、ビット配分をあらかじめ規定しておく。この場合、低域にビットを多く配分し、高域のビット配分は少なくする。
<音声音響符号化装置の構成>
図7は、本発明の実施の形態2に係る音声音響符号化装置700の構成を示すブロック図である。
図7に示す音声音響符号化装置700は、図1に示す実施の形態1に係る音声音響符号化装置100に対して、ビット配分算出部108を除く。なお、図7において、図1と同一構成である部分には同一の符号を付してその説明を省略する。
符号化帯域再配置部107は、サブバンド分割部105より出力されるサブバンドに分割されたLPC残差スペクトル信号と、重要帯域検出部106より出力される重要帯域情報とが入力される。符号化帯域再配置部107は、重要帯域情報に基づいて、サブバンドに分割されたLPC残差スペクトル信号を並べ替え、再配置サブバンド信号として音源符号化部109に出力する。具体的には、符号化帯域再配置部107は、重要帯域検出部106によって検出された重要帯域を、最低域部から詰めて再配置する。この場合、低域程ビットを多く配分しているので、重要帯域の中でも、低域のもの程符号化の際に多くの符号化ビットが割り当てられる可能性が高まる。
音源符号化部109は、符号化帯域再配置部107より出力される再配置サブバンド信号が入力され、あらかじめ規定されているサブバンド毎のビット配分を使って再配置サブバンド信号を符号化し、音源符号化データとして多重化部110に出力する。
多重化部110は、線形予測係数符号化部102より出力される線形予測係数符号化データと、音源符号化部109より出力される音源符号化データとが入力され、これらのデータを多重化して符号化データとして出力する。
<音声音響復号装置の構成>
図8に示す音声音響復号装置800は、図4に示す実施の形態1に係る音声音響復号装置400に対して、ビット配分復号部404を除く。なお、図8において、図4と同一構成である部分には同一の符号を付してその説明を省略する。
分離部401は、音声音響符号化データ700より符号化データを受信し、線形予測係数符号化データを線形予測係数復号部402に出力し、音源符号化データを音源復号部405に出力する。
音源復号部405は、分離部401より出力された音源符号化データが入力され、サブバンド毎に符号化ビット数を、あらかじめ規定されているサブバンド毎のビット配分に従って確定し、その情報を使ってサブバンド毎に音源符号化データを復号し、再配置サブバンド信号を得る。
<本実施の形態の効果>
このように、本実施の形態によれば、上記の実施の形態1の効果に加えて、聴感的に重要な帯域のみで符号化対象である、聴感的に重要な周波数成分を高精度に符号化することが可能となり、主観品質を向上させることができる。
また、本実施の形態によれば、低域以外に聴感的に重要なエネルギーが分布している信号であっても音源の周波数形状や利得をより精細に符号化することができ、復号信号の高音質化を図ることができる。
また、本実施の形態によれば、ビット配分情報に割り当てる符号化ビットを音源の周波数形状や利得の符号化に使うことができる。
(実施の形態3)
本実施の形態では、符号化帯域再配置部107における上記の実施の形態1及び実施の形態2とは異なる動作について説明する。本実施の形態は、ビットレートが低くサブバンドの一部の信号しか符号化できないため、限られたビットしか各サブバンドに配分されないケースを改善するものである。サブバンド幅は固定であり、各サブバンドに配分する符号化ビットはあらかじめ規定されている場合を例に説明する。
なお、本実施の形態において、音声音響符号化装置は図1と同一構成であり、音声音響復号装置は図4と同一構成であるので、その説明を省略する。
図9は、従来の方式における課題を示す図である。図9において、横軸は周波数を示し、縦軸はスペクトルパワーを示し、黒細実線はLPC包絡を示す。
高域側のサブバンドとして、S6、S7が設定されている。S6、S7には、2本のスペクトルのみを表現できるだけの符号化ビットしか割り当てていないとする。S6には重要帯域P6、P7が検出され、S7には重要帯域は検出されないとし、S7でパワーの大きい周波数はS7内の最低域の2本の周波数であるとする。S6で検出されたP6とP7における周波数のパワーにおいて、P6内にある周波数2本のパワーがP7内の最も大きな周波数パワーよりも大きいものとする。
この場合、従来の方式では、S6においてはP6の2本のスペクトルが符号化され、P7のスペクトルは符号化されない。S7においては、最低域にある2本のスペクトルが符号化される。このように一つの符号化単位であるサブバンド内に重要帯域が複数ある場合、十分に符号化できない可能性がある。
上記を解決するため、符号化帯域再配置部107は、符号化単位であるサブバンド内に所定数の重要帯域しか存在しないように再配置を行う。符号化帯域再配置部107は、符号化に使えるビット数から表現可能な周波数の数を推定し、重要帯域が複数あるために表現しきれないと判断した場合には、高域側の重要帯域を、より高域側のサブバンドに移すようにする。手順を以下に示す。
まず、サブバンドS(n)の割り当てビットから符号化が可能な重要帯域の数を推測する。Sはサブバンドに分割されたスペクトルを表し、nは低域側から増分するサブバンド番号を表すものとする。
次に、サブバンドS(n)において重要帯域がSp(n)個検出されるとする。
この際、Sp(n)<=Spp(n)の場合は、S(n)を符号化する。ここで、Spp(n)はサブバンドS(n)において符号化が可能な重要帯域の数を表す。
一方、符号化帯域再配置部107は、Sp(n)>Spp(n)の場合は、重要帯域の再配置処理を行う。
具体的には、符号化帯域再配置部107は、Sp(n)からSpp(n)を減じた数の重要帯域をS(n+1)に再配置する。その際、符号化帯域再配置部107は、S(n+1)において、再配置する重要帯域と同一幅において、最もエネルギーが少ない帯域と交換する。簡略化のため、S(n)の最高帯域と交換するようにしても良い。
このように、重要帯域を再配置してから再配置サブバンド信号を符号化する。上記処理を、重要帯域が検出されるサブバンドが存在するまで繰り返す。
図10Aは、再配置後の符号化の様子を示す図である。図10Bは、音声音響復号装置における再配置処理の復号結果を示す図である。
前述したように、S6においては重要帯域P6とP7の2つが検出され、S7においては重要帯域が検出されていない。本実施の形態では、P7はP6よりも高域側にあるので、S7への再配置対象になる。S7ではNP7の帯域が最もエネルギーが低い帯域であるので、NP7とP7の区間を入れ替える。S7のNP7の帯域にP7が再配置されてP7’になる。一方、S7のNP7はS6に移ってNP7’になる。この結果、再配置後のS6では重要帯域が一つしかないため、P6が符号化される。次に、S7の再配置処理を行う。S7では、S6から再配置されたP7’のみが重要帯域として存在しているため、P7’の符号化を行う。
図10Bの配置は、図10AのNP7’とP7’の位置を重要帯域情報に基いて戻すことで実現できる。よって、再配置処理を行うことにより、重要帯域であるP6とP7を符号化することができる。
以上の動作より、一つのサブバンド内に複数の重要帯域があって十分に符号化できなかった場合においても、重要帯域の再配置を行うことにより、より多くの重要帯域を符号化できるようになる。
このように、本実施の形態では、ビットレートが低くサブバンドの一部の信号しか符号化できないため、限られたビットしか各サブバンドに配分されない場合でも、一つのサブバンドに重要帯域が一定数以下になるようにターゲット信号を再配置する。これにより、本実施の形態によれば、上記の実施の形態1の効果に加えて、聴感的に重要な周波数成分が符号化対象に選択されやすくなり、主観品質を向上させることができる。
<実施の形態3の変形例>
本実施の形態において、あるサブバンドに複数の重要帯域があり、十分に符号化できないと推定される場合に高域側の重要帯域を、より高帯域側のサブバンドに再配置したが、本発明はこれに限らず、よりエネルギーの少ない重要帯域をより高域のサブバンドに再配置するようにしてもよい。また、同様の状況において、低域側の重要帯域もしくはよりエネルギーの大きい重要帯域を、低域側のサブバンドに再配置するようにしても良い。また、必ずしも再配置するサブバンドが隣り合っている必要は無い。
<実施の形態1〜実施の形態3に共通の変形例>
上記の実施の形態1〜実施の形態3において、重要帯域を同じ重要度で扱ったが、本発明はこれに限らず、重要帯域に重み付けをしてもよい。たとえば、最重要帯域は実施の形態1に示したように最低域側に集約し、次に重要な重要帯域は実施の形態3で示したように一つのサブバンドに一つの重要帯域が含まれるように再配置するようにしても良い。重要度の程度は、入力信号若しくはLPC包絡で計算してもよく、または音源スペクトル信号の当該区間のエネルギーで計算してもよい。また、例えば4kHz未満の重要帯域を最重要に、4kHz以上の重要帯域をそれよりも重要度を低下するようにしてもよい。
また、上記の実施の形態1〜実施の形態3において、LPC包絡の移動平均よりも大きい帯域を重要帯域として検出したが、本発明はこれに限らず、LPC包絡と移動平均との差異等を使って重要帯域の幅や重要度を適応的に決めるようにしても良い。例えば、LPC包絡と移動平均との差異が少ない帯域の重要度を一段低くしたり、需要帯域の幅を狭くする、というように適応的に決定するようにしてもよい。
また、上記の実施の形態1〜実施の形態3において、線形予測係数からLPC包絡を求め、そのエネルギー分布によって重要帯域を算出したが、本発明はこれに限らず、LSPまたはISPには近接する係数間の距離が短い程その帯域におけるエネルギーが大きい傾向にあることから、係数間の距離が短い帯域を重要帯域として直接求めてもよい。
また、上記実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はハードウェアとの連携においてソフトウェアでも実現することも可能である。
また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル/プロセッサを利用してもよい。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
2011年4月20日出願の特願2011−94446の日本出願に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。
本発明は、音声信号及び/又は音楽信号の符号化、復号を行う符号化装置、復号装置等として有用である。
100 音声音響符号化装置
101 線形予測分析部
102 線形予測係数符号化部
103 LPC逆フィルタ部
104 時間−周波数変換部
105 サブバンド分割部
106 重要帯域検出部
107 符号化帯域再配置部
108 ビット配分算出部
109 音源符号化部
110 多重化部
また、特許文献1では、ACELPとTCXを組み合わせた方式をベースに非特許文献1と同様に得たLPC残差スペクトル信号に対して、低周波数を強調して符号化する方法を提案している。ターゲットベクトルを8サンプル毎のサブバンドに区切り、サブバンド毎にスペクトルの形状と利得を符号化している。利得は、最大エネルギーのサブバンドに多くのビットを割り当てるが、最大サブバンドよりも低域側のサブバンドに対してビット割り当てが少なくなりすぎないようにすることで全体の音質を向上させている。スペクトルの形状に関しては、格子ベクトル量子化により符号化している。
本発明の音声音響復号装置は、聴感的に重要な帯域を特定するために用いられる線形予測係数を符号化した線形予測係数符号化データを取得する取得手段と、取得された前記線形予測係数符号化データを復号して得た前記線形予測係数から前記重要な帯域を特定する特定手段と、サブバンド毎に符号化に使用したビット数を示すビット配分情報を使ってサブバンド毎に音源符号化データを復号し、再配置サブバンド信号を得る復号手段と、特定された前記重要な帯域の再配置サブバンド信号を再配置される前の配置に戻す再配置手段と、を有する構成を採る。
本発明の音声音響復号方法は、聴感的に重要な帯域を特定するために用いられる線形予測係数を符号化した線形予測係数符号化データを取得するステップと、取得された前記線形予測係数符号化データを復号して得た前記線形予測係数から前記重要な帯域を特定するステップと、サブバンド毎に符号化に使用したビット数を示すビット配分情報を使ってサブバンド毎に音源符号化データを復号し、再配置サブバンド信号を得るステップと、特定された前記重要な帯域の再配置サブバンド信号を再配置される前の配置に戻すステップと、を有するようにした。
本発明は、音声音響符号化装置と音声音響復号装置の両者で参照可能な量子化された線形予測係数を用いて、聴感的に重要な帯域を、符号化単位であるサブバンドとは独立して自由に特定し、前記重要な帯域に含まれるスペクトル(または変換係数)を再配置する。これにより、聴感的に重要ではない帯域に影響を受けることなくビット配分を決定することができる。また、これにより、聴感的に重要な帯域に含まれるスペクトル(または変換係数)の形状及び利得等の符号化を行うことできる。すなわち、この発明により、重要帯域を高精度に符号化することが可能となり、高音質化が可能になる。
たとえば、符号化データの一つである線形予測係数から重要帯域を特定し、重要帯域を集約したうえでビット配分を決定することにより、聴感的に重要な周波数に多くのビットが配分されるような適切なビット配分にすることができる。また、符号化の処理単位であるサブバンド幅またはビット配分があらかじめ固定されている従来技術に対して、聴感上重要な帯域を前記処理単位となるサブバンドとは独立に自由に特定し、特定された帯域に含まれるスペクトル(または変換係数)を集約してから高いビットレートで符号化を行うことで、聴感上重要な帯域を高精度に符号化することが可能となり、高音質化を図ることができる。さらに、線形予測係数を用いて重要帯域の特定またはビット割り当て算出をすることができるため、どの帯域にどの程度ビットを割り当てたかの付加情報が不要となり、その分をターゲット信号の符号化に使うことができるため、復号信号の主観品質を向上させることができる。
また、本実施の形態によれば、線形予測係数を用いて重要帯域の特定またはビット割り当ての算出をすることができるため、どの帯域にどの程度ビットを割り当てたかの付加情報が不必要となり、その分をターゲット信号の符号化に使うことができるため復号信号の主観品質を向上させることができる。
このような構成にすることで、ビット配分情報を符号化して送信する必要がなくなるため、ビット配分に当てていた情報量を音源のスペクトルの形状や利得の符号化に当てることが可能となるため、より高音質な符号化を行うことができる。
また、本実施の形態によれば、低域以外に聴感的に重要なエネルギーが分布している信号であっても音源のスペクトルの形状や利得をより精細に符号化することができ、復号信号の高音質化を図ることができる。
また、本実施の形態によれば、ビット配分情報に割り当てる符号化ビットを音源のスペクトルの形状や利得の符号化に使うことができる。
また、上記の実施の形態1〜実施の形態3において、LPC包絡の移動平均よりも大きい帯域を重要帯域として検出したが、本発明はこれに限らず、LPC包絡と移動平均との差異等を使って重要帯域の幅や重要度を適応的に決めるようにしても良い。例えば、LPC包絡と移動平均との差異が少ない帯域の重要度を一段低くしたり、重要帯域の幅を狭くしたりする、というように適応的に決定するようにしてもよい。

Claims (14)

  1. 線形予測係数を符号化する音声音響符号化装置であって、
    前記線形予測係数から聴感的に重要な帯域を特定する特定手段と、
    特定された前記重要な帯域を再配置する再配置手段と、
    再配置された前記重要な帯域に基づいて符号化のビット配分を決定する決定手段と、
    を有する音声音響符号化装置。
  2. 前記再配置手段は、
    前記重要な帯域を特定の帯域に集約する、
    請求項1記載の音声音響符号化装置。
  3. 前記再配置手段は、
    特定された前記重要な帯域が一つのサブバンドに一定数以下になるように前記重要な帯域の再配置を行う、
    請求項1記載の音声音響符号化装置。
  4. 再配置された前記重要な帯域を符号化単位であるサブバンドに分割して周波数振幅または利得を符号化する符号化手段を更に有する、
    請求項1記載の音声音響符号化装置。
  5. 聴感的に重要な帯域を再配置するとともに、再配置された前記重要な帯域に基づいて符号化のビット配分を決定する際に、前記重要な帯域を特定する線形予測係数を符号化した線形予測係数符号化データを取得する取得手段と、
    取得された前記線形予測係数符号化データを復号して得た前記線形予測係数から前記重要な帯域を特定する特定手段と、
    特定された前記重要な帯域の配置を再配置される前の配置に戻す再配置手段と、
    を有する音声音響復号装置。
  6. 前記再配置手段は、
    特定の帯域に集約された前記重要な帯域の配置を再配置される前の配置に戻す、
    請求項5記載の音声音響復号装置。
  7. 前記再配置手段は、
    特定された前記重要な帯域が一つのサブバンドに一定数以下になるように再配置された前記重要な帯域を再配置される前の配置に戻す、
    請求項5記載の音声音響復号装置。
  8. 再配置された前記重要な帯域を符号化単位であるサブバンドに分割して周波数振幅または利得を符号化した符号化データを復号する復号手段を更に有する、
    請求項5記載の音声音響復号装置。
  9. 請求項1記載の音声音響符号化装置を有する基地局装置。
  10. 請求項5記載の音声音響復号装置を有する基地局装置。
  11. 請求項1記載の音声音響符号化装置を有する端末装置。
  12. 請求項5記載の音声音響復号装置を有する端末装置。
  13. 線形予測係数を符号化する音声音響符号化装置における音声音響符号化方法であって、
    前記線形予測係数から聴感的に重要な帯域を特定するステップと、
    特定された前記重要な帯域を再配置するステップと、
    再配置された前記重要な帯域に基づいて符号化のビット配分を決定するステップと、
    を有する音声音響符号化方法。
  14. 聴感的に重要な帯域を再配置するとともに、再配置された前記重要な帯域に基づいて符号化のビット配分を決定する際に、前記重要な帯域を特定する線形予測係数を符号化した線形予測係数符号化データを取得するステップと、
    取得された前記線形予測係数符号化データを復号して得た前記線形予測係数から前記重要な帯域を特定するステップと、
    特定された前記重要な帯域の配置を再配置される前の配置に戻すステップと、
    を有する音声音響復号方法。
JP2013510856A 2011-04-20 2012-03-19 音声音響符号化装置、音声音響復号装置、およびこれらの方法 Active JP5648123B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013510856A JP5648123B2 (ja) 2011-04-20 2012-03-19 音声音響符号化装置、音声音響復号装置、およびこれらの方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2011094446 2011-04-20
JP2011094446 2011-04-20
JP2013510856A JP5648123B2 (ja) 2011-04-20 2012-03-19 音声音響符号化装置、音声音響復号装置、およびこれらの方法
PCT/JP2012/001903 WO2012144128A1 (ja) 2011-04-20 2012-03-19 音声音響符号化装置、音声音響復号装置、およびこれらの方法

Publications (2)

Publication Number Publication Date
JPWO2012144128A1 true JPWO2012144128A1 (ja) 2014-07-28
JP5648123B2 JP5648123B2 (ja) 2015-01-07

Family

ID=47041265

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013510856A Active JP5648123B2 (ja) 2011-04-20 2012-03-19 音声音響符号化装置、音声音響復号装置、およびこれらの方法

Country Status (3)

Country Link
US (2) US9536534B2 (ja)
JP (1) JP5648123B2 (ja)
WO (1) WO2012144128A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2648595C2 (ru) * 2011-05-13 2018-03-26 Самсунг Электроникс Ко., Лтд. Распределение битов, кодирование и декодирование аудио
CN106941004B (zh) * 2012-07-13 2021-05-18 华为技术有限公司 音频信号的比特分配的方法和装置
JP6535466B2 (ja) * 2012-12-13 2019-06-26 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法
JP6148811B2 (ja) * 2013-01-29 2017-06-14 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 周波数領域におけるlpc系符号化のための低周波数エンファシス
WO2015049820A1 (ja) * 2013-10-04 2015-04-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響信号符号化装置、音響信号復号装置、端末装置、基地局装置、音響信号符号化方法及び復号方法
EP2919232A1 (en) 2014-03-14 2015-09-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and method for encoding and decoding
US9838700B2 (en) * 2014-11-27 2017-12-05 Nippon Telegraph And Telephone Corporation Encoding apparatus, decoding apparatus, and method and program for the same
KR101996307B1 (ko) * 2015-01-30 2019-07-04 니폰 덴신 덴와 가부시끼가이샤 부호화 장치, 복호 장치, 이들의 방법, 프로그램 및 기록 매체
CN106297813A (zh) 2015-05-28 2017-01-04 杜比实验室特许公司 分离的音频分析和处理
EP3751567B1 (en) * 2019-06-10 2022-01-26 Axis AB A method, a computer program, an encoder and a monitoring device
CN111081264B (zh) * 2019-12-06 2022-03-29 北京明略软件系统有限公司 一种语音信号处理方法、装置、设备及存储介质

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2523286B2 (ja) 1986-08-01 1996-08-07 日本電信電話株式会社 音声符号化及び復号化方法
KR100458969B1 (ko) 1993-05-31 2005-04-06 소니 가부시끼 가이샤 신호부호화또는복호화장치,및신호부호화또는복호화방법
JP3465698B2 (ja) * 1993-05-31 2003-11-10 ソニー株式会社 信号復号化方法及び装置
US5581653A (en) * 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder
JP3353868B2 (ja) * 1995-10-09 2002-12-03 日本電信電話株式会社 音響信号変換符号化方法および復号化方法
TW321810B (ja) * 1995-10-26 1997-12-01 Sony Co Ltd
JP3283413B2 (ja) * 1995-11-30 2002-05-20 株式会社日立製作所 符号化復号方法、符号化装置および復号装置
JP3246715B2 (ja) * 1996-07-01 2002-01-15 松下電器産業株式会社 オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
US6904404B1 (en) * 1996-07-01 2005-06-07 Matsushita Electric Industrial Co., Ltd. Multistage inverse quantization having the plurality of frequency bands
US6064954A (en) * 1997-04-03 2000-05-16 International Business Machines Corp. Digital audio signal coding
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
KR100304092B1 (ko) * 1998-03-11 2001-09-26 마츠시타 덴끼 산교 가부시키가이샤 오디오 신호 부호화 장치, 오디오 신호 복호화 장치 및 오디오 신호 부호화/복호화 장치
KR100632723B1 (ko) * 1999-03-19 2006-10-16 소니 가부시끼 가이샤 부가 정보 매립 방법 및 그 장치 및 부가 정보의 복조방법 및 그 복조장치
US6658382B1 (en) * 1999-03-23 2003-12-02 Nippon Telegraph And Telephone Corporation Audio signal coding and decoding methods and apparatus and recording media with programs therefor
JP3434260B2 (ja) * 1999-03-23 2003-08-04 日本電信電話株式会社 オーディオ信号符号化方法及び復号化方法、これらの装置及びプログラム記録媒体
US6996523B1 (en) * 2001-02-13 2006-02-07 Hughes Electronics Corporation Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system
JP4506039B2 (ja) * 2001-06-15 2010-07-21 ソニー株式会社 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
JP3469567B2 (ja) 2001-09-03 2003-11-25 三菱電機株式会社 音響符号化装置、音響復号化装置、音響符号化方法及び音響復号化方法
WO2003065353A1 (en) * 2002-01-30 2003-08-07 Matsushita Electric Industrial Co., Ltd. Audio encoding and decoding device and methods thereof
WO2004097798A1 (ja) * 2003-05-01 2004-11-11 Fujitsu Limited 音声復号化装置、音声復号化方法、プログラム、記録媒体
JP2004361602A (ja) * 2003-06-04 2004-12-24 Sony Corp データ生成方法およびデータ生成装置、データ復元方法およびデータ復元装置、並びにプログラム
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
ATE515021T1 (de) * 2004-10-27 2011-07-15 Yamaha Corp Tonhöhenumsetzungsvorrichtung
RU2404506C2 (ru) * 2004-11-05 2010-11-20 Панасоник Корпорэйшн Устройство масштабируемого декодирования и устройство масштабируемого кодирования
WO2006098274A1 (ja) 2005-03-14 2006-09-21 Matsushita Electric Industrial Co., Ltd. スケーラブル復号化装置およびスケーラブル復号化方法
CN101213590B (zh) 2005-06-29 2011-09-21 松下电器产业株式会社 可扩展解码装置及丢失数据插值方法
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
KR100851970B1 (ko) * 2005-07-15 2008-08-12 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
US7599840B2 (en) * 2005-07-15 2009-10-06 Microsoft Corporation Selectively using multiple entropy models in adaptive coding and decoding
JPWO2007037359A1 (ja) * 2005-09-30 2009-04-16 パナソニック株式会社 音声符号化装置および音声符号化方法
US7751485B2 (en) * 2005-10-05 2010-07-06 Lg Electronics Inc. Signal processing using pilot based coding
RU2008114382A (ru) * 2005-10-14 2009-10-20 Панасоник Корпорэйшн (Jp) Кодер с преобразованием и способ кодирования с преобразованием
JP4950210B2 (ja) * 2005-11-04 2012-06-13 ノキア コーポレイション オーディオ圧縮
WO2007052971A1 (en) * 2005-11-04 2007-05-10 Lg Electronics Inc. Random access dimensioning methods and procedures for frequency division multiplexing access systems
WO2007119368A1 (ja) 2006-03-17 2007-10-25 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置およびスケーラブル符号化方法
US8711925B2 (en) * 2006-05-05 2014-04-29 Microsoft Corporation Flexible quantization
US8812306B2 (en) 2006-07-12 2014-08-19 Panasonic Intellectual Property Corporation Of America Speech decoding and encoding apparatus for lost frame concealment using predetermined number of waveform samples peripheral to the lost frame
US20100017197A1 (en) * 2006-11-02 2010-01-21 Panasonic Corporation Voice coding device, voice decoding device and their methods
KR101412255B1 (ko) * 2006-12-13 2014-08-14 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 부호화 장치, 복호 장치 및 이들의 방법
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
EP2128854B1 (en) 2007-03-02 2017-07-26 III Holdings 12, LLC Audio encoding device and audio decoding device
EP2220646A1 (en) * 2007-11-06 2010-08-25 Nokia Corporation Audio coding apparatus and method thereof
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
KR101413967B1 (ko) * 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화 방법 및 복호화 방법, 및 그에 대한 기록 매체, 오디오 신호의 부호화 장치 및 복호화 장치
US8452587B2 (en) * 2008-05-30 2013-05-28 Panasonic Corporation Encoder, decoder, and the methods therefor
WO2011156905A2 (en) * 2010-06-17 2011-12-22 Voiceage Corporation Multi-rate algebraic vector quantization with supplemental coding of missing spectrum sub-bands
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법

Also Published As

Publication number Publication date
US20170076728A1 (en) 2017-03-16
US10446159B2 (en) 2019-10-15
US20130339012A1 (en) 2013-12-19
US9536534B2 (en) 2017-01-03
WO2012144128A1 (ja) 2012-10-26
JP5648123B2 (ja) 2015-01-07

Similar Documents

Publication Publication Date Title
JP5648123B2 (ja) 音声音響符号化装置、音声音響復号装置、およびこれらの方法
JP6823121B2 (ja) 符号化装置および符号化方法
KR102055022B1 (ko) 부호화 장치 및 방법, 복호 장치 및 방법, 및 프로그램
US11521625B2 (en) Audio signal coding apparatus, audio signal decoding apparatus, audio signal coding method, and audio signal decoding method
JP4272897B2 (ja) 符号化装置、復号化装置およびその方法
CN105518776A (zh) 用于使用重构频带的能量信息值对音频信号进行解码或编码的设备及方法
JP6647370B2 (ja) 音声音響符号化装置及び音声音響符号化方法
KR20160028511A (ko) 오디오 신호 코딩 및 디코딩 방법 및 장치
EP2562750A1 (en) Encoding device, decoding device, encoding method and decoding method
US9830919B2 (en) Acoustic signal coding apparatus, acoustic signal decoding apparatus, terminal apparatus, base station apparatus, acoustic signal coding method, and acoustic signal decoding method
US20140244274A1 (en) Encoding device and encoding method
JP5525540B2 (ja) 符号化装置および符号化方法
WO2019173195A1 (en) Signals in transform-based audio codecs

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20140605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140902

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140902

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141028

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141110

R150 Certificate of patent or registration of utility model

Ref document number: 5648123

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150