TWI476763B - A sound decoding apparatus, a sound decoding method, and a recording medium on which a voice decoding program is recorded - Google Patents

A sound decoding apparatus, a sound decoding method, and a recording medium on which a voice decoding program is recorded Download PDF

Info

Publication number
TWI476763B
TWI476763B TW101124697A TW101124697A TWI476763B TW I476763 B TWI476763 B TW I476763B TW 101124697 A TW101124697 A TW 101124697A TW 101124697 A TW101124697 A TW 101124697A TW I476763 B TWI476763 B TW I476763B
Authority
TW
Taiwan
Prior art keywords
frequency
time envelope
recorded
unit
frequency component
Prior art date
Application number
TW101124697A
Other languages
English (en)
Other versions
TW201243832A (en
Inventor
Kosuke Tsujino
Kei Kikuiri
Nobuhiko Naka
Original Assignee
Ntt Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ntt Docomo Inc filed Critical Ntt Docomo Inc
Publication of TW201243832A publication Critical patent/TW201243832A/zh
Application granted granted Critical
Publication of TWI476763B publication Critical patent/TWI476763B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Description

聲音解碼裝置,聲音解碼方法,及記錄有聲音解碼程式之記錄媒體
本發明係有關於聲音編碼裝置、聲音解碼裝置、聲音編碼方法、聲音解碼方法、聲音編碼程式及聲音解碼程式。
利用聽覺心理而摘除人類知覺上所不必要之資訊以將訊號之資料量壓縮成數十分之一的聲音音響編碼技術,是在訊號的傳輸、積存上極為重要的技術。作為被廣泛利用的知覺性音訊編碼技術的例子,可舉例如已被“ISO/IEC MPEG”所標準化的“MPEG4 AAC”等。
作為更加提升聲音編碼之性能、以低位元速率獲得高聲音品質的方法,使用聲音的低頻成分來生成高頻成分的頻帶擴充技術,近年來是被廣泛利用。頻帶擴充技術的代表性例子係為“MPEG4 AAC”中所利用的SBR(Spectral Band Replication)技術。在SBR中,對於藉由QMF(Quadrature Mirror Filter)濾波器組而被轉換成頻率領域的訊號,藉由進行從低頻頻帶往高頻頻帶的頻譜係數之複寫,以生成高頻成分之後,藉由調整已被複寫之係數的頻譜包絡和調性(tonality),以進行高頻成分的調整。利用頻帶擴充技術的聲音編碼方式,係僅使用少量的輔助資訊就能再生出訊號的高頻成分,因此對於聲音編碼的低位元速率化,是有效的。
以SBR為代表的頻率領域上的頻帶擴充技術,係藉由對頻譜係數的增益調整、時間方向的線性預測逆濾波器處理、雜訊的重疊,而對頻率領域中所表現的頻譜係數,進行頻譜包絡和調性之調整。藉由該調整處理,將演說訊號或拍手、響板這類時間包絡變化較大的訊號進行編碼之際,則在解碼訊號中,有時候會有稱作前回聲或後回聲的殘響狀之雜音被感覺出來。此問題係起因於,在調整處理的過程中,高頻成分的時間包絡會變形,許多情況下會變成比調整前還平坦的形狀所造成。因調整處理而變得平坦的高頻成分的時間包絡,係與編碼前的原訊號中的高頻成分之時間包絡不一致,而成為前回聲.後回聲之原因。
同樣的前回聲.後回聲之問題,在“MPEG Surround”及參量(parametric)音響為代表的,使用參量處理的多聲道音響編碼中,也會發生。多聲道音響編碼時的解碼器,雖然含有對解碼訊號實施殘響濾波器所致之無相關化處理的手段,但在無相關化處理的過程中,訊號的時間包絡會變形,而產生和前回聲.後回聲同樣的再生訊號之劣化。作為針對此課題的解決法,係存在有TES(Temporal Envelope Shaping)技術(專利文獻1)。在TES技術中,係對於在QMF領域中所表現之無相關化處理前之訊號,在頻率方向上進行線性預測分析,得到線性預測係數後,使用所得到之線性預測係數來對無相關化處理後之訊號,在頻率方向上進行線性預測合成濾波器處理。藉由該處理,TES技術係將無相關化處理前之訊號所帶有的時間包絡予 以抽出,配合於其來調整無相關化處理後之訊號的時間包絡。由於無相關化處理前之訊號係帶有失真較少的時間包絡,因此藉由以上之處理,可將無相關化處理後之訊號的時間包絡調整成失真較少的形狀,可獲得改善了前回聲.後回聲的再生訊號。
[先前技術文獻] [專利文獻]
[專利文獻1]美國專利申請公開第2006/0239473號說明書
以上所示的TES技術,係利用了無相關化處理前之訊號是帶有失真較少之時間包絡的性質。可是,在SBR解碼器中,由於是將訊號的高頻成分藉由來自低頻成分的訊號複寫而加以複製,因此無法獲得關於高頻成分之失真較少的時間包絡。作為針對該問題的解決法之一,係考慮在SBR編碼器中將輸入訊號的高頻成分加以分析,將分析結果所得到的線性預測係數予以量化,多工化至位元串流中而加以傳輸的方法。藉此,在SBR解碼器中就可獲得,含有關於高頻成分之時間包絡之失真較少之資訊的線性預測係數。可是,此情況下,已被量化之線性預測係數的傳輸上需要較多的資訊量,因此會辦隨著編碼位元串流全體的 位元速率顯著增大之問題。於是,本發明的目的在於,以SBR為代表的頻率領域上的頻帶擴充技術中,不使位元速率顯著增大,就減輕前回聲.後回聲的發生並提升解碼訊號的主觀品質。
本發明的聲音編碼裝置,係屬於將聲音訊號予以編碼的聲音編碼裝置,其特徵為,具備:核心編碼手段,係將前記聲音訊號的低頻成分,予以編碼;和時間包絡輔助資訊算出手段,係使用前記聲音訊號之低頻成分之時間包絡,來算出用來獲得前記聲音訊號之高頻成分之時間包絡之近似所需的時間包絡輔助資訊;和位元串流多工化手段,係生成至少由已被前記核心編碼手段所編碼過之前記低頻成分、和已被前記時間包絡輔助資訊算出手段所算出的前記時間包絡輔助資訊所多工化而成的位元串流。
在本發明的聲音編碼裝置中,前記時間包絡輔助資訊,係表示一參數,其係用以表示在所定之解析區間內,前記聲音訊號的高頻成分中的時間包絡之變化的急峻度,較為理想。
在本發明的聲音編碼裝置中,係更具備:頻率轉換手段,係將前記聲音訊號,轉換成頻率領域;前記時間包絡輔助資訊算出手段,係基於對已被前記頻率轉換手段轉換成頻率領域之前記聲音訊號的高頻側係數在頻率方向上進行線性預測分析所取得的高頻線性預測係數,而算出前記 時間包絡輔助資訊,較為理想。
在本發明的聲音編碼裝置中,前記時間包絡輔助資訊算出手段,係對已被前記頻率轉換手段轉換成頻率領域之前記聲音訊號的低頻側係數,在頻率方向上進行線性預測分析而取得低頻線性預測係數,基於該低頻線性預測係數和前記高頻線性預測係數,而算出前記時間包絡輔助資訊,較為理想。
在本發明的聲音編碼裝置中,前記時間包絡輔助資訊算出手段,係從前記低頻線性預測係數及前記高頻線性預測係數,分別取得預測增益,基於該當二個預測增益之大小,而算出前記時間包絡輔助資訊,較為理想。
在本發明的聲音編碼裝置中,前記時間包絡輔助資訊算出手段,係從前記聲音訊號中分離出高頻成分,從該當高頻成分中取得被表現在時間領域中的時間包絡資訊,基於該當時間包絡資訊的時間性變化之大小,而算出前記時間包絡輔助資訊,較為理想。
在本發明的聲音編碼裝置中,前記時間包絡輔助資訊,係含有差分資訊,其係為了使用對前記聲音訊號之低頻成分進行往頻率方向之線性預測分析所獲得之低頻線性預測係數而取得高頻線性預測係數所需,較為理想。
在本發明的聲音編碼裝置中,係更具備:頻率轉換手段,係將前記聲音訊號,轉換成頻率領域;前記時間包絡輔助資訊算出手段,係對已被前記頻率轉換手段轉換成頻率領域之前記聲音訊號的低頻成分及高頻側係數,分別在 頻率方向上進行線性預測分析而取得低頻線性預測係數與高頻線性預測係數,並取得該當低頻線性預測係數及高頻線性預測係數的差分,以取得前記差分資訊,較為理想。
在本發明的聲音編碼裝置中,前記差分資訊係表示LSP(Linear Spectrum Pair)、ISP(Immittance Spectrum Pair)、LSF(Linear Spectrum Frequency)、ISF(Immittance Spectrum Frequency)、PARCOR係數之任一領域中的線性預測係數之差分,較為理想。
本發明的聲音編碼裝置,係屬於將聲音訊號予以編碼的聲音編碼裝置,其特徵為,具備:核心編碼手段,係將前記聲音訊號的低頻成分,予以編碼;和頻率轉換手段,係將前記聲音訊號,轉換成頻率領域;和線性預測分析手段,係對已被前記頻率轉換手段轉換成頻率領域之前記聲音訊號的高頻側係數,在頻率方向上進行線性預測分析而取得高頻線性預測係數;和預測係數抽略手段,係將已被前記線性預測分析手段所取得之前記高頻線性預測係數,在時間方向上作抽略;和預測係數量化手段,係將已被前記預測係數抽略手段作抽略後的前記高頻線性預測係數,予以量化;和位元串流多工化手段,係生成至少由前記核心編碼手段所編碼後的前記低頻成分和前記預測係數量化手段所量化後的前記高頻線性預測係數,所多工化而成的位元串流。
本發明的聲音解碼裝置,係屬於將已被編碼之聲音訊號予以解碼的聲音解碼裝置,其特徵為,具備:位元串流 分離手段,係將含有前記已被編碼之聲音訊號的來自外部的位元串流,分離成編碼位元串流與時間包絡輔助資訊;和核心解碼手段,係將已被前記位元串流分離手段所分離的前記編碼位元串流予以解碼而獲得低頻成分;和頻率轉換手段,係將前記核心解碼手段所得到之前記低頻成分,轉換成頻率領域;和高頻生成手段,係將已被前記頻率轉換手段轉換成頻率領域的前記低頻成分,從低頻頻帶往高頻頻帶進行複寫,以生成高頻成分;和低頻時間包絡分析手段,係將已被前記頻率轉換手段轉換成頻率領域的前記低頻成分加以分析,而取得時間包絡資訊;和時間包絡調整手段,係將已被前記低頻時間包絡分析手段所取得的前記時間包絡資訊,使用前記時間包絡輔助資訊來進行調整;和時間包絡變形手段,係使用前記時間包絡調整手段所調整後的前記時間包絡資訊,而將已被前記高頻生成手段所生成之前記高頻成分的時間包絡,加以變形。
在本發明的聲音解碼裝置中,係更具備:高頻調整手段,係用以調整前記高頻成分;前記頻率轉換手段,係為具有實數或複數(complex number)之係數的64分割QMF濾波器組;前記頻率轉換手段、前記高頻生成手段、前記高頻調整手段,係以“ISO/IEC 14496-3”中所規定之“MPEG4 AAC”中的SBR解碼器(SBR:Spectral Band Replication)為依據而作動,較為理想。
在本發明的聲音解碼裝置中,前記低頻時間包絡分析手段,係對已被前記頻率轉換手段轉換成頻率領域的前記 低頻成分,進行頻率方向的線性預測分析,而取得低頻線性預測係數;前記時間包絡調整手段,係使用前記時間包絡輔助資訊來調整前記低頻線性預測係數;前記時間包絡變形手段,係對於已被前記高頻生成手段所生成之頻率領域的前記高頻成分,使用已被前記時間包絡調整手段所調整過的線性預測係數來進行頻率方向的線性預測濾波器處理,以將聲音訊號的時間包絡予以變形,較為理想。
在本發明的聲音解碼裝置中,前記低頻時間包絡分析手段,係將已被前記頻率轉換手段轉換成頻率領域的前記低頻成分的每一時槽的功率加以取得,以取得聲音訊號的時間包絡資訊;前記時間包絡調整手段,係使用前記時間包絡輔助資訊來調整前記時間包絡資訊;前記時間包絡變形手段,係對已被前記高頻生成手段所生成之頻率領域的高頻成分,重疊上前記調整後的時間包絡資訊,以將高頻成分的時間包絡予以變形,較為理想。
在本發明的聲音解碼裝置中,前記低頻時間包絡分析手段,係將已被前記頻率轉換手段轉換成頻率領域的前記低頻成分的每一QMF子頻帶樣本的功率加以取得,以取得聲音訊號的時間包絡資訊;前記時間包絡調整手段,係使用前記時間包絡輔助資訊來調整前記時間包絡資訊;前記時間包絡變形手段,係對已被前記高頻生成手段所生成之頻率領域的高頻成分,乘算上前記調整後的時間包絡資訊,以將高頻成分的時間包絡予以變形,較為理想。
在本發明的聲音解碼裝置中,前記時間包絡輔助資訊 ,係表示線性預測係數之強度之調整時所要使用的濾波器強度參數,較為理想。
在本發明的聲音解碼裝置中,前記時間包絡輔助資訊,係表示前記時間包絡資訊之時間變化之大小的參數,較為理想。
在本發明的聲音解碼裝置中,前記時間包絡輔助資訊,係含有對於前記低頻線性預測係數的線性預測係數之差分資訊,較為理想。
在本發明的聲音解碼裝置中,前記差分資訊係表示LSP(Linear Spectrum Pair)、ISP(Immittance Spectrum Pair)、LSF(Linear Spectrum Frequency)、ISF(Immittance Spectrum Frequency)、PARCOR係數之任一領域中的線性預測係數之差分,較為理想。
在本發明的聲音解碼裝置中,前記低頻時間包絡分析手段,係對已被前記頻率轉換手段轉換成頻率領域之前記低頻成分進行頻率方向的線性預測分析以取得前記低頻線性預測係數,並且藉由取得該當頻率領域之前記低頻成分的每一時槽的功率以取得聲音訊號的時間包絡資訊;前記時間包絡調整手段,係使用前記時間包絡輔助資訊來調整前記低頻線性預測係數,並且使用前記時間包絡輔助資訊來調整前記時間包絡資訊;前記時間包絡變形手段,係對於已被前記高頻生成手段所生成之頻率領域的高頻成分,使用已被前記時間包絡調整手段所調整過的線性預測係數來進行頻率方向的線性預測濾波器處理,以將聲音訊號的 時間包絡予以變形,並且對該當頻率領域之前記高頻成分,重疊上以前記時間包絡調整手段做過調整後的前記時間包絡資訊,以將前記高頻成分的時間包絡予以變形,較為理想。
在本發明的聲音解碼裝置中,前記低頻時間包絡分析手段,係對已被前記頻率轉換手段轉換成頻率領域之前記低頻成分進行頻率方向的線性預測分析以取得前記低頻線性預測係數,並且藉由取得該當頻率領域之前記低頻成分的每一QMF子頻帶樣本的功率以取得聲音訊號的時間包絡資訊;前記時間包絡調整手段,係使用前記時間包絡輔助資訊來調整前記低頻線性預測係數,並且使用前記時間包絡輔助資訊來調整前記時間包絡資訊;前記時間包絡變形手段,係對於已被前記高頻生成手段所生成之頻率領域的高頻成分,使用以前記時間包絡調整手段做過調整後的線性預測係數來進行頻率方向的線性預測濾波器處理,以將聲音訊號的時間包絡予以變形,並且對該當頻率領域之前記高頻成分,乘算上以前記時間包絡調整手段做過調整後的前記時間包絡資訊,以將前記高頻成分的時間包絡予以變形,較為理想。
在本發明的聲音解碼裝置中,前記時間包絡輔助資訊,係表示線性預測係數的濾波器強度、和前記時間包絡資訊之時間變化之大小之雙方的參數,較為理想。
本發明的聲音解碼裝置,係屬於將已被編碼之聲音訊號予以解碼的聲音解碼裝置,其特徵為,具備:位元串流 分離手段,係將含有前記已被編碼之聲音訊號的來自外部的位元串流,分離成編碼位元串流與線性預測係數;和線性預測係數內插.外插手段,係將前記線性預測係數,在時間方向上進行內插或外插;和時間包絡變形手段,係使用已被前記線性預測係數內插.外插手段做過內插或外插之線性預測係數,而對頻率領域中所表現之高頻成分,進行頻率方向的線性預測濾波器處理,以將聲音訊號的時間包絡予以變形。
本發明的聲音編碼方法,係屬於使用將聲音訊號予以編碼的聲音編碼裝置的聲音編碼方法,其特徵為,具備:核心編碼步驟,係由前記聲音編碼裝置,將前記聲音訊號的低頻成分,予以編碼;和時間包絡輔助資訊算出步驟,係由前記聲音編碼裝置,使用前記聲音訊號之低頻成分之時間包絡,來算出用來獲得前記聲音訊號之高頻成分之時間包絡之近似所需的時間包絡輔助資訊;和位元串流多工化步驟,係由前記聲音編碼裝置,生成至少由在前記核心編碼步驟中所編碼過之前記低頻成分、和在前記時間包絡輔助資訊算出步驟中所算出的前記時間包絡輔助資訊,所多工化而成的位元串流。
本發明的聲音編碼方法,係屬於使用將聲音訊號予以編碼的聲音編碼裝置的聲音編碼方法,其特徵為,具備:核心編碼步驟,係由前記聲音編碼裝置,將前記聲音訊號的低頻成分,予以編碼;和頻率轉換步驟,係由前記聲音編碼裝置,將前記聲音訊號,轉換成頻率領域;和線性預 測分析步驟,係由前記聲音編碼裝置,對已在前記頻率轉換步驟中轉換成頻率領域之前記聲音訊號的高頻側係數,在頻率方向上進行線性預測分析而取得高頻線性預測係數;和預測係數抽略步驟,係由前記聲音編碼裝置,將在前記線性預測分析手段步驟中所取得之前記高頻線性預測係數,在時間方向上作抽略;和預測係數量化步驟,係由前記聲音編碼裝置,將前記預測係數抽略手段步驟中的抽略後的前記高頻線性預測係數,予以量化;和位元串流多工化步驟,係由前記聲音編碼裝置,生成至少由前記核心編碼步驟中的編碼後的前記低頻成分和前記預測係數量化步驟中的量化後的前記高頻線性預測係數,所多工化而成的位元串流。
本發明的聲音解碼方法,係屬於使用將已被編碼之聲音訊號予以解碼的聲音解碼裝置的聲音解碼方法,其特徵為,具備:位元串流分離步驟,係由前記聲音解碼裝置,將含有前記已被編碼之聲音訊號的來自外部的位元串流,分離成編碼位元串流與時間包絡輔助資訊;和核心解碼步驟,係由前記聲音解碼裝置,將已在前記位元串流分離步驟中作分離的前記編碼位元串流予以解碼而獲得低頻成分;和頻率轉換步驟,係由前記聲音解碼裝置,將前記核心解碼步驟中所得到之前記低頻成分,轉換成頻率領域;和高頻生成步驟,係由前記聲音解碼裝置,將已在前記頻率轉換步驟中轉換成頻率領域的前記低頻成分,從低頻頻帶往高頻頻帶進行複寫,以生成高頻成分;和低頻時間包絡 分析步驟,係由前記聲音解碼裝置,將已在前記頻率轉換步驟中轉換成頻率領域的前記低頻成分加以分析,而取得時間包絡資訊;和時間包絡調整步驟,係由前記聲音解碼裝置,將已在前記低頻時間包絡分析步驟中所取得的前記時間包絡資訊,使用前記時間包絡輔助資訊來進行調整;和時間包絡變形步驟,係由前記聲音解碼裝置,使用前記時間包絡調整步驟中的調整後的前記時間包絡資訊,而將已在前記高頻生成步驟中所生成之前記高頻成分的時間包絡,加以變形。
本發明的聲音解碼方法,係屬於使用將已被編碼之聲音訊號予以解碼的聲音解碼裝置的聲音解碼方法,其特徵為,具備:位元串流分離步驟,係由前記聲音解碼裝置,將含有前記已被編碼之聲音訊號的來自外部的位元串流,分離成編碼位元串流與線性預測係數;和線性預測係數內插.外插步驟,係由前記聲音解碼裝置,將前記線性預測係數,在時間方向上進行內插或外插;和時間包絡變形步驟,係由前記聲音解碼裝置,使用已在前記線性預測係數內插.外插步驟中做過內插或外插之前記線性預測係數,而對頻率領域中所表現之高頻成分,進行頻率方向的線性預測濾波器處理,以將聲音訊號的時間包絡予以變形。
本發明的聲音編碼程式,其特徵為,為了將聲音訊號予以編碼,而使電腦裝置發揮機能成為:核心編碼手段,係將前記聲音訊號的低頻成分,予以編碼;時間包絡輔助資訊算出手段,係使用前記聲音訊號之低頻成分之時間包 絡,來算出用來獲得前記聲音訊號之高頻成分之時間包絡之近似所需的時間包絡輔助資訊;及位元串流多工化手段,係生成至少由已被前記核心編碼手段所編碼過之前記低頻成分、和已被前記時間包絡輔助資訊算出手段所算出的前記時間包絡輔助資訊所多工化而成的位元串流。
本發明的聲音編碼程式,其特徵為,為了將聲音訊號予以編碼,而使電腦裝置發揮機能成為:核心編碼手段,係將前記聲音訊號的低頻成分,予以編碼;頻率轉換手段,係將前記聲音訊號,轉換成頻率領域;線性預測分析手段,係對已被前記頻率轉換手段轉換成頻率領域之前記聲音訊號的高頻側係數,在頻率方向上進行線性預測分析而取得高頻線性預測係數;預測係數抽略手段,係將已被前記線性預測分析手段所取得之前記高頻線性預測係數,在時間方向上作抽略;預測係數量化手段,係將已被前記預測係數抽略手段作抽略後的前記高頻線性預測係數,予以量化;及位元串流多工化手段,係生成至少由前記核心編碼手段所編碼後的前記低頻成分和前記預測係數量化手段所量化後的前記高頻線性預測係數,所多工化而成的位元串流。
本發明的聲音解碼程式,其特徵為,為了將已被編碼之聲音訊號予以解碼,而使電腦裝置發揮機能成為:位元串流分離手段,係將含有前記已被編碼之聲音訊號的來自外部的位元串流,分離成編碼位元串流與時間包絡輔助資訊;核心解碼手段,係將已被前記位元串流分離手段所分 離的前記編碼位元串流予以解碼而獲得低頻成分;頻率轉換手段,係將前記核心解碼手段所得到之前記低頻成分,轉換成頻率領域;高頻生成手段,係將已被前記頻率轉換手段轉換成頻率領域的前記低頻成分,從低頻頻帶往高頻頻帶進行複寫,以生成高頻成分;低頻時間包絡分析手段,係將已被前記頻率轉換手段轉換成頻率領域的前記低頻成分加以分析,而取得時間包絡資訊;時間包絡調整手段,係將已被前記低頻時間包絡分析手段所取得的前記時間包絡資訊,使用前記時間包絡輔助資訊來進行調整;及時間包絡變形手段,係使用前記時間包絡調整手段所調整後的前記時間包絡資訊,而將已被前記高頻生成手段所生成之前記高頻成分的時間包絡,加以變形。
本發明的聲音解碼程式,其特徵為,為了將已被編碼之聲音訊號予以解碼,而使電腦裝置發揮機能成為:位元串流分離手段,係將含有前記已被編碼之聲音訊號的來自外部的位元串流,分離成編碼位元串流與線性預測係數;線性預測係數內插.外插手段,係將前記線性預測係數,在時間方向上進行內插或外插;及時間包絡變形手段,係使用已被前記線性預測係數內插.外插手段做過內插或外插之線性預測係數,而對頻率領域中所表現之高頻成分,進行頻率方向的線性預測濾波器處理,以將聲音訊號的時間包絡予以變形。
在本發明的聲音解碼裝置中,前記時間包絡變形手段,係對已被前記高頻生成手段所生成之頻率領域的前記高 頻成分進行了頻率方向的線性預測濾波器處理後,將前記線性預測濾波器處理之結果所得到的高頻成分之功率,調整成相等於前記線性預測濾波器處理前之值,較為理想。
在本發明的聲音解碼裝置中,前記時間包絡變形手段,係對已被前記高頻生成手段所生成之頻率領域的前記高頻成分進行了頻率方向的線性預測濾波器處理後,將前記線性預測濾波器處理之結果所得到的高頻成分之任意頻率範圍內的功率,調整成相等於前記線性預測濾波器處理前之值,較為理想。
在本發明的聲音解碼裝置中,前記時間包絡輔助資訊,係前記調整後之前記時間包絡資訊中的最小值與平均值之比率,較為理想。
在本發明的聲音解碼裝置中,前記時間包絡變形手段,係控制前記調整後的時間包絡之增益,使得前記頻率領域的高頻成分的SBR包絡時間區段內的功率是在時間包絡之變形前後呈相等之後,藉由對前記頻率領域的高頻成分,乘算上前記已被增益控制之時間包絡,以將高頻成分的時間包絡予以變形,較為理想。
在本發明的聲音解碼裝置中,前記低頻時間包絡分析手段,係將已被前記頻率轉換手段轉換成頻率領域之前記低頻成分的每一QMF子頻帶樣本之功率,加以取得,然後使用SBR包絡時間區段內的平均功率而將每一前記QMF子頻帶樣本的功率進行正規化,藉此以取得表現成為應被乘算至各QMF子頻帶樣本之增益係數的時間包絡資訊,較為 理想。
本發明的聲音解碼裝置,係屬於將已被編碼之聲音訊號予以解碼的聲音解碼裝置,其特徵為,具備:核心解碼手段,係將含有前記已被編碼之聲音訊號之來自外部的位元串流予以解碼而獲得低頻成分;和頻率轉換手段,係將前記核心解碼手段所得到之前記低頻成分,轉換成頻率領域;和高頻生成手段,係將已被前記頻率轉換手段轉換成頻率領域的前記低頻成分,從低頻頻帶往高頻頻帶進行複寫,以生成高頻成分;和低頻時間包絡分析手段,係將已被前記頻率轉換手段轉換成頻率領域的前記低頻成分加以分析,而取得時間包絡資訊;和時間包絡輔助資訊生成部,係將前記位元串流加以分析而生成時間包絡輔助資訊;和時間包絡調整手段,係將已被前記低頻時間包絡分析手段所取得的前記時間包絡資訊,使用前記時間包絡輔助資訊來進行調整;和時間包絡變形手段,係使用前記時間包絡調整手段所調整後的前記時間包絡資訊,而將已被前記高頻生成手段所生成之前記高頻成分的時間包絡,加以變形。
在本發明的聲音解碼裝置中,具備相當於前記高頻調整手段的一次高頻調整手段、和二次高頻調整手段;前記一次高頻調整手段,係執行包含相當於前記高頻調整手段之處理之一部分的處理;前記時間包絡變形手段,對前記一次高頻調整手段的輸出訊號,進行時間包絡的變形;前記二次高頻調整手段,係對前記時間包絡變形手段的輸出 訊號,執行相當於前記高頻調整手段之處理當中未被前記一次高頻調整手段所執行之處理,較為理想;前記二次高頻調整手段,係SBR之解碼過程中的正弦波之附加處理,較為理想。
若依據本發明,則在以SBR為代表的頻率領域上的頻帶擴充技術中,可不使位元速率顯著增大,就能減輕前回聲.後回聲的發生並提升解碼訊號的主觀品質。
以下,參照圖面,詳細說明本發明所述之理想實施形態。此外,於圖面的說明中,在可能的情況下,對同一要素係標示同一符號,並省略重複說明。
(第1實施形態)
圖1係第1實施形態所述之聲音編碼裝置11之構成的圖示。聲音編碼裝置11,係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音編碼裝置11的內藏記憶體中所儲存的所定之電腦程式(例如圖2的流程圖所示之處理執行所需的電腦程式)載入至RAM中並執行,藉此以統籌控制聲音編碼裝置11。聲音編碼裝置11的通訊裝置,係將作為編碼對象的聲音訊號,從外部予以接收,還有,將已被編碼之多工化位元串流,輸出至外 部。
聲音編碼裝置11,係在功能上是具備:頻率轉換部1a(頻率轉換手段)、頻率逆轉換部1b、核心編解碼器編碼部1c(核心編碼手段)、SBR編碼部1d、線性預測分析部1e(時間包絡輔助資訊算出手段)、濾波器強度參數算出部1f(時間包絡輔助資訊算出手段)及位元串流多工化部1g(位元串流多工化手段)。圖1所示的聲音編碼裝置11的頻率轉換部1a~位元串流多工化部1g,係聲音編碼裝置11的CPU去執行聲音編碼裝置11的內藏記憶體中所儲存的電腦程式,所實現的功能。聲音編碼裝置11的CPU,係藉由執行該電腦程式(使用圖1所示的頻率轉換部1a~位元串流多工化部1g),而依序執行圖2的流程圖中所示的處理(步驟Sa1~步驟Sa7之處理)。該電腦程式之執行上所被須的各種資料、及該電腦程式之執行所產生的各種資料,係全部都被保存在聲音編碼裝置11的ROM或RAM等之內藏記憶體中。
頻率轉換部1a,係將透過聲音編碼裝置11的通訊裝置所接收到的來自外部的輸入訊號,以多分割QMF濾波器組進行分析,獲得QMF領域之訊號q(k,r)(步驟Sa1之處理)。其中,k(0≦k≦63)係頻率方向的指數,r係表示時槽的指數。頻率逆轉換部1b,係在從頻率轉換部1a所得到的QMF領域之訊號當中,將低頻側的半數之係數,以QMF濾波器組加以合成,獲得只含有輸入訊號之低頻成分的已被縮減取樣的時間領域訊號(步驟Sa2之處理)。核心編解 碼器編碼部1c,係將已被縮減取樣的時間領域訊號,予以編碼,獲得編碼位元串流(步驟Sa3之處理)。核心編解碼器編碼部1c中的編碼係亦可基於以CELP方式為代表的聲音編碼方式,或是基於以AAC為代表的轉換編碼或是TCX(Transform Coded Excitation)方式等之音響編碼。
SBR編碼部1d,係從頻率轉換部1a收取QMF領域之訊號,基於高頻成分的功率.訊號變化.調性等之分析而進行SBR編碼,獲得SBR輔助資訊(步驟Sa4之處理)。頻率轉換部1a中的QMF分析之方法及SBR編碼部1d中的SBR編碼之方法,係在例如文獻“3GPP TS 26.404;Enhanced aacPlus encoder SBR part”.中有詳述。
線性預測分析部1e,係從頻率轉換部1a收取QMF領域之訊號,對該訊號之高頻成分,在頻率方向上進行線性預測分析而取得高頻線性預測係數aH (n,r)(1≦n≦N)(步驟Sa5之處理)。其中,N係為線性預測係數。又,指數r,係為關於QMF領域之訊號的子樣本的時間方向之指數。在訊號線性預測分析時,係可使用共分散法或自我相關法。aH (n,r)取得之際的線性預測分析,係可對q(k,r)當中滿足kx <k≦63的高頻成分來進行。其中kx 係為被核心編解碼器編碼部1c所編碼的頻率頻帶之上限頻率所對應的頻率指數。又,線性預測分析部1e,係亦可對有別於aH (n,r)取得之際所分析的另一低頻成分,進行線性預測分析,取得有別於aH (n,r)的低頻線性預測係數aL (n,r)(此種低頻成分所涉及之線性預測係數,係對應於時間包絡資訊,以下在第 1實施形態中係同樣如此)。aL (n,r)取得之際的線性預測分析,係對滿足0≦k<kx 的低頻成分而進行。又,該線性預測分析係亦可針對0≦k<kx 之區間中所含之一部分的頻率頻帶而進行。
濾波器強度參數算出部1f,係例如,使用已被線性預測分析部1e所取得之線性預測係數,來算出濾波器強度參數(濾波器強度參數係對應於時間包絡輔助資訊,以下在第1實施形態中係同樣如此)(步驟Sa6之處理)。首先,從aH (n,r)算出預測增益GH (r)。預測增益的算出方法,係例如在“聲音編碼,守谷健弘著、電子情報通信學會編”中有詳述。然後,當aL (n,r)被算出時,同樣地會算出預測增益GL (r)。濾波器強度參數K(r),係為GH (r)越大則越大的參數,例如可依照以下的數式(1)而取得。其中,max(a,b)係表示a與b的最大值,min(a,b)係表示a與b的最小值。
[數1]K(r)=max(0,min(1,GH(r)-1))
又,當GL (r)被算出時,K(r)係為GH (r)越大則越大、GL (r)越大則越小的參數而可被取得。此時的K係可例如依照以下的數式(2)而加以取得。
[數2]K(r)=max(0,min(1,GH(r)/GL(r)-1))
K(r)係表示,在SBR解碼時將高頻成分之時間包絡加以調整用之強度的參數。對於頻率方向之線性預測係數的 預測增益,係分析區間的訊號的時間包絡越是急峻變化,則為越大的值。K(r)係為,其值越大,則向解碼器指示要把SBR所生成之高頻成分的時間包絡的變化變得急峻之處理更為加強所用的參數。此外,K(r)係亦可為,其值越小,則向解碼器(例如聲音解碼裝置21等)指示要把SBR所生成之高頻成分的時間包絡的變化變得急峻之處理更為減弱所用的參數,亦可包含有表示不要執行使時間包絡變得急峻之處理的值。又,亦可不傳輸各時槽的K(r),而是對於複數時槽,傳輸一代表的K(r)。為了決定共有同一K(r)值的時槽的區間,使用SBR輔助資訊中所含之SBR包絡的時間交界(SBR envelope time border)資訊,較為理想。
K(r)係被量化後,被發送至位元串流多工化部1g。在量化之前,針對複數時槽r而例如求取K(r)的平均,以對於複數時槽,計算出代表的K(r),較為理想。又,當將代表複數時槽之K(r)予以傳輸時,亦可並非將K(r)的算出如數式(2)般地從分析每個時槽之結果而獨立進行,而是由複數時槽所成之區間全體的分析結果,來取得代表它們的K(r)。此時的K(r)之算出,係可依照例如以下的數式(3)而進行。其中,mean(.)係表示被K(r)所代表的時槽的區間內的平均值。
[數3]K (r )=max(0,min(1,mean(G H (r )/mean(G L (r ))-1)))
此外,在K(r)傳輸之際,亦可與“ISO/IEC 14496-3 subpart 4 General Audio Coding”中所記載之SBR輔助資 訊中所含的逆濾波器模式資訊,作排他性的傳輸。亦即,亦可為,對於SBR輔助資訊的逆濾波器模式資訊的傳輸時槽係不傳輸K(r),對於K(r)的傳輸時槽則不傳輸SBR輔助資訊的逆濾波器模式資訊(“ISO/IEC 14496-3 subpart 4 General Audio Coding”中的bs#invf#mode)。此外,亦可附加用來表示要傳輸K(r)或SBR輔助資訊中所含之逆濾波器模式資訊之中的哪一者用的資訊。又,亦可將K(r)和SBR輔助資訊中所含之逆濾波器模式資訊組合成一個向量資訊來操作,將該向量進行熵編碼。此時,亦可將K(r)、和SBR輔助資訊中所含之逆濾波器模式資訊的值的組合,加以限制。
位元串流多工化部1g,係將已被核心編解碼器編碼部1c所算出之編碼位元串流、已被SBR編碼部1d所算出之SBR輔助資訊、已被濾波器強度參數算出部1f所算出之K(r)予以多工化,將多工化位元串流(已被編碼之多工化位元串流),透過聲音編碼裝置11的通訊裝置而加以輸出(步驟Sa7之處理)。
圖3係第1實施形態所述之聲音解碼裝置21之構成的圖示。聲音解碼裝置21,係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音解碼裝置21的內藏記憶體中所儲存的所定之電腦程式(例如圖4的流程圖所示之處理執行所需的電腦程式)載入至RAM中並執行,藉此以統籌控制聲音解碼裝置21。聲音解碼裝置21的通訊裝置,係將從聲音編碼裝置11、後述之變形例1 的聲音編碼裝置11a、或後述之變形例2的聲音編碼裝置所輸出的已被編碼之多工化位元串流,予以接收,然後還會將已解碼的聲音訊號,輸出至外部。聲音解碼裝置21,係如圖3所示,在功能上是具備:位元串流分離部2a(位元串流分離手段)、核心編解碼器解碼部2b(核心解碼手段)、頻率轉換部2c(頻率轉換手段)、低頻線性預測分析部2d(低頻時間包絡分析手段)、訊號變化偵測部2e、濾波器強度調整部2f(時間包絡調整手段)、高頻生成部2g(高頻生成手段)、高頻線性預測分析部2h、線性預測逆濾波器部2i、高頻調整部2j(高頻調整手段)、線性預測濾波器部2k(時間包絡變形手段)、係數加算部2m及頻率逆轉換部2n。圖3所示的聲音解碼裝置21的位元串流分離部2a~包絡形狀參數算出部1n,係藉由聲音解碼裝置21的CPU去執行聲音解碼裝置21的內藏記憶體中所儲存的電腦程式,所實現的功能。聲音解碼裝置21的CPU,係藉由執行該電腦程式(使用圖3所示的位元串流分離部2a~包絡形狀參數算出部1n),而依序執行圖4的流程圖中所示的處理(步驟Sb1~步驟Sb11之處理)。該電腦程式之執行上所被須的各種資料、及該電腦程式之執行所產生的各種資料,係全部都被保存在聲音解碼裝置21的ROM或RAM等之內藏記憶體中。
位元串流分離部2a,係將透過聲音解碼裝置21的通訊裝置所輸入的多工化位元串流,分離成濾波器強度參數、SBR輔助資訊、編碼位元串流。核心編解碼器解碼部2b, 係將從位元串流分離部2a所給予之編碼位元串流進行解碼,獲得僅含有低頻成分的解碼訊號(步驟Sb1之處理)。此時,解碼的方式係可為基於以CELP方式為代表的聲音編碼方式,或亦可為基於以AAC為代表的轉換編碼或是TCX(Transform Coded Excitation)方式等之音響編碼。
頻率轉換部2c,係將從核心編解碼器解碼部2b所給予之解碼訊號,以多分割QMF濾波器組進行分析,獲得QMF領域之訊號qdec (k,r)(步驟Sb2之處理)。其中,k(0≦k≦63)係頻率方向的指數,r係表示QMF領域之訊號的關於子樣本的時間方向之指數的指數。
低頻線性預測分析部2d,係將從頻率轉換部2c所得到之qdec (k,r),關於每一時槽r而在頻率方向上進行線性預測分析,取得低頻線性預測係數adec (n,r)(步驟Sb3之處理)。線性預測分析,係對從核心編解碼器解碼部2b所得到的解碼訊號之訊號頻帶所對應之0≦k<kx 的範圍而進行之。又,該線性預測分析係亦可針對0≦k<kx 之區間中所含之一部分的頻率頻帶而進行。
訊號變化偵測部2e,係偵測出從頻率轉換部2c所得到之QMF領域之訊號的時間變化,成為偵測結果T(r)而輸出。訊號變化的偵測,係可藉由例如以下所示方法而進行。
1.時槽r中的訊號的短時間功率p(r)可藉由以下的數式(4)而取得。
2.將p(r)平滑化後的包絡penv (r)可藉由以下的數式(5)而取得。其中α 係為滿足0<α <1之定數。
[數5]p env (r )=αp env (r -1)+(1-α ).p (r )
3.使用p(r)和penv (r)而將T(r)藉由以下的數式(6)而取得。其中,β 係為定數。
[數6]T (r )=max(1,p (r )/(βp env (r )))
以上所示的方法係基於功率的變化而偵測訊號變化的單純例,亦可藉由其他更洗鍊的方法來進行訊號變化偵測。又,亦可省略訊號變化偵測部2e。
濾波器強度調整部2f,係對於從低頻線性預測分析部2d所得到之adec (n,r),進行濾波器強度之調整,取得已被調整過的線性預測係數aadj (n,r)(步驟Sb4之處理)。濾波器強度的調整,係可使用透過位元串流分離部2a所接收到的濾波器強度參數K,依照例如以下的數式(7)而進行。
[數7]a adj (n ,r )=a dec (n ,r ).K (r ) n (1≦n≦N)
甚至,當訊號變化偵測部2e的輸出T(r)被獲得時,強度的調整係亦可依照以下的數式(8)而進行 [數8]a adj (n ,r )=a dec (n ,r ).(K (r ).T (r )) n (1≦n≦N)
高頻生成部2g,係將從頻率轉換部2c所獲得之QMF領域之訊號,從低頻頻帶往高頻頻帶做複寫,生成高頻成分的QMF領域之訊號,qexp (k,r)(步驟Sb5之處理)。高頻的生成,係可依照“MPEG4 AAC”的SBR中的HF generation之方法而進行(“ISO/IEC 14496-3 subpart 4 General Audio Coding”)。
高頻線性預測分析部2h,係將已被高頻生成部2g所生成之qexp (k,r),關於每一時槽r而在頻率方向上進行線性預測分析,取得高頻線性預測係數aexp (n,r)(步驟Sb6之處理)。線性預測分析,係對已被高頻生成部2g所生成之高頻成分所對應之kx ≦k≦63的範圍而進行之。
線性預測逆濾波器部2i,係將已被高頻生成部2g所生成之高頻頻帶的QMF領域之訊號視為對象,在頻率方向上以aexp (n,r)為係數而進行線性預測逆濾波器處理(步驟Sb7之處理)。線性預測逆濾波器的傳達函數,係如以下的數式(9)所示。
該線性預測逆濾波器處理,係可從低頻側的係數往高頻側的係數進行,亦可反之。線性預測逆濾波器處理,係於後段中在進行時間包絡變形之前,先一度將高頻成分的 時間包絡予以平坦化所需之處理,線性預測逆濾波器部2i係亦可省略。又,亦可對於來自高頻生成部2g的輸出不進行往高頻成分的線性預測分析與逆濾波器處理,而是改成對於後述來自高頻調整部2j的輸出,進行高頻線性預測分析部2h所致之線性預測分析和線性預測逆濾波器部2i所致之逆濾波器處理。甚至,線性預測逆濾波器處理中所使用的線性預測係數,係亦可不是aexp (n,r)而是adec (n,r)或aadj (n,r)。又,線性預測逆濾波器處理中所被使用的線性預測係數,係亦可為對aexp (n,r)進行濾波器強度調整而取得的線性預測係數aexp,adj (n,r)。強度調整,係和取得aadj (n,r)之際相同,例如,依照以下的數式(10)而進行。
[數10]a exp,adj (n ,r )=a exp (n ,r ).K (r ) n (1≦n≦N)
高頻調整部2j,係對於來自線性預測逆濾波器部2i的輸出,進行高頻成分的頻率特性及調性之調整(步驟Sb8之處理)。該調整係依照從位元串流分離部2a所給予之SBR輔助資訊而進行。高頻調整部2j所致之處理,係依照“MPEG4 AAC”的SBR中的“HF adjustment”步驟而進行的處理,是對於高頻頻帶的QMF領域之訊號,進行時間方向的線性預測逆濾波器處理、增益之調整及雜訊之重疊所作的調整。關於以上步驟的處理之細節,係在“ISO/IEC 14496-3 subpart 4 General Audio Coding”中有詳述。此外,如上記,頻率轉換部2c、高頻生成部2g及高頻調整部 2j,係全部都是以“ISO/IEC 14496-3”中所規定之“MPEG4 AAC”中的SBR解碼器為依據而作動。
線性預測濾波器部2k,係對於從高頻調整部2j所輸出的QMF領域之訊號的高頻成分qadj (n,r),使用從濾波器強度調整部2f所得到之aadj (n,r)而在頻率方向上進行線性預測合成濾波器處理(步驟Sb9之處理)。線性預測合成濾波器處理中的傳達函數,係如以下的數式(11)所示。
藉由該線性預測合成濾波器處理,線性預測濾波器部2k係將基於SBR所生成之高頻成分的時間包絡,予以變形。
係數加算部2m,係將從頻率轉換部2c所輸出之含有低頻成分的QMF領域之訊號,和從線性預測濾波器部2k所輸出之含有高頻成分的QMF領域之訊號,進行加算,輸出含有低頻成分和高頻成分雙方的QMF領域之訊號(步驟Sb10之處理)。
頻率逆轉換部2n,係將從係數加算部2m所得到之QMF領域之訊號,藉由QMF合成濾波器組而加以處理。藉此,含有藉由核心編解碼器之解碼所獲得之低頻成分、和已被SBR所生成之時間包絡是被線性預測濾波器所變形過的高頻成分之雙方的時間領域的解碼後之聲音訊號,會被取得,該取得之聲音訊號,係透過內藏的通訊裝置而輸出至外 部(步驟Sb11之處理)。此外,頻率逆轉換部2n,係亦可當K(r)與“ISO/IEC 14496-3 subpart 4 General Audio Coding”中所記載之SBR輔助資訊之逆濾波器模式資訊是作排他性傳輸時,對於K(r)被傳輸而SBR輔助資訊之逆濾波器模式資訊不會傳輸的時槽,係使用該當時槽之前後的時槽當中的對於至少一個時槽的SBR輔助資訊之逆濾波器模式資訊,來生成該當時槽的SBR輔助資訊之逆濾波器模式資訊,也可將該當時槽的SBR輔助資訊之逆濾波器模式資訊,設定成預先決定之所定模式。另一方面,頻率逆轉換部2n,係亦可對於SBR輔助資訊之逆濾波器資料被傳輸而K(r)不被傳輸的時槽,係使用該當時槽之前後的時槽當中的對於至少一個時槽的K(r),來生成該當時槽的K(r),也可將該當時槽的K(r),設定成預先決定之所定值。此外,頻率逆轉換部2n,係亦可基於表示K(r)或SBR輔助資訊之逆濾波器模式資訊之哪一者已被傳輸之資訊,來判斷所被傳輸之資訊是K(r)還是SBR輔助資訊之逆濾波器模式資訊。
(第1實施形態的變形例1)
圖5係第1實施形態所述之聲音編碼裝置的變形例(聲音編碼裝置11a)之構成的圖示。聲音編碼裝置11a,係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音編碼裝置11a的內藏記憶體中所儲存的所定之電腦程式載入至RAM中並執行,藉此以統籌 控制聲音編碼裝置11a。聲音編碼裝置11a的通訊裝置,係將作為編碼對象的聲音訊號,從外部予以接收,還有,將已被編碼之多工化位元串流,輸出至外部。
聲音編碼裝置11a,係如圖5所示,在功能上係取代了聲音編碼裝置11的線性預測分析部1e、濾波器強度參數算出部1f及位元串流多工化部1g,改為具備:高頻頻率逆轉換部1h、短時間功率算出部1i(時間包絡輔助資訊算出手段)、濾波器強度參數算出部1f1(時間包絡輔助資訊算出手段)及位元串流多工化部1g1(位元串流多工化手段)。位元串流多工化部1g1係具有與1G相同的功能。圖5所示的聲音編碼裝置11a的頻率轉換部1a~SBR編碼部1d、高頻頻率逆轉換部1h、短時間功率算出部1i、濾波器強度參數算出部1f1及位元串流多工化部1g1,係藉由聲音編碼裝置11a的CPU去執行聲音編碼裝置11a的內藏記憶體中所儲存的電腦程式,所實現的功能。該電腦程式之執行上所被須的各種資料、及該電腦程式之執行所產生的各種資料,係全部都被保存在聲音編碼裝置11a的ROM或RAM等之內藏記憶體中。
高頻頻率逆轉換部1h,係從頻率轉換部1a所得到的QMF領域之訊號之中,將被核心編解碼器編碼部1c所編碼之低頻成分所對應的係數置換成“0”後使用QMF合成濾波器組進行處理,獲得僅含高頻成分的時間領域訊號。短時間功率算出部1i,係將從高頻頻率逆轉換部1h所得到之時間領域的高頻成分,切割成短區間,然後算出其功率, 並算出p(r)。此外,作為替代性的方法,亦可使用QMF領域之訊號而依照以下的數式(12)來算出短時間功率。
濾波器強度參數算出部1f1,係偵測出p(r)的變化部分,將K(r)的值決定成,變化越大則K(r)越大。K(r)的值係亦可例如和聲音解碼裝置21之訊號變化偵測部2e中的T(r)之算出為相同的方法而進行。又,亦可藉由其他更洗鍊的方法來進行訊號變化偵測。又,濾波器強度參數算出部1f1,係亦可在針對低頻成分和高頻成分之各者而取得了短時間功率後,以和聲音解碼裝置21之訊號變化偵測部2e中的T(r)之算出相同的方法來取得低頻成分及高頻成分之各自的訊號變化Tr(r)、Th(r),使用它們來決定K(r)的值。此時,K(r)係可例如依照以下的數式(13)而加以取得。其中,ε 係為例如3.0等之定數。
[數13]K(r)=max(0,ε .(Th(r)-Tr(r)))
(第1實施形態的變形例2)
第1實施形態的變形例2的聲音編碼裝置(未圖示),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等變形例2之聲音編碼裝置的內藏記憶體中所儲存的所定之電腦程式載入至RAM中並執行,藉此 以統籌控制變形例2的聲音編碼裝置。變形例2的聲音編碼裝置的通訊裝置,係將作為編碼對象的聲音訊號,從外部予以接收,還有,將已被編碼之多工化位元串流,輸出至外部。
變形例2的聲音編碼裝置,係在功能上是取代了聲音編碼裝置11的濾波器強度參數算出部1f及位元串流多工化部1g,改為具備未圖示的線性預測係數差分編碼部(時間包絡輔助資訊算出手段)、接收來自該線性預測係數差分編碼部之輸出的位元串流多工化部(位元串流多工化手段)。變形例2的聲音編碼裝置的頻率轉換部1a~線性預測分析部1e、線性預測係數差分編碼部、及位元串流多工化部,係藉由變形例2的聲音編碼裝置之CPU去執行變形例2之聲音編碼裝置的內藏記憶體中所儲存的電腦程式,所實現的功能。該電腦程式之執行上所被須的各種資料、及該電腦程式之執行所產生的各種資料,係全部都被保存在變形例2的聲音編碼裝置的ROM或RAM等之內藏記憶體中。
線性預測係數差分編碼部,係使用輸入訊號的aH (n,r)和輸入訊號的aL (n,r),依照以下的數式(14)而算出線性預測係數的差分值aD (n,r)。
[數14]aD (n,r)=aH (n,r)-aL (n,r) (1≦n≦N)
線性預測係數差分編碼部,係還將aD (n,r)予以量化,發送至位元串流多工化部(對應於位元串流多工化部1g之構成)。該位元串流多工化部,係取代K(r)改成將aD (n,r) 多工化至位元串流,將該多工化位元串流,透過內藏的通訊裝置而輸出至外部。
第1實施形態的變形例2的聲音解碼裝置(未圖示),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等變形例2之聲音解碼裝置的內藏記憶體中所儲存的所定之電腦程式載入至RAM中並執行,藉此以統籌控制變形例2的聲音解碼裝置。變形例2的聲音解碼裝置的通訊裝置,係將從聲音編碼裝置11、變形例1所述之聲音編碼裝置11a、或變形例2所述之聲音編碼裝置所輸出的已被編碼之多工化位元串流,加以接收,然後將已解碼之聲音訊號,輸出至外部。
變形例2的聲音解碼裝置,係在功能上是取代了聲音解碼裝置21的濾波器強度調整部2f,改為具備未圖示的線性預測係數差分解碼部。變形例2的聲音解碼裝置的位元串流分離部2a~訊號變化偵測部2e、線性預測係數差分解碼部、及高頻生成部2g~頻率逆轉換部2n,係藉由變形例2的聲音解碼裝置之CPU去執行變形例2之聲音解碼裝置的內藏記憶體中所儲存的電腦程式,所實現的功能。該電腦程式之執行上所被須的各種資料、及該電腦程式之執行所產生的各種資料,係全部都被保存在變形例2的聲音解碼裝置的ROM或RAM等之內藏記憶體中。
線性預測係數差分解碼部,係利用從低頻線性預測分析部2d所得到之aL (n,r)和從位元串流分離部2a所給予之aD (n,r),依照以下的數式(15)而獲得已被差分解碼的 aadj (n,r)。
[數15]aadj (n,r)=adec (n,r)+aD (n,r),1≦n≦N
線性預測係數差分解碼部,係將如此已被差分解碼之aadj (n,r),發送至線性預測濾波器部2k。aD (n,r),係可為如數式(14)所示是預測係數之領域中的差分值,但亦可是將預測係數,轉換成LSP(Linear Spectrum Pair)、ISP(Immittance Spectrum Pair)、LSF(Linear Spectrum Frequency)、ISF(Immittance Spectrum Frequency)、PARCOR係數等之其他表現形式後,求取差分而得的值。此時,差分解碼也是和該表現形式相同。
(第2實施形態)
圖6係第2實施形態所述之聲音編碼裝置12之構成的圖示。聲音編碼裝置12,係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音編碼裝置12的內藏記憶體中所儲存的所定之電腦程式(例如圖7的流程圖所示之處理執行所需的電腦程式)載入至RAM中並執行,藉此以統籌控制聲音編碼裝置12。聲音編碼裝置12的通訊裝置,係將作為編碼對象的聲音訊號,從外部予以接收,還有,將已被編碼之多工化位元串流,輸出至外部。
聲音編碼裝置12,係在功能上是取代了聲音編碼裝置11的濾波器強度參數算出部1f及位元串流多工化部1g,改 為具備:線性預測係數抽略部1j(預測係數抽略手段)、線性預測係數量化部1k(預測係數量化手段)及位元串流多工化部1g2(位元串流多工化手段)。圖6所示的聲音編碼裝置12的頻率轉換部1a~線性預測分析部1e(線性預測分析手段)、線性預測係數抽略部1j、線性預測係數量化部1k及位元串流多工化部1g2,係聲音編碼裝置12的CPU去執行聲音編碼裝置12的內藏記憶體中所儲存的電腦程式,所實現的功能。聲音編碼裝置12的CPU,係藉由執行該電腦程式(使用圖6所示的聲音編碼裝置12的頻率轉換部1a~線性預測分析部1e、線性預測係數抽略部1j、線性預測係數量化部1k及位元串流多工化部1g2),依序執行圖7的流程圖中所示的處理(步驟Sa1~步驟Sa5、及步驟Sc1~步驟Sc3之處理)。該電腦程式之執行上所被須的各種資料、及該電腦程式之執行所產生的各種資料,係全部都被保存在聲音編碼裝置12的ROM或RAM等之內藏記憶體中。
線性預測係數抽略部1j,係將從線性預測分析部1e所獲得之aH (n,r),在時間方向上作抽略,將對於aH (n,r)當中之一部分時槽ri 的值,和對應的ri 之值,發送至線性預測係數量化部1k(步驟Sc1之處理)。其中,0≦i<Nts ,Nts 係在框架中aH (n,r)之傳輸所被進行的時槽的數目。線性預測係數的抽略,係可每一定時間間隔而為之,或亦可基於aH (n,r)之性質而為不等時間間隔的抽略。例如,亦可考慮,在帶有某長度之框架之中比較aH (n,r)的GH (r),當GH (r) 超過一定值時則將aH (n,r)視為量化的對象等方法。當線性預測係數的抽略間隔是不依循aH (n,r)之性質而設為一定間隔時,則對於非傳輸對象之時槽,就沒有必要算出aH (n,r)。
線性預測係數量化部1k,係將從線性預測係數抽略部1j所給予之抽略後的高頻線性預測係數aH (n,ri ),和對應之時槽的指數ri ,予以量化,發送至位元串流多工化部1g2(步驟Sc2之處理)。此外,作為替代性構成,亦可取代aH (n,ri )的量化,改成和第1實施形態的變形例2所述之聲音編碼裝置同樣地,將線性預測係數的差分值aD (n,ri )視為量化的對象。
位元串流多工化部1g2,係將已被核心編解碼器編碼部1c所算出之編碼位元串流、已被SBR編碼部1d所算出之SBR輔助資訊、從線性預測係數量化部1k所給予之量化後的aH (n,ri )所對應之時槽的指數{ri },多工化至位元串流中,將該多工化位元串流,透過聲音編碼裝置12的通訊裝置而加以輸出(步驟Sc3之處理)。
圖8係第2實施形態所述之聲音解碼裝置22之構成的圖示。聲音解碼裝置22,係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音解碼裝置22的內藏記憶體中所儲存的所定之電腦程式(例如圖9的流程圖所示之處理執行所需的電腦程式)載入至RAM中並執行,藉此以統籌控制聲音解碼裝置22。聲音解碼裝置22的通訊裝置,係將從聲音編碼裝置12所輸出的已被編碼 之多工化位元串流,加以接收,然後將已解碼之聲音訊號,輸出至外部。
聲音解碼裝置22,係在功能上是取代了聲音解碼裝置21的位元串流分離部2a、低頻線性預測分析部2d、訊號變化偵測部2e、濾波器強度調整部2f及線性預測濾波器部2k,改為具備:位元串流分離部2a1(位元串流分離手段)、線性預測係數內插.外插部2p(線性預測係數內插.外插手段)及線性預測濾波器部2k1(時間包絡變形手段)。圖8所示之聲音解碼裝置22的位元串流分離部2a1、核心編解碼器解碼部2b、頻率轉換部2c、高頻生成部2g~高頻調整部2j、線性預測濾波器部2k1、係數加算部2m、頻率逆轉換部2n、及線性預測係數內插.外插部2p,係藉由聲音編碼裝置12的CPU去執行聲音編碼裝置12的內藏記憶體中所儲存的電腦程式,所實現的功能。聲音解碼裝置22的CPU,係藉由執行該電腦程式(使用圖8所示之位元串流分離部2a1、核心編解碼器解碼部2b、頻率轉換部2c、高頻生成部2g~高頻調整部2j、線性預測濾波器部2k1、係數加算部2m、頻率逆轉換部2n、及線性預測係數內插.外插部2p),而依序執行圖9的流程圖所示之處理(步驟Sb1~步驟Sb2、步驟Sd1、步驟Sb5~步驟Sb8、步驟Sd2、及步驟Sb10~步驟Sb11之處理)。該電腦程式之執行上所被須的各種資料、及該電腦程式之執行所產生的各種資料,係全部都被保存在聲音解碼裝置22的ROM或RAM等之內藏記憶體中。
聲音解碼裝置22,係取代了聲音解碼裝置22的位元串流分離部2a、低頻線性預測分析部2d、訊號變化偵測部2e、濾波器強度調整部2f及線性預測濾波器部2k,改為具備:位元串流分離部2a1、線性預測係數內插.外插部2p及線性預測濾波器部2k1。
位元串流分離部2a1,係將已透過聲音解碼裝置22的通訊裝置而輸入的多工化位元串流,分離成已被量化的aH (n,ri )所對應之時槽的指數ri 、SBR輔助資訊、編碼位元串流。
線性預測係數內插.外插部2p,係將已被量化的aH (n,ri )所對應之時槽的指數ri ,從位元串流分離部2a1加以收取,將線性預測係數未被傳輸之時槽所對應的aH (n,r),藉由內插或外插而加以取得(步驟Sd1之處理)。線性預測係數內插.外插部2p,係可將線性預測係數的外插,例如依照例以下的數式(16)而進行。
其中,ri0 係線性預測係數所被傳輸之時槽{ri }當中最靠近r的值。又,δ 係為滿足0<δ <1之定數。
又,線性預測係數內插.外插部2p,係可將線性預測係數的內插,例如依照例以下的數式(17)而進行。其中,滿足ri0 <r<ri0+1
此外,線性預測係數內插.外插部2p,係亦可將線性預測係數,轉換成LSP(Linear Spectrum Pair)、ISP(Immittance Spectrum Pair)、LSF(Linear Spectrum Frequency)、ISF(Immittance Spectrum Frequency)、PARCOR係數等之其他表現形式後,進行內插.外插,將所得到的值,轉換成線性預測係數而使用之。內插或外插後的aH (n,r)係被發送至線性預測濾波器部2k1,作為線性預測合成濾波器處理時的線性預測係數而被利用,但亦可當成線性預測逆濾波器部2i中的線性預測係數而被使用。當位元串流中不是aH (n,r)而是被多工化了aD (n,ri )時,線性預測係數內插.外插部2p,係早於上記內插或外插處理,進行和第1實施形態的變形例2所述之聲音解碼裝置同樣的差分解碼處理。
線性預測濾波器部2k1,係對於從高頻調整部2j所輸出的qadj (n,r),使用從線性預測係數內插.外插部2p所得到之已被內插或外插的aH (n,r),而在頻率方向上進行線性預測合成濾波器處理(步驟Sd2之處理)。線性預測濾波器部2k1的傳達函數係如以下的數式(18)所示。線性預測濾波器部2k1,係和聲音解碼裝置21的線性預測濾波器部2k同樣地,進行線性預測合成濾波器處理,藉此而將SBR所生成的高頻成分之時間包絡,予以變形。
(第3實施形態)
圖10係第3實施形態所述之聲音編碼裝置13之構成的圖示。聲音編碼裝置13,係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音編碼裝置13的內藏記憶體中所儲存的所定之電腦程式(例如圖11的流程圖所示之處理執行所需的電腦程式)載入至RAM中並執行,藉此以統籌控制聲音編碼裝置13。聲音編碼裝置13的通訊裝置,係將作為編碼對象的聲音訊號,從外部予以接收,還有,將已被編碼之多工化位元串流,輸出至外部。
聲音編碼裝置13,係在功能上是取代了聲音編碼裝置11的線性預測分析部1e、濾波器強度參數算出部1f及位元串流多工化部1g,改為具備:時間包絡算出部1m(時間包絡輔助資訊算出手段)、包絡形狀參數算出部1n(時間包絡輔助資訊算出手段)及位元串流多工化部1g3(位元串流多工化手段)。圖10所示的聲音編碼裝置13的頻率轉換部1a~SBR編碼部1d、時間包絡算出部1m、包絡形狀參數算出部1n、及位元串流多工化部1g3,係藉由聲音編碼裝置12的CPU去執行聲音編碼裝置12的內藏記憶體中所儲存的電腦程式,所實現的功能。聲音編碼裝置13的CPU,係 藉由執行該電腦程式(使用圖10所示的聲音編碼裝置13的頻率轉換部1a~SBR編碼部1d、時間包絡算出部1m、包絡形狀參數算出部1n、及位元串流多工化部1g3),來依序執行圖11的流程圖所示之處理(步驟Sa1~步驟Sa4、及步驟Se1~步驟Se3之處理)。該電腦程式之執行上所被須的各種資料、及該電腦程式之執行所產生的各種資料,係全部都被保存在聲音編碼裝置13的ROM或RAM等之內藏記憶體中。
時間包絡算出部1m,係收取q(k,r),例如,藉由取得q(k,r)的每一時槽之功率,以取得訊號之高頻成分的時間包絡資訊e(r)(步驟Se1之處理)。此時,e(r)係可依照以下的數式(19)而被取得。
包絡形狀參數算出部1n,係從時間包絡算出部1m收取e(r),然後從SBR編碼部1d收取SBR包絡的時間交界{bi }。其中,0≦i≦Ne,Ne係為編碼框架內的SBR包絡之數目。包絡形狀參數算出部1n,係針對編碼框架內的SBR包絡之各者,例如依照以下的數式(20)而取得包絡形狀參數s(i)(0≦i<Ne)(步驟Se2之處理)。此外,包絡形狀參數s(i)係對應於時間包絡輔助資訊,這在第3實施形態中也同樣如此。
其中,
上記數式中的s(i)係表示滿足bi≦r<bi+1的第i個SBR包絡內的e(r)之變化大小的參數,時間包絡的變化越大則e(r)會取越大的值。上記數式(20)及(21),係為s(i)的算出方法之一例,亦可使用例如e(r)的SMF(Spectral Flatness Measure)、或最大值與最小值的比值等,來取得s(i)。其後,s(i)係被量化,被傳輸至位元串流多工化部1g3。
位元串流多工化部1g3,係將已被核心編解碼器編碼部1c所算出之編碼位元串流、已被SBR編碼部1d所算出之SBR輔助資訊、s(i),多工化至位元串流,將該已多工化之位元串流,透過聲音編碼裝置13的通訊裝置而加以輸出(步驟Se3之處理)。
圖12係第3實施形態所述之聲音解碼裝置23之構成的圖示。聲音解碼裝置23,係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音解碼裝置23的內藏記憶體中所儲存的所定之電腦程式(例如 圖13的流程圖所示之處理執行所需的電腦程式)載入至RAM中並執行,藉此以統籌控制聲音解碼裝置23。聲音解碼裝置23的通訊裝置,係將從聲音編碼裝置13所輸出的已被編碼之多工化位元串流,加以接收,然後將已解碼之聲音訊號,輸出至外部。
聲音解碼裝置23,係在功能上是取代了聲音解碼裝置21的位元串流分離部2a、低頻線性預測分析部2d、訊號變化偵測部2e、濾波器強度調整部2f、高頻線性預測分析部2h、線性預測逆濾波器部2i及線性預測濾波器部2k,改為具備:位元串流分離部2a2(位元串流分離手段)、低頻時間包絡算出部2r(低頻時間包絡分析手段)、包絡形狀調整部2s(時間包絡調整手段)、高頻時間包絡算出部2t、時間包絡平坦化部2u及時間包絡變形部2v(時間包絡變形手段)。圖12所示之聲音解碼裝置23的位元串流分離部2a2、核心編解碼器解碼部2b~頻率轉換部2c、高頻生成部2g、高頻調整部2j、係數加算部2m、頻率逆轉換部2n、及低頻時間包絡算出部2r~時間包絡變形部2v,係藉由聲音編碼裝置12的CPU去執行聲音編碼裝置12的內藏記憶體中所儲存的電腦程式,所實現的功能。聲音解碼裝置23的CPU,係藉由執行該電腦程式(使用圖12所示之聲音解碼裝置23的位元串流分離部2a2、核心編解碼器解碼部2b~頻率轉換部2c、高頻生成部2g、高頻調整部2j、係數加算部2m、頻率逆轉換部2n、及低頻時間包絡算出部2r~時間包絡變形部2v),來依序執行圖13的流程圖所示之處理( 步驟Sb1~步驟Sb2、步驟Sf1~步驟Sf2、步驟Sb5、步驟Sf3~步驟Sf4、步驟Sb8、步驟Sf5、及步驟Sb10~步驟Sb11之處理)。該電腦程式之執行上所被須的各種資料、及該電腦程式之執行所產生的各種資料,係全部都被保存在聲音解碼裝置23的ROM或RAM等之內藏記憶體中。
位元串流分離部2a2,係將透過聲音解碼裝置23的通訊裝置所輸入的多工化位元串流,分離成s(i)、SBR輔助資訊、編碼位元串流。低頻時間包絡算出部2r,係從頻率轉換部2c收取含低頻成分的qdec (k,r),將e(r)依照以下的數式(22)而加以取得(步驟Sf1之處理)。
包絡形狀調整部2s,係使用s(i)來調整e(r),並取得調整後的時間包絡資訊eadj (r)(步驟Sf2之處理)。對該e(r)的調整,係可依照例如以下的數式(23)~(25)而進行。
其中,
上記的數式(23)~(25)係為調整方法之一例,亦可使用eadj (r)的形狀是接近於s(i)所示之形狀之類的其他調整方法。
高頻時間包絡算出部2t,係使用從高頻生成部2g所得到的qexp (k,r)而將時間包絡eexp (r)依照以下的數式(26)而予以算出(步驟Sf3之處理)。
時間包絡平坦化部2u,係將從高頻生成部2g所得到的qexp (k,r)的時間包絡,依照以下的數式(27)而予以平坦化,將所得到的QMF領域之訊號qflat (k,r),發送至高頻調整部2j(步驟Sf4之處理)。
時間包絡平坦化部2u中的時間包絡之平坦化係亦可省 略。又,亦可不對於來自高頻生成部2g的輸出,進行高頻成分的時間包絡算出與時間包絡的平坦化處理,而是改成對於來自高頻調整部2j的輸出,進行高頻成分的時間包絡算出與時間包絡的平坦化處理。甚至,在時間包絡平坦化部2u中所使用的時間包絡,係亦可並非從高頻時間包絡算出部2t所得到的eexp (r),而是從包絡形狀調整部2s所得到的eadj (r)。
時間包絡變形部2v,係將從高頻調整部2j所獲得之qadj (k,r),使用從時間包絡變形部2v所獲得之eadj (r)而予以變形,取得時間包絡是已被變形過的QMF領域之訊號qenvadj (k,r)(步驟Sf5之處理)。該變形,係依照以下的數式(28)而被進行。qenvadj (k,r)係被當成對應於高頻成分的QMF領域之訊號,而被發送至係數加算部2m。
[數28]q envadj (k ,r )=q adj (k ,r ).e adj (r ) (kx ≦k≦63)
(第4實施形態)
圖14係第4實施形態所述之聲音解碼裝置24之構成的圖示。聲音解碼裝置24,係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音解碼裝置24的內藏記憶體中所儲存的所定之電腦程式載入至RAM中並執行,藉此以統籌控制聲音解碼裝置24。聲音解碼裝置24的通訊裝置,係將從聲音編碼裝置11或聲音編碼裝置13所輸出的已被編碼之多工化位元串流,加以接收, 然後將已解碼之聲音訊號,輸出至外部。
聲音解碼裝置23,係在功能上是具備:聲音解碼裝置21的構成(核心編解碼器解碼部2b、頻率轉換部2c、低頻線性預測分析部2d、訊號變化偵測部2e、濾波器強度調整部2f、高頻生成部2g、高頻線性預測分析部2h、線性預測逆濾波器部2i、高頻調整部2j、線性預測濾波器部2k、係數加算部2m及頻率逆轉換部2n),和聲音解碼裝置24的構成(低頻時間包絡算出部2r、包絡形狀調整部2s及時間包絡變形部2v)。甚至,聲音解碼裝置24,係還具備:位元串流分離部2a3(位元串流分離手段)及輔助資訊轉換部2w。線性預測濾波器部2k和時間包絡變形部2v的順序係亦可和圖14所示呈相反。此外,聲音解碼裝置24,係將已被聲音編碼裝置11或聲音編碼裝置13所編碼的位元串流,當作輸入,較為理想。圖14所示的聲音解碼裝置24之構成,係藉由聲音解碼裝置24的CPU去執行聲音解碼裝置24的內藏記憶體中所儲存的電腦程式,所實現的功能。該電腦程式之執行上所被須的各種資料、及該電腦程式之執行所產生的各種資料,係全部都被保存在聲音解碼裝置24的ROM或RAM等之內藏記憶體中。
位元串流分離部2a3,係將透過聲音解碼裝置24的通訊裝置所輸入的多工化位元串流,分離成時間包絡輔助資訊、SBR輔助資訊、編碼位元串流。時間包絡輔助資訊,係亦可為第1實施形態中所說明過的K(r),或是可為第3實施形態中所說明過的s(i)。又,亦可為不是K(r)、s(i)之任 一者的其他參數X(r)。
輔助資訊轉換部2w,係將所被輸入的時間包絡輔助資訊予以轉換,獲得K(r)和s(i)。當時間包絡輔助資訊是K(r)時,輔助資訊轉換部2w係將K(r)轉換成s(i)。輔助資訊轉換部2w,係亦可將該轉換,例如將bi ≦r<bi+1 之區間內的K(r)之平均值
加此取得後,使用所定的轉換表,將該數式(29)所示的平均值,轉換成s(i),藉此而進行之。又,當時間包絡輔助資訊為s(i)時,輔助資訊轉換部2w,係將s(i)轉換成K(r)。輔助資訊轉換部2w,係亦可將該轉換,藉由例如使用所定的轉換表來將s(i)轉換成K(r),而加以執行。其中,i和r必須以滿足bi ≦r<bi+1 之關係而建立關連對應。
當時間包絡輔助資訊是既非s(i)也非K(r)的參數X(r)時,輔助資訊轉換部2w係將X(r),轉換成K(r)與s(i)。輔助資訊轉換部2w,係將該轉換,藉由例如使用所定的轉換表來將X(r)轉換成K(r)及s(i)而加以進行,較為理想。又,輔助資訊轉換部2w,係將X(r),就每一SBR包絡,傳輸1個代表值,較為理想。將X(r)轉換成K(r)及s(i)的對應表亦可彼此互異。
(第1實施形態的變形例3)
第1實施形態的聲音解碼裝置21中,聲音解碼裝置21 的線性預測濾波器部2k,係可含有自動增益控制處理。該自動增益控制處理,係用來使線性預測濾波器部2k所輸出之QMF領域之訊號的功率,契合於所被輸入之QMF領域之訊號功率的處理。增益控制後的QMF領域訊號qsyn,pow (n,r),一般而言,係由下式而實現。
此處,P0 (r)、P1 (r)係分別可由以下的數式(31)及數式(32)來表示。
藉由該自動增益控制處理,線性預測濾波器部2k的輸出訊號的高頻成分之功率,係被調整成相等於線性預測濾波器處理前的值。其結果為,基於SBR所生成之高頻成分的時間包絡加以變形後的線性預測濾波器部2k之輸出訊號中,在高頻調整部2j中所被進行之高頻訊號的功率調整之效果,係被保持。此外,該自動增益控制處理,係亦可對QMF領域之訊號的任意頻率範圍,個別進行。對各個頻率範圍之處理,係分別將數式(30)、數式(31)、數式( 32)的n,限定在某個頻率範圍內,就可實現。例如第i個頻率範圍係可表示作Fi ≦n<Fi+1 (此時的i係為表示QMF領域之訊號的任意頻率範圍之號碼的指數)。Fi 係表示頻率範圍之交界,係為“MPEG4 AAC”的SBR中所規定之包絡比例因子的頻率交界表,較為理想。頻率交界表係依照“MPEG4 AAC”的SBR之規定,於高頻生成部2g中被決定。藉由該自動增益控制處理,線性預測濾波器部2k的輸出訊號的高頻成分的任意頻率範圍內之功率,係被調整成相等於線性預測濾波器處理前的值。其結果為,基於SBR所生成之高頻成分的時間包絡加以變形後的線性預測濾波器部2k之輸出訊號中,在高頻調整部2j中所被進行之高頻訊號的功率調整之效果,係以頻率範圍之單位而被保持。又,與第1實施形態的本變形例3相同之變更,係亦可施加於第4實施形態中的線性預測濾波器部2k上。
(第3實施形態的變形例1)
第3實施形態的聲音編碼裝置13中的包絡形狀參數算出部1n,係亦可藉由如以下之處理而實現。包絡形狀參數算出部1n,係針對編碼框架內的SBR包絡之各者,例如依照以下的數式(33)而取得包絡形狀參數s(i)(0≦i<Ne)。
其中, 係為e(r)的在SBR包絡內的平均值,其算出方法係依照數式(21)。其中,所謂SBR包絡,係表示滿足bi ≦r<bi+1 的時間範圍。又,{bi},係在SBR輔助資訊中被當作資訊而含有的SBR包絡之時間交界,是把表示任意時間範圍、任意頻率範圍的平均訊號能量的SBR包絡比例因子當作對象的時間範圍之交界。又,min(.)係表示bi ≦r<bi+1 之範圍中的最小值。因此,在此情況下,包絡形狀參數s(i)係為用來指示調整後的時間包絡資訊的SBR包絡內的最小值與平均值之比率的參數。又,第3實施形態的聲音解碼裝置23中的包絡形狀調整部2s,係亦可藉由如以下之處理而實現。包絡形狀調整部2s,係使用s(i)來調整e(r),並取得調整後的時間包絡資訊eadj (r)。調整的方法係依照以下的數式(35)或數式(36)。
數式35,係用來調整包絡形狀,以使得調整後之時間包絡資訊eadj (r)的SBR包絡內之最小值與平均值之比率,是等於包絡形狀參數s(i)之值。又,與上記之第3實施形態的本變形例1相同之變更,係亦可施加於第4實施形態。
(第3實施形態的變形例2)
時間包絡變形部2v,係亦可取代數式(28),改成利用以下的數式。如數式(37)所示,eadj,scaled (r)係用來控制調整後的時間包絡資訊eadj (r)的增益,使得qadj (k,r)與qenvadj (k,r)的SBR包絡內的功率是呈相等。又,如數式(38)所示,第3實施形態的本變形例2中,並非將eadj (r),而是將eadj,scaled (r),乘算至QMF領域之訊號qadj (k,r),以獲得qenvadj (k,r)。因此,時間包絡變形部2v係可進行QMF領域之訊號qadj (k,r)的時間包絡之變形,以使得SBR包絡內的訊號功率,在時間包絡的變形前後是呈相等。其中,所謂SBR包絡,係表示滿足bi ≦r<bi+1 的時間範圍。又,{bi},係在SBR輔助資訊中被當作資訊而含有的SBR包絡之時間交界,是把表示任意時間範圍、任意頻率範圍的平均訊號能量的SBR包絡比例因子當作對象的時間範圍之交界。又,本發明之實施例中的用語“SBR包絡”,係相當於“ISO/IEC 14496-3”中所規定之“MPEG4 AAC”中的用語“SBR包絡時間區段”,在放眼所有實施例中,“SBR包絡”都意味著與“SBR包絡時間區段”相同之內容。
[數38]q envadj (k ,r )=q adj (k ,r ).e adj ,scaled (r )(k x k 63,b i r <b i +1 )
又,與上記之第3實施形態的本變形例2相同之變更,係亦可施加於第4實施形態。
(第3實施形態的變形例3)
數式(19)係亦可為下記的數式(39)。
數式(22)係亦可為下記的數式(40)。
數式(26)係亦可為下記的數式(41)。
若依照數式(39)及數式(40),則時間包絡資訊e(r),係將每一QMF子頻帶樣本的功率,以SBR包絡內的平均功率而進行正規化,然後求取平方根。其中,QMF子頻帶樣本,係於QMF領域訊號中,是對應於同一時間指數“r”的訊號向量,係意味著QMF領域中的一個子樣本。又,於本發明之實施形態全體中,用語“時槽”係意味著與“QMF子頻帶樣本”同一之內容。此時,時間包絡資訊e(r),意味著應對各QMF子頻帶樣本作乘算的增益係數,這在調整後的時間包絡資訊eadj (r)也是同樣如此。
(第4實施形態的變形例1)
第4實施形態的變形例1的聲音解碼裝置24a(未圖示),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音解碼裝置24a的內藏記憶 體中所儲存的所定之電腦程式載入至RAM中並執行,藉此以統籌控制聲音解碼裝置24a。聲音解碼裝置24a的通訊裝置,係將從聲音編碼裝置11或聲音編碼裝置13所輸出的已被編碼之多工化位元串流,加以接收,然後將已解碼之聲音訊號,輸出至外部。聲音解碼裝置24a,係在功能上是取代了聲音解碼裝置24的位元串流分離部2a3,改為具備位元串流分離部2a4(未圖示),然後還取代了輔助資訊轉換部2w,改為具備時間包絡輔助資訊生成部2y(未圖示)。位元串流分離部2a4,係將多工化位元串流,分離成SBR輔助資訊、編碼位元串流。時間包絡輔助資訊生成部2y,係基於編碼位元串流及SBR輔助資訊中所含之資訊,而生成時間包絡輔助資訊。
某個SBR包絡中的時間包絡輔助資訊之生成時,係可使用例如該當SBR包絡之時間寬度(bi+1 -bi )、框架級別(frame class)、逆濾波器之強度參數、雜訊水平(noise floor)、高頻功率之大小、高頻功率與低頻功率之比率、將在QMF領域中所被表現之低頻訊號在頻率方向上進行線性預測分析之結果的自我相關係數或預測增益等。基於這些參數之一、或複數的值來決定K(r)或s(i),就可生成時間包絡輔助資訊。例如SBR包絡之時間寬度(bi+1 -bi )越寬則K(r)或s(i)就越小,或者SBR包絡之時間寬度(bi+1 -bi )越寬則K(r)或s(i)就越大,如此基於(bi+1 -bi )來決定K(r)或s(i),就可生成時間包絡輔助資訊。又,同樣之變更亦可施加於第1實施形態及第3實施形態。
(第4實施形態的變形例2)
第4實施形態的變形例2的聲音解碼裝置24b(參照圖15),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音解碼裝置24b的內藏記憶體中所儲存的所定之電腦程式載入至RAM中並執行,藉此以統籌控制聲音解碼裝置24b。聲音解碼裝置24b的通訊裝置,係將從聲音編碼裝置11或聲音編碼裝置13所輸出的已被編碼之多工化位元串流,加以接收,然後將已解碼之聲音訊號,輸出至外部。聲音解碼裝置24b,係如圖15所示,除了高頻調整部2j以外,還具備有一次高頻調整部2j1和二次高頻調整部2j2。
此處,一次高頻調整部2j1,係依照“MPEG4 AAC”的SBR中的“HF adjustment”步驟中的,對於高頻頻帶的QMF領域之訊號,進行時間方向的線性預測逆濾波器處理、增益之調整及雜訊之重疊處理,而進行調整。此時,一次高頻調整部2j1的輸出訊號,係相當於“ISO/IEC 14496-3:2005”的“SBR tool”內,4.6.18.7.6節“Assembling HF signals”之記載內的訊號W2 。線性預測濾波器部2k(或線性預測濾波器部2k1)及時間包絡變形部2v,係以一次高頻調整部的輸出訊號為對象,而進行時間包絡之變形。二次高頻調整部2j2,係對從時間包絡變形部2v所輸出的QMF領域之訊號,進行“MPEG4 AAC”之SBR中的“HF adjustment”步驟中的正弦波之附加處理。二次高頻調整 部之處理係相當於,“ISO/IEC 14496-3:2005”的“SBR tool”內,4.6.18.7.6節“Assembling HF signals”之記載內,從訊號W2 而生成出訊號Y的處理中,將訊號W2 置換成時間包絡變形部2v之輸出訊號而成的處理。
此外,在上記說明中,雖然只有將正弦波附加處理設計成二次高頻調整部2j2的處理,但亦可將“HF adjustment”步驟中存在的任一處理,設計成二次高頻調整部2j2的處理。又,同樣之變形,係亦可施加於第1實施形態、第2實施形態、第3實施形態。此時,由於第1實施形態及第2實施形態係具備線性預測濾波器部(線性預測濾波器部2k,2k1),不具備時間包絡變形部,因此對於一次高頻調整部2j1之輸出訊號進行了線性預測濾波器部中的處理後,以線性預測濾波器部之輸出訊號為對象,進行二次高頻調整部2j2中的處理。
又,由於第3實施形態係具備時間包絡變形部2v,不具備線性預測濾波器部,因此對於一次高頻調整部2j1之輸出訊號進行了時間包絡變形部2v中的處理後,以時間包絡變形部2v之輸出訊號為對象,進行二次高頻調整部中的處理。
又,第4實施形態的聲音解碼裝置(聲音解碼裝置24,24a,24b)中,線性預測濾波器部2k和時間包絡變形部2v的處理順序亦可顛倒。亦即,對於高頻調整部2j或是一次高頻調整部2j1的輸出訊號,亦可先進行時間包絡變形部2v的處理,然後才對時間包絡變形部2v的輸出訊號進行線 性預測濾波器部2k的處理。
又,亦可為,時間包絡輔助資訊係含有用來指示是否進行線性預測濾波器部2k或時間包絡變形部2v之處理的2值之控制資訊,只有當該控制資訊指示要進行線性預測濾波器部2k或時間包絡變形部2v之處理時,才更將濾波器強度參數K(r)、包絡形狀參數s(i)、或決定K(r)與s(i)之雙方的參數X(r)之任意一者以上,以資訊的方式加以含有的形式。
(第4實施形態的變形例3)
第4實施形態的變形例3的聲音編解裝置24c(參照圖16),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音解碼裝置24c的內藏記憶體中所儲存的所定之電腦程式(例如用來進行圖17的流程圖所述之處理所需的電腦程式)載入至RAM中並執行,藉此以統籌控制聲音解碼裝置24c。聲音解碼裝置24c的通訊裝置,係將已被編碼之多工化位元串流,加以接收,然後將已解碼之聲音訊號,輸出至外部。聲音解碼裝置24c,係如圖16所示,取代了高頻調整部2j,改為具備一次高頻調整部2j3和二次高頻調整部2j4,然後還取代了線性預測濾波器部2k和時間包絡變形部2v改為具備個別訊號成分調整部2z1,2z2,2z3(個別訊號成分調整部,係相當於時間包絡變形手段)。
一次高頻調整部2j3,係將高頻頻帶的QMF領域之訊 號,輸出成為複寫訊號成分。一次高頻調整部2j3,係亦可將對於高頻頻帶的QMF領域之訊號,利用從位元串流分離部2a3所給予之SBR輔助資訊而進行過時間方向之線性預測逆濾波器處理及增益調整(頻率特性調整)之至少一方的訊號,輸出成為複寫訊號成分。甚至,一次高頻調整部2j3,係利用從位元串流分離部2a3所給予之SBR輔助資訊而生成雜訊訊號成分及正弦波訊號成分,將複寫訊號成分、雜訊訊號成分及正弦波訊號成分以分離之形態而分別輸出(步驟Sg1之處理)。雜訊訊號成分及正弦波訊號成分,係亦可依存於SBR輔助資訊的內容,而不被生成。
個別訊號成分調整部2z1,2z2,2z3,係對前記一次高頻調整手段的輸出中所含有之複數訊號成分之每一者,進行處理(步驟Sg2之處理)。個別訊號成分調整部2z1,2z2,2z3中的處理,係亦可和線性預測濾波器部2k相同,使用從濾波器強度調整部2f所得到之線性預測係數,進行頻率方向的線性預測合成濾波器處理(處理1)。又,個別訊號成分調整部2z1,2z2,2z3中的處理,係亦可和時間包絡變形部2v相同,使用從包絡形狀調整部2s所得到之時間包絡來對各QMF子頻帶樣本乘算增益係數之處理(處理2)。又,個別訊號成分調整部2z1,2z2,2z3中的處理,係亦可對於輸入訊號進行和線性預測濾波器部2k相同的,使用從濾波器強度調整部2f所得到之線性預測係數,進行頻率方向的線性預測合成濾波器處理之後,再對其輸出訊號進行和時間包絡變形部2v相同的,使用從包絡形狀調整部 2s所得到之時間包絡來對各QMF子頻帶樣本乘算增益係數之處理(處理3)。又,個別訊號成分調整部2z1,2z2,2z3中的處理,係亦可對於輸入訊號,進行和時間包絡變形部2v相同的,使用從包絡形狀調整部2s所得到之時間包絡來對各QMF子頻帶樣本乘算增益係數之處理後,再對其輸出訊號,進行和線性預測濾波器部2k相同的,使用從濾波器強度調整部2f所得到之線性預測係數,進行頻率方向的線性預測合成濾波器處理(處理4)。又,個別訊號成分調整部2z1,2z2,2z3係亦可不對輸入訊號進行時間包絡變形處理,而是將輸入訊號直接輸出(處理5),又,個別訊號成分調整部2z1,2z2,2z3中的處理,係亦可以處理1~5以外的方法,來實施將輸入訊號的時間包絡予以變形所需之任何處理(處理6)。又,個別訊號成分調整部2z1,2z2,2z3中的處理,係亦可是將處理1~6當中的複數處理以任意順序加以組合而成的處理(處理7)。
個別訊號成分調整部2z1,2z2,2z3中的處理係可彼此相同,但個別訊號成分調整部2z1,2z2,2z3,係亦可對於一次高頻調整手段之輸出中所含之複數訊號成分之每一者,以彼此互異之方法來進行時間包絡之變形。例如,個別訊號成分調整部2z1係對所輸入的複寫訊號進行處理2,個別訊號成分調整部2z2係對所輸入的雜訊訊號成分進行處理3,個別訊號成分調整部2z3係對所輸入的正弦波訊號進行處理5的方式,對複寫訊號、雜訊訊號、正弦波訊號之各者進行彼此互異之處理。又,此時,濾波器強度調整部 2f和包絡形狀調整部2s,係可對個別訊號成分調整部2z1,2z2,2z3之各者發送彼此相同的線性預測係數或時間包絡,或可發送彼此互異之線性預測係數或時間包絡,又或可對於個別訊號成分調整部2z1,2z2,2z3之任意2者以上發送同一線性預測係數或時間包絡。個別訊號成分調整部2z1,2z2,2z3之1者以上,係可不進行時間包絡變形處理,將輸入訊號直接輸出(處理5),因此個別訊號成分調整部2z1,2z2,2z3係整體來說,對於從一次高頻調整部2j3所輸出之訊號成分之至少一個會進行時間包絡處理(因為當個別訊號成分調整部2z1,2z2,2z3全部都是處理5時,則對任一訊號成分都沒有進行時間包絡變形處理,因此不具本發明之效果)。
個別訊號成分調整部2z1,2z2,2z3之各自的處理,係可以固定成處理1至處理7之某種處理,但亦可基於從外部所給予的控制資訊,而動態地決定要進行處理1至處理7之何者。此時,上記控制資訊係被包含在多工化位元串流中,較為理想。又,上記控制資訊,係可用來指示要在特定之SBR包絡時間區段、編碼框架、或其他時間範圍中進行處理1至處理7之何者,或者亦可不特定所控制之時間範圍,指示要進行處理1至處理7之何者。
二次高頻調整部2j4,係將從個別訊號成分調整部2z1,2z2,2z3所輸出之處理後的訊號成分予以相加,輸出至係數加算部(步驟Sg3之處理)。又,二次高頻調整部2j4,係亦可對複寫訊號成分,利用從位元串流分離部2a3所給 予之SBR輔助資訊,而進行時間方向之線性預測逆濾波器處理及增益調整(頻率特性調整)之至少一方。
個別訊號成分調整部亦可為,2z1,2z2,2z3係彼此協調動作,將進行過處理1~7之任一處理後的2個以上之訊號成分彼此相加,對相加後之訊號再施加處理1~7之任一處理然後生成中途階段之輸出訊號。此時,二次高頻調整部2j4係將前記途中階段之輸出訊號、和尚未對前記途中階段之輸出訊號相加的訊號成分,進行相加,輸出至係數加算部。具體而言,對複寫訊號成分進行處理5,對雜音成分施加處理1後,將這2個訊號成分彼此相加,對相加後的訊號再施以處理2以生成中途階段之輸出訊號,較為理想。此時,二次高頻調整部2j4係對前記途中階段之輸出訊號,加上正弦波訊號成分,輸出至係數加算部。
一次高頻調整部2j3,係不限於複寫訊號成分、雜訊訊號成分、正弦波訊號成分這3種訊號成分,亦可將任意之複數訊號成分以彼此分離的形式而予以輸出。此時的訊號成分,係亦可將複寫訊號成分、雜訊訊號成分、正弦波訊號成分當中的2個以上進行相加後的成分。又,亦可是將複寫訊號成分、雜訊訊號成分、正弦波訊號成分之任一者作頻帶分割而成的訊號。訊號成分的數目可為3以外,此時,個別訊號成分調整部的數可為3以外。
SBR所生成的高頻訊號,係油將低頻頻帶複寫至高頻頻帶而得到之複寫訊號成分、雜訊訊號、正弦波訊號之3個要素所構成。複寫訊號、雜訊訊號、正弦波訊號之每一 者,係由於帶有彼此互異的時間包絡,因此如本變形例的個別訊號成分調整部所進行,對各個訊號成分以彼此互異之方法進行時間包絡之變形,因此相較於本發明的其他實施例,可更加提升解碼訊號的主觀品質。尤其是,雜訊訊號一般而言係帶有平坦的時間包絡,複寫訊號係帶有接近於低頻頻帶之訊號的時間包絡,因此藉由將它們予以分離,施加彼此互異之處理,就可獨立地控制複寫訊號和雜訊的訊號的時間包絡,這對解碼訊號的主觀品質提升是有效的。具體而言,對雜訊訊號係進行使時間包絡變形之處理(處理3或處理4),對複寫訊號係進行異於對雜訊訊號之處理(處理1或處理2),然後,對正弦波訊號係進行處理5(亦即不進行時間包絡變形處理),較為理想。或是,對雜訊訊號係進行時間包絡變形處理(處理3或處理4),對複寫訊號和正弦波訊號係進行處理5(亦即不進行時間包絡變形處理),較為理想。
(第1實施形態的變形例4)
第1實施形態的變形例4的聲音編碼裝置11b(圖44),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音編碼裝置11b的內藏記憶體中所儲存的所定之電腦程式載入至RAM中並執行,藉此以統籌控制聲音編碼裝置11b。聲音編碼裝置11b的通訊裝置,係將作為編碼對象的聲音訊號,從外部予以接收,還有,將已被編碼之多工化位元串流,輸出至外部。聲音編碼 裝置11b,係取代了聲音編碼裝置11的線性預測分析部1e而改為具備線性預測分析部1e1,還具備有時槽選擇部1p。
時槽選擇部1p,係從頻率轉換部1a收取QMF領域之訊號,選擇要在線性預測分析部1e1中實施線性預測分析處理的時槽。線性預測分析部1e1,係基於由時槽選擇部1p所通知的選擇結果,將已被選擇之時槽的QMF領域訊號,和線性預測分析部1e同樣地進行線性預測分析,取得高頻線性預測係數、低頻線性預測係數當中的至少一者。濾波器強度參數算出部1f,係使用線性預測分析部1e1中所得到的、已被時槽選擇部1p所選擇的時槽的線性預測分析,來算出濾波器強度參數。在時槽選擇部1p中的時槽之選擇,係亦可使用例如與後面記載之本變形例的解碼裝置21a中的時槽選擇部3a相同,使用高頻成分之QMF領域訊號的訊號功率來選擇之方法當中的至少一種方法。此時,時槽選擇部1p中的高頻成分之QMF領域訊號,係從頻率轉換部1a所收取之QMF領域之訊號當中,會在SBR編碼部1d上被編碼的頻率成分,較為理想。時槽的選擇方法,係可使用前記方法之至少一種,甚至也可使用異於前記方法之至少一種,甚至還可將它們組合使用。
第1實施形態的變形例4的聲音編解裝置21a(參照圖18),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音解碼裝置21a的內藏記憶體中所儲存的所定之電腦程式(例如用來進行圖19的流 程圖所述之處理所需的電腦程式)載入至RAM中並執行,藉此以統籌控制聲音解碼裝置21a。聲音解碼裝置21a的通訊裝置,係將已被編碼之多工化位元串流,加以接收,然後將已解碼之聲音訊號,輸出至外部。聲音解碼裝置21a,係如圖18所示,取代了聲音解碼裝置21的低頻線性預測分析部2d、訊號變化偵測部2e、高頻線性預測分析部2h、及線性預測逆濾波器部2i、及線性預測濾波器部2k,改為具備:低頻線性預測分析部2d1、訊號變化偵測部2e1、高頻線性預測分析部2h1、線性預測逆濾波器部2i1、及線性預測濾波器部2k3,還具備有時槽選擇部3a。
時槽選擇部3a,係對於高頻生成部2g所生成之時槽r的高頻成分之QMF領域之訊號qexp (k,r),判斷是否要在線性預測濾波器部2k中施加線性預測合成濾波器處理,選擇要施加線性預測合成濾波器處理的時槽(步驟Sh1之處理)。時槽選擇部3a,係將時槽的選擇結果,通知給低頻線性預測分析部2d1、訊號變化偵測部2e1、高頻線性預測分析部2h1、線性預測逆濾波器部2i1、線性預測濾波器部2k3。在低頻線性預測分析部2d1中,係基於由時槽選擇部3a所通知的選擇結果,將已被選擇之時槽r1的QMF領域訊號,進行和低頻線性預測分析部2d同樣的線性預測分析,取得低頻線性預測係數(步驟Sh2之處理)。在訊號變化偵測部2e1中,係基於由時槽選擇部3a所通知的選擇結果,將已被選擇之時槽的QMF領域訊號的時間變化,和訊號變化偵測部2e同樣地予以測出,將偵測結果T(r1)予以輸出 。
在濾波器強度調整部2f中,係對低頻線性預測分析部2d1中所得到的已被時槽選擇部3a所選擇之時槽的低頻線性預測係數,進行濾波器強度調整,獲得已被調整之線性預測係數adec (n,r1)。在高頻線性預測分析部2h1中,係將已被高頻生成部2g所生成之高頻成分的QMF領域訊號,基於由時槽選擇部3a所通知的選擇結果,關於已被選擇之時槽r1,和高頻線性預測分析部2k同樣地,在頻率方向上進行線性預測分析,取得高頻線性預測係數aexp (n,r1)(步驟Sh3之處理)。在線性預測逆濾波器部2i1中,係基於由時槽選擇部3a所通知的選擇結果,將已被選擇之時槽r1的高頻成分之QMF領域之訊號qexp (k,r),和線性預測逆濾波器部2i同樣地在頻率方向上以aexp (n,r1)為係數進行線性預測逆濾波器處理(步驟Sh4之處理)。
在線性預測濾波器部2k3中,係基於由時槽選擇部3a所通知的選擇結果,對於從已被選擇之時槽r1的高頻調整部2j所輸出之高頻成分的QMF領域之訊號qadj (k,r1),和線性預測濾波器部2k同樣地,使用從濾波器強度調整部2f所得到之aadj (n,r1),而在頻率方向上進行線性預測合成濾波器處理(步驟Sh5之處理)。又,變形例3中所記載之對線性預測濾波器部2k的變更,亦可對線性預測濾波器部2k3施加。在時槽選擇部3a中的施加線性預測合成濾波器處理之時槽的選擇時,係亦可例如將高頻成分的QMF領域訊號qexp (k,r)之訊號功率是大於所定值Pexp,Th 的時槽r,選擇一 個以上。qexp (k,r)的訊號功率係用以下的數式來求出,較為理想。
其中,M係表示比被高頻生成部2g所生成之高頻成分之下限頻率kx 還高之頻率範圍的值,然後亦可將高頻生成部2g所生成之高頻成分的頻率範圍表示成kx <=k<kx +M。又,所定值Pexp,Th 係亦可為包含時槽r之所定時間寬度的Pexp (r)的平均值。甚至,所定時間寬度係亦可為SBR包絡。
又,亦可選擇成其中含有高頻成分之QMF領域訊號之訊號功率是呈峰值的時槽。訊號功率的峰值,係亦可例如對於訊號功率的移動平均值[數43]P exp ,MA (r )將[數44]P exp ,MA (r +1)-P exp ,MA (r )從正值變成負值的時槽r的高頻成分的QMF領域之訊號功率,視為峰值。訊號功率的移動平均值[數45]P exp ,MA (r )係可用以下式子求出。
其中,c係用來決定求出平均值之範圍的所定值。又,訊號功率之峰值,係可以前記的方法來求出,也可藉由不同的方法來求出。
甚至,亦可使從高頻成分之QMF領域訊號之訊號功率的變動小的定常狀態起,變成變動大的過渡狀態為止的時間寬度t是小於所定之值tth ,而將該當時間寬度中所包含的時槽,選擇出至少一個。甚至,亦可使從高頻成分之QMF領域訊號之訊號功率的變動大的過渡狀態起,變成變動小的定常狀態為止的時間寬度t是小於所定之值tth ,而將該當時間寬度中所包含的時槽,選擇出至少一個。可以令| Pexp (r+1)-Pexp (r)|是小於所定值(或者小於或等於所定值)的時槽r為前記定常狀態,令| Pexp (r+1)-Pexp (r)|是大於或等於所定值(或者大於所定值)的時槽r為前記過渡狀態;也可令| Pexp,MA (r+1)-Pexp,MA (r)|是小於所定值(或者小於或等於所定值)的時槽r為前記定常狀態,令| Pexp,MA (r+1)-Pexp,MA (r)|是大於或等於所定值(或者大於所定值)的時槽r為前記過渡狀態。又,過渡狀態、定常狀態係可用前記的方法來定義,也可用不同的方法來定義。時槽的選擇方法,係可使用前記方法之至少一種,甚至也可使用異於前記方法之至少一種,甚至還可將它們組合。
(第1實施形態的變形例5)
第1實施形態的變形例5的聲音編碼裝置11c(圖45),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音編碼裝置11c的內藏記憶體中所儲存的所定之電腦程式載入至RAM中並執行,藉此以統籌控制聲音編碼裝置11c。聲音編碼裝置11c的通訊裝置,係將作為編碼對象的聲音訊號,從外部予以接收,還有,將已被編碼之多工化位元串流,輸出至外部。聲音編碼裝置11c,係取代了變形例4的聲音編碼裝置11b的時槽選擇部1p、及位元串流多工化部1g,改為具備:時槽選擇部1p1、及位元串流多工化部1g4。
時槽選擇部1p1,係和第1實施形態的變形例4中所記載之時槽選擇部1p同樣地選擇出時槽,將時槽選擇資訊送往位元串流多工化部1g4。位元串流多工化部1g4,係將已被核心編解碼器編碼部1c所算出之編碼位元串流、已被SBR編碼部1d所算出之SBR輔助資訊、已被濾波器強度參數算出部1f所算出之濾波器強度參數,和位元串流多工化部1g同樣地進行多工化,然後將從時槽選擇部1p1所收取到的時槽選擇資訊進行多工化,將多工化位元串流,透過聲音編碼裝置11c的通訊裝置而加以輸出。前記時槽選擇資訊,係後面記載的聲音解碼裝置21b中的時槽選擇部3a1所會收取的時槽選擇資訊,例如亦可含有所選擇的時槽的指數r1。甚至亦可為例如時槽選擇部3a1的時槽選擇方法 中所利用的參數。第1實施形態的變形例5的聲音編解裝置21b(參照圖20),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音解碼裝置21b的內藏記憶體中所儲存的所定之電腦程式(例如用來進行圖21的流程圖所述之處理所需的電腦程式)載入至RAM中並執行,藉此以統籌控制聲音解碼裝置21b。聲音解碼裝置21b的通訊裝置,係將已被編碼之多工化位元串流,加以接收,然後將已解碼之聲音訊號,輸出至外部。
聲音解碼裝置21b,係如圖20所示,取代了變形例4的聲音解碼裝置21a的位元串流分離部2a、及時槽選擇部3a,改為具備:位元串流分離部2a5、及時槽選擇部3a1,對時槽選擇部3a1係輸入著時槽選擇資訊。在位元串流分離部2a5中,係將多工化位元串流,和位元串流分離部2a同樣地,分離成濾波器強度參數、SBR輔助資訊、編碼位元串流,然後還分離出時槽選擇資訊。在時槽選擇部3a1中,係基於從位元串流分離部2a5所送來的時槽選擇資訊,來選擇時槽(步驟Si1之處理)。時槽選擇資訊,係時槽之選擇時所用的資訊,例如亦可含有所選擇的時槽的指數r1。甚至亦可為例如變形例4中所記載之時槽選擇方法中所利用的參數。此時,對時槽選擇部3a1,除了輸入時槽選擇資訊,還生成未圖示的高頻訊號生成部2g所生成的高頻成分之QMF領域訊號。前記參數,係亦可為,例如前記時槽之選擇時所需使用的所定值(例如Pexp,Th 、tTh 等)。
(第1實施形態的變形例6)
第1實施形態的變形例6的聲音編碼裝置11d(未圖示),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音編碼裝置11d的內藏記憶體中所儲存的所定之電腦程式載入至RAM中並執行,藉此以統籌控制聲音編碼裝置11d。聲音編碼裝置11d的通訊裝置,係將作為編碼對象的聲音訊號,從外部予以接收,還有,將已被編碼之多工化位元串流,輸出至外部。聲音編碼裝置11d,係取代了變形例1的聲音編碼裝置11a的短時間功率算出部1i,改為具備未圖示的短時間功率算出部1i1,還具備有時槽選擇部1p2。
時槽選擇部1p2,係從頻率轉換部1a收取QMF領域之訊號,將在短時間功率算出部1i中實施短時間功率算出處理的時間區間所對應之時槽,加以選擇。短時間功率算出部1i1,係基於由時槽選擇部1p2所通知的選擇結果,將已被選擇之時槽所對應之時間區間的短時間功率,和變形例1的聲音編碼裝置11a的短時間功率算出部1i同樣地予以算出。
(第1實施形態的變形例7)
第1實施形態的變形例7的聲音編碼裝置11e(未圖示),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音編碼裝置11e的內藏記憶體中所儲存的所定之電腦程式載入至RAM中並執行,藉此 以統籌控制聲音編碼裝置11e。聲音編碼裝置11e的通訊裝置,係將作為編碼對象的聲音訊號,從外部予以接收,還有,將已被編碼之多工化位元串流,輸出至外部。聲音編碼裝置11e,係取代了變形例6的聲音編碼裝置11d的時槽選擇部1p2,改為具備未圖示的時槽選擇部1p3。甚至還取代了位元串流多工化部1g1,改為還具備用來接受來自時槽選擇部1p3之輸出的位元串流多工化部。時槽選擇部1p3,係和第1實施形態的變形例6中所記載之時槽選擇部1p2同樣地選擇出時槽,將時槽選擇資訊送往位元串流多工化部。
(第1實施形態的變形例8)
第1實施形態的變形例8的聲音編碼裝置(未圖示),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等變形例8之聲音編碼裝置的內藏記憶體中所儲存的所定之電腦程式載入至RAM中並執行,藉此以統籌控制變形例8的聲音編碼裝置。變形例8的聲音編碼裝置的通訊裝置,係將作為編碼對象的聲音訊號,從外部予以接收,還有,將已被編碼之多工化位元串流,輸出至外部。變形例8的聲音編碼裝置,係在變形例2所記載的聲音編碼裝置中,還更具備有時槽選擇部1p。
第1實施形態的變形例8的聲音解碼裝置(未圖示),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等變形例8之聲音解碼裝置的內藏記憶 體中所儲存的所定之電腦程式載入至RAM中並執行,藉此以統籌控制變形例8的聲音解碼裝置。變形例8的聲音解碼裝置的通訊裝置,係將已被編碼之多工化位元串流,加以接收,然後將已解碼之聲音訊號,輸出至外部。變形例8的聲音解碼裝置,係取代了變形例2中所記載之聲音解碼裝置的低頻線性預測分析部2d、訊號變化偵測部2e、高頻線性預測分析部2h、及線性預測逆濾波器部2i、及線性預測濾波器部2k,改為具備:低頻線性預測分析部2d1、訊號變化偵測部2e1、高頻線性預測分析部2h1、線性預測逆濾波器部2i1、及線性預測濾波器部2k3,還具備有時槽選擇部3a。
(第1實施形態的變形例9)
第1實施形態的變形例9的聲音編碼裝置(未圖示),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等變形例9之聲音編碼裝置的內藏記憶體中所儲存的所定之電腦程式載入至RAM中並執行,藉此以統籌控制變形例9的聲音編碼裝置。變形例9的聲音編碼裝置的通訊裝置,係將作為編碼對象的聲音訊號,從外部予以接收,還有,將已被編碼之多工化位元串流,輸出至外部。變形例9的聲音編碼裝置,係取代了變形例8所記載的聲音編碼裝置的時槽選擇部1p,改為具備有時槽選擇部1p1。甚至,取代了變形例8中所記載之位元串流多工化部,改為具備除了往變形例8所記載之位元串流多工化部的 輸入還接受來自時槽選擇部1p1之輸出用的位元串流多工化部。
第1實施形態的變形例9的聲音解碼裝置(未圖示),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等變形例9之聲音解碼裝置的內藏記憶體中所儲存的所定之電腦程式載入至RAM中並執行,藉此以統籌控制變形例9的聲音解碼裝置。變形例9的聲音解碼裝置的通訊裝置,係將已被編碼之多工化位元串流,加以接收,然後將已解碼之聲音訊號,輸出至外部。變形例9的聲音解碼裝置,係取代了變形例8所記載之聲音解碼裝置的時槽選擇部3a,改為具備時槽選擇部3a1。然後,取代了位元串流分離部2a,改為具備除了將位元串流分離部2a5之濾波器強度參數還將前記變形例2所記載之aD (n,r)予以分離的位元串流分離部。
(第2實施形態的變形例1)
第2實施形態的變形例1的聲音編碼裝置12a(圖46),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音編碼裝置12a的內藏記憶體中所儲存的所定之電腦程式載入至RAM中並執行,藉此以統籌控制聲音編碼裝置12a。聲音編碼裝置12a的通訊裝置,係將作為編碼對象的聲音訊號,從外部予以接收,還有,將已被編碼之多工化位元串流,輸出至外部。聲音編碼裝置12a,係取代了聲音編碼裝置12的線性預測分析部1e ,改為具備線性預測分析部1e1,還具備有時槽選擇部1p。
第2實施形態的變形例1的聲音編解裝置22a(參照圖22),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音解碼裝置22a的內藏記憶體中所儲存的所定之電腦程式(例如用來進行圖23的流程圖所述之處理所需的電腦程式)載入至RAM中並執行,藉此以統籌控制聲音解碼裝置22a。聲音解碼裝置22a的通訊裝置,係將已被編碼之多工化位元串流,加以接收,然後將已解碼之聲音訊號,輸出至外部。聲音解碼裝置22a,係如圖22所示,取代了第2實施形態的聲音解碼裝置22的高頻線性預測分析部2h、線性預測逆濾波器部2i、線性預測濾波器部2k1、及線性預測內插.外插部2p,改為具備有:低頻線性預測分析部2d1、訊號變化偵測部2e1、高頻線性預測分析部2h1、線性預測逆濾波器部2i1、線性預測濾波器部2k2、及線性預測內插.外插部2p1,還具備有時槽選擇部3a。
時槽選擇部3a,係將時槽的選擇結果,通知給高頻線性預測分析部2h1、線性預測逆濾波器部2i1、線性預測濾波器部2k2、線性預測係數內插.外插部2p1。在線性預測係數內插.外插部2p1中,係基於由時槽選擇部3a所通知的選擇結果,將已被選擇之時槽且是線性預測係數未被傳輸的時槽r1所對應的aH (n,r),和線性預測係數內插.外插部2p同樣地,藉由內插或外插而加以取得(步驟Sj1之處 理)。在線性預測濾波器部2k2中,係基於由時槽選擇部3a所通知的選擇結果,關於已被選擇之時槽r1,對於從高頻調整部2j所輸出的qadj (n,r1),使用從線性預測係數內插.外插部2p1所得到之已被內插或外插過的aH (n,r1),和線性預測濾波器部2k1同樣地,在頻率方向上進行線性預測合成濾波器處理(步驟Sj2之處理)。又,第1實施形態的變形例3中所記載之對線性預測濾波器部2k的變更,亦可對線性預測濾波器部2k2施加。
(第2實施形態的變形例2)
第2實施形態的變形例2的聲音編碼裝置12b(圖47),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音編碼裝置12b的內藏記憶體中所儲存的所定之電腦程式載入至RAM中並執行,藉此以統籌控制聲音編碼裝置11b。聲音編碼裝置12b的通訊裝置,係將作為編碼對象的聲音訊號,從外部予以接收,還有,將已被編碼之多工化位元串流,輸出至外部。聲音編碼裝置12b,係取代了變形例1的聲音編碼裝置12a的時槽選擇部1p、及位元串流多工化部1g2,改為具備:時槽選擇部1p1、及位元串流多工化部1g5。位元串流多工化部1g5,係和位元串流多工化部1g2同樣地,將已被核心編解碼器編碼部1c所算出之編碼位元串流、已被SBR編碼部1d所算出之SBR輔助資訊、從線性預測係數量化部1k所給予之量化後的線性預測係數所對應之時槽的指數予以多工化, 然後還將從時槽選擇部1p1所收取的時槽選擇資訊,多工化至位元串流中,將多工化位元串流,透過聲音編碼裝置12b的通訊裝置而加以輸出。
第2實施形態的變形例2的聲音編解裝置22b(參照圖24),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音解碼裝置22b的內藏記憶體中所儲存的所定之電腦程式(例如用來進行圖25的流程圖所述之處理所需的電腦程式)載入至RAM中並執行,藉此以統籌控制聲音解碼裝置22b。聲音解碼裝置22b的通訊裝置,係將已被編碼之多工化位元串流,加以接收,然後將已解碼之聲音訊號,輸出至外部。聲音解碼裝置22b,係如圖24所示,取代了變形例1所記載之聲音解碼裝置22a的位元串流分離部2a1、及時槽選擇部3a,改為具備:位元串流分離部2a6、及時槽選擇部3a1,對時槽選擇部3a1係輸入著時槽選擇資訊。在位元串流分離部2a6中,係和位元串流分離部2a1同樣地,將多工化位元串流,分離成已被量化的aH (n,ri )、和其所對應之時槽的指數ri 、SBR輔助資訊、編碼位元串流,然後還分離出時槽選擇資訊。
(第3實施形態的變形例4)
第3實施形態的變形例1所記載之 係可為e(r)的在SBR包絡內的平均值,也可為另外訂定的值。
(第3實施形態的變形例5)
包絡形狀調整部2s,係如前記第3實施形態的變形例3所記載,調整後的時間包絡eadj (r)是例如數式(28)、數式(37)及(38)所示,是要被乘算至QMF子頻帶樣本的增益係數,有鑑於此,將eadj (r)以所定之值eadj,Th (r)而作如下限制,較為理想。
[數48]e adj (r ) e adj ,Th
(第4實施形態)
第4實施形態的聲音編碼裝置14(圖48),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音編碼裝置14的內藏記憶體中所儲存的所定之電腦程式載入至RAM中並執行,藉此以統籌控制聲音編碼裝置14。聲音編碼裝置14的通訊裝置,係將作為編碼對象的聲音訊號,從外部予以接收,還有,將已被編碼之多工化位元串流,輸出至外部。聲音編碼裝置14,係取代了第1實施形態的變形例4的聲音編碼裝置11b的位元串流多工化部1g,改為具備位元串流多工化部1g7,還具備有:聲音編碼裝置13的時間包絡算出部1m、及包絡參數算出部1n。
位元串流多工化部1g7,係和位元串流多工化部1g同樣地,將已被核心編解碼器編碼部1c所算出之編碼位元串 流、和已被SBR編碼部1d所算出之SBR輔助資訊予以多工化,然後還將已被濾波器強度參數算出部所算出之濾波器強度參數、和已被包絡形狀參數算出部1n所算出之包絡形狀參數,轉換成時間包絡輔助資訊而予以多工化,將多工化位元串流(已被編碼之多工化位元串流),透過聲音編碼裝置14的通訊裝置而加以輸出。
(第4實施形態的變形例4)
第4實施形態的變形例4的聲音編碼裝置14a(圖49),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音編碼裝置14a的內藏記憶體中所儲存的所定之電腦程式載入至RAM中並執行,藉此以統籌控制聲音編碼裝置14a。聲音編碼裝置14a的通訊裝置,係將作為編碼對象的聲音訊號,從外部予以接收,還有,將已被編碼之多工化位元串流,輸出至外部。聲音編碼裝置14a,係取代了第4實施形態的聲音編碼裝置14的線性預測分析部1e,改為具備線性預測分析部1e1,還具備有時槽選擇部1p。
第4實施形態的變形例4的聲音編解裝置24d(參照圖26),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音解碼裝置24d的內藏記憶體中所儲存的所定之電腦程式(例如用來進行圖27的流程圖所述之處理所需的電腦程式)載入至RAM中並執行,藉此以統籌控制聲音解碼裝置24d。聲音解碼裝置24d的通 訊裝置,係將已被編碼之多工化位元串流,加以接收,然後將已解碼之聲音訊號,輸出至外部。聲音解碼裝置24d,係如圖26所示,取代了聲音解碼裝置24的低頻線性預測分析部2d、訊號變化偵測部2e、高頻線性預測分析部2h、及線性預測逆濾波器部2i、及線性預測濾波器部2k,改為具備:低頻線性預測分析部2d1、訊號變化偵測部2e1、高頻線性預測分析部2h1、線性預測逆濾波器部2i1、及線性預測濾波器部2k3,還具備有時槽選擇部3a。時間包絡變形部2v,係將從線性預測濾波器部2k3所得到之QMF領域之訊號,使用從包絡形狀調整部2s所得到之時間包絡資訊,而和第3實施形態、第4實施形態、及這些之變形例的時間包絡變形部2v同樣地加以變形(步驟Sk1之處理)。
(第4實施形態的變形例5)
第4實施形態的變形例5的聲音編解裝置24e(參照圖28),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音解碼裝置24e的內藏記憶體中所儲存的所定之電腦程式(例如用來進行圖29的流程圖所述之處理所需的電腦程式)載入至RAM中並執行,藉此以統籌控制聲音解碼裝置24e。聲音解碼裝置24e的通訊裝置,係將已被編碼之多工化位元串流,加以接收,然後將已解碼之聲音訊號,輸出至外部。聲音解碼裝置24e,係如圖28所示,在變形例5中,係和第1實施形態同樣地,一直到第4實施形態全體都可省略的變形例4所記載之聲 音解碼裝置24d的高頻線性預測分析部2h1、線性預測逆濾波器部2i1係被省略,並取代了聲音解碼裝置24d的時槽選擇部3a、及時間包絡變形部2v,改為具備:時槽選擇部3a2、及時間包絡變形部2v1。然後,將一直到第4實施形態全體都可對調處理順序的線性預測濾波器部2k3之線性預測合成濾波器處理和時間包絡變形部2v1的時間包絡之變形處理的順序,予以對調。
時間包絡變形部2v1,係和時間包絡變形部2v同樣地,將從高頻調整部2j所獲得之qadj (k,r),使用從包絡形狀調整部2s所獲得之eadj (r)而予以變形,取得時間包絡是已被變形過的QMF領域之訊號qenvadj (k,r)。然後,將時間包絡變形處理時所得到之參數、或至少使用時間包絡變形處理時所得到之參數所算出之參數,當作時槽選擇資訊,通知給時槽選擇部3a2。作為時槽選擇資訊,係可為數式(22)、數式(40)的e(r)或其算出過程中不做平方根演算的| e(r)|2 ,甚至可為某複數時槽區間(例如SBR包絡)[數49]b i r <b i +1 中的這些值的平均值,亦即數式(24)的 也能一起來當作時槽選擇資訊。其中, 甚至,作為時槽選擇資訊,係可為數式(26)、數式(41)的eexp (r)或其算出過程中不做平方根演算的| eexp (r)|2 ,甚至可為某複數時槽區間(例如SBR包絡)[數52]b i r <b i +1 中的這些值的平均值 也能一起來當作時槽選擇資訊。其中,
甚至,作為時槽選擇資訊,係可為數式(23)、數式(35)、數式(36)的eadj (r)或其算出過程中不做平方根演算的| eadj (r)|2 ,甚至可為某複數時槽區間(例如SBR包絡 )[數56]b i r <b i +1 中的這些值的平均值 也能一起來當作時槽選擇資訊。其中,
甚至,作為時槽選擇資訊,係可為數式(37)的eadj,scaled (r)或其算出過程中不做平方根演算的| eadj,scaled (r)|2 ,甚至可為某複數時槽區間(例如SBR包絡)[數60]b i r <b i +1 中的這些值的平均值 也能一起來當作時槽選擇資訊。其中,
甚至,作為時槽選擇資訊,係時間包絡是被變形過的高頻成分所對應之QMF領域訊號的時槽r的訊號功率Penvadj (r)或其做過平方根演算後的訊號振幅值 也甚至可以是某複數時槽區間(例如SBR包絡)[數65]b i r <b i +1 中的這些值的平均值 也能一起來當作時槽選擇資訊。其中,
其中,M係表示比被高頻生成部2g所生成之高頻成分之下限頻率kx 還高之頻率範圍的值,然後亦可將高頻生成部2g所生成之高頻成分的頻率範圍表示成kx ≦k<kx +M。
時槽選擇部3a2,係基於從時間包絡變形部2v1所通知之時槽選擇資訊,而對於已經在時間包絡變形部2v1中將時間包絡予以變形過的時槽r的高頻成分的QMF領域之訊號qenvadj (k,r),判斷是否要在線性預測濾波器部2k中施加線性預測合成濾波器處理,選擇要施加線性預測合成濾波器處理的時槽(步驟Sp1之處理)。
本變形例中的時槽選擇部3a2中的施加線性預測合成濾波器處理之時槽的選擇時,係可將從時間包絡變形部2v1所通知的時槽選擇資訊中所含之參數u(r)是大於所定值uTh 的時槽r予以選擇一個以上,也可將u(r)是大於或等於所定值uTh 的時槽r予以選擇一個以上。u(r)係亦可包含上記e(r)、| e(r)|2 、eexp (r)、| eexp (r)|2 、eadj (r)、| eadj (r)|2 、eadj,scaled (r)、| eadj,scaled (r)|2 、Penvadj (r) 、以及 當中的至少一者,uTh 係亦可包含上記 當中的至少一者。又,uTh 係亦可為包含時槽r的所定之時間寬度(例如SBR包絡)的u(r)之平均值。甚至,亦可選擇包含u(r)是峰值的時槽。u(r)的峰值,係可和前記第1實施形態的變形例4中的高頻成分的QMF領域訊號之訊號功率之峰值的算出方法同樣地算出。甚至,亦可將前記第1實施形態的變形例4中的定常狀態和過渡狀態,使用u(r)而和前記第1實施形態的變形例4同樣地進行判斷,基於其而選擇時槽。時槽的選擇方法,係可使用前記方法之至少一種,甚至也可使用異於前記方法之至少一種,甚至還可將它們組合。
(第4實施形態的變形例6)
第4實施形態的變形例6的聲音編解裝置24f(參照圖30),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音解碼裝置24e的內藏記 憶體中所儲存的所定之電腦程式(例如用來進行圖29的流程圖所述之處理所需的電腦程式)載入至RAM中並執行,藉此以統籌控制聲音解碼裝置24f。聲音解碼裝置24f的通訊裝置,係將已被編碼之多工化位元串流,加以接收,然後將已解碼之聲音訊號,輸出至外部。聲音解碼裝置24f,係如圖30所示,在變形例6中,係和第1實施形態同樣地,一直到第4實施形態全體都可省略的變形例4所記載之聲音解碼裝置24d的訊號變化偵測部2e1、高頻線性預測分析部2h1、線性預測逆濾波器部2i1係被省略,並取代了聲音解碼裝置24d的時槽選擇部3a、及時間包絡變形部2v,改為具備:時槽選擇部3a2、及時間包絡變形部2v1。然後,將一直到第4實施形態全體都可對調處理順序的線性預測濾波器部2k3之線性預測合成濾波器處理和時間包絡變形部2v1的時間包絡之變形處理的順序,予以對調。
時槽選擇部3a2,係基於從時間包絡變形部2v1所通知之時槽選擇資訊,而對於已經在時間包絡變形部2v1中將時間包絡予以變形過的時槽r的高頻成分的QMF領域之訊號qenvadj (k,r),判斷是否要在線性預測濾波器部2k3中施加線性預測合成濾波器處理,選擇要施行線性預測合成濾波器處理的時槽,將已選擇的時槽,通知給低頻線性預測分析部2d1和線性預測濾波器部2k3。
(第4實施形態的變形例7)
第4實施形態的變形例7的聲音編碼裝置14b(圖50) ,係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音編碼裝置14b的內藏記憶體中所儲存的所定之電腦程式載入至RAM中並執行,藉此以統籌控制聲音編碼裝置14b。聲音編碼裝置14b的通訊裝置,係將作為編碼對象的聲音訊號,從外部予以接收,還有,將已被編碼之多工化位元串流,輸出至外部。聲音編碼裝置14b,係取代了變形例4的聲音編碼裝置14a的位元串流多工化部1g7、及時槽選擇部1p,改為具備:位元串流多工化部1g6、及時槽選擇部1p1。
位元串流多工化部1g6,係和位元串流多工化部1g7同樣地,將已被核心編解碼器編碼部1c所算出之編碼位元串流、已被SBR編碼部1d所算出之SBR輔助資訊、將已被濾波器強度參數算出部所算出之濾波器強度參數和已被包絡形狀參數算出部1n所算出之包絡形狀參數予以轉換成的時間包絡輔助資訊,予以多工化,然後還將從時槽選擇部1p1所收取到的時槽選擇資訊予以多工化,將多工化位元串流(已被編碼之多工化位元串流),透過聲音編碼裝置14b的通訊裝置而加以輸出。
第4實施形態的變形例7的聲音編解裝置24g(參照圖31),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音解碼裝置24g的內藏記憶體中所儲存的所定之電腦程式(例如用來進行圖32的流程圖所述之處理所需的電腦程式)載入至RAM中並執行,藉此以統籌控制聲音解碼裝置24g。聲音解碼裝置24g的通 訊裝置,係將已被編碼之多工化位元串流,加以接收,然後將已解碼之聲音訊號,輸出至外部。聲音解碼裝置24g,係如圖31所示,取代了變形例4所記載之聲音解碼裝置2d的位元串流分離部2a3、及時槽選擇部3a,改為具備:位元串流分離部2a7、及時槽選擇部3a1。
位元串流分離部2a7,係將已透過聲音解碼裝置24g的通訊裝置而輸入的多工化位元串流,和位元串流分離部2a3同樣地,分離成時間包絡輔助資訊、SBR輔助資訊、編碼位元串流,然後還分離出時槽選擇資訊。
(第4實施形態的變形例8)
第4實施形態的變形例8的聲音編解裝置24h(參照圖33),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音解碼裝置24h的內藏記憶體中所儲存的所定之電腦程式(例如用來進行圖34的流程圖所述之處理所需的電腦程式)載入至RAM中並執行,藉此以統籌控制聲音解碼裝置24h。聲音解碼裝置24h的通訊裝置,係將已被編碼之多工化位元串流,加以接收,然後將已解碼之聲音訊號,輸出至外部。聲音解碼裝置24h,係如圖33所示,取代了變形例2的聲音解碼裝置24b的低頻線性預測分析部2d、訊號變化偵測部2e、高頻線性預測分析部2h、線性預測逆濾波器部2i、及線性預測濾波器部2k,改為具備:低頻線性預測分析部2d1、訊號變化偵測部2e1、高頻線性預測分析部2h1、線性預測逆濾波器部 2i1、及線性預測濾波器部2k3,還具備有時槽選擇部3a。一次高頻調整部2j1,係和第4實施形態的變形例2中的一次高頻調整部2j1同樣地,進行前記“MPEG-4 AAC”之SBR中之”HF Adjustment“步驟中所具有之一個以上的處理(步驟Sm1之處理)。二次高頻調整部2j2,係和第4實施形態的變形例2中的二次高頻調整部2j2同樣地,進行前記“MPEG-4 AAC”之SBR中之”HF Adjustment“步驟中所具有之一個以上的處理(步驟Sm2之處理)。二次高頻調整部2j2中所進行的處理,係為前記“MPEG-4 AAC”之SBR中之”HF Adjustment“步驟中所具有之處理當中,未被一次高頻調整部2j1所進行之處理,較為理想。
(第4實施形態的變形例9)
第4實施形態的變形例9的聲音編解裝置24i(參照圖35),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音解碼裝置24i的內藏記憶體中所儲存的所定之電腦程式(例如用來進行圖36的流程圖所述之處理所需的電腦程式)載入至RAM中並執行,藉此以統籌控制聲音解碼裝置24i。聲音解碼裝置24i的通訊裝置,係將已被編碼之多工化位元串流,加以接收,然後將已解碼之聲音訊號,輸出至外部。聲音解碼裝置24i,係如圖35所示,和第1實施形態同樣地,一直到第4實施形態全體都可省略的變形例8的聲音解碼裝置24h的高頻線性預測分析部2h1、及線性預測逆濾波器部2i1係被省略,並 取代了變形例8的聲音解碼裝置24h的時間包絡變形部2v、及時槽選擇部3a,改為具備:時間包絡變形部2v1、及時槽選擇部3a2。然後,將一直到第4實施形態全體都可對調處理順序的線性預測濾波器部2k3之線性預測合成濾波器處理和時間包絡變形部2v1的時間包絡之變形處理的順序,予以對調。
(第4實施形態的變形例10)
第4實施形態的變形例10的聲音編解裝置24j(參照圖37),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音解碼裝置24j的內藏記憶體中所儲存的所定之電腦程式(例如用來進行圖36的流程圖所述之處理所需的電腦程式)載入至RAM中並執行,藉此以統籌控制聲音解碼裝置24j。聲音解碼裝置24j的通訊裝置,係將已被編碼之多工化位元串流,加以接收,然後將已解碼之聲音訊號,輸出至外部。聲音解碼裝置24j,係如圖37所示,和第1實施形態同樣地,一直到第4實施形態全體都可省略的變形例8的聲音解碼裝置24h的訊號變化偵測部2e1、高頻線性預測分析部2h1、及線性預測逆濾波器部2i1係被省略,並取代了變形例8的聲音解碼裝置24h的時間包絡變形部2v、及時槽選擇部3a,改為具備:時間包絡變形部2v1、及時槽選擇部3a2。然後,將一直到第4實施形態全體都可對調處理順序的線性預測濾波器部2k3之線性預測合成濾波器處理和時間包絡變形部2v1的時間 包絡之變形處理的順序,予以對調。
(第4實施形態的變形例11)
第4實施形態的變形例11的聲音編解裝置24k(參照圖38),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音解碼裝置24k的內藏記憶體中所儲存的所定之電腦程式(例如用來進行圖39的流程圖所述之處理所需的電腦程式)載入至RAM中並執行,藉此以統籌控制聲音解碼裝置24k。聲音解碼裝置24k的通訊裝置,係將已被編碼之多工化位元串流,加以接收,然後將已解碼之聲音訊號,輸出至外部。聲音解碼裝置24k,係如圖38所示,取代了變形例8的聲音解碼裝置24h的位元串流分離部2a3、及時槽選擇部3a,改為具備:位元串流分離部2a7、及時槽選擇部3a1。
(第4實施形態的變形例12)
第4實施形態的變形例12的聲音編解裝置24q(參照圖40),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音解碼裝置24q的內藏記憶體中所儲存的所定之電腦程式(例如用來進行圖41的流程圖所述之處理所需的電腦程式)載入至RAM中並執行,藉此以統籌控制聲音解碼裝置24q。聲音解碼裝置24q的通訊裝置,係將已被編碼之多工化位元串流,加以接收,然後將已解碼之聲音訊號,輸出至外部。聲音解碼裝置24q ,係如圖40所示,取代了變形例3的聲音解碼裝置24c的低頻線性預測分析部2d、訊號變化偵測部2e、高頻線性預測分析部2h、線性預測逆濾波器部2i、及個別訊號成分調整部2z1,2z2,2z3,改為具備:低頻線性預測分析部2d1、訊號變化偵測部2e1、高頻線性預測分析部2h1、線性預測逆濾波器部2i1、及個別訊號成分調整部2z4,2z5,2z6(個別訊號成分調整部係相當於時間包絡變形手段),還具備有時槽選擇部3a。
個別訊號成分調整部2z4,2z5,2z6當中的至少一者,係關於前記一次高頻調整手段之輸出中所含之訊號成分,基於由時槽選擇部3a所通知的選擇結果,對於已被選擇之時槽的QMF領域訊號,和個別訊號成分調整部2z1,2z2,2z3同樣地,進行處理(步驟Sn1之處理)。使用時槽選擇資訊所進行之處理,係含有前記第4實施形態的變形例3中所記載之個別訊號成分調整部2z1,2z2,2z3的處理當中的包含有頻率方向之線性預測合成濾波器處理的處理當中的至少一者,較為理想。
個別訊號成分調整部2z4,2z5,2z6中的處理,係前記第4實施形態的變形例3中所記載之個別訊號成分調整部2z1,2z2,2z3的處理同樣地,可以彼此相同,但個別訊號成分調整部2z4,2z5,2z6,係亦可對於一次高頻調整手段之輸出中所含之複數訊號成分之每一者,以彼此互異之方法來進行時間包絡之變形。(當個別訊號成分調整部2z4,2z5,2z6全部都不基於時槽選擇部3a所通知之選擇結果來 進行處理時,則等同於本發明的第4實施形態的變形例3)。
從時槽選擇部3a通知給每一個別訊號成分調整部2z4,2z5,2z6的時槽之選擇結果,係並無必要全部相同,可以全部或部分相異。
甚至,在圖40中雖然是構成為,通知一個從時槽選擇部3a通知給每一個別訊號成分調整部2z4,2z5,2z6的時槽之選擇結果,但亦可具有複數個時槽選擇部,而對個別訊號成分調整部2z4,2z5,2z6之每一者、或是一部分,通知不同的時槽之選擇結果。又,此時,亦可為,在個別訊號成分調整部2z4,2z5,2z6當中,對於進行第4實施形態之變形例3所記載之處理4(對於輸入訊號,進行和時間包絡變形部2v相同的,使用從包絡形狀調整部2s所得到之時間包絡來對各QMF子頻帶樣本乘算增益係數之處理後,再對其輸出訊號,進行和線性預測濾波器部2k相同的,使用從濾波器強度調整部2f所得到之線性預測係數,進行頻率方向的線性預測合成濾波器處理)的個別訊號成分調整部的時槽選擇部,係被從時間包絡變形部輸入著時槽選擇資訊而進行時槽的選擇處理。
(第4實施形態的變形例13)
第4實施形態的變形例13的聲音編解裝置24m(參照圖42),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音解碼裝置24m的內藏記 憶體中所儲存的所定之電腦程式(例如用來進行圖43的流程圖所述之處理所需的電腦程式)載入至RAM中並執行,藉此以統籌控制聲音解碼裝置24m。聲音解碼裝置24m的通訊裝置,係將已被編碼之多工化位元串流,加以接收,然後將已解碼之聲音訊號,輸出至外部。聲音解碼裝置24m,係如圖42所示,取代了變形例12的聲音解碼裝置24q的位元串流分離部2a3、及時槽選擇部3a,改為具備:位元串流分離部2a7、及時槽選擇部3a1。
(第4實施形態的變形例14)
第4實施形態的變形例14的聲音解碼裝置24n(未圖示),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音解碼裝置24n的內藏記憶體中所儲存的所定之電腦程式載入至RAM中並執行,藉此以統籌控制聲音解碼裝置24n。聲音解碼裝置24n的通訊裝置,係將已被編碼之多工化位元串流,加以接收,然後將已解碼之聲音訊號,輸出至外部。聲音解碼裝置24n,係在功能上,取代了變形例1的聲音解碼裝置24a的低頻線性預測分析部2d、訊號變化偵測部2e、高頻線性預測分析部2h、線性預測逆濾波器部2i、及線性預測濾波器部2k,改為具備:低頻線性預測分析部2d1、訊號變化偵測部2e1、高頻線性預測分析部2h1、線性預測逆濾波器部2i1、及線性預測濾波器部2k3,還具備有時槽選擇部3a。
(第4實施形態的變形例15)
第4實施形態的變形例15的聲音解碼裝置24p(未圖示),係實體上具備未圖示的CPU、ROM、RAM及通訊裝置等,該CPU,係將ROM等之聲音解碼裝置24p的內藏記憶體中所儲存的所定之電腦程式載入至RAM中並執行,藉此以統籌控制聲音解碼裝置24p。聲音解碼裝置24p的通訊裝置,係將已被編碼之多工化位元串流,加以接收,然後將已解碼之聲音訊號,輸出至外部。聲音解碼裝置24p,係在功能上是取代了變形例14的聲音解碼裝置24n的時槽選擇部3a,改為具備時槽選擇部3a1。然後還取代了位元串流分離部2a4,改為具備位元串流分離部2a8(未圖示)。
位元串流分離部2a8,係和位元串流分離部2a4同樣地,將多工化位元串流,分離成SBR輔助資訊、編碼位元串流,然後還分離出時槽選擇資訊。
[產業上利用之可能性]
可利用於,在以SBR為代表的頻率領域上的頻帶擴充技術中所適用的技術,且是不使位元速率顯著增大,就能減輕前回聲.後回聲的發生並提升解碼訊號的主觀品質所需之技術。
11,11a,11b,11c,12,12a,12b,13,14,14a,14b‧‧‧聲音編碼裝置
1a‧‧‧頻率轉換部
1b‧‧‧頻率逆轉換部
1c‧‧‧核心編解碼器編碼部
1d‧‧‧SBR編碼部
1e,1e1‧‧‧線性預測分析部
1f‧‧‧濾波器強度參數算出部
1f1‧‧‧濾波器強度參數算出部
1g,1g1,1g2,1g3,1g4,1g5,1g6,1g7‧‧‧位元串流多工化部
1h‧‧‧高頻頻率逆轉換部
1i‧‧‧短時間功率算出部
1j‧‧‧線性預測係數抽略部
1k‧‧‧線性預測係數量化部
1m‧‧‧時間包絡算出部
1n‧‧‧包絡形狀參數算出部
1p,1p1‧‧‧時槽選擇部
21,22,23,24,24b,24c‧‧‧聲音解碼裝置
2a,2a1,2a2,2a3,2a5,2a6,2a7‧‧‧位元串流分離部
2b‧‧‧核心編解碼器解碼部
2c‧‧‧頻率轉換部
2d,2d1‧‧‧低頻線性預測分析部
2e,2e1‧‧‧訊號變化偵測部
2f‧‧‧濾波器強度調整部
2g‧‧‧高頻生成部
2h,2h1‧‧‧高頻線性預測分析部
2i,2i1‧‧‧線性預測逆濾波器部
2j,2j1,2j2,2j3,2j4‧‧‧高頻調整部
2k,2k1,2k2,2k3‧‧‧線性預測濾波器部
2m‧‧‧係數加算部
2n‧‧‧頻率逆轉換部
2p,2p1‧‧‧線性預測係數內插.外插部
2r‧‧‧低頻時間包絡計算部
2s‧‧‧包絡形狀調整部
2t‧‧‧高頻時間包絡算出部
2u‧‧‧時間包絡平坦化部
2v,2v1‧‧‧時間包絡變形部
2w‧‧‧輔助資訊轉換部
2z1,2z2,2z3,2z4,2z5,2z6‧‧‧個別訊號成分調整部
3a,3a1,3a2‧‧‧時槽選擇部
[圖1]第1實施形態所述之聲音編碼裝置之構成的圖示。
[圖2]用來說明第1實施形態所述之聲音編碼裝置之動作的流程圖。
[圖3]第1實施形態所述之聲音解碼裝置之構成的圖示。
[圖4]用來說明第1實施形態所述之聲音解碼裝置之動作的流程圖。
[圖5]第1實施形態的變形例1所述之聲音編碼裝置之構成的圖示。
[圖6]第2實施形態所述之聲音編碼裝置之構成的圖示。
[圖7]用來說明第2實施形態所述之聲音編碼裝置之動作的流程圖。
[圖8]第2實施形態所述之聲音解碼裝置之構成的圖示。
[圖9]用來說明第2實施形態所述之聲音解碼裝置之動作的流程圖。
[圖10]第3實施形態所述之聲音編碼裝置之構成的圖示。
[圖11]用來說明第3實施形態所述之聲音編碼裝置之動作的流程圖。
[圖12]第3實施形態所述之聲音解碼裝置之構成的圖示。
[圖13]用來說明第3實施形態所述之聲音解碼裝置之動作的流程圖。
[圖14]第4實施形態所述之聲音解碼裝置之構成的圖示。
[圖15]第4實施形態的變形例所述之聲音解碼裝置之構成的圖示。
[圖16]第4實施形態的其他變形例所述之聲音解碼裝置之構成的圖示。
[圖17]第4實施形態的其他變形例所述之聲音解碼裝置之動作的說明用之流程圖。
[圖18]第1實施形態的其他變形例所述之聲音解碼裝置之構成的圖示。
[圖19]第1實施形態的其他變形例所述之聲音解碼裝置之動作的說明用之流程圖。
[圖20]第1實施形態的其他變形例所述之聲音解碼裝置之構成的圖示。
[圖21]第1實施形態的其他變形例所述之聲音解碼裝置之動作的說明用之流程圖。
[圖22]第2實施形態的變形例所述之聲音解碼裝置之構成的圖示。
[圖23]用來說明第2實施形態的變形例所述之聲音解碼裝置之動作的流程圖。
[圖24]第2實施形態的其他變形例所述之聲音解碼裝置之構成的圖示。
[圖25]第2實施形態的其他變形例所述之聲音解碼裝置之動作的說明用之流程圖。
[圖26]第4實施形態的其他變形例所述之聲音解碼裝置之構成的圖示。
[圖27]第4實施形態的其他變形例所述之聲音解碼裝置之動作的說明用之流程圖。
[圖28]第4實施形態的其他變形例所述之聲音解碼裝置之構成的圖示。
[圖29]第4實施形態的其他變形例所述之聲音解碼裝置之動作的說明用之流程圖。
[圖30]第4實施形態的其他變形例所述之聲音解碼裝置之構成的圖示。
[圖31]第4實施形態的其他變形例所述之聲音解碼裝置之構成的圖示。
[圖32]第4實施形態的其他變形例所述之聲音解碼裝置之動作的說明用之流程圖。
[圖33]第4實施形態的其他變形例所述之聲音解碼裝置之構成的圖示。
[圖34]第4實施形態的其他變形例所述之聲音解碼裝置之動作的說明用之流程圖。
[圖35]第4實施形態的其他變形例所述之聲音解碼裝置之構成的圖示。
[圖36]第4實施形態的其他變形例所述之聲音解碼裝置之動作的說明用之流程圖。
[圖37]第4實施形態的其他變形例所述之聲音解碼裝置之構成的圖示。
[圖38]第4實施形態的其他變形例所述之聲音解碼裝置之構成的圖示。
[圖39]第4實施形態的其他變形例所述之聲音解碼裝置之動作的說明用之流程圖。
[圖40]第4實施形態的其他變形例所述之聲音解碼裝置之構成的圖示。
[圖41]第4實施形態的其他變形例所述之聲音解碼裝置之動作的說明用之流程圖。
[圖42]第4實施形態的其他變形例所述之聲音解碼裝置之構成的圖示。
[圖43]第4實施形態的其他變形例所述之聲音解碼裝置之動作的說明用之流程圖。
[圖44]第1實施形態的其他變形例所述之聲音編碼裝置之構成的圖示。
[圖45]第1實施形態的其他變形例所述之聲音編碼裝置之構成的圖示。
[圖46]第2實施形態的變形例所述之聲音編碼裝置之構成的圖示。
[圖47]第2實施形態的其他變形例所述之聲音編碼裝置之構成的圖示。
[圖48]第4實施形態所述之聲音編碼裝置之構成的圖示。
[圖49]第4實施形態的其他變形例所述之聲音編碼裝置之構成的圖示。
[圖50]第4實施形態的其他變形例所述之聲音編碼裝置之構成的圖示。
1a‧‧‧頻率轉換部
1b‧‧‧頻率逆轉換部
1c‧‧‧核心編解碼器編碼部
1d‧‧‧SBR編碼部
1f‧‧‧濾波器強度參數算出部
1g‧‧‧位元串流多工化部
1e‧‧‧線性預測分析部
11‧‧‧聲音編碼裝置

Claims (6)

  1. 一種聲音解碼裝置,係屬於將已被編碼之聲音訊號予以解碼的聲音解碼裝置,其特徵為,具備:位元串流分離手段,係將含有前記已被編碼之聲音訊號的來自外部的位元串流,分離成編碼位元串流與時間包絡輔助資訊;和核心解碼手段,係將已被前記位元串流分離手段所分離的前記編碼位元串流予以解碼而獲得低頻成分;和頻率轉換手段,係將前記核心解碼手段所得到之前記低頻成分,轉換成頻率領域;和高頻生成手段,係將已被前記頻率轉換手段轉換成頻率領域的前記低頻成分,從低頻頻帶往高頻頻帶進行複寫,以生成高頻成分;和高頻調整手段,係將已被前記高頻生成手段所生成之前記高頻成分予以調整,生成已被調整之高頻成分;和低頻時間包絡分析手段,係將已被前記頻率轉換手段轉換成頻率領域的前記低頻成分加以分析,而取得時間包絡資訊;和輔助資訊轉換手段,係將前記時間包絡輔助資訊,轉換成用來調整前記時間包絡資訊所需之參數;和時間包絡調整手段,係將已被前記低頻時間包絡分析手段所取得的前記時間包絡資訊,使用前記參數來進行調整,生成已被調整之時間包絡資訊,並控制該已被調整之時間包絡資訊之增益,使得前記頻率領域的高頻成分的 SBR包絡時間區段內的功率是在時間包絡之變形前後呈相等,而生成再被調整過之時間包絡資訊;和時間包絡變形手段,係藉由對前記已被調整之高頻成分乘算前記再被調整過之時間包絡資訊,而將前記已被調整之高頻成分的時間包絡,加以變形。
  2. 一種聲音解碼裝置,係屬於將已被編碼之聲音訊號予以解碼的聲音解碼裝置,其特徵為,具備:核心解碼手段,係將含有前記已被編碼之聲音訊號之來自外部的位元串流予以解碼而獲得低頻成分;和頻率轉換手段,係將前記核心解碼手段所得到之前記低頻成分,轉換成頻率領域;和高頻生成手段,係將已被前記頻率轉換手段轉換成頻率領域的前記低頻成分,從低頻頻帶往高頻頻帶進行複寫,以生成高頻成分;和高頻調整手段,係將已被前記高頻生成手段所生成之前記高頻成分予以調整,生成已被調整之高頻成分;和低頻時間包絡分析手段,係將已被前記頻率轉換手段轉換成頻率領域的前記低頻成分加以分析,而取得時間包絡資訊;和時間包絡輔助資訊生成部,係將前記位元串流加以分析而生成用來調整前記時間包絡資訊所需之參數;和時間包絡調整手段,係將已被前記低頻時間包絡分析手段所取得的前記時間包絡資訊,使用前記參數來進行調整,生成已被調整之時間包絡資訊,並控制該已被調整之 時間包絡資訊之增益,使得前記頻率領域的高頻成分的SBR包絡時間區段內的功率是在時間包絡之變形前後呈相等,而生成再被調整過之時間包絡資訊;和時間包絡變形手段,係藉由對前記已被調整之高頻成分乘算前記再被調整過之時間包絡資訊,而將前記已被調整之高頻成分的時間包絡,加以變形。
  3. 一種聲音解碼方法,係屬於使用將已被編碼之聲音訊號予以解碼的聲音解碼裝置的聲音解碼方法,其特徵為,含有:位元串流分離步驟,係由前記聲音解碼裝置,將含有前記已被編碼之聲音訊號的來自外部的位元串流,分離成編碼位元串流與時間包絡輔助資訊;和核心解碼步驟,係由前記聲音解碼裝置,將已在前記位元串流分離步驟中作分離的前記編碼位元串流予以解碼而獲得低頻成分;和頻率轉換步驟,係由前記聲音解碼裝置,將前記核心解碼步驟中所得到之前記低頻成分,轉換成頻率領域;和高頻生成步驟,係由前記聲音解碼裝置,將已在前記頻率轉換步驟中轉換成頻率領域的前記低頻成分,從低頻頻帶往高頻頻帶進行複寫,以生成高頻成分;和高頻調整步驟,係由前記聲音解碼裝置,將前記高頻成分步驟中所生成之前記高頻成分予以調整,生成已被調整之高頻成分;和低頻時間包絡分析步驟,係由前記聲音解碼裝置,將 已在前記頻率轉換步驟中轉換成頻率領域的前記低頻成分加以分析,而取得時間包絡資訊;和輔助資訊轉換步驟,係由前記聲音解碼裝置,將前記時間包絡輔助資訊,轉換成用來調整前記時間包絡資訊所需之參數;和時間包絡調整步驟,係由前記聲音解碼裝置,將前記低頻時間包絡分析步驟中所取得的前記時間包絡資訊,使用前記參數來進行調整,生成已被調整之時間包絡資訊,並控制該已被調整之時間包絡資訊之增益,使得前記頻率領域的高頻成分的SBR包絡時間區段內的功率是在時間包絡之變形前後呈相等,而生成再被調整過之時間包絡資訊;和時間包絡變形步驟,係由前記聲音解碼裝置,藉由對前記已被調整之高頻成分乘算前記再被調整過之時間包絡資訊,而將前記已被調整之高頻成分的時間包絡,加以變形。
  4. 一種聲音解碼方法,係屬於使用將已被編碼之聲音訊號予以解碼的聲音解碼裝置的聲音解碼方法,其特徵為,含有:核心解碼步驟,係由前記聲音解碼裝置,將含有前記已被編碼之聲音訊號之來自外部的位元串流予以解碼而獲得低頻成分;和頻率轉換步驟,係由前記聲音解碼裝置,將前記核心解碼步驟中所得到之前記低頻成分,轉換成頻率領域;和 高頻生成步驟,係由前記聲音解碼裝置,將已在前記頻率轉換步驟中轉換成頻率領域的前記低頻成分,從低頻頻帶往高頻頻帶進行複寫,以生成高頻成分;和高頻調整步驟,係由前記聲音解碼裝置,將前記高頻成分步驟中所生成之前記高頻成分予以調整,生成已被調整之高頻成分;和低頻時間包絡分析步驟,係由前記聲音解碼裝置,將已在前記頻率轉換步驟中被轉換成頻率領域的前記低頻成分加以分析,而取得時間包絡資訊;和時間包絡輔助資訊生成步驟,係由前記聲音解碼裝置,將前記位元串流加以分析而生成用來調整前記時間包絡資訊所需之參數;和時間包絡調整步驟,係由前記聲音解碼裝置,將前記低頻時間包絡分析步驟中所取得的前記時間包絡資訊,使用前記參數來進行調整,生成已被調整之時間包絡資訊,並控制該已被調整之時間包絡資訊之增益,使得前記頻率領域的高頻成分的SBR包絡時間區段內的功率是在時間包絡之變形前後呈相等,而生成再被調整過之時間包絡資訊;和時間包絡變形步驟,係由前記聲音解碼裝置,藉由對前記已被調整之高頻成分乘算前記再被調整過之時間包絡資訊,而將前記已被調整之高頻成分的時間包絡,加以變形。
  5. 一種記錄有聲音解碼程式之記錄媒體,其特徵為, 為了將已被編碼之聲音訊號予以解碼,而使電腦裝置發揮機能成為:位元串流分離手段,係將含有前記已被編碼之聲音訊號的來自外部的位元串流,分離成編碼位元串流與時間包絡輔助資訊;和核心解碼手段,係將已被前記位元串流分離手段所分離的前記編碼位元串流予以解碼而獲得低頻成分;和頻率轉換手段,係將前記核心解碼手段所得到之前記低頻成分,轉換成頻率領域;和高頻生成手段,係將已被前記頻率轉換手段轉換成頻率領域的前記低頻成分,從低頻頻帶往高頻頻帶進行複寫,以生成高頻成分;和高頻調整手段,係將已被前記高頻生成手段所生成之前記高頻成分予以調整,生成已被調整之高頻成分;和低頻時間包絡分析手段,係將已被前記頻率轉換手段轉換成頻率領域的前記低頻成分加以分析,而取得時間包絡資訊;和輔助資訊轉換手段,係將前記時間包絡輔助資訊,轉換成用來調整前記時間包絡資訊所需之參數;和時間包絡調整手段,係將已被前記低頻時間包絡分析手段所取得的前記時間包絡資訊,使用前記參數來進行調整,生成已被調整之時間包絡資訊,並控制該已被調整之時間包絡資訊之增益,使得前記頻率領域的高頻成分的SBR包絡時間區段內的功率是在時間包絡之變形前後呈相 等,而生成再被調整過之時間包絡資訊;和時間包絡變形手段,係藉由對前記已被調整之高頻成分乘算前記再被調整過之時間包絡資訊,而將前記已被調整之高頻成分的時間包絡,加以變形。
  6. 一種記錄有聲音解碼程式之記錄媒體,其特徵為,為了將已被編碼之聲音訊號予以解碼,而使電腦裝置發揮機能成為:核心解碼手段,係將含有前記已被編碼之聲音訊號之來自外部的位元串流予以解碼而獲得低頻成分;和頻率轉換手段,係將前記核心解碼手段所得到之前記低頻成分,轉換成頻率領域;和高頻生成手段,係將已被前記頻率轉換手段轉換成頻率領域的前記低頻成分,從低頻頻帶往高頻頻帶進行複寫,以生成高頻成分;和高頻調整手段,係將已被前記高頻生成手段所生成之前記高頻成分予以調整,生成已被調整之高頻成分;和低頻時間包絡分析手段,係將已被前記頻率轉換手段轉換成頻率領域的前記低頻成分加以分析,而取得時間包絡資訊;和時間包絡輔助資訊生成部,係將前記位元串流加以分析而生成用來調整前記時間包絡資訊所需之參數;和時間包絡調整手段,係將已被前記低頻時間包絡分析手段所取得的前記時間包絡資訊,使用前記參數來進行調整,生成已被調整之時間包絡資訊,並控制該已被調整之 時間包絡資訊之增益,使得前記頻率領域的高頻成分的SBR包絡時間區段內的功率是在時間包絡之變形前後呈相等,而生成再被調整過之時間包絡資訊;和時間包絡變形手段,係藉由對前記已被調整之高頻成分乘算前記再被調整過之時間包絡資訊,而將前記已被調整之高頻成分的時間包絡,加以變形。
TW101124697A 2009-04-03 2010-04-02 A sound decoding apparatus, a sound decoding method, and a recording medium on which a voice decoding program is recorded TWI476763B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009091396 2009-04-03
JP2009146831 2009-06-19
JP2009162238 2009-07-08
JP2010004419A JP4932917B2 (ja) 2009-04-03 2010-01-12 音声復号装置、音声復号方法、及び音声復号プログラム

Publications (2)

Publication Number Publication Date
TW201243832A TW201243832A (en) 2012-11-01
TWI476763B true TWI476763B (zh) 2015-03-11

Family

ID=42828407

Family Applications (6)

Application Number Title Priority Date Filing Date
TW101124695A TWI478150B (zh) 2009-04-03 2010-04-02 A sound decoding apparatus, a sound decoding method, and a recording medium on which a voice decoding program is recorded
TW101124697A TWI476763B (zh) 2009-04-03 2010-04-02 A sound decoding apparatus, a sound decoding method, and a recording medium on which a voice decoding program is recorded
TW099110498A TW201126515A (en) 2009-04-03 2010-04-02 Speech encoding device, speech decoding device, speech encoding method, speech decoding method, speech encoding program, and speech decoding program
TW101124696A TWI479479B (zh) 2009-04-03 2010-04-02 A sound decoding apparatus, a sound decoding method, and a recording medium on which a voice decoding program is recorded
TW101124698A TWI479480B (zh) 2009-04-03 2010-04-02 A sound coding apparatus, a voice decoding apparatus, a speech coding method, a speech decoding method, a recording medium recording a sound coding program and a voice decoding program
TW101124694A TWI384461B (zh) 2009-04-03 2010-04-02 A sound decoding apparatus, a sound decoding method, and a recording medium on which a voice decoding program is recorded

Family Applications Before (1)

Application Number Title Priority Date Filing Date
TW101124695A TWI478150B (zh) 2009-04-03 2010-04-02 A sound decoding apparatus, a sound decoding method, and a recording medium on which a voice decoding program is recorded

Family Applications After (4)

Application Number Title Priority Date Filing Date
TW099110498A TW201126515A (en) 2009-04-03 2010-04-02 Speech encoding device, speech decoding device, speech encoding method, speech decoding method, speech encoding program, and speech decoding program
TW101124696A TWI479479B (zh) 2009-04-03 2010-04-02 A sound decoding apparatus, a sound decoding method, and a recording medium on which a voice decoding program is recorded
TW101124698A TWI479480B (zh) 2009-04-03 2010-04-02 A sound coding apparatus, a voice decoding apparatus, a speech coding method, a speech decoding method, a recording medium recording a sound coding program and a voice decoding program
TW101124694A TWI384461B (zh) 2009-04-03 2010-04-02 A sound decoding apparatus, a sound decoding method, and a recording medium on which a voice decoding program is recorded

Country Status (21)

Country Link
US (5) US8655649B2 (zh)
EP (5) EP2503547B1 (zh)
JP (1) JP4932917B2 (zh)
KR (7) KR101530295B1 (zh)
CN (6) CN102737640B (zh)
AU (1) AU2010232219B8 (zh)
BR (1) BRPI1015049B1 (zh)
CA (4) CA2757440C (zh)
CY (1) CY1114412T1 (zh)
DK (2) DK2509072T3 (zh)
ES (5) ES2587853T3 (zh)
HR (1) HRP20130841T1 (zh)
MX (1) MX2011010349A (zh)
PH (4) PH12012501118B1 (zh)
PL (2) PL2503548T3 (zh)
PT (3) PT2503548E (zh)
RU (6) RU2498421C2 (zh)
SG (2) SG10201401582VA (zh)
SI (1) SI2503548T1 (zh)
TW (6) TWI478150B (zh)
WO (1) WO2010114123A1 (zh)

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
WO2011048798A1 (ja) * 2009-10-20 2011-04-28 パナソニック株式会社 符号化装置、復号化装置およびこれらの方法
KR101430118B1 (ko) * 2010-04-13 2014-08-18 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 또는 비디오 인코더, 오디오 또는 비디오 디코더 그리고 가변적인 예상 방향을 이용하여 멀티-채널 오디오 또는 비디오 신호들을 프로세싱하기 위한 관련 방법들
MX2013007489A (es) * 2010-12-29 2013-11-20 Samsung Electronics Co Ltd Aparato y metodo para codificacion/decodificacion para extension de ancho de banda de alta frecuencia.
CA3147525A1 (en) * 2011-02-18 2012-08-23 Ntt Docomo, Inc. Speech decoder, speech encoder, speech decoding method, speech encoding method, speech decoding program, and speech encoding program
CN103918029B (zh) * 2011-11-11 2016-01-20 杜比国际公司 使用过采样谱带复制的上采样
JP5997592B2 (ja) * 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
JP6200034B2 (ja) * 2012-04-27 2017-09-20 株式会社Nttドコモ 音声復号装置
CN102737647A (zh) * 2012-07-23 2012-10-17 武汉大学 双声道音频音质增强编解码方法及装置
EP2704142B1 (en) * 2012-08-27 2015-09-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing an audio signal, apparatus and method for generating a coded audio signal, computer program and coded audio signal
CN103730125B (zh) * 2012-10-12 2016-12-21 华为技术有限公司 一种回声抵消方法和设备
CN103928031B (zh) 2013-01-15 2016-03-30 华为技术有限公司 编码方法、解码方法、编码装置和解码装置
PL2939235T3 (pl) 2013-01-29 2017-04-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Adaptacyjna względem tonalności kwantyzacja o niskiej złożoności sygnału audio
MX346945B (es) * 2013-01-29 2017-04-06 Fraunhofer Ges Forschung Aparato y metodo para generar una señal de refuerzo de frecuencia mediante una operacion de limitacion de energia.
US9711156B2 (en) * 2013-02-08 2017-07-18 Qualcomm Incorporated Systems and methods of performing filtering for gain determination
KR102148407B1 (ko) * 2013-02-27 2020-08-27 한국전자통신연구원 소스 필터를 이용한 주파수 스펙트럼 처리 장치 및 방법
TWI477789B (zh) * 2013-04-03 2015-03-21 Tatung Co 資訊擷取裝置及其發送頻率調整方法
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
JP6305694B2 (ja) * 2013-05-31 2018-04-04 クラリオン株式会社 信号処理装置及び信号処理方法
FR3008533A1 (fr) 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
CN110070877B (zh) * 2013-07-18 2022-11-11 日本电信电话株式会社 线性预测分析装置、线性预测分析方法以及记录介质
EP2830059A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise filling energy adjustment
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
WO2015017223A1 (en) * 2013-07-29 2015-02-05 Dolby Laboratories Licensing Corporation System and method for reducing temporal artifacts for transient signals in a decorrelator circuit
CN105761723B (zh) 2013-09-26 2019-01-15 华为技术有限公司 一种高频激励信号预测方法及装置
CN104517610B (zh) 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
AU2014336356B2 (en) 2013-10-18 2017-04-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information
EP3779982A1 (en) 2013-10-18 2021-02-17 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung E.V. Concept of encoding an audio signal and decoding an audio signal using deterministic and noise like information
CN105706166B (zh) * 2013-10-31 2020-07-14 弗劳恩霍夫应用研究促进协会 对比特流进行解码的音频解码器设备和方法
KR20160087827A (ko) * 2013-11-22 2016-07-22 퀄컴 인코포레이티드 고대역 코딩에서의 선택적 위상 보상
JP6319753B2 (ja) 2013-12-02 2018-05-09 華為技術有限公司Huawei Technologies Co.,Ltd. 符号化方法および装置
US10163447B2 (en) * 2013-12-16 2018-12-25 Qualcomm Incorporated High-band signal modeling
RU2662693C2 (ru) * 2014-02-28 2018-07-26 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство декодирования, устройство кодирования, способ декодирования и способ кодирования
JP6035270B2 (ja) * 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
RU2673691C1 (ru) 2014-04-25 2018-11-29 Нтт Докомо, Инк. Устройство преобразования коэффициентов линейного предсказания и способ преобразования коэффициентов линейного предсказания
CN110491401B (zh) * 2014-05-01 2022-10-21 日本电信电话株式会社 周期性综合包络序列生成装置、方法、记录介质
WO2016024853A1 (ko) * 2014-08-15 2016-02-18 삼성전자 주식회사 음질 향상 방법 및 장치, 음성 복호화방법 및 장치와 이를 채용한 멀티미디어 기기
US9659564B2 (en) * 2014-10-24 2017-05-23 Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayi Ticaret Anonim Sirketi Speaker verification based on acoustic behavioral characteristics of the speaker
US9455732B2 (en) * 2014-12-19 2016-09-27 Stmicroelectronics S.R.L. Method and device for analog-to-digital conversion of signals, corresponding apparatus
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
CA2982017A1 (en) * 2015-04-10 2016-10-13 Thomson Licensing Method and device for encoding multiple audio signals, and method and device for decoding a mixture of multiple audio signals with improved separation
PT3443557T (pt) * 2016-04-12 2020-08-27 Fraunhofer Ges Forschung Codificador de áudio para codificar um sinal de áudio, método para codificar um sinal de áudio e programa de computador sob consideração de uma região espectral de pico detetada numa banda de frequência superior
WO2017196382A1 (en) * 2016-05-11 2017-11-16 Nuance Communications, Inc. Enhanced de-esser for in-car communication systems
DE102017204181A1 (de) 2017-03-14 2018-09-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sender zum Emittieren von Signalen und Empfänger zum Empfangen von Signalen
EP3382701A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
EP3382700A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483880A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
US11275556B2 (en) * 2018-02-27 2022-03-15 Zetane Systems Inc. Method, computer-readable medium, and processing unit for programming using transforms on heterogeneous data
US10810455B2 (en) 2018-03-05 2020-10-20 Nvidia Corp. Spatio-temporal image metric for rendered animations
CN109243485B (zh) * 2018-09-13 2021-08-13 广州酷狗计算机科技有限公司 恢复高频信号的方法和装置
KR102603621B1 (ko) * 2019-01-08 2023-11-16 엘지전자 주식회사 신호 처리 장치 및 이를 구비하는 영상표시장치
CN113192523A (zh) * 2020-01-13 2021-07-30 华为技术有限公司 一种音频编解码方法和音频编解码设备
JP6872056B2 (ja) * 2020-04-09 2021-05-19 株式会社Nttドコモ 音声復号装置および音声復号方法
CN113190508B (zh) * 2021-04-26 2023-05-05 重庆市规划和自然资源信息中心 一种面向管理的自然语言识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005521907A (ja) * 2002-03-28 2005-07-21 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 不完全なスペクトルを持つオーディオ信号の周波数変換に基づくスペクトルの再構築
WO2008046505A1 (de) * 2006-10-18 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines informationssignals
JP2008535025A (ja) * 2005-04-01 2008-08-28 クゥアルコム・インコーポレイテッド 音声信号を帯域分割符合化する方法及び装置

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
RU2256293C2 (ru) * 1997-06-10 2005-07-10 Коудинг Технолоджиз Аб Усовершенствование исходного кодирования с использованием дублирования спектральной полосы
DE19747132C2 (de) 1997-10-24 2002-11-28 Fraunhofer Ges Forschung Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
SE0001926D0 (sv) * 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US8782254B2 (en) * 2001-06-28 2014-07-15 Oracle America, Inc. Differentiated quality of service context assignment and propagation
EP1444688B1 (en) * 2001-11-14 2006-08-16 Matsushita Electric Industrial Co., Ltd. Encoding device and decoding device
US7469206B2 (en) * 2001-11-29 2008-12-23 Coding Technologies Ab Methods for improving high frequency reconstruction
US7555434B2 (en) * 2002-07-19 2009-06-30 Nec Corporation Audio decoding device, decoding method, and program
JP3646939B1 (ja) * 2002-09-19 2005-05-11 松下電器産業株式会社 オーディオ復号装置およびオーディオ復号方法
US7519538B2 (en) * 2003-10-30 2009-04-14 Koninklijke Philips Electronics N.V. Audio signal encoding or decoding
US7668711B2 (en) * 2004-04-23 2010-02-23 Panasonic Corporation Coding equipment
TWI393120B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 用於音訊信號編碼及解碼之方法和系統、音訊信號編碼器、音訊信號解碼器、攜帶有位元流之電腦可讀取媒體、及儲存於電腦可讀取媒體上的電腦程式
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US7045799B1 (en) 2004-11-19 2006-05-16 Varian Semiconductor Equipment Associates, Inc. Weakening focusing effect of acceleration-deceleration column of ion implanter
WO2006108543A1 (en) * 2005-04-15 2006-10-19 Coding Technologies Ab Temporal envelope shaping of decorrelated signal
US9043214B2 (en) * 2005-04-22 2015-05-26 Qualcomm Incorporated Systems, methods, and apparatus for gain factor attenuation
JP4339820B2 (ja) * 2005-05-30 2009-10-07 太陽誘電株式会社 光情報記録装置および方法および信号処理回路
US20070006716A1 (en) * 2005-07-07 2007-01-11 Ryan Salmond On-board electric guitar tuner
DE102005032724B4 (de) * 2005-07-13 2009-10-08 Siemens Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
JP4921365B2 (ja) 2005-07-15 2012-04-25 パナソニック株式会社 信号処理装置
US7953605B2 (en) * 2005-10-07 2011-05-31 Deepen Sinha Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension
JP5457171B2 (ja) * 2006-03-20 2014-04-02 オランジュ オーディオデコーダ内で信号を後処理する方法
KR100791846B1 (ko) * 2006-06-21 2008-01-07 주식회사 대우일렉트로닉스 오디오 복호기
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
CN101140759B (zh) * 2006-09-08 2010-05-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
JP4918841B2 (ja) 2006-10-23 2012-04-18 富士通株式会社 符号化システム
WO2009029037A1 (en) * 2007-08-27 2009-03-05 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive transition frequency between noise fill and bandwidth extension
WO2009059632A1 (en) * 2007-11-06 2009-05-14 Nokia Corporation An encoder
KR101413967B1 (ko) 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화 방법 및 복호화 방법, 및 그에 대한 기록 매체, 오디오 신호의 부호화 장치 및 복호화 장치
KR101413968B1 (ko) * 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
KR101475724B1 (ko) * 2008-06-09 2014-12-30 삼성전자주식회사 오디오 신호 품질 향상 장치 및 방법
KR20100007018A (ko) * 2008-07-11 2010-01-22 에스앤티대우(주) 피스톤밸브 어셈블리 및 이를 포함하는 연속 감쇠력 가변형댐퍼
US8352279B2 (en) * 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
US8532998B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Selective bandwidth extension for encoding/decoding audio/speech signal
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005521907A (ja) * 2002-03-28 2005-07-21 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 不完全なスペクトルを持つオーディオ信号の周波数変換に基づくスペクトルの再構築
JP2008535025A (ja) * 2005-04-01 2008-08-28 クゥアルコム・インコーポレイテッド 音声信号を帯域分割符合化する方法及び装置
WO2008046505A1 (de) * 2006-10-18 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines informationssignals

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MORIYA, Takehiro, "audio encoding art and MPEG standard", Journal of the Institute of Electrical Engineers of Japan, Vol.127, No.7 (2007-07), and pp.407-410 *

Also Published As

Publication number Publication date
US9064500B2 (en) 2015-06-23
CA2844441C (en) 2016-03-15
CA2844635A1 (en) 2010-10-07
TW201126515A (en) 2011-08-01
SG10201401582VA (en) 2014-08-28
TW201243833A (en) 2012-11-01
PL2503546T4 (pl) 2017-01-31
RU2011144573A (ru) 2013-05-10
EP2503548A1 (en) 2012-09-26
RU2012130461A (ru) 2014-02-10
CN102737640A (zh) 2012-10-17
CN102737640B (zh) 2014-08-27
TW201243831A (en) 2012-11-01
KR101702412B1 (ko) 2017-02-03
US20130138432A1 (en) 2013-05-30
SG174975A1 (en) 2011-11-28
EP2503547A1 (en) 2012-09-26
CN102779522A (zh) 2012-11-14
EP2416316A1 (en) 2012-02-08
TWI379288B (zh) 2012-12-11
RU2595915C2 (ru) 2016-08-27
CA2844438C (en) 2016-03-15
CN102779520A (zh) 2012-11-14
EP2509072B1 (en) 2016-10-19
MX2011010349A (es) 2011-11-29
TW201243830A (en) 2012-11-01
PH12012501116A1 (en) 2015-08-03
CY1114412T1 (el) 2016-08-31
TW201243832A (en) 2012-11-01
KR101702415B1 (ko) 2017-02-03
CA2844441A1 (en) 2010-10-07
ES2428316T3 (es) 2013-11-07
EP2503547B1 (en) 2016-05-11
US9779744B2 (en) 2017-10-03
KR101172325B1 (ko) 2012-08-14
PT2509072T (pt) 2016-12-13
EP2416316B1 (en) 2014-01-08
PL2503548T3 (pl) 2013-11-29
AU2010232219B2 (en) 2012-11-22
ES2453165T9 (es) 2014-05-06
KR20160137668A (ko) 2016-11-30
EP2503548B1 (en) 2013-06-19
PH12012501116B1 (en) 2015-08-03
EP2416316A4 (en) 2012-09-12
KR101172326B1 (ko) 2012-08-14
EP2503546A1 (en) 2012-09-26
RU2498420C1 (ru) 2013-11-10
ES2453165T3 (es) 2014-04-04
PT2503548E (pt) 2013-09-20
US20140163972A1 (en) 2014-06-12
DK2503548T3 (da) 2013-09-30
RU2595914C2 (ru) 2016-08-27
AU2010232219B8 (en) 2012-12-06
EP2503546B1 (en) 2016-05-11
CN102379004A (zh) 2012-03-14
PH12012501119B1 (en) 2015-05-18
RU2012130472A (ru) 2013-09-10
CN102779523B (zh) 2015-04-01
PH12012501118A1 (en) 2015-05-11
CN102779521A (zh) 2012-11-14
KR20120079182A (ko) 2012-07-11
RU2012130462A (ru) 2013-09-10
PH12012501117B1 (en) 2015-05-11
RU2498422C1 (ru) 2013-11-10
CA2757440C (en) 2016-07-05
PH12012501119A1 (en) 2015-05-18
PH12012501118B1 (en) 2015-05-11
AU2010232219A1 (en) 2011-11-03
EP2509072A1 (en) 2012-10-10
TWI479479B (zh) 2015-04-01
JP2011034046A (ja) 2011-02-17
HRP20130841T1 (hr) 2013-10-25
US10366696B2 (en) 2019-07-30
KR101530295B1 (ko) 2015-06-19
ES2586766T3 (es) 2016-10-18
US9460734B2 (en) 2016-10-04
TWI478150B (zh) 2015-03-21
PH12012501117A1 (en) 2015-05-11
CN102779522B (zh) 2015-06-03
KR20120080258A (ko) 2012-07-16
BRPI1015049B1 (pt) 2020-12-08
CA2844438A1 (en) 2010-10-07
RU2498421C2 (ru) 2013-11-10
PT2416316E (pt) 2014-02-24
CN102379004B (zh) 2012-12-12
TWI479480B (zh) 2015-04-01
CA2757440A1 (en) 2010-10-07
KR101530294B1 (ko) 2015-06-19
US20160365098A1 (en) 2016-12-15
ES2587853T3 (es) 2016-10-27
KR20110134442A (ko) 2011-12-14
PL2503546T3 (pl) 2016-11-30
TWI384461B (zh) 2013-02-01
TW201246194A (en) 2012-11-16
US20120010879A1 (en) 2012-01-12
KR20120082475A (ko) 2012-07-23
RU2595951C2 (ru) 2016-08-27
RU2012130466A (ru) 2014-01-27
KR101530296B1 (ko) 2015-06-19
JP4932917B2 (ja) 2012-05-16
US20160358615A1 (en) 2016-12-08
CN102779521B (zh) 2015-01-28
CN102779520B (zh) 2015-01-28
SI2503548T1 (sl) 2013-10-30
US8655649B2 (en) 2014-02-18
CN102779523A (zh) 2012-11-14
RU2012130470A (ru) 2014-01-27
KR20120080257A (ko) 2012-07-16
DK2509072T3 (en) 2016-12-12
ES2610363T3 (es) 2017-04-27
KR20120082476A (ko) 2012-07-23
WO2010114123A1 (ja) 2010-10-07
CA2844635C (en) 2016-03-29

Similar Documents

Publication Publication Date Title
TWI476763B (zh) A sound decoding apparatus, a sound decoding method, and a recording medium on which a voice decoding program is recorded
JP5588547B2 (ja) 音声復号装置、音声復号方法、及び音声復号プログラム
BR122012021669B1 (pt) dispositivos e métodos de decodificação de voz e memórias capazes de serem lidas por computador