TW201923755A - 音調滯後選擇技術 - Google Patents

音調滯後選擇技術 Download PDF

Info

Publication number
TW201923755A
TW201923755A TW107139704A TW107139704A TW201923755A TW 201923755 A TW201923755 A TW 201923755A TW 107139704 A TW107139704 A TW 107139704A TW 107139704 A TW107139704 A TW 107139704A TW 201923755 A TW201923755 A TW 201923755A
Authority
TW
Taiwan
Prior art keywords
value
correlation
lag
estimate
measurement value
Prior art date
Application number
TW107139704A
Other languages
English (en)
Other versions
TWI728277B (zh
Inventor
艾曼紐 拉斐里
馬汀 迪茲
麥可 史納貝
亞瑟 翠特哈特
亞歷山大 奇齊卡林斯基
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW201923755A publication Critical patent/TW201923755A/zh
Application granted granted Critical
Publication of TWI728277B publication Critical patent/TWI728277B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3059Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression
    • H03M7/3064Segmenting
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6005Decoder aspects
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6011Encoder aspects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

提出用於選擇音調滯後之技術(例如,設備、方法、程式)。一種用於對包括複數個訊框之一資訊信號進行編碼之設備。該設備可包含經組配以獲得一第一估計值之一第一估計器(T1),該第一估計值為一當前訊框之一音調滯後之一估計值。該設備可包含經組配以獲得一第二估計值(T2)之一第二估計器,該第二估計值為該當前訊框之一音調滯後之另一估計值。一選擇器可經組配以藉由基於一第一相關性量測值及一第二相關性量測值在該第一估計值(T1)與該第二估計值(T2)之間執行一選擇而選擇一所選值(Tbest)。可藉由在該前一訊框處選擇之該音調滯後改良該第二估計器以便獲得該當前訊框之該第二估計值(T2)。該選擇器可經組配以在以下兩者之間執行一比較:與該當前訊框相關聯且在對應於該第一估計值(T1)之一滯後處獲得之一第一相關性量測值之一縮小版本;及與該當前訊框相關聯且在對應於該第二估計值(T2)之一滯後處獲得之一第二相關性量測值。因此,有可能在該第二相關性量測值小於該第一相關性量測值之該縮小版本時選擇該第一估計值(T1),及/或在該第二相關性量測值大於該第一相關性量測值之該縮小版本時選擇該第二估計值(T2)。該第一相關性量測值與該第二相關性量測值中之至少一者可為一自相關量測值及/或一正規化自相關量測值。

Description

音調滯後選擇技術
發明領域
在此提供能夠執行低複雜度音調偵測程序,例如以供長期後濾波LTPF編碼之方法及設備之實例。
例如,實例能夠選擇資訊信號,例如音訊信號之音調滯後,例如以用於執行LTPF。
發明背景
基於變換之音訊編解碼器在處理諧波音訊信號時,特定言之以低延遲及低位元率處理諧波音訊信號時,通常引入間諧波雜訊。當主觀地評估高音調音訊材料之間諧波雜訊時,此間諧波雜訊通常以非常令人煩惱的假影形式感知到,顯著降低了基於變換之音訊編解碼器之效能。
長期後濾波(Long Term Post Filtering,LTPF)為有助於減小此間諧波雜訊之基於變換之音訊寫碼工具。其依賴於在變換解碼之後應用於時域信號之後濾波器。此後濾波器基本上為無限脈衝回應(infinite impulse response,IIR)濾波器,其中梳狀頻率回應由兩個參數控制:音調滯後及增益。
為了更佳之穩固性,在編碼器側處估計後濾波器參數(每個訊框之音調滯後及/或增益)且當增益非零時以位元流進行編碼。零增益狀況以一個位元進行發信且對應於非主動後濾波器,在信號不含有諧波部分時使用。
首先將LTPF引入3GPP EVS標準[1]中且隨後整合至MPEG-H3D音訊標準[2]。對應專利為[3]及[4]。
音調偵測演算法估計每個訊框之一個音調滯後。通常在低取樣速率(例如6.4 kHz)下執行該操作以便降低複雜度。其應理想地提供準確、穩定且持續性估計。
當用於LTPF編碼時,具有連續音調輪廓係最重要的,否則可在經LTPF濾波之輸出信號中聽到一些不穩定性假影。不具有真實基本頻率F0 (例如具有基本頻率之倍數)不太重要,由於其並不導致嚴重假影,但替代地會引起LTPF效能之略微劣化。
音調偵測演算法之另一重要特性為其計算複雜度。當實施於以低功率裝置或甚至超低功率裝置為目標之音訊編解碼器中時,其計算複雜度應儘可能低。
先前技術
存在可在公共領域中發現之LTPF編碼器之實例。其描述於3GPP EVS標準[1]中。此實施方案使用描述於標準規格之5.1.10節中之音調偵測演算法。此音調偵測演算法具有良好效能且與LTPF一起很好地起作用,由於其產生極穩定且連續之音調輪廓。然而,其主要缺陷為複雜度相對高。
即使其從未用於LTPF編碼,其他現有音調偵測演算法理論上亦可用於LTPF。一個實例為YIN [6],常常被公認為最準確演算法中之一者的音調偵測演算法。然而,YIN極其複雜,甚至明顯複雜於[1]中之演算法。
值得提到之另一實例為3GPP AMR-WB標準[7]中所使用之音調偵測演算法,其複雜度顯著低於[1]中之演算法,並且效能較差,其特定言之產生較不穩定及連續之音調輪廓。
先前技術包含以下揭示內容:
[1] 3GPP TS 26.445;用於增強型話音服務(Enhanced Voice Service,EVS)之編解碼器;詳細演算法描述。
[2] ISO/IEC 23008-3:2015年;資訊技術--異質環境中之高效率寫碼及媒體遞送--第3部分:3D音訊。
[3] Ravelli等人,「用於使用諧波後置濾波器處理音訊信號之設備及方法(Apparatus and method for processing an audio signal using a harmonic post-filter)」,美國專利申請案第2017/0140769 A1號,2017年5月18日。
[4] Markovic等人,「諧波濾波器工具之調和性相依性控制(Harmonicity-dependent controlling of a harmonic filter tool)」,美國專利申請案第2017/0133029A1號,2017年5月11日。
[5] ITU-T G.718:8至32 kbit/s之對語音及音訊之嵌入訊框誤差穩固窄頻及寬頻之可變位元率寫碼。
[6] De Cheveigné, Alain及Hideki Kawahara.,「YIN,用於語音及音樂之基本頻率估計器(YIN, a fundamental frequency estimator for speech and music)」,美國聲學協會期刊111.4 (2002):1917至1930。
[7] 3GPP TS 26.190;語音編解碼器語音處理功能;自適應多重速率寬頻(AMR-WB)語音編解碼器;轉碼功能。
然而,存在應改善音調滯後估計之一些狀況。
當前低複雜度音調偵測演算法(如[7]中之演算法)具有對於LTPF,特定言之對於複雜信號,如複音音樂而言並不令人滿意的效能。音調輪廓可極其不穩定,甚至在不變音期間極其不穩定。此係歸因於在加權自相關函數之局部最大值之間的跳轉。
因此,需要獲得相較於先前技術更適合於複雜信號,具有相同或更低複雜度之音調滯後估計。
發明概要
根據實例,提供有一種用於對包括複數個訊框之資訊信號進行編碼之設備,該設備包含:
第一估計器,其經組配以獲得第一估計值,該第一估計值為當前訊框之音調滯後之估計值;
第二估計器,其經組配以獲得第二估計值,該第二估計值為該當前訊框之音調滯後之另一估計值,
選擇器,其經組配以藉由基於第一相關性量測值及第二相關性量測值在該第一估計值與該第二估計值之間執行選擇而選擇所選值,
其中藉由在該前一訊框處選擇之該音調滯後改良該第二估計器以便獲得該當前訊框之該第二估計值,
其特徵在於該選擇器經組配以:
在以下兩者之間執行比較:
與該當前訊框相關聯且在對應於該第一估計值之滯後處獲得之第一相關性量測值之縮小版本;及
與該當前訊框相關聯且在對應於該第二估計值之滯後處獲得之第二相關性量測值,
以便在該第二相關性量測值小於該第一相關性量測值之該縮小版本時選擇該第一估計值,及/或
在該第二相關性量測值大於該第一相關性量測值之該縮小版本時選擇該第二估計值,
其中該第一相關性量測值與該第二相關性量測值中之至少一者為一自相關量測值及/或一正規化自相關量測值。
根據實例,提供有一種用於將資訊信號編碼成包括複數個訊框之位元流(63)之設備,該設備(60a)包含:
偵測單元,其包含:
第一估計器,其經組配以獲得第一估計值,該第一估計值為當前訊框之音調滯後之估計值;
第二估計器,其經組配以獲得第二估計值,該第二估計值為該當前訊框之音調滯後之另一估計值,其中藉由在該前一訊框處選擇之該音調滯後改良該第二估計器以便獲得該當前訊框之該第二估計值;
選擇器,其經組配以藉由基於至少一個相關性量測值在該第一估計值與該第二估計值之間執行選擇而選擇所選值,其中該選擇器經組配以在以下兩者之間執行比較:
與該當前訊框相關聯且在對應於該第二估計值之滯後處獲得之第二相關性量測值;及
音調滯後選擇臨限值,
以便在該第二相關性量測值大於該音調滯後選擇臨限值時選擇該第二估計值;及/或
在該第二相關性量測值低於該音調滯後選擇臨限值時選擇該第一估計值;以及
長期後濾波LTPF工具,其經組配以對適用於在解碼器處執行LTPF之資料進行編碼,該資料適用於執行LTPF,包括該所選值。
根據實例,提供有一種用於對包括複數個訊框之資訊信號進行編碼之設備,該設備包含:
第一估計器,其經組配以獲得第一估計值,該第一估計值為當前訊框之音調滯後之估計值;
第二估計器,其經組配以獲得第二估計值,該第二估計值為該當前訊框之音調滯後之另一估計值,
選擇器,其經組配以藉由基於至少一個相關性量測值在該第一估計值與該第二估計值之間執行選擇而選擇所選值,
其中藉由在該前一訊框處選擇之該音調滯後改良該第二估計器以便獲得該當前訊框之該第二估計值。
根據實例,該選擇器經組配以在以下兩者之間執行比較:
與該當前訊框相關聯且在對應於該第二估計值之滯後處獲得之第二相關性量測值;及
音調滯後選擇臨限值,
以便在該第二相關性量測值大於該音調滯後選擇臨限值時選擇該第二估計值;及/或
在該第二相關性量測值低於該音調滯後選擇臨限值時選擇該第一估計值。
根據實例,該選擇器經組配以在以下兩者之間執行比較:
與該當前訊框相關聯且在對應於該第一估計值之滯後處獲得之第一相關性量測值;及
與該當前訊框相關聯且在對應於該第二估計值之滯後處獲得之第二相關性量測值,
以便在該第一相關性量測值至少大於該第二相關性量測值時選擇該第一估計值,及/或
在該第一相關性量測值至少低於該第二相關性量測值時選擇該第二估計值。
根據實例,該選擇器經組配以:
在以下兩者之間執行比較:
與該當前訊框相關聯且在對應於該第一估計值之滯後處獲得之第一相關性量測值之縮小版本;及
與該當前訊框相關聯且在對應於該第二估計值之滯後處獲得之第二相關性量測值,
以便在該第二相關性量測值小於該第一相關性量測值之該縮小版本時選擇該第一估計值,及/或
在該第二相關性量測值大於該第一相關性量測值之該縮小版本時選擇該第二估計值。
根據實例,該第一相關性量測值與該第二相關性量測值中之至少一者為自相關量測值及/或正規化自相關量測值。
可實施用以生成資訊信號之表示或其之一經處理版本之變換寫碼器。
根據實例,該第二估計器經組配以:
藉由搜索含有針對該前一訊框選擇之該音調滯後之第二子區間中使第二相關性函數最大化之滯後而獲得該第二估計值。
根據實例,該第二子區間含有距離內自針對該前一訊框選擇之該音調滯後小於預定義滯後數值臨限值之滯後。
根據實例,該第二估計器經組配以:
搜索該等第二相關性函數值當中之一最大值以使該第二估計值與與該等第二相關性函數值當中之該最大值相關聯之該滯後相關聯。
根據實例,該第一估計器經組配以:
獲得該第一估計值作為使與該當前訊框相關聯之第一相關性函數最大化之滯後。
根據實例,該第一相關性函數限於第一子區間中之滯後。
根據實例,該第一子區間含有大於該第二子區間之多個滯後,及/或該第二子區間中之滯後中之至少一些包含於該第一子區間中。
根據實例,該第一估計器經組配以:
在搜索使該第一相關性函數最大化之該滯後之前使用單調減權函數對該第一相關性函數之相關性量測值進行加權。
根據實例,該第二相關性量測值與該第一相關性量測值中之至少一者為自相關函數及/或正規化自相關函數。
根據實例,該第一估計器經組配以藉由執行以下操作中之至少一些而獲得該第一估計值1




為加權函數,與最小滯後及最大滯後相關聯,為基於該資訊信號估計之自相關量測值或其之經處理版本,且N為訊框長度。
根據實例,該第二估計器經組配以藉由執行以下操作而獲得該第二估計值2

其中為該先前訊框中所選之該估計值,且為與最小滯後及最大滯後相關聯之自以及之距離。
根據實例,該選擇器經組配以關於以下各者執行該音調滯後估計值 之選擇

其中1 為該第一估計值,2 為該第二估計值,為資訊信號或其之經處理版本之值,normcorr(,,)為在滯後處長度為之信號之正規化相關性量測值,為按比例縮小係數。
根據實例,提供有該選擇器下游之用於在解碼器設備處控制長期後濾波器之長期後濾波LTPF工具。
根據實例,資訊信號為音訊信號。
根據實例,該設備經組配以獲得該第一相關性量測值以作為該當前訊框之調和性之量測值且獲得該第二相關性量測值以作為限於針對該前一訊框限定之子區間的該當前訊框之調和性之量測值。
根據實例,該設備經組配以使用高達加權函數之相同相關性函數獲得第一相關性量測值與第二相關性量測值。
根據實例,該設備經組配以獲得該第一相關性量測值作為高達加權函數之該第一估計值之正規化版本。
根據實例,該設備經組配以獲得該第二相關性量測值作為該第二估計值之正規化版本。
根據實例,提供一種包含編碼器側及解碼器側之系統,該編碼器側如上,該解碼器側包含基於由該選擇器選擇之音調滯後估計值而經控制之長期後濾波工具。
根據實例,提供一種用於判定劃分成訊框之信號之音調滯後之方法,包含:
對當前訊框執行第一估計;
對該當前訊框執行第二估計;以及
基於至少一個相關性量測值在該第一估計處獲得之該第一估計值與該第二估計處獲得之該第二估計值之間進行選擇,
其中基於在該前一訊框處執行之選擇步驟之結果而獲得執行該第二估計。
根據實例,該方法可包含使用針對長期後濾波LTPF選擇之滯後。
根據實例,該方法可包含使用針對封包丟失隱藏PLC選擇之滯後。
根據實例,提供一種用於判定劃分成訊框之信號之音調滯後之方法,包含:
對當前訊框執行第一估計;
對該當前訊框執行第二估計;以及
基於相關性量測值在該第一估計處獲得之該第一估計值與該第二估計處獲得之該第二估計值之間進行選擇,
其中基於在該前一訊框處執行之選擇步驟之結果而獲得執行該第二估計,
其特徵在於選擇包括在以下兩者之間執行比較:
與該當前訊框相關聯且在對應於該第一估計值之滯後處獲得之第一相關性量測值之縮小版本;及
與該當前訊框相關聯且在對應於該第二估計值之滯後處獲得之第二相關性量測值;以及
在該第二相關性量測值小於該第一相關性量測值之該縮小版本時選擇該第一估計值,及/或在該第二相關性量測值大於該第一相關性量測值之該縮小版本時選擇該第二估計值,
其中該第一相關性量測值與該第二相關性量測值中之至少一者為自相關量測值及/或正規化自相關量測值。
根據實例,提供一種用於對劃分成訊框之信號之位元流進行編碼之方法,包含:
對當前訊框執行第一估計;
對該當前訊框執行第二估計;以及
基於至少一個相關性量測值在該第一估計處獲得之該第一估計值與該第二估計處獲得之該第二估計值之間進行選擇,
其中基於在該前一訊框處執行之選擇步驟之結果而獲得執行該第二估計,
其中選擇包括在以下兩者之間執行比較:
與該當前訊框相關聯且在對應於該第二估計值之滯後處獲得之第二相關性量測值;及
音調滯後選擇臨限值,
在該第二相關性量測值大於該音調滯後選擇臨限值時選擇該第二估計值及/或在該第二相關性量測值低於該音調滯後選擇臨限值時選擇該第一估計值;且
該方法進一步包含對適用於在解碼器處執行LTPF之資料,該所選值進行編碼。
根據實例,提供一種包含指令之程式,該等指令在由處理器執行時致使該處理器執行以上或以下方法中之任一者。
較佳實施例之詳細說明
5. 選擇及估計之實例
揭示例如用於LTPF編碼及/或解碼之低複雜度音調偵測程序、系統及設備之實例。
資訊信號可在時域TD中描述為在不同離散時刻(n)獲取之一連串樣本(例如,x(n))。TD表示可包含複數個訊框,各自與複數個樣本相關聯。訊框可一個接一個地順次可見,使得當前訊框暫時在後一訊框之前且暫時在前一訊框之後。有可能反覆地進行操作,使得對當前訊框重複進行對前一訊框執行之操作。
在與當前訊框相關聯之反覆期間,有可能至少執行一些操作(例如,第二估計值),其藉由在與前一訊框相關聯之前述反覆處執行之選擇而得以改良。因此,考慮前一訊框處之信號之歷史,例如以用於選擇由解碼器使用的音調滯後以供執行長期後濾波(LTPF)。
5.1 根據實例之通用結構及函數
圖1a展示用於編碼資訊信號之設備10之一部分。設備10可包含第一估計器11,其經組配以執行第一估計過程以獲得當前訊框13之第一估計值14 (T1 )。設備10可包含第二估計器12,其經組配以執行第二估計過程以獲得當前訊框13之第二估計值16 (T2 )。設備10可包含選擇器17,其經組配以基於至少一個相關性量測值在第一估計值14與第二估計值16之間執行選擇18 (藉由元件17控制由開關17a表示之元件)。輸出(最終)估計值19 (Tbest )在第一估計值14與第二估計值16之間進行選擇且且可例如提供至解碼器,例如以用於執行LTPF。輸出(最終)估計值19將用作音調滯後以用於LTPF。
最終估計值(所選值) 19亦可輸入至暫存器19'且在對後續訊框執行反覆時作為輸入19''(Tprev )關於先前操作之選擇用於第二估計器12。對於各訊框13,第二估計器12基於前一訊框之先前最終估計值19''而獲得第二估計值16。
圖1b展示用於劃分成訊框之信號之方法100 (例如,用於判定待用於LPTF之最終音調滯後)。該方法包含在步驟S101處對當前訊框執行第一估計(音調滯後估計)。該方法包含在步驟S102處對當前訊框執行第二估計,該第二估計基於在前一訊框處操作之選擇(例如,在前一訊框處針對LTPF選擇之最終音調滯後)。該方法包含在步驟S103處基於至少一個相關性量測值在第一估計值14與第二估計值16之間進行選擇。
隨後,在步驟S104處,更新訊框:為「當前訊框」之訊框變為「前一訊框」,而新(後一)訊框變為新「當前訊框」。在更新之後,可重複該方法。
圖2展示用於編碼資訊信號之設備10 (其可與圖1a之設備相同)之一部分。在選擇器17中,第一量測器21可量測與當前訊框13相關聯之第一相關性(例如,正規化相關性) 23 (例如,第一估計值T1 之正規化自相關)。第二量測器22可量測與當前訊框13相關聯之第二相關性(例如,正規化相關性)25 (例如,第二估計值T2 之正規化自相關)。第一正規化相關性23可在縮放器26處縮小預定值α,其可例如為0.8與0.9之間的值,更詳言之為0.84與0.86之間的值,且其可為0.85。與當前訊框13相關聯之第二相關性(例如,正規化相關性) 25可例如與經縮放第一相關性24相比較(在實例中,縮放器26為視情況選用的且第一相關性未經縮放)。在第一估計值14 (T1 )與第二估計值16 (T2 )之間的選擇18係基於在比較器27處執行之比較。當第二相關性25大於經縮放第一相關性24時,第二估計值16作為音調滯後資訊選擇為所選輸出估計值19 (Tbest = T2 )以提供至解碼器(例如,用作用於LTPF之音調滯後)。當第二相關性25低於經縮放第一相關性24時,第一估計值14 (T1 )選擇為音調滯後資訊19 (Tbest = T1 )以提供至解碼器。
5.2 第一估計
在此論述在實例中可用於基於當前訊框13提供第一估計值14之第一估計器11之操作。方法30展示在圖3中。
步驟 1 . 重取樣第一階段 ( 步驟 S31 )
取樣速率下之輸入信號()經重取樣為較低取樣速率1 (例如1 =12.8 )。可使用例如典型增加取樣+低通+減少取樣方法來實施重取樣。在一些實例中,當前步驟為視情況選用的。
步驟 2 . 高通濾波 ( 步驟 S21 )
接著使用例如在50 Hz下截止為3 dB之2階IIR濾波器對經重取樣之信號進行高通濾波。所得信號被標記為1 ()。當前步驟在一些實例中為視情況選用的。
步驟 3 . 重取樣第 2 階段 ( 步驟 S33 )
使用例如4階FIR低通濾波器繼而使用抽選器進一步對信號1 ()減少取樣2倍。在取樣速率2 =1 /2 (例如2 = 6.4 )下之所得信號被標記為2 ()。當前步驟在一些實例中為視情況選用的。
步驟 4 . 自相關計算 ( 步驟 S34 )
可執行自相關過程。例如,自相關可藉由下式施加於2 ()

其中為訊框大小。 為用於擷取音調滯後之最小值及最大值(例如Tmin = 32及Tmax = 228)。Tmin 及Tmax 可因此構成其中發現第一估計值(當前訊框之音調滯後)之第一區間之極限值。
步驟 5 . 自相關加權 ( 步驟 S35 )
可對自相關進行加權以便強調較低音調滯後

其中()為遞減函數(例如,單調減函數),例如藉由下式給定

步驟 6 . 第一估計 ( 步驟 S36 )
第一估計值1 為使加權自相關最大化之值:

第一估計值1 可提供為第一估計器11之輸出14。此可為當前訊框之音調滯後之估計值。
(或其加權版本 ())為第一相關性函數之實例,其最大值與第一音調滯後估計值14 (T1 )相關聯。
5.3 第二估計
在此論述在實例中可用於基於當前訊框13及先前選擇(輸出)之估計值19''(針對前一訊框獲得之音調滯後)提供第二估計值16之第二估計器12之操作(及/或步驟S102)。方法40展示在圖4中。第二估計值16可不同於第一估計值14。另外,所估計音調滯後在一些實例中可不同於如先前估計之音調滯後。
參考圖5,根據實例,在步驟S41處,搜索限於滯後之所限群組,該等滯後在特定第二子區間52內。搜索係基於對應於(先前)所選值19''之滯後51。搜索限於第二子區間52中之滯後,其在值δ內(可例如選自2、3、4、5、6、7、8、9、10或另一正的自然數;在一些實例中,δ可為訊框長度之一百分比,使得若訊框具有N個樣本,則δ為N之1%與30%,詳言之15%與25%之間的百分比)。δ可為預定義滯後數值臨限值或預定百分比。
根據實例,在步驟S42處,例如藉由第二量測器22計算出子區間52內之自相關值。
根據實例,在步驟S42處,擷取自相關結果當中之最大值。第二估計值T2 為以先前所選值19''居中之第二子區間內之滯後當中使當前訊框之音調滯後之鄰域中之自相關最大化之值例如:

其中 為如先前(藉由選擇器17)選擇之最終音調滯後51 (19'')且為界定子區間52之常數(例如 = 4)。值T2 可提供為第二估計器12之輸出16。
值得注意地,第一估計值14與第二估計值16可明顯彼此不同。
(其域在此限於Tprev -δ與Tprev +δ之間)為第二相關性函數之實例,其最大值與第二音調滯後估計值16 (T2 )相關聯。
5.4 第一與第二相關性量測值
第一量測器21及/或第二量測器22可執行相關性量測。第一量測器21及/或第二量測器22可執行自相關量測。相關性及/或自相關量測值可經正規化。在此提供實例。
可為信號在音調滯後下之正規化相關性
因此,第一相關性量測值23可為normcorr(T1 ),其中T1 為第一估計值14,且第二相關性量測值25可為normcorr(T2 ),其中T2 為第二估計值16。
值得注意地,第一相關性量測值23為R(T1 ) (或Rw (T1 ))之正規化值,而第二相關性量測值25為R(T2 )之正規化值。
5.5 與臨限值之比較
現有可能給出如何比較相關性以用於執行選擇之實例。由下式提供實例:

可被視為音調滯後選擇臨限值24:若normcorr(T2 ) ≤ αnormcorr(T1 ),則選擇器選擇T1 ,否則選擇器選擇T2 。值Tbest (或與其相關聯之資訊)可因此為所選輸出值19 (如T1 或T2 )且提供至解碼器(例如,用於LTPF)且將由第二估計器12用作19''以用於獲得第二估計值16。
5.6 方法40
與方法30相關聯之方法40相對於僅基於方法30之技術提高效能。
在額外低複雜度情況下,有可能藉由使音調輪廓更穩定及連續而明顯改良效能。
方法40發現自相關函數之第二最大值。其並非如方法30中之全域最大值,而是前一訊框之音調滯後之鄰域中之局部最大值。若選擇此第二音調滯後,則產生平滑且連續的音調輪廓。然而,在所有狀況下均未選擇此第二音調滯後。若例如存在基本頻率之預期改變,則較佳保持該全域最大值。
最終選擇為選擇藉由方法30發現之第一音調滯後1 (14)還是藉由方法40發現之第二音調滯後2 (16)。此決策係基於週期性之量度。選擇正規化相關性作為週期性之量度。若信號完美地為週期性,則其為1,且若信號為非週期性,則其為0。若對應正規化相關性高於藉由參數縮放之第一音調滯後1 之正規化相關性,則選擇第二音調滯後2 。甚至在其正規化相關性略微低於第一音調滯後1 (14)之正規化相關性時,藉由選擇2 (16),此參數 < 1使決策甚至更流暢。
5.7 對技術之考量
參考圖5(1)至5(4)。
第一估計之實例展示在圖5(1)中:選擇對應於自相關函數之最大值之音調滯後。
其係基於以下事實:諧波信號(具有某一給定音調)之自相關性含有音調滯後及此音調滯後之所有倍數之位置處之峰值。
為了避免選擇對應於音調滯後之倍數之峰值,對自相關性函數進行加權,如在圖5(2)中,不太強調較高音調滯後。此例如用於[7]中。
接著假定加權自相關之全域最大值對應於信號之音調滯後。
一般而言,所採取之第一估計令人滿意地起作用:其在極大部分訊框中產生正確的音調。
若自相關函數(第一子區間)之滯後之數目相對低,則第一估計亦具有複雜度相對低之優點。
圖5(1)展示輸入信號之(未經加權)之自相關。
存在五個峰值:第一峰值53對應於音調滯後,且其他峰值對應於此音調滯後之倍數53'。
採用(未經加權)自相關之全域最大值在此狀況下將得到錯誤的音調滯後:將選擇該音調滯後之倍數,在此狀況下為正確的音調滯後之4倍。
然而,加權自相關(圖5(2))之全域最大值為正確的音調滯後。
第一估計在若干狀況下起作用。然而,存在產生不穩定估計值之一些狀況。
此等狀況中之一者為含有具有不同音調之若干聲調之混合物的複音音樂信號。在此狀況下,難以自多音調信號提取單個音調。第一估計器11可在彼狀況下估計一個訊框中聲調中之一者之音調(或甚至可為其之倍數),且在下一訊框中有可能估計另一聲調之音調(或其之倍數)。因此即使信號穩定(不同聲調之音調在訊框之間並不改變),藉由第一估計偵測到之音調亦可不穩定(音調在訊框之間明顯發生改變)。
此不穩定行為為LTPF之主要問題。當音調用於LTPF時,具有連續音調輪廓為最重要的,否則可在LTPF濾波輸出信號中聽到一些假影。
圖5(3)及5(4)說明此問題。
圖5(3)展示加權自相關及其在穩定多音調信號之訊框中之最大值。正確地在「20」處擷取音調滯後19'',與峰值54一致。
圖5(4)展示後續訊框中之最大值。
在此狀況下,前三個峰值54'、54''及54'''具有非常接近的振幅。因此,兩個連續訊框之間的極略微改變可明顯改變全域最大值及所估計音調滯後。
在本發明中所採用之解決方案解決了此等不穩定性問題。
除與訊框中之峰值相關聯之音調滯後以外,當前解決方案選擇接近於前一訊框之音調滯後之音調滯後。
例如,圖5(3)對應於前一訊框且圖5(4)對應於當前訊框。意欲驗證是否較佳在當前訊框中選擇約20之音調滯後(亦即,前一訊框之音調滯後19''或Tprev )而非如由第一估計器11給定之40之音調滯後。
為了這樣做,藉由估計使自相關函數最大化之約前一訊框之音調滯後子區間52 (Tprev -δ,Tprev +δ)之第二音調滯後T2 而執行第二估計(例如,藉由第二估計器12)。在圖5(4)之狀況下,此第二音調滯後T2 將為20 (第一音調滯後為40)。(即使在此狀況下T2 = Tprev ,此並非產生規則。一般而言,Tprev -δ ≤ T2 ≤ Tprev +δ)。值得注意地,在實例中,為了估計T2 ,自相關未經加權。
然而,並不想要在所有狀況下均選擇此第二音調滯後T2 。想要基於某一準則選擇第一音調滯後T1 或第二音調滯後T2 。此準則係基於正規化相關性(normalized correlation,NC),例如如藉由選擇器17所量測,其通常被視為信號在某一特定音調滯後處之週期性之良好量度(為0之NC意謂根本不具有週期性,為1之NC意謂完美地具有週期性)。
接著存在以下若干狀況:
- 若第二估計值T2 之NC高於第一估計值T1 之NC:可確定第二估計值T2 相較於第一估計值T1 較佳,由於第二估計值T2 具有較佳NC且其產生穩定決策(前一訊框之音調與當前訊框之音調非常接近),因此可安全地進行選擇。
- 若第二估計值T2 之NC比第一估計值之NC低得多:此指示前一訊框之音調19''並不對應於當前訊框中之任何週期性,信號不穩定且音調已改變,因此保持前一訊框之音調19''且試圖產生穩定決策沒有意義。在彼狀況下,忽略第二估計值T2 且選擇第一估計值T1
- 若第二估計值T2 之NC略微低於第一估計值T1 之NC:兩個估計值T1 及T2 之NC接近且在彼狀況下將偏好選擇產生穩定決策之估計值(亦即,第二估計值T2 ),即使其具有略微較差NC。參數α (α < 1)用於以下狀況:允許選擇第二估計值T2 ,即使其具有略微較低NC。此參數α之調諧允許將選擇朝向第一估計值T1 或第二估計值T2 偏置:較低值意謂將更常常選擇第二估計值(=該決策將更穩定)。0.85 (或0.8與0.9之間的值)為良好平衡點:其足夠經常地選擇第二估計值T2 ,使得決策對於LTPF足夠穩定。
除第一估計外提供之額外步驟(第二估計及選擇)具有非常低的複雜度。因此,所提出發明具有低複雜度。
6. 編碼/解碼系統之實例
圖6展示關於用於編碼/解碼之該等操作之區塊方案。方案展示包含編碼器60a (其可包含設備10)及解碼器60b之系統60。編碼器60a獲得輸入資訊信號61 (其可為音訊信號及/或可在訊框之間進行劃分,諸如當前訊框13及前一訊框)且準備位元流63。解碼器60b獲得位元流63 (例如,以無線方式,例如使用藍芽)以產生輸出信號68 (例如,音訊信號)。
編碼器60a可使用變換寫碼器62產生資訊信號61之頻域表示63a (或其處理版本)且以位元流63提供至解碼器60b。解碼器60b可包含變換解碼器以用於獲得輸出信號64a。
編碼器60a可使用偵測單元65產生適用於在解碼器60b處執行LTPF之資料。此等資料可包含音調滯後估計值(例如,19)及/或增益資訊。此等資料可在位元流63中經編碼為控制欄位中之資料63b。該資料63b (其可包含音調滯後之最終估計值19)可藉由LTPF寫碼器66 (其在一些實例中可決定是否對資料63b進行編碼)製備。此等資料可由LTPF解碼器67使用,LTPF解碼器可將其自變換解碼器64應用於輸出信號64a以獲得輸出信號68。
7. 例如用於LTPF之實例
7.1 編碼器處之參數(例如,LTPF參數)
在此提供LTPF參數(或其他類型之參數)之計算之實例。
在以下小節中提供製備用於LTPF之資訊之實例。
7.2.1. 重取樣
在此論述(視情況選用的)重取樣技術之實例(可使用其他技術)。
取樣速率 下之輸入信號可經重取樣為12.8 kHz之固定取樣速率。使用可公式化如下之增加取樣+低通濾波+減少取樣方法執行重取樣

其中指示交易值(捨入為以下整數),x(n)為輸入信號,x12 . 8 (n)為12.8 kHz下之經重取樣信號,為增加取樣因數且h6 . 4 為由下式給定之FIR低通濾波器之脈衝回應
在下表中提供tab_resamp_filter之實例:
double tab_resamp_filter[239] = {
-2.043055832879108e-05, -4.463458936757081e-05, -7.163663994481459e-05,
-1.001011132655914e-04, -1.283728480660395e-04, -1.545438297704662e-04,
-1.765445671257668e-04, -1.922569599584802e-04, -1.996438192500382e-04,
-1.968886856400547e-04, -1.825383318834690e-04, -1.556394266046803e-04,
-1.158603651792638e-04, -6.358930335348977e-05, +2.810064795067786e-19,
+7.292180213001337e-05, +1.523970757644272e-04, +2.349207769898906e-04,
+3.163786496265269e-04, +3.922117380894736e-04, +4.576238491064392e-04,
+5.078242936704864e-04, +5.382955231045915e-04, +5.450729176175875e-04,
+5.250221548270982e-04, +4.760984242947349e-04, +3.975713799264791e-04,
+2.902002172907180e-04, +1.563446669975615e-04, -5.818801416923580e-19,
-1.732527127898052e-04, -3.563859653300760e-04, -5.411552308801147e-04,
-7.184140229675020e-04, -8.785052315963854e-04, -1.011714513697282e-03,
-1.108767055632304e-03, -1.161345220483996e-03, -1.162601694464620e-03,
-1.107640974148221e-03, -9.939415631563015e-04, -8.216921898513225e-04,
-5.940177657925908e-04, -3.170746535382728e-04, +9.746950818779534e-19,
+3.452937604228947e-04, +7.044808705458705e-04, +1.061334465662964e-03,
+1.398374734488549e-03, +1.697630799350524e-03, +1.941486748731660e-03,
+2.113575906669355e-03, +2.199682452179964e-03, +2.188606246517629e-03,
+2.072945458973295e-03, +1.849752491313908e-03, +1.521021876908738e-03,
+1.093974255016849e-03, +5.811080624426164e-04, -1.422482656398999e-18,
-6.271537303228204e-04, -1.274251404913447e-03, -1.912238389850182e-03,
-2.510269249380764e-03, -3.037038298629825e-03, -3.462226871101535e-03,
-3.758006719596473e-03, -3.900532466948409e-03, -3.871352309895838e-03,
-3.658665583679722e-03, -3.258358512646846e-03, -2.674755551508349e-03,
-1.921033054368456e-03, -1.019254326838640e-03, +1.869623690895593e-18,
+1.098415446732263e-03, +2.231131973532823e-03, +3.348309272768835e-03,
+4.397022774386510e-03, +5.323426722644900e-03, +6.075105310368700e-03,
+6.603520247552113e-03, +6.866453987193027e-03, +6.830342695906946e-03,
+6.472392343549424e-03, +5.782375213956374e-03, +4.764012726389739e-03,
+3.435863514113467e-03, +1.831652835406657e-03, -2.251898372838663e-18,
-1.996476188279370e-03, -4.082668858919100e-03, -6.173080374929424e-03,
-8.174448945974208e-03, -9.988823864332691e-03, -1.151698705819990e-02,
-1.266210056063963e-02, -1.333344579518481e-02, -1.345011199343934e-02,
-1.294448809639154e-02, -1.176541543002924e-02, -9.880867320401294e-03,
-7.280036402392082e-03, -3.974730209151807e-03, +2.509617777250391e-18,
+4.586044219717467e-03, +9.703248998383679e-03, +1.525124770818010e-02,
+2.111205854013017e-02, +2.715337236094137e-02, +3.323242450843114e-02,
+3.920032029020130e-02, +4.490666443426786e-02, +5.020433088017846e-02,
+5.495420172681558e-02, +5.902970324375908e-02, +6.232097270672976e-02,
+6.473850225260731e-02, +6.621612450840858e-02, +6.671322871619612e-02,
+6.621612450840858e-02, +6.473850225260731e-02, +6.232097270672976e-02,
+5.902970324375908e-02, +5.495420172681558e-02, +5.020433088017846e-02,
+4.490666443426786e-02, +3.920032029020130e-02, +3.323242450843114e-02,
+2.715337236094137e-02, +2.111205854013017e-02, +1.525124770818010e-02,
+9.703248998383679e-03, +4.586044219717467e-03, +2.509617777250391e-18,
-3.974730209151807e-03, -7.280036402392082e-03, -9.880867320401294e-03,
-1.176541543002924e-02, -1.294448809639154e-02, -1.345011199343934e-02,
-1.333344579518481e-02, -1.266210056063963e-02, -1.151698705819990e-02,
-9.988823864332691e-03, -8.174448945974208e-03, -6.173080374929424e-03,
-4.082668858919100e-03, -1.996476188279370e-03, -2.251898372838663e-18,
+1.831652835406657e-03, +3.435863514113467e-03, +4.764012726389739e-03,
+5.782375213956374e-03, +6.472392343549424e-03, +6.830342695906946e-03,
+6.866453987193027e-03, +6.603520247552113e-03, +6.075105310368700e-03,
+5.323426722644900e-03, +4.397022774386510e-03, +3.348309272768835e-03,
+2.231131973532823e-03, +1.098415446732263e-03, +1.869623690895593e-18,
-1.019254326838640e-03, -1.921033054368456e-03, -2.674755551508349e-03,
-3.258358512646846e-03, -3.658665583679722e-03, -3.871352309895838e-03,
-3.900532466948409e-03, -3.758006719596473e-03, -3.462226871101535e-03,
-3.037038298629825e-03, -2.510269249380764e-03, -1.912238389850182e-03,
-1.274251404913447e-03, -6.271537303228204e-04, -1.422482656398999e-18,
+5.811080624426164e-04, +1.093974255016849e-03, +1.521021876908738e-03,
+1.849752491313908e-03, +2.072945458973295e-03, +2.188606246517629e-03,
+2.199682452179964e-03, +2.113575906669355e-03, +1.941486748731660e-03,
+1.697630799350524e-03, +1.398374734488549e-03, +1.061334465662964e-03,
+7.044808705458705e-04, +3.452937604228947e-04, +9.746950818779534e-19,
-3.170746535382728e-04, -5.940177657925908e-04, -8.216921898513225e-04,
-9.939415631563015e-04, -1.107640974148221e-03, -1.162601694464620e-03,
-1.161345220483996e-03, -1.108767055632304e-03, -1.011714513697282e-03,
-8.785052315963854e-04, -7.184140229675020e-04, -5.411552308801147e-04,
-3.563859653300760e-04, -1.732527127898052e-04, -5.818801416923580e-19,
+1.563446669975615e-04, +2.902002172907180e-04, +3.975713799264791e-04,
+4.760984242947349e-04, +5.250221548270982e-04, +5.450729176175875e-04,
+5.382955231045915e-04, +5.078242936704864e-04, +4.576238491064392e-04,
+3.922117380894736e-04, +3.163786496265269e-04, +2.349207769898906e-04,
+1.523970757644272e-04, +7.292180213001337e-05, +2.810064795067786e-19,
-6.358930335348977e-05, -1.158603651792638e-04, -1.556394266046803e-04,
-1.825383318834690e-04, -1.968886856400547e-04, -1.996438192500382e-04,
-1.922569599584802e-04, -1.765445671257668e-04, -1.545438297704662e-04,
-1.283728480660395e-04, -1.001011132655914e-04, -7.163663994481459e-05,
-4.463458936757081e-05, -2.043055832879108e-05};
7.2.2. 高通濾波
在此論述(視情況選用的)高通濾波器技術之實例(可使用其他技術)。
可使用2階IIR濾波器對經重取樣信號進行高通濾波,其轉移函數可由下式給定

7.2.3. 音調偵測
在此論述音調偵測技術之實例(可使用其他技術)。
可(視需要)使用下式減少取樣信號x12 . 8 (n) 2倍

其中= {0.1236796411180537, 0.2353512128364889, 0.2819382920909148, 0.2353512128364889, 0.1236796411180537}。
可藉由下式計算出x6 . 4 (n)之自相關性

其中kmin = 17且kmax = 114為界定第一子區間之最小及最大滯後(可提供kmin 及kmax 之其他值)。
可使用下式對自相關性進行加權

其中w(k)界定如下
音調滯後T1 之第一估計值14可為使加權自相關性最大化之滯後
音調滯後T2 之第二估計值16可為前一訊框中所估計之音調滯後(19'')之鄰域中使未經加權自相關性最大化之滯後

其中且Tprev 為前一訊框中經估計之最終音調滯後(且其選擇因此藉由先前選擇之音調滯後改良)。
當前訊框13中音調滯後之最終估計值19可接著由下式給定

其中為在滯後處長度為之信號之正規化相關性
各正規化相關性23或25可為藉由信號第一量測器21或第二量測器22獲得之量測值中之至少一者。
7.2.4. LTPF位元流
在一些實例中,LTPF位元流之第一位元發信號通知位元流中音調滯後參數之存在。其藉由下式獲得

(替代0.6,例如可使用不同臨限值,例如0.4與0.8之間,或0.5與0.7之間,或0.55與0.65之間的臨限值。)
若pitch_present為0,則位元不再經編碼,從而產生僅一個位元之LTPF位元流。
若pitch_present為1,則兩個更多參數經編碼,一個音調滯後參數以9個位元進行編碼,且一個位元用以發信號通知LTPF之啟動。在彼狀況下,LTPF位元流由11個位元構成。

7.2.5. LTPF音調滯後參數
在此論述用於獲得LTPF音調滯後參數之實例(可使用其他技術)。
LTPF音調滯後參數之整數部分可由下式給定

其中

LTPF音調滯後之分數部分可接著由下式給定

其中

為FIR低通濾波器之脈衝回應,由下式給定

可例如為:
double tab_ltpf_interp_R[31] = {
-2.874561161519444e-03, -3.001251025861499e-03, +2.745471654059321e-03
+1.535727698935322e-02, +2.868234046665657e-02, +2.950385026557377e-02
+4.598334491135473e-03, -4.729632459043440e-02, -1.058359163062837e-01
-1.303050213607112e-01, -7.544046357555201e-02, +8.357885725250529e-02
+3.301825710764459e-01, +6.032970076366158e-01, +8.174886856243178e-01
+8.986382851273982e-01, +8.174886856243178e-01, +6.032970076366158e-01
+3.301825710764459e-01, +8.357885725250529e-02, -7.544046357555201e-02
-1.303050213607112e-01, -1.058359163062837e-01, -4.729632459043440e-02
+4.598334491135473e-03, +2.950385026557377e-02, +2.868234046665657e-02
+1.535727698935322e-02, +2.745471654059321e-03, -3.001251025861499e-03
-2.874561161519444e-03};
若pitch_fr < 0,則pitch_int及pitch_fr兩者根據下式修改
最後,音調滯後參數指數由下式給定

7.2.6 LTPF啟動位元
正規化相關性首先計算如下

其中

為FIR低通濾波器之脈衝回應,由下式給定

其中由以下給定:
double tab_ltpf_interp_x12k8[15] = {
+6.698858366939680e-03, +3.967114782344967e-02, +1.069991860896389e-01
+2.098804630681809e-01, +3.356906254147840e-01, +4.592209296082350e-01
+5.500750019177116e-01, +5.835275754221211e-01, +5.500750019177116e-01
+4.592209296082350e-01, +3.356906254147840e-01, +2.098804630681809e-01
+1.069991860896389e-01, +3.967114782344967e-02, +6.698858366939680e-03};
LTPF啟動位元接著根據以下設定:
if (
(mem_ltpf_active==0 && mem_nc>0.94 &&nc>0.94) ||
(mem_ltpf_active==1 &&nc>0.9) ||
(mem_ltpf_active==1 &&abs(pitch-mem_pitch)<2 && (nc-mem_nc)>-0.1 && nc>0.84)
)
{
ltpf_active = 1;
}
else
{
ltpf_active = 0;
}
其中mem_ltpf_active為前一訊框中之ltpf_active之值(若前一訊框中之pitch_present = 0,則其為0),mem_nc為前一訊框中之nc之值(若前一訊框中之pitch_present = 0,則其為0),pitch = pitch_int + pitch_fr/4及mem_pitch為前一訊框中之音調之值(若前一訊框中之pitch_present = 0,則其為0)。
7.3 解碼器處之LTPF
例如在修改離散餘弦變換(Modified Discrete Cosine Transformation,MDCT)合成、修改離散正弦變換(Modified Discrete Sine Transformation,MDST)合成或基於另一變換之合成之後,頻域(FD)中之經解碼信號可在時域中使用IIR濾波器進行後濾波,IIR濾波器之參數可取決於LTPF位元流資料「pitch_index」及「ltpf_active」。為了在參數在訊框之間發生改變時避免不連續性,轉變機構可施加於當前訊框之前四分之一。
在實例中,可使用下式實施LTPFIIR濾波器

其中為濾波器輸入信號(亦即在MDCT合成之後經解碼之信號)且為濾波器輸出信號。
LTPF音調滯後之整數部分pint 及分數部分pfr 可計算如下。首先,12.8 kHz下之音調滯後使用下式恢復


音調滯後可接著使用下式縮放至輸出取樣速率fs 且轉化成整數及分數部分




其中為取樣速率。
濾波器係數可計算如下


其中


可根據以下獲得
fs_idx = min(4,(/8000-1));
if (nbits < 320 + fs_idx*80)
{
gain_ltpf = 0.4;
gain_ind = 0;
}
else if (nbits < 400 + fs_idx*80)
{
gain_ltpf = 0.35;
gain_ind = 1;
}
else if (nbits < 480 + fs_idx*80)
{
gain_ltpf = 0.3;
gain_ind = 2;
}
else if (nbits < 560 + fs_idx*80)
{
gain_ltpf = 0.25;
gain_ind = 3;
}
else
{
gain_ltpf = 0;
}
且表格經預定。
在此提供之實例(替代「fs」,指示取樣速率):
double tab_ltpf_num_8000[4][3] = {
{6.023618207009578e-01,4.197609261363617e-01,-1.883424527883687e-02},
{5.994768582584314e-01,4.197609261363620e-01,-1.594928283631041e-02},
{5.967764663733787e-01,4.197609261363617e-01,-1.324889095125780e-02},
{5.942410120098895e-01,4.197609261363618e-01,-1.071343658776831e-02}};

double tab_ltpf_num_16000[4][3] = {
{6.023618207009578e-01,4.197609261363617e-01,-1.883424527883687e-02},
{5.994768582584314e-01,4.197609261363620e-01,-1.594928283631041e-02},
{5.967764663733787e-01,4.197609261363617e-01,-1.324889095125780e-02},
{5.942410120098895e-01,4.197609261363618e-01,-1.071343658776831e-02}};

double tab_ltpf_num_24000[4][5] = {
{3.989695588963494e-01,5.142508607708275e-01,1.004382966157454e-01,-1.278893956818042e-02,-1.572280075461383e-03},
{3.948634911286333e-01,5.123819208048688e-01,1.043194926386267e-01,-1.091999960222166e-02,-1.347408330627317e-03},
{3.909844475885914e-01,5.106053522688359e-01,1.079832524685944e-01,-9.143431066188848e-03,-1.132124620551895e-03},
{3.873093888199928e-01,5.089122083363975e-01,1.114517380217371e-01,-7.450287133750717e-03,-9.255514050963111e-04}};

double tab_ltpf_num_32000[4][7] = {
{2.982379446702096e-01,4.652809203721290e-01,2.105997428614279e-01,3.766780380806063e-02,-1.015696155796564e-02,-2.535880996101096e-03,-3.182946168719958e-04},
{2.943834154510240e-01,4.619294002718798e-01,2.129465770091844e-01,4.066175002688857e-02,-8.693272297010050e-03,-2.178307114679820e-03,-2.742888063983188e-04},
{2.907439213122688e-01,4.587461910960279e-01,2.151456974108970e-01,4.350104772529774e-02,-7.295495347716925e-03,-1.834395637237086e-03,-2.316920186482416e-04},
{2.872975852589158e-01,4.557148886861379e-01,2.172126950911401e-01,4.620088878229615e-02,-5.957463802125952e-03,-1.502934284345198e-03,-1.903851911308866e-04}};

double tab_ltpf_num_48000[4][11] = {
{1.981363739883217e-01,3.524494903964904e-01,2.513695269649414e-01,1.424146237314458e-01,5.704731023952599e-02,9.293366241586384e-03,-7.226025368953745e-03,-3.172679890356356e-03,-1.121835963567014e-03,-2.902957238400140e-04,-4.270815593769240e-05},
{1.950709426598375e-01,3.484660408341632e-01,2.509988459466574e-01,1.441167412482088e-01,5.928947317677285e-02,1.108923827452231e-02,-6.192908108653504e-03,-2.726705509251737e-03,-9.667125826217151e-04,-2.508100923165204e-04,-3.699938766131869e-05},
{1.921810055196015e-01,3.446945561091513e-01,2.506220094626024e-01,1.457102447664837e-01,6.141132133664525e-02,1.279941396562798e-02,-5.203721087886321e-03,-2.297324511109085e-03,-8.165608133217555e-04,-2.123855748277408e-04,-3.141271330981649e-05},
{1.894485314175868e-01,3.411139251108252e-01,2.502406876894361e-01,1.472065631098081e-01,6.342477229539051e-02,1.443203434150312e-02,-4.254449144657098e-03,-1.883081472613493e-03,-6.709619060722140e-04,-1.749363341966872e-04,-2.593864735284285e-05}};
在此提供之實例(替代「fs」,指示取樣速率):
double_tab_ltpf_den_8000[4][5] = {
{0.000000000000000e+00, 2.098804630681809e-01, 5.835275754221211e-01, 2.098804630681809e-01, 0.000000000000000e+00},
{0.000000000000000e+00, 1.069991860896389e-01, 5.500750019177116e-01, 3.356906254147840e-01, 6.698858366939680e-03},
{0.000000000000000e+00, 3.967114782344967e-02, 4.592209296082350e-01, 4.592209296082350e-01, 3.967114782344967e-02},
{0.000000000000000e+00, 6.698858366939680e-03, 3.356906254147840e-01, 5.500750019177116e-01, 1.069991860896389e-01}};

double_tab_ltpf_den_16000[4][5] = {
{0.000000000000000e+00, 2.098804630681809e-01, 5.835275754221211e-01, 2.098804630681809e-01, 0.000000000000000e+00},
{0.000000000000000e+00, 1.069991860896389e-01, 5.500750019177116e-01, 3.356906254147840e-01, 6.698858366939680e-03},
{0.000000000000000e+00, 3.967114782344967e-02, 4.592209296082350e-01, 4.592209296082350e-01, 3.967114782344967e-02},
{0.000000000000000e+00, 6.698858366939680e-03, 3.356906254147840e-01, 5.500750019177116e-01, 1.069991860896389e-01}};

double_tab_ltpf_den_24000[4][7] = {
{0.000000000000000e+00, 6.322231627323796e-02, 2.507309606013235e-01, 3.713909428901578e-01, 2.507309606013235e-01, 6.322231627323796e-02, 0.000000000000000e+00},
{0.000000000000000e+00, 3.459272174099855e-02, 1.986515602645028e-01, 3.626411726581452e-01, 2.986750548992179e-01, 1.013092873505928e-01, 4.263543712369752e-03},
{0.000000000000000e+00, 1.535746784963907e-02, 1.474344878058222e-01, 3.374259553990717e-01, 3.374259553990717e-01, 1.474344878058222e-01, 1.535746784963907e-02},
{0.000000000000000e+00, 4.263543712369752e-03, 1.013092873505928e-01, 2.986750548992179e-01, 3.626411726581452e-01, 1.986515602645028e-01, 3.459272174099855e-02}};

double_tab_ltpf_den_32000[4][9] = {
{0.000000000000000e+00, 2.900401878228730e-02, 1.129857420560927e-01, 2.212024028097570e-01, 2.723909472446145e-01, 2.212024028097570e-01, 1.129857420560927e-01, 2.900401878228730e-02, 0.000000000000000e+00},
{0.000000000000000e+00, 1.703153418385261e-02, 8.722503785537784e-02, 1.961407762232199e-01, 2.689237982237257e-01, 2.424999102756389e-01, 1.405773364650031e-01, 4.474877169485788e-02, 3.127030243100724e-03},
{0.000000000000000e+00, 8.563673748488349e-03, 6.426222944493845e-02, 1.687676705918012e-01, 2.587445937795505e-01, 2.587445937795505e-01, 1.687676705918012e-01, 6.426222944493845e-02, 8.563673748488349e-03},
{0.000000000000000e+00, 3.127030243100724e-03, 4.474877169485788e-02, 1.405773364650031e-01, 2.424999102756389e-01, 2.689237982237257e-01, 1.961407762232199e-01, 8.722503785537784e-02, 1.703153418385261e-02}};

double_tab_ltpf_den_48000[4][13] = {
{0.000000000000000e+00, 1.082359386659387e-02, 3.608969221303979e-02, 7.676401468099964e-02, 1.241530577501703e-01, 1.627596438300696e-01, 1.776771417779109e-01, 1.627596438300696e-01, 1.241530577501703e-01, 7.676401468099964e-02, 3.608969221303979e-02, 1.082359386659387e-02, 0.000000000000000e+00},
{0.000000000000000e+00, 7.041404930459358e-03, 2.819702319820420e-02, 6.547044935127551e-02, 1.124647986743299e-01, 1.548418956489015e-01, 1.767122381341857e-01, 1.691507213057663e-01, 1.352901577989766e-01, 8.851425011427483e-02, 4.499353848562444e-02, 1.557613714732002e-02, 2.039721956502016e-03},
{0.000000000000000e+00, 4.146998467444788e-03, 2.135757310741917e-02, 5.482735584552816e-02, 1.004971444643720e-01, 1.456060342830002e-01, 1.738439838565869e-01, 1.738439838565869e-01, 1.456060342830002e-01, 1.004971444643720e-01, 5.482735584552816e-02, 2.135757310741917e-02, 4.146998467444788e-03},
{0.000000000000000e+00, 2.039721956502016e-03, 1.557613714732002e-02, 4.499353848562444e-02, 8.851425011427483e-02, 1.352901577989766e-01, 1.691507213057663e-01, 1.767122381341857e-01, 1.548418956489015e-01, 1.124647986743299e-01, 6.547044935127551e-02, 2.819702319820420e-02, 7.041404930459358e-03}}
參看轉變操控,考慮五個不同狀況。
第一狀況:ltpf_active = 0且mem_ltpf_active = 0
第二狀況:ltpf_active = 1且mem_ltpf_active = 0
第三狀況:ltpf_active = 0且mem_ltpf_active = 1

其中以及為前一訊框中計算出的濾波器參數。
第四狀況:ltpf_active = 1且mem_ltpf_active = 1且

第五狀況:ltpf_active = 1且mem_ltpf_active = 1且()


其中Nf 為一個訊框中樣本之數目。
7.4 其他優點
如可理解,根據上述實例之解決方案對解碼器顯而易見。不需要發信至解碼器,例如通知第一估計值或第二估計值已經選擇。
因此,位元流63中不存在增大之有效負載。
另外,不需要修改解碼器來適應於在編碼器處所執行之新過程。解碼器並不需要知曉已經實施本發明。因此,本發明准許提高與舊式系統之相容性。
8. 封包丟失隱藏
可在解碼器(例如,60b)處使用如由上述設備10、60a或110獲得之音調滯後Tbest (19)以用於實施封包丟失隱藏(packet loss concealment,PLC) (亦被稱作錯誤隱藏)。PLC在音訊編解碼器中在自編碼器至解碼器之傳輸期間用於隱藏丟失或損壞的封包。在先前技術中,PLC可在解碼器側處執行且將經解碼信號外插於變換域或時域中。
音調滯後可為用於基於音調之PLC中之主要參數。此參數可在編碼器側處經估計且經編碼成位元流。在此狀況下,最後的良好訊框之音調滯後用來隱藏當前丟失訊框。
損壞的訊框並不提供正確的可聽輸出且應捨棄。
對於解碼器處之各經解碼訊框,可驗證其有效性。例如,各訊框可具有攜載循環冗餘碼(cyclical redundancy code,CRC)之欄位,藉由執行由預定演算法提供之預定操作而驗證循環冗餘碼。可重複程序以驗證計算出的結果是否對應於CRC欄位上之值。若訊框尚未經適當解碼(例如,鑒於傳輸中之干涉),則假定一些誤差已影響了訊框。因此,若驗證提供不正確解碼之結果,則訊框保持未經適當解碼(無效、損壞的)。
當訊框已確認為未經適當解碼時,隱藏策略可用於提供可聽輸出:否則,可聽到如令人惱怒的可聽孔洞之事物。因此,有必要找到「填充藉由未經適當解碼訊框保持打開之間隙」的某一形成之訊框。訊框丟失隱藏程序之目的為隱藏任何不可用或損壞的訊框之效應以用於解碼。
8.1 隱藏策略
訊框丟失隱藏程序可包含用於各種信號類型之隱藏方法。在訊框丟失情況下易錯情形中之最佳可能的編解碼器效能可藉由選擇最合適的方法而獲得。封包丟失隱藏方法中之一者可例如為TCX時域隱藏。
8.2 TCX時域隱藏
TCX時域隱藏方法為在時域中操作之基於音調之PLC技術。其最適合於具有主諧波結構之信號。程序之實例如下:最後的經解碼訊框之合成信號藉由如章節8.2.1中所描述之LP濾波器進行反濾波以獲得如章節8.2.2中所描述之週期性信號。隨機信號由隨機生成器生成,具有章節8.2.3中之大致均一分佈。兩個激勵信號合計形成總激勵信號,如章節8.2.4中所描述,其自適應地隨章節8.2.6中所描述之衰減因數而漸弱且最後藉由LP濾波器濾波以獲得合成之隱藏時間信號。若LTPF已經用於最後一個良好訊框中,則LTPF亦可施加於合成之隱藏時間信號,如章節8.3中所描述。為了得到與在丟失訊框之後的第一良好訊框之適當重疊,在章節8.2.5中產生時域頻疊消除信號。
8.2.1 LPC參數計算
TCX時域隱藏方法在激勵域中操作。可對80個等距頻域頻帶計算自相關函數。藉由固定預加重因數來預加重能量
使用以下窗口對自相關函數進行滯後加窗

在使用反向均勻堆疊DFT變換至時域之前。最後,Levinson Durbin操作可用於獲得用於隱藏訊框之LP濾波器ac (k)。實例提供如下:








LP濾波器可僅在良好訊框之後的第一丟失訊框中進行計算且保留在隨後的丟失訊框中。
8.2.2激勵之週期性部分之構造
首先使用濾波器藉由來自章節8.2.1之預加重因數對最後的經解碼時間樣本進行預加重

為了獲得信號,其中為音調滯後值pitch_int或pitch_int+1,若pitch_fr > 0。值pitch_int及pitch_fr為位元流中傳輸之音調滯後值。
預加重信號xpre (k)進一步藉由計算出的反LP濾波器進行濾波以獲得先前的激勵信號。為了構造激勵信號excp (k),對於當前丟失訊框,反覆藉由Tc 複製如下

其中E對應於中之最後一個樣本。若穩定性因數θ低於1,則之第一音調循環首先藉由下表中描述之11分接頭線性相位有限脈衝回應(finite impulse response,FIR)濾波器進行低通濾波
音調增益可計算如下

若pitch_fr = 0,則。否則,第二音調增益可計算如下

。若,則減小一以供進一步處理。
最後,gp 以0 ≤ gp ≤ 1為界。
所形成週期性激勵在整個自一開始且以衰減因數α結束的訊框中逐個樣本減弱,以獲得。音調增益僅在良好訊框之後的第一丟失訊框該進行計算且經設定為α以用於進一步連續訊框丟失。
8.2.3激勵之隨機部分之構造
激勵之隨機部分可藉由隨機生成器生成,具有如下大致均一分佈

其中對於藉由此方法隱藏之第一訊框,以24607起始,且提取值之16LSB。對於其他訊框,經儲存且用作下一個
為了將雜訊移至較高頻率,藉由下表中描述之11分接頭線性相位FIR濾波器對激勵信號進行高通濾波,以得到
為了確保雜訊可隨取決於衰減因數α之衰減速度衰減為全頻帶雜訊,激勵之隨機部分經由在全頻帶與經高通濾波版本之間的線性內插構成,如

其中對於良好訊框之後的第一丟失訊框,β=1,且

對於第二及進一步連續訊框丟失,其中β 1 為前一隱藏訊框之β。
為了調整雜訊級,雜訊增益經計算為
若在章節8.2.2之後,則。否則,第二雜訊增益如上述等式中所計算,但Tc 為pitch_int。在下文中,
為了進一步處理,首先經正規化且接著乘以以得到
所形成隨機激勵在整個以開始且以結束之訊框中隨自第一樣本至第五樣本且逐個樣本均勻衰減,以獲得。雜訊增益gn 僅在良好訊框之後的第一丟失訊框中進行計算且經設定為以用於進一步連續訊框丟失。
8.2.4總激勵、合成及後處理之構造
將隨機激勵添加至週期性激勵以形成總激勵信號。藉由使用來自章節8.2.1之LP濾波器對總激勵進行濾波而獲得隱藏訊框之最終合成信號且藉由去加重濾波器對其進行後處理。
8.2.5時域頻疊消除
為了在下一訊框為良好訊框狀況下得到適當重疊-添加,可產生時域頻疊消除部分。為此,形成與上文所描述相同的額外樣本以獲得信號。基於此,藉由以下步驟形成時域頻疊消除部分:
零填充合成時域緩衝區

藉由MDCT窗口進行加窗

自2N修整為N

自N修整為2N

藉由翻轉修改離散餘弦變換(MDCT)(或修改離散正弦變換MDST,在其他實例中)窗口進行加窗

8.2.6多個訊框丟失之操控
所構造信號逐漸減弱為零。藉由衰減因數α控制漸弱速度,該衰減因數取決於前一衰減因數α 1 、基於最後一個正確接收的訊框計算出的音調增益gp 、連續被抹除訊框之數目nbLostCmpt,以及穩定性θ。以下程序可用於計算衰減因數
if (== 1)
=
if (> 0.98)
= 0.98
else if (< 0.925)
= 0.925
else if (== 2)
= (0.63 + 0.35)
if< 0.919
= 0.919;
else if (== 3)
= (0.652 + 0.328)
else if (== 4)
= (0.674 + 0.3)
else if (== 5) {
= (0.696 + 0.266)
else
= (0.725 + 0.225)
=
可獲得因數θ (最後兩個鄰近比例因數向量之穩定性),例如為:

其中為最後兩個鄰近訊框之比例因數向量。因數以0 ≤ ≤ 1為界,其中之較大值對應於更穩定信號。此限制能量及頻譜包絡波動。若當前不存在兩個鄰近比例因數向量,則因數經設定為0.8。
為了防止高速能量增大,藉由對頻譜進行低通濾波。
9. 具有相同音調滯後資訊之LTPF及PLC
圖9展示可用於操作解碼器60b之方法100'之通用實例。在步驟S101'處,信號之經編碼版本可經解碼。在實例中,訊框可(例如,經由藍芽連接)自儲存單元接收及/或獲得。音調滯後Tbest (選擇於如上文所論述之T1 與T2 之間)可用於PLC及LTPF兩者。
在步驟S102'處,檢查訊框之有效性(例如,藉由CRC、同位檢查等等)。若已確認訊框之無效性,則執行隱藏(下文可見)。
否則,若訊框保持有效,則在步驟S103'處,檢查音調資訊在訊框中是否經編碼。在一些實例中,僅在調和性已確認為高於特定臨限值(其可指示例如調和性對於執行例如LTPF及/或PLC足夠高)時才對音調資訊進行編碼。
若在S103'處已確認音調資訊實際上經編碼,則在步驟S104'處對音調資訊進行解碼及儲存。否則,循環結束且可在S101'處對新訊框進行解碼。
隨後,在步驟S105'處,檢查是否啟用LTPF。若驗證LTPF經啟用,則在步驟S106處執行LTPF。否則,跳過LTPF;循環結束;以及可在S101'處對新訊框進行解碼。
參看隱藏,後者可再分為各步驟。在步驟S107'處,驗證前一訊框之音調資訊(或先前訊框中之一者之音調資訊)是否儲存於記憶體中(亦即,經棄置)。
若驗證所搜尋音調資訊經儲存,則可在步驟S108處執行錯誤隱藏。可執行MDCT(或MDST)訊框解析度重複與信號加擾,及/或TCX時域隱藏,及/或相位ECU。
否則,若在S107'處驗證未儲存新鮮音調資訊(因此,例如解碼器未傳輸音調滯後),則可在步驟S109'處使用本身已知且不意指使用由編碼器提供之音調資訊之不同隱藏技術。此等技術中之一些可基於在解碼器處估計音調資訊及/或其他調和性資訊。在一些實例中,在此狀況下不可執行隱藏技術。
在已執行隱藏之後,循環結束且可在S101'處對新訊框進行解碼。
應注意,由PLC使用的音調滯後為基於在估計T1 與T2 之間的選擇藉由設備10及/或60b製備之值19 (tbest ),如上文所論述。
10. 其他實例
圖7展示設備110,其可實施設備10及/或60a,執行上述方法之至少一些步驟。設備110可包含處理器111及儲存指令之非暫時性記憶體單元112 (例如,程式),該等指令在由處理器111執行時可致使處理器111執行第一估計112a (例如,實施第一估計器11)、第二估計112b (例如,實施第二估計器12),及/或選擇112c (例如,實施選擇器18)。設備110可包含輸入單元116,其可獲得輸入資訊信號(例如,音訊信號)。設備可將位元流例如儲存在儲存空間128中。
圖8展示設備120,其可實施解碼器60b,及/或執行例如LTPF濾波。設備120可包含處理器121及儲存指令122a之非暫時性記憶體單元122 (例如,程式),該等指令在由處理器121執行時可致使處理器121例如基於自編碼器獲得之參數尤其執行LTPF濾波操作。設備120可包含輸入單元126,其可獲得資訊信號(例如,音訊信號)之經解碼表示。處理器121可因此執行處理以獲得資訊信號之經解碼表示。可使用輸出單元127將此經解碼表示提供至外部單元。輸出單元127可包含例如通信單元以與外部裝置(例如,使用無線通信,諸如藍芽)及/或外部儲存空間通信。處理器121可將音訊信號之經解碼表示保存在本端儲存空間128中。
在實例中,系統110與120可為相同裝置。
取決於特定實施要求,實例可以硬體實施。可使用數位儲存媒體執行該實施,例如軟碟、數位多功能光碟(DVD)、藍光光碟、緊密光碟(CD)、唯讀記憶體(ROM)、可規劃唯讀記憶體(PROM)、可擦除及可規劃唯讀記憶體(EPROM)、電可擦除可規劃唯讀記憶體(EEPROM)或快閃記憶體,上面儲存有電子可讀控制信號,其與可規劃電腦系統協作(或能夠協作)使得執行各別方法。因此,數位儲存媒體可為電腦可讀的。
通常,實例可實施為具有程式指令之電腦程式產品,當電腦程式產品運行於電腦上時,程式指令操作性地用於執行該等方法中之一者。程式指令可例如儲存於機器可讀媒體上。
其他實例包含用於執行本文所描述之方法中之一者、儲存於機器可讀載體上之電腦程式。換言之,方法之實例因此為電腦程式,其具有用於在電腦程式於電腦上運行時執行本文中所描述之方法中之一者的程式指令。
方法之另一實例因此為資料載體媒體(或數位儲存媒體,或電腦可讀媒體),包含、上面記錄有用於執行本文所描述之方法中之一者的電腦程式。資料載體媒體、數位儲存媒體或記錄媒體為有形及/或非暫時性的,而非無形及暫時性的信號。
另一實例包含處理單元,例如電腦或可規劃邏輯裝置,其執行本文所描述之方法中之一者。
另一實例包含電腦,其上安裝有用於執行本文中所描述之方法中之一者的電腦程式。
另一實例包含將用於執行本文所描述之方法中之一者的電腦程式傳送(例如以電子方式或以光學方式)至接收器之設備或系統。舉例而言,接收器可為電腦、行動裝置、記憶體裝置等。設備或系統可例如包含用於傳送電腦程式至接收器之檔案伺服器。
在一些實例中,可規劃邏輯裝置(例如,場可規劃閘陣列)可用以執行本文中所描述之方法的功能性中之一些或全部。在一些實例中,場可規劃閘陣列可與微處理器協作,以便執行本文中所描述之方法中的一者。通常,該等方法可由任何適當的硬體設備執行。
上述實例說明上文所論述的原理。應理解,本文中所描述的配置及細節之修改及變化將為顯而易見的。因此,希望受到接下來的申請專利範圍之範疇限制,而不受藉由本文中之實例之描述及解釋所呈現的特定細節限制。
10、110‧‧‧設備
11‧‧‧第一估計器
12‧‧‧第二估計器
13‧‧‧當前訊框
14‧‧‧第一估計值
16‧‧‧第二估計值
17‧‧‧選擇器
17a‧‧‧開關
18、112c‧‧‧選擇
19‧‧‧輸出(最終)估計值/所選值
19'‧‧‧暫存器
19''‧‧‧輸入
21‧‧‧第一量測器
22‧‧‧第二量測器
23‧‧‧第一正規化相關性
24‧‧‧第一相關性
25‧‧‧第二相關性
26‧‧‧縮放器
27‧‧‧比較器
51‧‧‧滯後
52‧‧‧第二子區間
53‧‧‧第一峰值
53'‧‧‧倍數
54、54'、54''、54‧‧‧峰值
60、120‧‧‧系統
60a‧‧‧編碼器
60b‧‧‧解碼器
61‧‧‧輸入資訊信號
62‧‧‧變換寫碼器
63‧‧‧位元流
63a‧‧‧頻域表示
63b‧‧‧資料
64‧‧‧變換解碼器
64a、68‧‧‧輸出信號
65‧‧‧偵測單元
66‧‧‧LTPF寫碼器
67‧‧‧LTPF解碼器
30、40、100、100'‧‧‧方法
S31、S32、S33、S34、S35、S36、S41、S42、S43、S101、S102、S103、S104、S101'、S102'、S103'、S104'、S105'、S106'、S107'、S108'、S109'‧‧‧步驟
111、121‧‧‧處理器
112、122‧‧‧非暫時性記憶體單元
112a‧‧‧第一估計
112b‧‧‧第二估計
116、126‧‧‧輸入單元
117、127‧‧‧輸出單元
118、128‧‧‧儲存空間
122a‧‧‧指令
圖1a及2展示根據實例之設備。
圖1b展示根據實例之方法。
圖3及4展示根據實例之方法。
圖5及5(1)至5(4)展示相關性函數之圖式。
圖6展示根據本發明之系統。
圖7及8展示根據本發明之設備。
圖9展示在解碼器處之操作之實例。

Claims (29)

  1. 一種用於對包括複數個訊框之一資訊信號進行編碼之設備,該設備包含: 一第一估計器,其經組配以獲得一第一估計值(T1 ),該第一估計值為一當前訊框之一音調滯後之一估計值; 一第二估計器,其經組配以獲得一第二估計值(T2 ),該第二估計值為該當前訊框之一音調滯後之另一估計值, 一選擇器,其經組配以藉由基於一第一相關性量測值及一第二相關性量測值在該第一估計值(T1 )與該第二估計值(T2 )之間執行一選擇而選擇一所選值(Tbest ), 其中藉由在該前一訊框處選擇之該音調滯後改良該第二估計器以便獲得該當前訊框之該第二估計值(T2 ), 其特徵在於該選擇器經組配以: 在以下兩者之間執行一比較: 與該當前訊框相關聯且在對應於該第一估計值(T1 )之一滯後處獲得之一第一相關性量測值之一縮小版本;及 與該當前訊框相關聯且在對應於該第二估計值(T2 )之一滯後處獲得之一第二相關性量測值, 以便在該第二相關性量測值小於該第一相關性量測值之該縮小版本時選擇該第一估計值(T1 ),及/或 在該第二相關性量測值大於該第一相關性量測值之該縮小版本時選擇該第二估計值(T2 ), 其中該第一相關性量測值與該第二相關性量測值中之至少一者為一自相關量測值及/或一正規化自相關量測值。
  2. 一種用於將包括複數個訊框之一資訊信號編碼成一位元流之設備,該設備包含: 一偵測單元,其包含: 一第一估計器,其經組配以獲得一第一估計值(T1 ),該第一估計值為一當前訊框之一音調滯後之一估計值; 一第二估計器,其經組配以獲得一第二估計值(T2 ),該第二估計值為該當前訊框之一音調滯後之另一估計值,其中藉由在該前一訊框處選擇之該音調滯後改良該第二估計器以便獲得該當前訊框之該第二估計值(T2 ); 一選擇器,其經組配以藉由基於至少一個相關性量測值在該第一估計值(T1 )與該第二估計值(T2 )之間執行一選擇而選擇一所選值(Tbest ),其中該選擇器經組配以在以下兩者之間執行一比較: 與該當前訊框相關聯且在對應於該第二估計值(T2 )之一滯後處獲得之一第二相關性量測值;及 一音調滯後選擇臨限值, 以便在該第二相關性量測值大於該音調滯後選擇臨限值時選擇該第二估計值(T2 );及/或 在該第二相關性量測值低於該音調滯後選擇臨限值時選擇該第一估計值(T1 );以及 一長期後濾波(LTPF)工具,其經組配以對適用於在解碼器處執行LTPF之資料進行編碼,該資料適用於執行LTPF,包括該所選值(Tbest )。
  3. 如請求項2之設備,其中該比較在以下兩者之間進行: 與該當前訊框相關聯且在對應於該第一估計值(T1 )之一滯後處獲得之一第一相關性量測值,其表示該音調滯後選擇臨限值;及 該第二相關性量測值。
  4. 如請求項2或3之設備,其中該比較在以下兩者之間進行: 與該當前訊框相關聯且在對應於該第一估計值(T1 )之一滯後處獲得之一第一相關性量測值之一縮小版本,其表示該音調滯後選擇臨限值;及 該第二相關性量測值。
  5. 如請求項2至4中任一項之設備,其中: 該第一相關性量測值與該第二相關性量測值中之至少一者為一自相關量測值及/或一正規化自相關量測值。
  6. 如請求項2至5中任一項之設備,其經組配以比較該所選值(Tbest )與一預定LTPF臨限值,以便避免在該所選值(Tbest )低於該預定臨限值之情況下對該所選值(Tbest )進行編碼。
  7. 如前述請求項中任一項之設備,其中該第二估計器經組配以: 藉由搜索含有針對該前一訊框選擇之該音調滯後之一第二子區間中使一第二相關性函數最大化之該滯後而獲得該第二估計值。
  8. 如請求項7之設備,其中: 該第二子區間含有一距離內自針對該前一訊框選擇之該音調滯後小於一預定義滯後數值臨限值之滯後(T)。
  9. 如請求項7或8中任一項之設備,其中該第二估計器經組配以: 搜索該等第二相關性函數值當中之一最大值以使該第二估計值與與該等第二相關性函數值當中之該最大值相關聯之該滯後(T2 )相關聯。
  10. 如前述請求項中任一項之設備,其中該第一估計器經組配以: 獲得該第一估計值作為使與該當前訊框相關聯之一第一相關性函數最大化之該滯後(T1 )。
  11. 如請求項10之設備,其中該第一相關性函數限於一第一子區間中之滯後。
  12. 如請求項11之設備,其中該第一子區間含有大於該第二子區間之多個滯後,及/或該第二子區間中之該等滯後中之至少一些包含於該第一子區間中。
  13. 如前述請求項中任一項之設備,其中該第一估計器經組配以: 在搜索使該第一相關性函數最大化之該滯後(T1 )之前使用一單調減權函數對一第一相關性函數之該相關性量測值進行加權。
  14. 如請求項7至13中任一項之設備,其中: 該第二相關性函數及該第一相關性函數中之至少一者為一自相關函數及/或一正規化自相關函數。
  15. 如前述請求項中任一項之設備,其中該第一估計器經組配以藉由執行以下操作中之至少一些而獲得該第一估計值1 為一加權函數,與一最小滯後及一最大滯後相關聯,為基於該資訊信號估計之一自相關量測值或其之一經處理版本,且N為訊框長度。
  16. 如前述請求項中任一項之設備,其中該第二估計器經組配以藉由執行以下操作獲得該第二估計值2 其中為該先前訊框中所選之該估計值,且為與一最小滯後及一最大滯後相關聯之自以及之一距離。
  17. 如前述請求項中任一項之設備,其中該選擇器經組配以關於以下各者對該音調滯後估計值 執行一選擇 其中1 為該第一估計值,2 為該第二估計值,為該資訊信號之一值或其之一經處理版本,normcorr(,,)為在滯後處長度為之該信號之該正規化相關性量測值,為一按比例縮小係數。
  18. 如前述請求項中任一項之設備,其進一步包含該選擇器下游之一長期後濾波(LTPF)工具,用於控制一解碼器設備處之一長期後濾波器。
  19. 如前述請求項中任一項之設備,其中該資訊信號為一音訊信號。
  20. 如前述請求項中任一項之設備,其經組配以使用高達一加權函數之相同相關性函數而獲得該第一相關性量測值與該第二相關性量測值。
  21. 如前述請求項中任一項之設備,其經組配以獲得該第一相關性量測值作為高達一加權函數之該第一估計值之正規化版本。
  22. 如前述請求項中任一項之設備,其經組配以獲得該第二相關性量測值作為該第二估計值之正規化版本。
  23. 如前述請求項中任一項之設備,其進一步包含一變換寫碼器,該變換寫碼器經組配以產生該資訊信號之一表示或其之一經處理版本。
  24. 一種包含一編碼器側及一解碼器側之系統,該編碼器側包含如前述請求項中任一項之該設備,該解碼器側包含基於由該選擇器選擇之該音調滯後估計值而經控制之一長期後濾波工具。
  25. 一種用於判定劃分成訊框之一信號之一音調滯後之方法,其包含: 對一當前訊框執行一第一估計; 對該當前訊框執行一第二估計;以及 基於相關性量測值在該第一估計處獲得之該第一估計值(T1 )與該第二估計處獲得之該第二估計值(T2 )之間進行選擇, 其中基於在該前一訊框處執行之一選擇步驟之結果而獲得執行該第二估計, 其特徵在於選擇包括在以下兩者之間執行一比較: 與該當前訊框相關聯且在對應於該第一估計值(T1 )之一滯後處獲得之一第一相關性量測值之一縮小版本; 與該當前訊框相關聯且在對應於該第二估計值(T2 )之一滯後處獲得之一第二相關性量測值;以及 在該第二相關性量測值小於該第一相關性量測值之該縮小版本時選擇該第一估計值(T1 ),及/或在該第二相關性量測值大於該第一相關性量測值之該縮小版本時選擇該第二估計值(T2 ), 其中該第一相關性量測值與該第二相關性量測值中之至少一者為一自相關量測值及/或一正規化自相關量測值。
  26. 如請求項25之方法,其進一步包含使用針對長期後濾波(LTPF)選擇之該滯後。
  27. 一種用於對劃分成訊框之一信號之一位元流進行編碼之方法,其包含: 對一當前訊框執行一第一估計; 對該當前訊框執行一第二估計;以及 基於至少一個相關性量測值在該第一估計處獲得之該第一估計值(T1 )與該第二估計處獲得之該第二估計值(T2 )之間進行選擇, 其中基於在該前一訊框處執行之一選擇步驟之結果而獲得執行該第二估計, 其中選擇包括在以下兩者之間執行一比較: 與該當前訊框相關聯且在對應於該第二估計值(T2 )之一滯後處獲得之一第二相關性量測值;及 一音調滯後選擇臨限值, 在該第二相關性量測值大於該音調滯後選擇臨限值時選擇該第二估計值(T2 )及/或在該第二相關性量測值低於該音調滯後選擇臨限值時選擇該第一估計值(T1 );且 該方法進一步包含對適用於在解碼器處執行LTPF之資料,該所選值(Tbest )進行編碼。
  28. 如請求項25至27中任一項之方法,其進一步包含使用針對封包丟失隱藏PLC選擇之該滯後。
  29. 一種包含指令之程式,該等指令在由一處理器執行時致使該處理器執行如請求項25至28中任一項之一方法。
TW107139704A 2017-11-10 2018-11-08 音調滯後選擇技術 TWI728277B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP17201091.0 2017-11-10
EP17201091.0A EP3483886A1 (en) 2017-11-10 2017-11-10 Selecting pitch lag
WOPCT/EP2018/080195 2018-11-05
PCT/EP2018/080195 WO2019091922A1 (en) 2017-11-10 2018-11-05 Selecting pitch lag

Publications (2)

Publication Number Publication Date
TW201923755A true TW201923755A (zh) 2019-06-16
TWI728277B TWI728277B (zh) 2021-05-21

Family

ID=60301906

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107139704A TWI728277B (zh) 2017-11-10 2018-11-08 音調滯後選擇技術

Country Status (18)

Country Link
US (1) US11380341B2 (zh)
EP (2) EP3483886A1 (zh)
JP (1) JP7079325B2 (zh)
KR (1) KR102426050B1 (zh)
CN (1) CN111566733B (zh)
AR (1) AR114388A1 (zh)
AU (1) AU2018363670B2 (zh)
BR (1) BR112020009114A2 (zh)
CA (1) CA3082175C (zh)
ES (1) ES2900058T3 (zh)
MX (1) MX2020004786A (zh)
PL (1) PL3707718T3 (zh)
PT (1) PT3707718T (zh)
RU (1) RU2742739C1 (zh)
SG (1) SG11202004203WA (zh)
TW (1) TWI728277B (zh)
WO (1) WO2019091922A1 (zh)
ZA (1) ZA202002521B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11756530B2 (en) * 2019-10-19 2023-09-12 Google Llc Self-supervised pitch estimation
US11699209B2 (en) * 2020-10-22 2023-07-11 Huawei Cloud Computing Technologies Co., Ltd. Method and apparatus for embedding and extracting digital watermarking for numerical data

Family Cites Families (184)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3639753A1 (de) 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
US5012517A (en) 1989-04-18 1991-04-30 Pacific Communication Science, Inc. Adaptive transform coder having long term predictor
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
JPH05281996A (ja) * 1992-03-31 1993-10-29 Sony Corp ピッチ抽出装置
IT1270438B (it) * 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce
US5581653A (en) 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder
JP3402748B2 (ja) * 1994-05-23 2003-05-06 三洋電機株式会社 音声信号のピッチ周期抽出装置
JPH0811644A (ja) 1994-06-27 1996-01-16 Nissan Motor Co Ltd ルーフモール取付構造
US6167093A (en) 1994-08-16 2000-12-26 Sony Corporation Method and apparatus for encoding the information, method and apparatus for decoding the information and method for information transmission
EP0732687B2 (en) 1995-03-13 2005-10-12 Matsushita Electric Industrial Co., Ltd. Apparatus for expanding speech bandwidth
US5781888A (en) 1996-01-16 1998-07-14 Lucent Technologies Inc. Perceptual noise shaping in the time domain via LPC prediction in the frequency domain
WO1997027578A1 (en) * 1996-01-26 1997-07-31 Motorola Inc. Very low bit rate time domain speech analyzer for voice messaging
US5812971A (en) 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
JPH1091194A (ja) 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
US6570991B1 (en) 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
KR100261253B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
GB2326572A (en) 1997-06-19 1998-12-23 Softsound Limited Low bit rate audio coder and decoder
AU9404098A (en) 1997-09-23 1999-04-12 Voxware, Inc. Scalable and embedded codec for speech and audio signals
JP3344962B2 (ja) 1998-03-11 2002-11-18 松下電器産業株式会社 オーディオ信号符号化装置、及びオーディオ信号復号化装置
US6507814B1 (en) * 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
EP1139665A1 (en) 2000-03-29 2001-10-04 Deutsche Thomson-Brandt Gmbh Method and apparatus for changing the output delay of audio or video data encoding
US6735561B1 (en) 2000-03-29 2004-05-11 At&T Corp. Effective deployment of temporal noise shaping (TNS) filters
US7099830B1 (en) 2000-03-29 2006-08-29 At&T Corp. Effective deployment of temporal noise shaping (TNS) filters
US6665638B1 (en) * 2000-04-17 2003-12-16 At&T Corp. Adaptive short-term post-filters for speech coders
US7395209B1 (en) 2000-05-12 2008-07-01 Cirrus Logic, Inc. Fixed point audio decoding system and method
AU2001270365A1 (en) * 2001-06-11 2002-12-23 Ivl Technologies Ltd. Pitch candidate selection method for multi-channel pitch detectors
US7512535B2 (en) 2001-10-03 2009-03-31 Broadcom Corporation Adaptive postfiltering methods and systems for decoding speech
US6785645B2 (en) 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
US7433824B2 (en) 2002-09-04 2008-10-07 Microsoft Corporation Entropy coding by adapting coding between level and run-length/level modes
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
JP4287637B2 (ja) 2002-10-17 2009-07-01 パナソニック株式会社 音声符号化装置、音声符号化方法及びプログラム
EP1595247B1 (en) * 2003-02-11 2006-09-13 Koninklijke Philips Electronics N.V. Audio coding
KR20030031936A (ko) 2003-02-13 2003-04-23 배명진 피치변경법을 이용한 단일 음성 다중 목소리 합성기
US20040162866A1 (en) 2003-02-19 2004-08-19 Malvar Henrique S. System and method for producing fast modulated complex lapped transforms
CN1809873B (zh) 2003-06-17 2010-05-12 松下电器产业株式会社 接收装置,发送装置及传输系统
KR101058062B1 (ko) 2003-06-30 2011-08-19 코닌클리케 필립스 일렉트로닉스 엔.브이. 잡음 부가에 의한 디코딩된 오디오의 품질 개선
US7620545B2 (en) 2003-07-08 2009-11-17 Industrial Technology Research Institute Scale factor based bit shifting in fine granularity scalability audio coding
KR100550003B1 (ko) * 2003-07-11 2006-02-08 학교법인연세대학교 상호부호화기에서 개회로 피치 추정 방법 및 그 장치
ATE425533T1 (de) * 2003-07-18 2009-03-15 Koninkl Philips Electronics Nv Audiocodierung mit niedriger bitrate
WO2005027096A1 (en) 2003-09-15 2005-03-24 Zakrytoe Aktsionernoe Obschestvo Intel Method and apparatus for encoding audio
US7009533B1 (en) 2004-02-13 2006-03-07 Samplify Systems Llc Adaptive compression and decompression of bandlimited signals
KR20050087956A (ko) 2004-02-27 2005-09-01 삼성전자주식회사 무손실 오디오 부호화/복호화 방법 및 장치
DE102004009954B4 (de) 2004-03-01 2005-12-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals
DE102004009949B4 (de) 2004-03-01 2006-03-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes
JP4867914B2 (ja) 2004-03-01 2012-02-01 ドルビー ラボラトリーズ ライセンシング コーポレイション マルチチャンネルオーディオコーディング
JP4744438B2 (ja) 2004-03-05 2011-08-10 パナソニック株式会社 エラー隠蔽装置およびエラー隠蔽方法
US7272567B2 (en) 2004-03-25 2007-09-18 Zoran Fejzo Scalable lossless audio codec and authoring tool
US7933767B2 (en) * 2004-12-27 2011-04-26 Nokia Corporation Systems and methods for determining pitch lag for a current frame of information
BRPI0608269B8 (pt) 2005-04-01 2019-09-03 Qualcomm Inc método e aparelho para quantização vetorial de uma representação de envelope espectral
US7546240B2 (en) 2005-07-15 2009-06-09 Microsoft Corporation Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition
US7539612B2 (en) 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
KR20070037945A (ko) 2005-10-04 2007-04-09 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
US20070118361A1 (en) 2005-10-07 2007-05-24 Deepen Sinha Window apparatus and method
KR100888474B1 (ko) 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
US7805297B2 (en) 2005-11-23 2010-09-28 Broadcom Corporation Classification-based frame loss concealment for audio signals
US9123350B2 (en) 2005-12-14 2015-09-01 Panasonic Intellectual Property Management Co., Ltd. Method and system for extracting audio features from an encoded bitstream for audio classification
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
WO2007102782A2 (en) 2006-03-07 2007-09-13 Telefonaktiebolaget Lm Ericsson (Publ) Methods and arrangements for audio coding and decoding
US8150065B2 (en) 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
DE602007003023D1 (de) 2006-05-30 2009-12-10 Koninkl Philips Electronics Nv Linear-prädiktive codierung eines audiosignals
CN1983909B (zh) * 2006-06-08 2010-07-28 华为技术有限公司 一种丢帧隐藏装置和方法
US8015000B2 (en) 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
WO2008021247A2 (en) 2006-08-15 2008-02-21 Dolby Laboratories Licensing Corporation Arbitrary shaping of temporal noise envelope without side-information
FR2905510B1 (fr) 2006-09-01 2009-04-10 Voxler Soc Par Actions Simplif Procede d'analyse en temps reel de la voix pour le controle en temps reel d'un organe numerique et dispositif associe
CN101140759B (zh) 2006-09-08 2010-05-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
US7752038B2 (en) 2006-10-13 2010-07-06 Nokia Corporation Pitch lag estimation
DE102006049154B4 (de) 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
KR101292771B1 (ko) 2006-11-24 2013-08-16 삼성전자주식회사 오디오 신호의 오류은폐방법 및 장치
CN101548319B (zh) 2006-12-13 2012-06-20 松下电器产业株式会社 后置滤波器以及滤波方法
FR2912249A1 (fr) 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
JP4871894B2 (ja) 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
EP2015293A1 (en) 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
US20110022924A1 (en) * 2007-06-14 2011-01-27 Vladimir Malenovsky Device and Method for Frame Erasure Concealment in a PCM Codec Interoperable with the ITU-T Recommendation G. 711
JP4928366B2 (ja) 2007-06-25 2012-05-09 日本電信電話株式会社 ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体
JP4572218B2 (ja) 2007-06-27 2010-11-04 日本電信電話株式会社 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
US10795949B2 (en) 2007-07-26 2020-10-06 Hamid Hatami-Hanza Methods and systems for investigation of compositions of ontological subjects and intelligent systems therefrom
JP4981174B2 (ja) 2007-08-24 2012-07-18 フランス・テレコム 確率テーブルの動的な計算によるシンボルプレーン符号化/復号化
ES2375192T3 (es) 2007-08-27 2012-02-27 Telefonaktiebolaget L M Ericsson (Publ) Codificación por transformación mejorada de habla y señales de audio.
CN100524462C (zh) 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
WO2009056027A1 (fr) 2007-11-02 2009-05-07 Huawei Technologies Co., Ltd. Procédé et dispositif de décodage audio
WO2009066869A1 (en) 2007-11-21 2009-05-28 Electronics And Telecommunications Research Institute Frequency band determining method for quantization noise shaping and transient noise shaping method using the same
RU2439718C1 (ru) 2007-12-31 2012-01-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для обработки звукового сигнала
US8386271B2 (en) 2008-03-25 2013-02-26 Microsoft Corporation Lossless and near lossless scalable audio codec
CN102057424B (zh) 2008-06-13 2015-06-17 诺基亚公司 用于经编码的音频数据的错误隐藏的方法和装置
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
CA2730315C (en) 2008-07-11 2014-12-16 Jeremie Lecomte Audio encoder and decoder for encoding frames of sampled audio signals
CA2871268C (en) 2008-07-11 2015-11-03 Nikolaus Rettelbach Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
WO2010031049A1 (en) * 2008-09-15 2010-03-18 GH Innovation, Inc. Improving celp post-processing for music signals
KR20130069833A (ko) 2008-10-08 2013-06-26 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 다중 분해능 스위치드 오디오 부호화/복호화 방법
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
TWI459375B (zh) 2009-01-28 2014-11-01 Fraunhofer Ges Forschung 音訊編碼器、音訊解碼器、包含經編碼音訊資訊之數位儲存媒體、用以將音訊信號編碼及解碼之方法及電腦程式
JP4945586B2 (ja) 2009-02-02 2012-06-06 株式会社東芝 信号帯域拡張装置
US20100223061A1 (en) 2009-02-27 2010-09-02 Nokia Corporation Method and Apparatus for Audio Coding
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
FR2944664A1 (fr) * 2009-04-21 2010-10-22 Thomson Licensing Dispositif et procede de traitement d'images
US8428938B2 (en) 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
US8352252B2 (en) 2009-06-04 2013-01-08 Qualcomm Incorporated Systems and methods for preventing the loss of information within a speech frame
KR20100136890A (ko) 2009-06-19 2010-12-29 삼성전자주식회사 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법
CN101958119B (zh) 2009-07-16 2012-02-29 中兴通讯股份有限公司 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法
CA2777073C (en) 2009-10-08 2015-11-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping
EP3693963B1 (en) 2009-10-15 2021-07-21 VoiceAge Corporation Simultaneous time-domain and frequency-domain noise shaping for tdac transforms
JP5243661B2 (ja) 2009-10-20 2013-07-24 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ信号符号器、オーディオ信号復号器、オーディオコンテンツの符号化表現を供給するための方法、オーディオコンテンツの復号化表現を供給するための方法、および低遅延アプリケーションにおける使用のためのコンピュータ・プログラム
CA2778368C (en) 2009-10-20 2016-01-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using an iterative interval size reduction
US8207875B2 (en) 2009-10-28 2012-06-26 Motorola Mobility, Inc. Encoder that optimizes bit allocation for information sub-parts
US7978101B2 (en) 2009-10-28 2011-07-12 Motorola Mobility, Inc. Encoder and decoder using arithmetic stage to compress code space that is not fully utilized
CN102648493B (zh) 2009-11-24 2016-01-20 Lg电子株式会社 音频信号处理方法和设备
MY153845A (en) 2010-01-12 2015-03-31 Fraunhofer Ges Forschung Audio encoder, audio decoder, method for encoding and audio information, method for decoding an audio information and computer program using a hash table describing both significant state values and interval boundaries
US20110196673A1 (en) 2010-02-11 2011-08-11 Qualcomm Incorporated Concealing lost packets in a sub-band coding decoder
EP2375409A1 (en) 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
FR2961980A1 (fr) 2010-06-24 2011-12-30 France Telecom Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique
KR101730356B1 (ko) 2010-07-02 2017-04-27 돌비 인터네셔널 에이비 선택적인 베이스 포스트 필터
FI3751564T3 (fi) 2010-07-20 2023-01-31 Audiokooderi, audiokoodausmenetelmä ja tietokoneohjelma
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
US8738385B2 (en) 2010-10-20 2014-05-27 Broadcom Corporation Pitch-based pre-filtering and post-filtering for compression of audio signals
BR112013020592B1 (pt) 2011-02-14 2021-06-22 Fraunhofer-Gellschaft Zur Fôrderung Der Angewandten Forschung E. V. Codec de áudio utilizando síntese de ruído durante fases inativas
US9270807B2 (en) * 2011-02-23 2016-02-23 Digimarc Corporation Audio localization using audio signal encoding and recognition
RU2589399C2 (ru) 2011-03-18 2016-07-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Расположение элемента кадра в кадрах потока битов, представляющего аудио содержимое
SG194580A1 (en) 2011-04-21 2013-12-30 Samsung Electronics Co Ltd Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor
EP2707873B1 (en) 2011-05-09 2015-04-08 Dolby International AB Method and encoder for processing a digital stereo audio signal
FR2977439A1 (fr) 2011-06-28 2013-01-04 France Telecom Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard.
US9363339B2 (en) 2011-07-12 2016-06-07 Hughes Network Systems, Llc Staged data compression, including block level long range compression, for data streams in a communications system
FR2977969A1 (fr) 2011-07-12 2013-01-18 France Telecom Adaptation de fenetres de ponderation d'analyse ou de synthese pour un codage ou decodage par transformee
KR101672025B1 (ko) 2012-01-20 2016-11-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 사인곡선 대체를 이용하여 오디오 인코딩 및 디코딩하기 위한 장치 및 방법
WO2013149672A1 (en) * 2012-04-05 2013-10-10 Huawei Technologies Co., Ltd. Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder
US20130282373A1 (en) 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US9026451B1 (en) 2012-05-09 2015-05-05 Google Inc. Pitch post-filter
ES2960089T3 (es) 2012-06-08 2024-02-29 Samsung Electronics Co Ltd Procedimiento y aparato para la ocultación de errores de trama y procedimiento y aparato para la decodificación de audio
GB201210373D0 (en) 2012-06-12 2012-07-25 Meridian Audio Ltd Doubly compatible lossless audio sandwidth extension
FR2992766A1 (fr) 2012-06-29 2014-01-03 France Telecom Attenuation efficace de pre-echos dans un signal audionumerique
CN102779526B (zh) * 2012-08-07 2014-04-16 无锡成电科大科技发展有限公司 语音信号中基音提取及修正方法
US9406307B2 (en) 2012-08-19 2016-08-02 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
US9293146B2 (en) 2012-09-04 2016-03-22 Apple Inc. Intensity stereo coding in advanced audio coding
JP6434411B2 (ja) 2012-09-24 2018-12-05 サムスン エレクトロニクス カンパニー リミテッド フレームエラー隠匿方法及びその装置、並びにオーディオ復号化方法及びその装置
CN103714821A (zh) 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
US9401153B2 (en) * 2012-10-15 2016-07-26 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
ITBO20120619A1 (it) 2012-11-09 2014-05-10 Tissue Machinery Co Spa Apparato e metodo di confezionamento di pannolini o altri oggetti sanitari morbidi piatti ripiegati.
US9318116B2 (en) 2012-12-14 2016-04-19 Disney Enterprises, Inc. Acoustic data transmission based on groups of audio receivers
EP2757558A1 (en) 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding
FR3001593A1 (fr) 2013-01-31 2014-08-01 France Telecom Correction perfectionnee de perte de trame au decodage d'un signal.
EP2954518B1 (en) 2013-02-05 2016-08-31 Telefonaktiebolaget LM Ericsson (publ) Method and apparatus for controlling audio frame loss concealment
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
MY181845A (en) 2013-06-21 2021-01-08 Fraunhofer Ges Forschung Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pulse resynchronization
RU2665279C2 (ru) * 2013-06-21 2018-08-28 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ, реализующие улучшенные концепции для tcx ltp
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
CN105723452B (zh) 2013-10-18 2020-01-31 弗劳恩霍夫应用研究促进协会 音频信号的频谱的频谱系数的解码方法及解码器
US9906858B2 (en) 2013-10-22 2018-02-27 Bongiovi Acoustics Llc System and method for digital signal processing
WO2015063227A1 (en) 2013-10-31 2015-05-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio bandwidth extension by insertion of temporal pre-shaped noise in frequency domain
SG10201709061WA (en) 2013-10-31 2017-12-28 Fraunhofer Ges Forschung Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
PL3069338T3 (pl) 2013-11-13 2019-06-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Koder do kodowania sygnału audio, system przesyłania audio i sposób określania wartości korekcji
GB2524333A (en) 2014-03-21 2015-09-23 Nokia Technologies Oy Audio signal payload
EP4336500A3 (en) 2014-04-17 2024-04-03 VoiceAge EVS LLC Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
US9396733B2 (en) 2014-05-06 2016-07-19 University Of Macau Reversible audio data hiding
NO2780522T3 (zh) 2014-05-15 2018-06-09
EP2963649A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using horizontal phase correction
US9685166B2 (en) * 2014-07-26 2017-06-20 Huawei Technologies Co., Ltd. Classification between time-domain coding and frequency domain coding
EP2980798A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
EP2980799A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal using a harmonic post-filter
EP2980796A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
MX349256B (es) * 2014-07-28 2017-07-19 Fraunhofer Ges Forschung Aparato y metodo para seleccionar uno de un primer algoritmo de codificacion y un segundo algoritmo de codificacion usando reduccion de armonicos.
EP4336493A3 (en) 2014-07-28 2024-06-12 Samsung Electronics Co., Ltd. Method and apparatus for packet loss concealment, and decoding method and apparatus employing same
EP2988300A1 (en) 2014-08-18 2016-02-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Switching of sampling rates at audio processing devices
EP3067886A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
US10296959B1 (en) 2015-03-30 2019-05-21 Audible, Inc. Automated recommendations of audio narrations
US9886963B2 (en) 2015-04-05 2018-02-06 Qualcomm Incorporated Encoder selection
US10049684B2 (en) 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
JP6422813B2 (ja) 2015-04-13 2018-11-14 日本電信電話株式会社 符号化装置、復号装置、これらの方法及びプログラム
US9978400B2 (en) 2015-06-11 2018-05-22 Zte Corporation Method and apparatus for frame loss concealment in transform domain
US9837089B2 (en) 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
KR20170000933A (ko) * 2015-06-25 2017-01-04 한국전기연구원 시간 지연 추정을 이용한 풍력 터빈의 피치 제어 시스템
US9830921B2 (en) 2015-08-17 2017-11-28 Qualcomm Incorporated High-band target signal control
US10803877B2 (en) 2015-09-04 2020-10-13 Samsung Electronics Co., Ltd. Signal processing methods and apparatuses for enhancing sound quality
US9978381B2 (en) * 2016-02-12 2018-05-22 Qualcomm Incorporated Encoding of multiple audio signals
US10219147B2 (en) 2016-04-07 2019-02-26 Mediatek Inc. Enhanced codec control
US10283143B2 (en) 2016-04-08 2019-05-07 Friday Harbor Llc Estimating pitch of harmonic signals
CN107945809B (zh) * 2017-05-02 2021-11-09 大连民族大学 一种复调音乐多音高估计方法

Also Published As

Publication number Publication date
CA3082175A1 (en) 2019-05-16
KR102426050B1 (ko) 2022-07-28
AU2018363670B2 (en) 2021-02-18
AU2018363670A1 (en) 2020-05-21
KR20200083565A (ko) 2020-07-08
RU2742739C1 (ru) 2021-02-10
CN111566733B (zh) 2023-08-01
PL3707718T3 (pl) 2022-02-21
EP3483886A1 (en) 2019-05-15
ES2900058T3 (es) 2022-03-15
US11380341B2 (en) 2022-07-05
WO2019091922A1 (en) 2019-05-16
CN111566733A (zh) 2020-08-21
MX2020004786A (es) 2020-08-13
ZA202002521B (en) 2021-10-27
BR112020009114A2 (pt) 2020-10-13
US20200273475A1 (en) 2020-08-27
EP3707718A1 (en) 2020-09-16
TWI728277B (zh) 2021-05-21
JP7079325B2 (ja) 2022-06-01
PT3707718T (pt) 2021-12-27
SG11202004203WA (en) 2020-06-29
AR114388A1 (es) 2020-09-02
EP3707718B1 (en) 2021-10-13
JP2021502596A (ja) 2021-01-28
CA3082175C (en) 2022-11-01

Similar Documents

Publication Publication Date Title
RU2676870C1 (ru) Декодер для формирования аудиосигнала с улучшенной частотной характеристикой, способ декодирования, кодер для формирования кодированного сигнала и способ кодирования с использованием компактной дополнительной информации для выбора
TWI698859B (zh) 編碼及解碼音訊信號之技術
JP2016523380A (ja) 改善されたパルス再同期化を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
AU2015295519A1 (en) Harmonicity-dependent controlling of a harmonic filter tool
JP6482540B2 (ja) 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
JP6301368B2 (ja) 増強信号の整形を用いて周波数増強信号を生成する装置および方法
US11380341B2 (en) Selecting pitch lag
TW201606752A (zh) 柔和噪音產生模式選擇之裝置與方法