TWI581257B - 使用品質控制之時間定標器、音訊解碼器、方法和電腦程式 - Google Patents

使用品質控制之時間定標器、音訊解碼器、方法和電腦程式 Download PDF

Info

Publication number
TWI581257B
TWI581257B TW103121379A TW103121379A TWI581257B TW I581257 B TWI581257 B TW I581257B TW 103121379 A TW103121379 A TW 103121379A TW 103121379 A TW103121379 A TW 103121379A TW I581257 B TWI581257 B TW I581257B
Authority
TW
Taiwan
Prior art keywords
time
sample block
input audio
scaler
sample
Prior art date
Application number
TW103121379A
Other languages
English (en)
Other versions
TW201517025A (zh
Inventor
史蒂芬 勞宇施勒
史蒂芬 多希拉
傑瑞米 列康提
曼紐 貞德
尼可拉斯 菲爾柏
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW201517025A publication Critical patent/TW201517025A/zh
Application granted granted Critical
Publication of TWI581257B publication Critical patent/TWI581257B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Data Mining & Analysis (AREA)
  • Escalators And Moving Walkways (AREA)
  • Electric Clocks (AREA)
  • Studio Circuits (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

使用品質控制之時間定標器、音訊解碼器、方法和電腦程式 發明領域
根據本發明之實施例係關於一種用於提供一輸入音訊信號之一經時間定標之型式之時間定標器。
根據本發明之另外實施例係關於一種用於基於輸入音訊內容提供經解碼音訊內容之音訊解碼器。
根據本發明之另外實施例係關於一種用於提供一輸入音訊信號之一經時間定標之型式之方法。
根據本發明之另外實施例係關於一種用於執行該方法之電腦程式。
發明背景
音訊內容(包括一般音訊內容,如音樂內容、話語內容及混合一般音訊/話語內容)之儲存及傳輸為重要的技術領域。由以下事實引起特定挑戰:收聽者期望音訊內容之連續播放,而無中斷,且亦無由音訊內容之儲存及/或 傳輸引起的任何聲訊偽訊。同時,需要使關於儲存方式及資料傳輸方式之要求保持儘可能低,以將成本保持在可接受限度內。
例如,若自儲存媒體之讀出暫時被中斷或延遲,或若在資料源與資料儲集器之間的傳輸暫時被中斷或延遲,則會造成問題。舉例而言,經由網際網路之傳輸並不十分可靠,此係由於TCP/IP封包可能會丟失,且由於在網際網路上之傳輸延遲可(例如)取決於網際網路節點之變化的負載情形而變化。然而,為了具有令人滿意的使用者體驗,需要具有音訊內容之連續播放,而無聲訊「間隙」或聲訊偽訊。此外,需要避免將由大量音訊資訊之緩衝引起的實質延遲。
鑒於以上論述,可認識到,需要甚至在不連續提供音訊資訊之情況下仍提供良好音訊品質的概念。
發明概要
根據本發明之一實施例創造一種用於提供一輸入音訊信號之一經時間定標之型式之時間定標器。該時間定標器經組配以計算或估計可藉由該輸入音訊信號之一時間定標獲得的該輸入音訊信號之一經時間定標之型式之一品質。此外,該時間定標器經組配以取決於可藉由該時間定標獲得的該輸入音訊信號之該經時間定標之型式之該品質的該計算或估計而執行該輸入音訊信號之該時間定標。根據本發明之此實施例係基於以下理念:存在輸入音訊信 號之時間定標將導致實質聲訊失真之情形。此外,根據本發明之實施例係基於以下發現:品質控制機制藉由評估所要的時間定標是否將實際提供輸入音訊信號之經時間定標之型式之足夠品質來有助於避免此等聲訊失真。因此,時間定標不僅受到所要的時間伸展或時間收縮控制,且亦受到可獲得之品質之評估控制。因此,舉例而言,可能在時間定標將導致輸入音訊信號之經時間定標之型式的不可接受之低品質的情況下推遲時間定標。然而,亦可使用輸入音訊信號之經時間定標之型式之預期)品質的計算估計來調整時間定標之任何其他參數。總之,在以上提到之實施例中使用的品質控制機制有助於減少或避免應用時間定標之系統中的聲訊偽訊。
在一較佳實施例中,該時間定標器經組配以使用該輸入音訊信號之一第一樣本區塊及該輸入音訊信號之一第二樣本區塊執行一重疊相加操作(其中該輸入音訊信號之該第一樣本區塊與該輸入音訊信號之該第二樣本區塊可為屬於單一訊框或屬於不同訊框之重疊或不重疊樣本區塊)。該時間定標器經組配以相對於該第一樣本區塊時間移位該第二樣本區塊(例如,當與相關聯於該第一樣本區塊及該第二樣本區塊之一原始時間線比較時),及重疊相加該第一樣本區塊及該經時間移位之第二樣本區塊,以藉此獲得該輸入音訊信號之該經時間定標之型式。根據本發明之此實施例係基於以下發現:使用第一樣本區塊及第二樣本區塊之重疊相加操作通常導致良好的時間定標,其中在許多 情況下,相對於第一樣本區塊調整第二樣本區塊的時間移位允許使失真保持合理地小。然而,亦已發現,引入檢查第一樣本區塊與經時間移位之第二樣本區塊的預想之重疊相加是否實際導致輸入音訊信號之經時間定標之型式之足夠品質的額外品質控制機制有助於避免聲訊偽訊同時具有甚至更好的可靠性。換言之,已發現,在已識別第二樣本區塊相對於第一樣本區塊之所要(或有利)時間移位後執行品質檢查(基於可藉由時間定標獲得的輸入音訊信號之經時間定標之型式之品質估計)係有利的,此係由於此程序有助於減少或避免聲訊偽訊。
在一較佳實施例中,該時間定標器經組配以計算或估計該第一樣本區塊與該經時間移位之第二樣本區塊之間的該重疊相加操作之一品質(例如,預期品質),以便計算或估計可藉由該時間定標獲得的該輸入音訊信號之該經時間定標之型式的該預期)品質。已發現,重疊相加操作之品質實際上對可藉由時間定標獲得的輸入音訊信號之經時間定標之型式的品質具有強影響。
在一較佳實施例中,該時間定標器經組配以取決於判定該第一樣本區塊或該第一樣本區塊之一部分(例如,右側部分,亦即,在該第一樣本區塊之末端的樣本)與該第二樣本區塊或該第二樣本區塊之一部分(例如,左側部分,亦即,在該第二樣本區塊之開頭的樣本)之間的一類似性等級來判定該第二樣本區塊相對於該第一樣本區塊之該時間移位。此概念係基於以下發現:判定第一樣本區塊與 經時間移位之第二樣本區塊之間的類似性提供了重疊相加操作之品質的估計,且因此亦提供可藉由時間定標獲得的輸入音訊信號之經時間定標之型式之品質的有意義估計。此外,已發現,可使用適度計算複雜性按良好精確度判定第一樣本區塊(或第一樣本區塊之右側部分)與經時間移位之第二樣本區塊(或經時間移位之第二樣本區塊之左側部分)之間的類似性等級。
在一較佳實施例中,該時間定標器經組配以針對該第一樣本區塊與該第二樣本區塊之間的複數個不同時間移位,判定關於該第一樣本區塊或該第一樣本區塊之一部分(例如,一右側部分)與該第二樣本區塊或該第二樣本區塊之一部分(例如,左側部分)之間的一類似性等級之一資訊,及基於關於針對該複數個不同時間移位之該類似性等級之該資訊判定待用於該重疊相加操作的一(候選)時間移位。因此,第二樣本區塊相對於第一樣本區塊之時間移位可經選擇以適宜於音訊內容。然而,可在判定將用於重疊相加操作之(候選)時間移位後執行包括可藉由輸入音訊信號之時間定標獲得的輸入音訊信號之經時間定標之型式之預期)品質的計算或估計之品質控制。換言之,藉由使用品質控制機制,可確保基於關於針對複數個不同時間移位的第一樣本區塊(或第一樣本區塊之一部分)與第二樣本區塊(或第二樣本區塊之一部分)之間的類似性等級之資訊判定的時間移位實際上導致足夠良好的音訊品質。因此,可有效率地減少或避免偽訊。
在一較佳實施例中,該時間定標器經組配以取決於一目標時間移位資訊而判定該第二樣本區塊相對於該第一樣本區塊之該時間移位,該時間移位將用於該重疊相加操作(除非回應於一不足夠品質估計而推遲該時間移位操作)。換言之,考慮目標時間移位資訊,且進行以下嘗試:判定第二樣本區塊相對於第一樣本區塊之時間移位,使得第二樣本區塊相對於第一樣本區塊之該時間移位接近由目標時間移位資訊描述之目標時間移位。因此,可達成藉由第一樣本區塊及經時間移位之第二樣本區塊之重疊相加獲得的(候選)時間移位與(由目標時間移位資訊定義之)要求一致,其中若可藉由時間定標獲得的輸入音訊信號之經時間定標之型式之預期)品質的計算或估計指示不足夠品質,則可防止重疊相加操作之實際執行。
在一較佳實施例中,該時間定標器經組配以基於關於該第一樣本區塊或該第一樣本區塊之一部分(例如,一右側部分)與按該判定之時間移位進行時間移位的該第二樣本區塊或按該判定之時間移位進行時間移位的該第二樣本區塊之一部分(例如,一左側部分)之間的一類似性等級之一資訊,計算或估計可藉由該輸入音訊信號之一時間定標獲得的該輸入音訊信號之該經時間定標之型式之一品質(例如,預期品質)。已發現,第一樣本區塊或第一樣本區塊之部分與按判定之時間移位進行時間移位的第二樣本區塊或按判定之時間移位進行時間移位的第二樣本區塊之部分之間的類似性等級構成用於決定可藉由時間定標獲得的輸 入音訊信號之經時間定標之型式是否將具有足夠品質之良好準則。
在一較佳實施例中,該時間定標器經組配以基於關於該第一樣本區塊或該第一樣本區塊之一部分(例如,右側部分)與按該判定之時間移位進行時間移位的該第二樣本區塊或按該判定之時間移位進行時間移位的該第二樣本區塊之一部分(例如,一左側部分)之間的該類似性等級之該資訊決定是否實際執行一時間定標。因此,使用第一(通常在計算上較簡單且不十分可靠)演算法的識別為候選時間移位的時間移位之判定後接著為品質檢查,其係基於關於第一樣本區塊(或第一樣本區塊之一部分)與按判定之時間移位進行時間移位的第二樣本區塊(或按判定之時間移位進行時間移位的第二樣本區塊之一部分)之間的類似性等級之資訊。基於該資訊之「品質檢查」通常比僅判定候選時間移位更可靠,且因此用以最終決定是否實際上執行時間定標。因此,若時間定標將導致過多聲訊偽訊(或失真),則可防止時間定標。
在一較佳實施例中,該時間定標器經組配以在可藉由該時間定標獲得的該輸入音訊信號之該經時間定標之型式之該品質的該計算或估計指示大於或等於一品質臨限值之一品質的情況下,相對於一第一樣本區塊時間移位一第二樣本區塊,且重疊相加該第一樣本區塊與該經時間移位之第二樣本區塊,以藉此獲得該輸入音訊信號的該經時間定標之型式。該時間定標器經組配以取決於該第一樣本 區塊或該第一樣本區塊之一部分(例如,一右側部分)與該第二樣本區塊或該第二樣本區塊之一部分(例如,一左側部分)之間的使用一第一類似性度量評估的一類似性等級之一判定來判定該第二樣本區塊相對於該第一樣本區塊之一時間移位。該時間定標器經進一步組配以基於關於該第一樣本區塊或該第一樣本區塊之一部分(例如,一右側部分)與按該判定之時間移位進行時間移位的該第二樣本區塊或按該判定之時間移位進行時間移位的該第二樣本區塊之一部分(例如,一左側部分)之間的使用一第二類似性度量評估的該類似性等級之一資訊,計算或估計可藉由該輸入音訊信號之一時間定標獲得的該輸入音訊信號之該經時間定標之型式之一品質(例如,一預期品質)。第一類似性度量及第二類似性度量之使用允許按適度計算複雜性快速判定第二樣本區塊相對於第一樣本區塊之時間移位,且其亦允許按高精確度計算或估計可藉由輸入音訊信號之時間定標獲得的輸入音訊信號之經時間定標之型式之品質。因此,使用兩個不同類似性度量之兩步驟程序允許組合第一步驟中之比較小計算複雜性與第二(品質控制)步驟中之高精確度,且允許減少或避免聲訊偽訊,即使將通常在計算上簡單之第一類似性度量用於判定第二樣本區塊相對於第一樣本區塊之(候選)時間移位亦然(其中當判定第二樣本區塊相對於第一樣本區塊之候選時間移位時,使用如第二類似性度量之高計算複雜性的類似性度量通常將過於要求嚴格)。
在一較佳實施例中,該第二類似性度量在計算上 比該第一類似性度量複雜。因此,可按高精確度執行「最終」品質檢查,而可按有效率的方式執行第二樣本區塊相對於第一樣本區塊之時間移位之容易判定。
在一較佳實施例中,該第一類似性度量為一交互相關或一正規化之交互相關或一平均量值差函數或一平方誤差之總和。較佳地,該第二類似性度量為針對複數個不同時間移位的交互相關或正規化之交互相關之一組合。已發現,一交互相關、一正規化之交互相關、一平均量值差函數或一平方誤差之總和允許對第二樣本區塊相對於第一樣本區塊之(候選)時間移位之良好且有效率的判定。此外,已發現,為針對複數個不同時間移位的交互相關或正規化之交互相關之一組合的類似性度量為用於評估(計算或估計)可藉由時間定標獲得的輸入音訊信號之經時間定標之型式之品質的十分可靠量。
在一較佳實施例中,該第二類似性度量為至少四個不同時間移位的交互相關之一組合。已發現,至少四個不同時間移位的交互相關之組合允許對品質之精確評估,此係由於亦可藉由判定至少四個不同時間移位之相關性來考慮隨時間過去的信號變化。又,可藉由使用至少四個不同時間移位之交互相關性而在一定程度上考慮諧波。因此,可達成可獲得之品質的特別好之評估。
在一較佳實施例中,該第二類似性度量為針對由該第一樣本區塊或該第二樣本區塊之一音訊內容之一基頻的一週期持續時間之一整數倍間隔開之時間移位獲得的一 第一交互相關值與一第二交互相關值及針對由該音訊內容之該基頻的該週期持續時間之一整數倍間隔開之時間移位獲得的一第三交互相關值與一第四交互相關值之一組合,其中獲得該第一交互相關值之一時間移位與獲得該第三交互相關值之一時間移位由該音訊內容之該基頻的該週期持續時間之一半之一奇數倍間隔開。因此,該第一交互相關值及該第二交互相關值可提供音訊內容是否隨著時間過去至少大致固定之資訊。類似地,該第三交互相關值及該第四交互相關值亦可提供音訊內容是否隨著時間過去至少大致固定之資訊。此外,第三交互相關值及第四交互相關值相對於第一交互相關值及第二交互相關值「在時間上偏移」之事實允許考慮諧波。總之,基於第一交互相關值、第二交互相關值、第三交互相關值與第四交互相關值之組合的第二類似性度量之計算帶來高度準確性,及因此帶來可藉由時間定標獲得的輸入音訊信號之經時間定標之型式之預期)品質的計算(或估計)之可靠結果。
在一較佳實施例中,根據q=c(p)* c(2*p)+c(3/2*p)* c(1/2*p)或根據q=c(p)* c(-p)+c(-1/2*p)* c(1/2*p)獲得該第二類似性度量q。在以上等式中,c(p)為按一第一樣本區塊或一第二樣本區塊之一音訊內容之一基頻之一週期持續時間p在時間上移位(相對於彼此,且相對於一原始時間線)的該第一樣本區塊與該第二樣本區塊之間的一交互相關值。c(2*p)為按2*p在時間上移位的一第一樣本區塊與一第二樣本區塊之間的一交互相關值。c(3/2*p) 為按3/2*p在時間上移位的一第一樣本區塊與一第二樣本區塊之間的一交互相關值。c(1/2*p)為按½*p在時間上移位的一第一樣本區塊與一第二樣本區塊之間的一交互相關值。c(-p)為按-p在時間上移位的一第一樣本區塊與一第二樣本區塊之間的一交互相關值,且c(-1/2*p)為按-½*p在時間上移位的一第一樣本區塊與一第二樣本區塊之間的一交互相關值。已發現,以上等式之使用導致可藉由時間定標獲得的輸入音訊信號之經時間定標之型式之預期)品質的特別好且可靠之計算(或估計)。
在一較佳實施例中,該時間定標器經組配以比較基於可藉由該時間定標獲得的該輸入音訊信號之該經時間定標之型式之該品質的一計算或估計之一品質值與一可變臨限值,以決定是否應執行一時間定標。可變臨限值之使用允許調適該臨限值以用於決定是否應針對該情形執行一時間定標。因此,在一些情形下,可增加用於執行一時間定標之品質要求,且在其他情形下可減少該等品質要求,例如,取決於先前時間定標操作或信號之任何其他特性。因此,可進一步增加是否執行時間定標之決策之重要性。
在一較佳實施例中,該時間定標器經組配以回應於對於一時間定標之一品質將已不足夠用於一或多個先前樣本區塊之一發現,減小該可變臨限值,以藉此減少一品質要求。藉由減小可變臨限值,可避免在延長之時段中省略時間定標,此係因為此可導致緩衝器欠載運行或緩衝器超限運行,且將因此比產生由時間定標引起的一些偽訊更 有害。因此,可避免將由時間定標之過度延遲引起的問題。
在一較佳實施例中,該時間定標器經組配以回應於一時間定標已經應用於一或多個先前樣本區塊之事實,增大該可變臨限值,以藉此增加一品質要求。因此,可確保,僅在可達到比較高的品質等級(比「正常」品質等級高)的情況下才時間定標隨後樣本區塊。相比之下,若時間定標將未滿足比較高的品質要求,則防止一連串隨後樣本區塊之時間定標。此係適當的,因為將時間定標應用至複數個隨後樣本區塊將通常導致偽訊,除非時間定標滿足比較高的品質要求(其通常比在將僅時間定標單一樣本區塊而非一連串相鄰樣本區塊的情況下可應用之「正常」品質要求高)。
在一較佳實施例中,該時間定標器包含用於計數因為已達到可藉由該時間定標獲得的該輸入音訊信號之該經時間定標之型式之一各別品質要求而已經時間定標的樣本區塊之一數目或訊框之一數目的一有限範圍第一計數器。此外,該時間定標器包含用於計數因為尚未達到可藉由該時間定標獲得的該輸入音訊信號之該經時間定標之型式之一各別品質要求而尚未時間定標的樣本區塊之一數目或訊框之一數目的一有限範圍第二計數器。該時間定標器經組配以取決於該第一計數器之一值及取決於該第二計數器之一值計算該可變臨限值。藉由使用有限範圍第一計數器及有限範圍第二計數器,獲得用於可變臨限值之調整的簡單機制,其允許使可變臨限值適宜於各別情形,同時避 免臨限值之過小或過大值。
在一較佳實施例中,該時間定標器經組配以將與該第一計數器之該值成比例之一值添加至一初始臨限值,及自其減去與該第二計數器之該值成比例之一值以便獲得該可變臨限值。藉由使用此概念,可以非常簡單的方式獲得可變臨限值。
在一較佳實施例中,該時間定標器經組配以取決於可藉由該時間定標獲得的該輸入音訊信號之該經時間定標之型式之該品質的該計算或估計而執行該輸入音訊信號之該時間定標,其中該輸入音訊信號之該經時間定標之型式之該品質的該計算或估計包含將由一時間定標引起的在該輸入音訊信號之該經時間定標之型式中的偽訊之一計算或估計。藉由計算或估計將由時間定標引起的在輸入音訊信號之經時間定標之型式中的偽訊,可使用用於品質之計算或估計的有意義之準則,此係因為偽訊將通常使人類收聽者之聽覺印象降級。
在一較佳實施例中,該輸入音訊信號之該經時間定標之型式之該預期)品質的該計算估計包含將由該輸入音訊信號之隨後樣本區塊之一重疊相加操作引起的在該輸入音訊信號之該經時間定標之型式中的偽訊之一計算或估計。已認識到,重疊相加操作可為當執行時間定標時之主要偽訊源。因此,已發現計算或估計將由輸入音訊信號之隨後樣本區塊之重疊相加操作引起的輸入音訊信號之經時間定標之型式之偽訊為有效率之方法。
在一較佳實施例中,該時間定標器經組配以取決於該輸入音訊信號之隨後樣本區塊之一類似性等級計算或估計可藉由該輸入音訊信號之一時間定標獲得的該輸入音訊信號之一經時間定標之型式之預期)品質。已發現,若輸入音訊信號之隨後區塊或樣本包含比較高的類似性,則通常可按良好品質執行時間定標,且若輸入音訊信號之隨後樣本區塊包含實質差異,則通常由時間定標產生失真。
在一較佳實施例中,該時間定標器經組配以計算或估計在可藉由該輸入音訊信號之一時間定標獲得的該輸入音訊信號之一經時間定標之型式中是否存在聲訊偽訊。已發現,聲訊偽訊之計算或估計提供良好地適宜於人類聽覺印象之品質資訊。
在一較佳實施例中,該時間定標器經組配以在可藉由該時間定標獲得的該輸入音訊信號之該經時間定標之型式之該預期)品質的該計算或估計指示一不足品質之情況下將一時間定標推遲至一隨後訊框或至一隨後樣本區塊。因此,有可能在因為產生較少偽訊而更適宜於時間定標之時執行時間定標。換言之,藉由取決於可藉由時間定標達成之品質靈活選擇執行時間定標之時間,可改良輸入音訊信號之經時間定標之型式之聽覺印象。此外,此理念係基於以下發現:時間定標操作之輕微延遲通常不提供任何實質問題。
在一較佳實施例中,該時間定標器經組配以在可藉由該時間定標獲得的該輸入音訊信號之該經時間定標之 型式之該預期)品質的該計算或估計指示一不足品質之情況下將一時間定標推遲至該時間定標較難被聽到之一時間。因此,可藉由避免聲訊失真來改良聽覺印象。
根據本發明之一實施例創造一種用於基於一輸入音訊內容提供一經解碼音訊內容之音訊解碼器。該音訊解碼器包含一顫動緩衝器,其經組配以緩衝表示音訊樣本區塊之複數個音訊訊框。該音訊解碼器亦包含一解碼器核心,其經組配以基於自該顫動緩衝器接收之音訊訊框提供音訊樣本區塊。此外,該音訊解碼器包含如上概述之一基於樣本之時間定標器。該基於樣本之時間定標器經組配以基於由該解碼器核心提供的音訊樣本區塊提供經時間定標之音訊樣本區塊。此音訊解碼器係基於以下理念:經組配以取決於可藉由時間定標獲得的輸入音訊信號之經時間定標之型式之品質的計算或估計而執行輸入音訊信號之時間定標的時間定標器良好地適宜於在包含一顫動緩衝器及一解碼器核心之音訊解碼器中使用。顫動緩衝器之存在允許(例如)在可藉由時間定標獲得的輸入音訊信號之經時間定標之型式之預期)品質的計算或估計指示將獲得不良品質的情況下,推遲時間定標操作。因此,包括品質控制機制的基於樣本之時間定標器允許避免或至少減少包含顫動緩衝器及解碼器核心之音訊解碼器中的聲訊偽訊。
在一較佳實施例中,該音訊解碼器進一步包含一顫動緩衝器控制器。該顫動緩衝器控制器經組配以將一控制資訊提供至該基於樣本之時間定標器,其中該控制資訊 指示是否應執行一基於樣本之時間定標。替代地,或另外,該控制資訊可指示一所要的時間定標量。因此,可取決於音訊解碼器之要求來控制基於樣本之時間定標器。舉例而言,顫動緩衝器控制器可執行信號自適應控制,且可選擇是否應按信號自適應方式執行基於訊框之時間定標或基於樣本之時間定標。因此,存在額外靈活度。然而,基於樣本之時間定標器之品質控制機制可(例如)否決由顫動緩衝器控制器提供之控制資訊,使得即使在由顫動緩衝器控制器提供之控制資訊指示應執行基於樣本之時間定標之情況下仍避免(或停用)基於樣本之時間定標。因此,「智慧」的基於樣本之時間定標器可否決顫動緩衝器控制器,此係因為基於樣本之時間定標器能夠獲得關於可藉由時間定標獲得之品質的更詳細資訊。總之,基於樣本之時間定標器可受到由顫動緩衝器控制器提供之控制資訊導引,但若品質將因遵循由顫動緩衝器控制器提供之控制資訊而實質上受到危害,則仍可「拒絕」時間定標,此有助於確保令人滿意的音訊品質。
根據本發明之另一實施例創造一種用於提供一輸入音訊信號之一經時間定標之型式之方法。該方法包含計算或估計可藉由該輸入音訊信號之一時間定標獲得的該輸入音訊信號之一經時間定標之型式之一品質(例如,一預期品質)。該方法進一步包含取決於可藉由該時間定標獲得的該輸入音訊信號之該經時間定標之型式之該預期)品質的該計算或估計而執行該輸入音訊信號之該時間定標。此 方法係基於與以上提到之時間定標器相同的考慮。
根據本發明之又一實施例創造一種電腦程式,其用於當該電腦程式正在一電腦上執行時執行該方法。該電腦程式係基於與該方法且亦與以上描述之顫動緩衝器相同的考慮。
100、350‧‧‧顫動緩衝器控制器
110‧‧‧音訊信號
112、114、912‧‧‧控制資訊
200、450、1000‧‧‧時間定標器
210‧‧‧輸入音訊信號
212‧‧‧輸入音訊信號之經時間定標之型式
300、400‧‧‧音訊解碼器
310‧‧‧輸入音訊內容
312、412‧‧‧經解碼音訊內容
320、430‧‧‧顫動緩衝器
322‧‧‧音訊訊框
330、440‧‧‧解碼器核心
332‧‧‧音訊樣本
340‧‧‧基於樣本之時間定標器
342、956‧‧‧經時間定標之音訊樣本
410‧‧‧封包
420‧‧‧拆包器
422‧‧‧解封包化之訊框
424‧‧‧SID旗標資訊
426‧‧‧時間戳資訊
432‧‧‧經緩衝之訊框
434‧‧‧基於訊框之定標資訊
436、446‧‧‧定標回饋資訊
442‧‧‧經解碼音訊樣本
444‧‧‧基於樣本之定標資訊
448‧‧‧經時間定標之樣本
460‧‧‧PCM緩衝器
462‧‧‧延遲資訊
470‧‧‧目標延遲估計
472‧‧‧目標延遲資訊
480‧‧‧放出延遲估計
482‧‧‧放出延遲資訊
490、800‧‧‧控制邏輯
510-522、610-624、710-716、1110-1130、1044-1058‧‧‧參考數字
810、814、840-856、862-866、920、930、936、942、950、954、962、1010-1018、1030、1060-1084、1410、1510-1520‧‧‧步驟
820‧‧‧第一決策路徑
830‧‧‧第二決策路徑
860‧‧‧第二決策分支
900‧‧‧時間定標
910‧‧‧經解碼樣本
932‧‧‧能量值
940‧‧‧第一處理路徑
944‧‧‧最小訊框大小資訊
946‧‧‧最高類似性之資訊
952‧‧‧未定標之音訊樣本
960‧‧‧第二處理路徑
964‧‧‧經定標之音訊樣本
1042‧‧‧第一表示
1200、1300‧‧‧圖形表示
1210、1310‧‧‧橫座標
1212、1312‧‧‧縱座標
1400‧‧‧方法
t1-t4、t2'、t2"、t4'、t4"、t11-t13、t12'-t12'''、t13'-t13'''‧‧‧時間
隨後將參看附圖描述根據本發明之實施例,其中:圖1展示根據本發明之一實施例的顫動緩衝器控制器之方塊示意圖;圖2展示根據本發明之一實施例的時間定標器之方塊示意圖;圖3展示根據本發明之一實施例的音訊解碼器之方塊示意圖;圖4展示根據本發明之另一實施例的音訊解碼器之方塊示意圖,其中展示對顫動緩衝器管理(JBM)之概觀;圖5展示用以控制PCM緩衝程度的演算法之偽程式碼;圖6展示用以自接收時間及RTP封包之RTP時間戳計算延遲值及偏移值的演算法之偽程式碼;圖7展示用於計算目標延遲值的演算法之偽程式碼;圖8展示顫動緩衝器管理控制邏輯之流程圖;圖9展示具有品質控制的經修改之WSOLA之方塊示意圖表示;圖10a及圖10b展示用於控制時間定標器之方法之流程 圖;圖11展示用於時間定標之品質控制的演算法之偽程式碼;圖12展示目標延遲及放出延遲之圖形表示,其係藉由根據本發明之一實施例獲得;圖13展示在根據本發明之實施例中執行的時間定標之圖形表示;圖14展示用於基於輸入音訊內容控制經解碼音訊內容之提供的方法之流程圖;及圖15展示根據本發明之一實施例的用於提供輸入音訊信號之經時間定標之型式的方法之流程圖。
較佳實施例之詳細說明
5.1.根據圖1之顫動緩衝器控制器
圖1展示根據本發明之一實施例的顫動緩衝器控制器之方塊示意圖。用於基於輸入音訊內容控制經解碼音訊內容之提供的顫動緩衝器控制器100接收音訊信號110或關於音訊信號之資訊(該資料可描述音訊信號或音訊信號之訊框或其他信號部分的一或多個特性)。
此外,顫動緩衝器控制器100提供用於基於訊框之定標的控制資訊(例如,控制信號)112。舉例而言,控制資訊112可包含啟動信號(用於基於訊框之時間定標)及/或定量控制資訊(用於基於訊框之時間定標)。
此外,顫動緩衝器控制器100提供用於基於樣本 之時間定標的控制資訊(例如,控制信號)114。控制資訊114可(例如)包含用於基於樣本之時間定標的啟動信號及/或定量控制資訊。
該顫動緩衝器控制器110經組配以按一信號自適應方式選擇一基於訊框之時間定標或一基於樣本之時間定標。因此,顫動緩衝器控制器可經組配以評估音訊信號或關於音訊信號110之資訊,及基於此提供控制資訊112及/或控制資訊114。因此,可例如按以下方式使使用基於訊框之時間定標或是基於樣本之時間定標的決策適宜於音訊信號之特性:若基於音訊信號及/或基於關於音訊信號之一或多個特性的資訊預期(或估計)基於訊框之時間定標不導致音訊內容之實質降級,則使用在計算上簡單的基於訊框之時間定標。相比之下,若基於對音訊信號110之特性之評估預期或估計(由顫動緩衝器控制器)需要基於樣本之時間定標來避免當執行時間定標時的聲訊偽訊,則顫動緩衝器控制器通常決定使用基於樣本之時間定標。
此外,應注意,顫動緩衝器控制器110可自然地亦接收額外控制資訊,例如,指示是否應執行時間定標之控制資訊。
在下文中,將描述顫動緩衝器控制器100之一些可選細節。舉例而言,顫動緩衝器控制器100可提供控制資訊112、114,使得當將使用基於訊框之時間定標時,丟棄或插入音訊訊框以控制顫動緩衝器之深度,且使得當使用基於樣本之時間定標時,執行音訊信號部分的經時間移位 之重疊相加。換言之,顫動緩衝器控制器100可(例如)與顫動緩衝器(在一些情況下,亦標識為去顫動緩衝器)合作,且控制顫動緩衝器執行基於訊框之時間定標。在此情況下,可藉由自顫動緩衝器丟棄訊框或藉由將訊框(例如,包含指示訊框「不在作用中」及應使用舒適雜訊產生之傳訊的簡單訊框)插入至顫動緩衝器內來控制顫動緩衝器之深度。此外,顫動緩衝器控制器100可控制時間定標器(例如,基於樣本之時間定標器)執行音訊信號部分的時間移位之重疊相加。
該顫動緩衝器控制器100可經組配以按信號自適應方式在基於訊框之時間定標、基於樣本之時間定標與時間定標之去啟動之間切換。換言之,顫動緩衝器控制器通常不僅區別基於訊框之時間定標與基於樣本之時間定標,且亦選擇完全不存在時間定標之狀態。舉例而言,若不需要時間定標(因為顫動緩衝器之深度在可接受範圍內),則可選擇後一狀態。換言之,基於訊框之時間定標及基於樣本之時間定標通常並非可由顫動緩衝器控制器選擇的僅有兩個操作模式。
顫動緩衝器控制器100亦可考慮關於顫動緩衝器之深度的資訊,用於決定應使用哪一操作模式(例如,基於訊框之時間定標、基於樣本之時間定標或無時間定標)。舉例而言,顫動緩衝器控制器可比較描述顫動緩衝器(亦標識為去顫動緩衝器)之所要深度之目標值與描述顫動緩衝器之實際深度之實際值,且取決於該比較來選擇操作模式(基 於訊框之時間定標、基於樣本之時間定標或無時間定標),使得選擇基於訊框之時間定標或基於樣本之時間定標以便控制顫動緩衝器之深度。
顫動緩衝器控制器100可(例如)經組配以在前一訊框不在作用中(例如,其可基於音訊信號110自身或基於關於音訊信號之資訊而辨識,該資訊例如在不連續傳輸模式之情況下的靜音識別符旗標SID)的情況下,選擇舒適雜訊插入或舒適雜訊刪除。因此,若需要時間伸展且前一訊框(或當前訊框)不在作用中,則顫動緩衝器控制器100可向顫動緩衝器(亦標識為去顫動緩衝器)傳訊:應插入舒適雜訊訊框。此外,若需要執行時間收縮且前一訊框不在作用中(或當前訊框不在作用中),則顫動緩衝器控制器100可指導顫動緩衝器(或去顫動緩衝器)移除舒適雜訊訊框(例如,包含指示應執行舒適雜訊產生之傳訊資訊的訊框)。應注意,當各別訊框載有指示產生舒適雜訊的傳訊資訊(且通常不包含額外經編碼音訊內容)時,可將該各別訊框視為不在作用中。在不連續傳輸模式之情況下,此傳訊資訊可(例如)呈靜音指示旗標(SID旗標)之形式。
相比之下,顫動緩衝器控制器100較佳地經組配以在前一訊框在作用中(例如,前一訊框不包含指示應產生舒適雜訊之傳訊資訊)的情況下,選擇音訊信號部分的經時間移位之重疊相加。音訊信號部分的此經時間移位之重疊相加通常允許調整在基於輸入音訊資訊之隨後訊框獲得的音訊樣本區塊之間的時間移位,該等訊框具有比較高的解 析度(例如,具有小於音訊樣本區塊之長度或小於音訊樣本區塊之長度之四分之一或甚至小於或等於兩個音訊樣本或如單一音訊樣本般小的解析度)。因此,基於樣本之時間定標的選擇允許非常微調之時間定標,其幫助避免作用中訊框之聲訊偽訊。
在顫動緩衝器控制器選擇基於樣本之時間定標之情況下,顫動緩衝器控制器亦可提供額外控制資訊以調整或微調基於樣本之時間定標。舉例而言,顫動緩衝器控制器100可經組配以判定音訊樣本區塊是否表示在作用中但「靜音」音訊信號部分,例如,包含比較小能量之音訊信號部分。在此情況下,亦即,若音訊信號部分「在作用中」(例如,並非在音訊解碼器中使用舒適雜訊產生,而是使用音訊內容之更詳細解碼的音訊信號部分)但「靜音」(例如,其中信號能量低於某一能量臨限值,或甚至等於零),則顫動緩衝器控制器可提供控制資訊114以選擇重疊相加模式,其中將表示「靜音」(但在作用中)音訊信號部分之一音訊樣本區塊與隨後音訊樣本區塊之間的時間移位設定至預定最大值。因此,基於樣本之時間定標器不需要基於隨後音訊樣本區塊之詳細比較來識別適當的時間定標量,而可相當簡單地使用用於時間移位之預定最大值。可理解,「靜音」音訊信號部分將通常不在重疊相加操作中引起實質偽訊,其與時間移位之實際選擇無關。因此,由顫動緩衝器控制器提供之控制資訊114可簡化待由基於樣本之時間定標器執行的處理。
相比之下,若顫動緩衝器控制器110發現一音訊樣本區塊表示「在作用中」且非靜音音訊信號部分(例如,不存在舒適雜訊之產生且亦包含高於某一臨限值之信號能量的音訊信號部分),則顫動緩衝器控制器提供控制資訊114以藉此選擇按信號自適應方式判定(例如,由基於樣本之時間定標器且使用對隨後音訊樣本區塊之間的類似性之判定)音訊樣本區塊之間的時間移位之重疊相加模式。
此外,顫動緩衝器控制器100亦可接收關於實際緩衝器充滿度之資訊。顫動緩衝器控制器100可回應於判定需要時間伸展且顫動緩衝器為空而選擇插入隱藏訊框(亦即,使用封閉損失恢復機制(例如,使用基於先前解碼之訊框的預測)產生之訊框)。換言之,顫動緩衝器控制器可針對基本上將需要基於樣本之時間定標(因為前一訊框或當前訊框「在作用中」)但因為顫動緩衝器(或去顫動緩衝器)為空,不能適當地執行基於樣本之時間定標(例如,使用重疊相加)之情況起始例外處置。因此,顫動緩衝器控制器100可經組配以提供適當控制資訊112、114,甚至對於例外情況亦然。
為了簡化顫動緩衝器控制器100之操作,顫動緩衝器控制器100可經組配以取決於當前是否使用結合舒適雜訊產生(亦簡要地標識為「CNG」)之不連續傳輸(亦簡要地標識為「DTX」)來選擇基於訊框之時間定標或基於樣本之時間定標。換言之,顫動緩衝器控制器100可(例如)在基於音訊信號或基於關於音訊信號之資訊辨識到前一訊框 (或當前訊框)為應使用舒適雜訊產生的「不在作用中」訊框之情況下選擇基於訊框之時間定標。此可(例如)藉由評估包括於音訊信號之經編碼表示中的傳訊資訊(例如,旗標,如所謂的「SID」旗標)來判定。因此,顫動緩衝器控制器可在當前使用結合舒適雜訊產生之不連續傳輸的情況下決定應使用基於訊框之時間定標,此係由於在此情況下,可預期此時間定標僅引起小的聲訊失真或無聲訊失真。相比之下,除非存在任何例外情況(如空顫動緩衝器),否則可使用基於樣本之時間定標(例如,若當前不使用結合舒適雜訊產生之不連續傳輸)。
較佳地,在需要時間定標之情況下,顫動緩衝器控制器可選擇(至少)四個模式中之一者。舉例而言,顫動緩衝器控制器可經組配以在當前使用結合舒適雜訊產生之不連續傳輸的情況下,選擇舒適雜訊插入或舒適雜訊刪除以用於時間定標。此外,顫動緩衝器控制器可經組配以在當前音訊信號部分在作用中但包含小於或等於一能量臨限值之信號能量的情況下且在顫動緩衝器不空的情況下,選擇使用預定時間移位之重疊相加操作以用於時間定標。此外,顫動緩衝器控制器可經組配以在當前音訊信號部分在作用中且包含大於或等於能量臨限值之信號能量的情況下且在顫動緩衝器不空的情況下,選擇使用信號自適應時間移位之重疊相加操作以用於時間定標。最後,顫動緩衝器控制器可經組配以在當前音訊信號部分在作用中的情況下且在顫動緩衝器為空的情況下,選擇隱藏訊框之插入以用 於時間定標。因此,可看到,顫動緩衝器控制器可經組配以按信號自適應方式選擇基於訊框之時間定標或基於樣本之時間定標。
此外,應注意,顫動緩衝器控制器可經組配以在當前音訊信號部分在作用中且包含大於或等於能量臨限值之信號能量的情況下且在顫動緩衝器不空的情況下,選擇使用信號自適應時間移位之重疊相加操作及品質控制機制以用於時間定標。換言之,可存在用於基於樣本之時間定標的額外品質控制機制,其補充由顫動緩衝器控制器執行的基於訊框之時間定標與基於樣本之時間定標之間的信號自適應選擇。因此,可使用階層概念,其中顫動緩衝器執行基於訊框之時間定標與基於樣本之時間定標之間的初始選擇,且其中實施額外品質控制機制以確保基於樣本之時間定標不導致音訊品質之不可接受降級。
總之,已解釋了顫動緩衝器控制器100之基本功能性,且亦已解釋其可選改良。此外,應注意,顫動緩衝器控制器100可由本文中描述的特徵及功能性中之任何者來補充。
5.2.根據圖2之時間定標器
圖2展示根據本發明之一實施例的時間定標器200之方塊示意圖。時間定標器200經組配以接收輸入音訊信號210(例如,呈由解碼器核心提供之一連串樣本的形式),且基於此輸入音訊信號210提供輸入音訊信號的經時間定標之型式212。時間定標器200經組配以計算或估計可 藉由輸入音訊信號之時間定標獲得的輸入音訊信號之經時間定標之型式之品質。此功能性可(例如)由計算單元執行。此外,時間定標器200經組配以取決於可藉由時間定標獲得的輸入音訊信號之經時間定標之型式之品質的計算或估計而執行輸入音訊信號210之時間定標,以藉此獲得輸入音訊信號之經時間定標之型式212。此功能性可(例如)由時間定標單元執行。
因此,時間定標器可執行品質控制以確保當執行時間定標時,避免音訊品質之過度降級。舉例而言,時間定標器可經組配以基於輸入音訊信號預測(或估計)所設想之時間定標操作(例如,基於經時間移位之音訊樣本區塊執行的重疊相加操作)是否被預期導致足夠好的音訊品質。換言之,時間定標器可經組配以在實際執行輸入音訊信號之時間定標前計算或估計可由輸入音訊信號之時間定標獲得的輸入音訊信號之經時間定標之型式之(預期)品質。針對此目的,時間定標器可(例如)比較時間定標操作中涉及的輸入音訊信號之部分(例如,因為輸入音訊信號之該等部分將被重疊及相加以藉此執行時間定標)。總之,時間定標器200通常經組配以檢查是否可預期所設想之時間定標將導致輸入音訊信號之經時間定標之型式的足夠音訊品質,且基於此檢查結果而決定是否執行時間定標。替代地,時間定標器可取決於可由輸入音訊信號之時間定標獲得的輸入音訊信號之經時間定標之型式之品質的計算估計之結果而調適時間定標參數中之任何者(例如,在待重疊相加之樣本區塊 之間的時間移位)。
在下文中,將描述時間定標器200之可選改良。
在較佳實施例中,時間定標器經組配以使用輸入音訊信號之第一樣本區塊及輸入音訊信號之第二樣本區塊執行重疊相加操作。在此情況下,時間定標器經組配以相對於第一樣本區塊時間移位第二樣本區塊,且重疊相加第一樣本區塊與經時間移位之第二樣本區塊,以藉此獲得輸入音訊信號之經時間定標之型式。舉例而言,若需要時間收縮,則時間定標器可輸入輸入音訊信號之第一數目個樣本,且基於該等樣本提供輸入音訊信號之經時間定標之型式的第二數目個樣本,其中樣本之第二數目小於樣本之第一數目。為了達成樣本數目之減少,可將第一數目個樣本分成至少第一樣本區塊及第二樣本區塊(其中第一樣本區塊與第二樣本區塊可重疊或不重疊),且第一樣本區塊及第二樣本區塊可一起在時間上移位,使得第一樣本區塊與第二樣本區塊之在時間上移位之型式重疊。在第一樣本區塊及第二樣本區塊之移位型式之間的重疊區域中,應用重疊相加操作。若第一樣本區塊與第二樣本區塊在重疊區域(在其中執行重疊相加操作)中且較佳地亦在重疊區域之環境中「充分」類似,則可應用此重疊相加操作,而不引起實質聲訊失真。因此,藉由重疊相加原先未在時間上重疊之信號部分,達成時間收縮,此係由於樣本之總數減少了原先尚未重疊(在輸入音訊信號210中)但在輸入音訊信號之經時間定標之型式212中重疊的樣本之數目。
相比之下,亦可使用此重疊相加操作來達成時間伸展。舉例而言,第一樣本區塊與第二樣本區塊可被選擇為重疊的,且可包含第一總時間擴展。隨後,可將第二樣本區塊相對於第一樣本區塊時間移位,使得減少了第一樣本區塊與第二樣本區塊之間的重疊。若經時間移位之第二樣本區塊十分配合第一樣本區塊,則可執行重疊相加,其中第一樣本區塊與第二樣本區塊的經時間移位之型式之間的重疊區域就樣本之數目而言及就時間而言可比第一樣本區塊與第二樣本區塊之間的原始重疊區域短。因此,使用第一樣本區塊及第二樣本區塊之經時間移位之型式的重疊相加操作之結果可包含比第一樣本區塊及呈原始形式的第二樣本區塊之總擴展大的時間擴展(就時間而言及就樣本之數目而言)。
因此,顯而易見,可使用使用輸入音訊信號之第一樣本區塊及輸入音訊信號之第二樣本區塊的重疊相加操作獲得時間收縮及時間伸展兩者,其中第二樣本區塊係相對於第一樣本區塊時間移位(或其中第一樣本區塊與第二樣本區塊皆相對於彼此時間移位)。
較佳地,時間定標器200經組配以計算或估計第一樣本區塊與第二樣本區塊之經時間移位之型式之間的重疊相加操作之品質,以便計算或估計藉由時間定標獲得的輸入音訊信號之經時間定標之型式的(預期)品質。應注意,若針對充分類似的樣本區塊之部分執行重疊相加操作,則通常幾乎不存在任何聲訊偽訊。換言之,重疊相加操作之 品質實質上影響輸入音訊信號之經時間定標之型式的(預期)品質。因此,重疊相加操作之品質的估計(或計算)提供輸入音訊信號之經時間定標之型式之品質的可靠估計(或計算)。
較佳地,時間定標器200經組配以取決於第一樣本區塊或第一樣本區塊之一部分(例如,右側部分)與經時間移位之第二樣本區塊或經時間移位之第二樣本區塊之一部分(例如,左側部分)之間的類似性等級之判定來判定第二樣本區塊相對於第一樣本區塊之時間移位。換言之,時間定標器可經組配以判定第一樣本區塊與第二樣本區塊之間的哪一時間移位最適於獲得足夠好的重疊相加結果(或至少最佳可能的重疊相加結果)。然而,在額外(「品質控制」)步驟中,可驗證第二樣本區塊相對於第一樣本區塊的此判定之時間移位是否實際帶來足夠好的重疊相加結果(或預期帶來足夠好的重疊相加結果)。
較佳地,時間定標器針對第一樣本區塊與第二樣本區塊之間的複數個不同時間移位,判定關於第一樣本區塊或第一樣本區塊之一部分(例如,右側部分)與第二樣本區塊或第二樣本區塊之一部分(例如,左側部分)之間的類似性等級之資訊,且基於關於該複數個不同時間移位之類似性等級之資訊判定待用於重疊相加操作的(候選)時間移位。換言之,可執行針對最佳匹配之搜尋,其中可比較關於不同時間移位的類似性等級之資訊,以找到可達到最佳類似性等級之時間移位。
較佳地,時間定標器經組配以取決於目標時間移位資訊判定第二樣本區塊相對於第一樣本區塊之時間移位,該時間移位將用於重疊相加操作。換言之,當判定哪一時間移位將(例如,作為候選時間移位)用於重疊相加操作時,可考慮(考量)可(例如)基於對緩衝器充滿度、顫動及可能其他額外準則之評估獲得之目標時間移位資訊。因此,使重疊相加適宜於系統之要求。
在一些實施例中,時間定標器可經組配以基於關於第一樣本區塊或第一樣本區塊之一部分(例如,右側部分)與按判定之(候選)時間移位進行時間移位的第二樣本區塊或按判定之(候選)時間移位進行時間移位的第二樣本區塊之一部分(例如,左側部分)之間的類似性等級之資訊,計算或估計可藉由輸入音訊信號之時間定標獲得的輸入音訊信號之經時間定標之型式之品質。關於類似性等級之該資訊提供關於重疊相加操作之(預期)品質的資訊,且因此亦提供關於可藉由時間定標獲得的輸入音訊信號之經時間定標之型式之品質的資訊(至少一估計)。在一些情況下,關於可藉由時間定標獲得的輸入音訊信號之經時間定標之型式之品質的計算或估計之資訊可用以決定是否實際執行時間定標(其中在後者情況下,可推遲時間定標)。換言之,時間定標器可經組配以基於關於第一樣本區塊或第一樣本區塊之一部分(例如,右側部分)與按判定之(候選)時間移位進行時間移位的第二樣本區塊或按判定之(候選)時間移位進行時間移位的第二樣本區塊之一部分(例如,左側部分)之間的類似 性等級之資訊而決定是否實際執行時間定標。因此,若預期時間定標將引起音訊內容之過度降級,則評估關於可藉由時間定標獲得的輸入音訊信號之經時間定標之型式之品質的所計算或估計之資訊之品質控制機制可實際上導致省略時間定標(至少對於當前音訊樣本區塊或訊框)。
在一些實施例中,可將不同類似性度量用於第一樣本區塊與第二樣本區塊之間的(候選)時間移位之初始判定,及用於最終品質控制機制。換言之,時間定標器可經組配以相對於第一樣本區塊時間移位第二樣本區塊,且重疊相加第一樣本區塊與經時間移位之第二樣本區塊,以藉此獲得輸入音訊信號的經時間定標之型式(若可藉由時間定標獲得的輸入音訊信號之經時間定標之型式之品質的計算或估計指示大於或等於品質臨限值之品質)。時間定標器可經組配以取決於第一樣本區塊或第一樣本區塊之一部分(例如,右側部分)與第二樣本區塊或第二樣本區塊之一部分(例如,左側部分)之間的使用第一類似性度量評估的類似性等級之判定來判定第二樣本區塊相對於第一樣本區塊之(候選)時間移位。又,時間定標器可經組配以基於關於第一樣本區塊或第一樣本區塊之一部分(例如,右側部分)與按判定之(候選)時間移位進行時間移位的第二樣本區塊或按判定之(候選)時間移位進行時間移位的第二樣本區塊之一部分(例如,左側部分)之間的使用第二類似性度量評估的類似性等級之資訊,計算或估計可藉由輸入音訊信號之時間定標獲得的輸入音訊信號之經時間定標之型式之品質。舉例 而言,第二類似性度量可在計算上比第一類似性度量複雜。此概念係有用的,因為通常有必要每個時間定標操作多次計算第一類似性度量(以便判定在第一樣本區塊與第二樣本區塊之間的複數個可能時間移位值中的在第一樣本區塊與第二樣本區塊之間的「候選」時間移位)。相比之下,第二類似性度量通常僅需要每個時間移位操作計算一次,例如,作為使用第一(在計算上較不複雜)品質度量判定之「候選」時間移位是否可被預期導致足夠好的音訊品質之「最終」品質檢查。因此,若第一類似性度量指示對於「候選」時間移位在第一樣本區塊(或其一部分)與經時間移位之第二樣本區塊(或其一部分)之間具有相當好(或至少充分)類似性,但第二(且通常更有意義或精確的)類似性度量指示時間定標將不導致足夠好的音訊品質,則可能仍避免執行重疊相加。因此,品質控制(使用第二類似性度量)之應用有助於避免時間定標中之聲訊失真。
舉例而言,第一類似性度量可為交互相關或正規化之交互相關,或平均量值差函數,或平方誤差之總和。此等類似性度量可以計算上有效率的方式獲得,且足以發現第一樣本區塊(或其一部分)與(經時間移位之)第二樣本區塊(或其一部分)之間的「最佳匹配」,亦即,以判定「候選」時間移位。相比之下,第二類似性度量可(例如)為複數個不同時間移位的交互相關值或正規化之交互相關值之組合。此類似性度量提供更多準確性,且有助於在評估時間定標之(預期)品質時考慮音訊信號之額外信號分量(例如, 諧波)或固定性。然而,第二類似性度量比第一類似性度量在計算上要求高,使得當搜尋「候選」時間移位時應用第二類似性度量將在計算上效率低下。
在下文中,將描述用於判定第二類似性度量的一些選項。在一些實施例中,第二類似性度量可為至少四個不同時間移位的交互相關之組合。舉例而言,第二類似性度量可為針對按第一樣本區塊或第二樣本區塊之音訊內容之基頻的週期持續時間之整數倍間隔開之時間移位獲得的第一交互相關值與第二交互相關值及針對按音訊內容之基頻的週期持續時間之整數倍間隔開之時間移位獲得的第三交互相關值與第四交互相關值之組合。獲得第一交互相關值之時間移位可與獲得第三交互相關值之時間移位相隔音訊內容之基頻之週期持續時間的一半之奇數倍。若音訊內容(由輸入音訊信號表示)實質上固定且由基頻支配,則可預期可(例如)正規化之第一交互相關值與第二交互相關值皆靠近一。然而,由於針對按基頻之週期持續時間的一半之奇數倍與獲得第一交互相關值及第二交互相關值的時間移位間隔開之時間移位獲得第三交互相關值及第四交互相關值兩者,因此可預期在音訊內容實質上固定且由基頻支配之情況下,第三交互相關值及第四交互相關值相對於第一交互相關值及第二交互相關值相反。因此,可基於第一交互相關值、第二交互相關值、第三交互相關值及第四交互相關值形成有意義之組合,其指示在(候選)重疊相加區域中音訊信號是否足夠固定且由基頻支配。
應注意,可藉由根據下式:q=c(p)* c(2*p)+c(3/2*p)* c(1/2*p)或根據q=c(p)* c(-p)+c(-1/2*p)* c(1/2*p)
計算類似性度量q來獲得特別有意義之類似性度量。
在上式中,c(p)為按第一樣本區塊及/或第二樣本區塊之音訊內容之基頻之週期持續時間p在時間上移位(例如,相對於輸入音訊內容內之原始時間位置)的第一樣本區塊(或其一部分)與第二樣本區塊(或其一部分)之間的交互相關值(其中音訊內容之基頻通常實質上在第一樣本區塊與在第二樣本區塊中相同)。換言之,交互相關值係基於自輸入音訊內容取得之樣本區塊計算,且另外按輸入音訊內容之基頻之週期持續時間p相對於彼此時間移位(其中可獲得基頻之週期持續時間p,例如,基於基頻估計、自相關或類似者)。類似地,c(2*p)為在時間上按2*p移位之第一樣本區塊(或其一部分)與第二樣本區塊(或其一部分)之間的交互相關值。類似的定義亦適用於c(3/2*p)、c(1/2*p)、c(-p)及c(-1/2*p),其中引數c(.)指明時間移位。
在下文中,將解釋可視情況在時間定標器200中應用的用於決定是否應執行時間定標之一些機制。在一實施中,時間定標器200可經組配以比較基於可藉由時間定標獲得的輸入音訊信號之經時間定標之型式之(預期)品質的計算或估計之品質值與一可變臨限值,以決定是否應執行時間定標。因此,亦可取決於例如表示先前時間定標之歷 史的情況作出是否執行時間定標之決策。
舉例而言,時間定標器可經組配以回應於時間定標之品質將尚不足以用於一或多個先前樣本區塊之發現而減小可變臨限值,以藉此減少品質要求(為了實現時間定標,其必須被達到)。因此,確保未針對可引起緩衝器超限或緩衝器欠載的一長串訊框(或樣本區塊)防止時間定標。此外,時間定標器可經組配以回應於時間定標已應用於一或多個先前樣本區塊之事實而增大可變臨限值,以藉此增加品質要求(為了實現時間定標,其必須被達到)。因此,可防止過多隨後區塊或樣本經時間定標,除非可獲得時間定標之非常好的品質(相對於正常品質要求增加)。因此,可避免若時間定標之品質條件過低則將引起之偽訊。
在一些實施例中,時間定標器可包含用於計數已經時間定標(因為已達到可藉由時間定標獲得的輸入音訊信號之經時間定標之型式之各別品質要求)的樣本區塊之數目或訊框之數目的有限範圍第一計數器。此外,時間定標器亦可包含用於計數尚未時間定標(因為尚未達到可藉由時間定標獲得的輸入音訊信號之經時間定標之型式之各別品質要求)的樣本區塊之數目或訊框之數目的有限範圍第二計數器。在此情況下,時間定標器可經組配以取決於第一計數器之值及取決於第二計數器之值計算可變臨限值。因此,可用適度計算努力來考慮時間定標之「歷史」(以及「品質」歷史)。
舉例而言,時間定標器可經組配以將與第一計數 器之值成比例之值添加至初始臨限值,及自其(例如,自加法之結果)減去與第二計數器之值成比例之值以便獲得可變臨限值。
在下文中,將總結可在時間定標器200之一些實施例中提供的一些重要功能性。然而,應注意,在下文中描述之功能性並非時間定標器200之基本功能性。
在一實施中,時間定標器可經組配以取決於可藉由時間定標獲得的輸入音訊信號之經時間定標之型式之品質的計算或估計而執行輸入音訊信號之時間定標。在此情況下,輸入音訊信號之經時間定標之型式之品質的計算或估計包含在輸入音訊信號之經時間定標之型式中的將由時間定標引起的偽訊之計算或估計。然而,應注意,可以間接方式(例如,藉由計算重疊相加操作之品質)執行偽訊之計算或估計。換言之,輸入音訊信號之經時間定標之型式之品質的計算或估計可包含輸入音訊信號之經時間定標之型式中的將由輸入音訊信號之隨後樣本區塊之重疊相加操作引起的偽訊之計算或估計(其中,自然地,可將某一時間移位應用於隨後樣本區塊)。
舉例而言,時間定標器可經組配以取決於輸入音訊信號之隨後(且可能重疊)樣本區塊之類似性等級計算或估計可藉由輸入音訊信號之時間定標獲得的輸入音訊信號之經時間定標之型式之品質。
在一較佳實施例中,時間定標器可經組配以計算或估計在可藉由輸入音訊信號之時間定標獲得的輸入音訊 信號之經時間定標之型式中是否存在聲訊偽訊。如上文所提到,可按間接方式執行聲訊偽訊之估計。
作為品質控制之結果,可在十分適合於時間定標之時執行時間定標,且在不十分適合於時間定標之時避免時間定標。舉例而言,時間定標器可經組配以在可藉由時間定標獲得的輸入音訊信號之經時間定標之型式之品質的計算或估計指示不足品質(例如,低於某一品質臨限值之品質)之情況下將時間定標推遲至隨後訊框或隨後樣本區塊。因此,可在更適合於時間定標之時執行時間定標,使得產生較少偽訊(詳言之,聲訊偽訊)。換言之,時間定標器可經組配以在可藉由時間定標獲得的輸入音訊信號之經時間定標之型式之品質的計算或估計指示不足品質之情況下將時間定標推遲至時間定標較難以被聽到之時間。
總之,可以許多不同方式改良時間定標器200,如上所論述。
此外,應注意,時間定標器200可視情況與顫動緩衝器控制器100組合,其中顫動緩衝器控制器100可決定是否應使用基於樣本之時間定標(其通常由時間定標器200執行)或是否應使用基於訊框之時間定標。
5.3.根據圖3之音訊解碼器
圖3展示根據本發明之一實施例的音訊解碼器300之方塊示意圖。
音訊解碼器300經組配以接收輸入音訊內容310,其可被視為輸入音訊表示,且其可(例如)以音訊訊框 之形式表示。此外,音訊解碼器300基於此輸入音訊內容提供可(例如)以經解碼音訊樣本之形式表示的經解碼音訊內容312。音訊解碼器300可(例如)包含一顫動緩衝器320,其經組配以接收(例如)呈音訊訊框之形式的輸入音訊內容310。顫動緩衝器320經組配以緩衝表示音訊樣本區塊之複數個音訊訊框(其中單一訊框可表示一或多個音訊樣本區塊,且其中由單一訊框表示之音訊樣本可邏輯上再分成複數個重疊或非重疊音訊樣本區塊)。此外,顫動緩衝器320提供「經緩衝」音訊訊框322,其中音訊訊框322可包含包括於輸入音訊內容310中之音訊訊框及由顫動緩衝器產生或插入之音訊訊框(例如,包含傳訊舒適雜訊之產生之傳訊資訊的「不在作用中」音訊訊框)。音訊解碼器300進一步包含一解碼器核心330,其自顫動緩衝器320接收經緩衝音訊訊框322且其基於自顫動緩衝器接收之音訊訊框322提供音訊樣本332(例如,具有與音訊訊框相關聯之音訊樣本的區塊)。此外,音訊解碼器300包含一基於樣本之時間定標器340,其經組配以接收由解碼器核心330提供之音訊樣本332,且基於此音訊樣本提供組成經解碼音訊內容312的經時間定標之音訊樣本342。基於樣本之時間定標器340經組配以基於音訊樣本332(亦即,基於由解碼器核心提供之音訊樣本區塊)提供經時間定標之音訊樣本(例如,呈音訊樣本區塊之形式)。此外,音訊解碼器可包含一可選控制器350。在音訊解碼器300中使用之顫動緩衝器控制器350可(例如)與根據圖1之顫動緩衝器控制器100相同。換言之,顫動緩 衝器控制器350可經組配以按信號自適應方式選擇由顫動緩衝器320執行的基於訊框之時間定標或由基於樣本之時間定標器340執行的基於樣本之時間定標。因此,顫動緩衝器控制器350可接收輸入音訊內容310或關於輸入音訊內容310之資訊作為音訊信號110,或作為關於音訊信號110之資訊。此外,顫動緩衝器控制器350可將控制資訊112(如關於顫動緩衝器控制器100所描述)提供至顫動緩衝器320,且顫動緩衝器控制器350可將如關於顫動緩衝器控制器100所描述之控制資訊114提供至基於樣本之時間定標器140。因此,顫動緩衝器320可經組配以丟棄或插入音訊訊框以便執行基於訊框之時間定標。此外,解碼器核心330可經組配以回應於載有指示產生舒適雜訊之傳訊資訊的訊框而執行舒適雜訊產生。因此,可由解碼器核心330回應於「不在作用中」訊框(包括指示應產生舒適雜訊之傳訊資訊)被插入至顫動緩衝器320內來產生舒適雜訊。換言之,簡單形式之基於訊框之時間定標可有效地導致產生包含舒適雜訊的訊框,其由「不在作用中」訊框被插入至顫動緩衝器內(可回應於由顫動緩衝器控制器提供之控制資訊112來執行該插入)而觸發。此外,該解碼器核心可經組配以回應於空顫動緩衝器而執行「隱藏」。此隱藏可包含基於在缺失之音訊訊框前的一或多個訊框之音訊資訊產生「缺失」訊框(空顫動緩衝器)之音訊資訊。舉例而言,假定缺失之音訊訊框的音訊內容為在缺失之音訊訊框前的一或多個音訊訊框之音訊內容之「接續」,則可使用預測。然而,此項技術中已知的訊框 丟失隱藏概念中之任何者可由解碼器核心使用。因此,在顫動緩衝器320變空之情況下,顫動緩衝器控制器350可指導顫動緩衝器320(或解碼器核心330)起始隱藏。然而,解碼器核心可甚至在無明確控制信號之情況下基於自己的智慧執行隱藏。
此外,應注意,基於樣本之時間定標器340可等於關於圖2描述之時間定標器200。因此,輸入音訊信號210可對應於音訊樣本332,且輸入音訊信號之經時間定標之型式212可對應於經時間定標之音訊樣本342。因此,時間定標器340可經組配以取決於可藉由時間定標獲得的輸入音訊信號之經時間定標之型式之品質的計算或估計而執行輸入音訊信號之時間定標。基於樣本之時間定標器340可由顫動緩衝器控制器350控制,其中由顫動緩衝器控制器提供至基於樣本之時間定標器340的控制資訊114可指示是否應執行基於樣本之時間定標。此外,控制資訊114可(例如)指示待由基於樣本之時間定標器340執行的所要之時間定標量。
應注意,時間定標器300可由關於顫動緩衝器控制器100及/或關於時間定標器200描述的特徵及功能性中之任何者補充。此外,音訊解碼器300亦可由本文中所描述(例如,關於圖4至圖15)之任何其他特徵及功能性補充。
5.4.根據圖4之音訊解碼器
圖4展示根據本發明之一實施例的音訊解碼器400之方塊示意圖。音訊解碼器400經組配以接收封包410,其可包含一或多個音訊訊框之經封包化表示。此外,音訊 解碼器400提供經解碼音訊內容412,例如,呈音訊樣本之形式。音訊樣本可(例如)按「PCM」格式(亦即,按脈碼調變之形式,例如,按表示音訊波形之樣本的一連串數位值之形式)表示。
音訊解碼器400包含一拆包器420,其經組配以接收封包410,且基於封包410提供解封包化之訊框422。此外,拆包器經組配以自封包410提取所謂的「SID旗標」,SID旗標傳訊「不在作用中」音訊訊框(亦即,應使用舒適雜訊產生而非音訊內容之「正常」詳細解碼的音訊訊框)。SID旗標資訊以424來標識。此外,拆包器提供即時輸送協定時間戳(亦標識為「RTP TS」)及到達時間戳(亦標識為「到達TS」)。時間戳資訊以426來標識。此外,音訊解碼器400包含一去顫動緩衝器430(亦簡要地標識為顫動緩衝器430),其自拆包器420接收解封包化之訊框422,且其將經緩衝之訊框432(及可能亦有插入之訊框)提供至解碼器核心440。此外,去顫動緩衝器430自控制邏輯接收用於基於訊框之(時間)定標的控制資訊434。又,去顫動緩衝器430將定標回饋資訊436提供至放出延遲估計。音訊解碼器400亦包含一時間定標器(亦標識為「TSM」)450,其自解碼器核心440接收經解碼音訊樣本442(例如,呈脈碼調變資料之形式),其中解碼器核心440基於自去顫動緩衝器430接收的經緩衝或插入之訊框432提供經解碼音訊樣本442。時間定標器450亦自控制邏輯接收用於基於樣本之(時間)定標的控制資訊444,且將定標回饋資訊446提供至放出延遲估計。時間定標器 450亦提供經時間定標之樣本448,其可表示呈脈碼調變形式的經時間定標之音訊內容。音訊解碼器400亦包含一PCM緩衝器460,其接收經時間定標之樣本448且緩衝經時間定標之樣本448。此外,PCM緩衝器460提供經時間定標之樣本448的經緩衝之型式,作為經解碼音訊內容412之表示。此外,PCM緩衝器460可將延遲資訊462提供至控制邏輯。
音訊解碼器400亦包含一目標延遲估計470,其接收資訊424(例如,SID旗標)以及包含RTP時間戳及到達時間戳之時間戳資訊426。基於此資訊,目標延遲估計470提供目標延遲資訊472,其描述合乎需要之延遲,例如,應由去顫動緩衝器430、解碼器440、時間定標器450及PCM緩衝器460引起的合乎需要之延遲。舉例而言,目標延遲估計470可計算或估計目標延遲資訊472,使得延遲不會被選擇得過大,但足以補償封包410之一些顫動。此外,音訊解碼器400包含一放出延遲估計480,其經組配以接收來自去顫動緩衝器430之定標回饋資訊436及來自時間定標器460之定標回饋資訊446。舉例而言,定標回饋資訊436可描述由去顫動緩衝器執行之時間定標。此外,定標回饋資訊446描述由時間定標器450執行之時間定標。關於定標回饋資訊446,應注意,由時間定標器450執行之時間定標通常為信號自適應性的,使得由定標回饋資訊446描述之實際時間定標可與可由基於樣本之定標資訊444描述之所要時間定標不同。總之,由於根據本發明之一些態樣提供的信號自適應性,定標回饋資訊436及定標回饋資訊446可描述可不同於所要的 時間定標之實際時間定標。
此外,音訊解碼器400亦包含一控制邏輯490,其執行音訊解碼器之(主要)控制。控制邏輯490自拆包器420接收資訊424(例如,SID旗標)。此外,控制邏輯490接收來自目標延遲估計470之目標延遲資訊472、來自放出延遲估計480之放出延遲資訊482(其中放出延遲資訊482描述由放出延遲估計480基於定標回饋資訊436及定標回饋資訊446導出之實際延遲)。此外,控制邏輯490(視情況)接收來自PCM定標器460之延遲資訊462(其中,替代地,PCM緩衝器之延遲資訊可為預定量)。基於接收之資訊,控制邏輯490將基於訊框之定標資訊434及基於樣本之定標資訊442提供至去顫動緩衝器430及時間定標器450。因此,控制邏輯考慮到音訊內容之一或多個特性(例如,是否存在應根據由SID旗標載運之傳訊執行舒適雜訊產生之「不在作用中」訊框的問題),以信號自適應方式取決於目標延遲資訊472及放出延遲資訊482設定基於訊框之定標資訊434及基於樣本之定標資訊442。
此處應注意,控制邏輯490可執行顫動緩衝器控制器100之功能性中之一些或全部,其中資訊424可對應於關於音訊信號之資訊110,其中控制資訊112可對應於基於訊框之定標資訊434,且其中控制資訊114可對應於基於樣本之定標資訊444。又,應注意,時間定標器450可執行時間定標器200之功能性中之一些或全部(或反之亦然),其中輸入音訊信號210對應於經解碼音訊樣本442,且其中輸入 音訊信號之經時間定標之型式212對應於經時間定標之音訊樣本448。
此外,應注意,音訊解碼器400對應於音訊解碼器300,使得音訊解碼器300可執行關於音訊解碼器400描述之功能性中之一些或全部,且反之亦然。顫動緩衝器320對應於去顫動緩衝器430,解碼器核心330對應於解碼器440,且時間定標器340對應於時間定標器450。控制器350對應於控制邏輯490。
在下文中,將提供關於音訊解碼器400之功能性的一些額外細節。詳言之,將描述提議之顫動緩衝器管理(JBM)。
描述顫動緩衝器管理(JBM)解決方案,其可用以將具有訊框(含有經寫碼話語或音訊資料)之所接收封包410饋入至解碼器440內,同時維持連續放出。在基於封包之通訊(例如,網際網路語音通訊協定(VoIP))中,封包(例如,封包410)通常經受變化之傳輸時間,且在傳輸期間丟失,此導致接收器(例如,包含音訊解碼器400之接收器)的到達間顫動及封包缺失。因此,需要顫動緩衝器管理及封包丟失隱藏解決方案以實現無間斷之連續輸出信號。
在下文中,將提供解決方案概觀。在所描述之顫動緩衝器管理之情況下,在所接收之RTP封包(例如,封包410)內的經寫碼資料首先經解封包化(例如,使用拆包器420),且將具有經寫碼資料(例如,在經AMR-WB寫碼訊框內之語音資料)之所得訊框(例如,訊框422)饋入至去顫動緩 衝器(例如,去顫動緩衝器430)內。當需要新脈碼調變資料(PCM資料)以進行放出時,其需要由解碼器(例如,解碼器440)提供。針對此目的,自去顫動緩衝器(例如,自去顫動緩衝器430)拉取訊框(例如,訊框432)。藉由使用去顫動緩衝器,可補償到達時間之波動。為了控制緩衝器之深度,應用時間標度修改(TSM)(其中時間標度修改亦簡單地標識為時間定標)。時間標度修改可基於經寫碼訊框(例如,在去顫動緩衝器430內)或在分開之模組中(例如,在時間定標器450內)發生,從而允許對PCM輸出信號(例如,PCM輸出信號448或PCM輸出信號412)之更細粒度調適。
上述概念說明於(例如)展示顫動緩衝器管理概觀之圖4中。為了控制去顫動緩衝器(例如,去顫動緩衝器430)之深度且因此亦控制去顫動緩衝器(例如,去顫動緩衝器430)及/或TSM模組(例如,在時間定標器450內)內的時間定標之等級,使用控制邏輯(例如,由目標延遲估計470及放出延遲估計480支援之控制邏輯490)。其使用關於目標延遲(例如,資訊472)及放出延遲(例如,資訊482)及當前是否使用結合舒適雜訊產生(CNG)之不連續傳輸(DTX)(例如,資訊424)的資訊。例如,自用於目標延遲估計及放出延遲估計之分開模組(例如,模組470及480)產生延遲值,且例如由拆包器模組(例如,拆包器420)提供在作用中/不在作用中位元(SID旗標)。
5.4.1.拆包器
在下文中,將描述拆包器420。拆包器模組將RTP 封包410分裂成單個訊框(存取單元)422。其亦計算並非封包中之僅有或第一訊框之所有訊框的RTP時間戳。舉例而言,將RTP封包中含有之時間戳指派至其第一訊框。在聚集(亦即,對於含有一個以上單個訊框之RTP封包)之情況下,將用於隨後訊框之時間戳增加訊框持續時間除以RTP時間戳之標度的量。此外,對RTP時間戳而言,每一訊框亦標註有接收到RTP封包時之系統時間(「到達時間戳」)。如可看到,可將RTP時間戳資訊及到達時間戳資訊426提供至(例如)目標延遲估計470。拆包器模組亦判定訊框是否在作用中或含有靜音插入描述符(SID)。應注意,在不在作用中週期內,在一些情況下,僅接收SID訊框。因此,將可(例如)包含SID旗標之資訊424提供至控制邏輯490。
5.4.2.去顫動緩衝器
去顫動緩衝器模組430儲存在網路上接收(例如,經由TCP/IP型網路)之訊框422,直至解碼(例如,由解碼器440)。訊框422被插入於按RTP時間戳升序排序之佇列中以取消可已在網路上發生之重新排序。在佇列前部之訊框可饋入至解碼器440,且接著經移除(例如,自去顫動緩衝器430)。若佇列為空,或根據在(佇列之)前部處的訊框與先前讀取之訊框之時間戳差,訊框缺失,則傳回空訊框(例如,自去顫動緩衝器430至解碼器440)以觸發解碼器模組440中之封包損失隱藏(若最後訊框在作用中)或舒適雜訊產生(若最後訊框為「SID」或不在作用中)。
換言之,解碼器440可經組配以在於訊框中傳訊 應使用舒適雜訊(例如,使用在作用中「SID」旗標)之情況下產生舒適雜訊。另一方面,解碼器亦可經組配以在先前(最後一個)訊框在作用中(亦即,舒適雜訊產生被去啟動)且顫動緩衝器變空(使得空訊框由顫動緩衝器430提供至解碼器440)之情況下,例如藉由提供預測之(或外插之)音訊樣本來執行封包損失隱藏。
去顫動緩衝器模組430亦藉由將空訊框添加至(例如,顫動緩衝器之佇列之)前部以用於時間伸展或丟棄在(例如,顫動緩衝器之佇列之)前部之訊框以用於時間收縮來支援基於訊框之時間定標。在不在作用中週期之情況下,去顫動緩衝器可表現得如同添加或丟棄了「NO_DATA」訊框一般。
5.4.3.時間標度修改(TSM)
在下文中,將描述本文中亦簡要地標識為時間定標器或基於樣本之時間定標器的時間標度修改(TSM)。使用具有內建品質控制的經修改之基於封包之WSOLA(基於波形類似性之重疊相加)(例如,參看[Lia01])演算法執行信號之時間標度修改(簡要地標識為時間定標)。一些細節可見於(例如)將在以下解釋之圖9中。時間定標之等級與信號有關;當定標時將創造嚴重偽訊之信號由品質控制偵測到,且接近靜音之低位準信號被按最可能的程度來定標。可良好地時間定標之信號(如,週期性信號)係按內部導出之移位來定標。自類似性度量(諸如,正規化之交互相關)導出移位。藉由重疊相加(OLA),當前訊框之末端(本文中亦標識 為「第二樣本區塊」)經移位(例如,相對於當前訊框之開頭,當前訊框之開頭在本文中亦標識為「第一樣本區塊」)以縮短或延長訊框。
如已提到,以下將參看展示具有品質控制的經修改之WSOLA之圖9且亦參看圖10a及圖10b及圖11描述關於時間標度修改(TSM)之額外細節。
5.4.4.PCM緩衝器
在下文中,將描述PCM緩衝器。時間標度修改模組450按時間變化之標度改變由解碼器模組輸出的PCM訊框之持續時間。舉例而言,每音訊訊框432,解碼器440可輸出1024個樣本(或2048個樣本)。相比之下,歸因於基於樣本之時間定標,時間定標器450可每音訊訊框432輸出變化數目個音訊樣本。相比之下,揚聲器音效卡(或大體上,聲音輸出器件)通常預期固定的訊框設定,例如,20ms。因此,使用具有先進先出行為之額外緩衝器來對時間定標器輸出樣本448應用固定訊框設定。
當觀看整個鏈時,此PCM緩衝器460不創造額外延遲。更確切地,僅在去顫動緩衝器430與PCM緩衝器460之間共有延遲。然而,將儲存於PCM緩衝器460中的樣本之數目保持為儘可能地低為一目標,此係因為此增加了儲存於去顫動緩衝器430中的訊框之數目,且因此減小了晚期損失之機率(其中解碼器隱藏較晚接收之缺失訊框)。
圖5中展示之偽程式碼展示用以控制PCM緩衝程度之演算法。如可自圖5之偽程式碼看到,基於取樣率 (「sampleRate」)計算音效卡訊框大小(「soundCardFrameSize」),其中作為一實例,假定訊框持續時間為20ms。因此,每音效卡訊框的樣本之數目係已知的。隨後,藉由解碼音訊訊框432(亦標識為「accessUnit」)來填充PCM緩衝器,直至PCM緩衝器中的樣本之數目(「pcmBuffer_nReadableSamples()」)不再小於每個音效卡訊框的樣本之數目(「soundCardFrameSize」)。首先,自去顫動緩衝器430獲得(或請求)訊框(亦標識為「accessUnit」),如在參考數字510處所展示。隨後,藉由解碼向去顫動緩衝器請求之訊框432來獲得音訊樣本之「訊框」,如可在參考512處看到。因此,獲得經解碼音訊樣本(例如,以442來標識)之訊框。隨後,將時間標度修改應用至經解碼音訊樣本442之訊框,使得獲得經時間定標之音訊樣本448之「訊框」,其可在參考數字514處看到。應注意,經時間定標之音訊樣本之訊框可比輸入至時間定標器450的經解碼音訊樣本442之訊框包含數目更大的音訊樣本或數目更小的音訊樣本。隨後,將經時間定標之音訊樣本448之訊框插入至PCM緩衝器460內,如可在參考數字516處看到。
重複此程序,直至足夠數目個(經時間定標之)音訊樣本在PCM緩衝器460中可用。足夠數目個(經時間定標之)樣本一在PCM緩衝器中可用,經時間定標之音訊樣本的「訊框」(具有如由類似音效卡之聲音播放器件需要之訊框長度)就被從PCM緩衝器460讀出且轉遞至聲音播放器件(例如,至音效卡),如在參考數字520及522處展示。
5.4.5.目標延遲估計
在下文中,將描述可由目標延遲估計器470執行之目標延遲估計。目標延遲指定在播放前一訊框之時間與此訊框可已被接收之時間之間的所要緩衝延遲(若與當前在目標延遲估計模組470之歷史中所含有的所有訊框相比,其在網路上具有最低傳輸延遲)。為了估計目標延遲,使用兩個不同顫動估計器,一個長期顫動估計器及一個短期顫動估計器。
長期顫動估計
為了計算長期顫動,可使用FIFO資料結構。在使用DTX(不連續傳輸模式)之情況下,儲存於FIFO中之時間跨度可能不同於所儲存的輸入項之數目。由於彼原因,以兩個方式來限制FIFO之窗大小。其可含有至多500個輸入項(在每秒50個封包的速率下,等於10秒)及至多10秒之時間跨度(最新與最舊封包之間的RTP時間戳差)。若將儲存較多輸入項,則移除最舊輸入項。對於在網路上接收之每一RTP封包,將一輸入項添加至FIFO。一輸入項含有三個值:延遲、偏移及RTP時間戳。此等值係自RTP封包之接收時間(例如,由到達時間戳表示)及RTP時間戳計算,如在圖6之偽碼中所展示。
如可在參考數字610及612處看到,計算兩個封包(例如,隨後封包)之RTP時間戳之間的時間差(產生「rtpTimeDiff」),且計算兩個封包(例如,隨後封包)之接收時間戳之間的差(產生「rcvTimeDiff」)。此外,將RTP時 間戳自傳輸器件之時基轉換至接收器件之時基,如可在參考數字614處看到,從而產生「rtpTimeTicks」。類似地,將RTP時間差(RTP時間戳之間的差)轉換至接收器時間標度(接收器件之時基),如可在參考數字616處看到,從而產生「rtpTimeDiff」。
隨後,基於先前延遲資訊更新延遲資訊(「delay」),如可在參考數字618處看到。舉例而言,若接收時間差(亦即,接收到封包之時間的差)大於RTP時間差(亦即,在發出封包之時間之間的差),則可得出延遲已增大之結論。此外,計算偏移時間資訊(「offset」),如可在參考數字620處看到,其中偏移時間資訊表示接收時間(亦即,接收到封包之時間)與已發送封包之時間(如由RTP時間戳定義,其經轉換至接收器時間標度)之間的差。此外,將延遲資訊、偏移時間資訊及RTP時間戳資訊(轉換至接收器時間標度)添加至長期FIFO,如可在參考數字622處看到。
隨後,將一些當前資訊儲存作為用於下一個迭代之「先前(previous)」資訊,如可在參考數字624處看到。
可將長期顫動計算作為當前儲存於FIFO中之最大延遲值與最小延遲值之間的差:longTermJitter=longTermFifo_getMaxDelay()-longTermFifo_getMinDelay();
短期顫動估計
在下文中,將描述短期顫動估計。(例如)按兩個步驟來進行短期顫動估計。在第一步驟中,使用與長期估 計所進行的計算相同的顫動計算,但具有以下修改:FIFO之窗大小限於至多50個輸入項及至多1秒之時間跨度。將所得顫動值計算為當前儲存於FIFO中之94%延遲值(忽略三個最高值)與最小延遲值之間的差:shortTermJitterTmp=shortTermFifo1_getPercentileDelay(94)-shortTermFifo1_getMinDelay();在第二步驟中,首先,針對此結果補償短期與長期FIFO之間的不同偏移:shortTermJitterTmp+=shortTermFifo1_getMinOffset();shortTermJitterTmp-=longTermFifo_getMinOffset();將此結果添加至窗大小具有至多200個輸入項及至多四秒之時間跨度的另一FIFO。最後,將儲存於FIFO中之最大值增加至訊框大小之整數乘數且用作短期顫動:shortTermFifo2__add(shortTermJitterTmp);shortTermJitter=ceil(shortTermFifo2_getMax()/20.f)* 20;
藉由長期/短期顫動估計之組合的目標延遲估計
為了計算目標延遲(例如,目標延遲資訊472),取決於當前狀態,按不同方式組合長期與短期顫動估計(例如,如上定義為「longTermJitter」及「shortTermJitter」)。對於作用中信號(或信號部分,對於其不使用舒適雜訊產生),將範圍(例如,由「targetMin」及「targetMax」定義)用作目標延遲。在DTX期間且針對DTX後之起動,計算兩個不同值作為目標延遲(例如,「targetDtx」及「targetStartUp」)。
關於可計算不同目標延遲值之方式的細節可見於(例如)圖7中。如可在參考數字710及712處看到,基於短期顫動(「shortTermJitter」)及長期顫動(「longTermJitter」)計算指派作用中信號之範圍的值「targetMin」及「targetMax」。在DTX期間的目標延遲(「targetDtx」)之計算展示於參考數字714處,且針對起動(例如,在DTX後)的目標延遲值(「targetStartUp」)之計算展示於參考數字716處。
5.4.6.放出延遲估計
在下文中,將描述可由放出延遲估計器480執行之放出延遲估計。放出延遲指定播放前一訊框之時間與可已接收此訊框之時間之間的緩衝延遲(若與當前在目標延遲估計模組之歷史中所含有的所有訊框相比,其在網路上具有最低可能傳輸延遲)。使用以下公式以毫秒為單位計算其:playoutDelay=prevPlayoutOffset-longTermFifo_getMinOffset()+pcmBufferDelay;只要當使用以毫秒為單位之當前系統時間及訊框之RTP時間戳被轉換至毫秒時自去顫動緩衝器模組430彈出接收之訊框時,皆重新計算變數「prevPlayoutOffset」:prevPlayoutOffset=sysTime-rtpTimestamp
為了避免在訊框不可用的情況下「prevPlayoutOffset」將過時,在基於訊框之時間定標之情況下,更新該變數。對於基於訊框之時間伸展,將「prevPlayoutOffset」按訊框 之持續時間增加,且對於基於訊框之時間收縮,將「prevPlayoutOffset」按訊框之持續時間減少。變數「pcmBufferDelay」描述在PCM緩衝器模組中緩衝的時間之持續時間。
5.4.7.控制邏輯
在下文中,將詳細描述控制器(例如,控制邏輯490)。然而,應注意,根據圖8之控制邏輯800可由關於顫動緩衝器控制器100描述的特徵及功能性中之任何者補充,且反之亦然。此外,應注意,控制邏輯800可代替根據圖4之控制邏輯490,且可視情況包含額外特徵及功能性。此外,不需要以上關於圖4描述的特徵及功能性中之所有者亦存在於根據圖8之控制邏輯800中,且反之亦然。
圖8展示控制邏輯800之流程圖,其自然亦可以硬體實施。
控制邏輯800包含拉取810一訊框用於解碼。換言之,選擇一訊框用於解碼,且在下文中判定應如何執行此解碼。在檢查814中,檢查前一訊框(例如,在步驟810中經拉取用於解碼之訊框前的前一訊框)是否在作用中。若在檢查814中發現前一訊框不在作用中,則選擇第一決策路徑(分支)820,其用以調適不在作用中信號。相比之下,若在檢查814中發現前一訊框在作用中,則選擇第二決策路徑(分支)830,其用以調適作用中信號。第一決策路徑820包含在步驟840中判定「gap」值,其中間隙值描述放出延遲與目標延遲之間的差。此外,第一決策路徑820包含基於間隙 值決定850待執行之時間定標操作。第二決策路徑830包含取決於實際放出延遲是否在目標延遲間隔內而選擇860一時間定標。
在下文中,將描述關於第一決策路徑820及第二決策路徑830之額外細節。
在第一決策路徑820之步驟840中,執行對於下一個訊框是否在作用中之檢查842。舉例而言,檢查842可檢查在步驟810中經拉取用於解碼之訊框是否在作用中。替代地,檢查842可檢查在步驟810中經拉取用於解碼之訊框後的訊框是否在作用中。若在檢查842中發現下一個訊框不在作用中,或下一個訊框尚不可用,則在步驟844中將變數「gap」設定為實際放出延遲(由變數「playoutDelay」定義)與DTX目標延遲(由變數「targetDtx」表示)之間的差,如以上在章節「目標延遲估計」中所描述。相比之下,若在檢查840中發現下一個訊框在作用中,則在步驟846中將變數「gap」設定至放出延遲(由變數「playoutDelay」表示)與起動目標延遲(如由變數「targetStartUp」定義)之間的差。
在步驟850中,首先檢查變數「gap」之量值是否大於(或等於)臨限值。在檢查852中進行此。若發現變數「gap」之量值小於(或等於)臨限值,則不執行時間定標。相比之下,若在檢查852中發現變數「gap」之量值大於臨限值(或等於臨限值,取決於實施),則決定需要定標。在另一檢查854中,檢查變數「gap」之值為正還是負(亦即,變數「gap」是否大於零)。若發現變數「gap」之值不大於零(亦 即,負),則將訊框插入至去顫動緩衝器內(步驟856中之基於訊框之時間伸展),使得執行基於訊框之時間定標。此可(例如)由基於訊框之定標資訊434傳訊。相比之下,若在檢查854中發現變數「gap」之值大於零(亦即,正),則自去顫動緩衝器丟棄訊框(步驟856中之基於訊框之時間收縮),使得執行基於訊框之時間定標。此可使用基於訊框之定標資訊434來傳訊。
在下文中,將描述第二決策分支860。在檢查862中,檢查放出延遲是否大於(或等於)(例如)由變數「targetMax」描述之最大目標值(亦即,目標間隔之上限)。若發現放出延遲大於(或等於)最大目標值,則由時間定標器450執行時間收縮(步驟866,使用TSM的基於樣本之時間收縮),使得執行基於樣本之時間定標。此可(例如)由基於樣本之定標資訊444傳訊。然而,若在檢查862中發現放出延遲小於(或等於)最大目標延遲,則執行檢查864,其中檢查放出延遲是否小於(或等於)(例如)由變數「targetMin」描述之最小目標延遲。若發現放出延遲小於(或等於)最小目標延遲,則由時間定標器450執行時間伸展(步驟866,使用TSM的基於樣本之時間伸展),使得執行基於樣本之時間定標。此可(例如)由基於樣本之定標資訊444傳訊。然而,若在檢查864中發現放出延遲不小於(或等於)最小目標延遲,則不執行時間定標。
總之,圖8中展示之控制邏輯模組(亦標識為顫動緩衝器管理控制邏輯)比較實際延遲(放出延遲)與所要的延 遲(目標延遲)。在顯著差異之情況下,其觸發時間定標。在舒適雜訊期間(例如,當SID旗標在作用中時),基於訊框之時間定標將由去顫動緩衝器模組觸發及執行。在作用中週期期間,基於樣本之時間定標由TSM模組觸發及執行。
圖12展示用於目標延遲估計及放出延遲估計之一實例。圖形表示1200之橫座標1210描述時間,且圖形表示1200之縱座標1212描述以毫秒為單位之延遲。「targetMin」及「targetMax」系列創造了在窗化網路顫動後由目標延遲估計模組需要之延遲範圍。放出延遲「playoutDelay」通常處在該範圍內,但由於信號自適應時間標度修改,調適可能被稍微延遲。
圖13展示在圖12跡線中執行之時間標度操作。圖形表示1300之橫座標1310描述以秒為單位之時間,且縱座標1312描述以毫秒為單位之時間定標。在圖形表示1300中,正值指示時間伸展,負值指示時間收縮。在叢發期間,兩個緩衝器皆只變空一次,且插入一個隱藏訊框以用於伸展(在35秒處加上20毫秒)。對於所有其他調適,可使用較高品質的基於樣本之時間定標方法,其由於信號自適應方法而導致變化之標度。
總之,回應於在某一窗中顫動之增加(且亦回應於顫動之減少),動態地調適目標延遲。當目標延遲增加或減少時,通常執行時間定標,其中以信號自適應方式作出關於時間定標之類型的決策。倘若當前訊框(或前一訊框)在作用中,則執行基於樣本之時間定標,其中按信號自適 應方式調適基於樣本之時間定標的實際延遲以便減少偽訊。因此,當應用基於樣本之時間定標時,通常不存在固定的時間定標量。然而,即使前一訊框(或當前訊框)在作用中,當顫動緩衝器變空時,作為例外處置,有必要(或可推薦)插入隱藏訊框(其構成基於訊框之時間定標)。
5.8.根據圖9之時間標度修改
在下文中,將參看圖9描述關於時間標度修改之細節。應注意,已在章節5.4.3.中簡要描述了時間標度修改。然而,下文將更詳細地描述可(例如)由時間定標器150執行之時間標度修改。
圖9展示根據本發明之一實施例的具有品質控制的經修改之WSOLA之流程圖。應注意,根據圖9之時間定標900可由關於根據圖2之時間定標器200描述的特徵及功能性中之任何者補充,且反之亦然。此外,應注意,根據圖9之時間定標900可對應於根據圖3之基於樣本之時間定標器340及根據圖4之時間定標器450。此外,根據圖9之時間定標900可代替基於樣本之時間定標866。
時間定標(或時間定標器,或時間定標器修改器)900接收經解碼(音訊)樣本910,例如,呈脈碼調變(PCM)之形式。經解碼樣本910可對應於經解碼樣本442、對應於音訊樣本332或對應於輸入音訊信號210。此外,時間定標器900接收可(例如)對應於基於樣本之定標資訊444的控制資訊912。控制資訊912可(例如)描述目標標度及/或最小訊框大小(例如,待提供至PCM緩衝器460的音訊樣本448之一 訊框之樣本之最小數目)。時間定標器900包含切換(或選擇)920,其中基於關於目標標度之資訊決定是否應執行時間收縮、是否應執行時間伸展或是否不應執行時間定標。舉例而言,切換(或檢查,或選擇)920可基於自控制邏輯490接收的基於樣本之定標資訊444。
若基於目標標度資訊發現不應執行定標,則按未修改之形式將接收的經解碼樣本910轉遞作為時間定標器900之輸出。舉例而言,按未修改之形式將經解碼樣本910轉遞至PCM緩衝器460,作為「經時間定標之」樣本448。
在下文中,將針對將執行時間收縮(其可由檢查920基於目標標度資訊912發現)之情況來描述處理流程。在需要時間收縮之情況下,執行能量計算930。在此能量計算930中,計算一樣本區塊(例如,包含給定數目個樣本之訊框)之能量。在能量計算930後,執行選擇(或切換,或檢查)936。若發現由能量計算930提供之能量值932大於(或等於)能量臨限值(例如,能量臨限值Y),則選擇第一處理路徑940,其包含信號自適應地判定在基於樣本之時間定標內的時間定標量。相比之下,若發現由能量計算930提供之能量值932小於(或等於)臨限值(例如,臨限值Y),則選擇第二處理路徑960,其中按基於樣本之時間定標應用固定時間移位量。在按信號自適應方式判定時間移位量之第一處理路徑940中,基於音訊樣本執行類似性估計942。類似性估計942可考慮最小訊框大小資訊944,且可提供關於最高類似性(或關於最高類似性之位置)的資訊946。換言之,類似性估 計942可判定哪一位置(例如,樣本區塊內的樣本之哪一位置)最適合於時間收縮重疊相加操作。將關於最高類似性之資訊946轉遞至品質控制950,其計算或估計使用關於最高類似性之資訊946的重疊相加操作是否將導致大於(或等於)品質臨限值X(其可恆定或其可為可變的)之音訊品質。若品質控制950發現重疊相加操作(或等效地,可藉由重疊相加操作獲得的輸入音訊信號之經時間定標之型式)之品質將小於(或等於)品質臨限值X,則省略時間定標,且由時間定標器900輸出未定標之音訊樣本。相比之下,若品質控制950發現使用關於最高類似性(或關於最高類似性之位置)之資訊946的重疊相加操作之品質將大於或等於品質臨限值X,則執行重疊相加操作954,其中在重疊相加操作中應用之移位由關於最高類似性(或關於最高類似性之位置)之資訊946描述。因此,由重疊相加操作提供經定標之音訊樣本區塊(或訊框)。
經時間定標之音訊樣本956之區塊(或訊框)可(例如)對應於經時間定標之樣本448。類似地,若品質控制950發現可獲得之品質將小於或等於品質臨限值X則被提供的未定標之音訊樣本952之區塊(或訊框)亦可對應於「經時間定標之」樣本448(其中在此情況下,實際上不存在時間定標)。
相比之下,若在選擇936中發現輸入音訊樣本910之區塊(或訊框)之能量小於(或等於)能量臨限值Y,則執行重疊相加操作962,其中在重疊相加操作中使用之移位由最 小訊框大小(由最小訊框大小資訊描述)定義,且其中獲得經定標之音訊樣本964之區塊(或訊框),其可對應於經時間定標之樣本448。
此外,應注意,在時間伸展之情況下執行的處理與在時間收縮中執行的處理相似,不過修改了類似性估計及重疊相加。
總之,應注意,當選擇時間收縮或時間伸展時,在信號自適應的基於樣本之時間定標中區分三個不同情況。若輸入音訊樣本之區塊(或訊框)之能量包含比較小的能量(例如,小於(或等於)能量臨限值Y),則用固定時間移位(亦即,用固定的時間收縮或時間伸展量)執行時間收縮或時間伸展重疊相加操作。相比之下,若輸入音訊樣本之區塊(或訊框)之能量大於(或等於)能量臨限值Y,則藉由類似性估計(類似性估計942)判定「最佳」(在本文中有時亦標識為「候選」)時間收縮或時間伸展量。在隨後品質控制步驟中,判定是否將藉由使用先前判定之「最佳」時間收縮或時間伸展量的此重疊相加操作來獲得足夠品質。若發現可達到足夠品質,則使用判定之「最佳」時間收縮或時間伸展量執行重疊相加操作。相比之下,若發現使用使用先前判定之「最佳」時間收縮或時間伸展量的重疊相加操作不會達到足夠品質,則時間收縮或時間伸展被省略(或推遲至稍後時間點,例如,至稍後訊框)。
在下文中,將描述關於可由時間定標器900(或由時間定標器200,或由時間定標器340,或由時間定標器450) 執行之品質自適應時間定標的一些另外細節。使用重疊相加(OLA)之時間定標方法廣泛可用,但一般而言,不執行信號自適應時間定標結果。在可用於本文中描述之時間定標器中的所描述之解決方案中,時間定標量不僅取決於藉由類似性估計(例如,藉由類似性估計942)提取之位置(其對於高品質時間定標似乎最佳),且亦取決於重疊相加(例如,重疊相加954)之預期品質。因此,在時間定標模組中(例如,在時間定標器900中,或在本文中描述之其他時間定標器中)引入兩個品質控制步驟,以決定時間定標是否將導致聲訊偽訊。在可能產生偽訊之情況下,時間定標被推遲至其將較難被聽見之時間點。
第一品質控制步驟將藉由類似性度量(例如,藉由類似性估計942)提取之位置p用作輸入來計算目標品質度量。在週期性信號之情況下,p將為當前訊框之基頻。針對位置p、2*p、3/2*p及1/2*p計算正規化之交互相關c()。預期c(p)為正值,且c(1/2*p)可能為正或負。對於諧波信號,c(2p)之正負號亦應為正,且c(3/2*p)之正負號應等於c(1/2*p)之正負號。此關係可用以建立目標品質度量q:q=c(p)* c(2*p)+c(3/2*p)* c(1/2*p)。
q值範圍為[-2;+2]。理想諧波信號將導致q=2,而可能在時間定標期間創造聲訊偽訊之非常動態且寬頻信號將產生較低值。歸因於基於逐個訊框進行時間定標之事實,用以計算c(2*p)及c(3/2*p)之整個信號可能尚不可用。然而,亦可藉由查看過去的樣本來進行評估。因此,可使 用c(-p)替代c(2*p),且類似地,可使用c(-1/2*p)替代c(3/2*p)。
第二品質控制步驟將目標品質度量q之當前值與動態最小品質值qMin(其可對應於品質臨限值X)比較以判定是否應將時間定標應用至當前訊框。
存在針對具有動態最小品質值之不同意圖:若q具有低值(因為信號被評估為不良的而無法在長時段中定標),則應緩慢減小qMin以確保仍可在某一時間點以較低預期品質執行預期定標。另一方面,具有q之高值的信號不應導致連續定標許多訊框,連續定標將降低關於長期信號特性(例如,節律)之品質。
因此,使用以下公式計算動態最小品質qMin(其可(例如)等效於品質臨限值X):qMin=qMinInitial-(nNotScaled * 0.1)+(nScaled * 0.2)
qMinInitial為在某一品質與直至可按請求之品質定標訊框時的延遲之間最佳化的某一值,其中值1為良好折衷。nNotScaled為由於不足夠的品質(q<qMin)而尚未定標的訊框之計數器。nScaled計數由於達到品質要求(q>=qMin)而已定標的訊框之數目。兩個計數器之範圍都受到限制:其將不減小至負值,且將不增加高於預設地設定為(例如)4之指明值。
若q>=qMin,則當前訊框將被時間定標直到位置p,否則,時間定標將被推遲至符合此條件之接下來的訊框。圖11之偽碼說明用於時間定標之品質控制。
如可看到,將qMin之初始值設定至1,其中該初始值以「qMinInitial」來標識(參看參考數字1110)。類似地,nScaled之最大計數器值(標識為「變數qualityRise」)經初始化至4,如可在參考數字1112處看到。將計數器nNotScaled之最大值初始化至4(變數「qualityRed」),參看參考數字1114。隨後,藉由類似性度量提取位置資訊p,如可在參考數字1116處看到。隨後,根據可在參考數字1116處看到之等式,計算由位置值p描述之位置的品質值q。取決於變數qMinInitial,且亦取決於計數器值nNotScaled及nScaled,計算品質臨限值qMin,如可在參考數字1118處看到。如可看到,用於品質臨限值qMin之初始值qMinInitial按與計數器nNotScaled之值成比例的值減小,且按與值nScaled成比例的值增大。如可看到,計數器值nNotScaled及nScaled之最大值亦判定品質臨限值qMin之最大增大及品質臨限值qMin之最大減小。隨後,執行品質值q是否大於或等於品質臨限值qMin之檢查,如可在參考數字1120處看到。
若情況如此,則執行重疊相加操作,如可在參考數字1122處看到。此外,減小計數器變數nNotScaled,其中確保該計數器變數不變負。此外,增大計數器變數nScaled,其中確保nScaled不超過由變數(或常數)qualityRise定義之上限。計數器變數之調適可見於參考數字1124及1126。
相比之下,若在參考數字1120處展示之比較處發現品質值q小於品質臨限值qMin,則省略重疊相加操作之執行,考慮到計數器變數nNotScaled不超過由變數(或常 數)qualityRed定義之臨限值,增大計數器變數nNotScaled,且考慮到計數器變數nScaled不變負,減小計數器變數nScaled。針對品質不足夠之情況下的計數器變數之調適展示於參考數字1128及1130處。
5.9.根據圖10a及圖10b之時間定標器
在下文中,將參看圖10a及圖10b解釋信號自適應時間定標器。圖10a及圖10b展示信號自適應時間定標之流程圖。應注意,如在圖10a及圖10b中展示之信號自適應時間定標可(例如)應用於時間定標器200中、時間定標器340中、時間定標器450中或時間定標器900中。
根據圖10a及圖10b之時間定標器1000包含能量計算1010,其中計算音訊樣本的一訊框(或一部分,或一區塊)之能量。舉例而言,能量計算1010可對應於能量計算930。隨後,執行檢查1014,其中檢查在能量計算1010中獲得之能量值是否大於(或等於)能量臨限值(其可(例如)為固定能量臨限值)。若在檢查1014中發現在能量計算1010中獲得之能量值小於(或等於)能量臨限值,則可假定可藉由重疊相加操作獲得足夠品質,且在步驟1018中,藉由最大時間移位執行重疊相加操作(以藉此獲得最大時間定標)。相比之下,若在檢查1014中發現在能量計算1010中獲得之能量值不小於(或等於)能量臨限值,則使用類似性度量執行對於在搜尋區域內的模板區段之最佳匹配之搜尋。舉例而言,類似性度量可為交互相關、正規化之交互相關、平均量值差函數或平方誤差之總和。在下文中,將描述關於對最佳匹 配之此搜尋的一些細節,且亦將解釋可獲得時間伸展或時間收縮之方式。
現在對參考數字1040處之圖形表示進行參考。第一表示1042展示開始於時間t1且結束於時間t2之樣本區塊(或訊框)。如可看到,開始於時間t1且結束於時間t2之樣本區塊可邏輯上分裂成開始於時間t1且結束於時間t3之第一樣本區塊及開始於時間t4且結束於時間t2之第二樣本區塊。然而,接著相對於第一樣本區塊時間移位第二樣本區塊,如可在參考數字1044處看到。舉例而言,作為第一時間移位之結果,經時間移位之第二樣本區塊開始於時間t4'且結束於時間t2'。因此,在時間t4'與時間t3之間存在第一樣本區塊與經時間移位之第二樣本區塊之間的時間重疊。然而,如可看到,例如,在時間t4'與t3之間的重疊區域中(或在時間t4'與t3之間的該重疊區域之一部分內),不存在第一樣本區塊與第二樣本區塊之經時間移位之型式之間的良好匹配(亦即,無高類似性)。換言之,時間定標器可(例如)時間移位第二樣本區塊,如在參考數字1044處所示,且判定時間t4'與t3之間的重疊區域(或該重疊區域之一部分)之類似性度量。此外,時間定標器亦可將額外時間移位應用至第二樣本區塊(如在參考數字1046處所示),使得第二樣本區塊之經(兩次)時間移位之型式開始於時間t4"且結束於時間t2"(其中t2">t2'>t2,且類似地,t4">t4'>t4)。時間定標器亦可判定表示第一樣本區塊與第二樣本區塊之經兩次時間移位之型式之間的類似性(例如,在時間t4"與t3之間(或例 如,在時間t4"與t3之間的一部分內))之(定量)類似性資訊。因此,時間定標器評估對於第二樣本區塊之經時間移位之型式的哪一時間移位,在與第一樣本區塊之重疊區域中的類似性經最大化(或至少大於一臨限值)。因此,可判定導致第一樣本區塊與第二樣本區塊之經時間移位之型式之間的類似性最大化(或至少足夠大)之「最佳匹配」的時間移位。因此,若在時間重疊區域(例如,在時間t4"與t3之間)內存在第一樣本區塊與第二樣本區塊之經兩次時間移位之型式之間的足夠類似性,則可按由所使用的類似性度量判定之可靠性預期重疊及相加第一樣本區塊及第二樣本區塊之經兩次時間移位之型式的重疊相加操作導致無實質音訊偽訊之音訊信號。此外,應注意到,第一樣本區塊與第二樣本區塊之經兩次時間移位之型式之間的重疊相加導致具有時間t1與t2"之間的時間延長之音訊信號部分(其比自時間t1延伸至時間t2之「原始」音訊信號長)。因此,可藉由重疊及相加第一樣本區塊及第二樣本區塊之經兩次時間移位之型式來達成時間伸展。
類似地,可達成時間收縮,如將參照在參考數字1050處之圖形表示所解釋。如可在參考數字1052處看到,原始樣本區塊(或訊框)於時間t11與t12之間延伸。可將原始樣本區塊(或訊框)劃分成(例如)自時間t11延伸至時間t13之第一樣本區塊及自時間t13延伸至時間t12之第二樣本區塊。第二樣本區塊被向左時間移位,如可在參考數字1054處看到。因此,第二樣本區塊之經(一次)時間移位之型式開 始於時間t13'且結束於時間t12'。又,在時間t13'與t13之間存在第一樣本區塊與第二樣本區塊之經一次時間移位之型式之間的時間重疊。然而,時間定標器可判定表示在時間t13'與t13之間(或對於時間t13'與t13之間的時間之一部分)的第一樣本區塊與第二樣本區塊之經(一次)時間移位之型式之類似性的(定量)類似性資訊,且發現類似性並不特別好。此外,時間定標器可進一步時間移位第二樣本區塊,以藉此獲得第二樣本區塊之經兩次時間移位之型式,其展示於參考數字1056處,且其開始於時間t13"且結束於時間t12"。因此在時間t13"與t13之間存在第一樣本區塊與第二樣本區塊之經(兩次)時間移位之型式之間的重疊。時間定標器可發現,(定量)類似性資訊指示在時間t13"與t13之間在第一樣本區塊與第二樣本區塊之經兩次時間移位之型式之間的高類似性。因此,時間定標器可得出結論:可在第一樣本區塊與第二樣本區塊之經兩次時間移位之型式之間按良好品質及較少音訊偽訊(至少按由使用之類似性度量提供的可靠性)執行重疊相加操作。此外,亦可考慮在參考數字1058處展示的第二樣本區塊之經三次時間移位之型式。第二樣本區塊之經三次時間移位之型式可開始於時間t13'''且結束於時間t12'''。然而,在時間t13'''與t13之間的重疊區域中,第二樣本區塊之經三次時間移位之型式可不包含與第一樣本區塊之良好類似性,此係因為該時間移位並不合適。因此,時間定標器可發現第二樣本區塊之經兩次時間移位之型式包含與第一樣本區塊之最佳匹配(在重疊區域 中及/或在重疊區域之環境中及/或在重疊區域之一部分中的最佳類似性)。因此,時間定標器可執行第一樣本區塊與第二樣本區塊之經兩次時間移位之型式的重疊相加,其限制性條件為額外品質檢查(其可依賴於第二更有意義之類似性度量)指示足夠品質。作為重疊相加操作之結果,獲得組合樣本區塊,其自時間t11延伸至時間t12",且其在時間上比自時間t11至t12之原始樣本區塊短。因此,可執行時間收縮。
應注意,可由搜尋1030執行已經參照在參考數字1040及1050處之圖形表示描述的以上功能性,其中作為搜尋最佳匹配之結果,提供關於最高類似性之位置的資訊(其中描述最高類似性之位置的資訊或值在本文中亦以p來標識)。可使用交互相關、使用正規化之交互相關、使用平均量值差函數或使用平方誤差之總和來判定在各別重疊區域內的第一樣本區塊與第二樣本區塊之經時間移位之型式之間的類似性。
一旦判定了關於最高類似性之位置(p)的資訊,執行針對最高類似性之經識別位置(p)的匹配品質之計算1060。可執行此計算,例如,如在圖11中之參考數字1116處所展示。換言之,可使用可針對不同時間移位(例如,時間移位p、2*p、3/2*p及1/2*p)獲得的四個相關性值之組合來計算關於匹配品質之(定量)資訊(例如,其可以q來標識)。因此,可獲得表示匹配品質之(定量)資訊(q)。
現參看圖10b,執行檢查1064,其中將描述匹配 品質之定量資訊q與品質臨限值qMin比較。此檢查或比較1064可評估由變數q表示之匹配品質是否大於(或等於)可變品質臨限值qMin。若在檢查1064中發現匹配品質不足夠(亦即,大於或等於可變品質臨限值),則使用最高類似性之位置(例如,其由變數p描述)來應用重疊相加操作(步驟1068)。因此,執行重疊相加操作,例如,在導致「最佳匹配」(亦即,導致類似性資訊之最高值)之第一樣本區塊與第二樣本區塊之經時間移位之型式之間。針對細節,(例如)對關於圖形表示1040及1050進行之解釋進行參考。重疊相加之應用亦展示於圖11中之參考數字1122處。此外,在步驟1072中執行訊框計數器之更新。舉例而言,更新計數器變數「nNotScaled」及計數器變數「nScaled」,例如,如參看圖11在參考數字1124及1126處所描述。相比之下,若在檢查1064中發現匹配品質不足夠(例如,小於(或等於)可變品質臨限值qmin),則避免(例如,推遲)重疊相加操作,其指示於參考數字1076處。在此情況下,亦更新訊框計數器,如在步驟1080中所示。可執行訊框計數器之更新,例如,如在圖11中之參考數字1128及1130處所展示。此外,參看圖10a及圖10b描述之時間定標器亦可計算可變品質臨限值qMin,其展示於參考數字1084處。可執行可變品質臨限值qMin之計算,例如,如在圖11中之參考數字1118處所展示。
總之,時間定標器1000(其功能性已按流程圖之形式參看圖10a及圖10b描述)可使用品質控制機制執行基於樣本之時間定標(步驟1060至1084)。
5.10.根據圖14之方法
圖14展示用於基於輸入音訊內容控制經解碼音訊內容之提供的方法之流程圖。根據圖14之方法1400包含按信號自適應方式選擇1410基於訊框之時間定標或基於樣本之時間定標。
此外,應注意,方法1400可由本文中描述(例如,關於顫動緩衝器控制器)的特徵及功能性中之任何者來補充。
5.11.根據圖15之方法
圖15展示用於提供輸入音訊信號之經時間定標之型式的方法1500之方塊示意圖。該方法包含計算或估計1510可藉由輸入音訊信號之時間定標獲得的輸入音訊信號之經時間定標之型式之品質。此外,方法1500包含取決於可藉由時間定標獲得的輸入音訊信號之經時間定標之型式之品質的計算或估計而執行1520輸入音訊信號之時間定標。
方法1500可由本文中描述(例如,關於時間定標器)的特徵及功能性中之任何者來補充。
6.結論
總之,根據本發明之實施例創造一種用於高品質話語及音訊通訊之顫動緩衝器管理方法及裝置。該方法及該裝置可與通訊編碼解碼器(諸如,MPEG ELD、AMR-WB或未來的編碼解碼器)一起使用。換言之,根據本發明之實施例創造一種用於補償在基於封包之通訊中的到達間顫動 之方法及裝置。
本發明之實施例可應用於(例如)稱作「3GPP EVS」之技術中。
在下文中,將簡要描述根據本發明的實施例之一些態樣。
本文中描述之顫動緩衝器管理解決方案創造一種系統,其中許多描述之模組為可用的且按以上描述之方式組合。此外,應注意,本發明之態樣亦係關於模組自身之特徵。
本發明之一重要態樣為用於自適應顫動緩衝器管理之時間定標方法的信號自適應選擇。描述之解決方案在控制邏輯中組合基於訊框之時間定標與基於樣本之時間定標,使得組合兩個方法之優勢。可用的時間定標方法為:˙在DTX中之舒適雜訊插入/刪除;˙重疊相加(OLA),而無在低信號能量中(例如,對於具有低信號能量之訊框)之相關性;˙針對作用中信號之WSOLA;˙在空顫動緩衝器之情況下,插入隱藏訊框以用於伸展。
本文中描述之解決方案描述用以組合基於訊框之方法(舒適雜訊插入及刪除,及隱藏訊框的插入以用於伸展)與基於樣本之方法(針對作用中信號之WSOLA,及針對低能量信號之未同步化之重疊相加(OLA))之機制。在圖8中,說明根據本發明之一實施例的選擇用於時間標度修改 之最佳技術的控制邏輯。
根據本文中描述之再一態樣,使用用於自適應顫動緩衝器管理之多個目標。在描述之解決方案中,目標延遲估計將不同最佳化準則用於計算單一目標放出延遲。彼等準則導致首先針對高品質或低延遲最佳化之不同目標。
用於計算目標放出延遲之多個目標為:˙品質:避免晚期損失(評估顫動);˙延遲:限制延遲(評估顫動)。
描述之解決方案的一(可選)態樣為最佳化目標延遲估計,使得限制延遲且亦避免晚期損失,且此外保留顫動緩衝器中之小部分以增加內插之機率以允許實現解碼器之高品質誤差隱藏。
另一(可選)態樣係關於遲到訊框之TCX隱藏恢復。迄今多數顫動緩衝器管理解決方案拋棄遲到之訊框。已描述了在基於ACELP之解碼器中使用遲到訊框之機制[Lef03]。根據一態樣,此機制亦用於不同於ACELP訊框之訊框(例如,如TCX之經頻域寫碼訊框),以(一般而言)輔助解碼器狀態之恢復。因此,遲接收及已隱藏的訊框仍被饋入至解碼器以改良解碼器狀態之恢復。
根據本發明之另一重要態樣為以上描述之品質自適應時間定標。
進一步得出結論:根據本發明之實施例創造一種可用於在基於封包之通訊中改良使用者體驗之完整顫動緩衝器管理解決方案。觀察到所提出之解決方案執行起來比 本發明者已知的任何其他已知顫動緩衝器管理解決方案更優越。
7.實施替代方案
雖然已在一裝置之上下文中描述了一些態樣,但顯然,此等態樣亦表示對應的方法之描述,其中一區塊或器件對應於一方法步驟或一方法步驟之一特徵。類似地,在方法步驟之上下文中描述的態樣亦表示對應的裝置之對應的區塊或項目或特徵之描述。該等方法步驟中之一些或全部可由(或使用)硬體裝置(例如,微處理器、可程式化電腦或電子電路)來執行。在一些實施例中,最重要的方法步驟中之某一或多者可由此裝置執行。
本發明之經編碼音訊信號可儲存於數位儲存媒體上,或可在諸如無線傳輸媒體或有線傳輸媒體(諸如,網際網路)之傳輸媒體上傳輸。
取決於某些實施要求,本發明之實施例可以硬體或以軟體實施。可使用儲存有電子可讀控制信號的例如軟碟、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM或FLASH記憶體之數位儲存媒體執行該實施,電子可讀控制信號與(或能夠與)可程式化電腦系統合作使得執行各別方法。因此,數位儲存媒體可為電腦可讀的。
根據本發明之一些實施例包含具有電子可讀控制信號之資料載體,電子可讀控制信號能夠與可程式化電腦系統合作,使得執行本文中描述的方法中之一者。
通常,可將本發明之實施例實施為具有程式碼之 電腦程式產品,程式碼係操作性的以用於當電腦程式產品在電腦上執行時執行該等方法中之一者。程式碼可(例如)儲存於機器可讀載體上。
其他實施例包含儲存於機器可讀載體上的用於執行本文中描述的方法中之一者之電腦程式。
換言之,本發明方法之一實施例因此為具有程式碼的電腦程式,該程式碼用於當電腦程式在電腦上執行時執行本文中描述的方法中之一者。
本發明方法之再一實施例因此為包含、記錄有電腦程式的資料載體(或數位儲存媒體或電腦可讀媒體),該電腦程式用於執行本文中描述的方法中之一者。資料載體、數位儲存媒體或記錄媒體通常為有形的及/或非過渡性的。
本發明方法之再一實施例因此為表示電腦程式之資料串流或一連串信號,該電腦程式用於執行本文中描述的方法中之一者。資料串流或該一連串信號可(例如)經組配以經由資料通訊連接(例如,經由網際網路)傳送。
再一實施例包含一種處理構件(例如,電腦或可程式化邏輯器件),其經組配或調適以執行本文中描述的方法中之一者。
再一實施例包含一種電腦,其安裝有用於執行本文中描述的方法中之一者之電腦程式。
根據本發明之再一實施例包含經組配以將用於執行本文中描述的方法中之一者之電腦程式傳送(例如,以電子方式或以光學方式)至接收器之裝置或系統。接收器可 (例如)為電腦、行動器件、記憶體器件或類似者。裝置或系統可(例如)包含用於將電腦程式傳送至接收器之檔案伺服器。
在一些實施例中,可使用可程式化邏輯器件(例如,場可程式化閘陣列)執行本文中描述的方法之一些或全部功能性。在一些實施例中,場可程式化閘陣列可與微處理器合作以便執行本文中描述的方法中之一者。通常,該等方法較佳地由任一硬體裝置執行。
本文中描述之裝置可使用硬體裝置或使用電腦或使用硬體裝置與電腦之組合來實施。
本文中描述之方法可使用硬體裝置或使用電腦或使用硬體裝置與電腦之組合來執行。
上述實施例僅例示了本發明之原理。應理解,本文中描述的配置及細節之修改及變化將對其他熟習此項技術者顯而易見。因此,意圖為僅受到隨附的申請專利範圍之範疇限制,且不受藉由本文中之實施例之描述及解釋呈現的特定細節限制。
參考文獻
[Lia01] Y. J. Liang, N. Faerber, B. Girod: 「Adaptive playout scheduling using time-scale modification in packet voice communications」, 2001
[Lef03] P. Gournay, F. Rousseau, R. Lefebvre: 「Improved packet loss recovery using late frames for prediction-based speech coders」, 2003
200‧‧‧時間定標器
210‧‧‧輸入音訊信號
212‧‧‧輸入音訊信號之經時間定標之型式

Claims (30)

  1. 一種用於提供一輸入音訊信號之經時間定標版本之時間定標器,其中該時間定標器經組配以計算或估計藉由該輸入音訊信號之一時間定標可獲得的該輸入音訊信號之一經時間定標版本之一品質,以及其中該時間定標器經組配以取決於藉由該時間定標可獲得的該輸入音訊信號之該經時間定標版本之該品質的該計算或估計而執行該輸入音訊信號之該時間定標;其中該時間定標器組配來相對於一第一樣本區塊時間移位一第二樣本區塊,且若藉由該時間定標可獲得的該輸入音訊信號之該經時間定標版本之該品質(q)的該計算或估計指示出一個大於或等於一品質臨界值(qmin)之品質,則重疊相加該第一樣本區塊與經時間移位之該第二樣本區塊,以藉此獲得該輸入音訊信號的該經時間定標版本;以及其中該時間定標器組配來取決於對該第一樣本區塊或該第一樣本區塊之一部分與該第二樣本區塊或該第二樣本區塊之一部分之間使用一第一類似性度量所評估的一類似性等級之一判定,判定該第二樣本區塊相對於該第一樣本區塊之一時間移位(p);以及其中該時間定標器組配來基於關於該第一樣本區 塊或該第一樣本區塊之一部分與依該判定之時間移位進行時間移位的該第二樣本區塊或依該判定之時間移位進行時間移位的該第二樣本區塊之一部分之間使用一第二類似性度量所評估的該類似性等級之一資訊,計算或估計藉由該輸入音訊信號之一時間定標可獲得的該輸入音訊信號之該經時間定標版本之一品質(q)。
  2. 如請求項1之時間定標器,其中該時間定標器經組配以使用該輸入音訊信號之一第一樣本區塊及該輸入音訊信號之一第二樣本區塊執行一重疊相加操作,其中該時間定標器經組配以相對於該第一樣本區塊時間移位該第二樣本區塊,且重疊相加該第一樣本區塊與該經時間移位之第二樣本區塊,以藉此獲得該輸入音訊信號之該經時間定標版本。
  3. 如請求項2之時間定標器,其中該時間定標器經組配以計算或估計該第一樣本區塊與該經時間移位之第二樣本區塊之間的該重疊相加操作之一品質,以便計算或估計藉由該時間定標可獲得的該輸入音訊信號之該經時間定標版本的該品質。
  4. 如請求項2之時間定標器,其中該時間定標器經組配以取決於對該第一樣本區塊或該第一樣本區塊之一部分與該第二樣本區塊或該第二樣本區塊之一部分之間的一類似性等級之一判定來判定該第二樣本區塊相對於該第一樣本區塊之該時間移位(p)。
  5. 如請求項4之時間定標器,其中該時間定標器經組配以 針對該第一樣本區塊與該第二樣本區塊之間的複數個不同時間移位,判定關於該第一樣本區塊或該第一樣本區塊之一部分與該第二樣本區塊或該第二樣本區塊之一部分之間的一類似性等級之一資訊,及基於關於針對該等複數個不同時間移位之該類似性等級之該資訊判定待用於該重疊相加操作的一時間移位(p)。
  6. 如請求項4之時間定標器,其中該時間定標器經組配以取決於一目標時間移位資訊判定該第二樣本區塊相對於該第一樣本區塊之該時間移位(p),該時間移位將用於該重疊相加操作。
  7. 如請求項4之時間定標器,其中該時間定標器經組配以基於關於該第一樣本區塊或該第一樣本區塊之一部分與按該判定之時間移位(p)進行時間移位的該第二樣本區塊或按該判定之時間移位(p)進行時間移位的該第二樣本區塊之一部分之間的該類似性等級之一資訊,計算或估計藉由該輸入音訊信號之一時間定標可獲得的該輸入音訊信號之該經時間定標版本之一品質(q)。
  8. 如請求項7之時間定標器,其中該時間定標器經組配以基於關於該第一樣本區塊或該第一樣本區塊之一部分與按該判定之時間移位(p)進行時間移位的該第二樣本區塊或按該判定之時間移位(p)進行時間移位的該第二樣本區塊之一部分之間的該類似性等級之該資訊決定是否實際執行一時間定標。
  9. 如請求項1之時間定標器,其中該第二類似性度量(q)在 計算上比該第一類似性度量複雜。
  10. 如請求項1之時間定標器,其中該第一類似性度量為一交互相關或一正規化之交互相關,或一平均幅度差函數或一平方誤差之總和,且其中該第二類似性度量(q)為針對多個不同時間移位的交互相關或正規化之交互相關之一組合。
  11. 如請求項1之時間定標器,其中該第二類似性度量(q)為至少四個不同時間移位的交互相關之一組合。
  12. 如請求項11之時間定標器,其中該第二類似性度量(q)為針對由該第一樣本區塊或該第二樣本區塊之一音訊內容之一基頻的一週期持續時間(p)之一整數倍間隔開之時間移位所獲得的一第一交互相關值與一第二交互相關值之一組合及針對由該音訊內容之該基頻的該週期持續時間(p)之一整數倍間隔開之時間移位所獲得的一第三交互相關值與一第四交互相關值之一組合,其中獲得該第一交互相關值之一時間移位與獲得該第三交互相關值之一時間移位由該音訊內容之該基頻的該週期持續時間(p)之一半之一奇數倍間隔開。
  13. 如請求項1之時間定標器,其中該第二類似性度量q係根據:q=c(p)*c(2*p)+c(3/2*p)*c(1/2*p)或根據q=c(p)*c(-p)+c(-1/2*p)*c(1/2*p)獲得,其中c(p)為按一第一樣本區塊或一第二樣本區塊之 一音訊內容之一基頻之一週期持續時間p在時間上移位的該第一樣本區塊與該第二樣本區塊之間的一交互相關值;其中c(2*p)為按2*p在時間上移位的一第一樣本區塊與一第二樣本區塊之間的一交互相關值;其中c(3/2*p)為按3/2*p在時間上移位的一第一樣本區塊與一第二樣本區塊之間的一交互相關值;其中c(1/2*p)為按½*p在時間上移位的一第一樣本區塊與一第二樣本區塊之間的一交互相關值;其中c(-p)為按-p在時間上移位的一第一樣本區塊與一第二樣本區塊之間的一交互相關值;且其中c(-1/2*p)為按-½*p在時間上移位的一第一樣本區塊與一第二樣本區塊之間的一交互相關值。
  14. 如請求項1之時間定標器,其中該時間定標器經組配以比較基於藉由該時間定標可獲得的該輸入音訊信號之該經時間定標版本之該品質的一計算或估計之一品質值(q)與一可變臨界值(qmin),以決定是否應執行一時間定標。
  15. 如請求項14之時間定標器,其中該時間定標器經組配以響應於對於一時間定標之一品質會是不足夠用於一或多個先前樣本區塊之一發現,減小該可變臨界值(qmin),以藉此減少一品質要求。
  16. 如請求項14之時間定標器,其中該時間定標器經組配以響應於一時間定標已經應用於一或多個先前樣本區塊 之事實而增大該可變臨界值(qmin),以藉此增加一品質要求。
  17. 如請求項14之時間定標器,其中該時間定標器包含用於計數因為已達到藉由該時間定標可獲得的該輸入音訊信號之該經時間定標版本之一各別品質要求而已經時間定標的樣本區塊之一數目或訊框之一數目的一有限範圍第一計數器(nScaled),且其中該時間定標器包含用於計數因為尚未達到藉由該時間定標可獲得的該輸入音訊信號之該經時間定標版本之一各別品質要求而尚未時間定標的樣本區塊之一數目或訊框之一數目的一有限範圍第二計數器(nNotScaled);且其中該時間定標器經組配以取決於該第一計數器(nScaled)之一值及取決於該第二計數器(nNotScaled)之一值而計算該可變臨界值(qmin)。
  18. 如請求項17之時間定標器,其中該時間定標器經組配以將與該第一計數器(nScaled)之該值成比例之一值添加至一初始臨界值,及自該初始臨界值減去與該第二計數器(nNotScaled)之該值成比例之一值,以便獲得該可變臨界值(qmin)。
  19. 如請求項1之時間定標器,其中該時間定標器經組配以取決於藉由該時間定標可獲得的該輸入音訊信號之該經時間定標版本之該品質(q)的該計算或估計而執行該 輸入音訊信號之該時間定標,其中該輸入音訊信號之該經時間定標版本之該品質的該計算或估計包含將由一時間定標引起的在該輸入音訊信號之該經時間定標版本中的偽訊之一計算或估計。
  20. 如請求項19之時間定標器,其中該輸入音訊信號之該經時間定標版本之該品質(q)的該計算或估計包含將由該輸入音訊信號之隨後樣本區塊之一重疊相加操作引起的在該輸入音訊信號之該經時間定標版本中的偽訊之一計算或估計。
  21. 如請求項1之時間定標器,其中該時間定標器經組配以取決於該輸入音訊信號之隨後樣本區塊之一類似性等級而計算或估計藉由該輸入音訊信號之一時間定標可獲得的該輸入音訊信號之一經時間定標版本之該品質(q)。
  22. 如請求項1之時間定標器,其中該時間定標器經組配以計算或估計在藉由該輸入音訊信號之一時間定標可獲得的該輸入音訊信號之一經時間定標版本中是否存在聲訊偽訊。
  23. 如請求項1之時間定標器,其中該時間定標器經組配以在藉由該時間定標可獲得的該輸入音訊信號之該經時間定標版本之該品質的該計算或估計指示一不足品質之情況下將一時間定標推遲至一隨後訊框或一隨後樣本區塊。
  24. 如請求項1之時間定標器,其中該時間定標器組配來在 藉由該時間定標可獲得的該輸入音訊信號之該經時間定標版本之該品質的該計算或估計指示一不足品質之情況下將一時間定標推遲至該時間定標較難被聽到之一時間。
  25. 一種用於提供一輸入音訊信號之經時間定標版本之時間定標器,其中該時間定標器組配來計算或估計藉由該輸入音訊信號之一時間定標可獲得的該輸入音訊信號之一經時間定標版本之一品質,以及其中該時間定標器組配來取決於藉由該時間定標可獲得的該輸入音訊信號之該經時間定標版本之該品質的該計算或估計而執行該輸入音訊信號之該時間定標;其中該時間定標器組配來比較基於藉由該時間定標可獲得的該輸入音訊信號之該經時間定標版本之該品質的一計算或估計之一品質值(q)與一可變臨界值(qmin),以決定是否應執行一時間定標。
  26. 一種用於基於一輸入音訊內容提供一經解碼音訊內容之音訊解碼器,該音訊解碼器包含:一顫動緩衝器,其經組配以緩衝表示音訊樣本區塊之複數個音訊訊框;一解碼器核心,其經組配以基於自該顫動緩衝器接收之音訊訊框提供音訊樣本區塊;用於提供一輸入音訊信號之一經時間定標版本之 一基於樣本之時間定標器,其中該時間定標器組配來計算或估計藉由該輸入音訊信號之一時間定標可獲得的該輸入音訊信號之一經時間定標版本之一品質,以及其中該時間定標器組配來取決於藉由該時間定標可獲得的該輸入音訊信號之該經時間定標版本之該品質的該計算或估計而執行該輸入音訊信號之該時間定標,以及其中該基於樣本之時間定標器經組配以基於由該解碼器核心提供的音訊樣本區塊提供經時間定標之音訊樣本區塊。
  27. 如請求項26之音訊解碼器,其中該音訊解碼器進一步包含一顫動緩衝器控制器,其中該顫動緩衝器控制器經組配以將一控制資訊提供至該基於樣本之時間定標器,其中該控制資訊指示是否應執行一基於樣本之時間定標,及/或其中該控制資訊指示一所要的時間定標量。
  28. 一種用於提供一輸入音訊信號之一經時間定標版本之方法,其中該方法包含計算或估計藉由該輸入音訊信號之一時間定標可獲得的該輸入音訊信號之一經時間定標版本之一品質,以及其中該方法包含取決於藉由該時間定標可獲得的該輸入音訊信號之該經時間定標版本之該品質的該計 算或估計而執行該輸入音訊信號之該時間定標;其中該方法包含相對於一第一樣本區塊時間移位一第二樣本區塊,且若藉由該時間定標可獲得的該輸入音訊信號之該經時間定標版本之該品質(q)的該計算或估計指示出一個大於或等於一品質臨界值(qmin)之品質,則重疊相加該第一樣本區塊與經時間移位之該第二樣本區塊,以藉此獲得該輸入音訊信號的該經時間定標版本;以及其中該方法包含取決於對該第一樣本區塊或該第一樣本區塊之一部分與該第二樣本區塊或該第二樣本區塊之一部分之間使用一第一類似性度量所評估的一類似性等級之一判定,來判定該第二樣本區塊相對於該第一樣本區塊之一時間移位(p);以及其中該方法包含基於關於該第一樣本區塊或該第一樣本區塊之一部分與依該判定之時間移位進行時間移位的該第二樣本區塊或依該判定之時間移位進行時間移位的該第二樣本區塊之一部分之間使用一第二類似性度量所評估的該類似性等級之一資訊,計算或估計藉由該輸入音訊信號之一時間定標可獲得的該輸入音訊信號之該經時間定標版本之一品質(q)。
  29. 一種用於提供一輸入音訊信號之一經時間定標版本之方法,其中該方法包含計算或估計藉由該輸入音訊信號之一時間定標可獲得的該輸入音訊信號之一經時間定 標版本之一品質,以及其中該方法包含取決於藉由該時間定標可獲得的該輸入音訊信號之該經時間定標版本之該品質的該計算或估計而執行該輸入音訊信號之該時間定標;其中該方法包含比較基於藉由該時間定標可獲得的該輸入音訊信號之該經時間定標版本之該品質的一計算或估計之一品質值(q)與一可變臨界值(qmin),以決定是否應執行一時間定標。
  30. 一種電腦程式,其用於當該電腦程式正在一電腦上運行時執行如請求項28或29之方法。
TW103121379A 2013-06-21 2014-06-20 使用品質控制之時間定標器、音訊解碼器、方法和電腦程式 TWI581257B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13173159 2013-06-21
EP14167055 2014-05-05
PCT/EP2014/062833 WO2014202672A2 (en) 2013-06-21 2014-06-18 Time scaler, audio decoder, method and a computer program using a quality control

Publications (2)

Publication Number Publication Date
TW201517025A TW201517025A (zh) 2015-05-01
TWI581257B true TWI581257B (zh) 2017-05-01

Family

ID=51022305

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103121379A TWI581257B (zh) 2013-06-21 2014-06-20 使用品質控制之時間定標器、音訊解碼器、方法和電腦程式

Country Status (18)

Country Link
US (3) US10204640B2 (zh)
EP (3) EP3321935B1 (zh)
JP (1) JP6317436B2 (zh)
KR (1) KR101952192B1 (zh)
CN (2) CN105474313B (zh)
AU (2) AU2014283256B2 (zh)
BR (1) BR112015032174B1 (zh)
CA (1) CA2916126C (zh)
ES (3) ES2667823T3 (zh)
HK (3) HK1223727A1 (zh)
MX (1) MX355850B (zh)
MY (1) MY171256A (zh)
PL (3) PL3321935T3 (zh)
PT (2) PT3321935T (zh)
RU (1) RU2662683C2 (zh)
SG (2) SG11201510501YA (zh)
TW (1) TWI581257B (zh)
WO (1) WO2014202672A2 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL3321935T3 (pl) 2013-06-21 2019-11-29 Fraunhofer Ges Forschung Przelicznik czasu, dekoder sygnału audio, sposób i program komputerowy wykorzystujący kontrolę jakości
KR101953613B1 (ko) * 2013-06-21 2019-03-04 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 지터 버퍼 제어부, 오디오 디코더, 방법 및 컴퓨터 프로그램
US9948578B2 (en) * 2015-04-14 2018-04-17 Qualcomm Incorporated De-jitter buffer update
GB2535819B (en) * 2015-07-31 2017-05-17 Imagination Tech Ltd Monitoring network conditions
KR102422794B1 (ko) * 2015-09-04 2022-07-20 삼성전자주식회사 재생지연 조절 방법 및 장치와 시간축 변형방법 및 장치
US10878835B1 (en) * 2018-11-16 2020-12-29 Amazon Technologies, Inc System for shortening audio playback times
US20200184366A1 (en) * 2018-12-06 2020-06-11 Fujitsu Limited Scheduling task graph operations
CN110113270B (zh) * 2019-04-11 2021-04-23 北京达佳互联信息技术有限公司 网络通信的抖动控制方法、装置、终端及存储介质
CN112764709B (zh) * 2021-01-07 2021-09-21 北京创世云科技股份有限公司 一种声卡数据的处理方法、装置及电子设备
CN113242546B (zh) * 2021-06-25 2023-04-21 南京中感微电子有限公司 音频转发方法、设备和存储介质
CN117041123B (zh) * 2023-10-08 2024-02-09 广东保伦电子股份有限公司 一种双任务并发广播监听方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006106466A1 (en) * 2005-04-07 2006-10-12 Koninklijke Philips Electronics N.V. Method and signal processor for modification of audio signals
US20070260462A1 (en) * 1999-12-28 2007-11-08 Global Ip Solutions (Gips) Ab Method and arrangement in a communication system
US20110246205A1 (en) * 2010-04-02 2011-10-06 Freescale Semiconductor , Inc Method for detecting audio signal transient and time-scale modification based on same
TW201203224A (en) * 2010-03-10 2012-01-16 Fraunhofer Ges Forschung Audio signal decoder, audio signal encoder, methods and computer program using a sampling rate dependent time-warp contour encoding
TW201222530A (en) * 2010-10-07 2012-06-01 Fraunhofer Ges Forschung Apparatus and method for level estimation of coded audio frames in a bit stream domain

Family Cites Families (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3832491A (en) * 1973-02-13 1974-08-27 Communications Satellite Corp Digital voice switch with an adaptive digitally-controlled threshold
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
US5175769A (en) * 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
US5806023A (en) * 1996-02-23 1998-09-08 Motorola, Inc. Method and apparatus for time-scale modification of a signal
US6360271B1 (en) 1999-02-02 2002-03-19 3Com Corporation System for dynamic jitter buffer management based on synchronized clocks
US6549587B1 (en) 1999-09-20 2003-04-15 Broadcom Corporation Voice and data exchange over a packet based network with timing recovery
US6788651B1 (en) 1999-04-21 2004-09-07 Mindspeed Technologies, Inc. Methods and apparatus for data communications on packet networks
US6658027B1 (en) 1999-08-16 2003-12-02 Nortel Networks Limited Jitter buffer management
US6665317B1 (en) 1999-10-29 2003-12-16 Array Telecom Corporation Method, system, and computer program product for managing jitter
US6683889B1 (en) 1999-11-15 2004-01-27 Siemens Information & Communication Networks, Inc. Apparatus and method for adaptive jitter buffers
US6700895B1 (en) 2000-03-15 2004-03-02 3Com Corporation Method and system for computationally efficient calculation of frame loss rates over an array of virtual buffers
SE518941C2 (sv) 2000-05-31 2002-12-10 Ericsson Telefon Ab L M Anordning och förfarande relaterande till kommunikation av tal
US6862298B1 (en) 2000-07-28 2005-03-01 Crystalvoice Communications, Inc. Adaptive jitter buffer for internet telephony
US6738916B1 (en) 2000-11-02 2004-05-18 Efficient Networks, Inc. Network clock emulation in a multiple channel environment
MXPA03009357A (es) 2001-04-13 2004-02-18 Dolby Lab Licensing Corp Escalamiento en el tiempo y escalamiento en el tono de alta calidad de senales de audio.
DE60137656D1 (de) 2001-04-24 2009-03-26 Nokia Corp Verfahren zum ändern der Grösse eines Zitterpuffers und zur Zeitausrichtung, Kommunikationssystem, Empfängerseite und Transcoder
US7006511B2 (en) 2001-07-17 2006-02-28 Avaya Technology Corp. Dynamic jitter buffering for voice-over-IP and other packet-based communication systems
US7697447B2 (en) 2001-08-10 2010-04-13 Motorola Inc. Control of jitter buffer size and depth
US6977948B1 (en) 2001-08-13 2005-12-20 Utstarcom, Inc. Jitter buffer state management system for data transmitted between synchronous and asynchronous data networks
US7170901B1 (en) 2001-10-25 2007-01-30 Lsi Logic Corporation Integer based adaptive algorithm for de-jitter buffer control
US7079486B2 (en) 2002-02-13 2006-07-18 Agere Systems Inc. Adaptive threshold based jitter buffer management for packetized data
US7496086B2 (en) 2002-04-30 2009-02-24 Alcatel-Lucent Usa Inc. Techniques for jitter buffer delay management
US20050273321A1 (en) * 2002-08-08 2005-12-08 Choi Won Y Audio signal time-scale modification method using variable length synthesis and reduced cross-correlation computations
US20040062260A1 (en) 2002-09-30 2004-04-01 Raetz Anthony E. Multi-level jitter control
US7426470B2 (en) * 2002-10-03 2008-09-16 Ntt Docomo, Inc. Energy-based nonuniform time-scale modification of audio signals
US7289451B2 (en) 2002-10-25 2007-10-30 Telefonaktiebolaget Lm Ericsson (Publ) Delay trading between communication links
US7394833B2 (en) 2003-02-11 2008-07-01 Nokia Corporation Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification
US20050047396A1 (en) 2003-08-29 2005-03-03 Helm David P. System and method for selecting the size of dynamic voice jitter buffer for use in a packet switched communications system
US7596488B2 (en) 2003-09-15 2009-09-29 Microsoft Corporation System and method for real-time jitter control and packet-loss concealment in an audio signal
US7337108B2 (en) 2003-09-10 2008-02-26 Microsoft Corporation System and method for providing high-quality stretching and compression of a digital audio signal
US20050094628A1 (en) 2003-10-29 2005-05-05 Boonchai Ngamwongwattana Optimizing packetization for minimal end-to-end delay in VoIP networks
US6982377B2 (en) * 2003-12-18 2006-01-03 Texas Instruments Incorporated Time-scale modification of music signals based on polyphase filterbanks and constrained time-domain processing
US20050137729A1 (en) * 2003-12-18 2005-06-23 Atsuhiro Sakurai Time-scale modification stereo audio signals
US7359324B1 (en) 2004-03-09 2008-04-15 Nortel Networks Limited Adaptive jitter buffer control
EP1754327A2 (en) 2004-03-16 2007-02-21 Snowshore Networks, Inc. Jitter buffer management
US7424026B2 (en) * 2004-04-28 2008-09-09 Nokia Corporation Method and apparatus providing continuous adaptive control of voice packet buffer at receiver terminal
CA2691762C (en) 2004-08-30 2012-04-03 Qualcomm Incorporated Method and apparatus for an adaptive de-jitter buffer
US7783482B2 (en) 2004-09-24 2010-08-24 Alcatel-Lucent Usa Inc. Method and apparatus for enhancing voice intelligibility in voice-over-IP network applications with late arriving packets
WO2007120453A1 (en) * 2006-04-04 2007-10-25 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US20060187970A1 (en) 2005-02-22 2006-08-24 Minkyu Lee Method and apparatus for handling network jitter in a Voice-over IP communications network using a virtual jitter buffer and time scale modification
US7599399B1 (en) 2005-04-27 2009-10-06 Sprint Communications Company L.P. Jitter buffer management
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
US7746847B2 (en) 2005-09-20 2010-06-29 Intel Corporation Jitter buffer management in a packet-based network
US20070083377A1 (en) * 2005-10-12 2007-04-12 Steven Trautmann Time scale modification of audio using bark bands
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
CN101305417B (zh) * 2005-11-07 2011-08-10 艾利森电话股份有限公司 移动电信网络中的方法和装置
US8832540B2 (en) * 2006-02-07 2014-09-09 Nokia Corporation Controlling a time-scaling of an audio signal
WO2007124582A1 (en) * 2006-04-27 2007-11-08 Technologies Humanware Canada Inc. Method for the time scaling of an audio signal
US20070263672A1 (en) * 2006-05-09 2007-11-15 Nokia Corporation Adaptive jitter management control in decoder
ATE432588T1 (de) * 2006-06-16 2009-06-15 Ericsson Ab System, verfahren und knoten um die anzahl von audioströmen in einer telekonferenz zu begrenzen
US8346546B2 (en) * 2006-08-15 2013-01-01 Broadcom Corporation Packet loss concealment based on forced waveform alignment after packet loss
US7573907B2 (en) 2006-08-22 2009-08-11 Nokia Corporation Discontinuous transmission of speech signals
US7647229B2 (en) 2006-10-18 2010-01-12 Nokia Corporation Time scaling of multi-channel audio signals
JP2008139631A (ja) * 2006-12-04 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法、装置、プログラム
CN101548500A (zh) 2006-12-06 2009-09-30 艾利森电话股份有限公司 抖动缓冲器控制
US7899678B2 (en) * 2007-01-11 2011-03-01 Edward Theil Fast time-scale modification of digital signals using a directed search technique
US8078456B2 (en) * 2007-06-06 2011-12-13 Broadcom Corporation Audio time scale modification algorithm for dynamic playback speed control
WO2009010831A1 (en) 2007-07-18 2009-01-22 Nokia Corporation Flexible parameter update in audio/speech coded signals
JP5174182B2 (ja) 2007-11-30 2013-04-03 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 再生遅延推定
JP5250255B2 (ja) 2007-12-27 2013-07-31 京セラ株式会社 無線通信装置
US7852882B2 (en) 2008-01-24 2010-12-14 Broadcom Corporation Jitter buffer adaptation based on audio content
EP2250768A1 (en) 2008-03-13 2010-11-17 Telefonaktiebolaget L M Ericsson (PUBL) Method for manually optimizing jitter, delay and synch levels in audio-video transmission
EP2141696A1 (en) * 2008-07-03 2010-01-06 Deutsche Thomson OHG Method for time scaling of a sequence of input signal values
EP2410521B1 (en) * 2008-07-11 2017-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, method for generating an audio signal and computer program
WO2010003545A1 (en) 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. An apparatus and a method for decoding an encoded audio signal
JP5083097B2 (ja) 2008-07-30 2012-11-28 日本電気株式会社 ジッターバッファ制御方法と通信装置
EP2230784A1 (de) 2009-03-19 2010-09-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Übertragung einer Mehrzahl von Informationssignalen in einem flexiblen Zeitmultiplex
US8848525B2 (en) 2009-06-10 2014-09-30 Genband Us Llc Methods, systems, and computer readable media for providing adaptive jitter buffer management based on packet statistics for media gateway
US8670990B2 (en) * 2009-08-03 2014-03-11 Broadcom Corporation Dynamic time scale modification for reduced bit rate audio coding
EP2302845B1 (en) 2009-09-23 2012-06-20 Google, Inc. Method and device for determining a jitter buffer level
ES2532203T3 (es) * 2010-01-12 2015-03-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio, decodificador de audio, método para codificar y decodificar una información de audio y programa de computación que obtiene un valor de contexto de sub-región basado en una norma de valores espectrales previamente decodificados
US8693355B2 (en) 2010-06-21 2014-04-08 Motorola Solutions, Inc. Jitter buffer management for power savings in a wireless communication device
TWI425502B (zh) 2011-03-15 2014-02-01 Mstar Semiconductor Inc 音訊的時間伸縮方法與相關裝置
CN103155030B (zh) 2011-07-15 2015-07-08 华为技术有限公司 用于处理多声道音频信号的方法及设备
CN103404053A (zh) 2011-08-24 2013-11-20 华为技术有限公司 音频或语音信号处理器
WO2013051975A1 (en) * 2011-10-07 2013-04-11 Telefonaktiebolaget L M Ericsson (Publ) Methods providing packet communications including jitter buffer emulation and related network nodes
WO2013058626A2 (ko) 2011-10-20 2013-04-25 엘지전자 주식회사 지터 버퍼 관리 방법 및 이를 이용하는 지터 버퍼
GB2495927B (en) 2011-10-25 2015-07-15 Skype Jitter buffer
US9787416B2 (en) 2012-09-07 2017-10-10 Apple Inc. Adaptive jitter buffer management for networks with varying conditions
US9420475B2 (en) 2013-02-08 2016-08-16 Intel Deutschland Gmbh Radio communication devices and methods for controlling a radio communication device
PL3321935T3 (pl) 2013-06-21 2019-11-29 Fraunhofer Ges Forschung Przelicznik czasu, dekoder sygnału audio, sposób i program komputerowy wykorzystujący kontrolę jakości
KR101953613B1 (ko) 2013-06-21 2019-03-04 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 지터 버퍼 제어부, 오디오 디코더, 방법 및 컴퓨터 프로그램

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070260462A1 (en) * 1999-12-28 2007-11-08 Global Ip Solutions (Gips) Ab Method and arrangement in a communication system
WO2006106466A1 (en) * 2005-04-07 2006-10-12 Koninklijke Philips Electronics N.V. Method and signal processor for modification of audio signals
TW201203224A (en) * 2010-03-10 2012-01-16 Fraunhofer Ges Forschung Audio signal decoder, audio signal encoder, methods and computer program using a sampling rate dependent time-warp contour encoding
US20110246205A1 (en) * 2010-04-02 2011-10-06 Freescale Semiconductor , Inc Method for detecting audio signal transient and time-scale modification based on same
TW201222530A (en) * 2010-10-07 2012-06-01 Fraunhofer Ges Forschung Apparatus and method for level estimation of coded audio frames in a bit stream domain

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Sungjoo Lee, Hee Dong Kim, Hyung Soon Kim, "Variable time-scale modification of speech using transient information," IEEE International Conference on Acoustics, Speech, and Signal Processing, Vol. 2, pp. 1319 - 1322, Munich, Germany, 21-24 April 1997. *

Also Published As

Publication number Publication date
CN110211603A (zh) 2019-09-06
BR112015032174B1 (pt) 2021-02-23
MY171256A (en) 2019-10-07
US20210233553A1 (en) 2021-07-29
ES2739481T3 (es) 2020-01-31
ES2667823T3 (es) 2018-05-14
WO2014202672A2 (en) 2014-12-24
EP3321935A1 (en) 2018-05-16
EP3321934C0 (en) 2024-04-10
HK1255429B (zh) 2020-07-17
PL3321935T3 (pl) 2019-11-29
RU2016101580A (ru) 2017-07-26
KR20160023830A (ko) 2016-03-03
AU2017204613B2 (en) 2019-02-14
EP3011564A2 (en) 2016-04-27
US10984817B2 (en) 2021-04-20
PL3011564T3 (pl) 2018-07-31
KR101952192B1 (ko) 2019-02-26
AU2014283256B2 (en) 2017-09-21
EP3321935B1 (en) 2019-05-29
JP2016529536A (ja) 2016-09-23
PL3321934T3 (pl) 2024-08-26
PT3011564T (pt) 2018-05-08
CA2916126A1 (en) 2014-12-24
SG11201510501YA (en) 2016-01-28
TW201517025A (zh) 2015-05-01
CN105474313A (zh) 2016-04-06
CN105474313B (zh) 2019-09-06
ES2979208T3 (es) 2024-09-24
WO2014202672A3 (en) 2015-06-18
US20190147901A1 (en) 2019-05-16
US10204640B2 (en) 2019-02-12
AU2017204613A1 (en) 2017-07-27
US20160171990A1 (en) 2016-06-16
CN110211603B (zh) 2023-11-03
MX2015017831A (es) 2016-04-15
HK1255499A1 (zh) 2019-08-16
EP3321934A1 (en) 2018-05-16
US12020721B2 (en) 2024-06-25
MX355850B (es) 2018-05-02
AU2014283256A1 (en) 2016-02-11
EP3011564B1 (en) 2018-01-31
HK1223727A1 (zh) 2017-08-04
JP6317436B2 (ja) 2018-04-25
CA2916126C (en) 2019-07-09
EP3321934B1 (en) 2024-04-10
BR112015032174A2 (pt) 2017-07-25
PT3321935T (pt) 2019-09-12
RU2662683C2 (ru) 2018-07-26
SG10201708531PA (en) 2017-12-28

Similar Documents

Publication Publication Date Title
TWI582759B (zh) 顫動緩衝器控制器、音訊解碼器、方法及電腦程式
TWI581257B (zh) 使用品質控制之時間定標器、音訊解碼器、方法和電腦程式