TWI405186B - 利用音高規則化及非音高規則化編碼用於信號編碼之系統,方法及裝置 - Google Patents

利用音高規則化及非音高規則化編碼用於信號編碼之系統,方法及裝置 Download PDF

Info

Publication number
TWI405186B
TWI405186B TW097122276A TW97122276A TWI405186B TW I405186 B TWI405186 B TW I405186B TW 097122276 A TW097122276 A TW 097122276A TW 97122276 A TW97122276 A TW 97122276A TW I405186 B TWI405186 B TW I405186B
Authority
TW
Taiwan
Prior art keywords
frame
signal
time
residue
segment
Prior art date
Application number
TW097122276A
Other languages
English (en)
Other versions
TW200912897A (en
Inventor
Vivek Rajendran
Ananthapadmanabhan A Kandhadai
Venkatesh Krishnan
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of TW200912897A publication Critical patent/TW200912897A/zh
Application granted granted Critical
Publication of TWI405186B publication Critical patent/TWI405186B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

利用音高規則化及非音高規則化編碼用於信號編碼之系統,方法及裝置
本揭示內容係關於音訊信號之編碼。
本申請案主張2007年6月13日所申請之名為「用於在包括多個編碼模式之廣義音訊編碼系統中模式選擇的方法及裝置(METHOD AND APPARATUS FOR MODE SELECTION IN A GENERALIZED AUDIO CODING SYSTEM INCLUDING MULTIPLE CODING MODES)」的臨時申請案第60/943,558號之優先權,且該案已讓與給其受讓人。
特別在長距離電話、諸如語音IP(亦稱作VoIP,其中IP表示網際網路協定)之封包交換電話及諸如蜂巢式電話之數位無線電電話中,藉由數位技術傳輸音訊資訊(諸如,話音及/或音樂)已變得普遍。此增長已產生對減少用於經由傳輸頻道傳送語音通信之資訊量同時維持重建話音之感知品質的關注。舉例而言,需要有效利用可用系統頻寬(尤其在無線系統中)。有效使用系統頻寬之一種方法為使用信號壓縮技術。對於載運話音信號之系統,出於此目的而通常使用話音壓縮(或"話音編碼")技術。
經組態以藉由擷取關於人類話音產生之模型的參數來壓縮話音之器件經常被稱作音訊編碼器、語音編碼器、編碼解碼器、聲碼器或話音編碼器,且以下描述互換地使用此等術語。音訊編碼器通常包括編碼器及解碼器。編碼器通常接收作為稱作"訊框"之一系列樣本區塊的數位音訊信 號、分析每一訊框以擷取某些相關參數,且量化參數以產生一相應系列經編碼訊框。經編碼訊框經由傳輸頻道(亦即,有線或無線網路連接)傳輸至包括解碼器之接收器。或者,可儲存經編碼之音訊信號以用於在稍後時間進行擷取及解碼。解碼器接收並處理經編碼訊框、將其逆量化以產生該等參數,且使用經逆量化之參數再建話音訊框。
碼激勵線性預測("CELP")為試圖匹配原始音訊信號之波形的編碼方案。可能需要使用稱作寬鬆CELP(relaxed code-excited linear-prediction,RCELP)之CELP的變型來編碼話音信號之訊框(尤其有聲訊框)。在RCELP編碼方案中,波形匹配約束為寬鬆的。RCELP編碼方案為音高規則化("PR")編碼方案,其中可通常藉由改變基頻脈衝之相對位置來調整在信號之基頻週期(亦稱作"延遲輪廓")之中的變化以匹配或接近更平滑、合成的延遲輪廓。音高規則化通常允許以較少位元編碼基頻資訊,其中感知品質稍有降低至無降低。通常,並無規定調整量之資訊傳輸至解碼器。以下文件描述包括RCELP編碼方案之編碼系統:第三代合作夥伴計劃2("3GPP2")文件C.S0030-0,v3.0,標題為"Selectable Mode Vocoder(SMV)Service Option for Wideband Spread Spectrum Communication Systems",2004年1月(在www.3gpp.org線上可用);及3GPP2文件C.S0014-C,v1.0,標題為"Enhanced Variable Rate Codec,Speech Service Options 3,68,and 70 for Wideband Spread Spectrum Digital Systems",2007年1月(在www.3gpp.org線 上可用)。用於有聲訊框之其他編碼方案(包括諸如原型基頻週期("PPP")之原型波形內插("PWI")方案)亦可實施為PR(例如,如在上文引用之3GPP2文件C.S0014-C之第4.2.4.3部分中所描述)。男性說話者之基頻的通用範圍包括50或70至150或200 Hz,且女性說話者之基頻的通用範圍包括120或140至300或400 Hz。
經由公眾交換電話網路("PSTN")之音訊通信的頻寬傳統上已限於300-3400千赫(kHz)之頻率範圍內。用於音訊通信之更新近的網路(諸如,使用蜂巢式電話及/或VoIP之網路)可能不具有相同頻寬限制,且可能需要使用此等網路以具有傳輸及接收音訊通信(包括寬帶頻率範圍)之能力的裝置。舉例而言,可能需要此等裝置支援延伸低達50 Hz及/或高達7 kHz或8 kHz之音頻範圍。亦可能需要此等裝置支援可具有在傳統PSTN限制外之範圍中之音訊話音內容的其他應用,諸如高品質音訊或音訊/視訊會議、多媒體服務(諸如,音樂及/或電視等)之傳遞。
話音編碼器所支援之範圍延伸至更高頻率可改良可懂度。舉例而言,在話音信號中區分諸如's'及'f'之摩擦音的資訊大多為高頻率。高頻帶延伸亦可改良經解碼之話音信號的其他品質,諸如存在。舉例而言,即使是一有聲元音亦可具有遠遠超出PSTN頻率範圍之頻譜能量。
根據通用組態處理音訊信號之訊框的方法包括根據音高規則化("PR")編碼方案編碼音訊信號之第一訊框;及根據 非PR編碼方案編碼音訊信號之第二訊框。在此方法中,第二訊框在音訊信號中跟隨且連續於第一訊框,且編碼第一訊框包括基於時間偏移來時間修改基於第一訊框之第一信號的區段,其中時間修改包括(A)根據該時間偏移來時間偏移第一訊框之區段及(B)基於該時間偏移來時間扭曲第一信號之區段之中的一者。在此方法中,時間修改第一信號之區段包括改變區段之基頻脈衝相對於第一信號之另一基頻脈衝的位置。在此方法中,編碼第二訊框包括基於時間偏移來時間修改基於第二訊框之第二信號的區段,其中時間修改包括(A)根據該時間偏移來時間偏移第二訊框之區段及(B)基於該時間偏移來時間扭曲第二信號之區段之中的一者。亦描述具有用於以此方式處理音訊信號之訊框之指令的電腦可讀媒體,以及用於以類似方式處理音訊信號之訊框的裝置及系統。
根據另一通用組態處理音訊信號之訊框的方法包括根據第一編碼方案編碼音訊信號之第一訊框;及根據PR編碼方案編碼音訊信號之第二訊框。在此方法中,第二訊框在音訊信號中跟隨且連續於第一訊框,且第一編碼方案為非PR編碼方案。在此方法中,編碼第一訊框包括基於第一時間偏移來時間修改基於第一訊框之第一信號的區段,其中時間修改包括(A)根據第一時間偏移來時間偏移第一信號之區段及(B)基於第一時間偏移來時間扭曲第一信號之區段之中的一者。在此方法中,編碼第二訊框包括基於第二時間偏移來時間修改基於第二訊框之第二信號的區段,其中 時間修改包括(A)根據第二時間偏移來時間偏移第二信號之區段及(B)基於第二時間偏移來時間扭曲第二信號之區段之中的一者。在此方法中,時間修改第二信號之區段包括改變區段之基頻脈衝相對於第二信號之另一基頻脈衝的位置,且第二時間偏移係基於來自第一信號之經時間修改區段的資訊。亦描述具有用於以此方式處理音訊信號之訊框之指令的電腦可讀媒體,以及用於以類似方式處理音訊信號之訊框的裝置及系統。
本文中所描述之系統、方法及裝置可用以在多模式音訊編碼系統中在PR與非PR編碼方案之間轉變期間支援增加之感知品質,尤其可用於包括重疊相加(overlap-and-add)非PR編碼方案(諸如,修改型離散餘弦變換("MDCT")編碼方案)之編碼系統。下文描述之組態駐留於經組態以使用分碼多向近接("CDMA")無線介面的無線電話通信系統中。然而,熟習此項技術者將理解具有本文中所描述之特徵的方法及裝置可駐留於使用熟習此項技術者所已知之廣泛範圍之技術的任何各種通信系統中,諸如經由有線及/或無線(例如,CDMA、TDMA、FDMA及/或TD-SCDMA)傳輸頻道使用語音IP("VoIP")之系統。
清楚地預期且藉此揭示本文中所揭示之組態可經調適以用於經封包交換(例如,經配置以根據諸如VoIP之協定載運音訊傳輸的有線及/或無線網路)及/或電路交換之網路中。亦清楚地預期且藉此揭示本文中所揭示之組態可經調 適以用於窄頻帶編碼系統(例如,編碼約為四千赫或五千赫之音頻範圍的系統)中且用於寬頻帶編碼系統(例如,編碼大於五千赫之音頻的系統)中,包括完整頻帶寬頻帶編碼系統及分割頻帶寬頻帶編碼系統。
除非受其上下文清楚地限制,否則術語"信號"在本文中用以指示其普通意義之任一者,包括在導線、匯流排或其他傳輸媒體上表示之一記憶體位置(或記憶體位置之集合)的狀態。除非受其上下文清楚地限制,否則術語"產生"在本文中用以指示其普通意義之任一者,諸如計算或另外產生。除非受其上下文清楚地限制,否則術語"計算"在本文中用以指示其普通意義之任一者,諸如計算、評估、平滑及/或自複數個值中進行選擇。除非受其上下文清楚地限制,否則術語"獲得"用以指示其普通意義之任一者,諸如計算、導出、接收(例如,自外部器件)及/或擷取(例如,自儲存元件之陣列)。在本描述及申請專利範圍中使用術語"包含"時,其並不排除其他元件或操作。術語"A基於B"用以指示其普通意義之任一者,包括狀況(i)"A基於至少B"及(ii)"A等於B"(若在特定情形下適當)。
除非另外指示,否則對具有特定特徵之裝置之操作的任何揭示內容亦清楚地意欲揭示具有類似特徵之方法(且反之亦然),且對根據特定組態之裝置之操作的任何揭示內容亦清楚地意欲揭示根據類似組態之方法(且反之亦然)。舉例而言,除非另外指示,否則對具有特定特徵之音訊編碼器的任何揭示內容亦清楚地意欲揭示具有類似特徵之音 訊編碼的方法(且反之亦然),且對根據特定組態之音訊編碼器的任何揭示內容亦清楚地意欲揭示根據類似組態之音訊編碼的方法(且反之亦然)。
藉由引用文件之一部分的任何併入亦應理解為併入在該部分內引用之術語或變數的定義,其中此等定義在文件中之別處出現。
互換地使用術語"編碼器"、"編碼解碼器"及"編碼系統"以表示一系統,該系統包括經組態以接收音訊信號之訊框(可能在諸如感知加權及/或其他濾波操作之一或多個預處理操作後)的至少一編碼器及一經組態以產生訊框之解碼表示的相應解碼器。
如圖1中所說明,無線電話系統(例如,CDMA、TDMA、FDMA及/或TD-SCDMA系統)通常包括經組態以與無線電存取網路無線地通信之複數個行動用戶單元10,該無線電存取網路包括複數個基地台(BS)12及一或多個基地台控制器(BSC)14。此系統亦通常包括耦接至BSC 14之行動交換中心(MSC)16,其經組態以使無線電存取網路與習知公眾交換電話網路(PSTN)18介面連接。為了支援此介面連接,MSC可包括或在其他方面與媒體閘道器通信,該媒體閘道器充當網路之間的轉譯單元。媒體閘道器經組態以在不同格式(諸如不同傳輸及/或編碼技術)之間轉換(例如,在分時多工("TDM")語音與VoIP之間轉換),且亦可經組態以執行媒體串流功能,諸如回波(echo)消除、雙時多頻("DTMF")及載頻調(tone)發送。BSC 14經由回程 (backhaul)線耦接至基地台12。回程線可經組態以支援任何若干已知介面,包括E1/T1、ATM、IP、PPP、訊框中繼、HDSL、ADSL或xDSL。基地台12、BSC 14、MSC 16及媒體閘道器(若存在)之集合亦稱作"基礎結構"。
每一基地台12有利地包括至少一扇區(未圖示),每一扇區包含全向天線或在徑向地遠離基地台12之特定方向上指向的天線。或者,每一扇區可包含用於分集接收之兩個或兩個以上天線。每一基地台12可經有利地設計以支援複數個頻率指派。可將一扇區與一頻率指派之相交部分稱作一CDMA頻道。基地台12亦可稱作基地台收發器子系統(BTS)12。或者,"基地台"可用於產業中以共同地指代BSC 14及一或多個BTS 12。BTS 12亦可被表示為"蜂巢小區基站"(cell site)12。或者,給定BTS 12之個別扇區可稱作蜂巢小區基站。行動用戶單元10通常包括蜂巢式及/或個人通信服務("PCS")電話、個人數位助理("PDA")及/或具有行動電話能力之其他器件。此單元10可包括內部揚聲器及麥克風、包括揚聲器及麥克風之繫栓手機(tethered handset)或耳機(例如,USB手機)或包括揚聲器及麥克風之無線耳機(例如,使用由Bluetooth Special Interest Group(Bellevue,WA)公布之藍芽協定之版本將音訊資訊傳達至該單元的耳機)。此系統可經組態以根據IS-95標準之一或多個版本(如由Telecommunications Industry Alliance(Arlington,VA))公開之IS-95、IS-95A、1S-95B、cdma2000)來使用。
現描述蜂巢式電話系統之典型操作。基地台12自行動用戶單元10之集合接收反向鏈路信號之集合。行動用戶單元10正進行電話呼叫或其他通信。將由給定基地台12接收之每一反向鏈路信號於該基地台12內加以處理,且將所得資料轉遞至BSC 14。BSC 14提供通話資源分配及行動性管理功能性,包括對基地台12之間的軟交遞之安排。BSC 14亦將所接收之資料路由至MSC 16,其為與PSTN 18之介面連接提供額外路由服務。類似地,PSTN 18與MSC 16介面連接,且MSC 16與BSC 14介面連接,BSC 14又控制基地台12以將前向鏈路信號之集合傳輸至行動用戶單元10之集合。
圖1中所示之蜂巢式電話系統的元件亦可經組態以支援封包交換資料通信。如圖2中所示,通常使用耦接至一連接至封包資料網路之閘道器路由器的封包資料服務節點(PDSN)22在行動用戶單元10與外部封包資料網路24(例如,諸如網際網路之公用網路)之間路由封包資料訊務。PDSN 22又將資料路由至一或多個封包控制功能(PCF)16,其各自伺服於一或多個BSC 14且充當封包資料網路與無線電存取網路之間的鏈路。封包資料網路24亦可經實施以包括區域網路("LAN")、校園網路("CAN")、都會網路("MAN")、廣域網路("WAN")、環狀網路、星形網路、訊標環網路等。連接至網路24之使用者終端機可為PDA、膝上型電腦、個人電腦、遊戲器件(此器件之實例包括XBOX及XBOX 360(Microsoft Corp.,Redmond,WA)、第3代遊戲 機及攜帶型遊戲機(Sony Corp.,Tokyo,JP)及Wii與DS(Nintendo,Kyoto,JP)),及/或具有音訊處理能力且可經組態以使用諸如VoIP之一或多個協定支援電話呼叫或其他通信的任何器件。此終端機可包括內部揚聲器及麥克風、包括揚聲器及麥克風之繫栓手機(例如,USB手機)或包括揚聲器及麥克風之無線耳機(例如,使用如由Bluetooth Special Interest Group(Bellevue,WA))公布之藍芽協定之版本將音訊資訊傳達至該終端機的耳機)。此系統可經組態以載運電話呼叫或其他通信作為不同無線電存取網路上之行動用戶單元之間(例如,經由諸如VoIP之一或多個協定)、行動用戶單元與非行動使用者終端機之間,或兩個非行動使用者終端機之間的封包資料訊務,而始終不進入PSTN。行動用戶單元10或其他使用者終端機亦可稱作"存取終端機"。
圖3a說明音訊編碼器AE10,其經配置以接收數位化音訊信號S100(例如,作為一系列訊框)及產生相應編碼信號S200(例如,作為一系列相應編碼訊框)以用於在通信頻道C100(例如,有線、光學及/或無線通信鏈路)上傳輸至音訊解碼器AD10。音訊解碼器AD10經配置以解碼經編碼之音訊信號S200的所接收版本S300及合成相應輸出話音信號S400。
音訊信號S100表示已根據在此項技術中已知之各種方法中的任一者(諸如脈衝編碼調變("PCM")、壓擴mu-law或A-law)經數位化及量化的類比信號(例如,如由麥克風所擷 取)。該信號亦可已在類比及/或數位域中經受其他預處理操作,諸如雜訊抑制、感知加權及/或其他濾波操作。另外或其他,可在音訊編碼器AE10內執行此等操作。音訊信號S100之執行個體亦可表示已經數位化及量化之類比信號(例如,如由麥克風之陣列所擷取)的組合。
圖3b說明音訊編碼器AE10之第一執行個體AE10a,其經配置以接收經數位化音訊信號S100之第一執行個體S110及產生經編碼信號S200之相應執行個體S210以用於在通信頻道C100之第一執行個體C110上傳輸至音訊解碼器AD10之第一執行個體AD10a。音訊解碼器AD10a經配置以解碼經編碼之音訊信號S210的所接收版本S310及合成輸出話音信號S400之相應執行個體S410。
圖3b亦說明音訊編碼器AE10之第二執行個體AE10b,其經配置以接收經數位化音訊信號S100之第二執行個體S120及產生經編碼信號S200之相應執行個體S220以用於在通信頻道C100之第二執行個體C120上傳輸至音訊解碼器AD10之第二執行個體AD10b。音訊解碼器AD10b經配置以解碼經編碼之音訊信號S220的所接收版本S320及合成輸出話音信號S400之相應執行個體S420。
音訊編碼器AE10a及音訊解碼器AD10b(類似地,音訊編碼器AE10b及音訊解碼器AD10a)可共同用於傳輸及接收話音信號之任何通信器件中,其包括(例如)上文參看圖1及圖2所描述之用戶單元、使用者終端機、媒體閘道器、BTS或BSC。如本文中所描述,音訊編碼器AE10可以許多不同 方式來實施,且音訊編碼器AE10a及AE10b可為音訊編碼器AE10之不同實施的執行個體。同樣地,音訊解碼器AD10可以許多不同方式來實施,且音訊解碼器AD10a及AD10b可為音訊解碼器AD10之不同實施的執行個體。
音訊編碼器(例如,音訊編碼器AE10)將音訊信號之數位樣本處理為輸入資料之一系列訊框,其中每一訊框包含預定數目之樣本。儘管處理訊框或訊框之區段(亦稱作子訊框)的操作亦可包括其輸入中之一或多個鄰近訊框的區段,但此系列通常被實施為不相重疊的系列。音訊信號之訊框通常足夠短以使得信號之頻譜包絡可被預期在訊框上保持相對固定。訊框通常對應於音訊信號之五毫秒與三十五毫秒之間(或約四十至二百個樣本),其中二十毫秒為電話應用之通用訊框大小。通用訊框大小之其他實例包括十毫秒及三十毫秒。通常音訊信號之所有訊框具有同一長度,且在本文中所描述之特定實例中假定統一的訊框長度。然而,亦清楚地預期且藉此揭示可使用不統一的訊框長度。
二十毫秒之訊框長度對應於七千赫(kHz)之取樣速率下的140個樣本、八千赫之取樣速率(窄頻帶編碼系統之一典型取樣速率)下的160個樣本,及16 kHz之取樣速率(寬頻帶編碼系統之一典型取樣速率)下的320個樣本,然而可使用視為適合於特定應用之任何取樣速率。可用於話音編碼之取樣速率的另一實例為12.8 kHz,且其他實例包括在12.8 kHz至38.4 kHz之範圍中的其他速率。
在典型音訊通信會話(諸如,電話呼叫)中,每一說話者保持沉默達約百分之六十的時間。用於此應用之音訊編碼器將通常經組態以區別含有話音或其他資訊之音訊信號的訊框("作用訊框")與僅含有背景雜訊或無聲之音訊信號的訊框("不作用訊框")。可能需要實施音訊編碼器AE10使用不同編碼模式及/或位元速率來編碼作用訊框及不作用訊框。舉例而言,音訊編碼器AE10可經實施以使用比編碼作用訊框少之位元(亦即,較低位元速率)來編碼不作用訊框。亦可能需要音訊編碼器AE10使用不同位元速率來編碼不同類型之作用訊框。在此等狀況下,較低位元速率可選擇性地用於含有相對較少話音資訊之訊框。通常用以編碼作用訊框之位元速率的實例包括每訊框171個位元、每訊框八十個位元及每訊框四十個位元;且通常用以編碼不作用訊框之位元速率的實例包括每訊框十六個位元。在蜂巢式電話系統(尤其與由Telecommunications Industry Association(Arlington,VA))公布之Interim標準(IS)-95或類似產業標準相符合的系統)之情形下,此等四個位元速率亦分別稱作"全速率"、"半速率"、"四分之一速率"及"八分之一速率"。
可能需要音訊編碼器AE10將音訊信號之每一作用訊框分類為若干不同類型中之一者。此等不同類型可包括有聲話音(例如,表示元音聲之話音)的訊框、過渡訊框(例如,表示話之開始或結束的訊框)、無聲話音(例如,表示摩擦音之話音)的訊框,及非話音資訊(例如,音樂,諸如唱歌 及/或音樂器其,或其他音訊內容)之訊框。可能需要實施音訊編碼器AE10以使用不同編碼模式來編碼不同類型之訊框。舉例而言,有聲話音之訊框傾向於具有週期結構,該週期結構為長期的(亦即,延續達一個以上訊框週期)且係關於基頻,且使用編碼此長期頻譜特徵之描述的編碼模式來編碼有聲訊框(或一連串有聲訊框)通常更有效。此等編碼模式之實例包括碼激勵線性預測("CELP")、原型波形內插("PWI")及原型基頻週期("PPP")。另一方面,無聲訊框及不作用訊框通常缺乏任何顯著的長期頻譜特徵,且音訊編碼器可經組態以使用並非試圖描述此特徵之編碼模式來編碼此等訊框。雜訊激勵線性預測("NELP")為此編碼模式之一實例。音樂之訊框通常含有不同音調之混合物,且音訊編碼器可經組態以使用基於正弦分解之方法(諸如,傅立葉或餘弦變換)來編碼此等訊框(或對此等訊框之線性預測編碼(LPC)分析操作的殘餘物(residual))。一個此實例為基於修改型離散餘弦變換("MDCT")的編碼模式。
可實施音訊編碼器AE10或音訊編碼之相應方法以在位元速率與編碼模式(亦稱作"編碼方案")之不同組合之中進行選擇。舉例而言,可實施音訊編碼器AE10以針對含有有聲話音之訊框及針對過渡訊框使用全速率CELP方案、針對含有無聲話音之訊框使用半速率NELP方案、針對不作用訊框使用八分之一速率NELP方案及針對通用音訊訊框(例如,包括含有音樂之訊框)使用全速率MDCT方案。或者,音訊編碼器AE10之此實施可經組態以針對含有有 聲話音之至少一些訊框,尤其針對高聲訊框使用全速率PPP方案。
亦可實施音訊編碼器AE10以支援一或多個編碼方案中之每一者的多個位元速率,諸如全速率及半速率CELP方案及/或全速率及四分之一速率PPP方案。包括穩定有聲話音之週期之一系列中的訊框傾向於大量冗餘的,例如,以使得可在小於全速率下編碼其中之至少一些而不顯著損失感知品質。
多模式音訊編碼器(包括支援多個位元速率及/或編碼模式之音訊編碼器)通常在低位元速率下提供有效音訊編碼。熟習此項技術者將認識到增加編碼方案之數目將在選擇編碼方案時允許較大靈活性,此可引起較低的平均位元速率。然而,編碼方案之數目的增加將相應地增加整個系統內之複雜性。用於任何給定系統中之可用方案的特定組合將由可用系統資源及特定信號環境支配。多模式編碼技術之實例描述於(例如)標題為"VARIABLE RATE SPEECH CODING"之美國專利第6,691,084號及標題為"ARBITRARY AVERAGE DATA RATES FOR VARIABLE RATE CODERS"之美國公開案第2007/0171931號中。
圖4a說明音訊編碼器AE10之多模式實施AE20的方塊圖。編碼器AE20包括編碼方案選擇器20及複數(p)個訊框編碼器30a-30p。p個訊框編碼器中之每一者經組態以根據各別編碼模式來編碼訊框,且由編碼方案選擇器20產生之編碼方案選擇信號用以控制音訊編碼器AE20之一對選擇 器50a及50b以為當前訊框選擇所要的編碼模式。編碼方案選擇器20亦可經組態以控制選定訊框編碼器來在選定位元速率下編碼當前訊框。應注意,音訊編碼器AE20之軟體或韌體實施可使用編碼方案指示以將執行流定向至訊框解碼器中之一者或另一者,且此實施可未包括用於選擇器50a及/或用於選擇器50b之類比。訊框編碼器30a-30p中之兩者或兩者以上(可能所有)可共用共同結構,諸如LPC係數值之計算器(可能經組態以針對不同編碼方案產生具有不同階數之結果,諸如話音及非話音訊框較之不作用訊框具有較高階)及/或LPC殘餘產生器。
編碼方案選擇器20通常包括開放迴路決策模組,其檢驗輸入音訊訊框且作出關於將哪一編碼模式或方案應用於訊框的決策。此模組通常經組態以將訊框分類為作用或不作用的且亦可經組態以將作用訊框分類為兩個或兩個以上不同類型中之一者,諸如有聲、無聲、過渡或通用音訊。訊框分類可基於當前訊框之一或多個特徵,及/或一或多個先前訊框之一或多個特徵,諸如整個訊框能量、兩個或兩個以上不同頻帶之每一者中的訊框能量、信雜比("SNR")、週期性及越零率。可實施編碼方案選擇器20以計算此等特徵之值、自音訊編碼器AE20之一或多個其他模組接收此等特徵之值,及/或自包括音訊編碼器AE20之器件(例如,蜂巢式電話)的一或多個其他模組接收此等特徵之值。訊框分類可包括比較此特徵之值或量值與臨限值及/或比較在此值中改變之量值與臨限值。
開放迴路決策模組可經組態以選擇位元速率,在該位元速率下將根據一特定訊框含有之話音的類型來編碼該訊框。此操作稱作"可變速率編碼"。舉例而言,可能需要組態音訊編碼器AD20以在較高位元速率(例如,全速率)下編碼過渡訊框、在較低位元速率(例如,四分之一速率)下編碼無聲訊框,及在中間位元速率(例如,半速率)下或在較高位元速率(例如,全速率)下編碼有聲訊框。選定用於特定訊框之位元速率亦可取決於諸如所要平均位元速率、在一系列訊框上位元速率之所要型式(其可用以支援所要平均位元速率),及/或選定用於先前訊框之位元速率的標準。
亦可實施編碼方案選擇器20以執行封閉迴路編碼決策,其中在使用開放迴路選定編碼方案全部或部分編碼後獲得編碼效能之一或多個量測。可在封閉迴路測試中考慮之效能量測包括(例如)SNR、在諸如PPP話音編碼器之編碼方案中的SNR預測、預測誤差量化SNR、相位量化SNR、振幅量化SNR、感知SNR,及作為平穩性量測之當前訊框與過去訊框之間的標準化交叉相關。可實施編碼方案選擇器20以計算此等特徵之值、自音訊編碼器AE20之一或多個其他模組接收此等特徵之值,及/或自包括音訊編碼器AE20之器件(例如,蜂巢式電話)的一或多個其他模組接收此等特徵之值。若效能量測降到低於臨限值,則可將位元速率及/或編碼模式改變為被預期給予較好品質的位元速率及/或編碼模式。可用以維持可變速率多模式音訊編碼器之品 質之封閉迴路分類方案的實例描述於標題為"METHOD AND APPARATUS FOR MAINTAINING A TARGET BIT RATE IN A SPEECH CODER"之美國專利第6,330,532號及標題為"METHOD AND APPARATUS FOR PERFORMING SPEECH FRAME ENCODING MODE SELECTION IN A VARIABLE RATRE ENCODING SYSTEM"之美國專利第5,911,128號中。
圖4b說明音訊解碼器AD10之實施AD20的方塊圖,該實施AD20經組態以處理所接收之編碼音訊信號S300來產生相應經解碼之音訊信號S400。音訊解碼器AD20包括編碼方案偵測器60及複數(p)個訊框解碼器70a-70p。解碼器70a-70p可經組態以對應於上文所描述之音訊編碼器AE20的編碼器,以使得訊框解碼器70a經組態以解碼已由訊框編碼器30a編碼之訊框,等等。訊框解碼器70a-70p中之兩者或兩者以上(可能所有)可共用共同結構,諸如可根據一組經解碼之LPC係數值組態之合成濾波器。在此狀況下,訊框解碼器可主要在其用以產生激勵合成濾波器產生經解碼之音訊信號的激勵信號之技術上不同。音訊解碼器AD20通常亦包括後置濾波器,其經組態以處理經解碼之音訊信號S400以減少量化雜訊(例如,藉由強調共振峰頻率及/或衰減頻譜谷值)且亦可包括自適應增益控制。包括音訊解碼器AD20之器件(例如,蜂巢式電話)可包括數位/類比轉換器("DAC"),其經組態及配置以自經解碼之音訊信號S400產生類比信號來輸出至聽筒、揚聲器或其他音訊 傳感器,及/或定位於器件之外殼內的音訊輸出塞孔。此器件亦可經組態以在將類比信號應用於塞孔及/或傳感器之前對類比信號執行一或多個類比處理操作(例如,濾波、均衡及/或放大)。
編碼方案偵測器60經組態以指示對應於所接收經編碼音訊信號S300之當前訊框的編碼方案。適當編碼位元速率及/或編碼模式可由訊框之格式指示。編碼方案偵測器60可經組態以執行速率偵測或自裝置之另一部分(諸如,多工子層)接收速率指示,在該裝置內嵌入音訊解碼器AD20。舉例而言,編碼方案偵測器60可經組態以自多工子層接收指示位元速率之封包類型指示器。或者,編碼方案偵測器60可經組態以自一或多個參數(諸如,訊框能量)確定經編碼訊框之位元速率。在一些應用中,編碼系統可經組態以僅使用特定位元速率之一編碼模式,以使得經編碼之訊框的位元速率亦指示編碼模式。在其他狀況下,經編碼之訊框可包括識別編碼模式(根據其來編碼訊框)的資訊(諸如,一或多個位元之一集合)。此資訊(亦稱作"編碼索引")可明確地或隱含地指示編碼模式(例如,藉由指示對於其他可能編碼模式無效的值)。
圖4b說明由編碼方案偵測器60產生之編碼方案指示用以控制音訊解碼器AD20之一對選擇器90a及90b以選擇訊框解碼器70a-70p之中的一者之實例。應注意,音訊解碼器AD20之軟體或韌體實施可使用編碼方案指示以將執行流定向至訊框解碼器中之一者或另一者,且此實施可未包括 用於選擇器90a及/或用於選擇器90b之類比。
圖5a說明多模式音訊編碼器AE20之實施AE22的方塊圖,該實施AE22包括訊框編碼器30a、30b之實施32a、32b。在此實例中,編碼方案選擇器20之實施22經組態以區別音訊信號S100之作用訊框與不作用訊框。此操作亦稱作"語音活動偵測",且可實施編碼方案選擇器22以包括語音活動偵測器。舉例而言,編碼方案選擇器22可經組態以輸出二進位值編碼方案選擇信號,其對於作用訊框為高的(指示作用訊框編碼器32a之選擇)且對於不作用訊框為低的(指示不作用訊框編碼器32b之選擇),且反之亦然。在此實例中,由編碼方案選擇器22產生之編碼方案選擇信號用以控制選擇器50a、50b之實施52a、52b,以使得音訊信號S100之每一訊框由作用訊框編碼器32a(例如,CELP編碼器)及不作用訊框編碼器32b(例如,NELP編碼器)之中的選定一者來編碼。
編碼方案選擇器22可經組態以基於訊框之能量及/或頻譜內容的一或多個特徵來執行語音活動偵測,諸如訊框能量、信雜比("SNR")、週期性、頻譜分布(例如,頻譜傾斜)及/或越零率。可實施編碼方案選擇器22以計算此等特徵之值、自音訊編碼器AE22之一或多個其他模組接收此等特徵之值,及/或自包括音訊編碼器AE22之器件(例如,蜂巢式電話)的一或多個其他模組接收此等特徵之值。此偵測可包括比較此特徵之值或量值與臨限值及/或比較在此特徵中改變之量值(例如,相對於先前訊框)與臨限值。舉 例而言,編碼方案選擇器22可經組態以評估當前訊框之能量且在能量值小於(或者,不大於)臨限值時將訊框分類為不作用的。此選擇器可經組態以將訊框能量計算為訊框樣本之平方的和。
編碼方案選擇器22之另一實施經組態以評估低頻帶(例如,300 Hz至2 kHz)及高頻帶(例如,2 kHz至4 kHz)之每一者中的當前訊框之能量且在每一頻帶之能量值小於(或者,不大於)各別臨限值時指示訊框為不作用的。此選擇器可經組態以藉由將通帶濾波器應用於訊框及計算經濾波訊框之樣本之平方的和而計算頻帶中之訊框能量。此語音活動偵測操作之一實例描述於第三代合作夥伴計劃2("3GPP2")標準文件C.S0014-C,v1.0(2007年1月)之第4.7節中(在www.3gpp2.org線上可用)。
另外或其他,語音活動偵測操作可基於來自一或多個先前訊框及/或一或多個隨後訊框之資訊。舉例而言,可能需要組態編碼方案選擇器22以基於在兩個或兩個以上訊框上求平均數之訊框特徵的值而將訊框分類為作用或不作用的。可能需要組態編碼方案選擇器22以使用基於來自先前訊框之資訊(例如,背景雜訊位準、SNR)的臨限值分類訊框。亦可能需要組態編碼方案選擇器22以將遵循音訊信號S100中自作用訊框至不作用訊框過渡的第一訊框中之一或多者分類為作用的。在過渡後以此方式繼續先前分類狀態之行動亦稱作"滯留"。
圖5b說明多模式音訊編碼器AE20之實施AE24的方塊 圖,該實施AE24包括訊框編碼器30c、30d之實施32c、32d。在此實例中,編碼方案選擇器20之實施24經組態以區別音訊信號S100之話音訊框與非話音訊框(例如,音樂)。舉例而言,編碼方案選擇器24可經組態以輸出二進位值編碼方案選擇信號,其對於話音訊框為高的(指示話音訊框編碼器32c之選擇,諸如CELP編碼器)且對於非話音訊框為低的(指示非話音訊框編碼器32d之選擇,諸如MDCT編碼器),或反之亦然。此分類可基於訊框之能量及/或頻譜內容的一或多個特徵,諸如訊框能量、基頻、週期性、頻譜分布(例如,倒頻譜係數、LPC係數、線譜頻率("LSF"))及/或越零率。可實施編碼方案選擇器24以計算此等特徵之值、自音訊編碼器AE24之一或多個其他模組接收此等特徵之值,及/或自包括音訊編碼器AE24之器件(例如,蜂巢式電話)的一或多個其他模組接收此等特徵之值。此分類可包括比較此特徵之值或量值與臨限值及/或比較在此特徵中改變之量值(例如,相對於先前訊框)與臨限值。此分類可基於來自一或多個先前訊框及/或一或多個隨後訊框之資訊,其可用以更新多狀態模型(諸如,隱馬爾可夫模型)。
在此實例中,由編碼方案選擇器24產生之編碼方案選擇信號用以控制選擇器52a、52b,以使得音訊信號S100之每一訊框由話音訊框編碼器32c及非話音訊框編碼器32d之中的選定一者來編碼。圖6a說明音訊編碼器AE24之實施AE25的方塊圖,該實施AE25包括話音訊框編碼器32c之 RCELP實施34c及非話音訊框編碼器32d之MDCT實施34d。
圖6b說明多模式音訊編碼器AE20之實施AE26的方塊圖,該實施AE26包括訊框編碼器30b、30d、30e、30f之實施32b、32d、32e、32f。在此實例中,編碼方案選擇器20之實施26經組態以將音訊信號S100之訊框分類為有聲話音、無聲話音、不作用話音及非話音。此分類可基於上文所提及之訊框之能量及/或頻譜內容的一或多個特徵,可包括比較此特徵之值或量值與臨限值及/或比較在此特徵中改變之量值(例如,相對於先前訊框)與臨限值,且可基於來自一或多個先前訊框及/或一或多個隨後訊框之資訊。可實施編碼方案選擇器26以計算此等特徵之值、自音訊編碼器AE26之一或多個其他模組接收此等特徵之值,及/或自包括音訊編碼器AE26之器件(例如,蜂巢式電話)的一或多個其他模組接收此等特徵之值。在此實例中,由編碼方案選擇器26產生之編碼方案選擇信號用以控制選擇器50a、50b之實施54a、54b,以使得音訊信號S100之每一訊框由有聲訊框編碼器32e(例如,CELP或寬鬆CELP("RCELP")編碼器)、無聲訊框編碼器32f(例如,NELP編碼器)、非話音訊框編碼器32d及不作用訊框編碼器32b(例如,低速率NELP編碼器)之中的選定一者來編碼。
由音訊編碼器AE10產生之經編碼訊框通常含有參數值之一集合,可自該等參數值之該集合重建音訊信號之相應訊框。參數值之此集合通常包括頻譜資訊,諸如訊框內能 量在頻譜上之分布的描述。此能量分布亦稱作訊框之"頻率包絡"或"頻譜包絡"。訊框之頻譜包絡的描述可具有視用以編碼相應訊框之特定編碼方案而定的不同形式及/或長度。可實施音訊編碼器AE10以包括封包化器(未圖示),其經組態以將該組參數值配置於封包中,以使得封包之大小、格式及內容對應於選定用於彼訊框之特定編碼方案。可實施音訊解碼器AD10之相應實施以包括解封包化器(未圖示),其經組態以使該組參數值與封包中之其他資訊(諸如,標頭及/或其他路由資訊)分離。
音訊編碼器(諸如,音訊編碼器AE10)通常經組態以將訊框之頻譜包絡的描述計算為值之有序序列。在一些實施中,音訊編碼器AE10經組態以計算有序序列以使得每一值指示在相應頻率下或在相應頻譜區域上信號之振幅或量值。此描述之一實例為傅立葉或離散餘弦變換係數之有序序列。
在其他實施中,音訊編碼器AE10經組態以將頻譜包絡之描述計算為編碼模型之參數值的有序序列,諸如線性預測編碼("LPC")分析之係數值的一集合。LPC係數值指示音訊信號之共振,亦稱作"共振峰"。通常將LPC係數值之有序序列配置為一或多個向量,且可實施音訊編碼器以將此等值計算為濾波係數或反射係數。在該集合中係數值之數目亦稱作LPC分析之"階數",且由通信器件(諸如,蜂巢式電話)之音訊編碼器執行的LPC分析之典型階數的實例包括4、6、8、10、12、16、20、24、28及32。
包括音訊編碼器AE10之實施的器件通常經組態以用量化形式(例如,作為相應查找表或"碼簿"之中的一或多個索引)跨越傳輸頻道來傳輸頻譜包絡之描述。因此,可能需要音訊編碼器AE10以可經有效量化之形式計算LPC係數值之集合,諸如線譜對("LSP")、LSF、導抗頻譜對("ISP")、導抗頻譜頻率("ISF")、倒頻譜係數或對數面積比之值的集合。音訊編碼器AE10亦可經組態以在轉換及/或量化之前對值之有序序列執行一或多個其他處理操作,諸如,感知加權或其他濾波操作。
在一些狀況下,訊框之頻譜包絡的描述亦包括訊框之時間資訊的描述(例如,如在傅立葉或離散餘弦變換係數之有序序列中)。在其他狀況下,封包之參數集合亦可包括訊框之時間資訊的描述。時間資訊之描述的形式可視用以編碼訊框之特定編碼模式而定。對於一些編碼模式(例如,對於CELP或PPP編碼模式,及對於一些MDCT編碼模式),時間資訊之描述可包括由音訊解碼器用以激勵LPC模型(例如,根據頻譜包絡之描述組態的合成濾波器)之激勵信號的描述。激勵信號之描述通常基於對訊框LPC分析操作的殘餘物。激勵信號之描述通常以量化形式(例如,作為相應碼簿之中的一或多個索引)顯現於封包中且可包括關於激勵信號之至少一基頻分量的資訊。對於PPP編碼模式,例如,經編碼之時間資訊可包括由音訊解碼器用以再生激勵信號之基頻分量之原型的描述。對於RCELP或PPP編碼模式,經編碼之時間資訊可包括一或多個基頻週期估 計。關於基頻分量之資訊的描述通常以量化形式(例如,作為相應碼簿之中的一或多個索引)顯現於封包中。
音訊編碼器AE10之實施的各種元件可以視為適合於預期應用之硬體、軟體及/或韌體的任何組合來實施。舉例而言,可將此等元件製造為駐留於(例如)同一晶片或晶片組中之兩個或兩個以上晶片中的電子及/或光學器件。此器件之一實例為固定或可程式化邏輯元件(諸如,電晶體或邏輯閘)之陣列,且此等元件之任一者可實施為一或多個此等陣列。此等元件之任兩者或兩者以上乃至全部可實施於同一陣列或若干相同陣列內。此或此等陣列可實施於一或多個晶片內(例如,包括兩個或兩個以上晶片之晶片組內)。此情形同樣適用於相應音訊解碼器AD10之實施的各種元件。
本文所描述之音訊編碼器AE10之各種實施的一或多個元件亦可整個或部分地實施為一或多個指令集,該或該等指令集經配置以執行於一或多個固定或可程式化邏輯元件陣列上,諸如微處理器、嵌式處理器、IP核心、數位信號處理器、場可程式化閘陣列("FPGA")、特殊應用標準產品("ASSP")及特殊應用積體電路("ASIC")。音訊編碼器AE10之實施之各種元件的任一者亦可實施為一或多個電腦(例如,包括經程式化以執行一或多個指令集或指令序列之一或多個陣列的機器,亦稱作"處理器"),且此等元件之任兩者或兩者以上乃至全部可實施於同一此電腦或若干相同電腦內。此情形同樣適用於相應音訊解碼器AD10之各種實 施的元件。
音訊編碼器AE10之實施的各種元件可包括於用於有線及/或無線通信之器件內,諸如蜂巢式電話或具有此通信能力之其他器件。此器件可經組態以(例如,使用諸如VoIP之一或多個協定)與電路交換及/或封包交換網路通信。此器件可經組態以對載運經編碼之訊框的信號執行操作,諸如交錯、擊穿、卷積編碼、誤差校正編碼、網路協定(例如,乙太網路、TCP/IP、cdma2000)之一或多個層的編碼、一或多個射頻("RF")及/或光學載波之調變,及/或在頻道上一或多個調變載波之傳輸。
音訊解碼器AD10之實施的各種元件可包括於用於有線及/或無線通信之器件內,諸如蜂巢式電話或具有此通信能力之其他器件。此器件可經組態以(例如,使用諸如VoIP之一或多個協定)與電路交換及/或封包交換網路通信。此器件可經組態以對載運經編碼之訊框的信號執行操作,諸如解交錯、解擊穿、卷積解碼、誤差校正解碼、網路協定(例如,乙太網路、TCP/IP、cdma2000)之一或多個層的解碼、一或多個射頻("RF")及/或光學載波之解調變,及/或在頻道上一或多個調變載波之接收。
音訊編碼器AE10之實施之一或多個元件可能用於執行並非與該裝置之操作直接相關的任務或執行並非與該裝置之操作直接相關的其他指令集,諸如與嵌入有該裝置之器件或系統之另一操作相關的任務。音訊編碼器AE10之實施之一或多個元件亦可能具有共同結構(例如,用於在不 同時間執行程式碼之對應於不同元件之部分的處理器、經執行以在不同時間執行對應於不同元件之任務的指令集,或在不同時間對不同元件執行操作的電子及/或光學器件的配置)。此情形同樣適用於相應音訊解碼器AD10之各種實施的元件。在一此實例中,將編碼方案選擇器20及訊框編碼器30a-30p實施為經配置以執行於同一處理器上之指令集。在另一此實例中,將編碼方案偵測器60及訊框解碼器70a-70p實施為經配置以執行於同一處理器上之指令集。可實施訊框編碼器30a-30p之中的兩者或兩者以上以共用在不同時間執行之一或多個指令集;相同情形適用於訊框解碼器70a-70p。
圖7a說明編碼音訊信號之訊框之方法M10的流程圖。方法M10包括任務TE10,其計算上文所描述之訊框特徵(諸如,能量及/或頻譜特徵)的值。基於所計算值,任務TE20選擇編碼方案(例如,如上文所描述參考編碼方案選擇器20之各種實施)。任務TE30根據選定編碼方案編碼訊框(例如,如本文所描述參考訊框編碼器30a-30p之各種實施)以產生經編碼之訊框。可選任務TE40產生包括經編碼之訊框的封包。方法M10可經組態(例如,迭代)以編碼音訊信號之一系列訊框中的每一者。
在方法M10之實施的典型應用中,邏輯元件(例如,邏輯閘)之陣列經組態以執行方法之各種任務中的一者、一者以上乃至全部。亦可將任務中之一或多者(可能所有)實施為實施於電腦程式產品(例如,一或多個資料儲存媒體, 諸如碟片、快閃或其他非揮發性記憶卡、半導體記憶體晶片等)中之程式碼(例如,一或多個指令集),該電腦程式產品可由包括邏輯元件之陣列(例如,處理器、微處理器、微控制器或其他有限狀態機)的機器(例如,電腦)讀取及/或執行。方法M10之實施的任務亦可由一個以上此陣列或機器執行。在此等或其他實施中,該等任務可執行於用於無線通信之器件內,諸如蜂巢式電話或具有此通信能力之其他器件。此器件可經組態以(例如,使用諸如VoIP之一或多個協定)與電路交換及/或封包交換網路通信。舉例而言,此器件可包括經組態以接收經編碼之訊框的RF電路。
圖7b說明經組態以編碼音訊信號之訊框之裝置F10的方塊圖。裝置F10包括用於計算訊框特徵(諸如,上文所描述之能量及/或頻譜特徵)之值的構件FE10。裝置F10亦包括用於基於所計算值而選擇編碼方案(例如,如上文所描述參考編碼方案選擇器20之各種實施)之構件FE20。裝置F10亦包括用於根據選定編碼方案來編碼訊框(例如,如本文所描述參考訊框編碼器30a-30p之各種實施)以產生經編碼之訊框的構件FE30。裝置F10亦包括用於產生包括經編碼之訊框之封包的可選構件FE40。裝置F10可經組態以編碼音訊信號之一系列訊框中的每一者。
在PR編碼方案(諸如,RCELP編碼方案)之典型實施或PPP編碼方案之PR實施中,使用可基於相關性之基頻估計操作,每一訊框或子訊框估計基頻週期一次。可能需要將基頻估計窗之中心定在訊框或子訊框之邊界處。將訊框典 型分割為子訊框包括每一訊框三個子訊框(例如,用於160-樣本訊框之不重疊子訊框之每一者的53、53及54個樣本)、每一訊框四個子訊框及每一訊框五個子訊框(例如,160-樣本訊框中之五個32-樣本不重疊子訊框)。亦可能需要檢查所估計之基頻週期之中的一致性以避免誤差,諸如基頻減半、基頻加倍、基頻三倍等。在基頻估計更新之間,內插基頻週期以產生合成的延遲輪廓。可以逐樣本為基礎或以較小頻率(例如,每第二或第三樣本)或較大頻率(例如,在子樣本解析度下)為基礎執行此內插。描述於上文提及之3GPP2文件C.S0014-C中的增強型可變速率編碼解碼器("EVRC")(例如)使用八次過度取樣的合成延遲輪廓。通常內插為線性或雙線性內插,且可使用一或多個多相內插濾波器或另一適合技術來執行其。PR編碼方案(諸如,RCELP)通常經組態以在全速率或半速率下編碼訊框,然而在其他速率(諸如,四分之一速率)下編碼的實施亦為可能的。
使用具有無聲訊框之連續基頻輪廓可導致不良假影,諸如蜂嗚。因此,對於無聲訊框而言,可能需要在每一子訊框內使用恆定基頻週期,從而在子訊框邊界處突然地切換至另一恆定基頻週期。此技術之典型實例使用在20個樣本至40個樣本(在8 kHz取樣速率下)之範圍每40毫秒重複的基頻週期之偽隨機序列。如上文所描述之語音活動偵測("VAD")操作可經組態以區別有聲訊框與無聲訊框,且此操作通常基於諸如話音及/或殘餘物之自相關、越零率及/ 或第一反射係數的因數。
PR編碼方案(例如,RCELP)執行話音信號之時間扭曲。在此時間扭曲操作(其亦稱作"信號修改")中,將不同時間偏移應用於信號之不同區段以使得改變信號之特徵(例如,基頻脈衝)之間的原始時間關係。舉例而言,可能需要時間扭曲信號以使得其基頻週期輪廓匹配合成的基頻週期輪廓。時間偏移值通常在正的幾個毫秒至負的幾個毫秒之範圍內。對於PR編碼器(例如,RCELP編碼器)而言通常修改殘餘物而非話音信號,因為可能需要避免改變共振峰之位置。然而,清楚地預期且藉此揭示亦可使用經組態以修改話音信號之PR編碼器(例如,RCELP編碼器)實踐下文所主張之配置。
可期望將藉由使用連續扭曲修改殘餘物來獲得最好結果。可以逐樣本為基礎或藉由壓縮及擴大殘餘物(例如,子訊框或基頻週期)之區段來執行此扭曲。
圖8說明在經時間扭曲至平滑延遲輪廓之前(波形A)及之後(波形B)之殘餘物的實例。在此實例中,垂直點線之間的時間間隔指示規則的基頻週期。
連續扭曲可能計算起來太密集以致於不能實踐於攜帶型、嵌入式、即時及/或電池供電應用中。因此,對於RCELP或其他PR編碼器而言,更通常藉由時間偏移殘餘物之區段來執行殘餘物之分段修改以使得時間偏移之量跨越每一區段而為恆定的(儘管清楚地預期且藉此揭示亦可使用經組態以使用連續扭曲來修改話音信號或修改殘餘物之 RCELP或其他PR編碼器實踐下文所主張之配置)。此操作可經組態以藉由偏移區段來修改當前殘餘物以使得每一基頻脈衝匹配目標殘餘物中之相應基頻脈衝,其中該目標殘餘物係基於來自先前訊框、子訊框、偏移訊框或信號之其他區段的修改殘餘物。
圖9說明在分段修改之前(波形A)及之後(波形B)之殘餘物的實例。在此圖中,點線說明以粗體展示之區段如何相對於剩餘殘餘物向右偏移。可能需要每一區段之長度小於基頻週期(例如,以使得每一偏移區段含有僅僅一個基頻脈衝)。亦可能需要防止區段邊界在基頻脈衝下發生(例如,將區段邊界限於殘餘物之低能量區域)。
分段修改程序通常包括選擇包括基頻脈衝之區段(亦稱作"偏移訊框")。此操作之一實例描述於上文所提及之EVRC文件C.S0014-C的第4.11.6.2節(4-95至4-99頁)中,該節以引用的方式併入本文中作為一實例。通常將最後經修改之樣本(或第一未經修改之樣本)選擇為偏移訊框之開始。在EVRC實例中,區段選擇操作針對待經偏移之脈衝(例如,尚未修改之子訊框區域中的第一基頻脈衝)搜尋當前子訊框殘餘物且相對於此脈衝之位置設定偏移訊框之末端。子訊框可含有多個偏移訊框,以使得偏移訊框選擇操作(及分段修改程序之隨後操作)可針對單一子訊框經執行若干次。
分段修改程序通常包括用以匹配殘餘物與合成延遲輪廓之操作。此操作之一實例描述於上文所提及之EVRC文件 C.S0014-C的第4.11.6.3節(4-99至4-101頁)中,該節以引用的方式併入本文中作為一實例。此實例藉由自緩衝器擷取先前子訊框之經修改殘餘物且將其映射至延遲輪廓而產生目標殘餘物(例如,如上文所提及之EVRC文件C.S0014-C的第4.11.6.1節(4-95頁)中所描述,該節以引用的方式併入本文中作為一實例)。在此實例中,匹配操作產生暫時經修改殘餘物,其係藉由偏移選定偏移訊框之複本、根據暫時經修改殘餘物與目標殘餘物之間的相關性確定最佳偏移,及基於該最佳偏移計算時間偏移來達成。時間偏移通常為累積值,以使得計算時間偏移之操作涉及基於最佳偏移來更新所累積之時間偏移(例如,描述於上文以引用的方式併入之第4.11.6.3節的第4.11.6.3.4部分中)。
對於當前殘餘物之每一偏移訊框而言,藉由將相應計算之時間偏移應用於當前殘餘物之對應於偏移訊框的區段而達成分段修改。此修改操作之一實例描述於上文所提及之EVRC文件C.S0014-C的第4.11.6.4節(4-101頁)中,該節以引用的方式併入本文中作為一實例。通常時間偏移具有一分數值以使得在高於取樣速率之解析度下執行修改程序。在此狀況下,可能需要使用諸如線性或雙線性內插之內插(可使用一或多個多相內插濾波器或另一適合技術來執行其)而將時間偏移應用於殘餘物之相應區段。
圖10說明根據通用組態之RCELP編碼方法RM100(例如,方法M10之任務TE30的RCELP實施)的流程圖。方法RM100包括計算當前訊框之殘餘物的任務RT10。任務 RT10通常經配置以接收經取樣之音訊信號(其可經預處理),諸如音訊信號S100。任務RT10通常經實施以包括線性預測編碼("LPC")分析操作且可經組態以產生諸如線譜對("LSP")之LPC參數的集合。任務RT10亦可包括其他處理操作,諸如一或多個感知加權及/或其他濾波操作。
方法RM100亦包括計算音訊信號之合成延遲輪廓的任務RT20、自所產生之殘餘物選擇偏移訊框的任務RT30、基於來自選定偏移訊框及延遲輪廓之資訊計算時間偏移的任務RT40,及基於所計算之時間偏移修改當前訊框之殘餘物的任務RT50。
圖11說明RCELP編碼方法RM100之實施RM110的流程圖。方法RM110包括時間偏移計算任務RT40之實施RT42。任務RT42包括:任務RT60,其將先前子訊框之修改殘餘物映射至當前子訊框之合成延遲輪廓;任務RT70,其產生暫時經修改殘餘物(例如,基於選定偏移訊框);及任務RT80,其更新時間偏移(例如,基於暫時經修改殘餘物與經映射之過去經修改殘餘物之相應區段之間的相關性)。方法RM100之實施可包括於方法M10之實施內(例如,包括於編碼任務TE30內),且如上文所述,邏輯元件(例如,邏輯閘)之陣列可經組態以執行該方法之各種任務中的一者、一者以上乃至全部。
圖12a說明RCELP訊框編碼器34c之實施RC100的方塊圖。編碼器RC100包括:殘餘物產生器R10,其經組態以計算當前訊框之殘餘物(例如,基於LPC分析操作);及延 遲輪廓計算器R20,其經組態以計算音訊信號S100之合成延遲輪廓(例如,基於當前及最近基頻估計)。編碼器RC100亦包括:偏移訊框選擇器R30,其經組態以選擇當前殘餘物之偏移訊框;時間偏移計算器R40,其經組態以計算時間偏移(例如,基於暫時經修改殘餘物來更新時間偏移);及殘餘物修改器R50,其經組態以根據時間偏移修改殘餘物(例如,將所計算之時間偏移應用於殘餘物之對應於偏移訊框的區段)。
圖12b說明RCELP編碼器RC100之實施RC110的方塊圖,實施RC110包括時間偏移計算器R40之實施R42。計算器R42包括:過去經修改殘餘物映射器R60,其經組態以將先前子訊框之經修改殘餘物映射至當前子訊框之合成延遲輪廓;暫時經修改殘餘物產生器R70,其經組態以基於選定偏移訊框產生暫時經修改殘餘物;及時間偏移更新器R80,其經組態以基於暫時經修改殘餘物與經映射之過去經修改殘餘物之相應區段之間的相關性來計算(例如,更新)時間偏移。編碼器RC100及RC110之元件中的每一者可由相應模組(諸如,一組邏輯閘及/或由一或多個處理器執行之指令)實施。多模式編碼器(諸如,音訊編碼器AE20)可包括編碼器RC100之執行個體或其實施,且在此狀況下,可與經組態以執行其他編碼模式之訊框編碼器共用RCELP訊框編碼器之元件中的一或多者(例如,殘餘物產生器R10)。
圖13說明殘餘物產生器R10之實施R12的方塊圖。產生 器R12包括LPC分析模組210,其經組態以基於音訊信號S100之當前訊框計算LPC係數值之集合。變換區塊220經組態以將LPC係數值之該集合轉換為LSF之集合,且量化器230經組態以量化LSF(例如,作為一或多個碼簿索引)以產生LPC參數SL10。逆量化器240經組態以自經量化之LPC參數SL10獲得一組經解碼之LSF,且逆變換區塊250經組態以自該組經解碼之LSF獲得經解碼之LPC係數值之集合。根據經解碼之LPC係數值的該集合組態的白化濾波器260(亦稱作分析濾波器)處理音訊信號S100以產生LPC殘餘物SR10。亦可根據視為適合於特定應用之任何其他設計來實施殘餘物產生器R10。
當時間偏移之值自一偏移訊框至另一偏移訊框改變時,間隙或重疊可在偏移訊框之間的邊界處發生,且可能需要殘餘物修改器R50或任務RT50在適當情況下重複或省略此區域中之信號的部分。亦可能需要實施編碼器RC100或方法RM100以將修改殘餘物儲存至緩衝器(例如,作為產生用於對隨後訊框之殘餘物執行分段修改程序之目標殘餘物的來源)。此緩衝器可經配置以將輸入提供至時間偏移計算器R40(例如,至過去經修改殘餘物映射器R60)或至時間偏移計算任務RT40(例如,至映射任務RT60)。
圖12c說明RCELP編碼器RC100之實施RC105的方塊圖,該實施RC105包括此修改殘餘物緩衝器R90及時間偏移計算器R40之實施R44,該實施R44經組態以基於來自緩衝器R90之資訊計算時間偏移。圖12d說明RCELP編碼器RC105 及RCELP編碼器RC110之實施RC115的方塊圖,該實施RC115包括緩衝器R90之執行個體及過去經修改殘餘物映射器R60之實施R62,該實施R62經組態以自緩衝器R90接收過去經修改殘餘物。
圖14說明用於音訊信號之訊框之RCELP編碼之裝置RF100(例如,裝置F10之構件FE30的RCELP實施)的方塊圖。裝置RF100包括用於產生殘餘物(例如,LPC殘餘物)之構件RF10及用於計算延遲輪廓(例如,藉由在當前基頻估計與先前基頻估計之間執行線性或雙線性內插)之構件RF20。裝置RF100亦包括用於選擇偏移訊框(例如,藉由定位下一基頻脈衝)之構件RF30、用於計算時間偏移(例如,藉由根據暫時經修改殘餘物與經映射之過去經修改殘餘物之間的相關性更新時間偏移)之構件RF40,及用於修改殘餘物(例如,藉由時間偏移殘餘物之對應於偏移訊框的區段)之構件RF50。
經修改殘餘物通常用以計算當前訊框之激勵信號的固定碼簿基值。圖15說明RCELP編碼方法RM100之實施RM120的流程圖,該實施RM120包括額外任務以支援此操作。任務RT90扭曲自適應碼簿("ACB"),其藉由將其映射至延遲輪廓而保留來自先前訊框之經解碼之激勵信號的複本。任務RT100將基於當前LPC係數值之LPC合成濾波器應用於經扭曲之ACB以獲得感知域中之ACB基值,且任務RT110將基於當前LPC係數值之LPC合成濾波器應用於當前經修改殘餘物以獲得感知域中之當前經修改殘餘物。可能需要任 務RT100及/或任務RT110應用基於加權LPC係數值之集合之LPC合成濾波器,如(例如)上文所提及之3GPP2 EVRC文件C.S0014-C的第4.11.4.5節(4-84至4-86頁)中所描述。任務RT120計算兩個感知域信號之間的差以獲得固定碼簿("FCB")搜尋之目標,且任務RT130執行FCB搜尋以獲得激勵信號之FCB基值。如上文所述,邏輯元件(例如,邏輯閘)之陣列可經組態以執行方法RM100之此實施之各種任務中的一者、一者以上乃至全部。
包括RCELP編碼方案之現代多模式編碼系統(例如,包括音訊編碼器AE25之實施的編碼系統)將通常亦包括一或多個非RCELP編碼方案,諸如雜訊激勵線性預測("NELP"),其通常用於無聲訊框(例如,口頭摩擦音)及僅含有背景雜訊之訊框。非RCELP編碼方案之其他實例包括原型波形內插("PWI")及其變型(諸如,原型基頻週期("PPP")),其通常用於高聲訊框。當RCELP編碼方案用以編碼音訊信號之訊框,且非RCELP編碼方案用以編碼音訊信號之鄰近訊框時,不連續性可出現於合成波形中係可能的。
可能需要使用來自鄰近訊框之樣本來編碼訊框。以此方式跨越訊框邊界編碼傾向於減少假影之感知效應,該等假影歸因於諸如量化誤差、截斷、捨入、廢除多餘係數及其類似物之因素而可能出現於訊框之間。此編碼方案之一實例為修改型離散餘弦變換("MDCT")編碼方案。
MDCT編碼方案為非PR編碼方案,其通常用以編碼音樂 及其他非話音聲音。舉例而言,如國際標準化組織(ISO)/國際電工委員會(IEC)文件14496-3:1999(亦已知為MPEG-4之第3部分)中規定之高級音訊編碼解碼器("AAC")為MDCT編碼方案。上文所提及之3GPP2 EVRC文件C.S0014-C的第4.13節(4-145至4-151頁)描述另一MDCT編碼方案,且此節以引用的方式併入本文中作為一實例。MDCT編碼方案將頻域中之音訊信號編碼為正弦波之混合物,而非編碼為信號(其結構係基於基頻週期),且更適於編碼歌聲、音樂及正弦波之其他混合物。
MDCT編碼方案使用在兩個或兩個以上連續訊框上延伸(亦即,重疊兩個或兩個以上訊框)的編碼窗。對於M之訊框長度,MDCT基於2M個樣本之輸入產生M個係數。因此,MDCT編碼方案之一特徵在於其允許變換窗在一或多個訊框邊界上延伸而不增加表示經編碼之訊框所需之變換係數的數目。然而,當此重疊編碼方案用以編碼鄰近於使用PR編碼方案編碼之訊框的訊框時,不連續性可出現於相應經解碼之訊框中。
M個MDCT係數之計算可經表達為: 其中 k=0、1、…、M-1。函數w(n)通常經選擇為滿足條件w 2 (n )+w 2 (nM )=1(亦稱作Princen-Bradley條件)之窗。
相應逆MDCT運算可經表達為: n=0、1、…、2M-1,其中X (k )為M個所接收之MDCT係數且x (n )為2M個經解碼之樣本。
圖16說明MDCT編碼方案之典型正弦窗形狀的三個實例。滿足Princen-Bradley條件之此窗形狀可經表達為 0 n <2M ,其中n=0指示當前訊框之第一樣本。
如圖中所示,用以編碼當前訊框(訊框p)之MDCT窗804在訊框p及訊框(p+1)上具有非零值,且在其他方面為零值。用以編碼先前訊框(訊框(p-1))之MDCT窗802在訊框(p-1)及訊框p上具有非零值,且在其他方面為零值,且用以編碼隨後訊框(訊框(p+1))之MDCT窗806經類似地配置。在解碼器處,經解碼之序列以與輸入序列相同之方式經重疊且經相加。圖25a說明由應用圖16中所示之窗804及806產生之重疊相加區域的一實例。重疊相加操作消除由變換引入之誤差且允許理想的重建(當w(n)滿足Princen-Bradley條件且不存在量化誤差時)。儘管MDCT使用重疊窗函數,但其為經精密取樣之濾波器組,因為在重疊相加後,每一 訊框輸入樣本之數目與每一訊框MDCT係數之數目相同。
圖17a說明MDCT訊框編碼器34d之實施ME100的方塊圖。殘餘物產生器D10可經組態以使用經量化之LPC參數(例如,經量化之LSP,如上文以引用的方式併入之3GPP2 EVRC文件C.S0014-C之第4.13節的第4.13.2部分中所描述)產生殘餘物。或者,殘餘物產生器D10可經組態以使用未經量化之LPC參數產生殘餘物。在包括RCELP編碼器RC100及MDCT編碼器ME100之實施的多模式編碼器中,殘餘物產生器R10及殘餘物產生器D10可實施為同一結構。
編碼器ME100亦包括MDCT模組D20,其經組態以計算MDCT係數(例如,根據上文在EQ.1中所陳述之關於X (k )的表達式)。編碼器ME100亦包括量化器D30,其經組態以處理MDCT係數而產生經量化之編碼殘餘物信號S30。量化器D30可經組態以使用精確的函數計算執行MDCT係數之因數編碼。或者,量化器D30可經組態以使用(例如)在U.Mittel等人之"Low Complexity Factorial Pulse Coding of MDCT Coefficients Using Approximation of Combinatorial Functions,"IEEE ICASSP 2007,I-289至I-292頁及在上文以引用的方式併入之3GPP2 EVRC文件C.S0014-C之第4.13節的第4.13.5部分中所描述的適當函數計算來執行MDCT係數之因數編碼。如圖17a中所示,MDCT編碼器ME100亦可包括可選逆MDCT("IMDCT")模組D40,其經組態以基於經量化之信號計算經解碼之樣本(例如,根據上文在EQ.3中 所陳述之關於x (n )的表達式)。
在一些狀況下,可能需要對音訊信號S100而非音訊信號S100之殘餘物執行MDCT運算。儘管LPC分析良好地適於編碼人類話音之共振,但其對於編碼非話音信號(諸如,音樂)之特徵可能並不同樣有效。圖17b說明MDCT訊框編碼器34d之實施ME200的方塊圖,其中MDCT模組D20經組態以接收音訊信號S100之訊框作為輸入。
圖16中所示之標準MDCT重疊方案需要在可執行變換之前可用的2M個樣本。此方案在編碼系統上有效地強加2M個樣本之延遲約束(亦即,當前訊框之M個樣本加上M個預看(lookahead)樣本)。多模式編碼器之其他編碼模式(諸如,CELP、RCELP、NELP、PWI及/或PPP)通常經組態以對較短延遲約束(例如,當前訊框之M個樣本加上M/2、M/3或M/4個預看樣本)操作。在現代多模式編碼器(例如,EVRC、SMV、AMR)中,在編碼模式之間切換可經自動地執行且可甚至在單一秒中發生若干次。尤其對於可能需要包括編碼器以在特定速率下產生封包之傳輸器的電路交換應用而言,可能需要此編碼器之編碼模式在同一延遲下操作。
圖18說明可由MDCT模組D20應用以允許短於M之預看時間間隔之窗函數w(n)(例如,代替圖16中所說明之函數w(n))的一實例。在圖18中所示之特定實例中,預看時間間隔為M/2個樣本長,但可實施此技術以允許L個樣本之任意預看,其中L具有0至M之任何值。在此技術中(其實例 描述於上文以引用的方式併入之3GPPwEVRC文件C.S0014-C之第4.13節的第4.13.4部分(4-147頁)中及標題為"SYSTEMS AND METHODS FOR MODIFYING A WINDOW WITH wFRAME ASSOCIATED WITH AN AUDIO SIGNAL"之美國公開案第2008/0027719號中),MDCT窗以長度(M-L)/2之零填補區域開始及結束,且w(n)滿足Princen-Bradley條件。此窗函數之一實施可經表達如下: 其中為當前訊框p之第一樣本且為下一訊框(p+1)之第一樣本。根據此技術編碼之信號保持理想的重建性質(不存在量化及數字誤差)。應注意對於L=M的狀況,此窗函數與圖16中所說明之窗函數相同,且對於L=0的狀況,且在別處為零以使得不存在重疊。
在包括PR及非PR編碼方案之多模式編碼器中,可能需要確保合成波形跨越訊框邊界為連續的,在該訊框邊界處當前編碼模式自PR編碼模式切換至非PR編碼模式(或反之亦然)。編碼模式選擇器可在一秒中自一編碼方案切換至 另一編碼方案若干次,且需要在彼等方案之間提供感知上平滑的過渡。不幸地,橫跨調整訊框與未調整訊框之間的邊界之基頻週期可為顯著大或小的,以使得PR編碼方案與非PR編碼方案之間的切換可在經解碼之信號中產生可聞卡搭聲或其他不連續性。另外,如上文所述,非PR編碼方案可使用在連續訊框上延伸之重疊相加窗來編碼音訊信號之訊框,且可能需要避免在彼等連續訊框之間的邊界處時間偏移之變化。在此等狀況下可能需要根據由PR編碼方案應用之時間偏移來修改未調整訊框。
圖19a說明根據通用組態處理音訊信號之訊框之方法M100的流程圖。方法M100包括任務T110,其根據PR編碼方案(例如,RCELP編碼方案)編碼第一訊框。方法M100亦包括任務T210,其根據非PR編碼方案(例如,MDCT編碼方案)編碼音訊信號之第二訊框。如上文所述,第一訊框及第二訊框中之一者或兩者可在此編碼之前及/或之後經感知加權及/或以其他方式加以處理。
任務T110包括子任務T120,其根據時間偏移T時間修改第一信號之區段,其中第一信號係基於第一訊框(例如,第一信號為第一訊框或第一訊框之殘餘物)。可藉由時間偏移或藉由時間扭曲來執行時間修改。在一實施中,任務T120藉由根據T值在時間上向前或向後地移動整個區段(亦即,相對於訊框或音訊信號之另一區段)來時間偏移區段。此操作可包括內插樣本值以執行部分時間偏移。在另一實施中,任務T120基於時間偏移T來時間扭曲區段。此 操作可包括根據T值移動區段之一樣本(例如,第一樣本)及使區段之另一樣本(例如,最後樣本)移動一值,該值具有小於T之量值的量值。
任務T210包括子任務T220,其根據時間偏移T時間修改第二信號之區段,其中第二信號係基於第二訊框(例如,第二信號為第二訊框或第二訊框之殘餘物)。在一實施中,任務T220藉由根據T值在時間上向前或向後地移動整個區段(亦即,相對於訊框或音訊信號之另一區段)來時間偏移區段。此操作可包括內插樣本值以執行部分時間偏移。在另一實施中,任務T220基於時間偏移T來時間扭曲區段。此操作可包括將區段映射至延遲輪廓。舉例而言,此操作可包括根據T值移動區段之一樣本(例如,第一樣本)及使區段之另一樣本(例如,最後樣本)移動一值,該值具有小於T之量值的量值。舉例而言,任務T120可藉由將其映射至已被縮短時間偏移T之值(例如,在T之負值的狀況下使變長)的相應時間間隔來時間扭曲訊框或其他區段,在此狀況下,可在經扭曲之區段的末端將T值重設為零。
任務T220所時間修改之區段可包括整個第二信號,或該區段可為該信號之較短部分,諸如殘餘物之子訊框(例如,初始子訊框)。通常任務T220(例如,在音訊信號S100之逆LPC濾波之後)時間修改非量化殘餘物信號之區段,諸如圖17a中所示之殘餘物產生器D10的輸出。然而,任務T220亦可經實施以(例如,在MDCT-MDCT處理後)時間修 改經解碼之殘餘物的區段,諸如圖17a中所示之信號S40,或音訊信號S100之區段。
可能需要時間偏移T為用以修改第一信號之最後時間偏移。舉例而言,時間偏移T可為應用於第一訊框之殘餘物之最後時間偏移區段的時間偏移及/或由累積時間偏移之最新近更新產生的值。RCELP編碼器RC100之實施可經組態以執行任務T110,在此狀況下,時間偏移T可為在編碼第一訊框期間由區塊R40或區塊R80計算的最後時間偏移值。
圖19b說明任務T110之實施T112的流程圖。任務T112包括子任務T130,其基於來自先前子訊框之殘餘物(諸如,最新近子訊框之修改殘餘物)的資訊而計算時間偏移。如上文所論述,可能需要RCELP編碼方案產生基於先前子訊框之修改殘餘物的目標殘餘物及根據選定偏移訊框與目標殘餘物之相應區段之間的匹配來計算時間偏移。
圖19c說明任務T112之實施T114的流程圖,該實施T114包括任務T130之實施T132。任務T132包括任務T140,其將先前殘餘物之樣本映射至延遲輪廓。如上文所論述,可能需要RCELP編碼方案藉由將先前子訊框之經修改殘餘物映射至當前子訊框之合成延遲輪廓而產生目標殘餘物。
可能需要組態任務T210以時間偏移第二信號以及隨後訊框之任何部分,該部分用作編碼第二訊框之預看。舉例而言,可能需要任務T210將時間偏移T應用於第二(非PR)訊框之殘餘物且亦應用於隨後訊框之殘餘物的任何部分,該 部分用作編碼第二訊框之預看(例如,如上文參看MDCT及重疊窗所描述)。亦可能需要組態任務T210以將時間偏移T應用於使用非PR編碼方案(例如,MDCT編碼方案)編碼之任何隨後連續訊框的殘餘物,且應用於對應於此等訊框之任何預看區段。
圖25b說明兩個PR訊框之間的非PR訊框序列中之每一者係藉由應用於第一PR訊框之最後偏移訊框的時間偏移進行偏移之實例。在此圖中,實線指示原始訊框隨時間之位置,虛線指示訊框之偏移位置,且點線展示原始邊界與偏移邊界之間的對應。較長垂直線指示訊框邊界,第一短垂直線指示第一PR訊框之最後偏移訊框的開始(其中峰值指示偏移訊框之基頻脈衝),且最後短垂直線指示序列之最後非PR訊框之預看區段的結束。在一實例中,PR訊框為RCELP訊框,且非PR訊框為MDCT訊框。在另一實例中,PR訊框為RCELP訊框,一些非PR訊框為MDCT訊框,且其他非PR訊框為NELP或PWI訊框。
方法M100可適合於無基頻估計可用於當前非PR訊框之狀況。然而,即使基頻估計可用於當前非PR訊框,亦可能需要執行方法M100。在涉及在連續訊框之間重疊與相加(諸如,具有MDCT窗)的非PR編碼方案中,可能需要使連續訊框、任何相應預看及訊框之間的任何重疊區域偏移同一偏移值。此一致性可有助於避免重建的音訊信號之品質的降級。舉例而言,可能需要對促成重疊區域(諸如,MDCT窗)之訊框的兩者使用同一時間偏移值。
圖20a說明MDCT編碼器ME100之實施ME110的方塊圖。編碼器ME110包括時間修改器TM10,其經配置以時間修改由殘餘物產生器D10產生之殘餘物信號的區段以產生經時間修改之殘餘物信號S20。在一實施中,時間修改器TM10經組態以藉由根據T值向前或向後地移動整個區段來時間偏移區段。此操作可包括內插樣本值以執行部分時間偏移。在另一實施中,時間修改器TM10經組態以基於時間偏移T時間扭曲區段。此操作可包括將區段映射至延遲輪廓。舉例而言,此操作可包括根據T值移動區段之一樣本(例如,第一樣本)及使另一樣本(例如,最後樣本)移動一值,該值具有小於T之量值的量值。舉例而言,任務T120可藉由將其映射至已被縮短時間偏移T之值(例如,在T之負值的狀況下使變長)的相應時間間隔來時間扭曲訊框或其他區段,在此狀況下,可在經扭曲之區段的末端將T值重設為零。如上文所述,時間偏移T可為由PR編碼方案最近應用於經時間偏移區段之時間偏移及/或藉由PR編碼方案由累積時間偏移之最近更新產生的值。在包括RCELP編碼器RC105及MDCT編碼器ME110之實施的音訊編碼器AE10之實施中,編碼器ME110亦可經組態以將經時間修改殘餘物信號S20儲存至緩衝器R90。
圖20b說明MDCT編碼器ME200之實施ME210的方塊圖。編碼器ME200包括時間修改器TM10之執行個體,其經配置以時間修改音訊信號S100之區段來產生經時間修改之音訊信號S25。如上文所述,音訊信號S100可為經感知加權 及/或以其他方式經濾波的數位信號。在包括RCELP編碼器RC105及MDCT編碼器ME210之實施的音訊編碼器AE10之實施中,編碼器ME210亦可經組態以將經時間修改之殘餘物信號S20儲存至緩衝器R90。
圖21a說明包括雜訊注入模組D50之MDCT編碼器ME110之實施ME120的方塊圖。雜訊注入模組D50經組態以在預定頻率範圍內用雜訊替代經量化編碼殘餘物信號S30之零值元素(例如,根據如上文以引用的方式併入之3GPP2 EVRC文件C.S0014-C之第4.13節的第4.13.7部分(4-150頁)中所描述的技術)。此操作可藉由減少在欠模型化(undermodeling)殘餘物線譜期間可能發生之音調假影的感知而改良音訊品質。
圖21b說明MDCT編碼器ME110之實施ME130的方塊圖。編碼器ME130包括共振峰強調模組D60,其經組態以執行殘餘物信號S20之低頻共振峰區域的感知加權(例如,根據如上文以引用的方式併入之3GPP2 EVRC文件C.S0014-C之第4.13節的第4.13.3部分(4-147頁)中所描述的技術);及共振峰解強調(formant deemphasis)模組D70,其經組態以移除感知加權(例如,根據如3GPP2 EVRC文件C.S0014-C之第4.13節的第4.13.9部分(4-151頁)中所描述的技術)。
圖22說明MDCT編碼器ME120及ME130之實施ME140的方塊圖。MDCT編碼器ME140之其他實施可經組態以在殘餘物產生器D10與經解碼之殘餘物信號S40之間的處理路徑中包括一或多個額外操作。
圖23a說明根據通用組態之音訊信號MM100之訊框的MDCT編碼之方法(例如,方法M10之任務TE30的MDCT實施)的流程圖。方法MM100包括產生訊框之殘餘物的任務MT10。任務MT10通常經配置以接收經取樣音訊信號(其可經預處理)(諸如,音訊信號S100)之訊框。任務MT10通常經實施以包括線性預測編碼("LPC")分析操作且可經組態以產生諸如線譜對("LSP")之LPC參數之集合。任務MT10亦可包括其他處理操作,諸如一或多個感知加權及/或其他濾波操作。
方法MM100包括時間修改所產生之殘餘物的任務MT20。在一實施中,任務MT20藉由時間偏移殘餘物之區段、根據T值向前或向後地移動整個區段而時間修改殘餘物。此操作可包括內插樣本值以執行部分時間偏移。在另一實施中,任務MT20藉由基於時間偏移T時間扭曲殘餘物之區段而時間修改殘餘物。此操作可包括將區段映射至延遲輪廓。舉例而言,此操作可包括根據T值移動區段之一樣本(例如,第一樣本)及使另一樣本(例如,最後樣本)移動一值,該值具有小於T之量值。時間偏移T可為由PR編碼方案最近應用於經時間偏移區段之時間偏移及/或藉由PR編碼方案由累積時間偏移之最近更新產生的值。在包括RCELP編碼方法RM100及MDCT編碼方法MM100之實施的編碼方法M10之實施中,任務MT20亦可經組態以將經時間修改之殘餘物信號S20儲存至經修改殘餘物緩衝器(例如,可能由方法RM100用以產生下一訊框之目標殘餘物)。
方法MM100包括任務MT30,其(例如,根據上文所陳述之關於X (k )的表達式)對經時間修改殘餘物執行MDCT運算以產生MDCT係數之集合。任務MT30可應用如本文所描述(如圖16或圖18中所示)之窗函數w(n)或可使用另一窗函數或演算法以執行MDCT運算。方法MM100包括任務MT40,其使用因數編碼、組合近似法、截斷、捨入及/或視為適合於特定應用之任何其他量化操作來量化MDCT係數。在此實例中,方法MM100亦包括可選任務MT50,其經組態以對經量化係數執行IMDCT運算以獲得經解碼之樣本之集合(例如,根據上文所陳述之關於(n)的表達式)。
方法MM100之實施可包括於方法M10之實施內(例如,在編碼任務TE30內),且如上文所述,邏輯元件(例如,邏輯閘)之陣列可經組態以執行方法之各種任務中的一者、一者以上乃至全部。對於方法M10包括方法MM100及方法RM100之兩者之實施的狀況,殘餘物計算任務RT10與殘餘物產生任務MT10可共用共同操作(例如,可僅在LPC操作之次序上不同)或可甚至被實施為同一任務。
圖23b說明用於音訊信號之訊框的MDCT編碼之裝置MF100(例如,裝置F10之構件FE30的MDCT實施)的方塊圖。裝置MF100包括用於產生訊框之殘餘物的構件FM10(例如,藉由執行上文所描述之任務MT10的實施)。裝置MF100包括用於時間修改所產生之殘餘物的構件FM20(例如,藉由執行上文所描述之任務MT20的實施)。在包括RCELP編碼裝置RF100及MDCT編碼裝置MF100之實 施的編碼裝置F10之實施中,構件FM20亦可經組態以將經時間修改之殘餘物信號S20儲存至經修改殘餘物緩衝器(例如,可能由裝置RF100用以產生下一訊框之目標殘餘物)。裝置MF100亦包括用於對經時間修改殘餘物執行MDCT運算以獲得MDCT係數之集合之構件FM30(例如,藉由執行上文所描述之任務MT30的實施)及用於量化MDCT係數之構件FM40(例如,藉由執行上文所描述之任務MT40的實施)。裝置MF100亦包括用於對量化係數執行IMDCT運算之可選構件FM50(例如,藉由執行上文所描述之任務MT50)。
圖24a說明根據另一通用組態處理音訊信號之訊框之方法M200的流程圖。方法M200之任務T510根據非PR編碼方案(例如,MDCT編碼方案)編碼第一訊框。方法M200之任務T610根據PR編碼方案(例如,RCELP編碼方案)編碼音訊信號之第二訊框。
任務T510包括子任務T520,其根據第一時間偏移T時間修改第一信號之區段,其中第一信號係基於第一訊框(例如,第一信號為第一(非PR)訊框或第一訊框之殘餘物)。在一實例中,時間偏移T為如在RCELP編碼音訊信號中先於第一訊框的訊框期間計算之所累積時間偏移的值(例如,經最後更新之值)。任務T520所時間修改之區段可包括整個第一信號,或該區段可為該信號之較短部分,諸如殘餘物之子訊框(例如,最後子訊框)。通常任務T520時間修改非量化殘餘物信號(例如,在音訊信號S100之逆LPC濾 波後),諸如圖17a中所示之殘餘物產生器D10的輸出。然而,任務T520亦可經實施以時間修改經解碼之殘餘物的區段(例如,在MDCT-IMDCT處理後),諸如圖17a中所示之信號S40,或音訊信號S100之區段。
在一實施中,任務T520藉由根據T值在時間上向前或向後地移動整個區段(亦即,相對於訊框或音訊信號之另一區段)來時間偏移區段。此操作可包括內插樣本值以執行部分時間偏移。在另一實施中,任務T520基於時間偏移T來時間扭曲區段。此操作可包括將區段映射至延遲輪廓。舉例而言,此操作可包括根據T值移動區段之一樣本(例如,第一樣本)及使區段之另一樣本(例如,最後樣本)移動一值,該值具有小於T之量值的量值。
任務T520可經組態以將經時間修改之信號儲存至緩衝器(例如,至經修改殘餘物緩衝器)以可能由下文所描述之任務T620使用(例如,以產生下一訊框之目標殘餘物)。任務T520亦可經組態以更新PR編碼任務之其他狀態記憶體。任務T520之一此實施將經解碼之量化殘餘物信號(諸如,經解碼之殘餘物信號S40)儲存至自適應碼簿("ACB")記憶體及PR編碼任務(例如,RCELP編碼方法RM120)之零輸入回應濾波器狀態。
任務T610包括子任務T620,其基於來自經時間修改區段之資訊時間扭曲第二信號,其中第二信號係基於第二訊框(例如,第二信號為第二PR訊框或第二訊框之殘餘物)。舉例而言,PR編碼方案可為RCELP編碼方案,其經組態以藉 由使用第一訊框之殘餘物(包括經時間修改(例如,經時間偏移)區段)代替過去經修改殘餘物來編碼上文所描述之第二訊框。
在一實施中,任務T620藉由在時間上向前或向後地移動整個區段(亦即,相對於訊框或音訊信號之另一區段)而將第二時間偏移應用於區段。此操作可包括內插樣本值以執行部分時間偏移。在另一實施中,任務T620時間扭曲區段,其可包括將區段映射至延遲輪廓。舉例而言,此操作可包括根據時間偏移來移動區段之一樣本(例如,第一樣本)及使區段之另一樣本(例如,最後樣本)移動較小時間偏移。
圖24b說明任務T620之實施T622的流程圖。任務T622包括子任務T630,其基於來自經時間修改區段之資訊計算第二時間偏移。任務T622亦包括子任務T640,其將第二時間偏移應用於第二信號之區段(在此實例中,應用於第二訊框之殘餘物)。
圖24c說明任務T620之實施T624的流程圖。任務T624包括子任務T650,其將經時間修改區段之樣本映射至音訊信號之延遲輪廓。如上文所論述,可能需要RCELP編碼方案藉由將先前子訊框之經修改殘餘物映射至當前子訊框之合成延遲輪廓而產生目標殘餘物。在此狀況下,RCELP編碼方案可經組態以藉由產生基於第一(非RCELP)訊框之殘餘物(包括時間修改區段)的目標殘餘物而執行任務T650。
舉例而言,此RCELP編碼方案可經組態以藉由將第一 (非RCELP)訊框之殘餘物(例如,經時間修改區段)映射至當前訊框之合成延遲輪廓而產生目標殘餘物。RCELP編碼方案亦可經組態以基於目標殘餘物計算時間偏移,及使用經計算之時間偏移以時間扭曲第二訊框的殘餘物,如上文所論述。圖24d說明任務T622及T624之實施T626的流程圖,該實施T626包括任務T650、任務T630之實施T632(基於來自經時間修改區段之經映射樣本的資訊計算第二時間偏移)及任務T640。
如上文所述,可能需要傳輸及接收具有超過約300-3400 Hz之PSTN頻率範圍之頻率範圍的音訊信號。用於編碼此信號之一方法為"全頻帶"技術,其編碼整個擴展頻率範圍作為單一頻帶(例如,藉由定標PSTN範圍之編碼系統以覆蓋擴展頻率範圍)。另一方法為外推來自PSTN信號之資訊至擴展頻率範圍中(例如,基於來自PSTN範圍音訊信號之資訊外推高於PSTN範圍之高頻帶範圍的激勵信號)。另一方法為"分割頻帶"技術,其單獨地編碼在PSTN範圍外之音訊信號的資訊(例如,諸如3500-7000 Hz或3500-8000 Hz之高頻帶頻率範圍的資訊)。可在諸如標題為"TIME-WARPING FRAMES OF WIDEBAND VOCODER"之美國公開案第2008/0052065號及標題為"SYSTEMS,METHODS,AND APPARATUS FOR HIGHBAND TIME WARPING"之美國公開案第2006/0282263號的文件中發現分割頻帶PR編碼技術之描述。可能需要擴展分割頻帶編碼技術以在音訊信號之窄頻帶及高頻帶部分兩者上包括方法M100及/或M200 之實施。
方法M100及/或M200可執行於方法M10之實施內。舉例而言,任務T110及T210(類似地,任務T510及T610)可由如方法M10執行之任務TE30之連續迭代執行以處理音訊信號S100之連續訊框。方法M100及/或M200亦可由裝置F10及/或裝置AE10之實施(例如,裝置AE20或AE25)執行。如上文所述,此裝置可包括於攜帶型通信器件(諸如,蜂巢式電話)中。此等方法及/或裝置亦可實施於基礎結構設備(諸如,媒體閘道器)中。
提供所述組態之以上陳述以使任何熟習此項技術者能夠製造或使用本文所揭示之方法及其他結構。本文所展示並描述之流程圖、方塊圖、狀態圖及其他結構僅為實例,且此等結構之其他變型亦處於本揭示內容之範疇內。對此等組態之各種修改為可能的,且本文中所呈現之一般原理亦可應用於其他組態。因此,本揭示內容不欲限於上文所展示之組態,而與在本文中以任何方式揭示之原理及新穎特徵最廣泛地一致,包括於所申請之附加申請專利範圍中,該等申請專利範圍形成原始揭示內容之一部分。
除上文所提及之EVRC及SMV編碼解碼器以外,可與本文中所描述之話音編碼器、話音編碼方法、話音解碼器及/或話音解碼方法一起使用或經調適一起使用的編碼解碼器之實例包括如文件ETSI TS 126 092 V6.0.0(歐洲電信標準化協會("ETSI"),Sophia Antipolis Cedex,FR,2004年12月)中所描述的自適應多速率("AMR")話音編碼解碼器;及如 文件ETSI TS 126 192 V6.0.0(ETSI,2004年12月)中所描述的AMR寬頻帶話音編碼解碼器。
熟習此項技術者應理解,可使用多種不同技術及技藝之任一者來表示資訊及信號。舉例而言,可在整個上述描述中提及的資料、指令、命令、資訊、信號、位元及符號可由電壓、電流、電磁波、磁場或磁性粒子、光場或光學粒子或其任一組合表示。
熟習此項技術者將進一步瞭解,結合本文所揭示之組態而描述的各種說明性邏輯區塊、模組、電路及操作可實施為電子硬體、電腦軟體或兩者之組合。此等邏輯區塊、模組、電路及操作可使用經設計以執行本文所述功能之通用處理器、數位信號處理器("DSP")、ASIC或ASSP、FPGA或其他可程式化邏輯器件、離散閘或電晶體邏輯、離散硬體組件或其任一組合來實施或執行。通用處理器可為微處理器,但替代地,處理器可為任何習知處理器、控制器、微控制器或狀態機。處理器亦可實施為計算器件之組合,例如,一DSP與一微處理器的組合、複數個微處理器之組合、一或多個微處理器結合一DSP核心之組合,或任何其他此組態。
本文所述之方法及演算法的任務可直接以硬體、以可由處理器執行之軟體模組或以該兩者之組合而實施。軟體模組可駐留於隨機存取記憶體("RAM")、唯讀記憶體("ROM")、諸如快閃RAM之非揮發性RAM("NVRAM")、可擦可程式ROM("EPROM")、電可擦可程式ROM ("EEPROM")、暫存器、硬碟、抽取式碟片、CD-ROM或在此項技術中已知之任何其他形式的儲存媒體中。說明性儲存媒體耦接至處理器以使得處理器可自儲存媒體讀取資訊,且將資訊寫入至儲存媒體。替代地,儲存媒體可整合至處理器。處理器及儲存媒體可駐留於ASIC中。該ASIC可駐留於使用者終端機中。替代地,處理器及儲存媒體可作為離散組件駐留於使用者終端機中。
本文所述之組態中的每一者可至少部分地實施為硬連線電路、實施為製造成特殊應用積體電路之電路組態,或實施為載入至非揮發性儲存器中之韌體程式或作為機器可讀碼而自資料儲存媒體載入或載入至資料儲存媒體之軟體程式,此機器可讀碼為可由邏輯元件陣列(諸如,微處理器或其他數位信號處理單元)執行的指令。資料儲存媒體可為儲存元件之陣列,諸如半導體記憶體(其可包括(但不限於)動態或靜態RAM、ROM及/或快閃RAM),或鐵電、磁阻、雙向、聚合或相變記憶體;或碟片媒體,諸如磁碟或光碟。術語"軟體"應理解為包括源碼、組合語言碼、機器碼、二進位碼、韌體、宏碼、微碼、可由邏輯元件之陣列執行之指令的任一或多個集合或序列,及此等實例之任何組合。
本文中所揭示之方法M10、RM100、MM100、M100及M200的實施亦可切實地實施(例如,在上文列出之一或多個資料儲存媒體中)為可由包括邏輯元件之陣列(例如,處理器、微處理器、微控制器或其他有限狀態機)的機器讀 取及/或執行之一或多個指令集。因此,本揭示內容不欲限於上文所展示之組態,而與在本文中以任何方式揭示之原理及新穎特徵最廣泛地一致,包括於所申請之附加申請專利範圍中,該等申請專利範圍形成原始揭示內容之一部分。
可將本文中所描述之裝置(例如,AE10、AD10、RC100、RF100、ME100、ME200、MF100)之各種實施的元件製造為駐留於(例如)同一晶片或晶片組中之兩個或兩個晶片之中的電子及/或光學器件。此器件之一實例為固定或可程式化邏輯元件(諸如,電晶體或閘)之陣列。本文中所描述之裝置之各種實施的一或多個元件亦可整個或部分地實施為經配置以執行於一或多個固定或可程式化邏輯元件陣列(諸如,微處理器、嵌入式處理器、IP核心、數位信號處理器、FPGA、ASSP及ASIC)上的一或多個指令集。
本文中所描述之裝置之實施的一或多個元件可能用於執行並非與該裝置之操作直接相關的任務或執行並非與該裝置之操作直接相關的其他指令集,諸如與嵌入有該裝置之器件或系統之另一操作相關的任務。此裝置之實施之一或多個元件亦可能具有共同結構(例如,用於在不同時間執行程式碼之對應於不同元件之部分的處理器、經執行以在不同時間執行對應於不同元件之任務的指令集,或在不同時間對不同元件執行操作之電子及/或光學設器件的配置)。
圖26說明可用本文中所描述之系統及方法用作存取終端機之音訊通信器件1108之一實例的方塊圖。器件1108包括經組態以控制器件1108之操作的處理器1102。處理器1102可經組態以控制器件1108執行方法M100或M200之實施。器件1108亦可包括經組態以將指令及資料提供至處理器1102之記憶體1104且可包括ROM、RAM及/或NVRAM。器件1108亦包括含有收發器1120之外殼1122。收發器1120包括支援資料在器件1108與遠端位置之間傳輸及接收的傳輸器1110及接收器1112。器件1108之天線1118附著至外殼1122且電耦接至收發器1120。
器件1108包括經組態以偵測及量化由收發器1120接收之信號之位準的信號偵測器1106。舉例而言,信號偵測器1106可經組態以計算參數值,諸如總能量、每一偽雜訊晶片之導頻能量(亦表達為Eb/No)及/或功率譜密度。器件1108包括經組態以使器件1108之各種組件耦接在一起的匯流排系統1126。除資料匯流排之外,匯流排系統1126可包括功率匯流排、控制信號匯流排及/或狀態信號匯流排。器件1108亦包括經組態以處理由收發器1120接收及/或傳輸之信號的DSP 1116。
在此實例中,器件1108經組態以在若干不同狀態中之任一者中操作且包括狀態改變器1114,該狀態改變器1114經組態以基於器件之當前狀態及由收發器1120接收且由信號偵測器1106偵測之信號而控制器件1108之狀態。在此實例中,器件1108亦包括系統確定器1124,該系統確定器1124 經組態以確定當前服務提供者不適當且控制器件1108轉移至不同服務提供者。
10‧‧‧行動用戶單元
12‧‧‧基地台(BS)/基地台收發器子系統(BTS)
14‧‧‧基地台控制器(BSC)
16‧‧‧行動交換中心(MSC)
18‧‧‧公眾交換電話網路(PSTN)
20‧‧‧編碼方案選擇器
22‧‧‧封包資料服務節點(PDSN)/編碼方案選擇器
24‧‧‧封包資料網路/編碼方案選擇器
26‧‧‧編碼方案選擇器
30a‧‧‧訊框編碼器
30p‧‧‧訊框編碼器
32a‧‧‧作用訊框編碼器
32b‧‧‧不作用訊框編碼器
32c‧‧‧話音訊框編碼器
32d‧‧‧非話音訊框編碼器
32e‧‧‧有聲訊框編碼器
32f‧‧‧無聲訊框編碼器
34c‧‧‧RCELP訊框編碼器
34d‧‧‧MDCT訊框編碼器
50a‧‧‧選擇器
50b‧‧‧選擇器
52a‧‧‧選擇器
52b‧‧‧選擇器
54a‧‧‧選擇器
54b‧‧‧選擇器
60‧‧‧編碼方案偵測器
70a‧‧‧訊框解碼器
70p‧‧‧訊框解碼器
90a‧‧‧選擇器
90b‧‧‧選擇器
210‧‧‧LPC分析模組
220‧‧‧變換區塊
230‧‧‧量化器
240‧‧‧逆量化器
250‧‧‧逆變換區塊
260‧‧‧白化濾波器
802‧‧‧MDCT窗
804‧‧‧MDCT窗
806‧‧‧MDCT窗
1102‧‧‧處理器
1104‧‧‧記憶體
1106‧‧‧信號偵測器
1108‧‧‧音訊通信器件
1110‧‧‧傳輸器
1112‧‧‧接收器
1114‧‧‧狀態改變器
1116‧‧‧DSP
1118‧‧‧天線
1120‧‧‧收發器
1122‧‧‧外殼
1124‧‧‧系統確定器
1126‧‧‧匯流排系統
A‧‧‧波形
AD10‧‧‧音訊解碼器
AD10a‧‧‧第一執行個體/音訊解碼器
AD10b‧‧‧第二執行個體/音訊解碼器
AD20‧‧‧音訊解碼器
AE10‧‧‧音訊編碼器
AE10a‧‧‧第一執行個體/音訊編碼器
AE10b‧‧‧第二執行個體/音訊編碼器
AE20‧‧‧多模式音訊編碼器
AE22‧‧‧音訊編碼器
AE24‧‧‧音訊編碼器
AE25‧‧‧音訊編碼器
AE26‧‧‧音訊編碼器
B‧‧‧波形
C100‧‧‧通信頻道
C110‧‧‧第一執行個體
C120‧‧‧第二執行個體
D10‧‧‧殘餘物產生器
D20‧‧‧MDCT模組
D30‧‧‧量化器
D40‧‧‧逆MDCT模組
D50‧‧‧雜訊注入模組
D60‧‧‧共振峰強調模組
D70‧‧‧共振峰解強調模組
F10‧‧‧裝置
FE10‧‧‧用於計算訊框特徵之值的構件
FE20‧‧‧用於選擇編碼方案之構件
FE30‧‧‧用於根據選定編碼方案來編碼訊框之構件
FE40‧‧‧用於產生封包之構件
FM10‧‧‧用於產生訊框之殘餘物的構件
FM20‧‧‧用於時間修改所產生之殘餘物的構件
FM30‧‧‧用於執行MDCT運算之構件
FM40‧‧‧用於量化MDCT係數之構件
FM50‧‧‧用於執行IMDCT運算之構件
ME100‧‧‧MDCT編碼器
ME110‧‧‧MDCT編碼器
ME120‧‧‧MDCT編碼器
ME130‧‧‧MDCT編碼器
ME140‧‧‧MDCT編碼器
ME200‧‧‧MDCT編碼器
ME210‧‧‧MDCT編碼器
MF100‧‧‧裝置
R10‧‧‧殘餘物產生器
R12‧‧‧殘餘物產生器
R20‧‧‧延遲輪廓計算器
R30‧‧‧偏移訊框選擇器
R40‧‧‧時間偏移計算器
R42‧‧‧時間偏移計算器
R44‧‧‧時間偏移計算器
R46‧‧‧時間偏移計算器
R50‧‧‧殘餘物修改器
R60‧‧‧過去經修改殘餘物映射器
R62‧‧‧過去經修改殘餘物映射器
R70‧‧‧暫時經修改殘餘物產生器
R80‧‧‧時間偏移更新器
R90‧‧‧經修改殘餘物緩衝器
RC100‧‧‧RCELP編碼器
RC105‧‧‧RCELP編碼器
RC110‧‧‧RCELP編碼器
RC115‧‧‧RCELP編碼器
RF10‧‧‧用於產生殘餘物之構件
RF20‧‧‧用於計算延遲輪廓之構件
RF30‧‧‧用於選擇偏移訊框之構件
RF40‧‧‧用於計算時間偏移之構件
RF50‧‧‧用於修改殘餘物之構件
RF100‧‧‧裝置
S20‧‧‧經時間修改之殘餘物信號
S25‧‧‧經時間修改之音訊信號
S30‧‧‧經量化之編碼殘餘物信號
S35‧‧‧經量化之編碼MDCT信號
S40‧‧‧經解碼之殘餘物信號
S45‧‧‧經解碼之MDCT信號
S50‧‧‧經編碼之雜訊注入參數
S100‧‧‧音訊信號
S110‧‧‧第一執行個體
S120‧‧‧第二執行個體
S200‧‧‧經編碼之音訊信號
S210‧‧‧執行個體
S220‧‧‧執行個體/音訊信號
S300‧‧‧接收版本/所接收之編碼音訊信號
S310‧‧‧接收版本
S320‧‧‧接收版本
S400‧‧‧經解碼之音訊信號/輸出話音信號
S410‧‧‧執行個體
S420‧‧‧執行個體
SL10‧‧‧LPC參數
SR10‧‧‧LPC殘餘物
TM10‧‧‧時間修改器
圖1說明無線電話系統之實例。
圖2說明經組態以支援封包交換資料通信之蜂巢式電話系統的實例。
圖3a說明包括音訊編碼器AE10及音訊解碼器AD10之編碼系統的方塊圖。
圖3b說明一對編碼系統之方塊圖。
圖4a說明音訊編碼器AE10之多模式實施AE20的方塊圖。
圖4b說明音訊解碼器AD10之多模式實施AD20的方塊圖。
圖5a說明音訊編碼器AE20之實施AE22的方塊圖。
圖5b說明音訊編碼器AE20之實施AE24的方塊圖。
圖6a說明音訊編碼器AE24之實施AE25的方塊圖。
圖6b說明音訊編碼器AE20之實施AE26的方塊圖。
圖7a說明編碼音訊信號之訊框之方法M10的流程圖。
圖7b說明經組態以編碼音訊信號之訊框之裝置F10的方塊圖。
圖8說明在被時間扭曲至延遲輪廓之前及之後之殘餘物的實例。
圖9說明在分段修改之前及之後之殘餘物的實例。
圖10說明RCELP編碼方法RM100之流程圖。
圖11說明RCELP編碼方法RM100之實施RM110的流程圖。
圖12a說明RCELP訊框編碼器34c之實施RC100的方塊圖。
圖12b說明RCELP編碼器RC100之實施RC110的方塊圖。
圖12c說明RCELP編碼器RC100之實施RC105的方塊圖。
圖12d說明RCELP編碼器RC110之實施RC115的方塊圖。
圖13說明殘餘產生器R10之實施R12的方塊圖。
圖14說明RCELP編碼裝置RF100之方塊圖。
圖15說明RCELP編碼方法RM100之實施RM120的流程圖。
圖16說明MDCT編碼方案之典型正弦窗形狀的三個實例。
圖17a說明MDCT編碼器34d之實施ME100的方塊圖。
圖17b說明MDCT編碼器34d之實施ME200的方塊圖。
圖18說明與圖16中所說明之開窗技術不同之開窗技術的一實例。
圖19a說明根據通用組態處理音訊信號之訊框之方法M100的流程圖。
圖19b說明任務T110之實施T112的流程圖。
圖19c說明任務T112之實施T114的流程圖。
圖20a說明MDCT編碼器ME100之實施ME110的方塊圖。
圖20b說明MDCT編碼器ME200之實施ME210的方塊圖。
圖21a說明MDCT編碼器ME100之實施ME120的方塊圖。
圖21b說明MDCT編碼器ME100之實施ME130的方塊圖。
圖22說明MDCT編碼器ME120及ME130之實施ME140的方塊圖。
圖23a說明MDCT編碼方法MM100之流程圖。
圖23b說明MDCT編碼裝置MF100之方塊圖。
圖24a說明根據通用組態處理音訊信號之訊框之方法M200的流程圖。
圖24b說明任務T620之實施T622的流程圖。
圖24c說明任務T620之實施T624的流程圖。
圖24d說明任務T622及T624之實施T626的流程圖。
圖25a說明由將MDCT窗應用於音訊信號之連續訊框而產生之重疊相加區域的實例。
圖25b說明將時間偏移應用於非PR訊框序列之實例。
圖26說明音訊通信器件1108之方塊圖。
(無元件符號說明)

Claims (71)

  1. 一種處理一音訊信號之訊框的方法,該方法包含:根據一音高規則化(PR)編碼方案來編碼該音訊信號之一第一訊框;及根據一非PR編碼方案來編碼該音訊信號之一第二訊框,其中該第二訊框在該音訊信號中跟隨且連續於該第一訊框,且其中該編碼一第一訊框包括基於一時間偏移來時間修改一基於該第一訊框之第一信號的一區段,該時間修改包括下列一者:(A)根據該時間偏移來時間偏移該第一訊框之該區段;及(B)基於該時間偏移來時間扭曲該第一信號之該區段,且其中該時間修改一第一信號之一區段包括改變該區段之一基頻脈衝相對於該第一信號之另一基頻脈衝的一位置,且其中該編碼一第二訊框包括基於該時間偏移來時間修改一基於該第二訊框之第二信號的一區段,該時間修改包括下列一者:(A)根據該時間偏移來時間偏移該第二訊框之該區段;及(B)基於該時間偏移來時間扭曲該第二信號之該區段。
  2. 如請求項1之方法,其中該編碼一第一訊框包括產生一基於該第一信號之該經時間修改區段的第一編碼訊框,且 其中該編碼一第二訊框包括產生一基於該第二信號之該經時間修改區段的第二編碼訊框。
  3. 如請求項1之方法,其中該第一信號為該第一訊框之一殘餘物,且其中該第二信號為該第二訊框之一殘餘物。
  4. 如請求項1之方法,其中該第一信號及該第二信號為經加權之音訊信號。
  5. 如請求項1之方法,其中該編碼該第一訊框包括基於來自該音訊信號中先於該第一訊框之一第三訊框的一殘餘物的資訊計算該時間偏移。
  6. 如請求項5之方法,其中該計算該時間偏移包括將該第三訊框之該殘餘物的樣本映射至該音訊信號之一延遲輪廓。
  7. 如請求項6之方法,其中該編碼該第一訊框包括基於關於該音訊信號之一基頻週期的資訊計算該延遲輪廓。
  8. 如請求項1之方法,其中該PR編碼方案為一寬鬆碼激勵線性預測編碼方案,且其中該非PR編碼方案為下列一者:(A)一雜訊激勵線性預測編碼方案;(B)一修改型離散餘弦變換編碼方案;及(C)一原型波形內插編碼方案。
  9. 如請求項1之方法,其中該非PR編碼方案為一修改型離散餘弦變換編碼方案。
  10. 如請求項1之方法,其中該編碼一第二訊框包括:對該第二訊框之一殘餘物執行一修改型離散餘弦變換(MDCT)運算以獲得一經編碼殘餘物;及 對一基於該經編碼殘餘物之信號執行一逆MDCT運算以獲得一經解碼殘餘物,其中該第二信號係基於該經解碼殘餘物。
  11. 如請求項1之方法,其中該編碼一第二訊框包括:產生該第二訊框之一殘餘物,其中該第二信號為該所產生之殘餘物;在該時間修改該第二信號之一區段之後,對包括該經時間修改區段之該所產生之殘餘物執行一修改型離散餘弦變換運算以獲得一經編碼殘餘物;及基於該經編碼殘餘物產生一第二編碼訊框。
  12. 如請求項1之方法,該方法更包含根據該時間偏移來時間偏移該音訊信號中跟隨該第二訊框的一訊框之一殘餘物的一區段。
  13. 如請求項1之方法,該方法更包括基於該時間偏移來時間修改一第三信號之一區段,該第三信號係基於該音訊信號之跟隨該第二訊框的一第三訊框,且其中該編碼一第二訊框包括在一包括該第二信號及該第三信號之該等經時間修改區段之樣本的窗上執行一修改型離散餘弦變換(MDCT)運算。
  14. 如請求項13之方法,其中該第二信號具有M個樣本之一長度,且該第三信號具有M個樣本之一長度,且其中該執行一MDCT運算包括產生M個MDCT係數之一集合,該集合係基於:(A)包括該經時間修改區段之該第二信號的M個樣本;及(B)該第三信號之至多3M/4個樣 本。
  15. 如請求項13之方法,其中該第二信號具有M個樣本之一長度,且該第三信號具有M個樣本之一長度,且其中該執行一MDCT運算包括產生M個MDCT係數之一集合,該集合係基於2M個樣本之一序列,該序列:(A)包括該第二信號之M個樣本,該第二信號包括該經時間修改區段;(B)以至少M/8個零值樣本的一序列開始;及(C)以至少M/8個零值樣本之一序列結束。
  16. 一種用於處理一音訊信號之訊框的裝置,該裝置包含:用於根據一音高規則化(PR)編碼方案來編碼該音訊信號之一第一訊框的構件;及用於根據一非PR編碼方案來編碼該音訊信號之一第二訊框的構件,其中該第二訊框在該音訊信號中跟隨且連續於該第一訊框,且其中用於編碼一第一訊框之該構件包括用於基於一時間偏移來時間修改一基於該第一訊框之第一信號之一區段的構件,用於時間修改之該構件經組態以執行下列一者:(A)根據該時間偏移來時間偏移該第一訊框之該區段;及(B)基於該時間偏移來時間扭曲該第一信號之該區段,且其中用於時間修改一第一信號之一區段的該構件經組態以改變該區段之一基頻脈衝相對於該第一信號之另一基頻脈衝的一位置,且 其中用於編碼一第二訊框之該構件包括用於基於該時間偏移來時間修改一基於該第二訊框之第二信號之一區段的構件,用於時間修改之該構件經組態以執行下列一者:(A)根據該時間偏移來時間偏移該第二訊框之該區段;及(B)基於該時間偏移來時間扭曲該第二信號之該區段。
  17. 如請求項16之裝置,其中該第一信號為該第一訊框之一殘餘物,且其中該第二信號為該第二訊框之一殘餘物。
  18. 如請求項16之裝置,其中該第一信號及該第二信號為經加權之音訊信號。
  19. 如請求項16之裝置,其中用於編碼該第一訊框之該構件包括用於基於來自該音訊信號中先於該第一訊框之一第三訊框之一殘餘物的資訊計算該時間偏移之構件。
  20. 如請求項16之裝置,其中用於編碼一第二訊框之該構件包括:用於產生該第二訊框之一殘餘物的構件,其中該第二信號為該所產生之殘餘物;及用於對包括該經時間修改區段之該所產生之殘餘物執行一修改型離散餘弦變換運算以獲得一經編碼殘餘物的構件,其中用於編碼一第二訊框之該構件經組態以基於該經編碼殘餘物產生一第二編碼訊框。
  21. 如請求項16之裝置,其中用於時間修改該第二信號之一區段的該構件經組態以根據該時間偏移來時間偏移該音 訊信號中跟隨該第二訊框之一訊框之一殘餘物的一區段。
  22. 如請求項16之裝置,其中用於時間修改一第二信號之一區段的該構件經組態以基於該時間偏移來時間修改一第三信號之一區段,該第三信號係基於該音訊信號之跟隨該第二訊框之一第三訊框,且其中用於編碼一第二訊框之該構件包括用於在一包括該第二信號及該第三信號之該等經時間修改區段之樣本的窗上執行一修改型離散餘弦變換(MDCT)運算的構件。
  23. 如請求項22之裝置,其中該第二信號具有M個樣本之一長度,且該第三信號具有M個樣本之一長度,且其中用於執行一MDCT運算之該構件經組態以產生M個MDCT係數之一集合,該集合係基於:(A)包括該經時間修改區段之該第二信號的M個樣本;及(B)該第三信號之至多3M/4個樣本。
  24. 一種用於處理一音訊信號之訊框的裝置,該裝置包含:一第一訊框編碼器,其經組態以根據一音高規則化(PR)編碼方案來編碼該音訊信號之一第一訊框;及一第二訊框編碼器,其經組態以根據一非PR編碼方案來編碼該音訊信號之一第二訊框,其中該第二訊框在該音訊信號中跟隨且連續於該第一訊框,且其中該第一訊框編碼器包括一第一時間修改器,其經 組態以基於一時間偏移來時間修改一基於該第一訊框之第一信號的一區段,該第一時間修改器經組態以執行下列一者:(A)根據該時間偏移來時間偏移該第一訊框之該區段;及(B)基於該時間偏移來時間扭曲該第一信號之該區段,且其中該第一時間修改器經組態以改變該區段之一基頻脈衝相對於該第一信號之另一基頻脈衝的一位置,且其中該第二訊框編碼器包括一第二時間修改器,其經組態以基於該時間偏移來時間修改一基於該第二訊框之第二信號的之一區段,該第二時間修改器經組態以執行下列一者:(A)根據該時間偏移來時間偏移該第二訊框之該區段;及(B)基於該時間偏移來時間扭曲該第二信號之該區段。
  25. 如請求項24之裝置,其中該第一信號為該第一訊框之一殘餘物,且其中該第二信號為該第二訊框之一殘餘物。
  26. 如請求項24之裝置,其中該第一信號及該第二信號為經加權之音訊信號。
  27. 如請求項24之裝置,其中該第一訊框編碼器包括一時間偏移計算器,其經組態以基於來自該音訊信號中先於該第一訊框之一第三訊框之一殘餘物的資訊計算該時間偏移。
  28. 如請求項24之裝置,其中該第二訊框編碼器包括:一殘餘物產生器,其經組態以產生該第二訊框之一殘餘物,其中該第二信號為該所產生之殘餘物;及 一修改型離散餘弦變換(MDCT)模組,其經組態以對包括該經時間修改區段之該所產生之殘餘物執行一MDCT運算以獲得一經編碼殘餘物,其中該第二訊框編碼器經組態以基於該經編碼殘餘物產生一第二編碼訊框。
  29. 如請求項24之裝置,其中該第二時間修改器經組態以根據該時間偏移來時間偏移該音訊信號中跟隨該第二訊框的一訊框之一殘餘物的一區段。
  30. 如請求項24之裝置,其中該第二時間修改器經組態以基於該時間偏移來時間修改一第三信號之一區段,該第三信號係基於該音訊信號之跟隨該第二訊框的一第三訊框,且其中該第二訊框編碼器包括一修改型離散餘弦變換(MDCT)模組,該修改型離散餘弦變換(MDCT)模組經組態以在一包括該第二信號及該第三信號之該等經時間修改區段之樣本的窗上執行一MDCT運算。
  31. 如請求項30之裝置,其中該第二信號具有M個樣本之一長度,且該第三信號具有M個樣本之一長度,且其中該MDCT模組經組態以產生M個MDCT係數之一集合,該集合係基於:(A)包括該經時間修改區段之該第二信號的M個樣本;及(B)該第三信號之至多3M/4個樣本。
  32. 一種電腦可讀媒體,其包含在由一處理器執行時引起該處理器執行下列行動之指令:根據一音高規則化(PR)編碼方案來編碼該音訊信號之 一第一訊框;及根據一非PR編碼方案來編碼該音訊信號之一第二訊框,其中該第二訊框在該音訊信號中跟隨且連續於該第一訊框,且其中在經執行時引起該處理器編碼一第一訊框之該等指令包括用於基於一時間偏移來時間修改一基於該第一訊框之第一信號之一區段的指令,用於時間修改之該等指令包括下列一者:(A)用於根據該時間偏移來時間偏移該第一訊框之該區段的指令;及(B)用於基於該時間偏移來時間扭曲該第一信號之該區段的指令,且其中用於時間修改一第一信號之一區段的該等指令包括用於改變該區段之一基頻脈衝相對於該第一信號之另一基頻脈衝之一位置的指令,且其中在經執行時引起該處理器編碼一第二訊框之該等指令包括用於基於該時間偏移來時間修改一基於該第二訊框之第二信號之一區段的指令,用於時間修改之該等指令包括下列一者:(A)用於根據該時間偏移來時間偏移該第二訊框之該區段的指令;及(B)用於基於該時間偏移來時間扭曲該第二信號之該區段的指令。
  33. 一種處理一音訊信號之訊框的方法,該方法包含:根據一第一編碼方案來編碼該音訊信號之一第一訊框;及根據一音高規則化(PR)編碼方案來編碼該音訊信號之 一第二訊框,其中該第二訊框在該音訊信號中跟隨且連續於該第一訊框,且其中該第一編碼方案為一非PR編碼方案,且其中該編碼一第一訊框包括基於一第一時間偏移來時間修改一基於該第一訊框之第一信號的一區段,該時間修改包括下列一者:(A)根據該第一時間偏移來時間偏移該第一信號之該區段;及(B)基於該第一時間偏移來時間扭曲該第一信號之該區段;且其中該編碼一第二訊框包括基於一第二時間偏移來時間修改一基於該第二訊框之第二信號的一區段,該時間修改包括下列一者:(A)根據該第二時間偏移來時間偏移該第二信號之該區段;及(B)基於該第二時間偏移來時間扭曲該第二信號之該區段,其中該時間修改一第二信號之一區段包括改變該區段之一基頻脈衝相對於該第二信號之另一基頻脈衝的一位置,且其中該第二時間偏移係基於來自該第一信號之該經時間修改區段的資訊。
  34. 如請求項33之方法,其中該編碼一第一訊框包括產生一基於該第一信號之該經時間修改區段的第一編碼訊框,且其中該編碼一第二訊框包括產生一基於該第二信號之該經時間修改區段的第二編碼訊框。
  35. 如請求項33之方法,其中該第一信號為該第一訊框之一殘餘物,且其中該第二信號為該第二訊框之一殘餘物。
  36. 如請求項33之方法,其中該第一信號及該第二信號為經加權之音訊信號。
  37. 如請求項33之方法,其中該時間修改該第二信號之一區段包括基於來自該第一信號之該經時間修改區段的資訊計算該第二時間偏移,且其中該計算該第二時間偏移包括將該第一信號之該經時間修改區段映射至一基於來自該第二訊框之資訊的延遲輪廓。
  38. 如請求項37之方法,其中該第二時間偏移係基於該經映射區段之樣本與一暫時經修改殘餘物之樣本之間的一相關性,且其中該暫時經修改殘餘物係基於:(A)該第二訊框之一殘餘物的樣本;及(B)該第一時間偏移。
  39. 如請求項33之方法,其中該第二信號為該第二訊框之一殘餘物,且其中該時間修改該第二信號之一區段包括根據該第二時間偏移來時間偏移該殘餘物之一第一區段,且其中該方法包含:基於來自該第一信號之該經時間修改區段的資訊計算一不同於該第二時間偏移之第三時間偏移;及根據該第三時間偏移來時間偏移該殘餘物之一第二區段。
  40. 如請求項33之方法,其中該第二信號為該第二訊框之一殘餘物,且其中該時間修改該第二信號之一區段包括根據該第二時間偏移來時間偏移該殘餘物之一第一區段,且該方法更包含:基於來自該殘餘物之該經時間修改之第一區段的資訊計算一不同於該第二時間偏移之第三時間偏移;及根據該第三時間偏移來時間偏移該殘餘物之一第二區段。
  41. 如請求項33之方法,其中該時間修改該第二信號之一區段包括將該第一信號之該經時間修改區段的樣本映射至一基於來自該第二訊框之資訊的延遲輪廓。
  42. 如請求項33之方法,該方法更包含:將一基於該第一信號之該經時間修改區段的序列儲存至一自適應碼簿緩衝器;及在該儲存之後,將該自適應碼簿緩衝器之樣本映射至一基於來自該第二訊框之資訊的延遲輪廓。
  43. 如請求項33之方法,其中該第二信號為該第二訊框之一殘餘物,且其中該時間修改該第二信號之一區段包括時間扭曲該第二訊框之該殘餘物,且其中該方法包含基於來自該第二訊框之該經時間扭曲殘餘物的資訊來時間扭曲該音訊信號之一第三訊框的一殘餘物,其中該第三訊框在該音訊信號中連續於該第二訊框。
  44. 如請求項33之方法,其中該第二信號為該第二訊框之一殘餘物,且其中該時間修改該第二信號之一區段包括基於(A)來自該第一信號之該經時間修改區段的資訊及(B)來自該第二訊框之該殘餘物的資訊而計算該第二時間偏移。
  45. 如請求項33之方法,其中該PR編碼方案為一寬鬆碼激勵線性預測編碼方案,且其中該非PR編碼方案為下列一者:(A)一雜訊激勵線性預測編碼方案;(B)一修改型離散餘弦變換編碼方案;及(C)一原型波形內插編碼方案。
  46. 如請求項33之方法,其中該非PR編碼方案為一修改型離散餘弦變換編碼方案。
  47. 如請求項33之方法,其中該編碼一第一訊框包括:對該第一訊框之一殘餘物執行一修改型離散餘弦變換(MDCT)運算以獲得一經編碼殘餘物;及對一基於該經編碼殘餘物之信號執行一逆MDCT運算以獲得一經解碼殘餘物,其中該第一信號係基於該經解碼殘餘物。
  48. 如請求項33之方法,其中該編碼一第一訊框包括:產生該第一訊框之一殘餘物,其中該第一信號為該所產生之殘餘物;在該時間修改該第一信號之一區段之後,對包括該經時間修改區段之該所產生之殘餘物執行一修改型離散餘弦變換運算以獲得一經編碼殘餘物;及基於該經編碼殘餘物產生一第一編碼訊框。
  49. 如請求項33之方法,其中該第一信號具有M個樣本之一長度,且該第二信號具有M個樣本之一長度,且其中該編碼一第一訊框包括產生M個修改型離散餘弦變換(MDCT)係數之一集合,該集合係基於:包括該經時間修改區段之該第一信號的M個樣本;及該第二信號之至多3M/4個樣本。
  50. 如請求項33之方法,其中該第一信號具有M個樣本之一長度,且該第二信號具有M個樣本之一長度,且其中該編碼一第一訊框包括產生M個修改型離散餘弦變換(MDCT)係數之一集合,該集合係基於2M個樣本之一序列,該序列:(A)包括該第一信號之M個樣本,該第一信號包括該經時間修改區段;(B)以至少M/8個零值樣本之一序列開始;及(C)以至少M/8個零值樣本之一序列結束。
  51. 一種用於處理一音訊信號之訊框的裝置,該裝置包含:用於根據一第一編碼方案來編碼該音訊信號之一第一訊框的構件;及用於根據一音高規則化(PR)編碼方案來編碼該音訊信號之一第二訊框的構件,其中該第二訊框在該音訊信號中跟隨且連續於該第一訊框,且其中該第一編碼方案為一非PR編碼方案,且其中用於編碼一第一訊框之該構件包括用於基於一第一時間偏移來時間修改一基於該第一訊框之第一信號之 一區段的構件,用於時間修改之該構件經組態以執行下列一者:(A)根據該第一時間偏移來時間偏移該第一信號之該區段;及(B)基於該第一時間偏移來時間扭曲該第一信號之該區段;且其中用於編碼一第二訊框之該構件包括用於基於一第二時間偏移來時間修改一基於該第二訊框之第二信號之一區段的構件,用於時間修改之該構件經組態以執行下列一者:(A)根據該第二時間偏移來時間偏移該第二信號之該區段;及(B)基於該第二時間偏移來時間扭曲該第二信號之該區段,其中用於時間修改一第二信號之一區段的該構件經組態以改變該區段之一基頻脈衝相對於該第二信號之另一基頻脈衝的一位置,且其中該第二時間偏移係基於來自該第一信號之該經時間修改區段的資訊。
  52. 如請求項51之裝置,其中該第一信號為該第一訊框之一殘餘物,且其中該第二信號為該第二訊框之一殘餘物。
  53. 如請求項51之裝置,其中該第一信號及該第二信號為經加權之音訊信號。
  54. 如請求項51之裝置,其中用於時間修改該第二信號之一區段的該構件包括用於基於來自該第一信號之該經時間修改區段的資訊計算該第二時間偏移之構件,且其中用於計算該第二時間偏移之該構件包括用於將該第一信號之該經時間修改區段映射至一基於來自該第二 訊框之資訊的延遲輪廓之構件。
  55. 如請求項54之裝置,其中該第二時間偏移係基於該經映射區段之樣本與一暫時經修改殘餘物之樣本之間的一相關性,且其中該暫時經修改殘餘物係基於:(A)該第二訊框之一殘餘物的樣本;及(B)該第一時間偏移。
  56. 如請求項51之裝置,其中該第二信號為該第二訊框之一殘餘物,且其中用於時間修改該第二信號之一區段的該構件經組態以根據該第二時間偏移來時間偏移該殘餘物之一第一區段,且該裝置更包含:用於基於來自該殘餘物之該經時間修改之第一區段的資訊計算一不同於該第二時間偏移之第三時間偏移的構件;及用於根據該第三時間偏移來時間偏移該殘餘物之一第二區段的構件。
  57. 如請求項51之裝置,其中該第二信號為該第二訊框之一殘餘物,且其中用於時間修改該第二信號之一區段的該構件包括用於基於(A)來自該第一信號之該經時間修改區段的資訊及(B)來自該第二訊框之該殘餘物的資訊而計算該第二時間偏移之構件。
  58. 如請求項51之裝置,其中用於編碼一第一訊框之該構件包括: 用於產生該第一訊框之一殘餘物的構件,其中該第一信號為該所產生之殘餘物;及用於對包括該經時間修改區段之該所產生之殘餘物執行一修改型離散餘弦變換運算以獲得一經編碼殘餘物的構件,且其中用於編碼一第一訊框之該構件經組態以基於該經編碼殘餘物產生一第一編碼訊框。
  59. 如請求項51之裝置,其中該第一信號具有M個樣本之一長度且該第二信號具有M個樣本之一長度,且其中用於編碼一第一訊框之該構件包括用於產生M個修改型離散餘弦變換(MDCT)係數之一集合的構件,該集合係基於:包括該經時間修改區段之該第一信號的M個樣本;及該第二信號之至多3M/4個樣本。
  60. 如請求項51之裝置,其中該第一信號具有M個樣本之一長度,且該第二信號具有M個樣本之一長度,且其中用於編碼一第一訊框之該構件包括用於產生M個修改型離散餘弦變換(MDCT)係數之一集合的構件,該集合係基於2M個樣本之一序列,該序列:(A)包括該第一信號之M個樣本,該第一信號包括該經時間修改區段;(B)以至少M/8個零值樣本之一序列開始;及(C)以至少M/8個零值樣本之一序列結束。
  61. 一種用於處理一音訊信號之訊框的裝置,該裝置包含:一第一訊框編碼器,其經組態以根據一第一編碼方案來編碼該音訊信號之一第一訊框;及 一第二訊框編碼器,其經組態以根據一音高規則化(PR)編碼方案來編碼該音訊信號之一第二訊框,其中該第二訊框在該音訊信號中跟隨且連續於該第一訊框,且其中該第一編碼方案為一非PR編碼方案,且其中該第一訊框編碼器包括一第一時間修改器,其經組態以基於一第一時間偏移來時間修改一基於該第一訊框之第一信號的一區段,該第一時間修改器經組態以執行下列一者:(A)根據該第一時間偏移來時間偏移該第一信號之該區段;及(B)基於該第一時間偏移來時間扭曲該第一信號之該區段;且其中該第二訊框編碼器包括一第二時間修改器,其經組態以基於一第二時間偏移來時間修改一基於該第二訊框之第二信號的一區段,該第二時間修改器經組態以執行下列一者:(A)根據該第二時間偏移來時間偏移該第二信號之該區段;及(B)基於該第二時間偏移來時間扭曲該第二信號之該區段,其中該第二時間修改器經組態以改變一第二信號之該區段之一基頻脈衝相對於該第二信號之另一基頻脈衝的一位置,且其中該第二時間偏移係基於來自該第一信號之該經時間修改區段的資訊。
  62. 如請求項61之裝置,其中該第一信號為該第一訊框之一殘餘物,且其中該第二信號為該第二訊框之一殘餘物。
  63. 如請求項61之裝置,其中該第一信號及該第二信號為經加權之音訊信號。
  64. 如請求項61之裝置,其中該第二時間修改器包括一時間偏移計算器,其經組態以基於來自該第一信號之該經時間修改區段的資訊計算該第二時間偏移,且其中該時間偏移計算器包括一映射器,其經組態以將該第一信號之該經時間修改區段映射至一基於來自該第二訊框之資訊的延遲輪廓。
  65. 如請求項64之裝置,其中該第二時間偏移係基於該經映射區段之樣本與一暫時經修改殘餘物之樣本之間的一相關性,且其中該暫時經修改殘餘物係基於:(A)該第二訊框之一殘餘物的樣本;及(B)該第一時間偏移。
  66. 如請求項61之裝置,其中該第二信號為該第二訊框之一殘餘物,且其中該第二時間修改器經組態以根據該第二時間偏移來時間偏移該殘餘物之一第一區段,且其中該時間偏移計算器經組態以基於來自該殘餘物之該經時間修改之第一區段的資訊計算一不同於該第二時間偏移之第三時間偏移,且其中該第二時間偏移器經組態以根據該第三時間偏移來時間偏移該殘餘物之一第二區段。
  67. 如請求項61之裝置,其中該第二信號為該第二訊框之一殘餘物,且其中該第二時間修改器包括一時間偏移計算 器,該時間偏移計算器經組態以基於(A)來自該第一信號之該經時間修改區段的資訊及(B)來自該第二訊框之該殘餘物的資訊而計算該第二時間偏移。
  68. 如請求項61之裝置,其中該第一訊框編碼器包括:一殘餘物產生器,其經組態以產生該第一訊框之一殘餘物,其中該第一信號為該所產生之殘餘物;及一修改型離散餘弦變換(MDCT)模組,其經組態以對包括該經時間修改區段之該所產生之殘餘物執行一MDCT運算,以獲得一經編碼殘餘物,且其中該第一訊框編碼器經組態以基於該經編碼殘餘物產生一第一編碼訊框。
  69. 如請求項61之裝置,其中該第一信號具有M個樣本之一長度,且該第二信號具有M個樣本之一長度,且其中該第一訊框編碼器包括一修改型離散餘弦變換(MDCT)模組,其經組態以產生M個MDCT係數之一集合,該集合係基於:包括該經時間修改區段之該第一信號的M個樣本;及該第二信號之至多3M/4個樣本。
  70. 如請求項61之裝置,其中該第一信號具有M個樣本之一長度,且該第二信號具有M個樣本之一長度,且其中該第一訊框編碼器包括一修改型離散餘弦變換(MDCT)模組,其經組態以產生M個MDCT係數之一集合,該集合係基於2M個樣本之一序列,該序列:(A)包括該第一信號之M個樣本;該第一信號包括該經時間修改區段;(B)以至少M/8個零值樣本之一序列開始;及(C) 以至少M/8個零值樣本之一序列結束。
  71. 一種電腦可讀媒體,其包含在由一處理器執行時引起該處理器執行下列行動之指令:根據一第一編碼方案來編碼該音訊信號之一第一訊框;及根據一音高規則化(PR)編碼方案來編碼該音訊信號之一第二訊框,其中該第二訊框在該音訊信號中跟隨且連續於該第一訊框,且其中該第一編碼方案為一非PR編碼方案,且其中在由一處理器執行時引起該處理器編碼一第一訊框之該等指令包括用於基於一第一時間偏移來時間修改一基於該第一訊框之第一信號之一區段的指令,用於時間修改之該等指令包括下列一者:(A)用於根據該第一時間偏移來時間偏移該第一信號之該區段的指令;及(B)用於基於該第一時間偏移來時間扭曲該第一信號之該區段的指令;且其中在由一處理器執行時引起該處理器編碼一第二訊框之該等指令包括用於基於一第二時間偏移來時間修改一基於該第二訊框之第二信號之一區段的指令,用於時間修改之該等指令包括下列一者:(A)用於根據該第二時間偏移來時間偏移該第二信號之該區段的指令;及(B)用於基於該第二時間偏移來時間扭曲該第二信號之該區段的指令, 其中用於時間修改一第二信號之一區段的該等指令包括用於改變該區段之一基頻脈衝相對於該第二信號之另一基頻脈衝之一位置的指令,且其中該第二時間偏移係基於來自該第一信號之該經時間修改區段的資訊。
TW097122276A 2007-06-13 2008-06-13 利用音高規則化及非音高規則化編碼用於信號編碼之系統,方法及裝置 TWI405186B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US94355807P 2007-06-13 2007-06-13
US12/137,700 US9653088B2 (en) 2007-06-13 2008-06-12 Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding

Publications (2)

Publication Number Publication Date
TW200912897A TW200912897A (en) 2009-03-16
TWI405186B true TWI405186B (zh) 2013-08-11

Family

ID=40133142

Family Applications (1)

Application Number Title Priority Date Filing Date
TW097122276A TWI405186B (zh) 2007-06-13 2008-06-13 利用音高規則化及非音高規則化編碼用於信號編碼之系統,方法及裝置

Country Status (10)

Country Link
US (1) US9653088B2 (zh)
EP (1) EP2176860B1 (zh)
JP (2) JP5405456B2 (zh)
KR (1) KR101092167B1 (zh)
CN (1) CN101681627B (zh)
BR (1) BRPI0812948A2 (zh)
CA (1) CA2687685A1 (zh)
RU (2) RU2010100875A (zh)
TW (1) TWI405186B (zh)
WO (1) WO2008157296A1 (zh)

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100788706B1 (ko) * 2006-11-28 2007-12-26 삼성전자주식회사 광대역 음성 신호의 부호화/복호화 방법
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US8527265B2 (en) * 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
US8254588B2 (en) 2007-11-13 2012-08-28 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for providing step size control for subband affine projection filters for echo cancellation applications
ES2654433T3 (es) 2008-07-11 2018-02-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de señal de audio, método para codificar una señal de audio y programa informático
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
KR101381513B1 (ko) * 2008-07-14 2014-04-07 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
KR101170466B1 (ko) 2008-07-29 2012-08-03 한국전자통신연구원 Mdct 영역에서의 후처리 방법, 및 장치
CN104240713A (zh) * 2008-09-18 2014-12-24 韩国电子通信研究院 编码方法和解码方法
WO2010047566A2 (en) * 2008-10-24 2010-04-29 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
CN101604525B (zh) * 2008-12-31 2011-04-06 华为技术有限公司 基音增益获取方法、装置及编码器、解码器
WO2010102446A1 (zh) 2009-03-11 2010-09-16 华为技术有限公司 一种线性预测分析方法、装置及系统
US8805680B2 (en) * 2009-05-19 2014-08-12 Electronics And Telecommunications Research Institute Method and apparatus for encoding and decoding audio signal using layered sinusoidal pulse coding
KR20110001130A (ko) * 2009-06-29 2011-01-06 삼성전자주식회사 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
JP5304504B2 (ja) * 2009-07-17 2013-10-02 ソニー株式会社 信号符号化装置、信号復号装置、信号処理システム、これらにおける処理方法およびプログラム
FR2949582B1 (fr) * 2009-09-02 2011-08-26 Alcatel Lucent Procede pour rendre un signal musical compatible avec un codec a transmission discontinue ; et dispositif pour la mise en ?uvre de ce procede
PL4152320T3 (pl) 2009-10-21 2024-02-19 Dolby International Ab Nadpróbkowanie w banku filtrów połączonym z modułem transpozycji
US8682653B2 (en) * 2009-12-15 2014-03-25 Smule, Inc. World stage for pitch-corrected vocal performances
US9147385B2 (en) 2009-12-15 2015-09-29 Smule, Inc. Continuous score-coded pitch correction
CN102884572B (zh) * 2010-03-10 2015-06-17 弗兰霍菲尔运输应用研究公司 音频信号解码器、音频信号编码器、用以将音频信号解码的方法、及用以将音频信号编码的方法
GB2546687B (en) 2010-04-12 2018-03-07 Smule Inc Continuous score-coded pitch correction and harmony generation techniques for geographically distributed glee club
US9601127B2 (en) 2010-04-12 2017-03-21 Smule, Inc. Social music system and method with continuous, real-time pitch correction of vocal performance and dry vocal capture for subsequent re-rendering based on selectively applicable vocal effect(s) schedule(s)
US10930256B2 (en) 2010-04-12 2021-02-23 Smule, Inc. Social music system and method with continuous, real-time pitch correction of vocal performance and dry vocal capture for subsequent re-rendering based on selectively applicable vocal effect(s) schedule(s)
RU2582061C2 (ru) 2010-06-09 2016-04-20 Панасоник Интеллекчуал Проперти Корпорэйшн оф Америка Способ расширения ширины полосы, устройство расширения ширины полосы, программа, интегральная схема и устройство декодирования аудио
US8831933B2 (en) 2010-07-30 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for multi-stage shape vector quantization
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
US20120089390A1 (en) * 2010-08-27 2012-04-12 Smule, Inc. Pitch corrected vocal capture for telephony targets
US8924200B2 (en) * 2010-10-15 2014-12-30 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
US20120143611A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Trajectory Tiling Approach for Text-to-Speech
PT2676270T (pt) 2011-02-14 2017-05-02 Fraunhofer Ges Forschung Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade
JP5625126B2 (ja) 2011-02-14 2014-11-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル領域ノイズ整形を使用する線形予測ベースコーディングスキーム
JP5849106B2 (ja) 2011-02-14 2016-01-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低遅延の統合されたスピーチ及びオーディオ符号化におけるエラー隠しのための装置及び方法
RU2560788C2 (ru) 2011-02-14 2015-08-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для обработки декодированного аудиосигнала в спектральной области
JP5800915B2 (ja) 2011-02-14 2015-10-28 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ信号のトラックのパルス位置の符号化および復号化
SG185519A1 (en) 2011-02-14 2012-12-28 Fraunhofer Ges Forschung Information signal representation using lapped transform
CN105304090B (zh) * 2011-02-14 2019-04-09 弗劳恩霍夫应用研究促进协会 使用对齐的前瞻部分将音频信号编码及解码的装置与方法
TWI591468B (zh) 2011-03-30 2017-07-11 仁寶電腦工業股份有限公司 電子裝置與風扇控制方法
US9866731B2 (en) 2011-04-12 2018-01-09 Smule, Inc. Coordinating and mixing audiovisual content captured from geographically distributed performers
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
WO2013061211A1 (en) * 2011-10-27 2013-05-02 Centre For Development Of Telematics (C-Dot) A communication system for managing leased line network and a method thereof
US20140269259A1 (en) * 2011-10-27 2014-09-18 Centre For Development Of Telematics (C-Dot) Communication system for managing leased line network with wireless fallback
KR101390551B1 (ko) * 2012-09-24 2014-04-30 충북대학교 산학협력단 저 지연 변형된 이산 코사인 변환 방법
EP3933836A1 (en) 2012-11-13 2022-01-05 Samsung Electronics Co., Ltd. Method and apparatus for determining encoding mode, method and apparatus for encoding audio signals, and method and apparatus for decoding audio signals
EP2757558A1 (en) * 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding
EP3451334B1 (en) 2013-01-29 2020-04-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Noise filling concept
CN117253497A (zh) * 2013-04-05 2023-12-19 杜比国际公司 音频信号的解码方法和解码器、介质以及编码方法
CN104301064B (zh) * 2013-07-16 2018-05-04 华为技术有限公司 处理丢失帧的方法和解码器
US9984706B2 (en) * 2013-08-01 2018-05-29 Verint Systems Ltd. Voice activity detection using a soft decision mechanism
CN104681032B (zh) * 2013-11-28 2018-05-11 中国移动通信集团公司 一种语音通信方法和设备
WO2015104065A1 (en) * 2014-01-13 2015-07-16 Nokia Solutions And Networks Oy Method, apparatus and computer program
US9666210B2 (en) * 2014-05-15 2017-05-30 Telefonaktiebolaget Lm Ericsson (Publ) Audio signal classification and coding
CN105225666B (zh) 2014-06-25 2016-12-28 华为技术有限公司 处理丢失帧的方法和装置
CN106228991B (zh) 2014-06-26 2019-08-20 华为技术有限公司 编解码方法、装置及系统
EP3796314B1 (en) * 2014-07-28 2021-12-22 Nippon Telegraph And Telephone Corporation Coding of a sound signal
RU2632151C2 (ru) 2014-07-28 2017-10-02 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ выбора одного из первого алгоритма кодирования и второго алгоритма кодирования с использованием уменьшения гармоник
CN112967727A (zh) * 2014-12-09 2021-06-15 杜比国际公司 Mdct域错误掩盖
CN104616659B (zh) * 2015-02-09 2017-10-27 山东大学 相位对重构语音声调感知影响方法及在人工耳蜗中应用
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
US11488569B2 (en) 2015-06-03 2022-11-01 Smule, Inc. Audio-visual effects system for augmentation of captured performance based on content thereof
US10210871B2 (en) * 2016-03-18 2019-02-19 Qualcomm Incorporated Audio processing for temporally mismatched signals
US11310538B2 (en) 2017-04-03 2022-04-19 Smule, Inc. Audiovisual collaboration system and method with latency management for wide-area broadcast and social media-type user interface mechanics
CN110692252B (zh) 2017-04-03 2022-11-01 思妙公司 具有用于广域广播的延迟管理的视听协作方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US20030009325A1 (en) * 1998-01-22 2003-01-09 Raif Kirchherr Method for signal controlled switching between different audio coding schemes
US20050065782A1 (en) * 2000-09-22 2005-03-24 Jacek Stachurski Hybrid speech coding and system
TW200638336A (en) * 2005-03-11 2006-11-01 Qualcomm Inc Time warping frames inside the vocoder by modifying the residual
TW200643897A (en) * 2005-04-15 2006-12-16 Coding Tech Ab Adaptive residual audio coding
TW200710826A (en) * 2005-04-13 2007-03-16 Fraunhofer Ges Forschung Adaptive grouping of parameters for enhanced coding efficiency
TW200719319A (en) * 2005-11-03 2007-05-16 Coding Tech Ab Time warped modified transform coding of audio signals

Family Cites Families (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5384891A (en) 1988-09-28 1995-01-24 Hitachi, Ltd. Vector quantizing apparatus and speech analysis-synthesis system using the apparatus
US5357594A (en) 1989-01-27 1994-10-18 Dolby Laboratories Licensing Corporation Encoding and decoding using specially designed pairs of analysis and synthesis windows
JPH0385398A (ja) 1989-08-30 1991-04-10 Omron Corp 扇風機の送風量ファジイ制御装置
CN1062963C (zh) 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
FR2675969B1 (fr) 1991-04-24 1994-02-11 France Telecom Procede et dispositif de codage-decodage d'un signal numerique.
US5455888A (en) 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
JP3531177B2 (ja) 1993-03-11 2004-05-24 ソニー株式会社 圧縮データ記録装置及び方法、圧縮データ再生方法
TW271524B (zh) 1994-08-05 1996-03-01 Qualcomm Inc
EP0732687B2 (en) 1995-03-13 2005-10-12 Matsushita Electric Industrial Co., Ltd. Apparatus for expanding speech bandwidth
US5704003A (en) 1995-09-19 1997-12-30 Lucent Technologies Inc. RCELP coder
KR100389895B1 (ko) * 1996-05-25 2003-11-28 삼성전자주식회사 음성 부호화 및 복호화방법 및 그 장치
US6134518A (en) 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
US6169970B1 (en) 1998-01-08 2001-01-02 Lucent Technologies Inc. Generalized analysis-by-synthesis speech coding method and apparatus
US6449590B1 (en) 1998-08-24 2002-09-10 Conexant Systems, Inc. Speech encoder using warping in long term preprocessing
US6754630B2 (en) * 1998-11-13 2004-06-22 Qualcomm, Inc. Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
DE60024963T2 (de) 1999-05-14 2006-09-28 Matsushita Electric Industrial Co., Ltd., Kadoma Verfahren und vorrichtung zur banderweiterung eines audiosignals
US6330532B1 (en) 1999-07-19 2001-12-11 Qualcomm Incorporated Method and apparatus for maintaining a target bit rate in a speech coder
JP4792613B2 (ja) 1999-09-29 2011-10-12 ソニー株式会社 情報処理装置および方法、並びに記録媒体
JP4211166B2 (ja) * 1999-12-10 2009-01-21 ソニー株式会社 符号化装置及び方法、記録媒体、並びに復号装置及び方法
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
EP1199711A1 (en) 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Encoding of audio signal using bandwidth expansion
US6694293B2 (en) * 2001-02-13 2004-02-17 Mindspeed Technologies, Inc. Speech coding system with a music classifier
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7136418B2 (en) 2001-05-03 2006-11-14 University Of Washington Scalable and perceptually ranked signal coding and decoding
US6658383B2 (en) 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6879955B2 (en) 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
CA2365203A1 (en) 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
EP1341160A1 (en) 2002-03-01 2003-09-03 Deutsche Thomson-Brandt Gmbh Method and apparatus for encoding and for decoding a digital information signal
US7116745B2 (en) 2002-04-17 2006-10-03 Intellon Corporation Block oriented digital communication system and method
BR0305556A (pt) 2002-07-16 2004-09-28 Koninkl Philips Electronics Nv Método e codificador para codificar pelo menos parte de um sinal de áudio a fim de obter um sinal codificado, sinal codificado representando pelo menos parte de um sinal de áudio, meio de armazenamento, método e decodificador para decodificar um sinal codificado, transmissor, receptor, e, sistema
US8090577B2 (en) * 2002-08-08 2012-01-03 Qualcomm Incorported Bandwidth-adaptive quantization
JP4178319B2 (ja) * 2002-09-13 2008-11-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理におけるフェーズ・アライメント
US20040098255A1 (en) 2002-11-14 2004-05-20 France Telecom Generalized analysis-by-synthesis speech coding method, and coder implementing such method
AU2003208517A1 (en) * 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
GB0321093D0 (en) 2003-09-09 2003-10-08 Nokia Corp Multi-rate coding
US7412376B2 (en) * 2003-09-10 2008-08-12 Microsoft Corporation System and method for real-time detection and preservation of speech onset in a signal
FR2867649A1 (fr) 2003-12-10 2005-09-16 France Telecom Procede de codage multiple optimise
US7516064B2 (en) 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
FI118834B (fi) * 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
WO2005099243A1 (ja) 2004-04-09 2005-10-20 Nec Corporation 音声通信方法及び装置
US8032360B2 (en) * 2004-05-13 2011-10-04 Broadcom Corporation System and method for high-quality variable speed playback of audio-visual media
MXPA06012617A (es) * 2004-05-17 2006-12-15 Nokia Corp Codificacion de audio con diferentes longitudes de cuadro de codificacion.
US7739120B2 (en) * 2004-05-17 2010-06-15 Nokia Corporation Selection of coding models for encoding an audio signal
JP5100124B2 (ja) 2004-10-26 2012-12-19 パナソニック株式会社 音声符号化装置および音声符号化方法
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
WO2006107838A1 (en) 2005-04-01 2006-10-12 Qualcomm Incorporated Systems, methods, and apparatus for highband time warping
FR2891100B1 (fr) * 2005-09-22 2008-10-10 Georges Samake Codec audio utilisant la transformation de fourier rapide, le recouvrement partiel et une decomposition en deux plans basee sur l'energie.
KR100715949B1 (ko) * 2005-11-11 2007-05-08 삼성전자주식회사 고속 음악 무드 분류 방법 및 그 장치
US8032369B2 (en) 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
KR100717387B1 (ko) * 2006-01-26 2007-05-11 삼성전자주식회사 유사곡 검색 방법 및 그 장치
KR100774585B1 (ko) * 2006-02-10 2007-11-09 삼성전자주식회사 변조 스펙트럼을 이용한 음악 정보 검색 방법 및 그 장치
US7987089B2 (en) 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
US8239190B2 (en) 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
US8126707B2 (en) * 2007-04-05 2012-02-28 Texas Instruments Incorporated Method and system for speech compression
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US20030009325A1 (en) * 1998-01-22 2003-01-09 Raif Kirchherr Method for signal controlled switching between different audio coding schemes
US20050065782A1 (en) * 2000-09-22 2005-03-24 Jacek Stachurski Hybrid speech coding and system
TW200638336A (en) * 2005-03-11 2006-11-01 Qualcomm Inc Time warping frames inside the vocoder by modifying the residual
TW200710826A (en) * 2005-04-13 2007-03-16 Fraunhofer Ges Forschung Adaptive grouping of parameters for enhanced coding efficiency
TW200643897A (en) * 2005-04-15 2006-12-16 Coding Tech Ab Adaptive residual audio coding
TW200719319A (en) * 2005-11-03 2007-05-16 Coding Tech Ab Time warped modified transform coding of audio signals

Also Published As

Publication number Publication date
TW200912897A (en) 2009-03-16
WO2008157296A1 (en) 2008-12-24
US20080312914A1 (en) 2008-12-18
BRPI0812948A2 (pt) 2014-12-09
CN101681627B (zh) 2013-01-02
CA2687685A1 (en) 2008-12-24
JP2010530084A (ja) 2010-09-02
CN101681627A (zh) 2010-03-24
KR20100031742A (ko) 2010-03-24
US9653088B2 (en) 2017-05-16
JP2013242579A (ja) 2013-12-05
JP5571235B2 (ja) 2014-08-13
RU2470384C1 (ru) 2012-12-20
KR101092167B1 (ko) 2011-12-13
JP5405456B2 (ja) 2014-02-05
EP2176860A1 (en) 2010-04-21
EP2176860B1 (en) 2014-12-03
RU2010100875A (ru) 2011-07-20

Similar Documents

Publication Publication Date Title
TWI405186B (zh) 利用音高規則化及非音高規則化編碼用於信號編碼之系統,方法及裝置
US10249313B2 (en) Adaptive bandwidth extension and apparatus for the same
ES2360176T3 (es) Alisamiento de discontinuidades entre tramas de habla.
JP4991854B2 (ja) オーディオ信号に関連付けられるフレームを持つ窓を修正するためのシステムと方法
ES2318820T3 (es) Procedimiento y aparatos de cuantificacion predictiva del habla de voces.
JP4166673B2 (ja) 相互使用可能なボコーダ
RU2421828C2 (ru) Системы и способы для включения идентификатора в пакет, ассоциативно связанный с речевым сигналом
RU2636685C2 (ru) Решение относительно наличия/отсутствия вокализации для обработки речи
US9418671B2 (en) Adaptive high-pass post-filter
KR20170003596A (ko) 음성 정보를 갖는 개선된 프레임 손실 보정

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees