TW201007704A - Coding of transitional speech frames for low-bit-rate applications - Google Patents
Coding of transitional speech frames for low-bit-rate applications Download PDFInfo
- Publication number
- TW201007704A TW201007704A TW098120890A TW98120890A TW201007704A TW 201007704 A TW201007704 A TW 201007704A TW 098120890 A TW098120890 A TW 098120890A TW 98120890 A TW98120890 A TW 98120890A TW 201007704 A TW201007704 A TW 201007704A
- Authority
- TW
- Taiwan
- Prior art keywords
- frame
- pitch
- peak
- sample
- candidate
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 126
- 230000005284 excitation Effects 0.000 claims description 63
- 238000012360 testing method Methods 0.000 claims description 25
- 230000000737 periodic effect Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000008901 benefit Effects 0.000 claims description 3
- 206010011224 Cough Diseases 0.000 claims 2
- 238000004080 punching Methods 0.000 claims 1
- 239000000523 sample Substances 0.000 description 114
- 230000007704 transition Effects 0.000 description 103
- 238000010586 diagram Methods 0.000 description 62
- 230000000875 corresponding effect Effects 0.000 description 54
- 239000013598 vector Substances 0.000 description 32
- 238000004891 communication Methods 0.000 description 21
- 238000005070 sampling Methods 0.000 description 17
- 238000001514 detection method Methods 0.000 description 16
- 230000015572 biosynthetic process Effects 0.000 description 14
- 238000003786 synthesis reaction Methods 0.000 description 14
- 230000003595 spectral effect Effects 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 10
- 239000004148 curcumin Substances 0.000 description 9
- 239000004334 sorbic acid Substances 0.000 description 9
- 239000004233 Indanthrene blue RS Substances 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 239000004291 sulphur dioxide Substances 0.000 description 8
- 239000001752 chlorophylls and chlorophyllins Substances 0.000 description 7
- 239000004300 potassium benzoate Substances 0.000 description 7
- 238000013139 quantization Methods 0.000 description 6
- 239000004106 carminic acid Substances 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 239000005711 Benzoic acid Substances 0.000 description 4
- 239000011668 ascorbic acid Substances 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 239000004173 sunset yellow FCF Substances 0.000 description 4
- 238000005311 autocorrelation function Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 239000004302 potassium sorbate Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 239000004149 tartrazine Substances 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- 235000012431 wafers Nutrition 0.000 description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001453 impedance spectrum Methods 0.000 description 2
- 210000004072 lung Anatomy 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002087 whitening effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101100008046 Caenorhabditis elegans cut-2 gene Proteins 0.000 description 1
- 208000001613 Gambling Diseases 0.000 description 1
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical group [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000003638 chemical reducing agent Substances 0.000 description 1
- 210000000078 claw Anatomy 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 235000021438 curry Nutrition 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000004403 ethyl p-hydroxybenzoate Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 235000011389 fruit/vegetable juice Nutrition 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 102220270083 rs1555407429 Human genes 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/125—Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
201007704 六、發明說明: 【發明所屬之技術領域】 本揭示案係關於語音信號之處理。 【先前技術】 藉由數位技術來傳輸音訊信號(諸如,話音及音樂)特別 在長途電話、諸如網路電話(亦稱為v〇Ip,其中Ip表示網 際網路協定)之封包交換式電話,及諸如蜂巢式電話之數 位無線電電話中已變得普遍。此激增已產生對減小用以經 由傳輸頻道傳送話音通信之資訊量同時維持重建語音之感 知品質的興趣。舉例而言,需要最佳地利用可用無線系統 頻寬有效使用系統頻寬之一種方式為使用信號壓縮技 術。對於載運語音信號之無線系統而言,出於此目的通常 使用S#音壓縮(或「語音編碼」)技術。 經組態以藉由提取與人類語音產生模型有關之參數來壓 縮語音的器件通常稱為聲碼器、「音訊編碼器」或「語音 編碼器」。(本文中互換地使用此等三個術語。)語音編碼: 通常包括-編碼器及—解碼器。編碼器通常將傳入之語音 信號(表示音訊資訊之數位信號)劃分成稱為「訊框」之; 間區段’分析每-訊框以提取某些相關參數,絲該等參 數量化成經編碼訊框。經編碼訊框經由傳輸頻道(亦即, 有線或無線網料接)傳輸至包括解碼器之接收器 器接收並處理經編碼訊框、將其解量化以 用經解量化之參數來重新建立語音訊框。 使 在典型通話中,每-說話者在約百分之六十的時間中不 141222.doc 201007704 發聲。語音編碼器通常經組態α區別語音信號之含有語音 之訊框(「有效訊框」)與語音信號之僅含有靜默或背景雜 訊之訊框(「無效訊框」)。此編碼器可經組態以使用不同 編碼模式及/或速率來編碼有效與無效訊框。舉例而言, 語音編瑪器通常經組態以與編碼有效訊框相比使用較少位 元來編碼無效訊框。語音編碼器可對於無效訊框使用較低 位元速率以支援在少許或甚至無察覺到之品質損失的情況 下以較低平均位元速率來傳送語音信號。
用以編碼有效訊框之位元速率之實例包括每訊框ΐ7ΐ個 位兀、每訊框80個位元及每訊框4〇個位元。用以編碼無效 Λ框之位兀速率之實例包括每訊框16個位元。在蜂巢式電 話系統(尤其依照如由電信工業協會(ArHngt〇n,va)發布之 臨時標準叫95或類似工業標準的线)之情形下,此等 四個位元速率亦分別稱作「全速率」、「半速率」、「四分之 一速车」及「八分之一速率」。 【發明内容】
一種根據-組態之編瑪語音信號之訊框的方法包括編碼 語音信m之第-訊框作為第—經編碼訊框,及編碼語音信 號之第二職作為第二經編碼訊^在此方 一訊框包括:基於來自卜訊框之至少—音調脈衝5 = 選擇複數個時域音調脈衝形狀中的—者;計算第_訊框之 終端音調脈衝的位置;及估計第一訊框之一音調週期。在 此方法中’編碼第二訊框包括:計算在第二訊框之一音調 脈衝形狀㈣-訊框之—音調脈衝形狀之間的—音調脈衝 141222.doc -4- 201007704 形狀差別;及計算在第二訊框之—音調週期與第—訊框之 -音調週期之間的-音調週期差別。在此方法卜第1 編碼訊框包括所選擇時域音調脈衝形狀、所計算位置及所 估計音調週期中的每—者之表示。在此方法中,第二經編 瑪訊框包括音調脈衝形狀㈣及音調週期差別中的每—者 之表示,且在語音信號中第二訊框在該第_訊框之後。 根據-組態之解碼語音信號之激勵信號的方法包括:解 碼一第一經編碼訊框之—部分以獲得—第-激勵信號;及 解瑪-第二經編碼訊框之1分以獲得—第二激勵信號。 在此方法中’第-經編竭訊框之該部分包括—時域音調脈 衝形狀、-音調峰值位置及—音調週期中的每—者之表 不在此方法中,第二經編碼訊框之該部分包括一音調脈 衝形狀差別及-音調週期差別中的每—者之表示。在此方 法中’解碼-第—經編碼訊框之—部分包括:根據該音調 峰值位置將該時域音調脈衝形狀之—第一複本配置於該第 激勵仡號内,及根據該音調♦值位置及該音調週期將該 時域音調脈衝形狀之一第二複本配置於該第一激勵信號 内。在此方法中,解碼一第二經編碼訊框之一部分包括·· 基於該時域音調脈衝形狀及該音調脈衝形狀差別來計算一 第二音調脈衝形狀;基於該音調週期及該音調週期差別計 算一第二音調週期;及根據該音調峰值位置及該第二音調 週期將該第二音調脈衝形狀之複數個複本配置於該第二激 勵信號内。 一種根據一組態之偵測語音信號之訊框之音調峰值的方 H1222.doc 201007704 法包括:偵測該訊框之-第—音調峰值;自該訊框之一第 -搜尋窗内之複數個樣本中選擇一候選樣本;自複數個距 離中選擇-候選距離,該複數個距離中的每—者對應於該 讯框之-第二搜尋窗内的一不同樣本。此方法包括選擇 (A)該候選樣本及(B)對應於該候選距離之該樣本中的一者 作為該訊框的-第二音調峰f在此方法中,該複數個距 離中的每-者係A)對應樣本與B)第-音調峰值之間的一距 離0 本文中亦明確預期到並揭示經組態以執行此等方法之裝 置及其他構件以及具有在藉由處理器執行時使得處理器執 行此等方法之要素的指令之電腦可讀媒體。 【實施方式】 如本文中所描述之系統、方法及裝置(例如,方法 M100、M200、M300、M500、M600及 /或 M700)可用以支 援處於低恆定位元速率或處於低最大位元速率(諸如,每 秒二千位元)的語音編碼。此受約束位元速率語音編碼之 應用包括經由衛星鏈路之話音電話之傳輸(亦稱為「衛星 上話音」)’其可用以支援缺少蜂巢式或有線電話之通信 基礎架構的偏遠地區的電話服務。衛星電話亦可用以支援 用於諸如車隊之行動接收器的連續廣域覆蓋,從而致能諸 如即按即說的服務。更一般而言,此受約束位元速率語音 編碼之應用並不限於涉及衛星之應用,且可延伸至任何功 率受限頻道。 除非受其上下文明確地限制,否則術語「信號」在本文 141222.doc -6 - 201007704 中用以扣不其普通意義申之任一者,包括如在導線、匯流 排或其他傳輸媒體上表達之記憶體位置(或記憶體位置之 集合)的狀態。除非受其上下文明確地限制,否則術語 產生」在本文中用以指示其普通意義中之任一者,諸 如’计异或以其它方式生成。除非受其上下文明確地限 制’否則術語「計算」在本文中用以指示其普通意義中之 任-者,諸如,計算、評估、產生及/或自一組值中進行 選擇除非文其上下文明確地限制,否則術語「獲得」用 以扎不其普通意義中之任一者,諸如計算、導出、接收 (例如,自外部器件)及/或擷取(例如,自儲存元件之陣 列)。除非受其上下文明確地限制,否則術語「估計」用 以指示其普通意義中之任一者’諸如,計算及/或評估。 在本描述及申請專利範圍中使用術語「包含」之處,其並 不排除其他元件或操作。術語「基於」(如在「A係基於 B」中)用以指示其普通意義中之任一者,其包括以下狀 況:⑴「至少基於」(例如’「A係至少基於B」)及(在特定 情形下適當之)(ii)「等於」(例如,「A等於B」)。任何以 引用方式對文獻之一部分之併入亦應理解為併入在該部分 内引用之術語或變數之定義(其中此等定義顯現於該文獻 之其他地方)。 除非另外指示,否則具有特定特徵之語音編碼器之任何 揭示内容亦明確地意欲揭示具有類似特徵之語音編碼方法 (且反之亦然),且根據一特定組態之語音編碼器之任何揭 示内容亦明確地意欲揭示根據—類似組態之語音編碼方法 141222.doc 201007704 (且反之亦然)。除非另外指示’否則用於對語音信號之訊 框執行操作之裝置的任何揭示内容亦明確地意欲揭示用於 對語音信號之訊框執行操作的對應方法(且反之亦然卜除 非另外指示’否則具有特㈣徵之語音解碼器之任何揭: 内容亦明確地意欲揭示具有類似特徵之語音解碼方法(且 反=亦旬’且根據—特定組態之語音解碼器之任何揭示 内容亦明確地意欲揭示根據一類似組態之語音解碼方法 (且反之亦然)。互換地使用術語「編碼器」、「編解碼器 及「編碼系統」以表示一系、统,該系統包括經組態以接收 語音信號之訊框(可能在諸如感知加權及/或其他滤波操作 之一或多個預處理操作之後)的至少一編碼器及一經組態 以產生訊框之經解碼表示的對應解碼器。 出於s吾音編碼目的,語音信號通常經數位化(或量化)以 獲得樣本流。可根據此項技術中已知之包括(例如)脈碼調 變(PCM)、壓擴μ律pCM及壓擴A律PCM的各種方法中之任 一者執行數位化過程。窄頻語音編碼器通常使用8 kHz之 取樣速率,而寬頻語音編碼器通常使用更高之取樣速率 (例如,12 或 16 kHz)。 語音編碼器經組態以將數位化語音信號處理為一系列訊 框。儘管處理訊框或訊框之區段(亦稱為子訊框)的操作亦 可包括其輸入中之一或多個鄰近訊框的區段,但此系列通 常實施為非重疊系列。語音信號之訊框通常足夠短從而可 預期信號之頻譜包絡在整個訊框期間保持相對固定。訊框 通常對應於5與35毫秒之間的語音信號(或約40至200個樣 141222.doc 201007704 本)’其中10、20及3 0毫秒為通常訊框大小。經編碼訊框 之實際大小可隨編碼位元速率而在訊框間改變。
20毫秒之訊框長度在7千赫茲(kHz)之取樣速率下對應於 140個樣本,在8 kHz之取樣速率下對應於16〇個樣本,且 在16 kHz之取樣速率下對應於32〇個樣本,但可使用據認 為適於特定應用之任何取樣速率。可用於語音編碼之取樣 速率的另一實例為12,8 kHz,且其他實例包括在自128 kHz至3 8.4 kHz之範圍内的其他速率。 通常,所有訊框具有相同之長度,且在本文中描述之特 定實例中假㈣句訊框長度。然而,亦明確預期到且據此 揭示可使用非均句的訊框長度。舉例而言,本文中所描述 之各種裝置及方法的實施亦可用於對於有效訊框及無效訊 框及/或對於有聲絲及無聲純使以肖餘長度的應 用中。 如上所提及’可能需要組態__語音編碼器以使用不同編 碼模式及/或速率來編碼有效訊框及無效訊框。為了區分 有效訊框與無效訊框,語音編碼ϋ通常包括-語音活動性 偵測器(通常稱為話音活動㈣測器或VAD),或以其它方 式執行偵測語音活動性的古土 的方法。此偵測器或方法可經組態 以基於一或多個因+ (渚如,訊框能量、信雜比、週期性 及零乂越速率)將訊框分類為古咕斗— 顯為有效或無效的。此分類可包 括:將此因子之>{會#甚_ & -量值與臨限值比較,及/或將此因子 之改變之量值與臨限值比較。 偵測語音活動性之狂立 之-曰活動性偵測器或方法亦可經組態 141222.doc 201007704 、將有效訊框分類為兩個或兩個以上不同類型中之—者 諸如,有聲(例如,表示母音聲)、無聲(例如,表示摩擦音 聲),或過渡(例如,表示字之開頭或結尾此分類可^ 於以下因[•諸如,語音及/或剩餘物之自相關、零交越 速率、第一反射係數及/或如(例如,關於編碼方案選擇号 C200及/或訊框重新分類器RC1())在本文中更詳細描述的其 他特徵。對於語音編碼器而言,可能需要使用不同編碼模 式及/或位元速率來編碼不同類型的有效訊框。
有聲語音之訊框傾向於具有為長期的(亦即,持續一個 以上訊框週期)且係關於音調的週期性結構。使用—編碼 此長期頻譜特徵之描述的編碼模式來編碼有聲訊框(或有 聲訊框之序列)通常為更有效的。此編碼模式之實例包括 碼激勵線性預測(CELP)及諸如原型㈣内插(pwi)的波形 内插技術。PWI編碼模式之一實例稱為原型音調週期 (PPP)。另一方面,無聲訊框及無效訊框通常缺少任何顯 著長期頻譜特徵’且語音編碼器可經組態以使用不試圖描 ❹ 述此特徵之編碼模式來編碼此等減。雜訊激勵線性預測 (NELP)為此編碼模式之一實例。 語音編碼器或語音編碼之方法可經組態以在位元速率及 編碼模式(亦稱為「編碼方案」)之不同組合中做出選擇。 舉例而言,語音編碼器可經組態以對於含有有聲語音之訊 框及過渡訊框使用全速率CELp方案,對於含有無聲語音 之訊框使用半速率NELP方案,且對於無效訊框使用八^ 之-速率NELP方案。此語音編碼器之其他實例支援用於 141222.doc .10- 201007704 或多個編碼方案之多個編碼速率,諸如,全速率CELP 方案及半速率CELP方案,及/或全速率ppp方案及四分之 一速率PPP方案。
如藉由δ吾音編碼器或語音編碼方法產生之經編瑪訊框通 常含有可藉以重建語音信號之對應訊框的值。舉例而言, 經編碼訊框可包括訊框内之能量在頻譜上之分布的描述。 此月b量分布亦稱為訊框之「頻率包絡」或「頻譜包絡」。 經編碼訊框通常包括描述訊框之頻譜包絡的有序值序列。 在一些狀況下,有序序列之每一值指示在對應頻率處或在 對應頻譜區上之信號振幅或量值。此描述之一實例為有序 傅立葉(Fourier)變換係數序列。 在其他狀況下,有序序列包括編碼模型之參數值。此有 序序列之一典型實例為線性預測編碼(LPC)分析之係數值 集合。此等LPC係數值編碼經編碼語音之共振(亦被稱為 八振峰」)’且可組態為濾波器係數或反射係數。多數 現代語音編碼n之編碼料⑽提取每—肺之Lpc係數 值集合的分析濾波器。集合(其通常經配置為—或多個向 量)中之係數值之數目亦稱為LPC分析之「階數」。如由通 信器件(諸如,蜂巢式電話)之語音編竭器所執行的Μ分 析之典型階數之實例包括四、六、 丁 、16、20、 24 、 28及32 。 =編碼器通常經組態成以量化形式越過傳輸頻道傳輸 頻4絡的描速(例如’作為至對應查找表或「褐 的一或多個索引)。因此’對於語音編碼器,可能需要以 141222.doc 201007704 可經有效量化之形式計算LPC係數值之集合,諸如線頻譜 對(LSP)、線頻譜頻率(LSF)、導抗頻譜對(ISP)、導抗頻譜 頻率(ISF)、倒頻譜係數或對數面積比之值的集合。語音編 碼器亦可經組態以在轉換及/或量化之前對有序值序列執 行其他操作(諸如,感知加權)。 魯 在一些狀況下,訊框之頻譜包絡的描述亦包括訊框之時 間資訊的描述(例如,如在傅立葉變換係數之有序序列 中)。在其他狀況下,經編碼訊框之語音參數集合亦可包 括訊框之時間資訊的描述。時間資訊之描述的形式可視用 以編碼框之特定編碼模式而定。對於—些編㈣式而言 (例如,對於CELP編碼模式而言),時間資訊之描述包括 咖分析之剩餘物賴述(亦稱為激勵信號的描述)。對應 =解喝器使用激勘信號來激勵(例如,如藉由頻譜包絡 述所界疋之)LPC模型。激勵信號之描述通常以量化形 作為至相應瑪薄中之—或多個索引)出現於經編 喝訊框中。 ❹ 時間資訊之描述亦可包括與激 ^ 興教勵化號之音調分量有關的 貪Λ。對於PPP編碼模式而 ^ 例如,經編碼時間資訊可 匕括待藉由語音解碼器使用 的立沒、真 使用之原型的描述以再生激勵信號 的曰調勿量。與音調分量有 / y ., 之資訊的描述通常以量化形 式(例如,作為至對應碼薄中 碼哺t * 或多個索引)出現於經編 碼訊框中。對於其他編 模式而幻,時間資訊之描述可/括(例如,對於赌編碼 為訊插之「能量包絡」〇;;括訊框之時間包絡(亦稱 」Χ增益包絡」)的描述。 141222.doc -12. 201007704 圖1展示隨時間消逝變化的有聲語音區段(諸如,母音) 之振幅的一實例。對於有聲訊框而言,激勵信號通常類似 在音調頻率的週期性之一系列脈衝,而對於無聲訊框而 言,激勵信號通常類似於白高斯(Gaussian)雜訊。CELP或 PWI編碼器可採用為有聲語音區段之特性的較高度週期性 以達成較好編碼效率。圖2A展示隨時間消逝變化的自背景 雜訊過渡至有聲語音之語音區段的振幅之實例,且圖2B展 示隨時間消逝變化的自背景雜訊過渡至有聲語音之語音區 段之LPC剩餘物的振幅之實例。由於LPC剩餘物之編碼佔 用大量經編碼信號流,所以已開發各種方案以減小編碼剩 餘物所需要之位元速率。此等方案包括:CELP、NELP、 PWI及 PPP ° 可能需要以提供長途語音品質解碼信號的方式以低位元 速率(例如,每秒2千位元)執行語音信號的受約束位元速率 編碼。長途語音品質通常特徵化為具有大約200至3200 Hz 之頻寬及大於30 dB之信雜比(SNR)。在一些狀況下,長途 語音品質亦特徵化為具有小於2%或3%之諧波失真。不幸 地,以接近每秒2千位元之位元速率編碼語音的現有技術 通常產生聽起來為人工(例如,機器人)、吵雜及/或過度諧 波(例如,°翁°翁聲)的合成語音。 諸如靜默及無聲訊框的非話音訊框之高品質編碼可通常 使用雜訊激勵線性預測(NELP)編碼模式以低位元速率來執 行。然而,可能更難以以低位元速率來執行有聲訊框的高 品質編碼。已藉由對於諸如包括自無聲語音至有聲語音之 141222.doc -13- 201007704 過渡的訊框(亦稱為開始訊框或向上過渡訊框)之困難訊框 使用較咼位元速率且對於後續有聲訊框使用較低位元速率 以達成低平均位元速率而獲得良好結果。然而對於受約束 位兀速率聲碼器,對於困難訊框使用較高位元速率的選項 可能為不可用的。 諸如增強型可變速率編解碼器(EVRC)之現有可變速率 聲碼器通常使用諸如CELP之波形編碼模式以較高位元速 率來編碼此等困難訊框。可用於以低位元速率儲存或傳輸 有聲語音區段的其他編碼方案包括諸如ppp編碼方案的 pwm碼方案。此等PWI編碼方案在剩餘信號巾週期性地 定位具有-音調週期之長度的原型波形。在解碼器處,該 剩餘信號被内插在原型之間的音調週期上以獲得原始高度 週期性剩餘信號的近似。PPP編碼之一些應用使用混合位 元速率’使得高位元速率編碼訊框為—或多個後續低位元 速率編碼tfl框提供參考。纟&狀況下,⑹位元速率訊框中 之資訊的至少一些可被有差別地編碼。 可能需要以為序列中之後續訊框的差別啊(例如,ppp) 編碼提供良好原型(亦即,良好音調脈衝形狀參考)及/或音 調脈衝相位參考的無差別方式來編碼過渡訊框(諸如,開 始訊框)。 可能需要在位元速率受約束的編碼系統中提供用於開始 訊框及/或其他過渡訊框的編碼模式。舉例而言,可能需 要在受約束而具有低恒;^位元速率或低最大位元速率的編 碼系統中提供此編碼模式。此編碼系統之應用的典型實例 141222.doc •14· 201007704 為(例如,如本文中參看圖14所描述的)衛星通信鏈路。 、如上所論述,語音信號之訊框可分類為有聲、無聲或靜 默。有聲訊框通常為高度週期性的,而無聲及靜默訊框通 常為非週期性的。其他可能訊框分類包括開始訊框、過渡 訊框及向下過渡訊框。(亦稱為向上過渡訊框之)開始訊框 通常出現於字之開始處。如在圖⑸中之4〇〇與6〇〇樣本之間 的區中,開始訊框在訊框開始時可為非週期性的(例如, 無聲),且在訊框結束時變為週期性的(例如,有聲)。過渡 類=包括有聲但具有較小週期性語音之訊框。過渡訊框顯 現音調之改變及/或減小的週期性,且通常在有聲區段之 中間或結束處(例如,在語音信號之音調正在改變之處)出 現。典型向下過渡訊框具有低能量有聲語音且在字之結束 處出現。開始訊框、過渡訊框及向下過渡訊框亦可稱為 「過渡」訊框。 對於語音編碼器而言,可能需要以無差別方式編碼脈衝 之位置、振幅及形狀。舉例而言,可能需要編碼開始訊框 或一系列有聲訊框中之第一訊框,使得經編碼訊框為後續 經編碼訊框之激勵信號提供良好參考原型。此編碼器可經 組態以.定位訊框之最終音調脈衝,定位相鄰於最終音調 脈衝之音調脈衝,根據該等音調脈衝之峰值之間的距離估 计滯後值,且產生一指示最終音調脈衝之位置及所估計滯 後值的經編碼訊框。此資訊在解碼一已於無相位資訊情況 下經編碼之後續訊框中可用作相位參考。編碼器亦可經組 態以產生經編碼訊框以包括音調脈衝之形狀之指示,其在 141222.doc •15· 201007704 解碼一已被有差別地編碼(例如,使用Qppp編碼方案)之後 續訊框中可用作參考。 在編碼過渡訊框(例如,開始訊框)中,向後續訊框提供 良好參考比達成訊框之準確再生可能更重要。此經編碼訊 框可用以向使用PPP或其他編碼方案編碼之後續有聲訊框 提供良好參考。舉例而言,可能需要經編碼訊框包括音調 脈衝之形狀之描述(例如,以提供良好形狀參考)、音調滯 後之指示(例如,以提供良好滯後參考)及訊框之最終音調 脈衝之位置的指示(例如,以提供良好相位參考),同時開 始訊框之其他特徵可使用較少位元來編碼或甚至被忽略。 圖3A展示根據一組態之包括編碼任務E1 〇〇及E2〇〇之語 音編碼方法M100的流程圖。任務E1〇〇編碼語音信號之第 訊框,且任務E200編碼語音信號之第二訊框,其中第二 訊框在第一訊框之後。任務El〇〇可實施為無差別地編碼第 一訊框之參考編碼模式,且任務E2〇〇可實施為相對於第一 訊框編碼第二訊框的相對編碼模式(例如,差別編碼模 式)。在一實例中,第一訊框為開始訊框,且第二訊框為 緊接在開始訊框之後的有聲訊框。第二訊框亦可為緊接在 開始sfL框之後的一系列連續有聲訊框中的第一者。 編碼任務E100產生一包括激勵信號之描述的第一經編碼 訊框。此描述包括指示音調脈衝在時域中之形狀(亦即, 音調原型)及音調脈衝重複於之位置的一組值。音調脈衝 位置藉由編碼滞後值連同諸如訊框之終端音調脈衝之位置 的參考點來指示。在此描述中,使用音調脈衝峰值之位置 I4I222.doc -16 - 201007704 來指示音調脈衝之位置,儘管本揭示案之範缚明確地包括 曰調脈衝之位置等效地藉由脈衝之另—特徵(諸如,其第 -或最後樣本)的位置來指示的情形。第一經編喝訊框亦 可包括其他資讯之表示,諸如,訊框之頻譜包絡(例如, 一或多個LSP索引)的描述。 任務E100包括基於來自第一訊框之至少一音調脈衝之資 訊選擇-組時域音調脈衝形狀中的—者之子任務euq。任 務EU0可經組態以選擇與訊框中之具有最高峰值的音調脈 衝最緊密匹配(例如,在最小平方意義上)的形狀。或者, 任務E110可經組態以選擇與訊框中之具有最高能量⑼ 如,經平方樣本值之最高和)的音調脈衝最緊密匹配的形 狀。或者,任務E110可經組態以選擇與訊框之兩個或兩個 以上音調脈衝(例如,具有最高峰值及/或能量之脈衝)之平 均值最緊密匹配的形狀。任務E11〇可經實施以包括經由音 調脈衝形狀(亦稱為「形狀向量」)之碼薄(亦即,量化表) k 的搜尋。
I 編碼任務T1 00亦包括一計算訊框之終端音調脈衝位置 (例如,訊框之初始音調峰值或訊框之最終音調峰值的位 置)之子任務E120。可相對於訊框之開始、相對於訊框之 結束或相對於訊框内之另一參考位置來指示終端音調脈衝 的位置。任務E120可經組態以藉由(例如,基於樣本之振 幅或能量與訊框平均值之間的關係,其中能量通常計算為 樣本值的平方)選擇接近訊框邊界的樣本並在接近此樣本 之區域内搜寻具有最大值的樣本而找到終端音調脈衝峰 H1222,doc -17- 201007704 值。舉例而t ’可根據以下描述之終端音調峰值定位任務 L100之組態中的任一者來實施任務E12〇。 編碼任務以00亦包括一估計訊框之音調週期的子任務 E130。音調週期(亦稱為「音調滯後值」、「滯後值」、「音 調滯後」或簡稱為「滞後」)指示音調脈衝之間的距離(亦 即,相鄰音調脈衝之峰值之間的距離)。典型音調頻率範 . 圍為對於男性說話者的約7〇至1〇〇 Hz到對於女性說話者的 約150至200 Hz。對於為8 kHz之取樣速率而言此等音調 頻率範圍對應於約40至50個樣本的滯後範圍(對於典型女 φ 性說話者)及約9G至10G個樣本的滞後範圍(對於典型男性說 話者)。冑了適應具有在此等範圍外之音調頻率的說話 者,可能需要支援約50至6〇 Hz到約300至4〇〇 Hz之音調頻 率範圍冑於8 kHz之取樣速率,此頻率範圍對應於約 至25個樣本到約13〇至16〇個樣本之滞後範圍。 ▲音調週期估計任務E130可經實施以使用任何合適音調估 計程序(例如,作為如以下描述之滞後估計任務L2〇〇之實 施的例項)來估計音調週期。此程序通常包括找到相鄰於 _ 終:音調峰值之音調峰值(或以其它方式找到至少兩個相 鄰音調峰值)並將滯後計算為峰值之間的距離。任務Μ% :I组態以基於樣本之能量之量測⑽如,樣本能量與訊 框平均能量之間的比)及/或樣本之鄰域與經確認音調峰值 之類似鄰域(例如’終端音調峰值)相關的程度之量测而將 樣本識別為音調蜂值。 編碼任務扪〇〇產生一包括用於第一訊框之激勵信號之特 141222.doc -18· 201007704 徵的表不(諸如,藉由任務㈣選擇之時域音調脈衝形 狀、藉由任務顧計算之終端音調脈衝位置及藉由任務 E130估計之滞後值)的第—經編碼訊框。通常,任務咖 將㈣且態以在音調週期估計任務咖之前執行音調脈衝位 置计算任務EU0,且在音調脈衝形狀選擇任㈣1()之前執 行音調週期估計任務E13 〇。
第一經編碼訊框可包括直接“所估計料值的值。或 者,可能需要經編碼訊框將滯後值指示為 偏移。對於二十個樣本之最小滞後值而言,例如^ = 數予可用以指示在二十至147(亦即’㈣至2()+127)個樣 ^之範圍㈣任何可能整數滞後值。對於25個樣本之最小 滯後值而言,七位元數字可用以指示在25至152(亦即, 25+0至25 + 127)個樣本之範圍内的任何可能整數滯後值。 以此方式’將滯後值編碼為相對於最小值之偏移可用以最 大化預期滞後值之範圍的覆蓋同時最小化編瑪值之該範圍 ,要求之位兀的數目。其他實例可經組態以支援非整數滯 錢的編碼。第—經編碼訊㈣可能包㈣於音調滯後的 個乂上值,諸#第二滯後值或以其它方式指示滞後值自 訊框之-側(例如,訊框之開始或結束)至另一侧的改變之 值0 很可能訊框之音調脈衝之振幅將彼此不同。在開始訊框 中例如,能篁可隨時間增加,使得接近訊框之結束的音 調脈衝與接近訊框之開始之音調脈衝相比較將具有較大振 中田至夕在此狀況下,對於第一經編碼訊框而言,可能需 141222.doc 201007704 要包括訊框之平均能量隨時間的變化(亦稱為「增益輪 廓」)之描述,諸如,音調脈衝之相對振幅的描述。 ❹ 圖3B展示編碼任務E100之包括子任務e14〇之實施E102 的流程圖。任細40計算訊框之增益輪廊作為對應於第一 訊框之不同音調脈衝的一組增益值。舉例而言,增益值中 之每:者可對應於訊框的不同音調脈衝。任務議可包 括:經由增益輪廓之碼薄(例如,量化表)的搜尋,及與訊 框之增益輪麼最緊密地匹配(例如’在最小平方童義上)之 碼薄輸人項的選擇。編碼任務助產生—包括:下各項之 表示的第-經編石馬訊框:藉由任務EU〇選擇之時域音調脈 衝形狀、藉由任務E120計算之終端音調脈衝位置、藉由任 務E130估計之滞後值及藉由任務Ei4〇計算的該經增益值。 φ 圖4展示訊框中之此等特徵的示意性表示其中標記「1 指示終端音調脈衝位置,標記「2」指示所估/滞後值二 標記:3」指示所選擇時域音調脈衝形狀,且標記、」指 不在增益輪廓中經編碼之值(例如,音調脈衝的相對‘ 幅通常,任細Of態以在增益值計算任務議 之别執行音調週期估計任務El3〇,增益值計算任務E⑷可 與音調脈衝形狀選擇任務Eu㈣行或並行地執行。在 例中(如圖26之表中所示),編碼任務議以四分之—速率 操作以產生四十位元之經總踩、一 編瑪訊框,其包括指示參考脈衝 位置之七個位元、指示參考脈衝形狀之七個位 考滞後值的七個位元、指示增益輪廟之四個位元曰:一 或多個LSP索引之十=個办-„ ^ 歡運 個位几,及指示訊框之蝙碼模式的 141222.doc -20- 201007704 兩個位7G (例如,指示諸如NELP之無聲編碼模式的 「00」’指示諸如QPPP之相對編碼模式的「〇1」,及指示 參考編碼模式El〇2的「10」 第一經編碼訊框可包括訊框中之音調脈衝(或音調峰值) 之數目的顯性指示。或者,訊框中之音調脈衝或音調峰值 之數目可經隱含編碼。舉例而言,第一經編碼訊框可僅使 用曰調滯後及終端音調脈衝之位置(例如,終端音調峰值 參 的位置)來指示訊框中之所有音調脈衝的位置。對應解碼 益可經組態以自滯後值及終端音調脈衝之位置計算音調脈 衝之潛在位置並自增益輪廓獲得每一潛在脈衝位置的振 中田對於訊框含有少於潛在脈衝位置之脈衝的狀況,增益 輪廓可針對潛在脈衝位置中之一或多者指示為零(或其他 極小值)的增益值。 如本文中所提及,開始訊框可以無聲開始並以有聲結 束。對於對應經編碼訊框而言,與支援整個開始訊框之準 〇 確再生相比較可旎更需要為後續訊框提供良好參考,且可 實施方法Μ1 00以僅提供對編碼此開始訊框之初始無聲部 分的有限支援。舉例而言,任務EU〇可經組態以選擇指示 — 無聲部分内之任何音調脈衝週期的為零(或靠近零)之增益 、 值的增益輪廓。或者,任務E140可經組態以選擇一指示無 聲部分内之音調週期的非零增益值之增益輪廊。在一此實 例中,任務_選擇以零或靠近零開始,並單調地上升至 訊框之有聲部分之第-音調脈衝的增益位準之一般增 廓。 141222.doc •21· 201007704 任務E140可經組態以計算該組增益值作為對一組增益向 量量化(VQ)表中之一者的索引,其中不同的增益vq表用 於不同數目個脈衝。該組表可經組態,使得每一增益vq 表含有相同數目個輸入項,且不同增益VQ表含有不同長 度的向量。在此編碼系統中,任務E140基於終端音調脈衝 之位置及音調滯後來計算音調脈衝之估計數目,且此估計 _ 數目被用以選擇該組增益VQ表中的一者。在此狀況下°, 類似操作亦可藉由解碼經編碼訊框之對應方法來執行。若 曰調脈衝之所估計數目大於訊框中之音調脈衝的實際數參 目,則任務E140亦可藉由如上所描述將訊框中之每一額外 音調脈衝週期之增益設定為小值或零而傳遞此資訊。 編碼任務E200編碼語音信號之在第—訊框之後的第二訊 框。任務E200可實施為相對於第一訊框之對應特徵編碼第 二訊框之特徵的相對編碼模式(例如,差別編碼模式)。任 務E200包括一計算當前訊框之音調脈衝形狀與先前訊框之 音調脈衝形狀之間的音調脈衝形狀差別之子任務E2i〇。舉 例而言,任務E21〇可經組態以自第二訊框提取音調原型,® ^將音調脈衝形狀差別計算作為所提取原型與第一訊框之 音調原型(亦即,所選擇音調脈衝形狀)之間的差。可藉由 任務E21〇執行之原型提取操作之實例包括在2004年6月22 ^ 曰發布之美國專利第6 754,63〇號(Das等人)及26年η月 14曰發布之美國專利第7 136 812號邮咖nath等人)中描述 的彼等原型提取操作。 可I需要組態任務E21〇以將音調脈衝形狀差別計算作為 141222.doc •22· 201007704 在頻域中兩個原型之間的差。圖5八展示包括音調脈衝形狀 差別計算任務E210之實施E212的編碼任務E2〇〇之實施 E202的圖表。任務E212包括一計算當前訊框之頻域音調原 i的子任務E2 14。舉例而言,任務£2 14可經組態以對經提 取之原型執行快速傅立葉變換運算,或以其它方式將所提 取原型轉換至頻域。任務E212之此實施亦可經組態以藉由 以下操作而計算音調脈衝形狀差別:將頻域原型劃分為多 個筐(例如,一組非重疊筐),計算要素為每一筐中之平均 里值的對應頻率量值向量,及將音調脈衝形狀差別計算作 為原型之頻率量值向量與先前訊框之原型之頻率量值向量 之間的向量差。在此狀況下,任務E212亦可經組態以向量 量化音調脈衝形狀差別,使得對應經編碼訊框包括經量化 之差別。 編碼任務E200亦包括一計算當前訊框之音調週期與先前 訊框之音調週期之間的音調週期差別之子任務E220。舉例 而ρ任務E220可經組起、以估計當前訊框之音調滯後並減 去先前訊框之音調滯後值以獲得音調週期差別。在一此實 例中任務E220經組態以將音調週期差別計算為(當前滯 後估計-先前滯後估計+7)。為了估計音調滯後,任務E22〇 可經組態以使用任何合適音調估計技術,諸如,以上描述 之音調週期估計任務E130之例項、以下描述之滯後估計任 務L200之例項,或如在以上參考之EVRC文獻cs〇〇i4_c之 章節4.6.3(第4_44至4_49頁)中描述的程序,該章節據此作 為一實例以引用方式併入。對於先前訊框之未經量化之音 141222.doc -23- 201007704 調滞後值不同於先前訊框之經解量化音調滞後值的狀況而 S,可能需要任務E220藉由自當前滯後估計減去經解量化 值來計算音調週期差別。 編碼任務E200可使用諸如四分之一速率ppp(Qppp)的具 有受限時間同步性之編碼方案來實施^ Qppp之實施在 2007年 1 月之名為「Enhaneed variable Rate c〇dec,
Service Options 3, 68, and 70 f〇r Wideband Spread Spectrum Digital Systems」之第三代合作夥伴計劃 2(3GPP2)的文獻 C.S0014-C版本 i.〇(在 www 3gpp 〇rg可在線瘳 獲得)之章節4.2.4(第4-1〇至4-17頁)及4.12.28(第4-132至4_ 13 8頁)中描述,該等章節據此作為一實例以引用方式併 入。此編碼方案使用頻寬隨頻率增加之二十一個筐之非均 勻集合來计算原型的頻率量值向量。使用Qppp產生之經 編碼訊框之四十個位元包括:載運一或多個Lsp索引之十 個位元、載運德耳塔滞後值之四個位元、載運訊框之振 幅資訊的十八個位元、指示模式之一位元及一保留位元 (如圖26之表中所示)。相對編碼方案之此實例不包括用於參 脈衝形狀之位元及用於相位資訊的位元。 如上所提及,任務E100中經編碼之訊框可為開始訊框, 且任務E200中經編碼之訊框可為緊接在開始訊框之後一系 列連續有聲框中的第一者。圖5B展示方法訄1〇〇之包括 子任務E300之實施M110的流程圖。任務E3〇〇編碼在第二 訊框之後的第二訊框。舉例而言,第三訊框可為緊接在開 始訊框之後的一系列連續有聲訊框中的第二者。編碼任務 141222.doc •24· 201007704 E300可實施為如本文中所描述之任務E2〇〇之實施的例項 (例如’實施為QPPP編碼的例項)。在一此實例中,任務 E300包括:任務E2i〇之(例如,任務E212之)例項,其經組 態以計算第三訊框之音調原型與第二訊框之音調原型之間 的音調脈衝形狀差別;及任務E220之例項,其經組態以計 算第三訊框之音調週期與第二訊框之音調週期之間的音調 週期差別。在另一此實例中,任務E3〇〇包括:任務E210之 (例如’任務E212之)例項’其經組態以計算第三訊框之音 調原型與第一訊框之所選擇音調脈衝形狀之間的音調脈衝 形狀差別;及任務E220之例項’其經組態以計算第三訊框 之音調週期與第一訊框之音調週期之間的音調週期差別。 圖5(:展示方法]\4100之包括子任務1'1〇〇之實施]^120的流 程圖。任務T100偵測一包括自無聲語音至有聲語音之過渡 的訊框(亦稱為向上過渡訊框或開始訊框)。任務T1〇〇可經 組態以根據以下描述(例如,參看編碼方案選擇器C2〇〇)之 EVRC分類方案執行訊框分類,且亦可經組態以(例如,如 以下參看訊框重新分類器RCl〇所描述)重新分類訊框。 圖6 A展示經組態以編碼語音信號之訊框的裝置M F丨〇 〇之 方塊圖。裝置MF100包括用於編碼語音信號之第一訊框的 構件FE100及用於編碼語音信號之第二訊框的構件 FE200,其中第二訊框在第一訊框之後。構件fei⑽包括 用於(例如,如上文參看任務E11〇之各種實施所描述)基於 來自第一訊框之至少一音調脈衝之資訊選擇一組時域音調 脈衝形狀中的一者之構件FE11〇。構件FE1〇〇亦包括用於 141222.doc -25· 201007704 (例如,如上文參看任務E12〇之各種實施所描述)計算第一 訊框之終端音調脈衝之位置的構件FE120。構件FE100亦 包括用於(例如’如上文參看任務E130之各種實施所描述) 估計第一訊框之音調週期的構件FE13〇。圖66展示構件 FE100之實施柯1〇2的方塊圖,該實施FE1〇2亦包括用於 (例如’如上文參看任務E140之各種實施所描述)計算對應 於第一訊框之不同音調脈衝的一組增益值之構件FE140。
構件FE200包括用於(例如,如上文參看任務E21〇之各種 實施所描述)計算在第二訊框之音調脈衝形狀與第一訊框 之音調脈衝形狀之間的音調脈衝形狀差別之構件FE21〇。 構件FE200亦包括用於(例如,如上文參看任務之各種 實施所描述)計算在第二訊框之音調週期與第一訊框之音 調週期之間的音調週期差別之構件FE22〇。
圖7A展示根據一般組態之解碼語音信號之激勵信號之方 法M200的流程圖。方法M2⑽包括一解碼第一經編碼訊框 之部分以獲得第-激勵信號之任務D⑽其中該部分包括 時域音調脈衝形狀、音調脈衝位置及音調週期的表示。任 務D100包括-根據音調脈衝位置將時域音調脈衝形狀之第 —複本配置於第一激勵信號内的子任務D110。任務D100 亦包括-根據音調脈衝位置及音調週期將時域音調脈衝形 狀之第二複本配置於第-激勵信號内的子任務D120。在一 實例中-任務D11(^D12()(例如,根據來自第一經編碼訊 表丁升/狀的索引)自喝薄獲得時域音調脈衝形狀,並 將其複製至㈣㈣緩^巾。㈣则機方法觀〇 14J222.doc -26 201007704 亦可經實施以包括進行以下操作之任務:(例如藉由解 量化來自第-經編碼訊框之_或多個經量化Lsp向量並對 結果進行逆變換)自第—經編碼純獲得—虹pc係數值, 根據該組LPC係數值組態合成濾波器,及向經組態之合成 滤波器施加第-激勵信號以獲得第—經解碼訊框。 圖7B展示解碼任務Dl〇〇之實施m〇2的流程圖。在此狀 況下,第一經編碼訊框之部分亦包括一組增益值之表示。 任務D1G2包括-向時域音調脈衝形狀之第—複本應用該組 增益值中的一者之子任務D130。任務D102亦包括一向時 域音調脈衝形狀之第二複本應㈣組增益值中的一不同者 之子任務D140。在一實例中,任務D13〇在任務〇11〇期間 將八增_^值應用至形狀,且任務D14〇在任務di2〇期間將 其增益值應用至形狀。在另一實例中,任務D13〇在已執行 任務D11 〇之後將其增益值應用至激勵信號緩衝器之對應部 分,且任務D140在已執行任務D12〇之後將其增益值應用 至激勵信號緩衝器的對應部分。方法M2〇〇之包括任務 D102之實施可經組態以包括一向經組態之合成濾波器施加 所得的經增益調整之激勵信號以獲得第一經解碼訊框的任 務。 方法M200亦包括一解碼第二經編碼訊框之部分以獲得 第二激勵信號之任務D200,其中該部分包括音調脈衝形狀 差別及音調週期差別的表示。任務D2〇〇包括一基於時域音 調脈衝形狀及音調脈衝形狀差別來計算第二音調脈衝形狀 的子任務D210。任務〇2〇〇亦包括一基於音調週期及音調 141222.doc -27- 201007704 週期差別來计算第二音調週期的子任務D22〇。任務⑼ 亦包括一根據音調脈衝位置及第二音調週期將第二音調脈 衝形狀之兩個或兩個以上複本配置於第二激勵信號内的子 任務腦。任務咖可包括將第二激勵信號内之複本中 之卜者的位置計算作為自音調脈衝位置之對應偏移,其 中母一偏移為第二音調週期的整數倍數。任務⑽。及/或 方法M2〇°亦可經實施以包括進行以下操作之任務:(例 如,藉由解量化來自第二經編碼訊框之一或多個經量化 LSP向量並對結果進行逆變換)自第二經編碼訊框獲得一組籲 LPC係數值’根據該組Lpc係數值組態合成減波器,及向 經組態之合成滤波器施加第二激勵信號以獲得第二經解碼 訊框。 圖8A展不用於料語音錢之激勵信號的裝置mF2〇(^ 方塊圖。裝置MF200包括用於解碼第一經編碼訊框之部分 以獲得第一激勘信號之構件F_,其中該部分包括時域 音調脈衝形狀、音調脈衝位置及音調週期的表示。構件 FD100包括用於根據音調脈衝位置將時域音調脈衝形狀之 _ 第一複本配置於第一激勵信號内之構件FD11〇。構件 FDHH)亦包括用於根據音調脈衝位置及音調週期將時域音 調脈衝形狀之第二複本配置於第—激勵信號内之構^ FD120。在一實例中,構件FDH0及FD120經組態以(例. 如’根據來自第一經編碼訊框之表示形狀的索引)自碼薄 獲得時域音調脈衝形狀,並將其複製至激勵信號緩衝器 中。構件FD200及/或裝置MF2〇〇亦可經實施以包括(例 141222.doc -28· 201007704 如’藉由解量化來自第—經編碼訊框之—或多個經量化 LSP向量並對結果進行逆變換)自第-經編碼訊框獲得一組 LPC係數值之構#,用純據該組Lpc係數值組態合成滤 波器之構件,及用於向經組態之合成遽波器施加第一激勵 信號以獲得第一經解碼訊框的構件。 . 圖8B展示用於解碼之構件FD100之實施FD1〇2的流程 • ® °在此狀況下’第—經編碼訊框之部分亦包括-組增益 Λ之表示。構件FD⑽包括用於向該時域音調脈衝形狀之 第一副本應用該組增益值中的一者之構件fdi3〇。構件 削〇2亦包括用於向時域音調脈衝形狀之第二副本應用該 組增益值中的一不同者之構件细4〇。在一實例中,構件 FD130將其增益值應用至構件fdug内之形狀,且構件 FDM0將其增益值應用至構件FDi2〇内的形狀。在另一實 例中,構件FD13〇將其增益值應用至激勵信號緩衝器的構 件FD110已配置第一複本之部分,且構件刚4〇將其增益 -29· 201007704 週期及音調週期差別計算第二音調週期的構件FD22〇。構 件FD200亦包括用於根據音調脈衝位置及第二音調週期將 第二音調脈衝形狀之兩個或兩個以上複本配置於第二激勵 信號内之構件FD230。構件FD230可經組態以將第二激勵 信號内之複本中之每一者的位置計算作為自音調脈衝位置 之對應偏移,其中每一偏移為第二音調週期的整數倍數。 構件FD200及/或裝置MF200亦可經實施以包括:(例如, 藉由解量化來自第二經編碼訊框之一或多個經量化Lsp向 量並對結果進行逆變換)自第二經編碼訊框獲得一組Lpc係鑾 數值之構件,用於根據該組Lpc係數值組態合成濾波器之 構件,及用於向經組態之合成濾波器施加第二激勵信號以 獲得第一經解碼訊框的構件。 圖9A展不語音編碼器AE1〇,其經配置以接收數位化語 音信號S100(例如,作為一系列訊框)並產生對應經編碼信 號S200(例如,作為一系列對應經編碼訊框)以供在通信頻 道C100(例如,有線、光學及/或無線通信鏈路)上傳輸至語 曰解瑪器AD 1 〇。語音解碼器ad 1 〇經配置以解碼經編碼之 _ 語音信號S200的所接收版本S3〇〇並合成相應輸出語音信號 S400。語音編碼器AE1〇可經實施以包括裝置]^1?1〇〇之例項 及/或執行方法M100的實施。語音解碼器AD1〇可經實施以 包括裝置MF200之例項及/或執行方法^^⑼的實施。 如上文所描述,語音信號sl〇〇表示已根據在此項技術中 已知之各種方法中的任一者(諸如脈碼調變(PCM)、壓擴μ 律或Α率)而數位化及量化的類比信號(例如,如由麥克風 141222.doc •30- 201007704 所擁取)。肺號亦可已在類比及/或數位域中經受其他預 處理操作,諸如雜訊抑制、感知加權及/或其他濾波操 作。額外或替代地,可在語音編碍器AEi〇内執行此等操 作。語音信號S100之例項亦可表示已經數位化及量化之類 比信號(例如,如由麥克風之陣列所擷取)的組合。 圖9B展示語音編碼nAE1〇之第—例項AEi〇a,其經配置 以接收經數位化語音信號sl〇〇之第一例項su〇並產生經編 碼信號S200之對應例項S21〇以供在通信頻道^⑼之第一例 項ciio上傳輸至語音解碼器AD1〇之第一例項ADi〇a。語 音解碼器ADlOa經配置以解碼經編碼之語音信號S2i〇的所 接收版本S3 1 0並合成輸出語音信號S4〇〇的對應例項S4丨〇。 圖9B亦展示語音編碼器AE1〇之第二例項AEi〇b,其經配 置以接收經數位化語音信號Si〇〇之第二例項812〇並產生經 編碼信號S200之對應例項S220以供在通信頻道cl〇〇之第二 例項C120上傳輸至語音解碼器AD1〇之第二例項ADl〇b。 語音解碼器AD 1 Ob經配置以解碼經編碼之語音信號S22〇的 所接收版本S320並合成輸出語音信號S4〇〇的相應例項 S420 ° 語音編碼器AE1 Oa及語音解碼器AD丨〇b(類似地語音編碼 器AE 10b及語音解碼器ADlOa)可在用於傳輸並接收語音信 號之包括(例如)以下參看圖14所描述之使用者終端機、地 面台或閘道器的任何通信器件中一起使用。如本文中所描 述’語音編碼器AE10可以許多不同方式來實施,且語音 編碼器AElOa及AElOb可為語音編碼器AE1〇之不同實施的 141222.doc •31 · 201007704 例項同樣,語音解碼器AD 10可以許多不同方式來實 施,且語音解碼器AD1〇a及AD1〇b可為語音解碼器adi〇2 不同實施的例項。 圖10A展示根據一般組態之用於編碼語音信號之訊框的 裝置之方塊圖,該裝置包括:第一訊框編碼器100,其經 組態以編碼語音信號之第一訊框作為第一經編碼訊框;及 第一訊框編碼器200,其經組態以編碼語音信號之第二訊 框作為第二經編碼訊框,其中第二訊框在第一訊框之後。 浯音編碼器AE10可經實施以包括裝置A1〇〇之例項。第一 訊框編碼器1〇〇包括音調脈衝形狀選擇器11〇,其經組態以 (例如,如上文參看任務EU〇之各種實施所描述)基於來自 第一訊框之至少一音調脈衝之資訊來選擇一組時域音調脈 衝形狀中的一者。編碼器1〇〇亦包括一音調脈衝位置計算 器120,其經組態以(例如,如上文參看任務E12〇之各種實 施所描述)計算第一訊框之終端音調脈衝的位置❶編碼器 100亦包括一音調週期估計器13〇 ,其經組態以(例如,如 上文參看任務E130之各種實施所描述)估計第一訊框之音 調週期。圖10B展示編碼器1〇〇之亦包括一增益值計算器 140之實施102的方塊圖,該增益值計算器i4〇經組態以(例 如’如上文參看任務E140之各種實施所描述)計算對應於 第一訊框之不同音調脈衝的一組增益值。 第二訊框編碼器200包括一音調脈衝形狀差別計算器 210 ’其經組態以(例如,如上文參看任務£2丨〇之各種實施 所描述)計算第二訊框之音調脈衝形狀與第一訊框之音調 141222.doc •32- 201007704 脈衝形狀之間的音調脈衝形狀差別。編碼器2〇〇亦包括一 音調脈衝差別計算器220,其經組態以(例如,如上文參看 任務E220之各種實施所描述)計算第二訊框之音調週期與 第一訊框之音調週期之間的音調週期差別。 圖11A展示根據一般組態之用於解碼語音信號之激勵信 號的包括一第一訊框解碼器3〇〇及一第二訊框解碼器4〇〇的 裝置A20〇之方塊圖。解碼器300經組態以解碼第一經編碼 訊框之部分以獲得第一激勵信號,其中該部分包括時域音 調脈衝形狀、音調脈衝位置及音調週期的表示。解碼器 3〇〇包括一第一激勵信號產生器31〇,其經組態以根據音調 脈衝位置將時域音調脈衝形狀之第一複本配置於第一激勵 L號内。激勵產生器3 1 〇亦經組態以根據音調脈衝位置及 音調週期將時域音調脈衝形狀之第二複本配置於第一激勵 b號内。舉例而言,產生器31〇可經組態以執行如本文中 所描述之任務Dll〇&D120的實施。在此實例中,解碼器 300亦包括一合成濾波器32〇,其根據藉由解碼器3〇〇自第 一經編碼訊框(例如,藉由解量化來自第一經編碼訊框之 一或多個經量化LSP向量並對結果進行逆變換)獲得之一組 LPC係數值來組態,且經配置以對激勵信號進行濾波從而 獲得第一經解媽訊框。 圖11B展示第一激勵信號產生器310之實施3 12的方塊 圖’其針對第一經編碼訊框之部分亦包括一組增益值之表 不的狀況包括第一乘法器330及第二乘法器340。第一乘法 盗330經組態以向時域音調脈衝形狀之第一複本應用該組 141222.doc •33· 201007704 增益值中的一者。舉例而言,第-乘法器330可經組態以 執行如本文中所描述之任務D13〇的實施。第二乘法器“Ο 經組態以向時域音調脈衝形狀之第二複本應用該組增益值 中的-不同者。舉例而t,第二乘法器34〇可經組態以執 行如本文中所描述之任務Dl4〇的實施。在解碼器3〇〇之包 括產生器312之實施中,合成濾波器32〇可經配置以對所得 經增益調整之激勵信號進行濾波從而獲得第一經解碼訊 框。第一乘法器330及第二乘法器34〇在不同時間可使用不 同結構或使用同一結構來實施。 第二訊框解碼器400經組態以解碼第二經編碼訊框之部 分以獲得第二激勵信號,其中該部分包括音調脈衝形狀差 別及音調週期差別的表示。解碼器4〇〇包括一第二激勵信 號產生器440,該第二激勵信號產生器44〇包括一音調脈衝 形狀計算器410及一音調週期計算器42〇。音調脈衝形狀計 算器410經組態以基於時域音調脈衝形狀及音調脈衝形狀 差別來計算第二音調脈衝形狀。舉例而言,音調脈衝形狀 計算器410可經組態以執行如本文中所描述之任務D2丨〇的 實施。音調週期計算器420經組態以基於音調週期及音調 週期差別來計算第二音調週期。舉例而言,音調週期計算 器420可經組態以執行如本文中所描述之任務D22〇的實 施。激勵產生器44〇經組態以根據音調脈衝位置及第二音 調週期將第二音調脈衝形狀之兩個或兩個以上複本配置於 第二激勵信號内。舉例而言’產生器440可經組態以執行 如本文中所描述之任務D2 30的實施。在此實例中,解碼器 141222.doc -34 - 201007704 400亦包括一合成濾波器430 ’其根據藉由解碼器400自第 一經編碼訊框(例如’藉由解量化來自第一經編碼訊框之 一或多個經量化LSP向量並對結果進行逆變換)獲得之一組 LPC係數值來組態,且經配置以對第二激勵信號進行濾波 從而獲得第二經解碼訊框。合成濾波器320、合成濾波器 430在不同時間玎使用不同結構或使用同一結構來實施。 語音解碼器AD10可經實施以包括裝置A200之例項。 圖12A展示語音編碼器AE10之多模式實施AE20的方塊 圖。編碼器AE2〇包括:第一訊框編碼器i 00之實施(例如, 編碼器102)、第二訊框編碼器2〇〇之實施、無聲訊框編碼 器UE10(例如,QNELP編碼器)及編碼方案選擇器C200。編 碼方案選擇器C200經組態以(例如,根據如以下描述之經 修改EVRC訊框分類方案)分析語音信號si〇〇之傳入訊框的 特性’以經由選擇器50a、50b來選擇用於每一訊框之編碼 器100、200及UE10中的適當一者。可能需要實施第二訊 框編碼器200以應用四分之一速率ppp(Qppp)編碼方案且實 施無聲訊框編碼器UE10以應用四分之一速率 NELP(QNELP)編碼方案。圖12b展示語音編碼器AD10之包 括以下各項之類似多模式實施AD20的方塊圖:第一訊框 解碼器300之實施(例如,解碼器3〇2)、第二訊框編碼器400 之實施、無聲訊框解碼器UDl〇(例如,QNELP解碼器)及編 碼方案偵測器C300。編碼方案偵測器C300經組態以(例 如,根據諸如第一及/或最後位元的經編碼訊框之一或多 個模式位元)判定接收到之經編碼語音信號S300之經編碼 I41222.doc •35- 201007704 訊框的格式,以經由選擇器90a、90b選擇用於每一經編碼 訊框之解碼器300、400及UD10中的適當相應解碼器。 圖13展示可包括於語音編碼器AE10之實施内之剩餘物 產生器R10的方塊圖。產生器R10包括一 LPC分析模組 R110,其經組態以基於語音信號S100之當前訊框計算一組 LPC係數值。變換區塊R120經組態以將該組LPC係數值轉 換為一組LSF,且量化器R130經組態以量化LSF(例如,作 為一或多個碼薄索引)以產生LPC參數SL10。逆量化器 Rl4〇經組態以自經量化之LPC參數SL10獲得一組經解碼之 鮝 LSF,且逆變換區塊R150經組態以自該組經解碼之LSF獲 才于一組經解碼之LPC係數值。根據該組經解碼之Lpc係數 值組態之白化濾波器R160(亦稱為分析濾波器)處理語音信 號S100以產生LPC剩餘物SR10。剩餘物產生器R1〇亦可經 實施以根據據認為適合於特定應用之任何其他設計產生 LPC剩餘物。剩餘物產生器R1〇之例項可實施於訊框編碼 器104、204及UE10内,及/或在訊框編碼器1〇4、2〇4及 UE10中之任何一或多者之中共用。 瘳 圖14展示包括一衛星1〇、 機30a、30b的衛星通信系姨 可能經由一或多個#他傲哀 地面台20a、20b及使用者終端
件,諸如, a與30b之間或地面台與使用者終端機之間的半 全雙工頻道上轉播話音通信。使用者終端機 之每一者可為用於無線衛星通信之攜帶型器 行動電話或裝備有無線數據機之攜帶型電腦、 141222.doc -36 - 201007704 2裝於陸地車或太空载具内之通信單元或用於衛星話音通 、另器件地面台20a、20b中之每一者經組態以將話 音通信頻道投送至各別網路40a、4〇b,該網路4〇&、4肿可 為類比或脈碼調變(PCM)網路(例如,公眾交換電話網路或 . PSTN)及/或資料網路(例如,網際網路 '區域網路(LAN)、 校域網路(CAN)、域域網路(MAN)、廣域網路(wan)、環 • 形網路、星形網路及/或符記環網路地面台20a、2〇1?中 之者或兩者亦可包括一閘道器,其經組態以將話音通信 信號譯瑪至另一形式(例如,類比、PCM、較高位元速率 編碼方案等)及/或自另一形式(例如,類比、pcM、較高位 70速率編碼方案等)譯碼話音通信信號。 在PWI編碼期間提取之原型的長度通常等於音調滯後之 當前值,其在訊框間可改變。量化原型以傳輸至解碼器因 此提出了量化尺寸為可變之向量的問題。在習知PWI及 PPP編碼方案中,可變尺寸原型向量之量化通常藉由將時 • 域向量轉換為複合值頻域向量(例如,使用離散時間傅立 葉變換(DTFT)操作)來執行。上文參看音調脈衝形狀差別 计算任務E210來描述此操作。接著取樣此複合值可變尺寸 向置之振幅以獲得固定尺寸的向量。振幅向量之取樣可能 ' 均勻#。舉例而t ’可能需要在低頻率下以較高解析 度對向量進行取樣(與高頻率相比較)。 可能需要執行對在開始訊框之後的有聲訊框的差別pwi 編碼。在全速率PPP編碼模式中,頻域向量之相位以類似 於振幅之方式經取樣以獲得固定尺寸的向量。然而在 141222.doc -37- 201007704 QPPP編碼模式中,無位元可用於將此相位資訊載運至解 碼器。在此狀況下,音調滯後經差別編碼(例如,相對於 先前訊框之音調滯後經編碼),且必須亦基於來自一或多 個先前訊框之資訊來估計相位資訊。舉例而言,當將過渡 訊框編碼模式(例如,任務E1 〇〇)用以編碼開始訊框時,可 自音調滞後及脈衝位置資訊得到後續訊框之相位資訊。 · 對於編碼開始訊框而言,可能需要執行一可經預期以偵 測訊框内之所有音調脈衝的程序。舉例而言,可預期使用 強健音調峰值偵測操作可提供後續訊框的較好滞後估計及/ _ 或相位參考。可靠參考值對於後續訊框係使用諸如差別編 碼方案之相對編碼方案(例如,任務E2〇〇)進行編碼之狀況 可為尤其重要的,此係由於此等方案對於誤差傳播通常為 敏感的。如上所提及,在此描述中,音調脈衝之位置藉由 其峰值之位置來指示,雖然在另一情形下音調脈衝之位置 可等效地藉由脈衝之另一特徵(諸如,其第一樣本或最後 樣本)的位置來指示。 圖15A展示根據一般組態之包括任$L1〇〇、L2〇〇及L3〇〇 ❷ 之方法M300的流程圖。任務L100定位訊框之終端音調峰 值。在特定實施中,任務L100經組態以根據(A)係基於樣 本振幅之一量與(B)訊框之該量的平均值之間的關係選擇 —樣本作為終端音調峰值。在一此實例中,量為樣本量值 (亦即’絕對值),且在此狀況下訊棍平均值可計算如下. ΣΚΙ
i<N
N 等式1 141222.d〇c • 38- 201007704 其中s表示樣本值(亦即,振幅),#表示訊框中之樣本的數 目’且,·為樣本索引。在另一此實例中,量為樣本能量(亦 即,經平方之振幅),且在此狀況下訊框平均值可計算如 下:
L<N ~λΓ 等式2 其中^表示樣本值(亦即,振幅),#表示訊框中之樣本的數 目’且ί為樣本索引。在以下描述中’使用能量。 任務L1 〇 〇可經組態以定位終端音調峰值作為訊框之初始 3調峰值或作為訊框的最終音調峰值。為了定位初始音調 峰值,任務L100可經組態以在訊框之第一樣本開始且按時 間順序操作。為了定位最終音調峰值’任務L100可經組態 以在訊框之最後樣本開始且按時間逆序操作。在以下描述 之特定實例中,任務L100經組態以定位終端音調峰值作為 訊框的最終音調峰值。 圖15Β展示任務乙100之包括子任務LU〇、之 實施L102的方塊圖。任務L11Q定位訊框中之有資格成為終 端音調峰值的最後樣本。在此實例中,任務Lu〇定位相對 於訊框平均值之能量超出(或者,不小於)相應臨限值丁H1 的最後樣本。在一實例中,TH1之值為六。若在訊框令未 發現此樣本,則方法M3〇〇終止且另一編碼模式(例如, QPPP)用於訊框。否則,任務L12〇(如圖16A中所示)在此樣 本之前的窗内進行搜尋以找到具有最大振幅之樣本,且選 141222.doc -39- 201007704 擇此樣本作為臨時峰值候選者。對於任務L12〇中之搜尋窗 而言’可能需要具㈣於最小容許滞後值的寬度術。在 一實例中,WL1之值為二十個樣本。對於搜尋窗中之一個 以上樣本具有最大振幅之狀況而言,任務Li2〇可經不同地 組態以選擇第-此樣[最冑此樣本或任何其他此樣本。 任務L130(如圖16B中所示)藉由在臨時峰值候選者之前 的由内找到具有最大振幅之樣本而驗證最終音調峰值選 擇。對於任務L130中之搜尋窗而言,可能需要具有一在初 始滯後估計之50%與ι〇0%之間或5〇%與75%之間的寬度 _ WL2。初始滯後估計通常等於最新滯後估計(亦即,來自 先前訊框之滯後估計)。在一實例中,WL2之值等於初始 滞後估計的八分之五。若新樣本之振幅大於臨時峰值候選 者之振幅,則任務L130替代地選擇新樣本作為最終音調峰 值。在另一實施中,若新樣本之振幅大於臨時峰值候選者 的振幅,則任務L130選擇新樣本作為新臨時峰值候選者,
並重複在新臨時峰值候選者之前的具有寬度WL2之窗内的 搜尋’直至找不到樣本為止。 Q 任務L200計算訊框之所估計滞後值。任務L2〇〇通常經組 態以定位相鄰於終端音調峰值之音調脈衝的峰值並將滯後 估計計算作為此等兩個峰值之間的距離。可能需要組態任 務L200以僅在訊框邊界内進行搜尋及/或要求終端音調峰 — 值與相鄰音調峰值之間的距離大於(或者,不小於)最小容 許滯後值(例如,二十個樣本)。 可能需要組態任務L200以使用初始滞後估計來找到相鄰 14I222.doc -40· 201007704 峰值:。*然而首先,對於任務L200而t,可能需要檢查音調 加倍誤差(其可包括音調三倍及/或音調四倍誤差)之初始滯 後估:。通常,將已使用基於相關之方法判定初始滯後估 叶。音調加倍誤差對於音調估計之基於相關之方法為常見 的,且通常為相當可聽的。圖15C展示任務L2〇〇之實施 L202的流程圖。任務L2〇2包括一檢查音調加倍誤差之初始 滯後估計之可選但推薦的子任務L210。任務L210經組態以 Φ 在距終端音調峰值(例如)1/2、1 / 3及%滯後的距離的窄窗内 搜尋音調峰值,且可如下所描述經迭代。 圖17A展示任務L21〇之包括子任務L212、。“及幻“之 實施L21〇a的流程圖。對於待檢查之最小音調分率(例如, 印後/4) ’任務L212在中心自終端音調峰值偏移實質上等 於音調分率(例如,在截斷或捨入誤差内)之距離的小窗(例 如,五個樣本)内進行搜尋,以找到具有(例如,在振幅、 量值或能量方面的)最大值之樣本。圖18A說明此操作。 • 任務T214評估最大值樣本(亦即,「候選者」)之一或多 個特徵,且比較此等值與各別臨限值❶經評估之特徵可包 括候選者之樣本能量、候選者能量與平均訊框能量(例 如,峰值比RMS能量)之比及/或候選者能量與終端峰值能 量的比。任務U14可經組態以以任何次序執行此等評估, 且評估可串行及/或並行於彼此來執行。 立對於任務L214而言,亦可能需要使候選者之鄰域與終端 音調峰值之類似鄰域相關。對於此特徵評估而言,任務 L214通常經組態以使以候選者為中心之長度為ni個樣本 141222,doc •41 - 201007704 的區段與以終端音調峰值為中心之具有相等長度的區段相 關。在一實例中,N1之值等於十七個樣本。可能需要組態 任務L214以執行正規化相關(例如,具有在自零至一之範 圍内的結果)。可能需要組態任務L2 14以:重複以(例如)候 選者之刚及之後的一樣本為中心之長度為N1之區段的相關 (例如,以解決時序偏移及/或取樣誤差),及選擇最大相關 結果。對於相關窗將延伸超出訊框邊界之狀況,可能需要 移位或截斷相關窗。(對於相關窗經截斷之狀況,可能需 要正規化相關結果,除非該相關結果已經正規化。)在一 實例中,若滿足展示為圖19a中之諸棚的三組條件中之任 一者,則將候選者接受作為相鄰音調峰值,其中臨限值τ 可等於六。 /若任務T2U找到相鄰音調峰值,則任務^^計算當前滞 後估計作為終端音調峰值與相鄰音調峰值之間的距離。否 則’任務L21〇a在終端峰值之另—側上迭代(如圖㈣中所 不),接著對於待檢查之其他音調分率在終料值之兩侧 之間自最小至最大交替,直至找到相鄰音調峰值為止(如 圖㈣至圈W中所示)。若在終端音調峰值與最靠近之气 =界=找到相鄰音調峰值,則終端音調峰值被重新標 ^己為相鄰9調峰值’且新峰值被標記為終端音調峰值 任務L21〇經組態以在前侧之前在終端音調峰 尋。 P ’在任務⑽中已經搜尋的側)上進行搜 若分率滞後測試任務L21〇並不定位音調峰值則任務 141222.doc -42· 201007704 L220根據初始滯後估計(例如,在自終端峰值位置偏移初 始滞後估計之窗内)搜尋相鄰於終端音調峰值的音調峰 值。圖17B展示任務L220之包括子任務L222、L224、L226 及L228之實施L220a的流程圖。任務L222在具有寬度WL3 之以至最終峰值之左側一滯後的距離為中心之窗内找到候 選者(例如,具有在振幅或量值方面之最大值的樣本)(如圖 19B中所示,其中經填充之圓指示終端音調峰值)。在一實 例中,WL3之值等於0.55倍初始滯後估計。任務L224評估 候選樣本之能量。舉例而言,任務L224可經組態以判定候 選者之能量之量測(例如,樣本能量與訊框平均能量之 比,諸如峰值比RMS能量)是否大於(或者不小於)對應臨限 值TH3。TH3之實例值包括1、1.5、3及6。 任務L226使候選者之鄰域與終端音調峰值之類似鄰域相 關。任務L226通常經組態以使以候選者為中心之長度為 N2個樣本的區段與以終端音調峰值為中心之具有相等長度 的區段相關。N2之值的實例包括十、十一及十七個樣本。 可能需要組態任務L226以執行正規化相關。可能需要組態 任務L226以:重複以(例如)候選者之前及之後的一樣本為 中心之區段的相關(例如,以解決時序偏移及/或取樣誤 差),及選擇最大相關結果。對於相關窗將延伸超出訊框 邊界之狀況,可能需要移位或截斷相關窗。(對於相關窗 經截斷之狀況,可能需要正規化相關結果,除非該相關結 果已經正規化。)任務L226亦判定相關結果是否大於(或者 不小於)對應臨限值TH4。TH4之實例值包括0.75、0.65及 141222.doc •43- 201007704 0.45。可根據不同組之TH3及TH4值來組合任務L224及 L226之測試。在一此實例中,若以下組值中的任一者產生 正結果,則L224及L226之結果為正:TH3 = 1且TH4=〇.75 ; TH3 = 1.5 且 TH4=0.65 ; TH3=3 且 TH4=0.45 ; TH3 = 6(在此狀 況下,任務L226被認為是正)。 若任務L224及L226之結果為正,則候選者被接受作為相 鄰音調峰值,且任務T228計算當前滯後估計作為此樣本與 終端音調峰值之間的距離。任務L224及L226可順序及/或 彼此平行地執行。任務L220亦可經實施以僅包括任務L224 及L226中之一者。若任務L220在未找到相鄰音調峰值情況 下結束,則可能需要在終端音調峰值之後侧上迭代任務 L220(如圖19C中所示,其中經填充之圓指示終端音調峰 值)。 若任務L210及L220中之任一者皆不定位音調峰值,則任 務L23 0在終端音調峰值之前導侧上執行對音調峰值的開放 窗搜尋。圖17C展示任務L230之包括子任務L232、L234、 L236及L238之實施L230a的流程圖。開始於距終端音調峰 值某一距離D1之樣本,任務L232找到相對於平均訊框能 量之能量超出(或者不小於)臨限值(例如,TH1)的樣本。圖 20A說明此操作。在一實例中,d 1之值為諸如二十個樣本 之最小容許滯後值。任務L234在此樣本之具有寬度WL4的 窗内找到候選者(例如,具有在振幅或量值方面之最大值 的樣本)(如圖20B中所示)。在一實例中,WL4之值等於二 十個樣本。 141222.doc 201007704 任務L23 6使候選者之鄰域與終端音調峰值之類似鄰域相 關。任務L236通常經組態以使以候選者為中心之長度為 N3個樣本的區段與以終端音調峰值為中心之具有相等長度 的區段相關。在一實例中,N3之值等於十一個樣本。可能 需要組態任務L326以執行正規化相關。可能需要組態任務 L326以:重複以(例如)候選者之前及之後的一樣本為中心 之區段的相關(例如,以解決時序偏移及/或取樣誤差),及 選擇最大相關結果。對於相關窗將延伸超出訊框邊界之狀 況,可能需要移位或截斷相關窗。(對於相關窗經截斷之 狀況,可能需要正規化相關結果,除非該相關結果已經正 規化。)任務T326判定相關結果是否超出(或者,不小於)臨 限值TH5。在一實例中,TH5之值等於〇 45。若任務 之結果為正,則候選者被接受作為相鄰音調峰值,且任務 T23 8汁算當則滯後估計作為此樣本與終端音調峰值之間的 距離。否則,任務L230a在訊框上迭代(例如,如圖2〇C中 所示,開始於先前搜尋窗的左側),直至找到音調峰值或 搜尋完為止。 當滯後估計任務L細已結束時,任務L3⑻執行以定位訊 框中^任何其他音調脈衝。任務L3〇〇可經實施以使用相關 及當前滯後估計來定位更多脈衝。舉例而言,任務L3〇〇可 經組態以使用諸如相關及樣本比卿能量值之準則來測試 圍繞滞後估st之窄窗内的最大值樣本。與滯後估計任務 L20_比較,任務L3〇〇可經組態以使用較小搜尋窗及/或 放鬆之準則(例如’較低臨限值),尤其在已找到相鄰於終 141222.doc -45- 201007704 端音科值的峰值情況下。舉例而言,在開始或其他過渡 訊框中,脈衝形狀可改變,使得訊框内之一些脈衝可能並 非強烈相關,且可能需要對於第二脈衝之後的脈衝放鬆或 甚至忽略相關準則,只要脈衝之振幅足夠高且位置(例 如,根據當前滞後值)為正確的便可。可能需要最小化漏 掉有效脈衝的機率,且尤其對於大滯後值而言,訊框之有 . 聲部分可能並非非常有峰的。在一實例中,方法M3〇〇允 許每訊框最大八個音調脈衝。 任務L300可經實施以計算下一音調峰值之兩個或兩個以籲 上不同候選者並根據此等候選者令之一者選擇音調峰值。 舉例而言,任務L300可經組態以:基於樣本值選擇候選樣 本;且基於相關結果來計算候選距離。圖21展示任務L3〇〇 之包括子任務L310、L320、L330、L340及L350之實施 L302的流程圖。任務L310初始化候選者搜尋的錨定位置。 舉例而言,任務L310可經組態以使用最新近接受之音調峰 值的位置作為初始錨定位置。在任務“⑽之第一迭代中, 例如,錨定位置可為相鄰於終端音調峰值之音調峰值的位 _ 置(若此峰值藉由任務L200來定位)或另外為終端音調峰值 的位置。對於任務L310而言,亦可能需要初始化滯後乘數 m(例如,為值1)。 任務L320選擇候選樣本並計算候選距離。任務L32〇可經 組態以如圖22A中所示搜尋窗内的此等候選者,其中大的 有界水平線指示當前訊框,左側大垂直線指示訊框開始, 右側大垂直線指示訊框結束,點指示錫定位置,且陰影框 141222.doc -46- 201007704 指示搜尋窗。在此實例中,窗以距錨定位置之距離為當前 滯後估§十與滯後乘數Π1之乘積的樣本為中心5且該窗向左 延伸WS個樣本(亦即,在時間上向後)且向右延伸(WS-1)個 樣本(亦即5在時間上向前)。 任務L3 20可經組態以將窗大小參數WS初始化為當前滯 後估計之五分之一的值。對於窗大小參數WS而言,可能 ' 需要至少具有諸如十二個樣本的最小值。或者,若尚未找 到相鄰於終端音調峰值之音調峰值,則對於任務L320而言 — 可能需要將窗大小參數WS初始化為諸如當前滯後估計之 一半的可能較大值。 為了找到候選樣本,任務L320搜尋窗以找到具有最大值 之樣本並記錄此樣本之位置及值。任務L320可經組態以在 搜尋窗内選擇值具有最高振幅的樣本。或者,任務L320可 經組態以在搜尋窗内選擇值具有最高量值或最高能量的樣 本。 • 候選距離對應於搜尋窗内之與錨定位置之相關為最高的 樣本。為了找到此樣本,任務L320使窗内之每一樣本之鄰 域與錨定位置之類似鄰域相關,且記錄最大相關結果及相 ' 應距離。任務L320通常經組態以使以每一測試樣本為中心 之長度為N4個樣本的區段與以錨定位置為中心之具有相等 長度的區段相關。在一實例中,N4之值為十一個樣本。對 於任務L320而言,可能需要執行正規化相關。 如上所陳述,任務T320可經組態以使用同一搜尋窗來找 到候選樣本及候選距離。然而,任務T320亦可經組態以將 141222.doc -47- 201007704 不同搜尋窗用於此等兩個操作。圖22B展示任務L320在具 有大小參數WS 1之窗上執行對候選樣本之搜尋的實例,且 圖22C展示任務L320之同一例項在具有為不同值之大小參 數WS2之窗上執行對候選距離之搜尋的實例。 任務L302包括一在候選樣本及對應於候選距離之樣本中 選擇一者作為音調峰值的子任務L330。圖23展示任務L330 之包括子任務L334、L336及L338之實施L332的流程圖。 任務L334測試候選距離。任務L334通常經組態以比較相 關結果與臨限值。對於任務L334而言亦可能需要比較基於 對應樣本之能量的量測(例如,樣本能量與訊框平均能量 之比)與臨限值。對於已識別僅一音調脈衝之狀況而言, 任務L334可經組態以驗證候選距離至少等於最小值(例 如,諸如二十個樣本之最小容許滯後值)。圖24A之表的諸 欄展示基於此等參數之值的四組不同測試條件,該等參數 值可藉由任務L334之實施使用以判定是否接受對應於候選 距離之樣本作為音調岭值。 對於任務L3 34接受對應於候選距離之樣本作為音調峰值 之狀況而言,若彼樣本具有較高振幅(或者,較高量值), 則可能需要向左或向右調整峰值位置(例如,一樣本)。替 代或額外地,對於任務L334而言,在此狀況下可能需要針 對任務L300之其他迭代將窗大小參數WS之值設定為較小 值(例如,十個樣本)(或將參數WS1及WS2中之一者或兩者 設定為此值)。若新音調峰值僅為對於訊框經確認之第二 者,則對於任務L334而言亦可能需要將當前滯後估計計算 141222.doc -48- 201007704 作為錯定位置與峰值位置之間的距離。 任務L302包括一測試候選樣本之子任務L336。任務 ⑽可經組態以判定樣本能量之量測(例如,樣本能量盘 訊框平均能量之比)是否超出(或者,不小於)臨限值。可能 • ^要視對於訊框已確認多少個音調峰值而改變臨限值。舉 ❹言,對於任務⑽而言,可能需要使用較低臨限值 (例如,T-3)(若對於訊框已確認僅一音調峰值)且使用較高 φ 臨限值(例如,T)(若對於訊框已確認一個以上音調峰值)。 對於任務L 3 3 6選擇候選樣本作為第二經確認音調峰值之 狀況下,對於任務L336而言亦可能需要基於與終端音調峰 值之相關的結果而向左或向右調整峰值位置(例如,一樣 本)。在此狀況下,任務L336可經組態以使以每一此樣本 為中心之長度為N5個樣本的區段與以終端音調峰值為中心 之具有相等長度的區段相關(在一實例中,N5之值為十一 個樣本)。替代或額外地,對於任務L336而言,在此狀況 φ 下可能需要針對任務L3〇〇之其他迭代將窗大小參數骒;5之 值设疋為較小值(例如’十個樣本)(或將參數ws i及wS2中 之一者或兩者設定為此值)。 對於測試任務L334及L336中之兩者已失敗且對於訊框已 -確認僅一音調峰值之狀況而言,任務L3〇2可經組態以: (經由任務L350)使滯後估計乘數爪之值加 一,以m之新值 迭代任務L320從而選擇新候選樣本及新候選距離,且對於 新候選者重複任務L332。 如圖23中所示,任務L336可經配置以在候選距離測試任 141222.doc -49· 201007704 務L334失敗之後執行。在任務丁332之另一實施中,候選樣 本測試任務L336可經配置以首先執行,使得候選距離測試 任務L334僅在任務L336失敗後執行。 任務L332亦包括一子任務L338 ^對於測試任務L334& L336中之兩者已失敗且對於訊框已確認一個以上音調峰值 之狀況下,任務L338測試候選者中之一者或兩者與當前滯 後估計的一致。
G 圖24B展示任務L338之實施[^以的流程圖。任務L338a 包括一測試候選距離之子任務L362。若候選距離與當前滯 後估计之間的絕對差小於(或者,不大於)臨限值,則任務 L362接受候選距離。在一實例中,臨限值為三個樣本。對 於任務L362而言,亦可能需要驗證相關結果及/或對應樣 本之能量是否為可接受地高。纟一此實例中,#相關結果 不小於0.35且樣本能量與訊框平均能量之比不小於〇 5,則 任務L362接受小於(或者,不大於)臨限值的候選距離。對 於任務L362接受候選距離之狀況而言,若彼樣本具有較高 振幅(或者,較高量值),則對於任務乙362而言亦可能需要 向左或向右調整峰值位置(例如,一樣本)。 任務L 3 3 8 a亦包括—測試候選樣本之 務㈣。若⑷候選樣本與最靠近音調峰值之間2 = W當前滞後估計之間的絕對差小於(或者,不大於)臨限 值,則任務L364接受候選樣本。在一實例中,臨限值為諸 如兩個樣本之低值。對於任務L364而言,亦可能需要驗證 候選樣本之能量為可接受地高。在一此實例中,若候選樣 141222.doc -50- 201007704 本通過布後一致性測试且若樣本能量與訊框平均能量之比 不小於(T-5) ’則任務L364接受該候選樣本。 展示於圖24B中之任務L338a的實施亦包括另一子任務 L366,其對照比任務L364之低臨限值鬆散之界限測試候選 樣本的滯後一致性。若(A)候選樣本與最靠近經確認峰值 之間的距離與(B)當前滞後估計之間的絕對差小於(或者, 不大於)臨限值,則任務L366接受候選樣本。在一實例 中,臨限值為(0.175*滯後)。對於任務L366而言,亦可能 需要驗證候選樣本之能量為可接受地高。在一此實例中, 若樣本能量與訊框平均能量之比不小於(τ_3),則任務U66 接受候選樣本^ 若候選樣本及候選距離兩者皆未通過所有測試,則任務 T302(經由任務T350)使滯後估計乘數111加一,以m之新值 迭代任務L320從而選擇新候選樣本及新候選距離,並針對 新候選者重複任務L330直至到達訊框邊界為止。一旦已確 • 認新音調峰值,就可能需要在同一方向搜尋另一峰值直至 到達訊框邊界為止。在此狀況下,任務L34〇將錨定位置移 動至新音調峰值,並將滯後估計乘數m之值重設為一。去 田 到達訊框邊界時,可能需要將錨定位置初始化至終端音調 - 峰值位置並在相反方向上重複任務L3 00。 滯後估計自一訊框至下一訊框之大減小可指示音調溢出 錯誤。此錯誤由音調頻率之下降引起,使得當前訊框之滯 後值超出最大容許滯後值。對於方法M3〇〇而言,可能需 要將先前滯後估計與當前滯後估計之間的絕對或相對差與 141222.doc -51- 201007704 臨限值(例如’在計算新滯後估計時或在方法結束時)比較 録读_錯誤的情況下僅料tfl框的最大音料值。在 一實例中,臨限值等於先前滯後估計的5〇%。 對於具有兩個具大量值平方比之脈衝的分類為過渡之訊 杧(例如通常接近字之結尾的具有大音調改變的訊框)而 &,可能需要在接受較小峰值作為音調峰值之前在整個當 月j滯後估s十上而非僅在較小窗上進行相關。此狀況可在男 性話音中出現,該等男性話音通常具有在小窗上可與主要 峰值良好相關的次峰值。任務L200及L300中的一者可經實 施以包括此操作。 應明確地注意到,方法M3〇〇之滞後估計任務L2〇〇可為 與方法M100之滯後估計任務以3〇相同的任務。應明確地 注意到,方法M300之終端音調峰值位置任務L1〇〇可為與 方法M100之終端音調峰值位置計算任務E12〇相同的任 務。對於執行方法Ml 00及M3 00兩者的應用而言,可能需 要配置音調脈衝形狀選擇任務E110以在結束方法M300後 執行。 圖27A展示經組態以偵測語音信號之訊框的音調峰值之 裝置MF300之方塊圖。裝置MF300包括用於(例如,如上文 參看任務L100之各種實施所描述)定位訊框之終端音調峰 值的構件ML100。裝置MF300包括用於(例如,如上文參看 任務L200之各種實施所描述)估計訊框之音調滯後的構件 ML200。裝置MF300包括用於(例如,如上文參看任務L300 之各種實施所描述)定位訊框之額外音調峰值的構件 141222.doc -52- 201007704 ML300。 圖27B展示經組態以偵測語音信號之訊框的音調峰值之 裝置A300之方塊圖。裝置A300包括一終端音調峰值定位 器A3 1 0,其經組態以(例如,如上文參看任務L 1 00之各種 實施所描述)定位訊框之終端音調峰值。裝置A300包括一 音調滯後估計器A320,其經組態以(例如,如上文參看任 務L200之各種實施所描述)估計訊框之音調滯後。裝置 A300包括一額外音調峰值定位器A3 30,其經組態以(例 如,如上文參看任務L300之各種實施所描述)定位訊框之 額外音調峰值。 圖27C展示經組態以偵測語音信號之訊框的音調峰值之 裝置MF350之方塊圖。裝置MF350包括用於(例如,如上文 參看任務L100之各種實施所描述)偵測訊框之音調峰值的 構件ML150。裝置MF350包括用於(例如,如上文參看任務 L3 20及L320b之各種實施所描述)選擇候選樣本的構件 ML250。裝置MF350包括用於(例如,如上文參看任務L320 及L3 20a之各種實施所描述)選擇候選距離的構件ML260。 裝置MF350包括用於(例如,如上文參看任務L330之各種 實施所描述)選擇候選樣本及對應於候選距離之樣本中的 一者作為訊框之音調峰值的構件ML3 50。 圖27D展示經組態以偵測語音信號之訊框的音調峰值之 裝置A350之方塊圖。裝置A3 50包括一峰值偵測器150,其 經組態以(例如,如上文參看任務L100之各種實施所描述) 偵測訊框之音調峰值。裝置A3 50包括一樣本選擇器250, 141222.doc -53- 201007704 其經組態以(例如,如上文參看任務L32〇&L32〇bi各種實 施所描述)選擇候選樣本。裝置A35〇包括一距離選擇器 260 ’其經組態以(例如,如上文參看任務L32〇及[32〇&之 各種實施所描述)選擇候選距離。裝置A35〇包括一峰值選 擇器350,其經組態以(例如,如上文參看任務L33〇之各種 實施所描述)選擇候選樣本及對應於候選距離之樣本中的 · 一者作為訊框之音調峰值β 可能需要實施任務Ε100、第—訊框編碼器1〇〇及/或構件 FE100來產生唯一地指示訊框之終端音調脈衝之位置的經眷 編碼訊框。與滞後值組合之終端音調脈衝之位置提供用於 隨後讯框的重要相位資訊,隨後訊框可能缺少此時間同步 性資訊(例如’ QPPP)。亦可能需要最小化傳遞此資訊所需 要之位兀的數目。雖然將正常地需要八個位元(|7叹2刈個位 元)來表示160位元(Ν位元)訊框中之唯一位置,但如本文 中所描述之方法可用以在僅七個位元(k#」個位元)中編 碼終端音調脈衝的位置。此方法保留七位元值中之一者 (在此實例中’以用作模式值。 ❹ 對於相對於最後樣本給定終端音調脈衝之位置的情形而 言,訊框將與以下三種狀況中的一狀況匹配: 狀況1 :終端音調脈衝相對於訊框之最後樣本之位置小 於(2一」_1)(例* ’如圖29A中所示對於刚位元訊框小於 )且訊框3有一個以上音調脈衝。在此狀況下,將終 端曰調脈衝之位置編碼至1丨0匕#」個位元(七個位元)中且 音調滯後亦(例如,在七個位元中)進行傳輸。 141222.doc -54· 201007704 狀況2 :終端音調脈衝相對於訊框之最後樣本之位置小 於(2^^〗)(例如,如圖29A中所示對於16〇位元訊框小於 127),且訊框僅含有一音調脈衝。在此狀況下,將終端音 調脈衝之位置編碼為Llog2#」個位元(例如,七個位元),且 音調滯後設定為模式值(例如,127)。 狀況3 :若終端音調脈衝相對於訊框之最後樣本之位置 大於(2如2刈-2)(例如,如圖29B中所示對於16〇位元訊框大 φ 於126),則訊框含有一個以上音調脈衝為不大可能的。對 於160位元訊框及8 kHz之取樣速率而言,此將暗示在訊框 之約前20%中至少250 Hz之音調處的活動性,在訊框之剩 餘部分中無音調脈衝。對於此訊框而言分類為開始訊框將 為不大可能的。在此狀況下,替代實際脈衝位置而傳輸數 子(2 -1)(例如,丨27),且將滞後位元用以載運終端音 調脈衝相對於訊框之第一樣本的位置。相應解碼器可經組 態以測試經編碼訊框之位置位元是否指示(2 L/%々」_丨)的脈衝 • ^置。若如此,則解碼器可接著替代地自滞後位元獲得終 端音調脈衝相對於訊框之第一樣本的位置。 在如應用至16〇位元訊框之狀況3下,三十三個此等位置 • 為可能的(亦即,零至32)。藉由將位置中之一者捨入至另 . 一者(例如,藉由將位置159捨入至位置158,或藉由將位 置127捨入至位置128),可僅在五個位元中傳輸實際位 置,從而留下七個滯後位元中之兩者為空閒的以載運其他 資訊。 圖28展示根據以上三種狀況操作之根據一般組態之方法 141222.d〇c -55- 201007704 M500的流程圖。方法M500經組態以使用r個位元在q位元 訊框中編碼終端音調脈衝之位置,其中r小於log2 q。在如 上所論述之一實例中’ q等於160且r等於七。方法M500可 藉由第一訊框編碼器100之實施(例如,藉由音調脈衝位置 計算器120)及/或藉由構件FE100之實施(例如,藉由構件 FE120)在任務E100的實施内(例如,在任務E120内)執行。 參 方法M500包括任務T510、T520及T530。任務T510判定 終端音調脈衝位置(相對於訊框之結束)是否大於(2r_2)(例 如,大於126)。右結果為真,則訊框與以上狀況三匹配。 在此狀況下,任務T520將終端音調脈衝位置位元設定為 (2M)(例如,為127)且將滯後位元設定為等於終端音調脈 衝相對於訊框之開始的位置。 右任務T510之結果為假,則任務丁53〇判定訊框是否僅含 有一音調脈衝。若任務了53〇之結果為真,則訊框與以上狀 ❹ 况匹配且不需要傳輸滞後值。在此狀況下,任務T54〇 將滞後位元設定為模式值(2ri)。 右任務Τ530之結果為假,則訊框含有一個以上音調脈衝 且終端音調脈_對於訊框之結束隸置不大於(2r_2)(例 ^不大於126)。此訊框與以上狀況一匹配,且任務τ別 個位το中編碼該位置且詩後值編碼至滞後位元中。 對於相對於第—媒士 μ + 一 1 篆本給疋終端音調脈衝之位置的情形而 &,讯框將與以下= 種狀況中的一狀況匹配: 於二=調:::rr框之第一樣本之位置大 如圖29C中所示對於16〇位元訊框大於 141222.doc _56- 201007704 32),且訊框含有一個以上音調脈衝。在此狀況下,終端 音調脈衝之位置減去(N_ 乂吻刎)被編碼至個位元(例 如,七個位元)中,且音調滯後亦被傳輸(例如,在七個位 元中)。 狀況2 :終端音調衝相對於訊框之第一樣本之位置大 於(N-2Lft」)(例如,如圖29(:中所示對於16〇位元訊框大於 32),且訊框僅含有一音調脈衝。在此狀況下,終端音調 籲 脈衝之位置減去(N-2^4被編碼至個位元(例如,七 個位疋)中,且將音調滞後設定為模式值(2L/吻刎-1)(例如, 127)。 狀況3 .若終端音調脈衝之位置不大於(N_ 細2^」)(例如, 如圖29D中所示對於16〇位元訊框不大於32),則訊框含有 一個以上音調脈衝為不大可能的。對於160位元訊框及8 kHz之取樣速率而言,此將暗示在訊框之約前2〇%中至少 250 Hz之音調處的活動性,在訊框之剩餘部分中無音調脈 • 衝。對於此訊框而言分類為開始訊框將為不大可能的。在 此狀況下’替代實際脈衝位置而傳輸數字(例 如,127),且將滞後位元用以傳輸終端音調脈衝相對於訊 框之第一樣本的位置。對應解碼器可經組態以測試經編碼 汛框之位置位元是否指示(2L/%;v」·丨)的脈衝位置。若如此, 則解碼器可接著替代地自滯後位元獲得終端音調脈衝相對 於訊框之第一樣本的位置。 在如應用至160位元訊框之狀況3下,三十三個此等位置 為可能的(零至32)。藉由將位置中之一者捨入至另一者(例 141222.doc •57- 201007704 如’藉由將位置〇捨入至位置i,或藉由將位置32捨入至位 置31)’可在僅五個位元中傳輸實際位置,從而留下七個 滞後位元中之兩者為空閒的以載運其他資訊。熟習此項技 術者將認識到’方法M500可經修改以用於相對於第一樣 本給定終端音調脈衝之位置的情形。 四分之一速率允許每訊框四十個位元。在如藉由編碼任 - 務E100之實施、編碼器100或構件FE100應用之過渡訊框編 - 碼格式的一實例中,將十七個位元之區用以指示Lsp及編 碼模式,七個位元之區用以指示終端音調脈衝之位置,七 鬱 個位元之區用以指示滯後,七個位元之區用以指示脈衝形 狀,且兩個位元之區用以指示増益輪廓。其他實例包括用 於LSP之區為較小的且用於增益輪廓之區對應地為較大的 格式。 對應解碼器(例如,解碼器300或構件?1)1〇〇之實施,或 執行解碼任務D100之實施的器件)可經組態以藉由將所指 示脈衝複製至藉由終端音調脈衝位置及滯後值指示的位置 中之每一者並根據增益Vq表輸出縮放所得信號而自脈衝 _ 形狀VQ表輸出建構激勵信號。對於所指示之脈衝長於滯 後值之狀況下,相鄰脈衝之間的任何重疊可藉由以下操作 來處置:對每一對經重疊之值進行平均,選擇每一對中之 一值(例如,最高或最低值,或屬於左側或右側上之脈衝 的值)或簡單地丟棄超出滯後值之樣本。 激勵信號之音調脈衝並非簡單地為脈衝或尖峰。更確切 而言,音調脈衝通常具有依賴於說話者之隨時間消逝變化 J41222.doc -58- 201007704 的振幅輪麻或形狀’且保持此形狀對於說話者辨識可為重 要的。可能需要編碼脈衝形狀之良好表示以充當後續有聲 訊框的參考(例如,原型)。 音調脈衝之形狀提供在感知上對於說話者識別及辨識為 *要的資訊。為了向解碼器提供此資訊,過渡訊框編碼模 式(例如,如藉由任務E100之實施、編碼器1〇〇或構件 FE100所執行)可經組態以在經編碼訊框中包括脈衝形狀資 # 訊。編碼脈衝形狀可提出量化尺寸為可變之向*的問題。 舉例而s,剩餘物中之音調週期的長度且因此音調脈衝之 長度可在廣泛範圍上改變。在一實例中,可容許的音調滞 後值範圍為20至146個樣本。 可能需要在不將脈衝轉換至頻域的情況下編碼音調脈衝 的形狀。圖30展示根據一般組態之方法M6〇〇的流程圖, 該方法M600可藉由第一訊框編碼器1〇〇之實施(例如,藉由 音調脈衝形狀選擇器110)及/或藉由構件FE1〇〇之實施(例 • 如,藉由構件FE110)在任務E100的實施内(例如,在任務 E11〇内)執行。方法M600包括任務T610、ΤΓ620、T630、 了640及丁65(^任務T61〇視訊框是具有單一音調脈衝還是 多個音調脈衝而選擇兩個處理路徑中的一者。 對於單一脈衝訊框而言,任務丁 62〇根據訊框内之音調脈 衝的位置而選擇一組不同單一脈衝向量量化(VQ)表中的一 者。此等表中之每一者具有一等於訊框之長度(例如,16〇 個樣本)的向量尺寸。在一實例中,該組單一脈衝VQ表包 括三個表。任務T630接著藉由在所選擇VQ表内找到最佳 141222.doc -59· 201007704 匹配而量化脈衝形狀。 在一特定實例中,此編碼系統包括用於單—脈衝訊框的 三個脈衝形狀VQ表。每一表具有128個輸入項,該等輸入 項每者具有長度160,使得脈衝形狀經編碼為七位元索 引。 對應解碼器(例如,解碼器300或構件Fm〇〇之實施或執 · 行解碼任務D100之實施的器件)可經組態以在脈衝位置值 等於模式值(例如,127)的情況下將訊框識別為單一脈衝。 替代或額外地,此解碼器可經組態以在滞後值等於模式值碜 (例如’ 127)的情況下將訊框識別為單一脈衝。 對於多個脈衝之訊框而言,任務T64〇可經組態以提取具 有最大增益(例如,最高峰值)的音調脈衝。在提取脈衝 時’可能需要需要確保峰值並非為所提取脈衝之第一或最 後樣本,其將導致一或多個重要樣本的間斷及/或遺漏。 在一些狀況下,峰值之後的資訊與峰值之前的資訊相比較 對於語音品質可能為更重要的,因此可能需要提取脈衝使 得峰值接近開始處。在一實例中,任務Τ64〇自音調週期提_ 取在音調峰值之前兩個樣本處開始之形狀。此方法允許擷 取在峰值之後出現且可含有重要形狀資訊的樣本。在另一 . 實例中,可能需要擷取峰值之前的更多樣本,該等樣本亦 可含有重要資訊。在其他實例中,任務Τ64〇經組態以提取 以峰值為中心的音調週期。可能需要自一訊框提取一個以 上音調脈衝並計算來自具有最高增益之兩個或兩個以上音 調脈衝的平均形狀。可能需要在執行形狀選擇之前正規化 141222.doc -60 - 201007704 脈衝振幅。
對於多個脈衝之訊框而言,任務T65〇基於滯後值(或所 提取原型之長度)來選擇脈衝形狀¥(5表且接著自所選擇表 選擇最佳匹配。可能需要提供九或十個脈衝形狀VQ表來 編碼多個脈衝之訊框。每一表具有不同向量尺寸,且係與 不同滞後範圍<「筐」相關聯。因為脈衝之長度可能並非 與表輸入項之長度準確地匹配,所以任務Τ65〇可經組態以 在自表選擇最佳ε配之前對形狀向量塾零(zer〇_pad)(例 如,在結束處)以與對應表向量大小匹配。替代或額外 地,任務T650可經組態以在自表選擇最佳匹配之前截斷形 狀向量從而與對應表向量大小匹配。在一實例中,多脈衝 脈衝形狀VQ表中的每一者具有128個輸入項使得脈衝形 狀經編碼為七位元索引。 相應解碼器(例如,解碼器3〇〇或構件FDl〇〇之實施或執 行解瑪任務DHH)之實施的器件)可經組態以:自經編碼訊 框獲得滯後值及脈衝形㈣引值,使用滞後值來選擇適當 脈衝形狀VQ表’及使用脈衝形狀索引值來自所選擇脈衝 形狀VQ表選擇所要脈衝形狀。 、可能(容許)滯後值之範圍可以均勻方式或非均勻方式劃 分為筐。在如圖31A中所說明之均勻劃分的一實例中, 至146個樣本之滯後範圍劃分為以下九個筐·加至^、% 至47、48至61、62至75、乃至的、9〇至1〇3、綱至117、 11 8至131及132至146 〇在此實例中,除最後筐外之所有筐 〃有十四個樣本之寬度,該最後筐具有十五個樣本的寬 141222.doc •61- 201007704 度。 如上所闡述之均勻劃分與低音調頻率處之品質相比較可 導致南音調頻率處的減小之品質。在以上實例中,具有一 十個樣本之長度的音調脈衝在匹配之前將延伸(例如,墊 零)65%,而具有132個樣本之長度的音調脈衝將延伸(例 如,墊零)僅11%。使用非均勻劃分之一潛在優點為等化不 同滯後筐間的最大相對延伸。在如圖3 1B中所說明之非均 勻劃分的一實例中,20至146個樣本之滞後範圍劃分為以 下九個筐:20至23、24至29、30至37、38至47、48至60、 61至76、77至96、97至120及121至146。在此狀況下,具 有二十個樣本之長度的音調脈衝在匹配之前將延伸(例 如,墊零)15%,具有121個樣本之長度的音調脈衝將延伸 (例如,墊零)21%,且在20至146個樣本之範圍内之任何音 調脈衝的最大延伸為25%。 根據組態(例如,根據語音編碼器AE2〇之實施)之語音編 碼器使用三或四種編碼方案來編碼不同類別訊框:四分之 一速率nELP(qnelp)編碼方案、四分之一速率ppp(Qppp) 編碼方案及如上所描述之過渡訊框編碼方案。qnelp編碼 方案用以編碼無聲訊框及向下過渡訊框。。狐卩編碼方案 或八勿之一速率NELP編碼方案可用以編碼靜默訊框(例 如,背景雜訊"QPPP編碼方案用以編碼有聲訊框。過渡 訊框編碼方案可用以編碼向上過渡(亦即,開始)訊框及過 渡訊框。圖26之表展示此等四種編媽方案中之每一者之位 元配置的實例。 14I222.doc •62· 201007704 現代聲碼器通常執行語音訊框之分類。舉例而言,此聲 碼器可根據將訊框分類為以上所論述六個不同類別(靜 默、無聲、有聲、過渡、向下過渡及向上過渡)中之一者 的方案來操作。此等方案之實例在美國公開專利申請案第 2002/0111798號(Huang)中進行描述。此分類方案之一實例 亦在3GPP2(第三代合作夥伴計劃2)文獻「Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 f〇r Wideband Spread Spectrum Digital Systems」(在 www.3gpp2.org可在線獲得之 2〇〇7年 i 月的 3Gpp2 c s〇〇i4_ C)章節4·8(第4·57至4.71頁)中進行描述^此方案使用在圖 32之表中列出之特徵來分類訊框,且此章節作為本文中所 描述之「EVRC分類方案」之實例以引用方式而併入。 顯現於圖32之表中之參數E、EL及EH可計算如下(對於 160位元訊框而言)·· ^ , Ϊ59 159 Ε = ⑻ EL = EH = ⑻ • “ ? 等式3 其中&(«)與分別為輸入語音信號的(使用I】階極零低 • 通濾波器)經低通濾波及(使用12階極零高通濾波器)經高通 濾波之型式。可用於EVRC分類方案中之其他特徵包括先 前訊框模式決策(「prev_mode」)、先前訊框中之固定有聲 語音的存在(「prev_v〇iced」),及當前訊框之話音活動性 4貞測結果(「curr_va」)。 在分類方案中使用之重要特徵為基於音調之正規化自動 141222.doc •63· 201007704 相關函式(NACF)。圖33展示用於計算基於音調之NACF之 程序的流程圖。首先,經由具有約100 Hz處的3-dB截止頻 率的三階高通濾波器來濾波當前訊框之及下一訊框(亦稱 為超前訊框)之LPC剩餘物。可能需要使用非量化之LPC係 數值來計算此剩餘物。接著,經濾波之剩餘物由具有長度 13之有限脈衝回應(FIR)濾波器低通濾波,且以因子二進 行減除(decimate)。經減除之信號藉由來表示。 當前訊框之兩個子訊框的NACF計算如下: nacf(k)= /40-1 \ί 40-1 sign Σ [〜(40 是 + (40λ + « -細⑻十,·)] Z [〜(40A: + (40A: + « - /叹(众)+ /)] max- V n=〇 八w=0 ^40-1 广40-1 (AOk + n)rd(40A: + ή)] ^[rd(40Α: + η- lag{k) + i)rd(AOk + «-lag{k) + 〇] 人 n=〇 J 等式4 對於k=l、2,其中在所有整數i上完成最大化使得 1 + max[65min(0.2x lag(k)J[6)] ^ ^ 1 + max[6?min(0.2x lag(k),\6)] --< ;< —— 2 2 , 其中Mg⑻為如藉由音調估計常式(例如,基於相關之技術) 估計之子訊框A的滯後值。當前訊框之第一子訊框及第二 子訊框的此等值亦可分別稱作nacf_at_pitch[2](亦寫為 「nacf_ap[2]」)及nacf_ap[3]。先前訊框之第一子訊框及 第二子訊框之根據以上表達計算之NACF值可分別稱作 nacf_ap[0]及nacf_ap[l]。 超前訊框之NACF計算如下: 141222.doc -64- 201007704 '80-1 '80-1 sigm ^ [rd (80 + n)rd (80 + « - 〇] ^ [rd (80 + n)rd (80 + « - /)] nacf(2): r80-l … V80-] 艺[G (80 + (80 + λ)] $ [rrf (80 + « - z)rtf (80A: + w - z·)] j
人 n=0 J 等式5 其中在所有整數/上完成最大化,使得 20^.^120 2 2 〇 此值亦可稱作nacf_ap[4]。 ® 圖34為說明處於高位準之EVRC分類方案的流程圖》模 式決策可被視為狀態之間的基於先前模式決策且基於諸如 NACF之特徵的過渡,其中狀態為不同訊框分類。圖35為 說明EVRC分類方案中狀態之間的可能過渡之狀態圖,其 中標記S、UN、UP、TR、V及DO WN分別表示訊框分類靜 默、無聲、向上過渡、過渡、有聲及向下過渡。 視nacf_at_pitch[2](當前訊框之亦寫為「nacf—ap[2]」之 第二子訊框NACF)與臨限值VOICEDTH及UNVOICEDTH之 ❹ 間的關係而定,EVRC分類方案可藉由選擇三個不同程序 中的一者而實施。延伸跨越圖3 6及圖3 7之程式碼列表描述 在nacf_ap[2] > VOICEDTH時可使用的程序。延伸跨越圖 38至圖40之程式碼列表描述在nacf_ap[2] < UNVOICEDTH 時可使用的程序。延伸跨越圖41至圖44之程式碼列表描述 在 nacf_ap[2]>=UNVOICEDTH 且 nacf—ap[2]<=VOICEDTH 時可使用的程序。 可能需要根據特徵curr_ns_snr之值來改變臨限值 141222.doc -65- 201007704 VOICEDTH、LOWVOICEDTH及UNVOICEDTH的值。舉例 而言’若curr_ns_snr之值不小於為25 dB之SNR臨限值,則 可應用針對乾淨語音之以下臨限值:VOICEDTH=0.75, LOWVOICEDTH=0.5 , UNVOICEDTH=0.35 ;且若 curr_ns_snr之值小於為25 dB之SNR臨限值,則可應用針對 吵雜語音之以下臨限值:VOICEDTH=0.65,LOWVOICEDTH= 0.5,UNVOICEDTH=0.35。 訊框之準確分類對於在低速率聲碼器中確保良好品質可 為尤其重要的。舉例而言,可能需要僅在開始訊框具有至 少一獨特峰值或脈衝的情況下使用如本文中所描述的過渡 訊框編碼模式。此特徵對於可靠脈衝偵測為重要的,在沒 有其的情況下過渡訊框編碼模式可產生失真之結果。可能 需要使用NELP編碼方案而非PPP或過渡訊框編碼方案來編 碼缺少至少一獨特峰值或脈衝的訊框。舉例而言,可能需 要將此過渡或向上過渡訊框重新分類為無聲訊框。 此重新分類可係基於一或多個正規化自動相關函式 (NACF)值及/或其他特徵。重新分類亦可係基於在EVRC分 類方案中並未使用之特徵’諸如,訊框之岭值比RMS能量 值(「最大樣本/RMS能量」)及/或訊框中之音調脈衝的實 際數目(「峰值計數」)。展示於圖45之表中之八個條件中 之任何一或多者及/或展示於圖46之表中的十個條件中之 任何一或多者可用於將向上過渡訊框重新分類為無聲訊 框。展示於圖47之表中之Η--個條件中之任何一或多者及 /或展示於圖48之表中的十一個條件中之任何一或多者可 141222.doc •66- 201007704 用於將過渡訊框重新分類為無聲訊框。展示於圖49之表中 之四個條件中之任何一或多者可用於將有聲訊框重新分類 為無聲訊框。亦可能需要將此重新分類限制於相對無低頻 帶雜訊之訊框。舉例而言,可能需要僅在eurr_ns_snr之值 不小於25 dB情況下根據圖μ、4δ或49中之條件中的任— 者或圖47之七個最右側條件中的任一者來重新分類訊框。 相反,可能需要將包括至少一獨特峰值或脈衝之無聲訊 ❿ #重新分類為向上過渡或過渡訊框。此重新分類可係基於 一或多個正規化自動相關函式(NACF)值及/或其他特徵。 重新分類亦可係基於在EVRC分類方案中並未使用之特 徵,諸如,訊框之峰值比RMS能量值及/或峰值計數。展 7於圖5〇之表中之七個條件中之任何-或多者可用於將無 聲訊框重新分類為向上過渡訊框。展示於圖51之表中之九 個條件中之任何-或多者可用於將無聲訊框重新分類為過 渡訊框。展示於圖52A中之條件可用於將向下過渡訊框重 ❶ 冑分類為有聲訊框。展示於圖52B中之條件可用於將向下 過渡訊框重新分類為過渡訊框。 作為對訊框重新分類之替代,諸如EVRC分類方案之訊 框刀類方法可經修改以產生等於EVRC分類方案與以上所 ·#述及/或在圖45至圖52B中闡述之重新分類條件中的一或 多者之組合的分類結果。 =53展示語音編碼器繼〇之實施a㈣的方塊圖。編碼 ’、選擇器C200可經組態以應用諸如在圖%至圖中之程 式瑪列表中描述之EVRC分類方案的分類方案。語音編碼 141222.doc -67- 201007704 器AE30包括一訊框重新分類器RC 1 〇,其經組態以根據以 上所描述及/或在圖45至圖52Β中所闡述之條件中的一或多 者來重新分類訊框。訊框重新分類器RC10可經組態以自 編碼方案選擇器C200接收訊框分類及/或其他訊框特徵的 值。訊框重新分類器RC10亦可經組態以計算額外訊框特 徵(例如,峰值比RMS能量值、峰值計數)之值。或者,語 音編碼器ΑΕ30可經實施以包括編碼方案選擇器C200之實 施,其產生等於EVRC分類方案與以上所描述及或在圖45 至圖52Β中所闡述之重新分類條件中的一或多者之組合的 分類結果。 圖54Α展示語音編碼器ΑΕ10之實施ΑΕ40的方塊圖》語音 編碼器ΑΕ40包括一經組態以編碼週期性訊框之週期性訊 框編碼器Ε70及一經組態以編碼非週期性訊框的非週期性 訊框編碼器Ε80。舉例而言,語音編碼器ΑΕ40可包括編碼 方案選擇器C200之一實施,其經組態以指導選擇器60a、 60b對於分類為有聲、過渡、向上過渡或向下過渡之訊框 選擇週期性訊框編碼器E70,且對於分類為無聲或靜默之 訊框選擇非週期性訊框編碼器E80。 圖54B展示週期性訊框編碼器E70之實施E72的方塊圖。 編碼器E72包括如本文中所描述之第一訊框編碼器1〇〇及第 二訊框編碼器200的實施。編碼器E72亦包括選擇器80a、 80b,其經組態以根據來自編碼方案選擇器C200之分類結 果選擇編碼器100及200中的一者以用於當前訊框。可能需 要組態週期性訊框編碼器來選擇第二訊框編碼器200(例 141222.doc -68· 201007704 如’ QPPP編碼器)作為週期性訊框的預設編碼器。非週期 性訊框編碼器E80可類似地經實施以選擇無聲訊框編碼器 (例如,QNELP編碼器)及靜默訊框編碼器(例如,八分之— 速率NELP編碼器)中的一者。或者,非週期性訊框編碼器 E80可實施為無聲訊框編碼器uei〇的一例項。 圖55展示週期性訊框編碼器E72之實施E74的方塊圖。編 碼器E74包括訊框重新分類器RC1〇之例項,其經組態以: ❿ 根據以上所描述及/或在圖45至圖52B所闡述之條件中的一 或多者重新分類訊框,並控制選擇器8(^、8〇b從而根據重 新分類之結果選擇編碼器100及200中的一者以用於當前訊 框。在又一實例中,編碼方案選擇器C2〇〇可經組態以:包 括訊框重新分類器RC10,或執行等於EVRC分類方案與以 上所描述及/或在圖45至圖52B中闡述之重新分類條件中的 一或多者之組合的分類方案,且選擇如藉由此分類或重新 分類所指示的第一訊框編碼器1 00。 • 可能需要使用如上所描述之過渡訊框編碼模式來編碼過 渡及/或向上過渡訊框。圖56A至圖56D展示使用如本文中 所描述之過渡訊框編碼模式可能為所要的一些典型訊框序 . 列。在此等實例中,使用過渡訊框編碼模式通常將經指示 以用於以粗體描畫輪廓的訊框。此編碼模式通常對具有相 對恆定之音調週期及尖銳脈衝的全部或局部有聲訊框表現 良好。然而當訊框缺少尖銳脈衝時或當訊框先於發聲之實 際開始時,經解碼語音之品質可減小。在一些狀況下,可 能需要跳過或取消過渡訊框編碼模式之使用,或以其它方 M1222.doc -69- 201007704 式延遲此編碼模式的使用直至較遲訊框(例如,隨後訊 框)。 脈衝錯誤偵測可引起音調錯誤、遺失脈衝及/或外來脈 衝的插入。此等錯誤可在經解碼語音中導致諸如啪啪、咔 噠及/或其他間斷的失真。因此,可能需要驗證訊框適於 過渡訊框編碼,且在訊框為不合適時取消使用過渡訊框編 碼模式可有助於減小此等問題。 可判定過渡或向上過渡訊框不適於過渡訊框編碼模式。 舉例而言,訊框可能缺少獨特之尖銳脈衝。在此狀況下, 可能需要使用過渡訊框編碼模式來編瑪在不合適訊框之後 的第一合適有聲訊框。舉例而言,若開始訊框缺少獨特之 尖銳脈衝,則可能需要對隨後之第一合適有聲訊框執行過 渡訊框編碼。此技術可有助於確保用於後續有聲訊框的良 好參考。 在一些狀況下,過渡訊框編碼模式之使用可導致脈衝增 益失配問題及/或脈衝形狀失配問題。僅有限數目個位元 可用於編碼此等參數,且當前訊框可能不提供良好參考 (即使以其它方式指示了過渡訊框編瑪)。取消對過渡訊框 編碼模式之不必要使用可有助於減小此等問題。因此,可 倉b需要驗證過渡訊框編瑪模式與另一編碼模式相比更適於 當前訊框。 對於跳過或取消使用過渡訊框編碼的狀況而言,可能需 要使用過渡訊框編碼模式來編碼隨後之第一合適訊框,此 係因為此動作可有助於提供用於後續有聲訊框的良好參 141222.doc •70· 201007704 考么舉例而g,若緊接的下一訊框為至少部分有聲的,則 可能需要強制對該訊框使料渡訊框編碼。 ° ;諸如以下各項之準則來判定對過渡訊框編碼之需 要及/或。孔框之過渡訊框編碼的適用性··當前訊框分類、 切訊框分類、初始滞後值(例如,如藉由諸如基於相關 . 之技術的音調估計常式所判定)、經修改之滞後值(例如, 藉由諸如方法M200之脈衝偵測操作所判定)、先前訊框 _ 之滯後值及/或NACF值。 因為在纟良好參考,障況下使用Qppp的結果為不可預測 t 所以可能需要接近有聲區段之開始使用過渡訊框編碼 模式。然而在一些狀況下,可預期Qppp與過渡訊框編碼 模式相比提供較好結果。舉例而言,在一些狀況下,可預 ’月使用過渡訊框編碼模式與使用相比產生不良參考 或甚至引起更不滿意的結果。 若對於當前訊框為不必要的,則可能需要跳過過渡訊框 ❿ 編碼。在此狀況下,可能需要預設為諸如QPPp之有聲編 碼模式(例如,以保持(^>1>1>之連續性)。對過渡訊框編碼模 . 式之不必要使用(例如,歸因於此等特徵之有限位元預算) 可導致較遲訊框中之脈衝增益及/或脈衝形狀之失配問 ’ 題。具有有限時間同步性之有聲編碼模式(諸如,QPPP)對 於此等錯誤可為尤其敏感的。 在使用過渡訊框編碼方案編碼訊框之後’可能需要檢查 、’i編碼I果,並在經編碼結果為不良的情況下拒絕對訊框 使用過渡訊框編碼。對於多數無聲且僅接近結束變為有聲 141222.doc •71· 201007704 的訊框而t ’過渡編碼模式可經組態以編碼無脈衝(例 如,為零或低值)之無聲部分,過渡編碼模式可經組態以 用脈衝填充無聲部分的至少部分。若在無脈衝情況下編碼 無聲刀’則在經解碼信號中訊框可產生可聽的叶哮或間 斷。在此狀況下,可能需要替代地將NELP編碼方案用於 然而’可旎需要避免對有聲區段使用NELP,此可 引起失真。若針對訊框取消過渡編碼模式,則在多數狀況 下,可能需要使用有聲編碼模式(例如,QPPP)而非無聲編 碼模式(例如,QNELP)以編碼訊框。如上所描述,使用過馨 渡編碼模式之選擇可實施為過渡編碼模式與有聲編碼模式 之間的選擇。雖然在無良好參考情況下使用之結果 可為不可預測的(例如’訊框之相位將自前一無聲訊框得 到),但不大可能在經解碼信號中產生咔噠或間斷。在此 狀况下,過渡編碼模式之使用可延期至下一訊框。 在偵測到訊框之間的音調間斷時,可能需要使將過渡編 碼模式用於訊框之決策無效。在一實例中,任務T710檢查 與先前訊柩之音調連續性(例如’檢查音調加倍錯誤)。若_ 訊框分類為有聲或暫態且當前訊框之藉由脈衝偵測常式指 不的ΛΤ後值遠小於先前訊框之藉由脈衝偵測常式所指示的 滯後值(例如,為先前訊框之藉由脈衝偵測常式所指示的 货值之約A、丨或%) ’則任務取消使用過渡編碼模 決策。 在另一實例中,任務T72〇檢查與先前訊框相比較之音調 溢出。當語音具有一導致高於最大容許滯後之滯後值的極 141222.doc •72· 201007704 低曰調頻率時,音調溢出出現。此任務可經組態以在先前 λ框之滞後值為大的(例如,大於1〇〇個樣本)且當前訊框之 2由音調估計及脈衝偵測常式指示之滯後值皆遠小於先前 曰調(/列如,小50%以上)的情況下取消使用過渡編碼模式 的決策。在此狀況下,亦可能需要僅保持訊框之最大音調 脈衝作為單-脈衝。或者,可使用先前滯後估計及有聲及/ 或相對編碼模式(例如,任務Ε200、QPPP)來編碼訊框。 在偵測到來自兩個不同常式之結果中的不一致性時, 可能需要使將過渡編碼模式用於訊框之決策無效。在一實 例中,任務Τ730檢查在存在強NACF的情況下來自音調估 計常式及脈衝偵測常式之滞後值的一致性。第二脈衝之音 調處的極鬲NACF指示良好音調估計,使得兩個滯後估計 之間的不一致性將為意外的。此任務可經組態以在來自脈 衝偵測常式之滯後估計非常不同於來自音調估計常式之滯 後估计(例如,大於丨6倍)的情況下取消使用過渡編碼模式 之決策。 在另一實例中,任務T740檢查滯後值與終端脈衝之位置 之間的符合性。在如使用滞後估計(其可為峰值之間的距 離之平均值)編碼之峰值位置中的一或多者過於不同於對 應實際峰值位置時,可能需要取消使用過渡訊框編碼模式 的決策。任務T740可經組態以使用終端脈衝之位置與藉由 脈衝偵測常式所計算之滞後值來計算經重建之音調脈衝位 置、比較經重建之位置中的每一者與如藉由脈衝偵測演算 法偵測到的實際音調峰值位置,且在差中之任一者為過大 141222.doc -73- 201007704 的(例如,大於八個樣本)情況下取消使用過渡訊框編碼的 決策。 在又一實例中,任務T750檢查滯後值與脈衝位置之間的 符合性。此任務可經組態以在最終音調峰值距最終訊框邊 界大於一滞後週期的情況下取消使用過渡訊框編碼的決 策。舉例而言,此任務可經組態以在最終音調脈衝之位置 與訊框之結束之間的距離大於最終滞後估計(例如,藉由 滯後估計任務L200及/或方法M300所計算之滯後值)的情況 下取消使用過渡訊框編碼的決策。此條件可指示脈衝錯誤 ❹ 偵測或尚非穩定的滯後。 若當前訊框具有兩個脈衝且分類為過渡,且若兩個脈衝 之峰值之經平方量值的比為大的,則可能需要在整個滞後 值上使兩個脈衝相關,並拒絕較小峰值,除非相關結果大 於(或者,不小於)對應臨限值。若較小峰值被拒絕,則亦 可能需要取消將過渡訊框編碼用於訊框的決策。 圖57展示可用以取消將過渡訊框編碼用於訊框的決策之 兩個常式的程式碼列表。在此列表中,m〇d_lag指示來自❹ 脈衝谓測常式之滯後值;〇1>丨§-1吨指示來自音調估計常式 之汴後值,pdelay_transient_coding指示先前訊框之來自脈 . 衝债測常式的滯後值;PREV_TRANSIENT_FRAME—E指示 過渡編碼模式是否用於先前訊框;且loc[0]指示訊框之最 終音調峰值的位置。 圖58展示可用以取消使用過渡訊框編碼之決策的四個不 同條件°在此表中,curr_mode指示當前訊框分類; 141222.doc • 74- 201007704
preV_m〇de指示先前訊框之訊框分類;肋的打»…指 示當前訊框中之脈衝的數目;PreV_Kpulses指示先前 訊框中之脈衝的數目;piteh—dGubling指示在當前訊框中是 否已偵測到曰調加倍錯誤;deha—lag—in㈣指示來自音調 估計常式及脈衝偵測常式之滯後值之間的差之絕對值(例 如’整數)(或若债測到音調加倍,則為來自音調估計常式 之滯後值的一半與來自脈衝偵測常式之滯後值之間的差之 絕對值),delta_lag—inter指示先前訊框之最終滯後值與當 别訊框之來自音調估計常式之滯後值(或在偵測到音調加 倍時彼滞後值的一半)之間的差之絕對值(例如,浮點); NEED—TRANS指示在先前訊框之編碼期間是否指示將過渡 訊框編碼模式用於當前訊框;TRANS—USED指示過渡編碼 模式是否用以編碼先前訊框;且fully v〇iced指示終端音調 脈衝之位置與如藉由最終滯後值劃分的訊框之相反端之間 的距離之整數部分是否等於number_of_pulses減一。臨限 值的實例包括TlA=[〇_l*(來自脈衝偵測常式之滯後值)+〇 5], Τ1Β=[〇.〇5*(來自脈衝偵測常式之滯後值)+〇5],Τ2Α=[〇2* (先前訊框之最終滞後值)],且Τ2Β = [0.15*(先前訊框之最 終滞後值)]。 訊框重新分類器RC10可經實施以包括以上所描述之用 於取消使用過渡編碼模式之決策的規定中之一或多者(諸 如’任務Τ710至Τ750、圖57中之程式碼列表及展示於圖58 中的條件)。舉例而言,訊框重新分類器RC10可經實施 以:執行如圖59中所示之方法Μ700,並在測試任務Τ710 141222.doc -75· 201007704 至T750中之任一者失敗的 決策。 彳取消使用過渡編碼模式的 在如本文中所描述之方 M300、_、咖。或咖〇或另—常::M1°0、M200、 實施的典型應用中,邏輯元件二程式媽列表)之 雜以勃—吁 '如,邏輯閘)之陣列經組 態以執灯該方法之各種任務中的—者、一個以 部。亦可將任務中之一或多去 /甚至全 電腦程式產品(例如,一戍多::全部)實施為具體化於 μ 5戈多個資料儲存媒體,諸如碟 片、’_或其他非揮發性記憶卡、半導體記憶體晶片等) 式碼(例如,一或多個指令集),其可由包括邏輯元 件之阵列(例如’處理器、微處理器、微控制器或其他有 限狀態機)的機器(例如,電腦)讀取及/或執行。此方法之 實施的任務亦可由-個以上此陣列或機器來執行。在此等 或其他實施中’該等任務可執行於用於無線通信之器件 内’諸如行動使用者終端機或具有此通信能力之其他器 件此器件可經組態以(例如,使用諸如ν〇ιρ(網路電話)之 -或多個協定)與電路交換式網路及/或封包交換式網路通 信。舉例而言’此器件可包括RF電路,其經組態以傳輸包 括經編碼訊框之信號及/或接收此信號。此器件亦可經組 態以在RF傳輸之前對經編碼訊框執行一或多個其他操作, 諸如,交錯、打孔、卷積編碼、錯誤校正編碼及/或應用 網路協定之一或多個層。 本文中所描述之裝置(例如,裝置A100、A200、A300、 A500、A600、A700或語音編碼器AE2〇或其元件)之實施的 141222.doc -76- 201007704 各種元件可實施為駐留於(例如)同一晶片或晶片組中之兩 個或兩個以上晶片中的電子及/或光學器件,雖然亦預料 到無此限制的其他配置。此裝置之一或多個元件可整個或 部分地實施為經配置以在邏輯元件(例如,電晶體、閉)的 一或多個固定或可程式化陣列上執行之一或多組指令,該 等邏輯元件陣列諸如微處理器、嵌埋式處理器、Ip核心、
數位信號處理器、FPGA(場可程式化閘陣列)、ASSp(特殊 應用標準產品)及ASIC(特殊應用積體電路)。 此裝置之實施的一或多個元件可能用以執行與裝置之操 作不直接相關的任務或執行與裝置之操作不直接相關的其 他組指令(諸如關於裝置所嵌埋於之器件或系統之另一操 作的任務)。本文中所描述之裝置之實施之—或多個元件 亦可能具有共同結構(例如,用以在不同時間執行程式碼 之對應於不同元件之部分的處理器、經執行以在不同時間 執行對應於不同元件之任務的指令集,或在不同時間執行 用於不同元件的操作之電子及/或光學器件的配置)。 提供所描述組態之以上陳述以使任何熟習此項技術者能 夠製造或使用本文中所揭示之方法及其他結構。本文所展 不並描述之流程圖及其他結構僅為實例,且此等結構之其 =變型亦係、在本揭示案之料内。對此等組態之各種修改 =能的’且本文中所呈現之—般原理亦可應用於其他組 態。 本文中所描述之組態中之每—去 硬遠繞雷牧· 部分或整個地實施為 硬連線電路、實施為製 衣知取荷姝應用積體電路之電路組 I41222.doc •77- 201007704 二3 = ί入至非揮發性儲存器中之_式或作為 L 二:= 。 飞此程式碼為可由邏輯元件陣列(諸如, 微處理器或其他數位作號 双伹彳。唬處理早元)執行的指令。 存媒體可為儲存元侔瞌别 ^ Μ τ叶儲 仔兀件陣列,諸如,半導體記憶體 括,無限制,動能七抵咕 巴 〜'或靜L RAM(隨機存取記憶體)、 讓(唯讀記,_及/或快義M),或鐵t記憶體、磁電 阻記憶體、雙向記情科 ^ . 已隱體、聚合記憶體或相變記憶體;
片媒體諸如’磁碟或光碟。術語「軟體」應理解為包括 源碼、組合語言碼、機器瑪、二進位碼、勃體、巨碼、微 碼可由邏輯凡件陣列執行之任何-或多個指令集或指令 序列,及此等實例的任何組合。
本文中所揭不之方法中的每一者亦可切實地具體化(例 如,在如以上列出之一或多個資料儲存媒體中)為可由一 包括邏輯元件陣列(例如,處理器、微處理器、微控制器 或其他有限狀態機)的機器讀取及/或執行之一或多個指令 集。因此,本揭示内容不欲限於以上所展示之組態,而是 符合與在本文中以任何方式揭示之包括於所申請之申請專 利範圍中的原理及新穎特徵一致之最廣泛範疇,申請專利 範圍形成原始揭示内容之一部分。 【圖式簡單說明】 圖1展示語音信號之有聲區段的實例。 圖2A展示語音區段之隨時間流逝的振幅的實例。 圖2B展示LPC剩餘物之隨時間流逝的振幅的實例。 141222.doc -78- 201007704 圖3 A展示根據一般組態之語音編碼方法Ml00的流程 圖。 圖3B展示編碼任務E1 00之實施E102的流程圖。 圖4展示訊框中之特徵的示意性表示。 圖5A展示編碼任務E200之實施E202的圖表。 圖5B展示方法M100之實施M110的流程圖。 • 圖5C展示方法M100之實施M120的流程圖。 圖6A展示根據一般組態之裝置MF100之方塊圖。 ® 圖6B展示構件FE100之實施FE102的方塊圖。 圖7 A展示根據一般組態之解碼語音信號之激勵信號之方 法M200的流程圖。 圖7B展示解碼任務D100之實施D102的流程圖。 圖8A展示根據一般組態之裝置MF200之方塊圖。 圖8B展示用於解碼之構件FD1 00之實施FD102的流程 圖。 ^ 圖9入展示語音編碼器八£10及相應語音解碼器八010。 圖9B展示語音編碼器AE10之例項AElOa、AElOb及語音 解碼器AD10的例項ADlOa、ADlOb。 ' 圖10A展示根據一般組態之用於編碼語音信號之訊框的 • 裝置A100之方塊圖。 圖10B展示編碼器100之實施102的方塊圖。 圖11A展示根據一般組態之用於解碼語音信號之激勵信 號的裝置A200之方塊圖。 圖11B展示第一訊框解碼器300之實施302的方塊圖。 141222.doc -79- 201007704 圖12A展示語音編碼器ΑΕΙ 0之多模式實施AE20的方塊 圖。 圖12Β展示語音解碼器AD 1 0之多模式實施AD20的方塊 圖。 圖13展示剩餘物產生器R10之方塊圖。 圖14展示用於衛星通信之系統的示意圖。 圖15Α展示根據一般組態之方法Μ300的流程圖。 圖15Β展示任務L100之實施L102的方塊圖。 圖15C展示任務L200之實施L202的流程圖。 圖16Α展示藉由任務L120進行之搜尋的實例。 圖16Β展示藉由任務L130進行之搜尋的實例。 圖17Α展示任務L210之實施L210a的流程圖。 圖17B展示任務L220之實施L220a的流程圖。 圖17C展示任務L230之實施L230a的流程圖。 圖18A至圖18F說明任務L212之迭代的搜尋操作。 圖19A展示任務L214之測試條件的表。 圖19B及圖19C說明任務L222之迭代的搜尋操作。 圖20A說明任務L232之搜尋操作。 圖20B說明任務L234之搜尋操作。 圖20C說明任務L232之迭代的搜尋操作。 圖21展示任務L300之實施L302的流程圖。 圖22A說明任務L320之搜尋操作。 圖22B及圖22C說明任務L320之替代搜尋操作。 圖23展示任務L330之實施L332的流程圖。 141222.doc -80- 201007704 圖24A展示可由任務L334之實施使用之測試條件的四個 不同集合。 圖24B展示任務L338之實施L338a的流程圖。 圖25展示任務L300之實施L304的流程圖。 圖26展示語音編碼器AE10之實施之各種編碼方案的位 元配置表。 圖27A展示根據一般組態之裝置MF300之方塊圖。 圖27B展示根據一般組態之裝置A300之方塊圖。 圖27C展示根據一般組態之裝置MF350之方塊圖。 圖27D展示根據一般組態之裝置A350之方塊圖。 圖28展示根據一般組態之方法M500的流程圖。 圖29A至圖29D展示160位元訊框的各種區。 圖30展示根據一般組態之方法M600的流程圖。 圖3 1A展示將滯後範圍均勻劃分至筐的實例。 圖3 1B展示將滯後範圍非均勻劃分至筐的實例。 圖32展示在訊框分類方案中使用之特徵的清單。 圖33展示用於計算基於音調之正規化自動相關函式之程 序的流程圖。 圖34為說明訊框分類方案的高階流程圖。 圖35為說明在訊框分類方案中的狀態之間的可能過渡之 狀態圖。 圖36至圖37、圖38至圖40及圖41至圖44展示訊框分類方 案之三個不同程序的程式碼列表。 圖45至圖52B展示訊框重新分類的條件。 141222.doc • 81 · 201007704 圖53展示語音編碼器AE20之實施AE30的方塊圖。 圖54A展示語音編碼器AE10之實施AE40的方塊圖。 圖54B展示週期性訊框編碼器E70之實施E72的方塊圖。 圖5 5展示週期性訊框編碼器E72之實施E74的方塊圖。 圖56A至圖56D展示使用過渡訊框編碼模式可能為所要 的一些典型訊框序列。 圖57展示程式碼列表。 圖5 8展示用於取消使用過渡訊框編碼之決策的四個不同 條件。 圖59展示根據一般組態之方法M700的圖表。 參考標記可顯現於一或多個圖中以指示同一結構。 【主要元件符號說明】 10 衛星 20a 地面台 20b 地面台 30a 使用者終端機 30b 使用者終端機 40a 網路 40b 網路 50a 選擇器 50b 選擇器 60a 選擇器 60b 選擇器 80a 選擇器 141222.doc -82- 201007704 80b 選擇器 90a 選擇器 90b 選擇器 100 第一訊框編碼器 110 音調脈衝形狀選擇器 120 音調脈衝位置計算器 130 音調週期估計器 140 增益值計算器 參 150 峰值偵測器 200 第二訊框編碼器 210 音調脈衝形狀差別計算器 220 音調脈衝差別計算器 250 樣本選擇器 260 距離選擇器 300 第一訊框解碼器 赢 310 第一激勵信號產生器 312 第一激勵信號產生器 320 合成濾波器 ' 330 第一乘法器 , 340 第二乘法器 350 峰值選擇器 400 第二訊框解碼器 410 音調脈衝形狀計算器 420 音調週期計算器 141222.doc -83- 201007704 430 合成濾波器 440 第二激勵信號產生器 A100 裝置 A200 裝置 A300 裝置 A310 終端機峰值定位器 A320 音調滯後估計器 A330 額外音調峰值定位器 A350 裝置 AD 10 語音解碼器 ADlOa 語音解碼器之第一例項 AD 10b 語音解碼器之第二例項 AD20 語音解碼器 AE10 語音編碼器 AElOa 語音編碼器之第一例項 AElOb 語音編碼器之第二例項 AE30 語音編碼器 C100 通信頻道 C110 通信頻道之第一例項 C200 編碼方案選擇器 C300 編碼方案偵測器 D100 任務 D102 任務 D110 任務 141222.doc -84- 201007704 D120 任務 D130 任務 D140 任務 D200 任務 D210 任務 D220 任務 D230 任務 E100 編碼任務 w E102 編碼任務 E110 任務 E120 任務 E130 任務 E140 任務 E200 編碼任務 E202 任務 血 E210 任務 E212 任務 E214 任務 ' E220 任務 • E300 任務 E70 週期性訊框編碼器 E72 週期性訊框編碼器 E80 非週期性訊框編碼器 FD100 用於解碼第一經編碼訊框之構件 141222.doc -85 - 201007704 FD102 FD110 FD120 FD130 FD140 FD200 FD210 FD220 FD230 FE100 FE102 FE110 FE120 FE130 FE140 FE200 FE210 FE220 L100 L102 L110 用於解碼第—經編碼訊框之構件 用於配置TD音調脈衝形狀之第—複本的構件 用於配置TD音調脈衝形狀之第二複本的構件 用於將第一增益值應用至TD音調脈衝形狀之 第一複本的構件 用於將第二增益值應用至TD音調脈衝形狀之 第一複本的構件 用於解碼第二經編碼訊框之構件 用於計算第二音調脈衝形狀之構件 用於計算第二音調週期之構件 用於配置第二音調脈衝形狀之複數個複本的 構件 用於編碼第一訊框之構件 用於編碼第一訊框之構件 用於選擇TD音調脈衝形狀之構件 用於汁算終端音調脈衝之位置的構件 用於估計音調週期之構件 用於計算增益值的構件 用於編碼第二訊框之構件 用於汁算音調脈衝形狀差別之構件 用於計算音調週期差別之構件 任務 任務 任務 14J222.doc 201007704
L120 任務 L130 任務 L200 任務 L202 任務 L210 任務 L210a 任務 L212 任務 L214 任務 L216 任務 L220 任務 L220a 任務 L222 任務 L224 任務 L226 任務 L228 任務 L230 任務 L230a 任務 L232 任務 L234 任務 L236 任務 L238 任務 L300 任務 L302 任務 L304 任務 141222.doc •87 201007704 L310 任務 L320 任務 L320a 任務 L320b 任務 L330 任務 L332 任務 L334 任務 L336 任務 L338 任務 L340 任務 L350 任務 L362 任務 L364 任務 L366 任務 M100 語音編碼方法 M300 方法 M500 方法 M600 方法 M700 方法 MF100 裝置 MF200 裝置 MF300 裝置 MF350 裝置 ML100 用於定位終端機峰值之構件 141222.doc -88 - 201007704 ML150 用於偵測音調峰值之構件 ML200 用於估計音調滯後之構件 ML250 用於選擇候選樣本之構件 ML260 用於選擇候選距離之構件 ML300 用於定位額外音調峰值之構件 ML350 用於選擇音調峰值之構件 RIO 剩餘物產生器 R110 LPC分析模組 參 R120 變換區塊 R130 量化器 R140 逆量化器 R150 逆變換區塊 R160 白化渡波β RC10 訊框重新分類器 S100 數位化語音信號/語音信號 φ S11° 經數位化語音信號之第一例項 S120 經數位化語音信號之第一例項 S200 經編碼信號/經編碼語音信號 ' S210 經編碼信號之相應例項 - S220 經編碼信號之相應例項 S300 經編碼之語音信號之所接收版本 S310 經編碼之語音信號的所接收版本 S320 經編碼之語音信號的所接收版本 S400 相應輸出語音信號/經解碼之語音信號 141222.doc -89- 201007704 S410 輸出語音信號之相應例項 S420 輸出語音信號之相應例項 SL10 LPC參數 SR10 LPC剩餘物 T100 任務 T338a 任務 T510 任務 T520 任務 T530 任務 T540 任務 T550 任務 T610 任務 T620 任務 T630 任務 T640 任務 T650 任務 T710 任務 T720 任務 T730 任務 T740 任務 T750 任務 UD10 無聲訊框解碼器 UE10 無聲訊框編碼器 141222.doc -90-
Claims (1)
- 201007704 七、申請專利範圍: i. 一種編碼一語音信號之訊框的方法,該方法包含: 經編碼訊 編碼該語音信號之一第一訊框作為一第一 框;及 編碼該語音信號之一第二訊框作為 框 9 其中该編碼一第一訊框包括: 基於來自該第一訊框之至少—Α 9調脈衝的資訊選擇 複數個時域音調脈衝形狀中的一者; 計算該第一訊框之一終端音調脈衝的—位置;及 估計該第—訊框之一音調週期且 其中該編碼一第二訊框包括: 一:算該第二訊框之一音調脈衝形狀與該第一訊框之 一^調脈衝形狀之間的一音調脈衝形狀差別;及 ::該第二訊框之一音調週期與該第一訊框之一音 調週期之間的一音調週期差别,且 形=中經編碼訊框包括該所選擇時域音調脈衝 者之表4算位置,及該所估計音調週期中的每一 牙之表不,且 兮立調週#1#㈣碼贿包㈣音難衝形狀差別及 該曰調週期差別中的每一者之表示,且 其中在該語音信號中該 後〇 弟—讯框在該第一訊框之 2.如請求項1之編碼訊框 万去其中在該語音信號中該 141222.doc 201007704 第二訊框緊接在該第一訊框之後。 3. 4. 包含偵測該 如清求項1之編碼訊框的方法,其中該方法 第一訊框為一開始訊框。 —sfL 框 訊計算 如清求項1之編碼訊框的方法,《巾該編竭—第 包括基於來自該第二訊框之至少一音調脈衝的資 一頻域音調原型,且 調原型與_所選擇 5.如請求们之編瑪訊框的方法,其中該編碼—第一訊框 包括计算複數個增録,該複數個增錢巾之每一者對 應於該第-訊框之複數個音調脈衝中的一不同者,且 其中該第一經編碼訊框包括該複數個增益值之一表 示0 6.如請求項丨之編碼簡的方法,其巾該方法包括編瑪該 語音信號之-第三訊框作n經編碼訊框, 其中在該語音信號巾該第:訊框在該第—訊框之 後,且 其中在該語音信號中該第三訊框在該第二訊框之 後,且 其中該編碼一第三訊框包括: 計算該第三訊框之一音調脈衝形狀與該第二訊框之 一音調脈衝形狀之間的—第二音調脈衝形狀差別;及 計算該第三訊框之一音調週期與該第二訊框之一音 141222.doc -2 - 201007704 調週期之間的一第二音調週期差別,且 其中該第三經編碼訊框包括該第二音調脈衝形狀差 別及該第二音調週期差別的表示。 一種用於編碼-語音信號之訊框的裳置,該裝置包含: 用於編碼該語音信號之一第一訊框作為一第-經編碼 訊框之構件;及 用於編碼該語音信號之一第二訊檀作為一第二經編碼 訊框之構件, 其中用於編碼一第一訊框之該構件包括: 用於基於來自該第-訊框之至少—音調脈衝的資訊 選擇複數個時域音調脈衝形狀中的—者之構件. 用於計算該第-訊框之—終端音調脈衝的 構件;及 用於估計該第一訊框之一音調週期之構件,且 其中用於編碼一第二訊框之該構件包括· 用於計算該第二訊框之—音調脈衝形狀與該第1 框之一音調脈衝形狀之間的一音調脈衝㈣差別之構 件;及 一:於計算該第二訊框之一音調週期與該第一訊框之 一曰調週期之間的一音調週期差別之構件,且 其中該第一經編碼訊框包括該所 0 ^擇時域音調脈衝 形狀、忒所计算位置,及該所 示,且 估计音調週期之表 其中該第二經編碼訊框包括該音 "調脈衝形狀差別及 141222.doc 201007704 該音調週期差別之表示,且 其中在該語音信號中該第二訊框在該第一訊框之 後。 8. 如請求項7之用於編碼訊框的裝置,其中該裝置包括用 於偵測該第一訊框為一開始訊框的構件。 9. 如請求項7之用於編碼訊框的裝置,其中用於編碼一第 二訊框之該構件包括用於基於來自該第二訊框之至少一 音調脈衝的資訊計算一頻域音調原型之構件,且 其t該音調脈衝形狀差別係基於(A)該所計算頻域音 調原型與(B)該所選擇時域音調脈衝形狀之_頻域表示之 10.如請求項7之用於編碼 一訊框之該構件包括用 複數個增益值中之每一 調脈衝中的一不同者, 訊框的裝置,其中用於編碼一第 於計算複數個增益值之構件,該 者對應於該第一訊框之複數個音/ 示。 及編碼訊框包括該複數個增益值之 η·如明求項7之用於編褐訊框的裝置,其中 於編碼該語音信號之— 置包括 ΑΑ Μ . 第—訊框作為一第三猄铯> 用 的構件 其中在該語音信說中該第 編瑪訊框 後,且 二訊框在該第—訊框之 其中在該語音信號中該第後,且 訊框在該第 訊框之 141222.doc 201007704 其中用於編碼一第三訊框之該構件包括: 用於計算該第三訊框之一音調脈衝形狀與該第二訊 框之一音調脈衝形狀之間的一第二音調脈衝形狀差別 之構件;及 用於計算該第三訊框之一音調週期與該第二訊框之 一音調週期之間的一第二音調週期差別之構件,且 其中忒第二經編碼訊框包括該第二音調脈衝形狀差 別及該第二音調週期差別的表示。 12. —種用於編碼一語音信號之訊框的裝置,該裝置包含: 一第一訊框編碼器,其經組態以編碼該語音信號之一 第一訊框作為一第一經編碼訊框;及 , 一第二訊框編碼器’其經組態以編碼該語音信號之一 第二訊框作為一第二經編碼訊框, 其中該第一訊框編碼器包括: 一音調脈衝形狀選擇器,其經組態以基於來自該第 訊框之至少一音調脈衝之資訊選擇複數個時域音調 脈衝形狀中的一者; 日調峰值位置計算器,其經組態以計算該第一訊 才匚之終端音調脈衝的一位置;及 曰調週期估計器,其經組態以估計該第一訊框之 一音調週期,及 β 其中該第二訊框編碼器包括: —音調脈衝形狀差別計算器,其經組態以計算該第 —訊框之—音調脈衝形狀與該第—訊框之-音調脈衝 141222.doc 201007704 形狀之間的一音調脈衝形狀差別;及 一音調週期差別計算器,其經組態以計算該第二訊 框之一音調週期與該第一訊框之一音調週期之間的一 音調週期差別,及 其中該第一經編碼訊框包括該所選擇時域音調脈衝 形狀、該所計算位置,及該所估計音調週期之表 示,且 其中該第二經編碼訊框包括該音調脈衝形狀差別及 該音調週期差別之表示,且 其中在該語音信號中該第二訊框在該第一訊框之 後。 13·如請求項12之用於編碼訊框的裝置,其中該裝置包括一 經組態以偵測該第一訊框為一開始訊框的訊框分類器。 14. 如請求項12之用於編碼訊框的裝置,其中該第二訊框编 碼器包括一音調原型計算器,其經組態以基於來自該第 二訊框之至少一音調脈衝的資訊計算一頻域音調原 型,且 其中該音調脈衝形狀差別係基於(A)該所計算頻域音 調原型與(B)該所選擇時域音調脈衝形狀之一頻域表示之 間的一差。 15. 如請求項12之用於編碼訊框的裝置,其中該第一訊框編 碼器包括一經組態以計算複數個增益值之增益值計算 器,該複數個增益值中之每一者對應於該第一訊框之複 數個音調脈衝_的_不同者,且 141222.doc 201007704 其中該第一經編碼訊框包括該複數個增益值之—表 示0 16.如請求項12之用於編碼訊框的裝置,其中該第二訊框編 碼器經組癌以將該語音信號之一第三訊框編碼為一第二 經編碼訊框, 其中在該語音信號中該第二訊框在該第一訊框之 後,且 其中在該語音信號中該第三訊框在該第二訊框之 後,且 其中該音調脈衝形狀差別計算器經組態以計算該第三 訊框之-音調脈衝形狀與㈣三訊框之—音調脈衝形狀 之間的一第二音調脈衝形狀差別;及 其中該音調週期差別計算器經組態以計算該第三訊框 之一音調週期與該第二訊框之一音調週期之間的一第二 音調週期差別,及 其中該第二經編碼訊框包括該第二音調脈衝形狀差別 及該第二音調週期差別的表示。 17. —種包含指令之電腦可讀媒體,該等指令在由—處理器 執行時使得該處理器進行以下操作: 經編碼訊 編碼該語音信號之一第一訊框作為一第一 框;及 第二經編碼訊 編碼該語音信號之一第二訊框作為一 框,中使得該處理器編碼一第一 訊框之該等指令包括 141222.doc 201007704 使得該處理器基於爽έ 來自該第訊框之至少一音調脈 衝的資訊選擇複數個時域音調脈衝形狀中的一者之指 令; S 使得該處理器計算該第-訊框之-終端音調峰值之 一位置的指令;及 使得該處理器估古+ # β . Α 彳忒第一訊框之一音調週期之指 令,且 其中使得該處理器編碼-第二訊框之該等指令包括: 使得該處理器計算”二訊框之-音調脈衝形狀與 該第一訊框之一音調脈衝形狀之間的一音調脈衝形狀 差別之指令;及 使得該處理器計算該第二訊框之一音調週期與該第 一訊框之一音調週期之間的一音調週期差別之指 令,及 其中該第一經編碼訊框包括該所選擇時域音調脈衝 形狀、該所計算位置及該所估計音調週期之表示且 其中該第二經編碼訊框包括該音調脈衝形狀差別及 該音調週期差別之表示,且 其中在該語音信號中該第二訊框在該第一訊框之 後。 18. 19. 如請求項17之電腦可讀媒體,其中該媒體包括在由一處 理器執行時使得該處理器偵測該第一訊框為一開始訊框 的指令。 如請求項17之電腦可讀媒體’其中使得該處理器編碼一 141222.doc 201007704 第—讯框之該等指令句紅/由π j. ^ 匕括使传該處理器基於來自該第二 訊框之至少一音調脈衝的眘 #Λ汁异一頻域音調原型的 令,且 其中5玄音調脈衝形狀差Ri丨抵:v. / A N 乂狀差別係基於(A)該所計算頻域音 調原型與(B)該所選擇時域音 子町Q日凋脈衝形狀之一頻域表 間的一差。 20. 21. 如請求項17之電腦可讀媒體,其令使得該處理器編碼一 第一訊框之該等指令包括使得該處理器計算複數個增兴 值之指令’該複數個增益值中之每—者對應於該第 框之複數個音調脈衝中的一不同者,且 其中該帛一經編妈訊框包括該複數個肖益值之一表 示° 如請求項17之電腦可讀媒體,其中該媒體包括在由一處 理器執行時使得該處理器將該語音信號之一第三訊框編 碼為一第三經編碼訊框的指令, 其中在該語音信號中該第二訊框在該第一訊框之 後,且 其中在該語音信號中該第三訊框在該第二訊框之 後,且 其中使得該處理器編碼一第三訊框之該等指令包括: 使得該處理器計算該第三訊框之一音調脈衝形狀與 該第二訊框之一音調脈衝形狀之間的一第二音調脈衝 形狀差別之指令;及 使得該處理器計算該第三訊框之一音調週期與該第 141222.doc -9- 201007704 一訊框之一音調週期之間的一第二音調週期差別之指 令,及 其中該第三經編碼訊框包括該第二音調脈衝形狀差 別及該第二音調週期差別的表示。 22. 一種解碼一語音信號之激勵信號的方法,該方法包含: 解瑪一第一經編碼訊框之一部分以獲得一第一激勵信 號;及 解碼一第二經編碼訊框之一部分以獲得一第二激勵信 號, 其中該第-經編碼訊框之該部分包括一時域音調脈衝 形狀、一音調峰值位置及一音調週期中的每一者之表 示,且 其中該第二經編碼訊框之該部分包括一音調脈衝形狀 差別及一音調週期差別中的每一者之表示且 其中該解碼一第一經編碼訊框之一部分包括: 根據該音調峰值位置將該時域音調脈衝形狀之一第 —複本配置於該第—激勵信號内;及 衝::ΓΓ值位置及該音調週期將該時域音調朋 第一複本配置於該第—激勵信號内且 其中該解碼—第二經編碼訊框之-部分包括. 4Τ:音調脈衝形狀及該音調脈衝形狀差則 。十异一第—音調脈衝形狀; 基於該音調週期及該音調週期差別計算 週期;及 # —曰# 141222.doc 201007704 根據該音調峰值位置及該第二音調週期將該第二音 調脈衝形狀之複數個複本配置於該第二激勵信號内。9 23.如請求項22之解碼激勵信號之方法,其中該第一經碥螞 訊框之該部分包括複數個增益值之一表示,且 其中該解碼一第一經編碼訊框之一部分包括: 向忒時域音調脈衝形狀之該第一複本應用該複數個增 益值中的一者;及 9 向該時域音調脈衝形狀之該第二複本應用該複數個増 益值中的一不同增益值。 9 24· —種偵測一語音信號之一訊框之音調峰值的方法,該方 法包含: 價測該訊框之一第一音調峰值; 自該訊框之一第一搜尋窗内之複數個樣本中選擇—候 選樣本; 自複數個距離中選擇-候選距離,該複數個距離中的 每一者對應於該訊框之一第二搜尋窗内的一不同樣 本;及 選擇(A)該候選樣本及(B)對應於該候選距離之該樣本 中的一者作為該訊框的一第二音調峰值, 其中該複數個距離中的每—者係A)該對應樣本與b)該 第一音調峰值之間的一距離。 25·如請求項24之偵測音調峰值的方法,其中對應於該候選 距離之該樣本不同於該候選樣本。 26.如請求項24之镇測音調峰值的方法,其中該選擇一候選 141222.doc •Π · 201007704 Γ包括以下操作中的至少-者:⑷選擇該第一搜尋窗 内之該等樣本中的具有最大振幅之樣本_ ^由 样士, 自内之該等樣本令的具有最大量值之 樣本為該候選樣本,及(c)選擇該第—搜尋窗内之 本中的具有最大能量之樣本為該候選樣本。 請求項⑽貞測音調峰值的方法,其 樣本包括選擇該第—搜尋窗内之該等樣本中的it 大振幅的該樣本為該候選樣本。 〃 μ最 认如請求項24之_音調峰值的方法,其中該方法 ^複數個距離中的每一者計算該對應樣本之一鄰域與 以第-曰調峰值之一鄰域之間的—相關的—值,及 :中該選擇-候選距離包括選擇對應於該等所計算相 關值中的最大值之距離為該候選距離。 求項28之侧音調峰值的方法,其中該選擇該候選 樣本與對歧㈣選距離线樣本巾的-者係基於以下 各項中的至少一者:⑷基於該候選樣本之一能量的一值 與—第一臨限值之間的—關係’及⑻對應於該候選距離 之該所計算相關值與一第二臨限值之間的一關係。 3〇·如請求項24之偵測音調峰值的方法,其中該第一音調峰 值為該訊框之一終端音調峰值。 31.如請求項24之伯測音調峰值的方法,其中該方法包含在 該债測該訊框之ϋ調峰值之前偵測該訊框的-第 三音調锋值,其中該第三音調峰值為該訊框之一終端音 調峰值。 141222.doc -12· 201007704 η如料項31之偵測音調峰值的方法,其中該偵測該訊樞 之一第—音調峰值係基於:(A)該訊框内之該第三音調峰 值的一位置,(B)一音調週期估計,及(c)一第一能量臨 限值與-基於該第一音調峰值之_能量的值之間的一關 係。 33.如請求項32之_音調峰值的方法,其甲該選擇該候選 樣本與對應於該候選距離之該樣本中的—者係基於以下 各項中的至少一者:⑷基於該候選樣本之-能量的一值 與-第二臨限值之間的一關係’及⑻基於對應於該候選 距離之該樣本之-能量的—值與該第:臨时之 關係, 其中該第二臨限值小於該第一臨限值。 34 種用於偵測-語音信號之一訊框之音調峰值的裝置, 該裝置包含: 用於偵測該訊框之一第一音調峰值之構件; 用於自該訊框之一第一搜尋窗内之複數個樣本中選擇 一候選樣本的構件; 用於自複數個距離中選擇一候選距離之構件,該 個距離巾的每-麵應於該練之—第二㈣窗 不同樣本;及 用於選擇(A)該候選樣本及⑻對應於該候選距離之該 樣本中的-者作為該訊框的一第二音調峰值的構件,/ 其中該複數個距離中的每一者係A)該對應 第一音調峰值之間的—距離。 興)該 141222.doc •13· 201007704 %如凊求項34之用則貞測音調峰值的裝置,其中用 一候選樣本之該構件經組態明擇該第—搜尋窗内之咳 等樣本中的具有最大振幅的樣本為該候選樣本。 “ 36.如請求項34之用㈣測音調峰值的裝置,其中該襄置包 含用於針對該複數個距離中的每-者計算該對應樣本之 -鄰域與該第-音調峰值之—鄰域之間的一相關的一值 之構件,及 其中用於選擇-候選距離之該構件經組態以選擇對應 Ο 於該等所計算相關值中的該最大值之該距離為該候選距 離。 A如請求項36之用於偵測音調峰值的裝置,其中用於選擇 該候選樣本與對應於該候選距離之該樣本中的一者之咳 構件經組態以基於以下各項中的至少—者來選擇該候選 樣本與對應於該候選距離之該樣本中的該一者:㈧基於 該候選樣本之一能量的一值與一第一臨限值之間的一關 ❹ 係’及(.應於該候選距離之該所計算相關值與—第二 臨限值之間的一關係。 认如請求項34之用於偵測音調峰值的裝置,其中該裝置包 含用於㈣該訊框之-第三音調峰值的構件,其中㈣ 二音調峰值為該訊框的一終端音調峰值,及 其中用於债測該訊框之一第一音調峰值之該構件經組 態以基於以下各項來债測該第一音調峰值:⑷該訊框内 之該第三音調峰值的一位置,⑼一音調週期估計,及 (C)-第-能量臨限值與一基於該第一音調峰值之一能量 141222.doc • U· 201007704 的值之間的一關係。 39.如請求項38之用於㈣音調聲值的裝置 該候選樣本與對餘該候選距離之耗本中的 =組態以基於以下各項中的至少一者來選擇該候: 樣本與對應於該候選距離 、選 該候選樣本之一能量的一值 ()土於 弟一臨限值之間的一關 係,及(B)基於對應於該候選 , 皰離之δ亥樣本之一能量的一 值與該第二臨限值之間的一關係, 其中該第二臨限值小於該第—臨限值。 40. -種用於债測一語音信號之—訊框之音調聲值的裝置, 該裝置包含: 一峰值摘測器’其經組態以偵測該訊框之一第一立調 峰值; S -樣本選擇器,其經組態以自該訊框之—第_搜尋窗 内之複數個樣本中選擇一候選樣本; 距離選擇n ’其自複數個距離中選擇一候 選距離,該複數個距離中的每—者對應於該訊框之一第 二搜尋窗内的一不同樣本;及 -峰值選擇器’其經組態以選擇⑷該候選樣本及⑻ 對應於該候選距離之該樣本中的一者作為該訊框的一第 二音調峰值, 其中該複數個距離中的每-者係A)該對應樣本與B)該 第一音調峰值之間的一距離。 41.如請求項40之用於谓測音調峰值的裝置,其中該樣本選 141222.doc .15- 201007704 擇器經組態以選擇該第-搜尋窗内之該等樣本中的具有 最大振幅的樣本為該候選樣本。 42.如請求項4(^於偵測音調峰值的裝置,其中該裝置包 含一相關器’其經組態以針對該複數個距離中的每一者 計算該對應樣本之—鄰域與㈣-音調峰值之—鄰域之 間的一相關的一值,及 < 其中該距離選擇器經組態以選擇對應於該等所計算相 關值中的該最大值之該距離為該候選距離。 43. 如請求項42之用於摘測音調峰值的裝置,其中該峰值選 擇器經組態以基於以下各項中的至少—者來選擇該候選 樣本與對應於該候選距離之該樣本中的—者:基於該 候選樣本之一能量的一值與一第一臨限值之間的一關 係,及(B)對應於該候選距離之該所計算相關值與一第二 臨限值之間的一關係。 44. 如請求項40之用於偵測音調峰值的裝置,其中該裝置包 含一終端峰值偵測器,其經組態以偵測該訊框之一第三 曰調峰值’其中該第三音調峰值為該訊框的—終端音調 峰值,及 其中該峰值债測器經組態以基於以下各項來賴該第 一音調峰值:(A)該訊框内之該第三音調峰值的一位置, (B)—音調週期估計,及(C)一第一能量臨限值與基於該 第一音調峰值之一能量的—值之間的一關係。 45.如請求項44之用於偵測音調峰值的裝置,其中該峰值選 擇器經組態以基於以下各項中的至少一者來選擇該候選 141222.doc -16- 201007704 樣本與對應於該候選距離之兮媒士占& . 之°亥樣本中的一者:(A)基於該 候選樣本之-能量的-值與一第二臨限值之間的1 係,及(B)基於對應於該候選距離之該樣本之一能量的— 值與該第二臨限值之間的一關係, 其中該第一臨限值小於該第一臨限值。 46. —種包含指令之電腦可讀媒體,該等指令在由一處理器 執行時使得該處理器進行以下操作: 偵測該訊框之一第一音調峰值; 自該訊框之—第—搜尋窗内之複數個樣本中選擇一候 選樣本; 自複數個距離中選擇—候選距離,該複數個距離中的 每一者對應於該訊框之一第二搜尋窗内的一不同樣 本;及 選擇(A)該候選樣本及(B)對應於該候選距離之該樣本 中的一者作為該訊框的一第二音調峰值, 其中該複數個距離中的每一者係A)該對應樣本與^該 第一音調峰值之間的一距離。 47·如請求項46之電腦可讀媒體,其中使得該處理器選擇一 候選樣本之該等指令包括使得該處理器選擇該第一搜尋 窗内之該等樣本中的具有最A振幅之樣本為該候選樣本 的指令。 48.如請求項46之電腦可讀媒體’其,該媒體包含在由一處 理器執行時使得該處理器針對該複數個距離中的每一者 計算該對應樣本之一鄰域與該第一音調峰值之一鄰域之 J41222.doc -17- 201007704 間的一相關之一值的指令,且 其中使得該處理器選擇一候選距離之該等指令包括使 得°玄處理器選擇對應於該等所計算相關值中的最大值之 該距離為該候選距離的指令。 49·如請求項48之電腦可讀媒體,其中使得該處理器選擇該 候選樣本與對應於該候選距離之該樣本中的一者之該等 指令包括使得該處理器基於以下各項中的至少一者來選 擇該候選樣本與對應於該候選距離之該樣本中的該一者 之指令:(A)基於該候選樣本之一能量的一值與一第一臨蠡 限值之間的一關係,及(B)對應於該候選距離之該所計算 相關值與一第二臨限值之間的一關係。 5〇·如請求項46之電腦可讀媒體,其中該等媒體包含在由一 處理器執行時使得該處理器偵測該訊框之一第三音調峰 值的#曰令,其中§亥第三音調峰值為該訊框之一終端音調 峰值,且 ❿ 其中使得該處理器憤測該訊框之一第一音調峰值之該 等指令包括使得該處理器基於以下各項來_該第1 調峰值的指令:⑷該訊框内之該第三音調峰值的—位 置,(B)—音調週期估計,及(c)一第一能量臨限值與— 基於該第一音調峰值之-能量的值之間的一關係。 5】·如請求項50之電腦可讀媒體,其中使得該處理器選擇該 候選樣本與對應於該候選距離之該樣本中的一者之該等 指令包括使得該處理器基於以下各項中的至少一者來X選 擇該候選樣本與對應於該候選距離之該樣本_的該—者 141222.doc •18· 201007704 之指令:(A)基於該候選樣本之一能量的一值與一第二臨 限值之間的一關係,及(B)基於對應於該候選距離之該樣 本之一能量的一值與該第二臨限值之間的一關係, 其中該第二臨限值小於該第一臨限值。141222.doc •19-
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/143,719 US20090319261A1 (en) | 2008-06-20 | 2008-06-20 | Coding of transitional speech frames for low-bit-rate applications |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201007704A true TW201007704A (en) | 2010-02-16 |
Family
ID=41128256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW098120890A TW201007704A (en) | 2008-06-20 | 2009-06-22 | Coding of transitional speech frames for low-bit-rate applications |
Country Status (7)
Country | Link |
---|---|
US (1) | US20090319261A1 (zh) |
EP (1) | EP2308043A1 (zh) |
JP (1) | JP2011525256A (zh) |
KR (1) | KR20110033227A (zh) |
CN (1) | CN102067212A (zh) |
TW (1) | TW201007704A (zh) |
WO (1) | WO2009155569A1 (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8768690B2 (en) * | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
KR20100006492A (ko) * | 2008-07-09 | 2010-01-19 | 삼성전자주식회사 | 부호화 방식 결정 방법 및 장치 |
US8380498B2 (en) * | 2008-09-06 | 2013-02-19 | GH Innovation, Inc. | Temporal envelope coding of energy attack signal by using attack point location |
JP5293329B2 (ja) * | 2009-03-26 | 2013-09-18 | 富士通株式会社 | 音声信号評価プログラム、音声信号評価装置、音声信号評価方法 |
US8700410B2 (en) * | 2009-06-18 | 2014-04-15 | Texas Instruments Incorporated | Method and system for lossless value-location encoding |
US9236063B2 (en) | 2010-07-30 | 2016-01-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for dynamic bit allocation |
US9208792B2 (en) | 2010-08-17 | 2015-12-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for noise injection |
US8990094B2 (en) * | 2010-09-13 | 2015-03-24 | Qualcomm Incorporated | Coding and decoding a transient frame |
US9082416B2 (en) * | 2010-09-16 | 2015-07-14 | Qualcomm Incorporated | Estimating a pitch lag |
US8862465B2 (en) * | 2010-09-17 | 2014-10-14 | Qualcomm Incorporated | Determining pitch cycle energy and scaling an excitation signal |
WO2012102149A1 (ja) | 2011-01-25 | 2012-08-02 | 日本電信電話株式会社 | 符号化方法、符号化装置、周期性特徴量決定方法、周期性特徴量決定装置、プログラム、記録媒体 |
MY185091A (en) | 2011-04-21 | 2021-04-30 | Samsung Electronics Co Ltd | Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium |
CN105244034B (zh) * | 2011-04-21 | 2019-08-13 | 三星电子株式会社 | 针对语音信号或音频信号的量化方法以及解码方法和设备 |
US8990074B2 (en) | 2011-05-24 | 2015-03-24 | Qualcomm Incorporated | Noise-robust speech coding mode classification |
EP2761616A4 (en) * | 2011-10-18 | 2015-06-24 | Ericsson Telefon Ab L M | IMPROVED METHOD AND DEVICE FOR AN ADAPTIVE MULTIRATE CODEC |
WO2013075753A1 (en) * | 2011-11-25 | 2013-05-30 | Huawei Technologies Co., Ltd. | An apparatus and a method for encoding an input signal |
EP3301677B1 (en) | 2011-12-21 | 2019-08-28 | Huawei Technologies Co., Ltd. | Very short pitch detection and coding |
CN103310787A (zh) * | 2012-03-07 | 2013-09-18 | 嘉兴学院 | 一种用于楼宇安防的异常声音快速检方法 |
CN103426441B (zh) | 2012-05-18 | 2016-03-02 | 华为技术有限公司 | 检测基音周期的正确性的方法和装置 |
US9208775B2 (en) | 2013-02-21 | 2015-12-08 | Qualcomm Incorporated | Systems and methods for determining pitch pulse period signal boundaries |
CN106448688B (zh) | 2014-07-28 | 2019-11-05 | 华为技术有限公司 | 音频编码方法及相关装置 |
EP3306609A1 (en) * | 2016-10-04 | 2018-04-11 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for determining a pitch information |
CN106533391A (zh) * | 2016-11-16 | 2017-03-22 | 上海艾为电子技术股份有限公司 | 无限冲激响应滤波器及其控制方法 |
CN112767953B (zh) * | 2020-06-24 | 2024-01-23 | 腾讯科技(深圳)有限公司 | 语音编码方法、装置、计算机设备和存储介质 |
Family Cites Families (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL8400552A (nl) * | 1984-02-22 | 1985-09-16 | Philips Nv | Systeem voor het analyseren van menselijke spraak. |
US5127053A (en) * | 1990-12-24 | 1992-06-30 | General Electric Company | Low-complexity method for improving the performance of autocorrelation-based pitch detectors |
US5187745A (en) * | 1991-06-27 | 1993-02-16 | Motorola, Inc. | Efficient codebook search for CELP vocoders |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
US5765127A (en) * | 1992-03-18 | 1998-06-09 | Sony Corp | High efficiency encoding method |
US5884253A (en) * | 1992-04-09 | 1999-03-16 | Lucent Technologies, Inc. | Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter |
JP3537008B2 (ja) * | 1995-07-17 | 2004-06-14 | 株式会社日立国際電気 | 音声符号化通信方式とその送受信装置 |
US5704003A (en) * | 1995-09-19 | 1997-12-30 | Lucent Technologies Inc. | RCELP coder |
JPH09185397A (ja) * | 1995-12-28 | 1997-07-15 | Olympus Optical Co Ltd | 音声情報記録装置 |
JP4063911B2 (ja) * | 1996-02-21 | 2008-03-19 | 松下電器産業株式会社 | 音声符号化装置 |
JP4134961B2 (ja) * | 1996-11-20 | 2008-08-20 | ヤマハ株式会社 | 音信号分析装置及び方法 |
US6073092A (en) * | 1997-06-26 | 2000-06-06 | Telogy Networks, Inc. | Method for speech coding based on a code excited linear prediction (CELP) model |
WO1999010719A1 (en) * | 1997-08-29 | 1999-03-04 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
JP3579276B2 (ja) * | 1997-12-24 | 2004-10-20 | 株式会社東芝 | 音声符号化/復号化方法 |
US5963897A (en) * | 1998-02-27 | 1999-10-05 | Lernout & Hauspie Speech Products N.V. | Apparatus and method for hybrid excited linear prediction speech encoding |
EP1093230A4 (en) * | 1998-06-30 | 2005-07-13 | Nec Corp | speech |
US6240386B1 (en) * | 1998-08-24 | 2001-05-29 | Conexant Systems, Inc. | Speech codec employing noise classification for noise compensation |
US6480822B2 (en) * | 1998-08-24 | 2002-11-12 | Conexant Systems, Inc. | Low complexity random codebook structure |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
US6754630B2 (en) * | 1998-11-13 | 2004-06-22 | Qualcomm, Inc. | Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation |
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
US6311154B1 (en) * | 1998-12-30 | 2001-10-30 | Nokia Mobile Phones Limited | Adaptive windows for analysis-by-synthesis CELP-type speech coding |
JP4008607B2 (ja) * | 1999-01-22 | 2007-11-14 | 株式会社東芝 | 音声符号化/復号化方法 |
US6324505B1 (en) * | 1999-07-19 | 2001-11-27 | Qualcomm Incorporated | Amplitude quantization scheme for low-bit-rate speech coders |
US6581032B1 (en) * | 1999-09-22 | 2003-06-17 | Conexant Systems, Inc. | Bitstream protocol for transmission of encoded voice signals |
US7039581B1 (en) * | 1999-09-22 | 2006-05-02 | Texas Instruments Incorporated | Hybrid speed coding and system |
AU2547201A (en) * | 2000-01-11 | 2001-07-24 | Matsushita Electric Industrial Co., Ltd. | Multi-mode voice encoding device and decoding device |
US6584438B1 (en) * | 2000-04-24 | 2003-06-24 | Qualcomm Incorporated | Frame erasure compensation method in a variable rate speech coder |
ATE420432T1 (de) * | 2000-04-24 | 2009-01-15 | Qualcomm Inc | Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen |
US7363219B2 (en) * | 2000-09-22 | 2008-04-22 | Texas Instruments Incorporated | Hybrid speech coding and system |
US7472059B2 (en) * | 2000-12-08 | 2008-12-30 | Qualcomm Incorporated | Method and apparatus for robust speech classification |
US6480821B2 (en) * | 2001-01-31 | 2002-11-12 | Motorola, Inc. | Methods and apparatus for reducing noise associated with an electrical speech signal |
KR100347188B1 (en) * | 2001-08-08 | 2002-08-03 | Amusetec | Method and apparatus for judging pitch according to frequency analysis |
CA2365203A1 (en) * | 2001-12-14 | 2003-06-14 | Voiceage Corporation | A signal modification method for efficient coding of speech signals |
US6829579B2 (en) * | 2002-01-08 | 2004-12-07 | Dilithium Networks, Inc. | Transcoding method and system between CELP-based speech codes |
US7236927B2 (en) * | 2002-02-06 | 2007-06-26 | Broadcom Corporation | Pitch extraction methods and systems for speech coding using interpolation techniques |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
AU2002307884A1 (en) * | 2002-04-22 | 2003-11-03 | Nokia Corporation | Method and device for obtaining parameters for parametric speech coding of frames |
CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
JP2004109803A (ja) * | 2002-09-20 | 2004-04-08 | Hitachi Kokusai Electric Inc | 音声符号化装置及び方法 |
KR100463417B1 (ko) * | 2002-10-10 | 2004-12-23 | 한국전자통신연구원 | 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치 |
CN1703736A (zh) * | 2002-10-11 | 2005-11-30 | 诺基亚有限公司 | 用于源控制可变比特率宽带语音编码的方法和装置 |
WO2004084182A1 (en) * | 2003-03-15 | 2004-09-30 | Mindspeed Technologies, Inc. | Decomposition of voiced speech for celp speech coding |
US7433815B2 (en) * | 2003-09-10 | 2008-10-07 | Dilithium Networks Pty Ltd. | Method and apparatus for voice transcoding between variable rate coders |
US8355907B2 (en) * | 2005-03-11 | 2013-01-15 | Qualcomm Incorporated | Method and apparatus for phase matching frames in vocoders |
US8155965B2 (en) * | 2005-03-11 | 2012-04-10 | Qualcomm Incorporated | Time warping frames inside the vocoder by modifying the residual |
JP4599558B2 (ja) * | 2005-04-22 | 2010-12-15 | 国立大学法人九州工業大学 | ピッチ周期等化装置及びピッチ周期等化方法、並びに音声符号化装置、音声復号装置及び音声符号化方法 |
US7177804B2 (en) * | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
US7571094B2 (en) * | 2005-09-21 | 2009-08-04 | Texas Instruments Incorporated | Circuits, processes, devices and systems for codebook search reduction in speech coders |
US20070174047A1 (en) * | 2005-10-18 | 2007-07-26 | Anderson Kyle D | Method and apparatus for resynchronizing packetized audio streams |
EP2040251B1 (en) * | 2006-07-12 | 2019-10-09 | III Holdings 12, LLC | Audio decoding device and audio encoding device |
WO2008049221A1 (en) * | 2006-10-24 | 2008-05-02 | Voiceage Corporation | Method and device for coding transition frames in speech signals |
WO2008072736A1 (ja) * | 2006-12-15 | 2008-06-19 | Panasonic Corporation | 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法 |
US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US8768690B2 (en) * | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
-
2008
- 2008-06-20 US US12/143,719 patent/US20090319261A1/en not_active Abandoned
-
2009
- 2009-06-19 EP EP09767877A patent/EP2308043A1/en not_active Withdrawn
- 2009-06-19 JP JP2011514870A patent/JP2011525256A/ja active Pending
- 2009-06-19 CN CN2009801231388A patent/CN102067212A/zh active Pending
- 2009-06-19 WO PCT/US2009/048047 patent/WO2009155569A1/en active Application Filing
- 2009-06-19 KR KR1020117001466A patent/KR20110033227A/ko not_active Application Discontinuation
- 2009-06-22 TW TW098120890A patent/TW201007704A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
CN102067212A (zh) | 2011-05-18 |
EP2308043A1 (en) | 2011-04-13 |
KR20110033227A (ko) | 2011-03-30 |
US20090319261A1 (en) | 2009-12-24 |
JP2011525256A (ja) | 2011-09-15 |
WO2009155569A1 (en) | 2009-12-23 |
WO2009155569A9 (en) | 2010-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW201007704A (en) | Coding of transitional speech frames for low-bit-rate applications | |
CN102203855B (zh) | 用于低位速率应用的译码方案选择 | |
EP2176860B1 (en) | Processing of frames of an audio signal | |
CN102197423A (zh) | 用于低位速率应用的过渡语音帧的译码 | |
JP4971351B2 (ja) | トーンコンポーネントの検出のためのシステム、方法および装置 | |
JP4166673B2 (ja) | 相互使用可能なボコーダ | |
WO2000038179A2 (en) | Variable rate speech coding | |
JP2009518666A (ja) | 周波数ドメイン波形アラインメントのためのシステム、方法、および装置 | |
Ramadan | Compressive sampling of speech signals | |
Katugampala et al. | Integration of harmonic and analysis by synthesis coders | |
Sehgal et al. | Parameteric coding of speech signals | |
Farsi | A Pre-processing Method to Modify Irregular Pitch Variations for Quality Enhancement of Synthesised Speech | |
Nasr | Modified very low bit rate coder for wireless messaging applications | |
Yaghmaie | Prototype waveform interpolation based low bit rate speech coding | |
Unver | Advanced Low Bit-Rate Speech Coding Below 2.4 Kbps | |
Ritz | A NOVEL VOICING CUT-OFF DETERMINATION FOR LOW BIT-RATE HARMONIC SPEECH CODING |