TWI612518B - 編碼模式決定方法、音訊編碼方法以及音訊解碼方法 - Google Patents
編碼模式決定方法、音訊編碼方法以及音訊解碼方法 Download PDFInfo
- Publication number
- TWI612518B TWI612518B TW102141400A TW102141400A TWI612518B TW I612518 B TWI612518 B TW I612518B TW 102141400 A TW102141400 A TW 102141400A TW 102141400 A TW102141400 A TW 102141400A TW I612518 B TWI612518 B TW I612518B
- Authority
- TW
- Taiwan
- Prior art keywords
- classification
- unit
- encoding
- current frame
- mode
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000005236 sound signal Effects 0.000 abstract description 57
- 230000005284 excitation Effects 0.000 description 73
- 230000003595 spectral effect Effects 0.000 description 29
- 238000012545 processing Methods 0.000 description 19
- 238000001228 spectrum Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 17
- 238000000605 extraction Methods 0.000 description 11
- 238000007781 pre-processing Methods 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 9
- 239000000203 mixture Substances 0.000 description 9
- 238000004088 simulation Methods 0.000 description 9
- 230000004048 modification Effects 0.000 description 8
- 238000012986 modification Methods 0.000 description 8
- 230000007774 longterm Effects 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 206010019133 Hangover Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
本發明提供一種用於決定用於改良經重新建構的音訊信號的品質的編碼模式的方法與裝置。一種決定編碼模式的方法包含:將來自包含第一編碼模式以及第二編碼模式的多個編碼模式當中的一者決定為對應於音訊信號的特性的初始編碼模式;以及若在初始編碼模式的決定中存在錯誤,則藉由將初始編碼模式修改至第三編碼模式來決定最終編碼模式。
Description
依據例示性實施例的裝置與方法是關於音訊編碼以及解碼,且更特定言之,是關於一種用於藉由決定適於音訊信號的特性的編碼模式來決定用於改良經重新建構的音訊信號的品質的編碼模式的方法與裝置、一種用於編碼音訊信號的方法與裝置,以及一種用於解碼音訊信號的方法與裝置。
眾所周知,在頻域(frequency domain)中編碼音樂信號較為有效,且在時域(time domain)中編碼語音信號較為有效。因此,已建議用於進行如下操作的各種技術:將音訊信號的類型分類,音訊信號中混合有音樂信號以及語音信號;以及決定對應於經分類的類型的編碼模式。
然而,由於不存在用於修改經起初決定的編碼模式的技
術,故若在編碼模式的決定期間發生錯誤,則經重新建構的音訊信號的品質會劣化。
一或多個例示性實施例的態樣提供一種用於藉由決定適於音訊信號的特性的編碼模式來決定用於改良經重新建構的音訊信號的品質的編碼模式的方法與裝置、一種用於編碼音訊信號的方法與裝置,以及一種用於解碼音訊信號的方法與裝置。
一或多個例示性實施例的態樣提供一種用於決定適於音訊信號的特性的編碼模式且減少歸因於頻繁編碼模式切換的延遲的方法與裝置、一種用於編碼音訊信號的方法與裝置,以及一種用於解碼音訊信號的方法與裝置。
額外態樣將部分地在以下描述中被闡述,且部分地將自描述顯而易見或可藉由所呈現實施例的實踐被獲悉。
根據一或多個例示性實施例的態樣,存在一種決定編碼模式的方法,方法包含:將來自包含第一編碼模式以及第二編碼模式的多個編碼模式當中的一者決定為對應於音訊信號的特性的初始編碼模式;以及若在初始編碼模式的決定中存在錯誤,則藉由將初始編碼模式修改至第三編碼模式來決定最終編碼模式。
根據一或多個例示性實施例的態樣,存在一種編碼音訊信號的方法,方法包含:將來自包含第一編碼模式以及第二編碼模式的多個編碼模式當中的一者決定為對應於音訊信號的特性的初始編碼模式;若在初始編碼模式的決定中存在錯誤,則藉由將初始編碼模式修改至第三編碼模式來決定最終編碼模式;以及基
於經決定的最終編碼模式而對音訊信號執行不同編碼程序(encoding process)。
根據一或多個例示性實施例的態樣,存在一種解碼音訊信號的方法,方法包含:剖析包含最終編碼模式的位元流(bitstream);以及基於最終編碼模式而對位元流執行不同解碼程序(decoding process),最終編碼模式是藉由如下操作而獲得:將來自包含第一編碼模式以及第二編碼模式的多個編碼模式當中的一者決定為對應於音訊信號的特性的初始編碼模式;以及若在初始編碼模式的決定中存在錯誤,則將初始編碼模式修改至第三編碼模式。
100‧‧‧音訊編碼裝置
110‧‧‧編碼模式決定單元
120‧‧‧切換單元
130‧‧‧頻譜域編碼單元
140‧‧‧線性預測域編碼單元
141‧‧‧時域激勵編碼單元
143‧‧‧頻域激勵編碼單元
150‧‧‧位元流產生單元
200‧‧‧音訊編碼裝置
205‧‧‧共同預處理模組
210‧‧‧編碼模式決定單元
220‧‧‧切換單元
230‧‧‧頻譜域編碼單元
240‧‧‧線性預測域編碼單元
241‧‧‧時域激勵編碼單元
243‧‧‧頻域激勵編碼單元
250‧‧‧位元流產生單元
300‧‧‧編碼模式決定單元
310‧‧‧初始編碼模式決定單元
330‧‧‧編碼模式修改單元
410‧‧‧特徵參數提取單元
430‧‧‧決定單元
500‧‧‧特徵參數提取單元/初始編碼模式決定單元
510‧‧‧變換單元
520‧‧‧頻譜參數提取單元
530‧‧‧時間參數提取單元
610~640、700~710‧‧‧操作
800‧‧‧音訊解碼裝置
810‧‧‧位元流剖析單元
820‧‧‧頻譜域解碼單元
830‧‧‧線性預測域解碼單元
831‧‧‧時域激勵解碼單元
833‧‧‧頻域激勵解碼單元
840‧‧‧切換單元
900‧‧‧音訊解碼裝置
910‧‧‧位元流剖析單元
920‧‧‧頻譜域解碼單元
930‧‧‧線性預測域解碼單元
931‧‧‧時域激勵解碼單元
933‧‧‧頻域激勵解碼單元
940‧‧‧切換單元
950‧‧‧共同後處理模組
此等及/或其他態樣將結合隨附圖式而自實施例的以下描述變得顯而易見且更易於被瞭解,在圖式中:
圖1為根據例示性實施例的說明音訊編碼裝置(audio encoding apparatus)的組態的方塊圖。
圖2為根據另一例示性實施例的說明音訊編碼裝置的組態的方塊圖。
圖3為根據例示性實施例的說明編碼模式決定單元(encoding mode determining unit)的組態的方塊圖。
圖4為根據例示性實施例的說明初始編碼模式決定單元(initial encoding mode determining unit)的組態的方塊圖。
圖5為根據例示性實施例的說明特徵參數提取單元(feature parameter extracting unit)的組態的方塊圖。
圖6為根據例示性實施例的說明線性預測域編碼(linear prediction domain encoding)與頻譜域(spectrum domain)之間的適應性切換方法(adaptive switching method)的圖解。
圖7為根據例示性實施例的說明編碼模式修改單元(encoding mode modifying unit)的操作的圖解。
圖8為根據例示性實施例的說明音訊解碼裝置(audio decoding apparatus)的組態的方塊圖。
圖9為根據另一例示性實施例的說明音訊解碼裝置的組態的方塊圖。
現在將詳細地參考實施例,隨附圖式中說明實施例的實例,在圖式中,類似圖式元件符號始終是指類似元件。在此方面,本實施例可具有不同形式,且不應被認作限於本文所闡述的描述。因此,下文僅僅藉由參看諸圖來描述實施例以解釋本描述的態樣。
諸如「連接(connected)」以及「鏈接(linked)」的術語可用以指示直接連接或鏈接狀態,但應理解,另一組件可介入於此等狀態之間。
諸如「第一(first)」以及「第二(second)」的術語可用以描述各種組件,但此等組件不應限於此等術語。此等術語可僅用以區分一個組件與另一組件。
獨立地說明例示性實施例中描述的單元以指示不同特性功能,且並不意謂每一單元是由一個單獨硬體或軟體組件形成。
出於解釋便利起見而說明每一單元,且多個單元可形成一個單元,且可將一個單元劃分成多個單元。
圖1為根據例示性實施例的說明音訊編碼裝置100的組態的方塊圖。
圖1所展示的音訊編碼裝置100可包含編碼模式決定單元110、切換單元(switching unit)120、頻譜域編碼單元(spectrum domain encoding unit)130、線性預測域編碼單元(linear prediction domain encoding unit)140,以及位元流產生單元(bitstream generating unit)150。線性預測域編碼單元140可包含時域激勵編碼單元(time domain excitation encoding unit)141以及頻域激勵編碼單元(frequency domain excitation encoding unit)143,其中線性預測域編碼單元140可被體現為兩個激勵編碼單元141以及143中的至少一者。除非有必要被體現為分開的硬體,否則上述組件可被整合成至少一個模組且可被實施為至少一個處理器(未圖示)。此處,術語音訊信號可指音樂信號、語音信號或其混合式信號。
參看圖1,編碼模式決定單元110可分析音訊信號的特性以將音訊信號的類型分類,且決定對應於分類的結果的編碼模式。可以超訊框(superframe)、訊框(frame)或頻帶(band)為單位來執行編碼模式的決定。或者,可以多個超訊框群組(superframe group)、多個訊框群組(frame group)或多個頻帶群組(band group)為單位來執行編碼模式的決定。此處,編碼模式的實例可包含頻譜域以及時域或線性預測域,但不限於此情形。若處理器的效能以及處理速度是足夠的,且可解決歸因於編碼模
式切換的延遲,則可細分編碼模式,且亦可對應於編碼模式來細分編碼方案。根據例示性實施例,編碼模式決定單元110可將音訊信號的初始編碼模式決定為頻譜域編碼模式以及時域編碼模式中的一者。根據另一例示性實施例,當將初始編碼模式決定為時域編碼模式(亦即,時域激勵編碼模式)時,編碼模式決定單元110可藉由將初始編碼模式修改為時域激勵編碼模式以及頻域激勵編碼模式中的一者來決定音訊信號的最終編碼模式。另外,當將初始編碼模式決定為頻譜域編碼模式時,編碼模式決定單元110可藉由將初始編碼模式修改為頻譜域編碼模式以及頻域激勵編碼模式中的一者來決定音訊信號的最終編碼模式。
對應於由編碼模式決定單元110決定的編碼模式,切換單元120可將音訊信號提供至頻譜域編碼單元130抑或線性預測域編碼單元140。若線性預測域編碼單元140被體現為時域激勵編碼單元141,則切換單元120可包含總共兩個分支。若線性預測域編碼單元140被體現為時域激勵編碼單元141以及頻域激勵編碼單元143,則切換單元120可具有總共3個分支。
頻譜域編碼單元130可在頻譜域中編碼音訊信號。頻譜域可指頻域或變換域(transform domain)。適用於頻譜域編碼單元130的寫碼方法(coding method)的實例可包含進階音訊寫碼(advance audio coding,ACC),或修改型離散餘弦變換(modified discrete cosine transform,MDCT)與階乘脈衝寫碼(factorial pulse coding,FPC)的組合,但不限於此情形。詳細地,可使用其他量化技術(quantizing technique)以及熵寫碼技術(entropy coding technique)來代替階乘脈衝寫碼。可能有效的是在頻譜域編碼單
元130中編碼音樂信號。
線性預測域編碼單元140可在線性預測域中編碼音訊信號。線性預測域可指激勵域(excitation domain)或時域。線性預測域編碼單元140可被體現為時域激勵編碼單元141,或可被體現為包含時域激勵編碼單元141以及頻域激勵編碼單元143。適用於時域激勵編碼單元141的寫碼方法的實例可包含碼激勵線性預測(code excited linear prediction,CELP)或代數碼激勵線性預測(algebraic CELP,ACELP),但不限於此情形。適用於頻域激勵編碼單元143的寫碼方法的實例可包含一般信號寫碼(general signal coding,GSC)或變換寫碼激勵(transform coded excitation,TCX),但不限於此情形。可能有效的是在時域激勵編碼單元141中編碼語音信號,而可能有效的是在頻域激勵編碼單元143中編碼諧波信號。
位元流產生單元150可產生位元流以包含由編碼模式決定單元110提供的編碼模式、由頻譜域編碼單元130提供的編碼結果,以及由線性預測域編碼單元140提供的編碼結果。
圖2為根據另一例示性實施例的說明音訊編碼裝置200的組態的方塊圖。
圖2所展示的音訊編碼裝置200可包含共同預處理模組(common pre-processing module)205、編碼模式決定單元210、切換單元220、頻譜域編碼單元230、線性預測域編碼單元240,以及位元流產生單元250。此處,線性預測域編碼單元240可包含時域激勵編碼單元241以及頻域激勵編碼單元243,且線性預測域編碼單元240可被體現為時域激勵編碼單元241抑或頻域激勵編碼
單元243。與圖1所展示的音訊編碼裝置100相比較,音訊編碼裝置200可更包含共同預處理模組205,且因此將省略與音訊編碼裝置100的組件相同的組件的描述。
參看圖2,共同預處理模組205可執行立體聲合併處理(joint stereo processing)、環繞處理(surround processing)及/或頻寬延伸處理(bandwidth extension processing)。立體聲合併處理、環繞處理以及頻寬延伸處理可與由特定標準(例如,MPEG標準)使用的處理相同,但不限於此情形。共同預處理模組205的輸出可為單聲道頻道(mono channel)、立體聲頻道(stereo channel)或多頻道(multi channel)。根據由共同預處理模組205輸出的信號的頻道的數目,切換單元220可包含至少一個開關。舉例而言,若共同預處理模組205輸出兩個或大於兩個頻道(亦即,立體聲頻道或多頻道)的信號,則可配置對應於各別頻道的開關。舉例而言,立體聲信號的第一頻道可為語音頻道,且立體聲信號的第二頻道可為音樂頻道。在此狀況下,可將音訊信號同時地提供至兩個開關。可將由共同預處理模組205產生的額外資訊提供至位元流產生單元250且將額外資訊包含於位元流中。額外資訊可為在解碼端(decoding end)中執行立體聲合併處理、環繞處理及/或頻寬延伸處理所必要,且可包含空間參數(spatial parameter)、包絡資訊(envelope information)、能量資訊(energy information)等等。然而,基於此處所應用的處理技術可存在各種額外資訊。
根據例示性實施例,在共同預處理模組205處,可基於編碼域來不同地執行頻寬延伸處理。可藉由使用時域激勵編碼模
式或頻域激勵編碼模式來處理核心頻帶(core band)中的音訊信號,而可在時域中處理頻寬延伸頻帶中的音訊信號。時域中的頻寬延伸處理可包含多個模式,多個模式包含有聲模式(voiced mode)或無聲模式(unvoiced mode)。或者,可藉由使用頻譜域編碼模式來處理核心頻帶中的音訊信號,而可在頻域中處理頻寬延伸頻帶中的音訊信號。頻域中的頻寬延伸處理可包含多個模式,多個模式包含暫態模式(transient mode)、正常模式(normal mode)或諧波模式(harmonic mode)。為了在不同域中執行頻寬延伸處理,可將由編碼模式決定單元110決定的編碼模式提供至共同預處理模組205作為傳信資訊(signaling information)。根據例示性實施例,核心頻帶的最後部分與頻寬延伸頻帶的開始部分可在某種程度上彼此重疊。
圖3為根據例示性實施例的說明編碼模式決定單元300的組態的方塊圖。
圖3所展示的編碼模式決定單元300可包含初始編碼模式決定單元310以及編碼模式修改單元330。
參看圖3,初始編碼模式決定單元310可藉由使用自音訊信號提取的特徵參數來決定音訊信號為音樂信號抑或語音信號。若將音訊信號決定為語音信號,則線性預測域編碼可能是合適的。同時,若將音訊信號決定為音樂信號,則頻譜域編碼可能是合適的。可基於音訊信號的類型來決定對應編碼模式。若切換單元(圖1的120)具有兩個分支,則可以1位元來表達編碼模式。若切換單元(圖1的120)具有三個分支,則可以2位元來表達編碼模式。初始編碼模式決定單元310可藉由使用此項技術中所知
的各種技術中的任一者來決定音訊信號為音樂信號抑或語言信號。技術的實例可包含USAC標準的編碼器部分中揭示的分類,但不限於此情形。
編碼模式修改單元330可藉由使用修改參數(modification parameter)來修改由初始編碼模式決定單元310決定的初始編碼模式來決定最終編碼模式。最終編碼模式可用以控制切換單元(圖1的120)。根據例示性實施例,若將頻譜域編碼模式決定為初始編碼模式,則可基於修改參數將初始編碼模式修改至頻域激勵編碼模式。此外,若將時域編碼模式決定為初始編碼模式,則可基於修改參數將初始編碼模式修改至頻域激勵編碼模式。
圖4為根據例示性實施例的說明初始編碼模式決定單元400的組態的方塊圖。
圖4所展示的初始編碼模式決定單元400可包含特徵參數提取單元410以及決定單元430。
參看圖4,特徵參數提取單元410可自音訊信號提取為決定編碼模式所必要的特徵參數。經提取的特徵參數的實例包含來自間距參數(pitch parameter)、發聲參數(voicing parameter)、相關性參數(correlation parameter)以及線性預測誤差(linear prediction error)當中的至少一者或兩者,但不限於此情形。下文將給出個別參數的詳細描述。
首先,第一特徵參數F1是關於間距參數,其中可藉由使用在當前訊框以及至少一個先前訊框中偵測的N個間距值來決定間距的行為。為了防止來自隨機偏差或錯誤間距值的效應,可移
除顯著地不同於N個間距值的平均值的M個間距值。此處,N以及M可為預先經由實驗或模擬而獲得的值。此外,可預先設定N,且可預先經由實驗或模擬來決定待移除的間距值與N個間距值的平均值之間的差。可藉由使用平均值mp,以及相對於(N-M)個間距值的方差σp,而如以下方程式1所展示來表達第一特徵參數F1。
第二特徵參數F2亦是關於間距參數,且可指示在當前訊框中偵測的間距值的可靠性。可藉由使用在當前訊框的兩個子訊框SF1以及SF2中分別偵測的間距值的方差σSF1以及σSF2而如以下方程式2所展示來表達第二特徵參數F2。
此處,cov(SF1,SF2)表示子訊框SF1與子訊框SF2之間的協方差。換言之,第二特徵參數F2將兩個子訊框之間的相關性指示為間距距離(pitch distance)。根據例示性實施例,當前訊框可包含兩個或大於兩個子訊框,且可基於子訊框的數目來修改方程式2。
可基於發聲參數Voicing以及相關性參數Corr而如以下方程式3所展示來表達第三特徵參數F3。
此處,發聲參數Voicing是關於聲音的發音特徵(vocal feature),且可藉由此項技術中所知的各種方法中的任一者來獲得發聲參數Voicing,而可藉由將用於每一頻帶的訊框之間的相關性求和來獲得相關性參數Corr。
第四特徵參數F4是關於線性預測誤差ELPC,且可如以下方程式4所展示來表達第四特徵參數F4。
此處,M(ELPC)表示N個線性預測誤差的平均值。
決定單元430可藉由使用由特徵參數提取單元410提供的至少一個特徵參數來決定音訊信號的類型,且可基於經決定的類型來決定初始編碼模式。決定單元430可使用軟決策機制(soft decision mechanism),其中每特徵參數可形成至少一個混合物。根據例示性實施例,可藉由基於混合物機率(mixture probability)而使用高斯混合物模型(Gaussian mixture model,GMM)來決定音訊信號的類型。可根據以下方程式5來計算關於一個混合物的機率f(x)。
此處,x表示特徵參數的輸入向量(input vector),m表示混合物,且c表示協方差矩陣(covariance matrix)。
決定單元430可藉由使用以下方程式6來計算音樂機率
Pm以及語音機率Ps。
此處,可藉由將與對於音樂決定優良的特徵參數相關的M個混合物的機率Pi相加來計算音樂機率Pm,而可藉由將與對於語音決定優良的特徵參數相關的S個混合物的機率Pi相加來計算語音機率Ps。
同時,為了改良精確度,可根據以下方程式7來計算音樂機率Pm以及語音機率Ps。
接下來,可根據以下方程式8來計算所有訊框相對於多達恆定滯留長度(constant hangover length)的多個訊框僅包含音樂信號的機率PM,以及所有訊框相對於此多個訊框僅包含語音信號的語音機率PS。滯留長度可被設定為8,但不限於此情形。八個訊框可包含當前訊框以及7個先前訊框。
接下來,可藉由使用音樂機率Pm或語音機率Ps來計算多個條件集合{}以及{},音樂機率Pm或語音機率Ps是使用方程式5或方程式6而獲得。下文將參看圖6來給出計算的詳細描述。此處,計算可經設定成使得每一條件對於音樂具有值1且對於語音具有值0。
參看圖6,在操作610以及操作620中,可自藉由使用音樂機率Pm以及語音機率Ps而計算的多個條件集合{}以及{}獲得音樂條件總和M以及話音條件總和S。換言之,可如以下方程式9所展示來表達音樂條件總和M以及語音條件總和S。
在操作630中,比較音樂條件總和M與指定臨限值Tm。若音樂條件總和M大於臨限值Tm,則將當前訊框的編碼模式切換至音樂模式,亦即,頻譜域編碼模式。若音樂條件總和M小於或等於臨限值Tm,則不改變當前訊框的編碼模式。
在操作640中,比較語音條件總和S與指定臨限值Ts。若語音條件總和S大於臨限值Ts,則將當前訊框的編碼模式切換至語音模式,亦即,線性預測域編碼模式。若語音條件總和S小於或等於臨限值Ts,則不改變當前訊框的編碼模式。
可將臨限值Tm以及臨限值Ts設定為預先經由實驗或模擬而獲得的值。
圖5為根據例示性實施例的說明特徵參數提取單元500的組態的方塊圖。
圖5所展示的初始編碼模式決定單元500可包含變換單元(transform unit)510、頻譜參數提取單元(spectral parameter extracting unit)520、時間參數提取單元(temporal parameter extracting unit)530以及決定單元540。
在圖5中,變換單元510可將原始音訊信號自時域變換至頻域。此處,變換單元510可應用用於表示自時域至頻譜域的音訊信號的各種變換技術中的任一者。技術的實例可包含快速傅立葉變換(fast Fourier transform,FFT)、離散餘弦變換(discrete cosine transform,DCT)或修改型離散餘弦變換(MDCT),但不限於此情形。
頻譜參數提取單元520可自由變換單元510提供的頻域音訊信號提取至少一個頻譜參數。可將頻譜參數分類成短期特徵參數(short-term feature parameter)以及長期特徵參數(long-term feature parameter)。短期特徵參數是可自當前訊框獲得,而長期特徵參數是可自包含當前訊框以及至少一個先前訊框的多個訊框獲得。
時間參數提取單元530可自時域音訊信號提取至少一個時間參數。亦可將時間參數分類成短期特徵參數以及長期特徵參數。短期特徵參數是可自當前訊框獲得,而長期特徵參數是可自包含當前訊框以及至少一個先前訊框的多個訊框獲得。
決定單元(圖4的430)可藉由使用由頻譜參數提取單元520提供的頻譜參數以及由時間參數提取單元530提供的時間參數來決定音訊信號的類型,且可基於經決定的類型來決定初始編碼模式。決定單元(圖4的430)可使用軟決策機制。
圖7為根據例示性實施例的說明編碼模式修改單元330的操作的圖解。
參看圖7,在操作700中,接收由初始編碼模式決定單元310決定的初始編碼模式,且可決定編碼模式為時域模式(亦即,時域激勵模式)抑或頻譜域模式。
在操作701中,若在操作700中決定出初始編碼模式為頻譜域(stateTS==1),則可檢查指示頻域激勵編碼是否更適當的索引stateTTSS。可藉由使用不同頻帶的調性(tonality)來獲得指示頻域激勵編碼(例如,一般信號寫碼)是否更適當的索引stateTTSS。下文將給出此操作的詳細描述。
可獲得低頻帶信號的調性作為具有包含最小值的小值的多個頻譜係數的總和與具有相對於給定頻帶的最大值的頻譜係數之間的比率。若給定頻帶為0kHz至1kHz、1kHz至2kHz以及2kHz至4kHz,則可如以下方程式10所展示來表達各別頻帶的調性t01、t12與t24以及低頻帶信號(亦即,核心頻帶)的調性tL。
同時,可藉由使用線性預測寫碼(linear prediction coding,LPC)濾波器來獲得線性預測誤差err,且可使用線性預測誤差err以移除強音調分量(tonal component)。換言之,關於強音調分量,頻譜域編碼模式相比於頻域激勵編碼模式可更有效。
可如以下方程式11所展示來表達用於藉由使用如上文所描述而獲得的調性以及線性預測誤差而切換至頻域激勵編碼模式的前條件(front condition)condfront。
【方程式11】cond front =t 12>t 12front 且t 24>t 24front 且t L >t Lfront 且err>err front
此處,t12front、t24front、tLfront以及errfront為臨限值,且可具有預先經由實驗或模擬而獲得的值。
同時,可如以下方程式12所展示來表達用於藉由使用如上文所描述而獲得的調性以及線性預測誤差而結束頻域激勵編碼模式的後條件(back condition)condback。
【方程式12】cond back =t 12<t 12back 且t 24<t 24back 且t L <t Lback
此處,t12back、t24back、tLback為臨限值,且可具有預先經由實驗或模擬而獲得的值。
換言之,藉由決定方程式11所展示的前條件被滿足抑或
方程式12所展示的後條件未被滿足,可決定指示頻域激勵編碼(例如,一般信號寫碼)相比於頻譜域編碼是否更適當的索引stateTTSS是否為1。此處,方程式12所展示的後條件的決定可為可選的。
在操作702中,若索引stateTTSS為1,則可將頻域激勵編碼模式決定為最終編碼模式。在此狀況下,將為初始編碼模式的頻譜域編碼模式修改至為最終編碼模式的頻域激勵編碼模式。
在操作705中,若在操作701中決定出索引stateTTSS為0,則可檢查用於決定音訊信號是否包含強語音特性的索引stateSS。若在頻譜域編碼模式的決定中存在錯誤,則頻域激勵編碼模式相比於頻譜域編碼模式可更有效。可藉由使用發聲參數與相關性參數之間的差vc來獲得用於決定音訊信號是否包含強語音特性的索引stateSS。
可如以下方程式13所展示來表達用於藉由使用發聲參數與相關性參數之間的差vc而切換至強語音模式的前條件condfront。
【方程式13】cond front =vc>vc front
此處,vcfront為臨限值,且可具有預先經由實驗或模擬而獲得的值。
同時,可如以下方程式14所展示來表達用於藉由使用發
聲參數與相關性參數之間的差vc而結束強語音模式的後條件condback。
【方程式14】cond back =vc<vc back
此處,vcback為臨限值,且可具有預先經由實驗或模擬而
獲得的值。
換言之,在操作705中,藉由決定方程式13所展示的前條件被滿足抑或方程式14所展示的後條件未被滿足,可決定指示頻域激勵編碼(例如,一般信號寫碼)相比於頻譜域編碼是否更適當的索引stateSS是否為1。此處,方程式14所展示的後條件的決定可為可選的。
在操作706中,若在操作705中決定出索引stateSS為0,亦即,音訊信號不包含強語音特性,則可將頻譜域編碼模式決定為最終編碼模式。在此狀況下,將為初始編碼模式的頻譜域編碼模式維持為最終編碼模式。
在操作707中,若在操作705中決定出索引stateSS為1,亦即,音訊信號包含強語音特性,則可將頻域激勵編碼模式決定為最終編碼模式。在此狀況下,將為初始編碼模式的頻譜域編碼模式修改至為最終編碼模式的頻域激勵編碼模式。
藉由執行操作700、701以及705,可校正在將頻譜域編碼模式決定為初始編碼模式時的錯誤。詳細地,可將為初始編碼模式的頻譜域編碼模式維持或切換至作為最終編碼模式的頻域激勵編碼模式。
同時,若在操作700中決定出初始編碼模式為線性預測域編碼模式(stateTS==0),則可檢查用於決定音訊信號是否包含強音樂特性的索引stateSM。若在線性預測域編碼模式(亦即,時域激勵編碼模式)的決定中存在錯誤,則頻域激勵編碼模式相比於時域激勵編碼模式可更有效。可藉由使用藉由自1減去發聲參數與相關性參數之間的差vc而獲得的值1-vc來獲得用於決定音訊
信號是否包含強音樂特性的stateSM。
可如以下方程式15所展示來表達用於藉由使用藉由自1減去發聲參數與相關性參數之間的差vc而獲得的值1-vc而切換至強音樂模式的前條件condfront。
【方程式15】cond front =1-vc>vcm front
此處,vcmfront為臨限值,且可具有預先經由實驗或模擬而獲得的值。
同時,可如以下方程式16所展示來表達用於藉由使用藉由自1減去發聲參數與相關性參數之間的差vc而獲得的值1-vc而結束強音樂模式的後條件condback。
【方程式16】cond back =1-vc<vcm back
此處,vcmback為臨限值,且可具有預先經由實驗或模擬而獲得的值。
換言之,在操作709中,藉由決定方程式15所展示的前條件被滿足抑或方程式16所展示的後條件未被滿足,可決定指示頻域激勵編碼(例如,一般信號寫碼)相比於時域激勵編碼是否更適當的索引stateSM是否為1。此處,方程式16所展示的後條件的決定可為可選的。
在操作710中,若在操作709中決定出索引stateSM為0,亦即,音訊信號不包含強音樂特性,則可將時域激勵編碼模式決定為最終編碼模式。在此狀況下,將為初始編碼模式的線性預測域編碼模式切換至作為最終編碼模式的時域激勵編碼模式。根據
例示性實施例,可考慮到,若線性預測域編碼模式對應於時域激勵編碼模式,則維持初始編碼模式而無需修改。
在操作707中,若在操作709中決定出索引stateSM為1,亦即,音訊信號包含強音樂特性,則可將頻域激勵編碼模式決定為最終編碼模式。在此狀況下,將為初始編碼模式的線性預測域編碼模式修改至為最終編碼模式的頻域激勵編碼模式。
藉由執行操作700以及709,可校正初始編碼模式的決定中的錯誤。詳細地,可將為初始編碼模式的線性預測域編碼模式(例如,時域激勵編碼模式)維持或切換至作為最終編碼模式的頻域激勵編碼模式。
根據例示性實施例,用於決定音訊信號是否包含強音樂特性以用於校正線性預測域編碼模式的決定中的錯誤的操作709可為可選的。
根據另一例示性實施例,可顛倒執行用於決定音訊信號是否包含強語音特性的操作705以及用於決定頻域激勵編碼模式是否適當的操作701的順序。換言之,在操作700之後,首先可執行操作705,接著可執行操作701。在此狀況下,可在必要時改變用於決定的參數。
圖8為根據例示性實施例的說明音訊解碼裝置800的組態的方塊圖。
圖8所展示的音訊解碼裝置800可包含位元流剖析單元(bitstream parsing unit)810、頻譜域解碼單元(spectrum domain decoding unit)820、線性預測域解碼單元(linear prediction domain decoding unit)830,以及切換單元840。線性預測域解碼單元830
可包含時域激勵解碼單元(time domain excitation decoding unit)831以及頻域激勵解碼單元(frequency domain excitation decoding unit)833,其中線性預測域解碼單元830可被體現為時域激勵解碼單元831以及頻域激勵解碼單元833中的至少一者。除非有必要被體現為單獨硬體,否則上述組件可被整合成至少一個模組且可被實施為至少一個處理器(未圖示)。
參看圖8,位元流剖析單元810可剖析經接收的位元流以及關於編碼模式與經編碼資料的單獨資訊。
頻譜域解碼單元820可解碼來自分離的經編碼資料的在頻譜域中編碼的資料。
線性預測域解碼單元830可解碼來自分離的經編碼資料的在線性預測域中編碼的資料。若線性預測域解碼單元830包含時域激勵解碼單元831以及頻域激勵解碼單元833,則線性預測域解碼單元830可執行關於分離的經編碼資料的時域激勵解碼或頻域激勵解碼。
切換單元840可切換由頻譜域解碼單元820重新建構的信號抑或由線性預測域解碼單元830重新建構的信號,且可提供經切換的信號作為最終經重新建構的信號。
圖9為根據另一例示性實施例的說明音訊解碼裝置900的組態的方塊圖。
音訊解碼裝置900可包含位元流剖析單元910、頻譜域解碼單元920、線性預測域解碼單元930、切換單元940,以及共同後處理模組(common post-processing module)950。線性預測域解碼單元930可包含時域激勵解碼單元931以及頻域激勵解碼單
元933,其中線性預測域解碼單元930可被體現為時域激勵解碼單元931以及頻域激勵解碼單元933中的至少一者。除非有必要被體現為單獨硬體,否則上述組件可被整合成至少一個模組且可被實施為至少一個處理器(未圖示)。與圖8所展示的音訊解碼裝置800相比較,音訊解碼裝置900可更包含共同後處理模組950,且因此將省略與音訊解碼裝置800的組件相同的組件的描述。
參看圖9,對應於共同預處理模組(圖2的205),共同後處理模組950可執行立體聲合併處理、環繞處理及/或頻寬延伸處理。
根據例示性實施例的方法可被撰寫為電腦可執行程式(computer-executable program),且可藉由使用非暫時性電腦可讀記錄媒體(non-transitory computer-readable recording medium)而實施於執行此等程式的通用數位電腦(general-use digital computer)中。另外,可在實施例中使用的資料結構、程式指令或資料檔案可以各種方式記錄於非暫時性電腦可讀記錄媒體上。非暫時性電腦可讀記錄媒體為可儲存資料的任何資料儲存器件,資料此後是可由電腦系統(computer system)讀取。非暫時性電腦可讀記錄媒體的實例包含:磁性儲存媒體(magnetic storage medium),諸如,硬碟、軟式磁碟以及磁帶;光學記錄媒體(optical recording medium),諸如,CD-ROM以及DVD;磁光媒體(magneto-optical medium),諸如,光碟;以及經特殊地組態以儲存並執行程式指令的硬體器件(hardware device),諸如,ROM、RAM以及快閃記憶體。另外,非暫時性電腦可讀記錄媒體可為用於傳輸指定程式指令、資料結構或類似者的信號的傳輸媒體
(transmission medium)。程式指令的實例可不僅包含由編譯器建立的機械語言碼(mechanical language code),而且包含可由電腦使用解譯器或類似者而執行的高階語言碼(high-level language code)。
雖然上文已特定地展示並描述例示性實施例,但於本領域具有通常知識者將理解,在不脫離如由附加申請專利範圍界定的本發明概念的精神以及範疇的情況下,可在例示性實施例中進行各種形式以及細節改變。應僅在描述性意義上而不出於限制目的來考慮例示性實施例。因此,本發明概念的範疇不是由例示性實施例的詳細描述界定,而是由附加申請專利範圍界定,且在範疇內的所有差異將被認作包含於本發明概念中。
700~710‧‧‧操作
Claims (3)
- 一種決定編碼模式的方法,包含:基於信號特性以在包括音樂分類及語音分類的多個分類當中決定當前訊框的分類;基於包括所述當前訊框的多個訊框以獲得包括調性以及線性預測誤差的特徵參數;基於所述特徵參數來決定在所述當前訊框中的經決定分類中是否發生錯誤;當在所述當前訊框中的所述經決定分類中發生所述錯誤且所述當前訊框中的所述經決定分類是所述音樂分類時,將所述經決定分類校正為所述語音分類;以及當在所述當前訊框中的所述經決定分類中發生所述錯誤且所述當前訊框中的所述經決定分類是所述語音分類時,將所述經決定分類校正為所述音樂分類。
- 如申請專利範圍第1項所述的決定編碼模式的方法,其中所述特徵參數還包含發聲參數與相關性參數之間的差。
- 一種音訊編碼方法,包含:基於信號特性以在包括音樂分類及語音分類的多個分類當中決定當前訊框的分類;基於包括所述當前訊框的多個訊框以獲得包括調性以及線性預測誤差的特徵參數;基於所述特徵參數來決定在所述當前訊框中的經決定分類中是否發生錯誤;當在所述當前訊框中的所述經決定分類中發生所述錯誤且所 述當前訊框中的所述經決定分類是所述音樂分類時,將所述經決定分類校正為所述語音分類;當在所述當前訊框中的所述經決定分類中發生所述錯誤且所述當前訊框中的所述經決定分類是所述語音分類時,將所述經決定分類校正為所述音樂分類;以及基於所述當前訊框的所述經決定分類或是所述當前訊框的經校正訊框而對所述當前訊框執行不同編碼程序。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261725694P | 2012-11-13 | 2012-11-13 | |
US61/725,694 | 2012-11-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201443881A TW201443881A (zh) | 2014-11-16 |
TWI612518B true TWI612518B (zh) | 2018-01-21 |
Family
ID=50731440
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106140629A TWI648730B (zh) | 2012-11-13 | 2013-11-13 | 決定編碼模式的裝置以及音訊編碼裝置 |
TW102141400A TWI612518B (zh) | 2012-11-13 | 2013-11-13 | 編碼模式決定方法、音訊編碼方法以及音訊解碼方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106140629A TWI648730B (zh) | 2012-11-13 | 2013-11-13 | 決定編碼模式的裝置以及音訊編碼裝置 |
Country Status (18)
Country | Link |
---|---|
US (3) | US20140188465A1 (zh) |
EP (3) | EP4407616A3 (zh) |
JP (2) | JP6170172B2 (zh) |
KR (3) | KR102446441B1 (zh) |
CN (3) | CN104919524B (zh) |
AU (2) | AU2013345615B2 (zh) |
BR (1) | BR112015010954B1 (zh) |
CA (1) | CA2891413C (zh) |
ES (1) | ES2900594T3 (zh) |
MX (2) | MX349196B (zh) |
MY (1) | MY188080A (zh) |
PH (1) | PH12015501114A1 (zh) |
PL (1) | PL2922052T3 (zh) |
RU (3) | RU2630889C2 (zh) |
SG (2) | SG10201706626XA (zh) |
TW (2) | TWI648730B (zh) |
WO (1) | WO2014077591A1 (zh) |
ZA (1) | ZA201504289B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102354331B1 (ko) | 2014-02-24 | 2022-01-21 | 삼성전자주식회사 | 신호 분류 방법 및 장치, 및 이를 이용한 오디오 부호화방법 및 장치 |
US9886963B2 (en) * | 2015-04-05 | 2018-02-06 | Qualcomm Incorporated | Encoder selection |
CN107731238B (zh) | 2016-08-10 | 2021-07-16 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
CN114898761A (zh) * | 2017-08-10 | 2022-08-12 | 华为技术有限公司 | 立体声信号编解码方法及装置 |
US10325588B2 (en) | 2017-09-28 | 2019-06-18 | International Business Machines Corporation | Acoustic feature extractor selected according to status flag of frame of acoustic signal |
US11032580B2 (en) | 2017-12-18 | 2021-06-08 | Dish Network L.L.C. | Systems and methods for facilitating a personalized viewing experience |
US10365885B1 (en) * | 2018-02-21 | 2019-07-30 | Sling Media Pvt. Ltd. | Systems and methods for composition of audio content from multi-object audio |
CN111081264B (zh) * | 2019-12-06 | 2022-03-29 | 北京明略软件系统有限公司 | 一种语音信号处理方法、装置、设备及存储介质 |
EP4362366A4 (en) * | 2021-09-24 | 2024-10-23 | Samsung Electronics Co Ltd | ELECTRONIC DEVICE FOR TRANSMITTING OR RECEIVING DATA PACKETS, AND ASSOCIATED OPERATING METHOD |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120069899A1 (en) * | 2002-09-04 | 2012-03-22 | Microsoft Corporation | Entropy encoding and decoding using direct level and run-length/level context-adaptive arithmetic coding/decoding modes |
Family Cites Families (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2102080C (en) * | 1992-12-14 | 1998-07-28 | Willem Bastiaan Kleijn | Time shifting for generalized analysis-by-synthesis coding |
DE69926821T2 (de) * | 1998-01-22 | 2007-12-06 | Deutsche Telekom Ag | Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen |
JP3273599B2 (ja) * | 1998-06-19 | 2002-04-08 | 沖電気工業株式会社 | 音声符号化レート選択器と音声符号化装置 |
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
US6704711B2 (en) * | 2000-01-28 | 2004-03-09 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for modifying speech signals |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
US6785645B2 (en) * | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
WO2004034379A2 (en) * | 2002-10-11 | 2004-04-22 | Nokia Corporation | Methods and devices for source controlled variable bit-rate wideband speech coding |
US20050096898A1 (en) * | 2003-10-29 | 2005-05-05 | Manoj Singhal | Classification of speech and music using sub-band energy |
FI118834B (fi) * | 2004-02-23 | 2008-03-31 | Nokia Corp | Audiosignaalien luokittelu |
US7512536B2 (en) * | 2004-05-14 | 2009-03-31 | Texas Instruments Incorporated | Efficient filter bank computation for audio coding |
DE602004025517D1 (de) | 2004-05-17 | 2010-03-25 | Nokia Corp | Audiocodierung mit verschiedenen codierungsrahmenlängen |
US7739120B2 (en) * | 2004-05-17 | 2010-06-15 | Nokia Corporation | Selection of coding models for encoding an audio signal |
CN101203907B (zh) * | 2005-06-23 | 2011-09-28 | 松下电器产业株式会社 | 音频编码装置、音频解码装置以及音频编码信息传输装置 |
US7733983B2 (en) * | 2005-11-14 | 2010-06-08 | Ibiquity Digital Corporation | Symbol tracking for AM in-band on-channel radio receivers |
US7558809B2 (en) * | 2006-01-06 | 2009-07-07 | Mitsubishi Electric Research Laboratories, Inc. | Task specific audio classification for identifying video highlights |
US8346544B2 (en) * | 2006-01-20 | 2013-01-01 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision |
KR100790110B1 (ko) * | 2006-03-18 | 2008-01-02 | 삼성전자주식회사 | 모폴로지 기반의 음성 신호 코덱 방법 및 장치 |
WO2008045846A1 (en) * | 2006-10-10 | 2008-04-17 | Qualcomm Incorporated | Method and apparatus for encoding and decoding audio signals |
CN100483509C (zh) * | 2006-12-05 | 2009-04-29 | 华为技术有限公司 | 声音信号分类方法和装置 |
CN101197130B (zh) * | 2006-12-07 | 2011-05-18 | 华为技术有限公司 | 声音活动检测方法和声音活动检测器 |
KR100964402B1 (ko) * | 2006-12-14 | 2010-06-17 | 삼성전자주식회사 | 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치 |
CN101025918B (zh) * | 2007-01-19 | 2011-06-29 | 清华大学 | 一种语音/音乐双模编解码无缝切换方法 |
KR20080075050A (ko) | 2007-02-10 | 2008-08-14 | 삼성전자주식회사 | 오류 프레임의 파라미터 갱신 방법 및 장치 |
US8060363B2 (en) * | 2007-02-13 | 2011-11-15 | Nokia Corporation | Audio signal encoding |
CN101256772B (zh) * | 2007-03-02 | 2012-02-15 | 华为技术有限公司 | 确定非噪声音频信号归属类别的方法和装置 |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
CA2690433C (en) * | 2007-06-22 | 2016-01-19 | Voiceage Corporation | Method and device for sound activity detection and sound signal classification |
KR101380170B1 (ko) * | 2007-08-31 | 2014-04-02 | 삼성전자주식회사 | 미디어 신호 인코딩/디코딩 방법 및 장치 |
CN101393741A (zh) * | 2007-09-19 | 2009-03-25 | 中兴通讯股份有限公司 | 一种宽带音频编解码器中的音频信号分类装置及分类方法 |
CN101399039B (zh) * | 2007-09-30 | 2011-05-11 | 华为技术有限公司 | 一种确定非噪声音频信号类别的方法及装置 |
CN101236742B (zh) * | 2008-03-03 | 2011-08-10 | 中兴通讯股份有限公司 | 音乐/非音乐的实时检测方法和装置 |
EP2259253B1 (en) | 2008-03-03 | 2017-11-15 | LG Electronics Inc. | Method and apparatus for processing audio signal |
JP2011518345A (ja) * | 2008-03-14 | 2011-06-23 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング |
US8856049B2 (en) * | 2008-03-26 | 2014-10-07 | Nokia Corporation | Audio signal classification by shape parameter estimation for a plurality of audio signal samples |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
EP2144231A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
MY153562A (en) * | 2008-07-11 | 2015-02-27 | Fraunhofer Ges Forschung | Method and discriminator for classifying different segments of a signal |
CN101350199A (zh) * | 2008-07-29 | 2009-01-21 | 北京中星微电子有限公司 | 音频编码器及音频编码方法 |
CN102177426B (zh) * | 2008-10-08 | 2014-11-05 | 弗兰霍菲尔运输应用研究公司 | 多分辨率切换音频编码/解码方案 |
CN101751920A (zh) * | 2008-12-19 | 2010-06-23 | 数维科技(北京)有限公司 | 基于再次分类的音频分类装置及其实现方法 |
KR101622950B1 (ko) * | 2009-01-28 | 2016-05-23 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 |
JP4977157B2 (ja) | 2009-03-06 | 2012-07-18 | 株式会社エヌ・ティ・ティ・ドコモ | 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム |
CN101577117B (zh) * | 2009-03-12 | 2012-04-11 | 无锡中星微电子有限公司 | 伴奏音乐提取方法及装置 |
CN101847412B (zh) * | 2009-03-27 | 2012-02-15 | 华为技术有限公司 | 音频信号的分类方法及装置 |
US20100253797A1 (en) * | 2009-04-01 | 2010-10-07 | Samsung Electronics Co., Ltd. | Smart flash viewer |
KR20100115215A (ko) * | 2009-04-17 | 2010-10-27 | 삼성전자주식회사 | 가변 비트율 오디오 부호화 및 복호화 장치 및 방법 |
KR20110022252A (ko) * | 2009-08-27 | 2011-03-07 | 삼성전자주식회사 | 스테레오 오디오의 부호화, 복호화 방법 및 장치 |
BR112012009490B1 (pt) * | 2009-10-20 | 2020-12-01 | Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V. | ddecodificador de áudio multimodo e método de decodificação de áudio multimodo para fornecer uma representação decodificada do conteúdo de áudio com base em um fluxo de bits codificados e codificador de áudio multimodo para codificação de um conteúdo de áudio em um fluxo de bits codificados |
CN102237085B (zh) * | 2010-04-26 | 2013-08-14 | 华为技术有限公司 | 音频信号的分类方法及装置 |
JP5749462B2 (ja) | 2010-08-13 | 2015-07-15 | 株式会社Nttドコモ | オーディオ復号装置、オーディオ復号方法、オーディオ復号プログラム、オーディオ符号化装置、オーディオ符号化方法、及び、オーディオ符号化プログラム |
CN102446504B (zh) * | 2010-10-08 | 2013-10-09 | 华为技术有限公司 | 语音/音乐识别方法及装置 |
CN102385863B (zh) * | 2011-10-10 | 2013-02-20 | 杭州米加科技有限公司 | 一种基于语音音乐分类的声音编码方法 |
US9111531B2 (en) * | 2012-01-13 | 2015-08-18 | Qualcomm Incorporated | Multiple coding mode signal classification |
WO2014010175A1 (ja) * | 2012-07-09 | 2014-01-16 | パナソニック株式会社 | 符号化装置及び符号化方法 |
-
2013
- 2013-11-13 JP JP2015542948A patent/JP6170172B2/ja active Active
- 2013-11-13 SG SG10201706626XA patent/SG10201706626XA/en unknown
- 2013-11-13 CN CN201380070268.6A patent/CN104919524B/zh active Active
- 2013-11-13 MY MYPI2015701531A patent/MY188080A/en unknown
- 2013-11-13 EP EP24182511.6A patent/EP4407616A3/en active Pending
- 2013-11-13 CA CA2891413A patent/CA2891413C/en active Active
- 2013-11-13 BR BR112015010954-3A patent/BR112015010954B1/pt active IP Right Grant
- 2013-11-13 ES ES13854639T patent/ES2900594T3/es active Active
- 2013-11-13 AU AU2013345615A patent/AU2013345615B2/en active Active
- 2013-11-13 PL PL13854639T patent/PL2922052T3/pl unknown
- 2013-11-13 WO PCT/KR2013/010310 patent/WO2014077591A1/ko active Application Filing
- 2013-11-13 KR KR1020217038093A patent/KR102446441B1/ko active IP Right Grant
- 2013-11-13 RU RU2015122128A patent/RU2630889C2/ru active
- 2013-11-13 TW TW106140629A patent/TWI648730B/zh active
- 2013-11-13 SG SG11201503788UA patent/SG11201503788UA/en unknown
- 2013-11-13 KR KR1020157012623A patent/KR102331279B1/ko active IP Right Grant
- 2013-11-13 CN CN201711421463.5A patent/CN107958670B/zh active Active
- 2013-11-13 MX MX2015006028A patent/MX349196B/es active IP Right Grant
- 2013-11-13 TW TW102141400A patent/TWI612518B/zh active
- 2013-11-13 MX MX2017009362A patent/MX361866B/es unknown
- 2013-11-13 EP EP21192621.7A patent/EP3933836B1/en active Active
- 2013-11-13 KR KR1020227032281A patent/KR102561265B1/ko active IP Right Grant
- 2013-11-13 RU RU2017129727A patent/RU2656681C1/ru active
- 2013-11-13 EP EP13854639.5A patent/EP2922052B1/en active Active
- 2013-11-13 US US14/079,090 patent/US20140188465A1/en not_active Abandoned
- 2013-11-13 CN CN201711424971.9A patent/CN108074579B/zh active Active
-
2015
- 2015-05-13 PH PH12015501114A patent/PH12015501114A1/en unknown
- 2015-06-12 ZA ZA2015/04289A patent/ZA201504289B/en unknown
-
2017
- 2017-06-29 JP JP2017127285A patent/JP6530449B2/ja active Active
- 2017-07-20 AU AU2017206243A patent/AU2017206243B2/en active Active
-
2018
- 2018-04-18 RU RU2018114257A patent/RU2680352C1/ru active
- 2018-07-18 US US16/039,110 patent/US10468046B2/en active Active
-
2019
- 2019-10-04 US US16/593,041 patent/US11004458B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120069899A1 (en) * | 2002-09-04 | 2012-03-22 | Microsoft Corporation | Entropy encoding and decoding using direct level and run-length/level context-adaptive arithmetic coding/decoding modes |
Non-Patent Citations (1)
Title |
---|
Kikuiri, et al., "MPEG Unified Speech and Audio Coding Enabling Efficient Coding of both Speech and Music", NTT DOCOMO Technical Journal, Vol. 13, No. 3, 2011, https://www.nttdocomo.co.jp/english/binary/pdf/corporate/technology/rd/technical_journal/bn/vol13_3/vol13_3_017en.pdf * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI612518B (zh) | 編碼模式決定方法、音訊編碼方法以及音訊解碼方法 | |
KR100998430B1 (ko) | 상위대역 시그널에 대한 프레임 손실 은닉을 수행하는 방법및 장치 | |
RU2641461C2 (ru) | Аудиокодер, аудиодекодер, способ обеспечения кодированной аудиоинформации, способ обеспечения декодированной аудиоинформации, компьютерная программа и кодированное представление с использованием сигнально-адаптивного расширения полосы пропускания | |
RU2627102C2 (ru) | Декодер для формирования аудиосигнала с улучшенной частотной характеристикой, способ декодирования, кодер для формирования кодированного сигнала и способ кодирования с использованием компактной дополнительной информации для выбора | |
KR20080101873A (ko) | 부호화/복호화 장치 및 방법 | |
KR20100006491A (ko) | 무성음 부호화 및 복호화 방법 및 장치 | |
Xiang et al. | Improved Frame Error Concealment Algorithm Based on Transform-Domain Mobile Audio Codec | |
BR122020023798B1 (pt) | Método de codificação de um sinal de áudio |