TWI555008B - 使用在智慧間隙填充架構內之雙聲道處理之音頻編碼器、音頻解碼器及相關方法 - Google Patents

使用在智慧間隙填充架構內之雙聲道處理之音頻編碼器、音頻解碼器及相關方法 Download PDF

Info

Publication number
TWI555008B
TWI555008B TW103124623A TW103124623A TWI555008B TW I555008 B TWI555008 B TW I555008B TW 103124623 A TW103124623 A TW 103124623A TW 103124623 A TW103124623 A TW 103124623A TW I555008 B TWI555008 B TW I555008B
Authority
TW
Taiwan
Prior art keywords
channel
spectrum
spectral
frequency
representation
Prior art date
Application number
TW103124623A
Other languages
English (en)
Other versions
TW201517023A (zh
Inventor
薩斯洽 帝斯奇
弗瑞德里克 納吉爾
拉夫 紀哲爾
寶拉吉 奈傑娟 索須卡那
高斯坦汀 史密德
史丹芬 拜耶
克利斯汀安 盧坎
貝恩德 艾德勒
克利斯汀 漢姆瑞奇
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW201517023A publication Critical patent/TW201517023A/zh
Application granted granted Critical
Publication of TWI555008B publication Critical patent/TWI555008B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form

Description

使用在智慧間隙填充架構內之雙聲道處理之音頻編碼器、音頻解碼器及相關方法
本發明係關於一種音頻編碼/解碼,且特別是關於一種使用智慧間隙填充(Intelligent Gap Filling,簡稱IGF)的音頻編碼。
音頻編碼是訊號壓縮的領域,其利用心理聽覺的知識來處理音頻訊號中採用的冗餘部分以及不相干部分。如今,音頻編碼一般需要接近60kbps/聲道給音頻訊號之任何形式的感知穿透編碼(perceptually transparent coding)。較新的編碼器會使用像是頻寬延展(BWE)的技術,而透過訊號中使用頻譜相似度而達到降低編碼的位元率的目的。BWE的策略是使用低位元率的參數組來表現音頻訊號中的高頻成份。高頻頻譜被來自於低頻區域的頻譜成份所填充,並且頻譜波形、傾斜和時域係連續的被調整,以維持原始訊號的音色和色彩。如此的BWE方法使音頻編碼器即便在大約24kbps/聲道的低位元率依然能夠維持高品質。
音頻訊號的儲存或是傳輸往往受到嚴格的位元率的限制。在過去,當僅有非常低位元率可供使用時,編碼器會被迫大量地降低傳輸的音頻頻寬。
如今,新的音頻編碼器可以藉由使用頻寬延展技術而編碼寬頻帶的訊號[1]。這些演算法是依賴高頻成份的參數表現其從藉由轉換成高頻頻譜區域(區段)以及參數驅動之後續處理的應用的手段,而從被波形編碼的解碼訊號之低頻部份所生成。在頻寬延展的策略中,在被所謂的交越頻率(Cross over frequency)上的高頻頻譜的重構,往往是在頻譜區段的基礎上進行。一般來說,高頻區域是由多個相鄰的區段所組成,並且各區段是源自於 低於所給定之交越頻率的低頻頻譜的帶通(Band-pass)區域。習知的系統係透過複製從來源到目標區域中的一組相鄰子頻帶的係數,而執行在一濾波器組中,例如正交鏡像濾波器組(Quadrature Mirror Filterbank)中的分段(patching)。
當今所發現的另一音頻編解碼技術,係增加壓縮效能,並進而使在低位元率之延展的音頻頻寬係因頻頻譜之適用部份的參數驅動合成代替。例如,原始音頻訊號的似躁訊號部份可以被替換,而不具有接近人為噪音之主觀品質的實質損失,而此人為噪音是在解碼器和接近側資訊參數(side information parameters)的尺寸中被生成。其中一個例子是包含在MPEG-4先進音訊編碼(AAC)中的類雜訊取代模組[5]。
另一種措施,也是使在低位元率之延展音頻頻寬係包含在MPEG-D統一語音及音頻編碼(USAC)中的噪音填充技術[7]。頻譜間隙(零)會受到量化器因為太多粗躁量化之死區(dead-zone)的影響,係大致上被填充了在解碼器以及由參數驅動之後續處理放大的人為噪音。
另一習知的技術被稱為精確頻譜代替(Accurate Spectral Replacement,簡稱ASR)[2-4]。除了波形編解碼器,ASR還採用一專用訊號合成階段,其係恢復在解碼器中之訊號的可察覺地重要正弦部分。此外,在[5]中被描述的系統,係仰賴波形解碼器之高頻區域的正弦模型,以使延展的音頻頻寬在低位元率具有具有合適的感知品質。所有這些方法都涉及到資料變換城除了離散餘弦轉換(Modified Discrete Cosine Transform)的第二域,以及為了高頻正弦成分之保存之相當複雜的分析/合成階段。
圖13A繪示一種用於頻寬延展技術,例如使用高效先進音頻編碼(High Efficiency Advanced Audio Coding,簡稱HE-AAC)技術的音頻編碼器的示意圖。在線1300的音頻訊號被輸入至濾波系統,而此濾波系統包括一低通濾波器1302和一高通濾波器1304。高通濾波器1304所輸出的訊號會被輸入至參數擷取/編碼器1306。參數擷取/編碼器1306是用來計算以及編碼像是頻譜封包參數、雜訊附加參數、遺失諧波參數、或是反轉濾波參數等的參數。這些被擷取的參數會被輸入至一位元串多工器1308。低通輸出訊號會被輸入至一處理器,其一般包括下取樣器1310和一核心編碼器 1312的功能。低通濾波器1302限制要被編碼為比發生在在線1300上之輸入音頻訊號中還小的頻寬。由於核心編碼器所產生的整體功能只需要一具有縮小頻寬的訊號的事實,因此這提供了重大的編碼益處。例如,當在線1300上之音頻訊號的頻寬係20kHz,並且當低通濾波器1302較佳地具有4kHz的頻寬,則為了滿足取樣理論,理論上在下一個到下取樣器的訊號具有8kHz的取樣頻率就足夠,其實質上降低了具有至少40kHz之音頻訊號1300所需的取樣率。
圖13B繪示一種對應頻寬延展解碼器的示意圖。此解碼器具有位元串解多工器1320。此位元串解多工器1320擷取用於核心解碼器1322的輸入訊號,以及用於參數解碼器1324的輸入訊號。在上述例子中,核心解碼器輸出訊號具有8kHz的取樣率,因此,對於完整的頻寬重件來說,4kHz的頻寬在高頻重構器1330的輸出訊號必須在20kHz時,就需要40kHz的取樣率。為了實現這種可能,就需要具有上取樣器1325以及濾波器組1326功能的解碼處理器。接著,高頻重構器1330會接收由濾波器組1326所輸出之被頻率分析的低頻訊號,並且重構由圖13A中的高通濾波器1304使用高頻頻帶的參數表現所定義的頻率範圍。高頻重構器1330具有多個功能,像是使用低頻範圍中之來源範圍的高頻範圍之再生、頻譜封包調整、噪聲附加功能和在較高頻率範圍中引發遺失諧波的功能、以及若是高頻重構器1330在圖13A之編碼器中被應用和進行計算時,為了考慮高頻範圍一般不作為音調的低頻範圍而進行的反濾波操作。在HE-AAC中,遺失諧波在解碼端被重新合成,並且被準確地放進重構頻帶的中間。因此,所有的遺失諧波線在特定的重構頻帶中已被決定,而並非被擺列成頻率值,而是被放置在原始訊號中。反之,這些遺失諧波線被擺列成特定頻帶之中央內的頻率。因此,當在原始訊號中的遺失諧波線被放置非常靠近原始頻率中的重構頻帶邊界時,頻率中的錯誤會被當作參數而被生成和傳送,以用來作為將此重構訊號中的遺失諧波線放置在頻帶的中央,其靠近各重構頻頻帶的50%。
此外,即便傳統的音訊核心編碼器操作在頻譜域,核心解碼器仍然可以產生時域訊號,然後再由濾波器組1326功能將此時域訊號轉換 到頻域。而上述動作所引起之額外的處理延遲,會引發因為先將頻譜域轉換成頻域,一般還會再轉換成不同的頻域之一連串的處理,並且當然也會因為將頻寬延展技術應用於行動裝置,例如行動電話、平板、筆記型電腦等,而造成相當大量複雜的運算而需要的電力所造成的問題。
目前的音頻編碼器在處理低位元率音頻編碼時會使用BWE,如同合成部分的編碼格式。然而,BWE技術被限制僅用來取代高頻(HF)的成份。此外,目前的音頻編碼器也不允許高於所給定之交越頻率的可感知地重要成份進行波形編碼。由於訊號之音調諧波的精確對準並不被大多數的系統所考慮,因此當前的音頻編碼器在進行BWE時,可能會遺失高頻的細節或是音色。
習知之BWE系統之當前狀態的另一缺點,就是需要將音頻訊號轉成新域以實現BWE(例如從MDCT轉換成QMF域)。這造成了合成的複雜度、額外的複雜運算以及記憶體需求的增加。
在雙聲道對的例子中,基本上就存在一些聲道表現,像是聯合聲道表現或是獨立聲道表現。習知的聯合聲道表現是一中/側聲道表現,其中,中間聲道係左聲道和右聲道的總和,並且側聲道則是左聲道和右聲道之間的差值。
另一表現則是低混聲道和殘留聲道以及附加預測常數,其允許從低混聲道和殘留聲道再製造左聲道和右聲道。在此例中,獨立聲道表現可以是獨立左聲道和獨立右聲道,或是一般地第一聲道和第二聲道。
此外,還有一個狀況會存在,就是當目標範圍並沒有表現出很強的相關性時,用於間隙填充操作的來源範圍可能會顯示很強的相關性。在此例中,當來源範圍係使用立體聲表現而被編碼,例如為了降低位元率而用於核心頻率成份的中/側聲道表現,接著一錯誤雙聲道影像會被產生而用於重構成份或目標範圍。另一方面,當來源範圍並沒有表現任何相關性或是僅有很小的相關性,以及目標範圍聚有很小的相關性或是沒有相關性時,則再次有簡單的間隙填充操作結果。
因此,本發明的目的是提供一種改善編碼/解碼的觀點,而用於雙聲道表現。
此目的係由申請專利範圍第1項之音頻解碼器、申請專利範圍第14項之音頻編碼器、申請專利範圍第19項之音頻解碼的方法、申請專利範圍第20項之音頻解碼的方法或是申請專利範圍第21項之電腦程式來達成。
本發明係基於發現相關性狀態不只是對於來源範圍重要,並且也對於目標範圍也很重要。此外,本發明得知,不同的關聯性狀況可以以發生於來源範圍和目標範圍。例如,當處理具有高頻噪音的語音訊號時,低頻頻帶包含了具有少數的泛音(overtones)的語音訊號,而此具有少數泛音的語音訊號在揚聲器被放置於中央時,與左聲道和右聲道高度相關。然而,相比於沒有在右聲道的高頻雜訊或是無高頻雜訊來說,由於左聲道可能會有不同的高頻雜訊的事實,高頻成份會強烈地不具相關性。因此,當忽略上述的狀態時,則一簡單的間隙填充操作可以被執行,接著高頻部分也會被相關聯,並且可能在重構訊號中產生嚴重的空間隔離產物。位了解決這個問題,用於重構頻帶的參數資料,或一般用於第二頻譜部份之第二集合的參數資料,必須使用為第一頻譜部份之第一集合來進行重構,而第一頻譜部份之第一集合係被計算來辨識用於第二頻譜部份,或者用於與上述不同地重構頻帶之第一或第二不同的雙聲道表現。在編碼側,一雙聲道辨識碼也因此被計算而用於第二頻譜部份,例如給重構頻帶的能量資訊要被額外地計算,以用於上述的第二頻譜部份。在解碼側的頻率再生器接著再生一第二頻譜部份,其依賴第一頻譜部份之第一集合的一第一部分,例如用於第二部份的來源範圍和參數資料,像是頻譜封包能量資訊或是任何其他頻譜封包資料,以及額外地依賴用於第二部份,例如在重新處理下之重構頻帶的雙聲道辨識碼資料。
雙聲道辨識碼較佳如旗標一樣被傳送給各重構頻帶,並且此資料是從編碼器被傳送到解碼器,並且解碼器會接著解碼核心訊號,當作藉由較佳給核心頻帶之運算旗號的指示,解碼器會解碼核心訊號。接著,在一實施中,核心訊號會被儲存為立體聲表現(例如左/右以及中/側),並且對於 智慧間隙填充來說,在給智慧間隙填充或重構頻帶的雙聲道辨識旗標指示時來源塊表現會被選擇以符合目標塊表現,也就是給目標範圍。
要強調的是,此程序並非僅用於處理立體聲訊號,也就是左聲道和右聲道,並且還可以用於操作多聲道訊號。在多聲道的例子中,一些不同的聲道對可以以像是第一對的左聲道和右聲道、第二對的左環場聲道和右環場聲道、以及第三對的中央聲道和LFE聲道的方式進行處理。其它的配對可以被決定用於高輸出聲道格式,像是7.1、11.1…等。
本發明的另一觀點一方面是基於發現有關頻寬延展之分離的問題,而在另一方面是基於發現藉著執行與核心解碼器相同的頻譜域中之頻寬延展而處理並克服核心編碼。因此,本發明提供一全率核心編碼器,可以編碼並解碼全音頻訊號範圍。此全速率核心編碼器不需要在編碼側的下取樣器,以及在解碼側的上取樣器。反而,整個操作是在全取樣速率或全頻寬域中進行。為了取得高編碼增益,音頻訊號會為了找尋第一頻譜部份之第一集合而被分析,而第一頻譜部份之第一集合必須被編碼而具有高解析度,在此,第一頻譜部份之第一集合在一實施例中可以包括音頻訊號的音調部份。另一方面,音頻訊號中的非音調或雜訊成份所組成之第二頻譜的第二部份係被參數地編碼而具有低頻譜解析度。接著,此被編碼的音頻訊號僅需要被編碼成具有高頻譜解析度之波形保存態樣之第一頻譜部份之第一集合,此外,被編碼具有低解析度之第二頻譜部份之第二集合則使用從該第一集合來的頻率「塊(Tile)」。在解碼側,核心編碼器,係全頻帶解碼器,重構微波型保存態樣之第一頻譜部份之第一集合,即在此不需任何附加頻率再生的技術。然而,如此產生的頻譜具有許多的頻譜間隙。一方面,這些間隙實質上被本發明之智慧填充間隙技術藉著使用頻率再生應用參數資料所填充,另一方面則是使用來源頻譜範圍,即藉著全速率音頻解碼器所重構之第一頻譜部份所填充。
在另一實施例中,藉由雜訊填充而不是頻帶寬複製或頻率塊填充的頻譜部份,係構成第三頻譜部份之第三集合。由於在單域中之編碼概念操作一方面是用於核心編碼/解碼,而另一方面則是為著頻率再生的事實,因此藉著不用頻率再生之雜訊填充,或是藉著使用在不同頻率範圍之頻率 塊的頻率再生,IGF不但會拒絕填充較高頻率範圍,並且還會填充較低頻率範圍。
要強調的是,在頻譜能量上的資訊、在個別能量上的資訊或個別能量資訊、在存在能量上的資訊或存在能量資訊、在塊案能量上的資訊或塊能量資訊、或是在遺失能量上的資訊或遺失能量資訊可以包括不只是能量值,也包括(例如絕對值)振幅值、級別值或任何其他值。因此,能量上的資訊例如包括本身的能量值、和/或級別和/或振幅和/或絕對振幅的值。
本發明係基於發現重構訊號的音頻品質,係由於整個頻譜是可存取至核心頻帶,而因此可以透過IGF而改善,以致於,例如,在高頻譜範圍中特定重要的聲調部份仍舊可以由核心編碼器來編碼,而並非以參數形式來實現。另外,使用來自於第一頻譜部份之第一集合的頻率塊之間隙填充操作例如是聲調部份的集合而執行,而此聲調部份一般來自於低頻範圍,但是若是高頻範圍是可用的,則也可以來自於高頻範圍。然而,以在解碼側的頻譜封包調整來說,來自於落在重構頻帶之頻譜部份之第一集合的頻譜部份不會由例如頻譜封包調整進行更進一步的後續處理。只有在重構頻帶中並非原始來自於核心編碼器之殘留的頻譜值,其可以使用封包資訊而被封包調整。較佳地,封包資訊是全頻帶封包資訊,其解釋了在重構頻帶中之第一頻譜部份之第一集合和在相同重構頻帶中之地二頻譜部份之地二集合的能量,在此在第二頻譜部份之地二集合中稍後的頻譜值係被指示為零,並且係因此被核心編碼器編碼,而並非參數地被編碼具有低解析度的能量資訊。
絕對能量值已經被發現可以由對應頻帶之相關的頻寬而正規化或是不被正規化,而此絕對能量值在解碼側上的應用中是非有用的並且非常有效的。尤其當增益因此必須依據在重構頻帶中之殘留能量而被計算時,絕對能量值可以應用在重構頻帶中的遺失能量,以及應用於重構頻帶中的頻率塊資訊。
另外,較佳的是,被編碼的位元串不只涵蓋用於重構頻帶的能量資訊,另外還涵蓋用於尺寸因子頻帶的多個尺寸因子,其延展到最大頻率之上。這對於每個重構頻帶來說,可以保證用於其中的特定聲調部份,也 就是第一頻譜部份是可用的,此第一頻譜部份之第一集合可以自動的被編碼具有正確的振幅。此外,除了用於每個重構頻帶的尺寸因子之外,用於此重構頻帶的能量會在編碼器中被生成,並且被傳輸至解碼器。此外,較佳的是,重構頻帶會符合尺寸因子頻帶,或是在能量分組的例子中,至少重構頻帶的邊界會符合尺寸因子頻帶的邊界。
另一觀點是基於發現藉由一訊號適應頻率塊填充策略,而對於一些在音訊品質中特定的損害進行補救的手段。為此,在編碼側的分析會被執行,以發現最佳匹配來源區域候選者給特定的目標區域。一匹配資訊係目標區域識別與任選的一些額外資訊的特定來源區域一起被生成,並且當作側資訊傳送至解碼器。接著,解碼器會應用一頻率塊填充操作,其使用匹配資訊。為此,解碼器會讀取來自於傳送資料串的頻率塊資訊或是資料檔案,以及存取來源區域,其被辨識用於特定的重構頻帶,並且若是在匹配資料中被指示,則一些來源區域的處理會被額外地執行以生成用於重構頻帶的列(row)頻譜資料。接著,頻率塊填充操作的結果,即用於重構頻帶的列頻譜資料會被塑形,並且為了最後取得重構頻帶而使用頻譜封包資訊,而重構頻帶包括像是音調部份的第一頻譜部份。然而,這些音調部份不會由適應塊填充策略而產生,但是這些第一頻譜部份會由音頻解碼器或核心解碼器直接地輸出。
適應頻譜塊選擇策略可以操作於低粒度。在此實施例中,來源區域一般被細分成重疊的來源區域和目標區域,或是由非重疊頻率目標區域所提供的重構頻帶。接著,編碼側會決定各來源區域和各目標區域之間的相似度,以及藉由匹配資訊來辨識來源區域和目標區域的最佳匹配對,並且在解碼側會使用匹配資訊中被辨識出來的來源區域來生成列頻譜資料給重構頻帶。
為了獲得較高粒度的目的,各來源區域被允許位移以獲得一特定的延遲,在此特定延遲的相似度為最高。此延遲可以如頻點(frequency bin)一般的精細,並且可以讓來源區域和目標區域之間的匹配度更好。
此外,除了僅辨識最佳匹配對之外,此相關聯的延遲還可以被傳送到匹配資訊中,並且額外地,甚至可以以符號的形式來傳送。當此符 號在解碼側被決定為負,則對應的符號旗標也會被傳送至匹配資訊內,並且在解碼側,來源區域頻譜值會被乘以“-1”,或被“旋轉”180度而以複數的形式來表現。
本發明的另一實施例係應用塊權重操作。頻譜的權重移除了粗糙的頻譜封包資訊,並且強調了頻譜精細的結構,這是為了計算塊相似度首要的事。因此,一方面的頻率塊和/或另一方面的來源區域在計算一交互關聯量測前會先被白化(whitened)。當只有頻率塊被使用預先定義的程序進行白化時,一白化旗標會被傳送到解碼器,以指示解碼器可以將相同的預先定義白化程序應用於IGF中的頻率塊。
考慮到塊選擇,較佳地是使用相關聯的延遲,以頻譜性地將再生的頻率以轉換點(transform bins)的整數倍進行位移。依據底層的轉換,頻譜位移可能需要額外的校正。在奇延遲的例子中,頻率塊係透過乘以-1/1之交換時域順序進行另外的調變,以對每一其它在MDCT中之頻帶的頻率反轉表現進行補償。此外,當生成頻率塊時,相關聯結果的符號也會被應用。
此外,較佳會使用頻率塊縮減和穩定化以確認可以避免用於相同重構區域之第一改變來源區域或目標區域所製造出來的問題。為此,會進行相異辨識之來源區域之間的相似度分析,並且當一來源塊與其它來源塊相似且相似度在一臨界值之上時,則此來源塊會因為其高度與其它來源塊相關聯而從潛力來源塊之集合中被取出。另外,如塊選擇穩定化的類型,若是在當前訊框中沒有來源塊與目標塊相關聯(高於上述的臨界值),則維持來自於前一訊框的塊等級為佳。
另一觀點係基於特別是在一些包括了暫態部份的訊號常常發生在音頻訊號中時,藉由將時域噪音整形(Temporal Noise Shaping,簡稱TNS)技術或時域塊整形(Temporal tile Shaping,簡稱TTS)技術與高頻重構整合而獲得改善品質和降低位元率的發現。在編碼側之TNS/TTS的處理,是藉由過頻預測(prediction over frequency)重構音頻訊號的時間封包來實施。依據此實施例,即當時域噪音整形濾波器被決定在頻率範圍中不僅涵蓋來源頻率範圍,也涵蓋要在頻率再生解碼器中被重構的目標頻率範圍時,時域封包不僅被應用於核心音頻訊號直到間隙填充起始頻率,也應用於重構之 第二頻譜部份的頻譜範圍。因此,無法進行時域塊整形而產生的前回音或後回音將會被降低或消除。這不但是應用藉由在核心頻率範圍直到特定間隙填充起始頻率中之反過頻預測,也是應用藉由在核心頻率範圍以上之頻率範圍的反過頻預測而完成。為此,在應用過頻預測之前,在解碼側要進行頻率再生或頻率塊生成。然而,在解碼側的過頻預測,係依據是否在濾波後已經在頻譜殘留值上或是在封包整形前之(全)頻譜值上已經進行能量資訊運算,而在頻譜封包整形前或後被實施。
超過一或多個頻率塊之TTS處理,係額外地建立在來源區域和重構頻帶之間,或是兩相鄰重構區域或頻率塊之間的關聯的延續。
在一實施例中,較佳是使用複數TNS/TTS濾波。因此,關鍵地取樣即時表現之(時域)變形的問題,像是MDCT就可以被避免。編碼側可以不但可以藉由應用變化離散餘弦轉換,也可以藉由應用除了取得一複數變化轉換之外的變化離散正弦轉換,來計算複數的TNS濾波。雖然僅有變化離散餘弦轉換值,即複數轉換的實部會被傳送。然而,使用前或後訊框之MDCT頻譜之轉換的虛部可能會被消除,以致於在解碼側可以再次應用於反過頻預測,並且特別地在來源區域和重構區域之間,以及在重構區域中之頻率相鄰之頻率塊之間的過邊界預測。
本發明的音頻編碼系統係有效地編碼在大範圍之位元率的任意音頻訊號。而為了高位元率,本發明的系統係收斂透通性,以讓低位元率感知的困擾最小化。因此,可用的位元率主要被用於波形編碼的部份,僅是在編碼器中之訊號的聽覺最相關的結構,並且在解碼器中填充所得到的頻譜間隙,其訊號成份大致接近原始的頻譜。非常有限的位元預算藉著專用的側訊息從編碼器傳送至解碼器,而被消耗在控制參數地驅動所謂的頻譜智慧間隙填充(IGF)。
99‧‧‧音頻訊號
100、1002、1130‧‧‧時間頻譜轉換器
101‧‧‧頻譜
102、424、866、1004、1132‧‧‧頻譜分析器
103‧‧‧第一頻譜部份之第一集合
104‧‧‧參數計算器/參數編碼器
105‧‧‧第二頻譜部份之第二集合
106‧‧‧頻譜域音頻編碼器、頻率再生器
107‧‧‧第一編碼表現
108‧‧‧位元串產生器、位元串多工器、方塊
109‧‧‧第二編碼表現、線
112、602‧‧‧頻譜域音頻解碼器
114、1104‧‧‧參數解碼器
116、604、806、906、1106、1107‧‧‧頻率再生器
117、203、401、941、1019‧‧‧線
118、1108‧‧‧頻譜-時間轉換器
119‧‧‧時間表現
200‧‧‧位元解多工器/解碼器
202‧‧‧智慧間隙填充、IGF方塊、IGF
204‧‧‧聯合聲道解碼器、聯合聲道解碼
206‧‧‧音調遮罩、音調遮罩方塊
208‧‧‧結合器、方塊
210‧‧‧反TNS操作、方塊、反TNS
212‧‧‧合成濾波器組、方塊
220、1326‧‧‧濾波器組、濾波器組
222‧‧‧TNS、TNS操作、TNS方塊、分析濾波器組
224‧‧‧IGF參數擷取&編碼、方塊
226‧‧‧區塊音調遮罩、頻譜分析/音調遮罩、頻譜分析器
228‧‧‧聯合聲道編碼、核心編碼器、聯合聲道編碼方塊
230、1308‧‧‧位元串多工器
232‧‧‧熵編碼器
301‧‧‧雜訊填充頻帶
302‧‧‧聲調部份
304、305、306‧‧‧編碼的聲調部份、高解析度頻譜部份、第一頻譜部份
307‧‧‧聲調部份、頻譜部份、諧波
307a、307b‧‧‧雙第二頻譜部份
309‧‧‧IGF起始頻率、智慧間隙填充起始頻率
390‧‧‧重構頻率
391‧‧‧頻率錯誤
400‧‧‧尺寸因子計算器
402‧‧‧心理聽覺模型
404‧‧‧量化處理器
410、418、422‧‧‧設定至零方塊、設定為零方塊、方塊
412‧‧‧尺寸因子加權、方塊
420‧‧‧量化器方塊
502‧‧‧視窗器
504‧‧‧暫態偵測器、時域偵測器
506‧‧‧區塊轉換器、方塊
510‧‧‧訊框建立/調整方塊、方塊、訊框建立/調整器
512‧‧‧反區塊轉換/插值、方塊、反區塊轉換/內插
514‧‧‧合成視窗、方塊、操作視窗
516‧‧‧具有前時間訊框之重疊/相加、方塊、對先前時間訊框執行重疊/相加
522‧‧‧頻率塊產生器、方塊
523‧‧‧列第二頻譜部份、列第二部分、原始第二部份
524‧‧‧訊框建立器
526‧‧‧調整器
527‧‧‧校正增益因子
528‧‧‧增益因子計算器
603‧‧‧頻譜預測殘留值、頻譜偵測殘留值、殘餘數值
606‧‧‧頻譜逆預測濾波器、頻譜逆向預測濾波器
607‧‧‧濾波資訊、線
612、620‧‧‧頻率塊產生器
614‧‧‧頻譜整形器
616、622‧‧‧頻譜預測濾波器
624‧‧‧頻譜整形操作、方塊
702‧‧‧CMDCT操作、MDCT方塊、時間頻譜轉換器、方塊
704‧‧‧預測濾波器、心理聽覺驅動音頻編碼器、TTS濾波器
706‧‧‧IGF編碼(區段演算法)、方塊、IGF編碼器
708‧‧‧心理聽覺模型
710‧‧‧位元串多工器
712‧‧‧IGF側資訊
714‧‧‧TTS側資訊
720‧‧‧解多工器
724‧‧‧MDCT→MDST、方塊
726‧‧‧IGF解碼器(區段演算法)、方塊
728‧‧‧反TTS
730‧‧‧IDMDCT、方塊、反向複數MDCT
750‧‧‧頻譜產物、頻譜產物部分
802、900‧‧‧音頻解碼器
804‧‧‧參數解碼器
812、814、816、820‧‧‧具有頻率再生之雙聲道解碼器之功能的流程
818、822‧‧‧具有頻率再生之雙聲道解碼器之功能的流程、方塊
824‧‧‧具有頻率再生之雙聲道解碼器之功能的流程、訊號流程
830‧‧‧核心解碼器、來源範圍(核心)解碼器
832、838、840、842‧‧‧方塊
833‧‧‧來源範圍ID
834‧‧‧儲存單元、方塊
835‧‧‧雙聲道ID
836‧‧‧頻率塊產生器、頻率塊再生、頻率塊產生器、方塊
838、9162‧‧‧封包調整器
840‧‧‧參數轉換器
842‧‧‧表現轉換器
844‧‧‧方塊、選擇訊號流
846‧‧‧進一步處理、方塊
860‧‧‧時間頻譜轉換器、頻譜分析器
861‧‧‧控制線
862‧‧‧雙聲道分析器、時間頻譜轉換器、分段頻帶轉換器
864‧‧‧雙聲道分析器
868‧‧‧參數編碼器
870‧‧‧核心編碼器、方塊
872‧‧‧輸出介面
873‧‧‧編碼訊號
901a‧‧‧控制資料
902‧‧‧參數資料
904‧‧‧第一頻譜部份、線
912‧‧‧計算器、方塊
914‧‧‧計算器
916‧‧‧方塊、頻譜封包線調整器
918‧‧‧計算器、方塊、判斷
920‧‧‧重構頻帶
921‧‧‧第一頻譜部份、頻譜部份
922、923‧‧‧頻譜部份、頻帶、方塊、第二頻譜部分、生成再頻帶、頻譜值、頻帶
940‧‧‧反尺寸方塊
941‧‧‧重構頻帶、線
942‧‧‧封包調整器/計算器
942‧‧‧封包調整器/計算器
943‧‧‧能量資訊
1002‧‧‧方塊、時間/頻譜轉換器
1006、1134‧‧‧參數計算器
1008‧‧‧音頻編碼器、編碼器
1012‧‧‧正規化器
1014‧‧‧能量值計算器、能量數值計算器
1016‧‧‧計算能量值給兩個相鄰的頻帶、方塊
1018‧‧‧比較給兩個相鄰頻帶的能量值、方塊
1020‧‧‧生成單一(正規化的)值給兩個頻帶、方塊、控制方塊
1024‧‧‧編碼器位元率控制、編碼的位元控制
1101‧‧‧第一頻譜部份、第一輸入
1102‧‧‧音頻(核心)解碼器、音頻解碼器、方塊
1103‧‧‧參數資訊
1107‧‧‧頻率再生器
1119‧‧‧來源範圍延遲
1120‧‧‧方塊
1121‧‧‧來源範圍ID
1122‧‧‧白化濾波器、白化濾波、方塊
1123‧‧‧開關、白化旗標
1124‧‧‧開關
1126‧‧‧帶通線
1128‧‧‧頻譜封包調整、方塊、頻譜調整方塊
1140‧‧‧相交關聯計算器
1142‧‧‧來源/目標範圍白化、方塊
1144‧‧‧塊選擇器
1146‧‧‧來源塊修剪
1300‧‧‧線、音頻訊號
1302‧‧‧低通濾波器、低通
1304‧‧‧高通濾波器、高通
1306‧‧‧參數擷取/編碼器、參數擷取器/編碼器
1310‧‧‧下取樣器
1320‧‧‧位元串解多工器
1322‧‧‧核心碼器
1324‧‧‧參數解碼器
1325‧‧‧上取樣器
1326‧‧‧濾波器組
1330‧‧‧高頻重構器
E1,E2,E3,E4‧‧‧能量資訊值、能量資訊
SCB1-SCB7‧‧‧尺寸因子頻帶
SF4-SF7‧‧‧尺寸因子
圖1A繪示一種用於編碼音頻訊號的裝置。
圖1B繪示一種與圖1A之編碼器匹配的解碼器以解碼一被編碼的音頻 訊號。
圖2A繪示一種解碼器之較佳的實施例。
圖2B繪示一種編碼器之較佳的實施例。
圖3A繪示一種藉由圖1B之頻譜域解碼器的示意表現。
圖3B繪示用於尺寸因子頻帶之尺寸因子和用於重構頻帶的能量以及用於噪音填充頻帶之噪音填充資訊之間關係的指示表。
圖4A繪示用於將頻譜部份之選擇應用於第一和第二集合之頻譜部份中之頻譜域編碼器的功能。
圖4B繪示一種圖4A之功能的實施例。
圖5A繪示一種MDCT編碼器的功能。
圖5B繪示一種具有MDCT技術之解碼器的功能。
圖5C繪示一種頻率再生器的實施例。
圖6A繪示一種具有時域噪音整形/時域塊整形功能的音頻編碼器。
圖6B繪示一種具有時域噪音整形/時域塊整形技術的解碼器。
圖6C繪示另一種具有不同頻譜預測濾波器和頻譜整形器等級之時域噪音整形/時域塊整形技術的功能方塊圖。
圖7A繪示一種時域塊整形功能的實施例。
圖7B繪示一種與圖7A之編碼器實施例匹配的解碼器實施例。
圖7C繪示一種沒有TTS之原始訊號和延展訊號的頻譜圖。
圖7D繪示一種對應智慧間隙填充頻率和時域塊整形能量之間的頻率表現。
圖7E繪示一種具有TTS之原始訊號和延展訊號的頻譜圖。
圖8A繪示一種具有頻率再生的雙聲道解碼器。
圖8B繪示一種表現與來源/目標範圍不同組合的表格。
圖8C繪示一種具有圖8A之頻率再生之雙聲道解碼器之功能的流程圖。
圖8D繪示一種圖8A之解碼器更詳細的實施例。
圖8E繪示一種用於要被圖8A之解碼器解碼的雙聲道處理之編碼器的實施例。
圖9A繪示一種具有使用能量值給在聲頻率範圍之頻率再生技術的解 碼器。
圖9B繪示一種圖9A之頻率再生器之更詳細的實施例。
圖9C繪示一種圖9B之功能的示意。
圖9D繪示另一種圖9A之解碼器的實施例。
圖10A繪示一種與圖9A之解碼器匹配的編碼器之方塊圖。
圖10B繪示一種用以描繪圖10A之參數計算器之額外功能的方塊圖。
圖10C繪示一種用以描繪圖10A之參數計算器之額外功能的方塊圖。
圖10D繪示一種用以描繪圖10A之參數計算器之額外功能的方塊圖。
圖11A繪示另一種用於解碼器中之頻譜塊填充操作之具有特定來源範圍辨識碼的解碼器。
圖11B繪示圖11A之頻率再生器的額外的功能。
圖11C繪示一種用於與圖11A中之解碼器合作的編碼器。
圖11D繪示一種圖11C之參數計算器之實施例的方塊圖。
圖12A和圖12B繪示用來描繪來源範圍和目標範圍的頻率示意圖。
圖12C繪示一種兩訊號之關聯例子的規劃示意圖。
圖13A繪示一種習知具有頻寬延展的編碼器。
圖13B繪示一種習知具有頻寬延展的解碼器。
圖1A繪示一種用於編碼音頻訊號99的裝置。音頻訊號99係輸入至時間頻譜轉換器100,用以將具有取樣率的音頻訊號轉換成頻譜101表示,並且時間頻譜轉換器100輸出。頻譜101係被輸入至頻譜分析器102,以用來分析頻譜101。頻譜分析器102是用來決定第一頻譜部份之第一集合103是否被編碼具有一第一頻譜解析度,並且不同的第二頻譜部份之第二集合105是否被編碼具有一第二頻譜解析度。第二頻譜解析度係小於第一頻譜解析度。第二頻譜部份之第二集合105輸入至參數計算器或參數編碼器104,以用來計算具有第二頻譜解析度的頻譜封包資訊。此外,一頻譜域音頻編碼器106被提供來生成具有第一頻譜解析度的第一頻譜部份之第一集合103的第一編碼表現107。另外,參數計算器/參數編碼器104用 來生成第二頻譜部份之第二集合105的第二編碼表現109。第一編碼表現107和第二編碼表現109被輸入至位元串多工器或位元串產生器108,並且功能方塊108最後會輸出編碼的音頻訊號,以傳輸並儲存在一儲存裝置。
一般來說,第一頻譜部份,像是圖3A的306,會被雙第二頻譜部份,像是307a和307b所環繞。此非HE ACC的例子,其中核心編碼器頻率範圍被頻帶限制。
圖1B繪示一種與圖1A之編碼器匹配的解碼器。第一編碼表現107被輸入至頻譜域音頻解碼器112,以生成第一頻譜部份之第一集合的第一解碼表現,而此解碼表現具有一第一頻譜解析度。此外,第二編碼表現109被輸入至參數解碼器114,以生成第二頻譜部份之第二集合的第二解碼表現,其具有一第二頻譜解析度,且此第二頻譜解析度係低於第一頻譜解析度。
解碼器還包括一頻率再生器116,係利用第一頻譜部份而再生一重構的第二頻譜部份,其具有第一頻譜解析度。頻率再生器116執行塊填充操作,也就是使用第一集合之第一頻譜的塊或部份,並且複製第一頻譜部份之第一集合至重構範圍或重構頻帶,而重構範圍或重構頻帶具有第二頻譜部份,且一般會執行頻譜封包整形或其他的操作,作為藉由在參數解碼器114所輸出之第二表現的指示,意即藉著使用第二頻譜部份之第二集合上的資訊。當在線117上之頻率再生器116的輸出有指示時,解碼的第一頻譜部份之第一集合和重構的第二頻譜部份之第二集合會輸入至頻譜時間轉換器118,其用來將第一編碼表現和重構的第二頻譜部份轉換為時間表現119,而此時間表現119具有一特定的高採樣率。
圖2B繪示一種圖1A之編碼器的實施例。音頻訊號99係輸入至對應於圖1A之時間頻譜轉換器100的分析濾波器組220。接著,TNS方塊222中會執行時域噪音整形操作。因此,對應於圖2B之區塊音調遮罩226之圖1A的頻譜分析器102的輸入,在沒有進行時域噪音整形操作/時域塊整形操作時可以是全頻譜值,或是在如圖2B中所繪示的TNS操作進行時則可以是頻譜殘餘值。對於雙聲道訊號或多聲道訊號而言,可以額外進行聯合聲道編碼228,以使圖1A的頻譜域音頻編碼器106可以包括聯合聲道 編碼方塊228。此外,本發明還提供用來執行非損壞性資料壓縮的熵編碼器232,其也是頻譜域音頻編碼器106的一部份。
頻譜分析/音調遮罩226將TNS方塊222的輸出分離成核心頻帶、以及音調成份和殘餘成份,分別對應圖1A的第一頻譜部份之第一集合103和第二頻譜部份之第二集合105。方塊224被指示當作IGF參數擷取編碼而對應圖1A的參數編碼器104,以及被指示作為位元串多工器230而對應圖1A的位元串多工器108。
較佳地,分析濾波器組222係以變化離散餘弦轉換(MDCT)濾波器組來實現,並且MDCT係被使用來以如同頻率分析工具的變化離散餘弦轉換動作而將音頻訊號99轉換到時間-頻率域。
頻譜分析器226較佳是應用一音調遮罩。此音調遮罩估計階段是用來將訊號中的音調成份從類噪音成份分離出來。這就允許核心編碼器228將所有音調成份進行編碼而帶有心理聽覺模型。
音調遮罩估計階段可以以數個不同方式來實施,並且較佳是以類似於正弦軌跡估計階段的功能來實施,其被使用在用於語音/音頻編碼[8,9]的正弦和噪音模型中,或是[10]中所敘述的HILN模型基礎音頻編碼器。較佳地,係使用容易實現而不需維持生滅軌跡(birth-death trajectroies)的一實施例,但是也可以一起使用任何其他的音調或噪音偵測器。
IGF模組會計算存在於來源區域和目標區域之間的相似度。目標區域會藉由來自於來源區域的頻譜來表現。來源和目標區域之間的相似度量測係使用交越關聯(cross-correlation)接近來完成。目標區域係被分離出nTar非重疊頻率塊。對於在目標區域中的各塊(tile)來說,nSrc來源塊會從固定的起始頻率塊而被創造出來。這些來源塊係以0到1之間的因子而重疊,其中0是指0%的重疊,而1則是指100%的重疊。每一這些來源塊與在不同延遲上的目標塊相關聯,以找尋與目標塊最匹配的來源塊。最佳匹配塊數被儲存在tileNum[idx_tar]中、與目標最佳相關聯的延遲係被儲存於xcorr_lag[idx_tar][idx_src]中,以及關聯的符號則被儲存於xcorr_sign[idx_tar][idx_src]中。若是關聯為高負數,則在解碼器的塊填充處理之前來源塊區要先乘以-1。IGF模組也會注意在頻譜中非覆寫的音調成份, 因為音調成份係使用音調遮罩來保存。一分段頻帶能量參數是用來儲存來源範圍的能量,其使我們可以準確地重構頻譜。
該方法具有較傳統的SBR[1]來說具有特定的優點在於,在該方法中,當僅有正弦之間的間隙被來自於來源區域之最佳匹配「整形的噪音」填充時,多音調訊號的諧波柵可以藉由核心編碼器而被保存。此系統相比於精確頻譜取代(Accurate Spectral Replacement,簡稱ASR)[2-4]來說還具有其它的優點,就是不需用來在解碼端創造訊號之重要部份的訊號合成階段。取而帶之的,則是由核心編碼器來接管此任務,以保存頻譜的重要部份。本發明之系統的另一優點,則是提供了延續擴展性的特點。僅使用tileNum[idx_tar]和xcorr_lag=0給每一塊(title)被稱作總粒度匹配,並且其可以用於低位元率當使用可變的xcorr_lag給每一塊,以使我們可以比較好的匹配目標和來源頻譜。
另外,塊選擇穩定化技術被提出用來移除頻域的問題,像是顫音和音樂噪音。
在立體聲聲道對的例子中,可以應用一附加的聯合立體聲處理。這是必須的,因為對於特定的目的區域來說,訊號可能高度地與移動聲源相關。若是被選作此特別的區域的來源區域沒有好的相關性,雖然能量與目的區域相匹配,空間影像會因為非相關聯的來源區域而受損害。編碼器分析各目的區域能量帶,一般會進行頻譜值的交越關聯,並且若是頻譜值超過特定的臨界值,則設定用於此能量帶的聯合旗標。在解碼器中,若是此聯合立體聲旗標沒有被設定,則左和右聲道能量帶將會被個別地進行處理。倘若聯合立體聲旗標被設定,則能量和段(patch)會共同在聯合立體聲域中被執行。用於IGF區域的聯合立體聲資訊與用於核心編碼器的聯合立體聲資訊在訊號上相似,而這些聯合立體聲資訊在預測的例子中包含一旗標,若是預測的方向是來自於向下混合,則該旗標會指示殘留,反之亦然。
能量可以從在L/R域中傳送的能量而進行計算。
midNrg[k]=leftNrg[k]+rightNrg[k];sideNrg[k]=leftNrg[k]-rightNrg[k]; 其中k係轉換域中的頻率索引。
另一解決方式是在聯合立體聲域中直接去計算並且傳送給頻帶,在此聯合立體聲係啟動,因此在解碼側不需要額外的能量轉換。
來源塊一直是依據中/側矩陣而被創造:midTile[k]=0.5.(leftTile[k]+rightTile[k])
sideTile[k]=0.5.(leftTile[k]-rightTile[k])
能量調整:midTile[k]=midTile[k]* midNrg[k];sideTile[k]=sideTile[k]* sideNrg[k];聯合立體聲->左右轉換:若是沒有額外的預測參數被編碼:leftTile[k]=midTile[k]+sideTile[k]
rightTile[k]=midTile[k]-sideTile[k]
若是額外的預測參數被編碼,並且若是訊號的方向是從中到側:midTile 1[k]=midTile[k]-prediction Coeffside Tile[k]
leftTile[k]=midTile 1[k]-sideTile[k]
rightTile[k]=midTile 1[k]+sideTile[k]
若是訊號的方向是從側到中: midTile 1[k]=midTile[k]-prediction CoeffsideTile[k]
leftTile[k]=midTile 1[k]-sideTile[k]
rightTile[k]=midTile 1[k]+sideTile[k]
此處理確保來自於用來再生高相關性的目的區域和移動區域的塊(tile),所獲得的左和右聲道仍舊表現出一關聯性,即便來源區域係非相關,並同時保留立體影像給此區域。
換句話說,在位元串中,聯合立體聲旗標被傳送來指示左/右或中/側可以被使用,如同用於生成聯合立體編碼的例子。在解碼器中,首先,核心訊號在藉由用於核心頻帶之聯合立體聲旗標發出指示時進行編碼。接著,核心訊號被存在左/右和中/側表現中。對於IGF塊填充來說,來源塊表現在藉著用於IGF頻帶之聯合立體聲資訊發出指示時會被選擇,以符合目標塊表現。
時域噪音整形(TNS)係一標準技術,並且是AAC之部分[11-13]。TNS可以被考慮作為頻譜編碼器之基礎策略的延展,其可以插入一操作在濾波器組和量化階段之間插入一操作處理步驟。TNS模組主要的任務,係將在似穿透訊號之時域遮罩區域中所產生的量化噪音隱藏起來,並且因此引起更多有效能的編碼策略。首先,TNS使用「向前預測(forward prediction)」在轉換域,例如MDCT內計算預測係數的集合。接著,這些係數用於將訊號的時域封包平坦化。就如量化影響TNS濾波的頻譜,量化噪音也會暫時被平坦化。藉由在解碼側應用反TNS濾波,量化噪音會依據TNS濾波的時域封包而被整形,並且因此量化噪音就會短暫的取得遮罩。
IGF是基於一MDCT表現。對於高效的編碼而言,較佳必須使用約20ms的長區塊。若是在此長區塊中的訊號包含了瞬間狀態,則發生於IGF頻譜帶中就會因為塊填充而發生可聽到的前或後回聲。圖7C繪示一般在因為IGF之暫態起始前的前回聲效應。在左側係顯示原始訊號的頻譜圖,而右側則顯示沒有TNS濾波之頻寬延展訊號的頻譜圖。
此前回聲效應會藉由使用在IGF環境中的TNS濾波而被減少。在此,當解碼器中在TNS殘留訊號上執行頻譜再生時,TNS會被用來 當作時域塊整形工具。編碼側常常使用全頻譜來計算或應用所需要的TTS預測常數。TNS/TTS起始和停止頻率不受到IGF之IGF起始頻率f IGFstart 的影響。與傳統的TNS相比,TTS停止頻率會被增加到IGF工具的停止頻率,其高於起始頻率f IGFstart 。在解碼側,TNS/TTS參數會被應用在全頻譜增益上,也就是核心頻譜加上再生頻率,再加上從音調地圖(請見圖7E)音調成份。TTS的應用必須要形成再生頻譜的時域封包,以與原始訊號增益的封包匹配。所以,表現出來的前回聲都會被減少。另外,在低於起始頻率f IGFstart 之訊號中的量化噪音仍舊會被整形而當作TNS使用。
在傳統的解碼器中,音頻訊號上的頻譜分段會毀損在分段邊界的的頻譜關聯性,並且進而破壞音頻訊號的時域封包而導致失真。因此,在殘留訊號上執行IGF塊填充之另外的好處,就是在整形濾波的應用之後,塊邊界可以無縫地彼此相關聯,使得訊號中有更多可信靠的時域複製。
在本發明的編碼器中,除了用於音調成分之外之高於IGF起始頻率的任何訊號,並不會有經過TNS/TTS濾波、音調遮罩處理和IGF參數計算後的頻譜。而此稀疏的頻譜現在是由核心編碼器係使用運算編碼(arithmetic coding)和預測編碼(predictive coding)的原則來進行編碼。這些被編碼的成份係隨著發出訊號的位元而形成音頻的位元串。
圖2A繪示對應之解碼器的實施例。圖2A中的位元串係對應於編碼之音頻訊號,並被輸入至解多工器/編碼器,其連接至與圖1B相關的功能方塊112和114。位元串解多工器將輸入的音頻訊號分離成圖1B中的第一編碼表現107和圖1B中的第二編碼表現109。第一編碼表現107的第一頻譜部份之第一集合會被輸入至聯合聲道解碼器204,其對應於圖1B的頻譜域音頻解碼器112。第二編碼表現109則被輸入至參數解碼器114(圖2A中未繪示),並接著被輸入至IGF方塊202,其對應於圖1B的頻率再生器116。頻率再生器116所需要的第一頻譜部份之第一集合係透過線203而被輸入至IGF方塊202。接續聯合聲道解碼器204,音調遮罩方塊206會應用特定的核新編碼,以致於音調遮罩方塊206的輸出會對應頻譜域音頻解碼器112的輸出。接著,藉著結合器208的結合動作會被執行,就是建立在結合器208之輸出的訊框現在具有全範圍頻譜,但是仍舊在TNS/TTS濾波 域中。接著,在方塊210中,會使用經由線109所提供的TNS/TTS濾波資訊,而執行反TNS/TTS操作,也就是由頻譜域音頻編碼器106所生成的(例如是直接生成的)TTS側資訊,較佳會包含第一編碼表現。在方塊210的輸出,直到最大頻率的一完整頻譜會被提供,其係全範圍頻率,並藉由原始輸入訊號的取樣率所定義。接著,在合成濾波器組212中,會執行頻譜/時間轉換,最後就能得到音頻輸出訊號。
圖3A繪示一種頻譜的示意表現。頻譜會被細分為尺寸因子頻帶SCB,在此有七個尺寸因子頻帶SCB1到SCB7,例如圖3A所繪示。尺寸因子頻帶可以是AAC尺寸因子頻帶,其是由AAC標準所制定,並且具有增加帶寬至上頻率,就如圖3A所繪示。較佳的實施例是執行並非來自於頻譜之非常開始的智慧間隙填充,也就是在低頻率,但是是在309所繪示之IGF起始頻率啟動IGF操作。因此,核心頻率頻帶會從最低的頻率延展到IGF起始頻率。在IGF起始頻率之上,頻譜分析會應用於從藉由第二頻譜部份之第二集合所表現的低解析度部份,分離出高解析度頻譜部份304、305、306、307。圖3A繪示一種頻譜,其較佳是被輸入至頻譜域音頻編碼器106或是聯合聲道編碼228,也就是在全範圍中的核心編碼操作,但是編碼相當大數量的零頻譜值,也就是這些零頻譜值被量化成零,或是在量化或接續量化之前就先設定為零。無論如何,核心編碼器係於全範圍中操作,也就是若是頻譜如所繪示的,意即核心解碼器並不必須查覺任何的智慧間隙填充,或是具有較低頻譜解析度的第二頻譜部份之第二集合的解碼。
較佳地,當第二解析度或低解析度藉由例如僅計算每個尺寸因子頻帶中單個頻譜值(其中尺寸因子頻帶含蓋數個頻率線)來定義,則高解析度就會藉由像是MDCT線之頻譜線的分段線編碼來定義。因此,與其頻譜解析度相關的第二低解析度,會遠低於藉由一般由像是AAC或USAC核心編碼器之核心編碼器所應用的分段線編碼所定義的第一或高解析度。
圖3B繪示考慮尺寸因子或能量計算的狀況。因為編碼器係核心編碼器,並且在此可以是但並非必須是在個頻譜中之第一集合之頻譜部份的成份,核心編碼器計算一尺寸因子給各頻帶,不僅在IGF起始頻率309之下的核心範圍,並且在IGF起始頻率之上直到最大頻率f IGFstop ,其小 於或等於取樣頻率的一半,即fs/2。因此,圖3A之被編碼的聲調部份302、304、305、306、307,以及與此實施例共同的尺寸因子SCB1到SCB7係對應高解析度頻譜資料。低解析度頻譜資料是從IGF起始頻率開始被計算,並且對應於能量資訊值E1,E2,E3,E4,其共同與尺寸因子SF4到SF7被傳送。
特別地,當核心編碼器在低位元率的條件下時,在核心頻帶中額外的噪音填充操作,也就是低於IGF起始頻率的頻率中,亦即在尺寸因子頻帶SCB1-SCB7中就會被執行。在噪音填充中,存在了已經被量化為零的數個相鄰的頻譜線。在解碼側,這些被量化為零的頻譜值會被重新合成,並且被重新合成的頻譜值的強度係使用像是圖3B中308所繪示之NF2的噪音填充能量來進行調整。噪音填充能量可以用絕對值表示,或是相對值表示,特別是與如同在USAC中對應至被量化為零之頻譜值之集合的能量之尺寸因子有關。這些噪音填充頻譜線可以被視作第三頻譜部份之第三集合,其由直接噪音填充合成所再生,而此直接噪音填充合成不具有任何仰賴使用來自於其他頻率之頻率塊之頻率再生的IGF操作,以使用來自於來源區域和能量資訊E1,E2,E3,E4的頻譜值來重構頻率塊。
較佳地,能量資訊會被計算而用於頻帶,以使頻帶能夠符合尺寸因子頻帶。在其它實施例中,會應用一能量資訊值組,以致於例如對於尺寸因子頻帶4和5來說,僅有單個能量資訊值會被傳送,但是即便在這些實施例,被分組重構頻帶之邊界仍舊符合尺寸因子頻帶的邊界。若是應用不同的頻帶分割,則接著可以應用特定重新計算或合成計算,並且會依據特定的實施方式而變得有意義。
較佳地,圖1A的頻譜域音頻編碼器106係一心理聽覺(psycho-acoustically)所驅動的編碼器,就如圖4A所繪示。一般來說,就如MPEG2/4 AAC標準或MPEG1/2,層3標準中所繪示的例子,要被編碼的音頻訊號在被轉換為頻譜範圍後(圖4A中的401),會被發送到尺寸因子計算器400。尺寸因子計算器400由心理聽覺模型所控制而額外地接收要被量化的音頻訊號,或是接收像是在MPEG1/2,層3或MPEG AAC標準中之音頻訊號的複合頻譜表現。對於各尺寸因子頻帶來說,心理聽覺模型計算一 尺寸因子以表示心理聽覺臨界值。另外,尺寸因子接著會由眾所皆知的內或外迭代迴路(iteration loops)的合作,或是由任何其它是合的編碼程序來進行調整,以便填充特定的位元率條件。接著,在一方面有要被量化的頻譜值,以及在另一方面有經過計算的尺寸因子會被輸入至量化處理器404。在直接的音頻編碼操作中,要被量化的頻普值會依據量化因子而被設定權重,並且被設定權重的頻譜值接著會輸入至固定量化器,其一般具有壓縮功能至高振幅範圍。接著,在量化處理器404的輸出會存在量化指標,其會傳送至熵編碼器中,而熵編碼器一般具有特別且非常有效能的編碼,以用於零量化指標的設定,其用於相鄰頻率值或習知也被稱作零值的「趨向(run)」。
然而,在圖1A的音頻編碼器中,量化處理器一般會接收來自於頻譜分析器的第二頻譜部份。因此,量化處理器404會保證,在量化處理器404的輸出中,如頻譜分析器102所辨識的第二頻譜部份為零,或是具有由編碼器或解碼器所確認的表現,像是零表現(zero representation),其可以非常有效地被編碼,特別是當存在在頻譜中之零值的「趨向(run)」。
圖4B繪示一種量化處理器的實施例。MDCT頻譜值可以被輸入至設定至零方塊410中。接著,在由方塊412中之尺寸因子加權被執行之前,第二頻譜部份已經被設為零。在另外的實施例中,不會提供方塊410,但是會在接續加權方塊412的方塊418協助進行設定為零的操作。在另一實施例中,設定為零的操作也可以在設定為零方塊422來執行,其是接續在量化器方塊420中之量化操作之後。在此實施例中,方塊410和418都不會出現。一般來說,依據特定的實施例而決定提供方塊410、418和422至少其中之一。
接著,方塊422的輸出,可以獲得量化的頻譜,其對應圖3A所繪示的頻譜。此被量化的頻譜接著會被輸入至像是圖2B所繪示的熵編碼器232中,其可以是霍夫曼編碼器或是運算編碼器,像是例如,由USAC標準所定應的。
設定為零方塊410、418和422係彼此輪流地被提供,或是以並排的方式由頻譜分析器424所控制。頻譜分析器424較佳包括任何實施例之眾所皆知的音調偵測器,或是包括任何不同型式的偵測操作,用來將 頻譜分離被編碼具有高解析度的部份,以及被編碼具有低解析度的部份。其它這樣在頻譜分析器中的運算實施例,可以是聲音活動偵測器、噪音偵測器、語音偵測器或任何其它偵測器,係依據頻譜資訊或對於不同頻譜部份之解析度需求上的元資料(metadata)所決定。
圖5A繪示為一種圖1A之時間頻譜轉換器100的較佳實施例,例如在AAC或USAC中的實施例。時間頻譜轉換器100包括一視窗器502,係由暫態偵測器504所控制。當暫態偵測器504偵測到一暫時狀態時,一切換訊號會被送至視窗器502,以從長視窗切換成短視窗。視窗器502接著會計算用於重疊區塊的視窗訊框,在此每一視窗訊框一般具有兩倍的N值,像是2048的值。接著,在區塊轉換器506中的轉換會被執行,並且此區塊轉換器506一般會額外地提供一抽取操作(decimation),以便執行一節合的抽取/轉換操作來獲得具有N值的頻譜訊框,像是MDCT頻譜值。因此,對於長視窗操作,在方塊506之輸入的訊框包括兩倍的N值,像是2048的值並且一頻譜訊框會具有1024的值。然而,當8個短視窗被執行時,就會接著執行切換至短視窗的操作,其中每一短視窗與一長視窗相比具有1/8視窗時間域值,並且每一短視窗與一長視窗相比聚有1/8頻譜值。因此,當此抽取操作與視窗的50%重疊操作結合時,頻譜係時間域之音頻訊號99的一臨界取樣版本。
接下來,請參照圖5B,其繪示一種圖1B之頻率再生器116和頻譜-時間轉換器118,或圖2A方塊208和212之結合操作的特別實施例。在圖5B中,會考慮一特殊的重構頻帶,像是圖3A的尺寸因子頻帶6。此重構頻帶的第一頻譜部份,也就是圖3A的第一頻譜部份係輸入至訊框建立/調整方塊510。此外,給尺寸因子頻帶6之重構的第二頻譜部份也會輸入至訊框建立/調整方塊510。另外,給尺寸因子頻帶6之能量資訊,像是圖3B的E3也會輸入至方塊510。在重構頻帶中之重構的第二頻譜部份已經由頻率塊填充使用來源範圍而產生,並且此重構頻帶接著會對應至目標範圍。現在,會執行訊框的能量調整,以最後獲得完整的重構訊框,其具有N值,例如是在圖2A的結合器208之輸出所獲得。接著,在方塊512中,會執行一反區塊轉換/插值以獲得248時域值給例如方塊512之輸入的124頻 譜值。接著,在方塊514中會執行一合成視窗操作,其再次由像是在編碼音頻訊號中所傳送之側資訊的長視窗/短視窗指標來控制。接著,在方塊516中,會執行一具有前時間訊框之重疊/相加操作。較佳地,MDCT會應用50%重疊,以致於對於每一2N值之新的時間訊框來說,N時間域值最後會被輸出。由於方塊516中之重疊/相加操作所引起從一訊框到下一訊框而提供的臨界取樣和延續交錯,因此50%的重疊是非常理想。
如在圖3A之中之301所繪示的,雜訊填充操作可以額外地被應用在不僅是低於IGF起始頻率,並且還可以是高於IGF起始頻率,像是對於所注意的重見頻帶符合圖3A的尺寸因子頻帶。接著,噪音填充頻譜值可以被輸入至訊框建立/調整方塊510,並且在此方塊中也可以應用噪音填充頻譜值的調整,或是噪音填充頻譜值可以已經使用在被輸入至訊框建立/調整方塊510前的噪音填充能量來進行調整。
較佳地,IGF操作,也就是使用來自於其它部份之頻譜值的頻率塊填充操作,可以被應用在完整的頻譜中。因此,頻譜塊填充操作不僅可以被應用在高於IGF起始頻率的高頻帶中,也可以被應用低頻帶中。此外,沒有頻率塊填充的噪音填充不僅可以在低於IGF起始頻率被應用,並且也可以在高於IGF起始頻率被應用。然而,當將噪音填充操作限制在低於如圖3A中所繪示之IGF起始頻率的頻率範圍,以及當頻率塊填充操作被限制在高於IGF起始頻率的頻率範圍,則已經發現可以獲得高品質和高效能的音頻編碼。
較佳地,具有大於IGF起始頻率之頻率的目標塊(TT)係被限定在全率編碼器之尺寸因子頻帶邊界內。來源塊(ST),可以從其中取得的資訊,也就是對於低於IGF起始頻率的頻率而言,並不會被尺寸因子頻帶邊界所限制。ST的大小應該對應聯合的TT的大小。這是使用以下的例子所繪示。TT[0]具有10MDCT點的長度。這正確地對應兩倍接下來的尺寸因子(如4+6)的長度。接著,與TT[0]相關之所有可能的ST也都具有10點的長度。第二目標塊TT[1]係相鄰於TT[0],並且具有15點的長度(尺寸因子頻帶具有7+8的長度)。接著,對於ST而言,其具有15點的長度,而不是如TT[0]具有10點的長度。
萬一發生了無法找到TT給具有目標塊之長度的ST的例子(例如,當TT的長度大於可用的來源範圍),則就無法計算相關性,並且來源範圍會數次被複製到TT內(這些複製會陸續完成,以便用於第二複製之最低頻率的頻率線會立即在”頻率中”隨著用於第一複製之最高頻率的頻率線),直到目標塊TT完全地被填充。
接著,請參照圖5C,其繪示圖1B之頻率再生器或圖2A之IGF方塊的另一較佳實施例。方塊522係頻率塊產生器522,其不僅接收目標頻帶ID,並且還額外接收來源頻帶ID。例如,在編碼側已經確認,圖3A的尺寸因子頻帶3非常適合重構的尺寸因子頻帶7。因此,來源頻帶ID會是2,而來源頻帶ID則是7。依據此資訊,頻率塊產生器522應用複製、或諧波塊填充操作、或其它填充操作,以生成頻譜部份523的列第二部分。此頻譜部份523的列第二部分的解析度,與包含在第一頻譜部份之第一集合中的解析度相同。
接著,如圖3A之307之重構頻帶的第一頻譜部份會被輸入到訊框建立器524,並且列第二部份523也會被輸入至訊框建立器524。接著,調整器526會使用由增益因子計算器528所計算之重構頻帶來調整重構訊框。然而,重要的是,在訊框中的第一頻譜部份不會受到調整器526的影響,但是只有用於重構訊框的列第二部份會受到調整器526的影響。為此,增益因子計算器528會分析來源頻帶或列第二部份523,並且額外地分析在重構頻譜中的第一頻譜部份,而最終能夠找到校正增益因子527,以使得調整器526所輸出之調整訊框的能量在尺寸因子頻帶7完成時可以具有能量E4
在此狀況中,將本發明的高頻重構準確度與HE-AAC進行比較評估是非常重要的。這可以解釋關於圖3A中的尺寸因子頻帶7。假設習知像是圖13A中所繪示的編碼器可以偵側要被編碼成具有高解析度的頻譜部份307,像是一「遺失諧波」。接著,此頻譜部份的能量可以與用於像是尺寸因子頻帶7之重構頻帶的頻譜封包資訊一起傳送到解碼器。接著,解碼器就可以再造遺失諧波。然而,此頻譜值係在由重構頻率390所指示之頻率之頻帶7的中間,而在此頻譜值的遺失諧波可以被圖13B之習知的 解碼器所重構。因此,本發明可以避免由圖13B之習知的解碼器所引起的頻率錯誤391。
在一實施例中,頻譜分析器也可以被實施來計算第一頻譜部份和弟二頻譜部份之間的相似度,並且對於重構範圍的第二頻譜部份來說,頻譜分析器也可以基於計算出來的相似度,而決定第一頻譜部份盡可能的與第二頻譜部份相匹配。接著,在此可變的來源範圍/目標範圍的實施例中,參數編碼器會額外地引進第二編碼的表現,也就是一匹配資訊,用來指示一匹配的來源範圍給各目標範圍。在解碼側,此資訊接著會被圖5C的頻率塊產生器522所使用,圖5C繪示基於來源頻帶ID和目標頻帶ID而生成列第二部份523。
此外,如圖3A中所繪示,頻率分析器用來分析跳至最大分析頻率的頻譜表現,其僅有小部份在取樣頻率的一半之下,並且較佳是取樣頻率之至少四分之一或是高一點。
如所繪示的,編碼器沒有低取樣而操作,而解碼器則沒有高取樣而操作。換句話說,頻譜域音頻編碼器係生成具有由原始輸入音頻訊號的取樣率所定義之奈奎斯特頻率的頻譜表現。
此外,如圖3A所繪示,頻譜分析器係用來分析頻譜表現,其與間隙填充起始頻率一起開始,並且與最大頻率一起結束,而此最大頻率是藉由包含在頻譜表現中之最大頻率而表現出來,其中從最低頻率延伸到間隙填充起始頻率之上的頻譜部份是屬於頻譜部份之第一集合,並且具有在間隙填充頻率之上之頻率直的另外頻譜部份,像是304、305、306和307,係額外地被包含在頻譜部份之第一集合中。
如前所述,配置有頻譜域音頻解碼器112,以致於藉由在第一解碼之表現中之頻譜值所表現出來的最大頻率,會等於包含在具有取樣率之時間表現中的最大頻率,其中用於在第一頻譜部份之第一集合中之最大頻率的頻譜值為零或不等於零。無論如何,對於在頻譜部份之第一集合中的最大頻率來說,會存在用於尺寸因子頻帶的尺寸因子,並且無論所有在此尺寸因子頻帶中的頻譜值是否為零集合或是不為圖3A和2B所述的狀況,此尺寸因子都會被生成而且被傳輸。
因此,本發明與其它相關的參數技術相比,例如噪音替代和噪音填充(這些技術僅僅用於像是本地訊號內容之噪音的效能表現),具有增加了壓縮效能的優點,本發明允取聲調部份的精確頻率之複製。迄今,沒有任何習知的技術可以不用在低頻帶(LF)和高頻帶(HF)中之固定的a-priory分割,而對藉由頻譜間隙填充之環境訊號內容的高效參數的表現進行定址。
本發明之系統的實施例係改善了習知的技術,並且從而提供了高壓縮效能、沒有或只有小的感知上的困擾以、及即便是低位元率的全音頻頻寬。
一般的系統是由下列所構成
‧全頻帶核心編碼
‧智慧間隙填充(塊填充或噪音填充)
‧在由聲調遮罩選擇之核心中的稀疏聲調部份
‧用於全頻帶之聯合立體聲對編碼,包括塊填充
‧在塊上的TNS
‧在IGF範圍中的頻譜白化
向著更高效能系統的第一步驟,是移除將頻譜資料轉換成不同於核心編碼器之一的一第二轉換域的需求。如大多數的音頻編碼,像是AAC例如使用MDCT當作基本轉換,則在MDCT中進行BWE是有用的。對於BWE系統的第二個需求,是需要保存聲調格,即便是高頻聲調部份也要保存,並且編碼之音頻的品質要高於現存的系統。為了同時考慮上述用於BWE手段的兩個需求,因此提出了稱作智慧間隙填充(IGF)的新系統。圖2B繪示了在編碼側所提出之系統的方塊圖,圖2A則繪示在解碼側的系統。
圖6A依照本發明另一實施例的一種用於解碼一編碼之音頻訊號的裝置。用於解碼的裝置包括一頻譜域音頻解碼器602,用來生成頻譜部份之第一集合的第一解碼表現,並且在頻率再生器604被連接到用來生成重構的第二頻譜部份的頻譜域音頻解碼器602時使用第一頻譜部份之第一集合的一第一頻譜部份。如603所繪示,在第一頻譜部份和第二頻譜部份中的頻譜值係頻譜預測預測殘留值。為了將這些頻譜預測殘留值轉換成全頻譜表現,而提供了頻譜逆預測濾波器606。此逆預測濾波器是使用用於 第一頻率之第一集合和重構的第二頻譜部份的頻譜殘留值而進行在頻率上的逆預測。頻譜逆預測濾波器606係藉由包含在編碼的音頻訊號中之濾波資訊而動作。圖6B繪示圖6A之實施例之更詳細的實施例。頻譜預測殘留值603係輸入至頻率塊產生器612,其生成列頻譜值給重構頻帶或特定的第二頻率部份,並且目前具有像是高解析度第一頻譜表現的列資料會被輸入至頻譜整形器614。頻譜整形器係使用以位元串形式傳送的封包資訊對頻譜整形,並且頻譜的整形資料接著會被頻譜預測濾波器616應用,以使用從編碼器透過位元串傳送到解碼器的濾波資訊607而最後生成全頻譜值的訊框。
在圖6B中,假設在解碼側,透過位元串傳送和透過線607使用的濾波資訊的計算,會接續封包資訊的計算後被執行。因此,換句話說,與圖6B解碼器匹配的編碼器首先會計算頻譜殘留值,並且接著會將封包資訊與頻譜殘留值一起計算,例如圖7A所繪示。然而,在其它實施例中,在解碼器側執行TNS或TTS濾波之前計算封包資訊,對於特定的實施例也是有用的。接著,在方塊624進行頻譜整形之前會應用頻譜預測濾波器622。因此,在應用頻譜整形操作624之前,會生成(全)頻譜值。
較佳地,複數值的TNS濾波器或TTS濾波器會被計算。這繪示於圖7A中。原始的音頻訊號會被輸入至複數MDCT方塊702。接著,在複數域,會執行TTS濾波計算和TTS濾波。接著,在方塊706中,會計算IGF側資訊,並且也會計算其它的操作,像是對於編碼…等的頻譜分析。接著,由方塊706所生成的第一頻譜部份之第一集合會與在708所繪示的心理聽覺模型驅動的編碼器一起被編碼,以獲得在圖7A中X(k)的第一頻譜部份之第一集合指標,並且所有這些資料都會被送至位元串多工器710。
在解碼側,編碼資料會被輸入至解多工器720,以一方面分離IGF側資訊,另一方面則分離TTS側資訊和第一頻譜部份之第一集合的編碼表現。
接著,方塊724被用來計算來自於一或多個實數頻譜的複數頻譜。接著,實數和複數頻譜會一起輸入方塊726,以生成在第二頻譜部份之第二集合中的重構頻率值給重構頻帶。接著,在完整獲得以及塊填充的頻 帶訊框上,會進行反TTS操作以及執行在解碼側之方塊730中的最終反複數MDCT操作。因此,當複數TNS濾波資訊的使用不僅被應用在核心頻帶或分離塊頻帶中,也允許被應用在核心/塊邊界或塊/塊邊界上時,則允許自動產生塊邊界處理,其在最後會重新引起塊之間的頻譜關聯。在塊邊界上的頻譜關聯並非僅由產生頻率塊,以及執行在頻率塊之列資料上的頻譜封包調整所獲得。
圖7C繪示一種原始訊號(左圖面)和不具有TTS之延展訊號的比較。在此可以看到,有強的頻譜產物由750所繪示之上頻率範圍中之擴大的部份所繪示。然而,當在750的相同頻譜部份與圖7C之相關頻譜產物部份750相比時,圖7C的現象並不會在圖7E中發生。
一些實施例或本發明的音頻編碼系統使用可用位元率的主要分享給波形編碼,僅有在編碼器中之訊號的感知地最相關結構,並且導致頻譜間隙在具有大致與原始頻譜相似之訊號的解碼器中所填充。藉由專用來從編碼器傳送至解碼器的側資訊,非常限制的位元預算會被花費在控制參數驅動,也就是所謂的頻譜智慧間隙填充(IGF)。
音頻訊號的儲存或傳輸常常受到位元率非常嚴格的限制。在過去,當僅有非常低的位元率可使用時,編碼器會強迫傳輸的音頻大大地降低頻寬。現今新的音頻編碼器,可以藉由使用像是頻譜頻寬複製(SBR)[1]的頻寬延展(BWE)方法來編碼寬頻帶的訊號。這些演算法仰賴高頻(HF)成份的參數表現-其是從藉由轉換成高頻頻譜區域(區段)和參數驅動後處理之應用的解碼訊號來的波形編碼的低頻(LF)部份所生成。在BWE策略中,在所給被稱為交越頻率上的HF頻區域,通常是在頻譜區段的基礎上。一般而論,HF區域被包含在多重相鄰區段中,並且每一這些區段係源自低於所給的交越頻率之LF頻譜的帶通區域。目前習知的系統藉由複製源自於目標區域之相鄰次頻帶係數之集合,而有效地執行在濾波器組表現中的分段。
若是BWE系統是由濾波器組或時間-頻率轉換域來實現,則只會有有現的可能去控制頻寬延展訊號的時域整形。一般而言,時域粒度是受到跳大小(hop-size)的限制,而跳大小是被用在相鄰的轉換視窗之間。這會引起BWE頻譜範圍中不想要的前或後回音。
從感知音頻編碼,眾所皆知的,音頻訊號之時域封包的整形可以藉由像是時域封包整形(TNS)[14]的頻譜濾波技術重新儲存。然而,習知的TNS濾波是在實數頻譜上的實數濾波。這樣在實數頻譜上的實數濾波會因為失真的原因而被嚴重地削弱,特別若是底層實部轉換是變化離散餘弦轉換(MDCT)。
時域封包塊整形應用在複數頻譜上的複數濾波,像是從例如複數變化離散餘弦轉換(CMDCT)所獲得的。如此一來,就可以避免失真的影響。
時域塊整形是由以下所組成:
‧複數濾波係數估算和在編碼器中之原始訊號上之平坦濾波的應用
‧在惻資訊中之濾波係數的轉換
‧在解碼器中之塊填充重構頻譜上之整形濾波的應用
本發明從音頻轉換編碼延伸了習知的技術,特別是藉由沿頻率方向之線性預測的時域噪音整形(TNS),以用於頻寬延展之狀態中之變動方式的使用。
此外,本發明的頻寬延展演算法是基於智慧間隙填充(IGF),但是是使用交越取樣的複數轉換(CMDCT)當作與IGF標準相反的組態,其仰賴訊號之實數的關鍵取樣MDCT表現。CMDCT可以被看作實部中之MDCT係數的組合和各複數頻譜係數在虛部中的MDCT係數。
雖然上述新的方案是被用於IGF的環境中,然而本發明的處理也可以被使用在與BWE方法的結合組態中,其是基於音頻訊號之濾波器組表現。
在新的環境中,沿頻率方向之線性預測不會當作時域噪音整形來使用,而是作為時域塊整形(TTS)技術。由於塊填充訊號成份是被暫態整形的事實,並且此時域整形是藉由TTS當作由習知感知轉換編碼中之TNS所引起之量化噪音整形相反的組態,因此重新命名就被合理化。
圖7A繪示一種使用IGF和新的TTS手段之BWE編碼器的方塊圖。
因此基礎編碼策略運作如下:
- 計算時域訊號x(n)的CMDCT以取得頻域訊號X(k)
- 計算複數TTS濾波器
- 取得側資訊給BWE,並且移除必須藉由編碼器複製的頻譜資訊
- 應用使用心理聽覺模型(PAM)的量化
- 儲存/傳輸資料,僅傳送實數MDCT係數
圖7B繪示對應的解碼器。此解碼器主要是反轉編碼器所作的步驟。
在此,基礎的解碼策略運作如下:
- 估計從MDCT值來的MDST係數(此處理加上一方塊解碼器延遲),並且將MDCT和MDST係數結合成複數CMDCT係數
- 與其後續的程序一同執行塊填充
- 與傳送的TTS濾波器參數一同應用反TTS濾波
- 計算反CMDCT
另外,需注意的是,若是TTS合成和IGF參數估計係固定地在編碼器中被反轉,則TTS合成和IGF後續處理的順序也可以在解碼器中被反轉。
對於有效的轉換編碼來說,大約20ms之較佳被稱為「長方塊」必須被使用,以達到合理的轉換增益。若是在此長方塊中的訊號包含暫態,則可聽到的前或後回音就會因為塊填充而在重構頻譜頻帶中發生。圖7C繪示典型的前和後回音效應,其會因為IGF而削弱暫態。在圖7C的左側圖,繪示了原始訊號的頻譜圖,而在右側圖則繪示了沒有本發明之TTS濾波的塊填充訊號之頻譜圖。在這個例子中,在核心頻帶和塊填充頻帶之間的IGF起始頻率f IGFstart 或fsplit會被選擇為f s /4。在圖7C的右側圖中,不同的前和後回音係可視的環繞暫態,特別是在複製頻率區域之上頻譜末端的突出部份。
TTS模型的主要遮罩是去限制在暫態周圍鄰近之不想要的訊號成份,並且進而將他們隱藏在時域區域中,其係由人類感知的時域遮罩 效應所管理。因此,所需要的TTS預測係數可以使用在CMDCT域中的「向前預測」而被計算和應用。
在一實施例中,將TTS和IGF整合成一編碼是重要的,以將TTS參數對齊IGF參數,以致於無論是否IGF塊會整個由一TTS濾波器進行濾波(平坦或整形濾波)。因此,所有的TTSstart[..]或TTSstop[..]頻率不會被包含在IGF塊中,而是被對齊各自的f IGF... 頻率。圖7D繪示給三個TTS濾波器之組合的TTS和IGF操作區域的例子。
TTS停止頻率被調整成IGF工具的停止頻率,其高於f IGFstart 。若是TTS使用一個以上的濾波器,則就必須確保兩個TTS濾波器之間的交越頻率必須與IGF分離頻率匹配。此外,一個TTS子濾波器要跑過f IGFstart ,其會引起不想要的反應,像是過整形。
圖7A和圖7B中所敘述的實施例的變形,額外必須關心在編碼器中的IGF能量要被調整正確。特別是在此例子,在TTS和IGF處理的課題中,若是具有不同的預測增益之不同的TTS濾波器被應用於一個IGF塊的來源區域(像是平坦濾波器),以及目標頻譜區域(像是整形濾波器,其不是前述平坦濾波器正確的對應)。在此例子中,兩個被應用之濾波器的預測增益率不會等於其中的任何一個,並且因此藉由此預測增益率的一能量調整必須被應用。
在另一個變形的實施例中,IGF後續處理和TTS的順序可以被反轉。在解碼器中,這表示藉由IGF後續處理的能量調整可以在接續TTS濾波後被計算,並且進而為在合成轉換前的最後處理步驟。因此,無論不同的TTS濾波增益可以被應用在編碼期間的一個塊,最後能量一直都會被正確地被IGF處理所調整。
在解碼器側,TTS濾波器係數會被應用在全頻譜增益上,意即由再生之頻譜延展的核心頻譜。TTS的應用需要組成再生頻譜的時域封包,以與原始訊號增益的封包相匹配。因此,所繪示的前回音會降低。此外,當與傳統的TNS一起使用時,其仍然暫時地對在低於f IGFstart 之訊號中的時間性地量化噪音進行整形。
在傳統的編碼器中,在音頻訊號上的頻譜區段(例如SBR)會 破壞在區段邊界的頻譜關聯性,並且進而以引起分散的形式而破壞音頻訊號的時域封包。另外,直行在殘留訊號上之IGF塊填充的好處係在TTS整行濾波器的應用之後,這些塊邊界會無縫地被相關聯,就導致更多訊號之可信靠的時域再生。
圖7E繪示前述處理之訊號的結果。經過與未濾波的版本進行比較(圖7C,右版面),TTS濾波的訊號顯示可以有效減少不想要的前和後回音(圖7E,右版面)。
此外,如前所討論的,圖7A繪示一種編碼器,其與圖7B的解碼器或與圖6A的解碼器相匹配。基本上,用來編碼音頻訊號的裝置會包括像是702的時間頻譜轉換器,其用來將音頻訊號轉換成頻譜表現。此頻譜表現可以是實數頻譜表現,或是如方塊702所繪示的複數頻譜表現。此外,像是用來執行預測過頻之704的預測濾波器係提供以生成頻譜殘留值,其中此預測濾波器704是由從音頻訊號獲得的預測濾波器資訊所定義,並且輸出至位元串多工器710,就如圖7A中的714所繪示。此外,像是心理聽覺驅動音頻編碼器704的音頻編碼器會被提供。此音頻編碼器是用來編碼頻譜殘留值的第一頻譜部份之第一集合,以獲得編碼的第一頻譜直之第一集合。另外,像是圖7A中之706所繪示的,一參數編碼器會被提供來編碼第二頻譜部份之第二集合。較佳地,第一頻譜部份之第一集合與第二頻譜部份之第二集合相比,會被編碼具有較高頻譜解析度。
最後,如圖7A中所繪示,一輸出介面係被提供來輸出編碼訊號,其包括參數編碼的第二頻譜部份之第二集合、編碼的第一頻譜部份之第一集合、以及濾波器資訊,就如圖7A中在714所繪示的TTS側資訊。
較佳地,預測濾波器704包括濾波器資訊計算器,其會使用頻譜表現的頻譜值來計算濾波器資訊。此外,預測濾波器還會使用用來計算濾波器資訊之頻譜表現的相同頻譜值而計算頻譜殘留值。
較佳地,TTS濾波器704係以習知之音頻編碼器應用符合AAC標準的TNS工具相同的方式而被設置。
接著,在圖8A到圖8E的環境中,會討論其它使用雙聲道編碼的實施例。此外,圖2A和2B之環境中對應構件之敘述的編號會被使 用(聯合聲道編碼228和聯合聲道解碼204)。
圖8A繪示一種用來生成解碼雙聲道訊號的音頻解碼器。此音頻解碼器包括四個用來解碼一編碼之雙聲道訊號的音頻解碼器802以獲得第一頻譜部份之第一集合、附加用來提供參數資料給第二頻譜部份之第二集合的參數解碼器804、以及雙聲道辨識碼,用來辨識第一或第二不同的雙聲道表現給第二頻譜部份。另外,頻率再生器806係提供來依據第一頻譜部份之第一集合的第一頻譜部份、用於第二部份的參數資料、以及用於第二部份之雙聲道辨識碼,而再生第二頻譜部份。圖8B繪示再來源範圍和目標範圍中之雙聲道表現的不同組合。來源範為可以是第一雙聲道表現,而目標範圍也可以是第一雙聲道表現。交替地,來源範圍可以是第一雙聲道表現,而目標範圍則可以是第二雙聲道表現。此外,來源範圍可以是第二雙聲道表現,而目標範圍則可以是第一雙聲道表現,就如圖8B的第三行中所指明的。最後,來源範圍和目標範圍都可以是第二雙聲道表現。在一實施例中,第一雙聲道表現是分離的雙聲道表現,在此雙聲道訊號的雙聲道是個別地表現。接著,地二雙聲道表現係聯合地被表現,也就是在此一需要另外的處理或表現轉換,以在需要輸出到對應的揚聲器時會重新計算一分離的雙聲道表現。
在一實施例中,第一雙聲道表現可以是左/右(L/R)表現,而第二雙聲道表現則可以是聯合立體聲表現。然而,其它雙聲道表現可以與左/右、M/S或立體聲預測分開,而可以被應用和被使用於本發明。
圖8C繪示一種用於圖8A之音頻編碼器所執行之操作的流程圖。在步驟812中,音頻編碼器802執行來源範圍的解碼。來源範圍可以包括對應於圖3A中的尺寸因子頻帶SCB1到SCB3。此外,在此可以有用於每一尺寸因子頻帶的雙聲道辨識碼,其中尺寸因子頻帶1可以例如是第一表現(像是L/R),而第三尺寸因子頻帶可以是第二雙聲道表現,像是M/S或是預測低混合/殘留。因此,步驟812可以是在用於不同頻帶之不同表現的結果。接著,在步驟814中,頻率再生器806用來選擇來源範圍給頻率再生。在步驟816中,頻率再生器806接著會檢查來源範圍的表現,並且在方塊818中,頻率再生器806會將來源範圍的雙聲道表現與目標範圍的雙聲道比較進行比較。若是兩個表現都是相同的,則頻率再生器806會提 供一分離頻率再生給雙聲道訊號的每個聲道。然而,當在方塊818中被檢查的表現是不相同的,則會選擇訊號流程824,並且方塊822會計算從來自於來源範圍的其它雙聲道表現,並且使用此計算其它雙聲道表現給目標範圍的再生。因此,當圖8A之解碼器具有第二雙聲道辨識碼,其使用為第一雙聲道表現的來源區域,則再生一目標範為指標是可能的。自然,本發明另外還允許再生一目標範圍,其使用具有相同雙聲道辨識碼的來源範圍。並且另外,本發明也允許再生具有指示一聯合雙聲道表現之雙聲道辨識碼的目標範圍,並且接著將此表現轉換成分離的聲道表現,其被需要儲存或傳送給用於雙聲道訊號之對應的放大揚聲器。
要強調的是,雙聲道表現的雙聲道可以是雙立體聲道,像是左聲道和右聲道。然而,此訊號可以是多生到訊號,其具有例如五聲道和一次低音聲道,或甚至具有更多的聲道。接著,可以進行如前述所討論在圖8A至圖8E之狀況中的分段對的雙聲道處理,在此的聲道對可以例如是左聲道和右聲道、左環繞聲道和右環繞聲道、以及中央聲道和LFE(次低音)聲道。任何其它成對的聲道可以被用於表現,例如六聲道可以由三個雙聲道處理程序。
圖8D繪示本發明一種對應圖8A之解碼器的方塊圖。一來源範圍或核心解碼器830可以對應至音頻解碼器802。其它方塊832、834、836、838、840、842和844可以是圖8A之頻率再生器806的部份。特別的是,方塊832是一用於轉換來源範圍表現至個別頻帶中的表現轉換器,如此一來,在方塊832的輸出,來源範圍的完整集合一方面是第一表現,並且在另一方面,當前是第二雙聲道表現。這兩個完整的來源範圍表現可以被儲存在儲存單元834中給來源範圍的兩個表現。
接著,方塊836應用頻率塊再生,其使用如輸入中的來源範圍ID,並且另外使用如輸入內的雙聲道ID給目標範圍。依據給目標範圍的雙聲道ID,頻率塊再生器存取儲存單元834,並且接收來源範圍的雙聲道表現,其與輸入至在835的頻率塊再生器之用於目標範圍的雙聲道ID相匹配。因此,當給目標範圍的雙聲道ID指示聯合立體聲處理時,頻率塊再生器836存取儲存單元834,以獲得來源範圍的聯合例體聲表現,其由來源範 圍ID 833所指示。
頻率塊產生器836執行此操作給每個目標範圍,並且頻率塊產生器的輸出係由目前的雙聲道辨識碼所辨識的聲道表現的每個聲道。因此,封包調整器838會進行封包調整。封包調整是在由雙聲道辨識碼所辨識的雙聲道域中進行。為此,就需要封包調整參數,並且這些參數都會在與前述相同的雙聲道表現中從編碼器被傳送到解碼器。當要由封包調整器處理之在目標範圍內的雙聲道辨識碼,具有用來指示不同雙聲道表現與給此目標範圍的封包資料相比的雙聲道辨識碼時,參數轉換器840會將封包參數轉換成所需的雙聲道表現。當例如用於一頻帶的雙聲道辨識碼指示聯合立體聲編碼時,並且當用於此目標範圍的參數已經如L/R封包參數傳輸時,參數轉換器從如前述的L/R封包參數計算聯合立體聲封包參數,以致於正確的參數表現會被用於目標範圍的頻譜封包調整。
在其它較佳實施例中,當聯合立體聲被使用在目標範圍中時,封包參數已經如聯合立體聲參數被傳送。
若是假設給封包調整器838的輸入是具有不同雙聲道表現之目標範圍的組合時,封包調整器838的輸出也是不同雙聲道表現之目標範圍的組合。若是目標範圍具有像是M/S的聯合表現時,則表現轉換器842會處理此目標範圍,以用來計算儲存或傳送至放大揚聲器所需的分離表現。然而,若是目標範圍已經具有分離的表現時,就會選擇訊號流844並且略過表現轉換器842。在方塊842的輸出,會獲得係分離雙聲道表現的雙聲道頻譜表現,其可以在方塊846指示時被進一步處理,在此,進一步處理可以例如是頻率/時間轉換或是其它所需的處理。
較佳地,第二頻譜部份對應頻率帶,並且雙聲道辨識碼被提供當作一旗標的陣列,其對應至圖8B的表格,在此給每個頻率帶的一旗標係存在。接著,參數解碼器被用來檢查旗標是否被設定,並且依據旗標來控制頻率再生器1106,以使用第一頻譜部份的第一表現或第二表現。
在一實施例中,只有重構範圍具有給不同重構頻帶的雙聲道辨識碼,而此重構範圍是開始於圖3A的IGF起始頻率309。在另一實施例中,也會被應用於低於IGF起始頻率309的頻率範圍內。
在另一實施例中,來源頻帶辨識和目標頻帶辨識可以隨著相似度分析而決定。然而,當有一個固定的來源範圍到目標範圍的組合時,也可以應用本發明的雙聲道處理。來源範圍可以被用來重造與頻率相關的較寬的目標範圍,其係藉由諧波頻率塊填充操作或複製頻率塊填充操作,並且使用兩個或以上的頻率塊填充操作,其與用於習知高效能AAC處理之多區段處理相似。
圖8E繪示一種用於編碼雙聲道音頻訊號的音頻編碼器。此編碼器包括時間頻譜轉換器860,用來將雙聲道音頻訊號轉換成頻譜表現。此外,頻譜分析器866用來將雙聲道音頻聲道音頻訊號頻譜表現。此外,頻譜分析器866被提供來執行一分析,以判斷哪一個頻譜部份可以被編碼具有高解析度,意即找到第一頻譜部份之第一集合,並且另外找到第二頻譜之第二集合。
此外,雙聲道分析器864被提供來分析第二頻譜部份之第二集合,以判斷雙聲道辨識碼來辨識第一雙聲道表現或第二雙聲道表現。
依據雙聲道分析器的結果,在第二頻譜表現中的頻帶係參數化地使用第一雙聲道表現或是第二雙聲道表現,並且是由參數編碼器868所執行。核心頻率範圍,也就是低於圖3A之IGF起始頻率309的頻率頻帶,可以被核心編碼器870所編碼。方塊868和870的結果會輸入至輸出介面872中。如所指示的,雙聲道分析器提供一雙聲道辨識碼給每個高於IGF起始頻率的頻帶或是給整個頻率範圍,並且此雙聲道辨識碼也會被送至輸出介面872,以致於此資料也被包含由輸出介面872輸出的編碼訊號873內。
另外,音頻編碼器較佳還包括分段頻帶轉換器862。依據雙聲道分析器862的決定,時間頻譜轉換器862的輸出訊號會被轉換成由雙聲道分析器所指定的表現,並且特別是由雙聲道ID 835所指定。因此,分段頻帶轉換器862的輸出會是頻率頻帶的集合,在此每個頻率頻帶可以是第一雙聲道表現或是第二不同的雙聲道表現。當本發明被應用在全頻帶,也就是當來源範圍和重構範圍都被分段頻帶轉換器所處理時,頻譜分析器860可以分析此表現。然而,換過來說,當控制線861指示時,頻譜分析器860也可以分析由時間頻譜轉換器所輸出的訊號。因此,頻譜分析器860可以 在分段頻帶轉換器862的輸出上,或是在已經被分段頻帶轉換器862處理前之時間頻譜轉換器860的輸出上應用較佳的聲調分析。此外,頻譜分析器可以應用最佳匹配來源範圍的辨識碼給在分段頻帶轉換器862的結果上,或是在時間頻譜轉換器860的結果上之特定的目標範圍。
接下來,圖9A到圖9D繪示一種能量資訊值較佳的運算,而其中的標號已經在圖3A和圖3B中的敘述中討論過了。
習知的音頻編碼器採用不同的技術續降低大量的資料,其代表所給的音頻訊號。像是USAC[1]的音頻編碼器係採用如MDCT之時間至頻率轉換,已取得所給音頻訊號的頻譜表現。這些MDCT係數是利用人類聽覺系統的心理聽覺觀點而被量化。如果可用的位元率下降,則品質就會粗糙而導致大量零的頻譜值,其會在解碼側引起聽得到的東西。為了改善知覺的品質,習知的解碼器會用隨機噪音來填充這些零的頻譜部份。IGF方法則是從保留的非零訊號獲得了許多塊(tile),以填充這些在頻譜中的間隙。這對於解碼訊號的知覺品質是關鍵的,其保留了頻譜係數的頻譜封包和能量分佈。呈現在此的能量調整方法係使用傳輸側資訊,以重構音頻訊號的頻譜MDCT封包。
在eSBR[15]中的音頻訊號係至少由兩個的因子而被低取樣,並且頻譜的高頻部份會被完全地歸零。此被刪除的部份會被在解碼側之eSBR的參數技術取代。eSBR意味著另外轉換,像是QMF的使用,其被用來取代空的高頻部份,並且重新取樣音頻訊號[17]。這就增加了對於音頻解碼器的計算複雜度和記憶空間消耗。
USAC編碼器[15]提供了用隨機噪音填充頻譜洞(零的頻譜線)的可能,但是具有以下的缺點:隨機噪音不能保留時域訊號的瞬時精細結構,並且不能保留聲調訊號的諧波結構。
在解碼側上eSBR操作的區域會完全被編碼器刪除[1]。因此,eSBR在高頻區域中容易將聲調線刪除,或是使原始訊號的諧波架構失真。就如eSBR的QMF頻率解析度非常低,並且正弦成份的重返僅有可能在底層濾波器組之粗糙的解析度中,eSBR中之聲調成份的再生在複製的頻率範圍中具有非常低的精確度。
eSBR使用技術去調整區段區域的能量,就是頻譜封包調整[1]。此技術使用在QMF頻率時間格上傳輸的能量值,以重新對頻譜封包整形。此習知的技術不能控制部份地刪除頻譜,並且因為高時間解析度而容易需要相關大量的位元,以傳送適當的能量值,或是採用粗糙品質至能量值。
當IGF的方法使用傳統MDCT傳輸時,不需要額外的傳輸,而此MDCT傳輸如[15]中的敘述所計算。
在此的能量調整方法使用由編碼器再生的側資訊,以重構音頻訊號的頻譜封包。此側資訊可以由解碼器如以下的步驟所生成:
a)採用視窗的MDCT轉換至輸入音頻訊號[16,4.6節],選擇性地計算一視窗的MDST,或是從計算的MDCT估計視窗的MDST
b)採用TNS/TTS在MDCT係數上[15,7.8節]
c)計算平均能量給每個在IGF起始頻率(f IGFstart )之上跳至IGF停止頻率(f IGFstop )的尺寸因子頻帶
d)量化平均能量值
f IGFstart f IGFstop 是被給予的參數。
從步驟c)和d)所計算的值係無損失的編碼,並且如側資訊一樣與給解碼器的位元串一起傳送。
解碼器接收所傳送來的值,並且使用它們去調整頻譜封包。
a)將傳送來的MDCT值去量化
b)若是被指示時則應用傳統的USAC噪音填充
c)應用IGF塊填充
d)將傳送的去量化
e)調整頻譜封包尺寸因子分段頻帶
f)若是有指示,則應用TNS/TTS
使為MDCT轉換的視窗長度2N之視窗音頻訊號的實數頻譜表現。此轉換被記載於[16]中。編碼器選擇性地應用在上的TNS。
在[16,4.6.2]中,敘述了尺寸因子頻帶中之的成份。尺寸因子頻帶是指標組的集合,並且以下用scb.的文字來表示。
每個scb k with k=0,1,2,...,max_sfb的限制是由陣列 swb_offcst(16,4.6.2)所定義,在此swb_offset[k]和swb_offset[k+1]定義了用於包含在scb k 中之最高和最低頻譜參數線之第一和最後的索引。我們將尺寸因子頻帶表示如下scb k :={swb_offset[k],1+swb_offset[k],2+swb_offset[k],...,swb_offset[k+1]-1}
若是編碼器使用IGF工具,則使用者定義IGF起始頻率和IGF停止頻率。這兩個值係映射至最合適的尺寸因子頻帶索引igfStartSfbigfStopSfb。這兩個值都在位元串中被指示送至解碼器。
[16]同時敘述了長方塊和短方塊傳輸。對於長方塊來說,僅有一組頻譜係數與一組尺吋音子一起被傳送到解碼器。對於短方塊來說,具有八個不同組之頻譜係數的八個短視窗會被計算。為了保留位元率,這八個短視窗的尺寸因子會被編碼器分組。
在IGF的例子中,在此的方法是使用傳統的尺寸因子頻帶以將頻譜值分組,並且其會被傳送到解碼器:
在此,k=igfStartSfb,1+igfStartSfb,2+igfStartSfb,...,igfEndSfb
對於量化來說Ê k =nINT(4log 2(E k ))
會被計算,所有的值Ê k 都會被傳送到解碼器。
我們假設編碼器決定將num_window_group尺寸因子組分組。
我們表示w個此集合{0,1,,…,7}的分組係八個短視窗的指標。w l 表示第lw的子集合,在此l表示視窗群組的索引,0 l<num_window_group
對於短方塊計算來說,使用者所定義的IGF起始/停止頻率係映射到適合的尺寸因子頻帶。然而,也可以將短方塊簡單的表示成k=igfStartSfb,1+igfStartSfb,2+igfStartSfb,...,igfEndSfb
IGF能量計算使用分組資訊以將值E k,l 分組為:
對於量化來說Ê k,l =nINT(4log 2(E k,l ))
會被計算,所有的值Ê k,l 會被傳送到編碼器。
上述的編碼方程式操作僅使用實數MDCT係數。為了在IGF範圍中獲得更穩定的能量分佈,就會降低時域振幅的波動,而另一方法可以被用來計算值Êk:使為MDCT轉換的,視窗長度2N之視窗音頻訊號的實數頻譜表現,並且使,音頻訊號之相同部份的實數MDST頻譜表現。MDST頻譜表現可以是被正確地計算或是從被估計。 表示是窗的音頻訊號之複數頻譜表現具有如其實部的,其中是其虛部。編碼器選擇性地在上應用TNS。
現在,在IGF範圍中之原始訊號的能量可以與下式被量測
重構頻帶的實數與複數能量,在IGF範圍scbk之重構中,需要被用於解碼側的塊(tile),係與以下被計算:
在此,trk係指標的集合-就是聯合的來源塊範圍,與scbk有相關性。在上述的兩個方程式中,集合(稍後的文字會有定義)會取代索引集合scbk,而可以被用於創造trk,以達到更精確的值Et和Er
若是Etk>0,否則fk=0.
具有
現在,更穩定版本的Ek被計算出來,由於具有MDCT值之Ek的計算只會因為MDCT值無法順從帕塞瓦爾定理的原因而有所妨害,並且因此它們無法反映出頻譜值的完整能量資訊。Êk係如上被計算。
如早先所記載的,對於短方塊來說,我們假設編碼器決定將num_window_group尺寸因子組分組。如上,w l 表示第lw的子集合,在此l表示為視窗分組的索引,0 l<num_window_group
上述計算更穩定Ek,l之版本的方程式可以再次被計算。與 的定義係MDCT轉換的,並且係MDST轉換的長度2N之視窗音頻訊號,計算
類似地計算
並且與因子fk,l繼續
其是被使用以調整先前計算的Erk,l
Êk,l係計算如上。
不僅使用重構頻帶之能量從複數重構頻帶或從MDCT值或從MDCT值獲取的程序,並且使用來自於來源範圍的能量資訊的程序會提供改善性的能量重構。
特別的是,參數計算器1006係用來計算能量資訊給重構頻帶,其使用再重構頻帶上之能量上的資訊,並且另外使用再來源範圍之能量上的資訊以被用於重構頻帶的重構。
此外,參數計算器1006係用來計算再原始訊號之複數頻帶之重構頻帶上的能量資訊(Eok),以計算原始訊號之複數頻帶之實部之來源範圍上的另外的能量資訊(Erk),以被用於重構此重構頻帶,並且其中參數計算器係用來計算能量資訊給重構頻帶,其使用能量資訊(Eok)和另外的能量資訊(Erk)。
此外,參數計算器1006係用來判斷再原始訊號之複數頻譜 之要成為重構尺寸因子頻帶上的一第一能量資訊(Eok),用以判斷原始訊號之複數頻譜之來源範圍上的第二能量資訊(Etk),以被用來重構要成為重構尺寸因子頻帶,用以判斷原始訊號之父是頻帶之實數部之來源範圍上的第三能量資訊(Erk),以被用來重構要成為重構因子頻帶,用以判斷在至少兩個第一能量資訊之間之基礎上的權重資訊,以及為了給予第一能量資訊和第三能量資訊其中之一權重,其使用權重資訊以獲得權重的能量資訊,並且使用此權重的能量資訊如同用於重構頻帶的能量資訊。
用於計算的例子如下所示,但是本領域具有通常知識者可以按照上述的原則而推導其它的例子
A)f_k=E_ok/E_t;E_k=sqrt(f_k * E_rk);
B)f_k=E_tk/E_ok;E_k=sqrt((1/f_k)* E_rk);
C)f_k=E_rk/E_tk;E_k=sqrt(f_k * E_ok)
D)f_k=E_tk/E_rk;E_k=sqrt((1/f_k)* E_ok)
所有這些例子確認僅有透過在解碼側處理實數MDCT,因為重疊和相加,而實際的計算隱含由使用複數而成為時域失真消除程序。然而,特別的是,重構頻帶920之另外頻譜部份922和923之塊能量資訊的判斷918,與具有重構頻帶920中之頻率並且依賴實數MDCT值的第一頻 譜部份921不同。因此,傳送到解碼器的能量資訊一般會與在原始訊號之複數頻帶之重構頻帶上的能量資訊(Eok)相似。例如,在上述的案例C,其代表因子f_k(權重資訊)將會小於1。
在解碼側,若是IGF工具被指示為啟動,則傳送值Ê k 可以從位元串取得,並且可以被去量化為
對於所有的k=igfStartSfb,1+igfStartSfb,2+igfStartSfb,...,igfEndSfb
解碼器將傳送的MDCT值去量化為x ,並且計算殘留的能量:
在此k是在上述所定義的範圍內。
在此定義,。此集合包含了所有尺寸因子頻帶的指標scb k ,其已經被解碼器量化成零。
IGF取得次頻帶方法(在此未敘述)係被使用以藉由使用傳輸的MDXT的非零值,而填充起因於在解碼側之MDCT頻譜值之粗糙量化的頻譜間隙。x會額外地包含值,其取代所有先前的零值。塊能量則由下式計算:
在此k是在上述所定義的範圍內。
在重構頻帶中的能量損失可以由下式計算:mE k :=|scb k |E k 2-sE k
並且用於調整的增益因子可以由下式而獲得:
其中 g'=min(g,10)
使用增益因子的頻譜封包調整為:x i :=g'x i
對於所有的i k來說都是在上述所定義的範圍內。
此重新對x的頻譜封包整形至原始頻譜封包的整形。
關於短視窗順序,所有如前述相同的原則中的計算,但是尺寸因子頻帶的分組需要被考慮。吾人如E k,l 顯示去量化,就是從位元串所取得之分組的能量值。計算
索引j描述了短方塊序列的視窗索引。
計算mE k,l :=|scb k |E k,l 2-sE k,l
g'=min(g,10)
應用x j,i :=g'x j,i
給所有的i
對於低位元率應用來說,值E k 的配對分組可能不會有太多的損失。此方法僅被應用於長方塊:
在此k=igfstartsfb,2+igfstartsfb,4+igfStartSfb,...,gfEndSfb
再次,在將所有的值E k»1量化之後會被傳送至解碼器。
圖9A繪示一種裝置,係用於解碼一包含第一頻譜佈份之第一集合的編碼表現之編碼的音頻訊號,並且指示給第二頻譜部份之第二集合之頻譜能量的參數資料的編碼表現。第一頻譜部份之第一集合係在圖9A中的901a中被指示,並且參數資料的編碼表現則是在圖9A的901a被指示。音頻解碼器900被提供來編碼第一頻譜部份之第一集合的編碼表現901a,以取得解碼的第一頻譜部份904之第一集合,並且用於解碼參數資料的編碼表現,以取得解碼的參數資料902給第二頻譜之第二集合,其指示用於個別頻帶的個別能量,在此第二頻譜部份係被放置在重構頻帶中。此外,頻率再生器906被提供來重構包括第二頻譜部份之重構頻帶的頻譜值。頻率再生器906使用第一頻譜部份之第一集合的一第一頻譜部份,以及用於重構頻帶之一個別能量資訊,在此重構頻帶包括第一頻譜部份和第二頻譜部份。頻率再生器906包括計算器912,以判斷殘存能量資訊,其包括具有在重構頻帶中之頻率的第一頻譜部份的累加能量。此外,頻譜再生器906包括計算器918,其用來判斷重構頻帶之另外頻譜成份的塊能量資訊,並且對於頻率值來說係與第一頻譜部份不同,在此,另外頻譜部份是由頻率再生使用不同於重構頻帶中之第一頻譜部份的第一頻譜部份來生成。
頻率再生器906更包括計算器914,係用於重構頻帶中之遺失能量,並且計算器914使用給重構頻帶之個別的能量和藉由方塊912所產生的殘存能量而進行操作。此外,頻率再生器906包括頻譜封包調整器916,用來調整基於遺失能量資訊和由方塊918產生的塊能量資訊之在重構頻帶中之另外頻譜部份。
請參照圖9C,其繪示一種特定的重構頻帶920。重構頻帶包括在重構頻帶中的第一頻譜部份,像是圖3A中在921所示意繪示的第一頻譜部份306。此外,其它在重構頻帶920中的頻譜值,係使用例如來自於圖3A之低於智慧間隙填充起始頻率309之尺寸因子頻帶1、2、3的來源區域所生成。頻率再生器906用來生成列頻譜值給第二頻譜部份922和923。接著,增益因子g會被計算,就如圖9C所繪示,以最後調整在頻帶922、 923中的列頻譜值,並且取得在重構頻帶920中之被重構和被調整的締二頻譜部份,其目前會具有相同的頻譜解析度,也就是與第一頻譜部份921相同的線距。了解在重構頻帶中的第一頻譜部份是很重要的,其如圖9C中的921所繪示,並由音頻解碼器900所解碼,而不會受到圖9B之封包調整執行的方塊916所影響。反而,在921中指定之在重構頻帶中的第一頻譜部份會離開,就如當第一頻譜部份被全頻寬或是全率音頻解碼器900透過線904所輸出。
接著,我們要討論關於實數的特定例子。如同方塊912所計算過的能量係例如五個能量單元,並且此能量是較佳實施例所指示的在頻譜部份921中四個頻譜線的能量。
此外,給重構頻譜帶,並對應於圖3B或3A之尺寸因子頻帶的能量值E3係等於10個單位。重要的是,當再解碼側的計算,也就是在使用例如聲調遮罩而進行頻譜分析前,能量值不僅包括頻譜部份922、923的能量,還包括重構頻帶920的全能量。因此,十個能量單位就可以涵蓋重構頻帶中的第一和第二頻譜部份。因此,假設給方塊922、923之來源範圍資料的能量,或是給用於方塊922、923的列目標範圍資料等於八個能量單位。因此,五個單位的遺失能量就能被計算出來。
基於遺失能量係除以塊能量tEk,因此就可以計算出0.79的增益因子。接著,給第二頻譜部份922、923的列頻譜線就會乘以所計算出來的增益因子。因此,只有給頻譜部份922、923的頻譜值會被調整,而給第一頻譜部份921的頻譜線並不會受到封包調整的影響。在乘以給第二頻譜部份922、923的列頻譜值後,完整的重構頻帶就已經被計算出由重構頻帶中的第一頻譜成份所組成,並且由重構頻帶920中之第二頻譜部份922、923的頻譜線所組成。
較佳地,用於生成再頻帶922、923之列頻譜資料的來源範圍係與低於IGF起始頻率309的頻率相關,並且重構頻帶920則是在IGF起始頻率309之上。
此外,重構頻帶邊界較佳會與尺寸因子頻帶的邊界重合。因此,在一實施例中,重構頻帶具有對應於核心音頻解碼器之尺寸因子的大小, 或是被設定大小,以致於當能量配對被實施時,給重構頻帶的能量值提供兩個或是更高整數之尺寸因子頻帶的能量。因此,當所進行的能量累加假設是給尺寸因子頻帶4、尺寸因子頻帶5和尺寸因子頻帶6時,重構頻帶920之較低頻率邊界會等於尺寸因子頻帶4的較低邊界,並且重構頻帶920之較高的邊界會與尺寸因子頻帶6之較高的邊界重合。
接著,為了顯示圖9A之解碼器其它的功能,因此在此討論圖9D。音頻解碼器900接收去量化的頻譜值,其對應頻譜部份之第一集合的第一頻譜部份,並且給像是圖3B所繪示之尺寸因子頻帶的尺寸因子被提供給反尺寸方塊940。反尺寸方塊940提供所有低於圖3A之IGF起始頻率309的第一頻譜部分之第一集合,並且另外高於IGF起始頻率的第一頻譜部份,也就是圖3A的第一頻譜部份304、305、306、307係全部未於如圖9D中941所繪示之重構頻帶中。此外,在來源頻帶中被用於重構頻帶中之頻率塊填充的第一頻譜部份係被提供給封包調整器/計算器942,並且此方塊另外接收給重構頻帶的能量資訊,其如參數側資訊一般被提供至編碼的音頻訊號,就如圖9D中943所繪示。接著,封包調整器/計算器942提供圖9B和9D的功能,並且最後會輸出調整的頻譜值給在重構頻帶中之第二頻譜部份。這些給重構頻帶中之第二頻譜部份和在重構頻帶中之第一頻譜部份921之被調整的頻譜值922、923係被指示,與圖9D的線941共同地表示重構頻帶之完整頻譜表現。
接著,請參照圖10A到圖10B,其用來解釋用於編碼音頻訊號之音頻編碼器較佳的實施例,以提供或生成編碼的音頻訊號。編碼器包括時間/頻譜轉換器1002,其輸出至一頻譜分析器1004,並且頻譜分析器1004一方面連接至參數計算器1006,另一方面連接至音頻編碼器1008。音頻編碼器1008提供第一頻譜部份之第一集合的編碼表現,而不會涵蓋第二頻譜部份之第二集合。在其它方面,參數計算器1006提供給重構頻帶的能量資訊,其涵蓋第一和第二頻譜部份。此外,音頻編碼器1008被用來生成具有第一頻譜解析度之第一頻譜部份之第一集合的第一編碼表現,在此音頻編碼器1008提供尺寸因子給所有由方塊1002生成之頻譜表現的頻帶。另外,如圖3B所繪示,編碼器提供能量資訊至少給位於高於如圖3A所繪 示之IGF起始頻率之頻率的重構頻帶。因此,對於較佳與尺寸因子頻帶重合或是與尺寸因子頻帶重合的重構頻帶來說,可以給兩個值,就是對應來自於音頻編碼器1008的尺寸因子,以及由參數計算器1006所輸出的能量資訊。
音頻編碼器較佳具有與頻率頻寬不同,也就是與頻譜值不同的尺寸因子頻帶。因此,參數計算器包括正規化器1012,用來正規化給特別之重構頻帶之頻寬相符之不同的頻寬的能量。為此,正規化器1012接收所輸入之在頻帶中的能量和在頻帶中的多個頻譜值,並且正規化器1012在每個重構/尺寸因子頻帶輸出正規化能量。
此外,圖10A之參數計算器1006包括能量值計算器,係接收從核心或音頻編碼器來的控制資訊,就如圖10A中的線1007所繪示。此控制資訊可以包括由音頻編碼器和/或分組資訊使用之長/短方塊上的資訊。因此,當在長/短方塊的資訊和在短視窗上的分組資訊與「時間」分組相關,分組資訊可以另外參照頻譜分組,也就是在單一重構頻帶中之兩個尺寸因子頻帶的分組。因此,當僅有頻譜部份已經被分組時,能量值計算器1014輸出單一能量值給每個分組頻帶,其涵蓋第一和第二頻譜部份。
圖10D繪示另一種實現頻譜分組的實施例。為此,方塊1016用來計算能量值給兩個相鄰的頻帶。接著,在方塊1018中,給相鄰頻帶的能量值會被比較,並且當這些能量值並不是與例如由一臨界值的定義太不一樣或是僅有些許的不同,則給兩個頻帶之單一(正規化的)值會如在方塊1020中所指示般的被生成。如線1019所繪示的,方塊1018可以被略過。此外,由方塊1020所執行給兩個或更多頻帶之單一值的聲成可以由編碼器位元率控制1024來控制。因此,當位元率要被降低時,編碼的位元控制1024會控制方塊1020生成單一正規化值給兩個或更多的頻帶,即便在方塊1018中的比較還沒有允許去將能量資訊值進行分組。
若是音頻編碼器正在進行兩個或更多短視窗的分組,此分組也會被應用於能量資訊。當核心編碼器執行兩個或更多短方塊的分組時,對這兩個或更多的方塊而言,單一組的尺寸因子會被計算和傳送。在解碼側,音頻編碼器接著會實施給兩個分組的視窗相同組的尺寸因子。
考慮能量資訊計算,在重構頻帶中的頻譜值會被累加超過兩個或更多的視窗。換句話說,這指出在給短視窗和給接續的短方塊之特定的重構頻帶中的頻譜值會一起被累加,並且僅有單一能量資訊值會被傳送給此涵蓋兩個短方塊的重構頻帶。接著,在解碼側,在圖9A到9D中被討論的封包調整不會個別地被執行給每個短方塊,而是一起被執行給分組的短視窗組合。
對應的正規化會再次被實施,以致於即便任何在頻率中的分組或是在時間中的分組已經被執行,對於在解碼側的能量值來說,正規化程序很容易允許僅有在單邊的能量資訊值和大在重構頻譜中或在分組的重構頻帶的組中之大量的頻譜線必須是已知。
在習知的BWE技術中,高於被給予所謂的交越頻率的HF頻譜區域的重構常常是基於頻譜區段。一般來說,HF區域被包含在多重相鄰區段中,並且每個這些區段係來自低於所給予之交越頻率的帶通(BP)區域。在訊號的濾波器組表現中,這樣的系統會從目標區域中之LF頻譜複製出相鄰次頻帶係數的組合。被選擇的之組合的邊界係一般系統所依據,而非訊號依據。對於一些訊號成份來說,此靜止的區段選擇會導致重構訊號之不愉快的音色和色彩。
其它的方法會透過訊號適用的單側頻帶(Single Side Band,簡稱SSB)調變而將LF的訊號轉換至HF。這些方法因為操作在時域取樣上的高取樣率,因此相比於[1]來說會有高度的計算複雜度。另外,區段也會不穩定,特別對於非聲調訊號(例如無聲語言),並且進而讓習知訊號適應分段可以在訊號中會引起障礙。
本發明的方法被稱為智慧間隙填充(IGF),並且在其較佳的設置中,其會基於時間-頻率轉換而被應用於BWE系統中,像是例如變化離散餘弦轉換(MDCT)。雖然,本發明的技術係一般可適用,例如在類似正交鏡濾波器組(QMF)為基礎的系統中。
基於MDCT的IGF設置的優點,是在MDCT基礎的音頻編碼器中的無縫整合,例如MPEG先進音頻編碼(AAC)。將相同的轉換分享給波形音頻編碼和BWE,可以大量地降低整個用於音頻編碼的運算複雜度。
甚至,本發明解決了在習知適用的區段方法中發現的固有的穩定性問題。
本發明的系統係基於用於一些訊號的觀察,非制式的區段選擇會導致音色和標誌色的改變。若是一訊號是頻譜來源區域(SSR)中的聲調,但是是在頻譜目標區域(STR)中的類噪音,將STR中的類噪音藉由SSR中的聲調進行分段,會導致不自然的音色。由於訊號的聲調結構會被錯位,或是甚至被分段處理所摧毀,因此會使訊號的音色改變。
本發明的IGF系統係執行至能塊選擇,其使用相交關聯(cross-correlation),如在特定的SSR和特定的STR之間的相似度量測。兩個訊號的相交關聯提供這些訊號之相似度的量測,以及提供了最大關聯的延遲和其標誌。因此,一關聯基礎塊選擇的方法也可以被使用來精確地調整被複製之頻譜的頻譜位移,以將其變至盡可能的接近原始頻譜結構。
本發明之系統的基礎分佈係合適之相似量測的選擇,並且也是至穩定化快選擇處理的技術。本發明的技術提供了即時訊號適應和在相同時間之時域穩定性之間的最佳平衡。時域穩定化的措施對於具有SSR和TTR之低相似度的訊號尤其重要,並且因此排列低相交關聯值,或是如果所採用的相似度量測是不明確的。在這樣的情況下,穩定化保護了適應塊選擇的假散亂動作。
例如,常常提出問題給習知BWE之訊號的類型係由傳送至隨意頻譜區域之能量不同的濃度來給予特徵,如圖12A(左側)所繪示。雖然有可用的方法來調整頻譜封包和目標區域中之重構頻待的聲調,但是對一些訊號來說,這些方法並不能保持其音色如同圖12A中所繪示(右側)。在圖12A中所繪示的例子,在高於所謂交越頻率f xover (圖12A,左側)之原始頻率的目標區域中之頻譜的強度會接近線性衰減。相對地,在重構頻譜中(圖12A,右側),係呈現不同組的傾角和波峰,其如音色著色的產物般的被感知。
在新方法中一個很重要的步驟,就是從會發生之接續相似基礎的選擇中定義一組塊(tiles)。首先,來源區域和目標區域的塊邊界都必須依據彼此來定義。因此,核心編碼器的起始頻率f IGFstart 和最高可用頻率f IGFstop 之間的目標區域被劃分成任意整數nTar的塊,每個這些塊具有個別預 設的大小。接著,會生成相等大小的來源塊src[idx_src]給每個目標塊tar[idx_tar]。透過這樣,就可以決定IGF系統之自由度的基數。來源塊nSrc的總數是由來源區域的頻帶寬來決定,bw src =(f IGFstart -f IGFmin )
在此,f IGFmin 是給塊選擇的最低可用頻率,如此一來,整數nSrc的來源塊會適合bw src 。來源塊最小的數目是0。
為了另外增加自由度給選擇和調整,來源塊可以藉由0和1之間的重疊因子而被定義為彼此重疊,在此0是指沒有重疊,而1則是指100%重疊。100%重疊的狀態會造成只有一個或沒有來源塊可使用。
圖12B繪示了塊之集合的塊邊界的例子。在這個例子中,所有目標塊都與每個來源塊相關聯。在此例子中,來源塊係50%重疊。
對於目標塊來說,相交關聯是在落後的與不同來源塊一起計算xcorr_maxLag點。對於所給的目標塊idx_tar和來源塊idx_src來說,xcorr_val[idx_tar][idx_src]會給予絕對相交關聯之間的最大值,而xcorr_lag[idx_tar][idx_src]給予延遲,在其中會發生最大值,並且xcorr_sign[idx_tar][idx_src]係給予在xcorr_lag[idx_tar][idx_src]之相交關聯的指示。
參數xcorr_lag是用來控制來源與目標塊之間匹配的親密度。此參數可以導致簡少問題並且較好幫助保留訊號的音色和色彩。
在一些景況中,會發生特定目標塊的大小會大於可用來源塊的大小。在此狀況中,可用的來源塊有必要重覆,以完整地填充特定的目標塊。這還是有可能在大的目標塊和較小的來源塊之間執行相交關聯,以就相交關聯xcorr_lag和xcorr_sign而言,在目標塊中取得最佳來源塊的位置。
列頻譜塊的相交關聯和原始訊號可能不是應用在具有強大格式架構之音頻頻譜之最佳的相似度量測。頻譜的白化移除了粗糙的封包資訊,並且進而強調了頻譜的精細結構,其對於估計塊的相似度來說是最有興趣的事。白化也可以協助在解碼器之簡單的封包整形給IGF進行的區域處理。因此,操作性地,在計算相交關聯之前,塊和來源訊號都會進行白化。
在其它實施例中,只有塊會利用預設的程序而進行白化。傳 送的白化旗標會指示解碼器,相同預設的白化處理可以被實施在IGF中的塊。
對於白化訊號來說,首先會計算頻譜封包估計。接著,頻譜封包會將MDCT頻譜分割。頻譜封包估計可以是MDCT頻譜上的估計、MDCT頻譜能量、MDCT基底複數能量頻譜、或是功率頻譜估計。從現在開始,封包被估計的訊號被稱為基礎訊號
在MDCT基數複數功率頻譜或功率頻譜上所計算的封包,係如同基礎訊號具有在聲調成份上沒有時域潑動的優點。
若是基礎訊號在能量域中時,MDCT頻譜必須以封包的平方根被分割,以正確地白化訊號。
在此有不同計算封包的方法
‧將基礎訊號用離散餘弦轉換(DCT)進行轉換,僅保留較低的DCT係數(將最上層的設定為零),並且接著計算反向DCT
‧計算線性預測係數(Linear Prediction Coefficients,簡稱LPC)的頻譜封包,其在時域音頻訊框上被計算
‧用低通濾波器對基礎訊號濾波
較佳地,會選擇最後的方法。對於應用來說,需要低計算複雜度、一些簡單的動作可以完成MDCT頻譜的白化。這僅需要每MDCT點兩個處理週期。接著,為了避免分割和平方根的運算,頻譜封包會接近2 n ,其中n封包的整形數(integer logarithm)。在此域中,平方根操作會簡單地變成平移操作,並且甚至分割封包可以由其它平移操作來執行。
在計算完每個來源塊與目標塊的關聯性後,對於所有nTar目標塊來說,具有最高關聯性的來源塊會被選擇來取代。為了與原始頻譜結構有最佳的匹配,關聯的延遲會被用來以轉換點的整形數來對複製的頻譜進行調變。在奇延遲的例子中,塊會另外透過乘以-1/1的交替時域順序,以補償給每個其它在MDCT中之頻帶的頻率反轉表現。
圖12C繪示在來源塊和目標塊之間之關聯的例子。在此例子中,關聯的延遲為5,因此來源塊必須以5點而被調變,並朝向在BWE演算之複製階段中的高頻點。另外,塊的符號在最大關聯值為負數時則必須 被翻動,並且如同上述之另外的調變會引起奇延遲。
因此,側資訊中要從編碼器傳送至解碼器的聲調數量可以包含下列資料:
‧tileNum[nTar]:每目標塊之選擇的來源塊的索引
‧tileSign[nTar]:目標塊的符號
‧tileMod[nTar]:每目標塊之關聯的延遲
塊修剪和穩定化在IGF中是很重要的步驟。用個例子來解釋上述步驟的需要和優點,假設固定的聲調音頻訊號,像是例如穩定的音調管(pitch pipe)音符。若是對於給定的目標區域來說,來源塊都是從跨訊框之相同的來源區域被選出,則就可以邏輯性地推導出引發最少的問題。即便假設訊號是固定的,由於其它相同相似度的來源區域之相似度量測(例如關聯性)會控制相似度結果(例如相交關聯),此條件並無法很好的保持在每個訊框中。這會導致在相鄰訊框之間的tileNum[n Tar]至兩個或三個非常相似之選擇之間的振盪。這可以是像是有問題之惱人音樂噪音的來源。
為了估計這類型的問題,來源塊的組合要被修剪,以致於來源塊組合的殘留成員係彼此最大地相異。這就實現了如以下的來源塊組合S={s 1 ,s 2 ,...S n }
對於任何來源塊si來說,我們將其與所有其他的來源塊相關聯,在此,Sx[i][j]包含了si和sj之間最大的相交關聯絕對值。加上沿著行的矩陣Sx,會給我們來源塊si之相交關聯與所有其它來源塊T的總合。
T[i]=Sx[i][1]+Sx[i][2]...+Sx[i][n]
在此,較佳之來源的量測與其它來源塊是非常相似。若是對任何來源塊i來說,T>臨界值
來源塊i可以由於其高度地與其它來源相關的緣故,而可以從有潛力的來源之集合中被取出。來自於塊集合之具有最低關聯的塊,其適合在方程式1中的條件,會被選擇如同給此子集合之表現的塊。如此一來,我們保證來源塊會彼此有最大的相異。
塊修剪方法也可以包含塊集合的記憶體,其也被使用在前訊 框中。在前訊框中被激活,係被保留在下一訊框中,若是要進行修剪的候選者存在的話。
使s3、s4和s5在訊框k中之塊{s1,s2...,s5}之外被激活,接著在訊框k+1中,即便s1、s3和s2競爭被修剪成具有s3,其與其它的來源塊有最大的關聯性,s3會因為其在前一訊框中是有用的來源塊而被保留。此方法係在若是來源i和目標j之間的相交關聯被表現像是Tx[i][j]為高時,是較佳的應用。
用於塊穩定化的另一方法是保留來自於前一訊框k-1的塊順序,若是在目前訊框k中的選擇塊與目標塊沒有叫好的關聯性。這會發生在若是來源i和目標j之間的相交關聯,其對於所有的i,j而言表現如同Tx[i][j]係非常低。
例如,若是Tx[i][j]<0.6
一交替的臨界值現在會被使用,接著tileNum[nTar]k=tileNum[nTar]k-1
對於在此訊框k之所有的nTar而言。
以上的兩個技術,會大量地降低發生在來自於跨訊框之快速轉換集合塊數目的雜音。另一個此塊修剪和穩定化的優點,是沒有額外的資訊需要被送至解碼器,或是需要解碼器架構的改變。本發明之塊修剪對於降低潛在音樂噪音,像是人為的雜音或是在塊頻譜區域中之過度的噪音來說,是非常好的方法。
圖11A繪示一種用於解碼一編碼之音頻訊號的解碼器。音頻解碼器包括一音頻(核心)解碼器1102以生成第一頻譜部份之第一集合的第一解碼表現,此解碼表現具有第一頻譜解析度。
此外,音頻解碼器包括一參數解碼器1104,用來生成具有第二頻譜解析度之第二頻譜部份之第二集合的第二解碼表現,而第二頻譜解析度係低於第一頻譜解析度。此外,頻率再生器1106係提供來接收像是第一輸入1101之解碼的第一頻譜部份,以及在1103像是第二輸入的參數資訊,其包括一來源範圍資訊,用於每個目標頻率塊或目標重構頻帶。頻率 再生器1106接著會藉由使用頻譜值而實施頻率再生,以生成頻譜資料給目標範圍,其中頻譜值係來自於藉由匹配資訊而得的來源範圍辨識碼。接著,第一頻譜部份1101和頻率再生器1107的輸出都會輸入至頻譜-時間轉換器1108,以最後生成解碼的音頻訊號。
較佳地,音頻解碼器1102係頻譜域音頻解碼器,雖然音頻解碼器也可以如同任何音頻解碼器,像是時域或是參數音頻解碼器的實施方式來實現。
如圖11B所指示,頻率再生器1106可以包括方塊1102的功能,其繪示來源範圍選擇器-用於奇延遲的塊條辨器、當白化旗標1123被提供時的白化濾波1122、以及另外地由方塊1128所繪示具有調整功能的頻譜封包,其使用由方塊1120或方塊1122所生成的列頻譜資料。無論如何,頻率再生器1106可以包括開關1124,其會反應所接收到的白化旗標1123。當白化旗標被設定,則用於奇延遲之來源範圍選擇器/塊條辨器的輸出就會輸入至白化濾波1122。接著,然而,由於白化旗標1123沒有設定給特定的重構頻帶,接著帶通線1126會被激活,以使得方塊1120的輸出會被提供至頻譜調整方塊1128而不具有任何白化。
在此也許有一個以上的白化(1123)的等級會在位元串中被標示,並且這些等級可以是每塊而被標示。若是有三個等級每塊被標示,而這些等級可以如下所示而被編碼:
MID_WHITENING和STRONG_WHITENING係參照不同的白化濾波器(1122),其可以用不同的方式來計算封包(如前所述)。
當只有一粗糙的頻譜塊策略被實施時,則可以藉由來源範圍ID 1121來控制解碼側頻率再生器。然而,當微調的頻譜塊選擇策略被實施時,則另外的來源範圍延遲1119就會被提供。此外,還會提供關聯計算, 其提供一負結果,接著另外的關聯符號也可以被應用到方塊1120,以使得每個頁資料頻譜線會分別乘以-1,以賦予負的符號。
因此,本發明如同圖11A、11B所討論的,會由於給特定目的或目標範圍之最佳匹配來源範圍會在編碼側被計算以及在解碼側被應用,而確認得到最佳的音頻品質。
圖11C繪示一種用於編碼一音頻訊號之特定的音頻編碼器,包括時間-頻譜轉換器1130、一接續連接的頻譜分析器1132和另外的一參數計算器1134、以及核心編碼器1136。核心編碼器1136輸出編碼的來源範圍,並且參數計算器1134輸出匹配資訊給目標範圍。
被編碼的來源範圍與用於目標範圍的匹配資訊會一起傳送至解碼器,以使圖11A所繪示的解碼器在執行頻率再生的狀態。
參數計算器1134係用來計算第一頻譜部份和第二頻譜之間的相似度,並且用來依據所計算出來的相似度而判斷與第二頻譜部份相匹配之匹配第一頻譜部份給第二頻譜部份。較佳地,給如圖12A、12B所繪示之不同來源範圍和目標範圍的匹配結果,係用來判斷包括了第二頻譜部份的選擇之匹配對,並且參數計算器則是用來提供此匹配資訊來辨識在編碼之音頻訊號中的匹配對。較佳地,預設的目標區域係非重疊,或是預設的來源區域係重疊。當預設的來源區域係低於圖3A之間隙填充起始頻率之第一頻譜部份之第一集合的子集合時,較佳地,預設的目標區域涵蓋符合具有間隙填充起始頻率之較低頻率邊界之較低的頻譜區域,以致於任何目標範圍係落於間隙填充起始頻率之上,並且來源範圍則落在間隙填充起始頻率之下。
如所討論的,藉由將沒有任何延遲之來源區域的目標區域至來源區域,與相同的來源區域而具有特定的延遲進行比較,而取得一精細的粒度至來源區域。這些延遲細被應用在圖11D之相交關聯計算器1140中,並且最後由塊選擇器1144而執行匹配對選擇。
此外,較佳是進行來源和/或目標範圍白化,就是在方塊1142所繪示。此方塊1142接著會提供白化旗標至位元串,其被用來控制圖11B的解碼側開關1123。此外,若是相交關聯計算器1140提供一負結果,則此 負結果也會被標示送至解碼器。因此,在較佳的實施例中,塊選擇器會輸出一來源範圍ID給一目標範圍、一延遲、一符號,並且方塊1142另外提供一白化旗標。
此外,參數計算器1134是藉由降低在潛力來源範圍的數目來進行來源塊修剪1146,在潛力來源塊中,可以從依據一相似度臨界值的潛力來源塊之集合取得一來源區段。因此,當兩個來源塊非常近似或等於相似度臨界值時,則這兩個來源塊其中之一會從潛力來源塊的組合中被移除,並且被移除的來源塊不會再被使用在其它的處理,並且特別地,不能再被塊選擇器1144所選擇,或是不會被用於不同來源範圍和目標範圍之間的相交關聯計算,就如方塊1140中所執行的。
不同的實施例已經在相關不同的圖示中被敘述。圖1A-5C是官於全率或全頻寬編碼器/解碼器的示意。圖6a-7e是關於具有TNS或TTS處理的編碼器/解碼器示意。圖8A-8E是關於具有特定雙聲道處理的編碼器/解碼器示意。圖9A-10D是關於特定能量資訊計算和應用,以及圖11A-12C是關於塊選擇的特別方法。
所有這些本發明的實施例,可以彼此單獨實施,但是也可以基於圖2A和2B所繪示般共同被實施。然而,特定的雙聲道處理也可以被應用於圖13所繪示之編碼器/解碼器的例子,並且也可以用於TNS/TTS處理、重構頻帶或適應性來源辨識碼之封包能量資訊計算和應用、以及解碼側的對應應用。另一方面,全率的實施例可以與或不與TNS/TTS處理、與或不與雙聲道處理、與或不與適應性來源範圍辨識碼、或與其它用於頻譜封包表現之類型的能量運算一起被應用。因此可以清楚得知,這些個別實施例中之其中之一的特徵也可以被應用在其它的實施例。
雖然一些實施例已經被敘述在用於編碼或解碼之裝置的內容中,但是可以清楚地得知這些實施例也可以表現出對應之方法的敘述,在此方塊或裝置對應於方法步驟或方法步驟的特徵。類似地,在方法步驟之內容中所敘述的實施例,也可以表現出對應之裝置之對應的方塊或項目之敘述。一些或所有這些方法步驟可以藉由或使用硬體裝置,像是例如微處理器、可程式化計算器或電子電路來執行。在一些實施例中,某個或多個最重的的 方法可以由這樣的裝置來執行。
依據特定實施的需要,本發明之實施例可以以硬體或軟體的方式來實現。這些實施例可以利用非揮發性儲存媒體,像是數位儲存媒體、例如軟碟、應碟裝置(HDD)、DVD、藍光、CD、ROM、PROM和EPROM、EEPROM或快閃記憶體來執行,這些儲存媒體具有電姓可讀取控制訊號儲存在在其上,其協同(或可以協同)可程式化計算器系統運作,而使相關的方法可以被執行。因此,此數位儲存媒體可以電腦可讀取。
本發明的一些實施例包括資料載體,其具有電性可讀取訊號,其可以協同可程式化計算器系統,以使在此所敘述的其中一方法可以被執行。
一般來說,本發明的實施例可以被實施如同具有程式碼的一電腦程式產品,當此電腦程式產品在電腦上運作時,此程式碼可以操作用於執行其中一方法。此程式碼可以例如被儲存在一機械可讀取載體。
其它的實施例包括電腦程式,以用來執行在此所敘述的其中一方法,而此電腦程式被儲存在機械可讀取載體。
換句話說,發明之方法的實施例可以因此是具有程式碼的電腦程式,當此電腦程式在電腦中運作時,程式碼就會執行在此所敘述其中之一方法的電腦程式。
本發明之方法的另一實施例可以是資料載體(或數位儲存媒體、或電腦可讀媒體)包括記錄在其上的電腦程式,用來執行前述其中之一的方法。資料載體、數位儲存媒體或記錄媒體一般係有形的和/或非揮發的。
本發明之方法的另一實施例因此可以是資料串或訊號的程序,其表示用來表示電腦程式,用來執行前述的其中一方法。此資料串或是訊號的程序可以例如是用來透過資料通訊連結,例如透過網際網路來傳送。
另一實施例包括處理手段,例如電腦或可程式化邏輯裝置,配置來或適於執行前述的其中一方法。
另一實施例包括具有電腦程式安裝在其上的電腦,用來執行前述的其中一方法。
依據本發明的另一實施例包括裝置或系統,其配置來轉換 (例如電性或光學地)一電腦程式,以執行前述的其中一方法到一接收器。此接收器可以例如是電腦、行動裝置、記憶裝置或是類似的裝置。此裝置或系統可以例如包括檔案伺服器,用來轉換電腦程式到接收器。
在一些實施例中,可程式化邏輯裝置(例如檔案可程式化閘陣列)可以被用來執行一些或所有前述之方法的功能。在一些實施例中,檔案可程式化閘陣列可以協同微處理器,以執行前述的方法。一般來說,前述的方法較佳地可以藉由硬體裝置來執行。
以上所述僅為舉例性,而非為限制性者。任何未脫離本發明之精神與範疇,而對其進行之等效修改或變更,均應包含於後附之申請專利範圍中。
引證文件列表
[1] Dietz, L. Liljeryd, K. Kjörling and O. Kunz, “Spectral Band Replication, a novel approach in audio coding,” in 112th AES Convention, Munich, May 2002.
[2] Ferreira, D. Sinha, “Accurate Spectral Replacement”, Audio Engineering Society Convention, Barcelona, Spain 2005.
[3] D. Sinha, A. Ferreira1 and E. Harinarayanan, “A Novel Integrated Audio Bandwidth Extension Toolkit (ABET)”, Audio Engineering Society Convention, Paris, France 2006.
[4] R. Annadana, E. Harinarayanan, A. Ferreira and D. Sinha, “New Results in Low Bit Rate Speech Coding and Bandwidth Extension”, Audio Engineering Society Convention, San Francisco, USA 2006.
[5] T. Zernicki, M. Bartkowiak, “Audio bandwidth extension by frequency scaling of sinusoidal partials”, Audio Engineering Society Convention, San Francisco, USA 2008.
[6] J. Herre, D. Schulz, Extending the MPEG-4 AAC Codec by Perceptual Noise Substitution, 104th AES Convention, Amsterdam, 1998, Preprint 4720.
[7] M. Neuendorf, M. Multrus, N. Rettelbach, et al., MPEG Unified Speech and Audio Coding-The ISO/MPEG Standard for High-Efficiency Audio Coding of all Content Types, 132nd AES Convention, Budapest, Hungary, April, 2012.
[8] McAulay, Robert J., Quatieri, Thomas F. “Speech Analysis/Synthesis Based on a Sinusoidal Representation”. IEEE Transactions on Acoustics, Speech, And Signal Processing, Vol 34(4), August 1986.
[9] Smith, J.O., Serra, X. “PARSHL: An analysis/synthesis program for non-harmonic sounds based on a sinusoidal representation”, Proceedings of the International Computer Music Conference, 1987.
[10] Purnhagen, H.; Meine, Nikolaus, "HILN-the MPEG-4 parametric audio coding tools," Circuits and Systems, 2000. Proceedings. ISCAS 2000 Geneva. The 2000 IEEE International Symposium on, vol.3, no., pp.201,204 vol.3, 2000
[11] International Standard ISO/IEC 13818-3, Generic Coding of Moving Pictures and Associated Audio: Audio”, Geneva, 1998.
[12] M. Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. Davidson, Oikawa: "MPEG-2 Advanced Audio Coding", 101st AES Convention, Los Angeles 1996
[13] J. Herre, “Temporal Noise Shaping, Quantization and Coding methods in Perceptual Audio Coding: A Tutorial introduction”, 17th AES International Conference on High Quality Audio Coding, August 1999
[14] J. Herre, “Temporal Noise Shaping, Quantization and Coding methods in Perceptual Audio Coding: A Tutorial introduction”, 17th AES International Conference on High Quality Audio Coding, August 1999
[15] International Standard ISO/IEC 23001-3:2010, Unified speech and audio coding Audio, Geneva, 2010.
[16] International Standard ISO/IEC 14496-3:2005, Information technology - Coding of audio-visual objects - Part 3: Audio, Geneva, 2005.
[17] P. Ekstrand, “Bandwidth Extension of Audio Signals by Spectral Band Replication”, in Proceedings of 1st IEEE Benelux Workshop on MPCA, Leuven, November 2002
[18] F. Nagel, S. Disch, S. Wilde, A continuous modulated single sideband bandwidth extension, ICASSP International Conference on Acoustics, Speech and Signal Processing, Dallas, Texas (USA), April 2010
802‧‧‧音頻解碼器
804‧‧‧參數編碼器
806‧‧‧頻率再生器

Claims (20)

  1. 一種用於生成解碼之雙聲道訊號的裝置,包括:一音頻處理器,將編碼之一雙聲道訊號解碼,以獲得多個第一頻譜部份之一第一集合;一參數解碼器,提供參數資料給多個第二頻譜部份之一第二集合和一雙聲道辨識碼,其辨識不同的一第一或一第二雙聲道表現給該些第二頻譜部份;以及一頻率再生器,依據該些第一頻譜部份之該第一集合的一第一頻譜部份再生一第二頻譜部份、用於該第二頻譜部份的資料和給第二頻譜部份之一雙聲道辨識,其中該音頻處理器係配置依據該些第一頻譜部份之該第一集合的一另外的雙聲道辨識,以解碼該些第一頻譜部份之該第一集合,並以轉換該些第一頻譜部份之該第一集合,以致於獲得該些第一頻譜部份之該第一集合的該第一雙聲道表現和該些第一頻譜部份之該第一集合的該第二雙聲道表現,其中該頻率再生器係配置以使用該些第一頻譜部份的該第一雙聲道表現或該第二雙聲道表現,作為在給該第二頻譜部份之該雙聲道辨識中的指示。
  2. 如申請專利範圍第1項所述的裝置,其中該雙聲道辨識係辨識該雙聲道訊號之兩個聲道的一分離處理,或是該雙聲道訊號之兩個聲道的一聯合處理,以及其中該頻率再生器係配置來生成該第二頻譜部份給兩個聲道的一第一聲道,並生成該第二頻譜部份給兩個聲道的一第二聲道,並使用該第一聲道的第一部份和該第二聲道的第一部份,其中該第一聲道的第一部份和該第二聲道的第一部份是一雙聲道表現,其由給該第二頻譜部份之該雙聲道辨識而被辨別出來。
  3. 如申請專利範圍第1項所述的裝置,其中該雙聲道辨識係辨識該雙聲道訊號之兩個聲道的一分離處理,或該雙聲道訊號之兩個聲道的一聯合處理,以及 其中該頻率再生器再生在該第二頻譜部份中之兩個聲道的一聯合表現在藉由該雙聲道辨識進行辨識時,以及其中該頻率再生器更包括一表現轉換器,以將該第二頻譜部份的該聯合表現轉換成一分離表現給該第二頻譜部份。
  4. 如申請專利範圍第3項所述的裝置,其中該表現轉換器使用另外的聯合表現參數給該表現轉換。
  5. 如申請專利範圍第3項所述的裝置,其中該聯合表現是一中/側表現,且其中該表現轉換器係依據以下方程式來操作:leftTile=0.5 *(midTile+sideTile) rightTile=0.5 *(midTile-sideTile)其中leftTile和rightTile是給該第二頻譜部份的該分離表現,並且其中midTile和sideTile則是給該第二頻譜部份的該聯合表現。
  6. 如申請專利範圍第3項所述的裝置,其中該聯合表現是一表現,包括一另外的預測係數,且其中該表現轉換器係依據以下方程式來操作:sideTile[k]=sideTile[k]-prediction CoeffmidTile[k] leftTile[k]=midTile[k]+sideTile[k] rightTile[k]=midTile[k]-sideTile[k]其中一預測方向是從邊側到中央,或midTile 1[k]=midTile[k]-prediction CoeffsideTile[k] leftTile[k]=midTile 1[k]-sideTile[k] rightTile[k]=midTile 1[k]+sideTile[k]其中一預測方向是被指示從邊側到中央,其中leftTile和rightTile是給該第二頻譜部份的該分離表現,且其中 midTile和sideTile是給第二頻譜部份的該聯合表現,且其中predictionCoeff係該另外的預測係數。
  7. 如申請專利範圍第1項所述的裝置,其中給該第二頻譜部份之該第二集合的該參數資料係分離地被給予該雙聲道表現的各該聲道,以及其中當該雙聲道辨識辨別出給該第二頻譜部份的該聯合表現時,該頻率再生器配置來將給該第二頻譜部份的該參數資料轉換成給該第二頻譜部份的一聯合表現,並用將參數資料施加給該第一頻譜部份的一聯合表現。
  8. 如申請專利範圍第1項所述的裝置,其中該些第二頻譜部份對應至多個頻率頻帶,且其中該雙聲道辨識係一旗標陣列、其中一旗標是給各該頻率頻帶,且其中該參數解碼器係配置來檢查該旗標是否被設定,以及依據該旗標來控制該頻率再生器,以使用該雙聲道訊號之第一頻譜部份的一第一雙聲道表現或一第二雙聲道表現。
  9. 如申請專利範圍第1項所述的裝置,其中該參數解碼器係設置與提供一另外的雙聲道辨識給該些第一頻譜部份之該第一集合,並指示不同的一第一和一第二雙聲道表現給該第一頻譜部份,以及其中該裝置係解碼該第二雙聲道表現在藉由給第一頻譜部份的雙聲道辨識所指示時,以及其中該頻率再生器係配置來將該第二雙聲道表現轉換成接續一核心解碼的該第一雙聲道表現。
  10. 如申請專利範圍第1項所述的裝置,更包括一結合器,係結合由該音頻處理器所生成的該些第一頻譜部份之該第一集合,且該重構的第二頻譜部份是由該頻率再生器所生成,以獲得解碼的該雙聲道訊號。
  11. 如申請專利範圍第1項所述的裝置,其中該參數解碼器係配置來另外提供給該第二頻譜部份的一來源頻帶辨識,係指示一特定第一頻譜部份,以被使用來再生該第二頻譜部份,以及其中該頻率再生器係配置來再生該第二頻譜部份,其使用由該來源頻 帶辨識所辨識出來的該第一頻譜部份。
  12. 如申請專利範圍第1項所述的裝置,其中該頻率再生器包括一表現轉換器,係提供由該音頻處理器所生成的該些第一頻譜部份之第一集合的第一和第二雙聲道表現,其中該頻率再生器更包括一頻率塊產生器,係生成列資料給由雙聲道辨識所辨別之聲道表現的各聲道,並使用一來源範圍辨識,其指示該些第一頻譜部份被使用於生成該列資料,其中該頻率再生器更包括一參數轉換器,當給各聲道的該列資料藉由該頻率塊產生器在一第二雙聲道表現中被提供時,該參數轉換器將在一第一雙聲道表現中被提供的多數個參數轉換成該第二雙聲道表現給該些參數,其中該頻率再生器更包括一封包調整器,係該雙聲道表現的各聲道之一封包,而該雙聲道表現是該第二雙聲道表現,其中該頻率再生器更包括一表現轉換器,係將在該第二頻譜部份中之多個頻譜值的該雙聲道表現轉換成該第一雙聲道表現,其中該裝置更包括一頻率-時間轉換器,係將由該表現轉換器所生成的表現從一第一頻譜域轉換成一時域。
  13. 一種音頻編碼器,適於編碼一雙聲道音頻訊號,而該音頻編碼器包括:一時間-頻譜轉換器,將該雙聲道音頻訊號轉換成一頻譜表現;一頻譜分析器,提供要被與一第一頻譜解析度編碼的多個第一頻譜部份之一第一集合之一辨識碼,和要被與一第二頻譜解析度編碼的多個第二頻譜部份之一第二集合的一辨識碼,而該第二頻譜解析度小於該第一頻譜解析度;一雙聲道分析器,分析在一重構範圍內之該雙聲道音頻訊號的頻帶,以判斷用於一重構頻帶的一雙聲道辨識係辨識一第一雙聲道表現或一第二雙聲道表現,其中該重構頻帶包括該些第二頻譜部份之該第二集合之其中之一; 一核心編碼器,編碼該些第一頻譜部份之該第一集合,以提供一第一編碼表現;以及一參數計算器,計算在該些第二頻譜部份之該第二集合上的參數資料,其中一被編碼的雙聲道音頻訊號包括該第一編碼表現、一被編碼的參數表現和該些第二頻譜部份之該第二集合。
  14. 如申請專利範圍第13項的音頻編碼器,更包括:一分段頻帶轉換器,將該些第一頻譜部份之該第一集合轉換成一雙聲道表現,其由該雙聲道辨識所指示,其中該頻譜分析器配置來分析由該分段頻帶轉換器所輸出的該雙聲道表現。
  15. 如申請專利範圍第13項的音頻編碼器,其中該雙聲道分析器被配置來執行該雙聲道表現之一第一聲道的一第二頻譜部份和該雙聲道表現之兩個聲道的一第二頻譜部份之間的一關聯計算,以判斷一分離雙聲道表現或一聯合雙聲道表現。
  16. 如申請專利範圍第13項的音頻編碼器,其中該頻譜分析器係配置來比較用於在該雙聲道表現之至少其中之一生到之不同的頻譜部份之多個匹配結果,以判斷至少一聲道的一第一頻譜部份和至少一聲道的一第二頻譜部份的一匹配對,以提供一批配資訊給一最佳匹配對,以及其中該音頻編碼器除了輸出被編碼的該雙聲道音頻訊號之外,也被配置來輸出該匹配資訊給該第二頻譜部份。
  17. 如申請專利範圍第13項的音頻編碼器,更包括:一分段頻帶轉換器,具有一輸入係連接至該時間-譜轉換器的一輸出,其中該頻譜分析器係配置來接收該分段頻帶轉換器的一輸出當作一輸入,其中該雙聲道分析器係配置來分析該時間-頻譜轉換器的一輸出,並提供一分析結果以控制分段頻帶轉換器,其中該音頻編碼器由該頻譜分析器控制置來編碼分段頻帶轉換器的一輸出,以致於僅有該些第一頻部份之該第一集合由該核心編碼器編 碼,以及其中當在分段轉換器之輸出中的頻譜分析器指示時,該參數編碼器係配置來參數地編碼該些第二頻譜部份之該第二集合。
  18. 一種生成解碼雙聲道訊號的方法,包括下列步驟:解碼一編碼的雙聲道訊號,以獲得多個第一頻譜部份之一第一集合;提供一參數資料給多個第二頻譜部份之一第二集合,並提供一雙聲道辨識係辨識用於該些第二頻譜部份的不同的第一或第二雙聲道表現;以及依據該些第一頻譜部份之該第一集合的一第一頻譜部份而生成一第二頻譜部份、用於該第二頻譜部份的該參數資料和用於該第二頻譜部份的該雙聲道辨識,其中該音頻處理器包括依據該些第一頻譜部份之該第一集合的一另外的雙聲道辨識,以解碼該些第一頻譜部份之該第一集合,並轉換該些第一頻譜部份之該第一集合,以致於獲得該些第一頻譜部份之該第一集合的該第一雙聲道表現和該些第一頻譜部份之該第一集合的該第二雙聲道表現,其中該頻率再生器係配置以使用該些第一頻譜部份的該第一雙聲道表現或該第二雙聲道表現,作為在給該第二頻譜部份之該雙聲道辨識中的指示。
  19. 一種編碼雙聲道音頻訊號的方法,包括下列步驟:將該雙聲道音頻音頻訊號轉換成一頻譜表現;提供要被與一第一頻譜解析度編碼的多個第一頻譜部份之一第一集合的一辨識碼,以及要被與第二頻譜解析度編碼的多個第二頻譜部份之一第二集合的一辨識碼,而該第二解析度小於該第一解析度;分析在一重構範圍中之該雙聲道音頻訊號的頻帶,以判斷用於一重構頻帶的一雙聲道辨識,其辨識一第一雙聲道表現或辨識一第二雙聲道表現,其中該重構頻帶包括該些第二頻譜部份之該第二集合之其中之一; 編碼該些第一頻譜部份之該第一集合,以提供一第一編碼表現;以及計算在該些第二頻譜部份之該第二集合上的參數資料,其中一被編碼的雙聲道音頻訊號包括該第一編碼表現、被編碼的該參數資料和用於該些第二頻譜部份之該第二集合的該雙聲道辨識。
  20. 一種電腦程式,當該電腦程式在一電腦或一處理器上運行時,則執行如申請專利範圍第18或19項所述的方法。
TW103124623A 2013-07-22 2014-07-17 使用在智慧間隙填充架構內之雙聲道處理之音頻編碼器、音頻解碼器及相關方法 TWI555008B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13177350 2013-07-22
EP13177353 2013-07-22
EP13177348 2013-07-22
EP13177346 2013-07-22
EP13189366.1A EP2830054A1 (en) 2013-07-22 2013-10-18 Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework

Publications (2)

Publication Number Publication Date
TW201517023A TW201517023A (zh) 2015-05-01
TWI555008B true TWI555008B (zh) 2016-10-21

Family

ID=49385156

Family Applications (7)

Application Number Title Priority Date Filing Date
TW103124628A TWI555009B (zh) 2013-07-22 2014-07-17 使用適應性頻譜平鋪選擇進行解碼及編碼的裝置及方法
TW103124629A TWI545561B (zh) 2013-07-22 2014-07-17 用於解碼具有頻率平鋪適應之編碼音源訊號的裝置
TW103124630A TWI541797B (zh) 2013-07-22 2014-07-17 使用時間雜訊修補成形以編碼及解碼已被編碼音訊的裝置及方法
TW103124626A TWI545558B (zh) 2013-07-22 2014-07-17 使用重構頻帶之能量資訊值之音頻訊號之編碼或解碼裝置與方法
TW103124622A TWI545560B (zh) 2013-07-22 2014-07-17 具有在頻譜域填充有智慧間隙之音頻訊號之編碼或解碼裝置與方法
TW103124623A TWI555008B (zh) 2013-07-22 2014-07-17 使用在智慧間隙填充架構內之雙聲道處理之音頻編碼器、音頻解碼器及相關方法
TW103124811A TWI549121B (zh) 2013-07-22 2014-07-18 利用在過渡頻率之交叉濾波器之編碼音頻訊號之解碼裝置與方法

Family Applications Before (5)

Application Number Title Priority Date Filing Date
TW103124628A TWI555009B (zh) 2013-07-22 2014-07-17 使用適應性頻譜平鋪選擇進行解碼及編碼的裝置及方法
TW103124629A TWI545561B (zh) 2013-07-22 2014-07-17 用於解碼具有頻率平鋪適應之編碼音源訊號的裝置
TW103124630A TWI541797B (zh) 2013-07-22 2014-07-17 使用時間雜訊修補成形以編碼及解碼已被編碼音訊的裝置及方法
TW103124626A TWI545558B (zh) 2013-07-22 2014-07-17 使用重構頻帶之能量資訊值之音頻訊號之編碼或解碼裝置與方法
TW103124622A TWI545560B (zh) 2013-07-22 2014-07-17 具有在頻譜域填充有智慧間隙之音頻訊號之編碼或解碼裝置與方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
TW103124811A TWI549121B (zh) 2013-07-22 2014-07-18 利用在過渡頻率之交叉濾波器之編碼音頻訊號之解碼裝置與方法

Country Status (20)

Country Link
US (24) US10332539B2 (zh)
EP (20) EP2830065A1 (zh)
JP (11) JP6306702B2 (zh)
KR (7) KR101809592B1 (zh)
CN (12) CN110660410B (zh)
AU (7) AU2014295301B2 (zh)
BR (11) BR122022010958B1 (zh)
CA (8) CA2918524C (zh)
ES (9) ES2908624T3 (zh)
HK (1) HK1211378A1 (zh)
MX (7) MX354657B (zh)
MY (5) MY184847A (zh)
PL (8) PL3407350T3 (zh)
PT (7) PT3017448T (zh)
RU (7) RU2646316C2 (zh)
SG (7) SG11201600464WA (zh)
TR (1) TR201816157T4 (zh)
TW (7) TWI555009B (zh)
WO (7) WO2015010953A1 (zh)
ZA (5) ZA201502262B (zh)

Families Citing this family (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104221082B (zh) 2012-03-29 2017-03-08 瑞典爱立信有限公司 谐波音频信号的带宽扩展
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
BR112016004299B1 (pt) * 2013-08-28 2022-05-17 Dolby Laboratories Licensing Corporation Método, aparelho e meio de armazenamento legível por computador para melhora de fala codificada paramétrica e codificada com forma de onda híbrida
FR3011408A1 (fr) * 2013-09-30 2015-04-03 Orange Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
EP3518237B1 (en) * 2014-03-14 2022-09-07 Telefonaktiebolaget LM Ericsson (publ) Audio coding method and apparatus
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
KR102547480B1 (ko) 2014-12-09 2023-06-26 돌비 인터네셔널 에이비 Mdct-도메인 에러 은닉
TWI758146B (zh) 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
GB201504403D0 (en) 2015-03-16 2015-04-29 Microsoft Technology Licensing Llc Adapting encoded bandwidth
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
EP3171362B1 (en) * 2015-11-19 2019-08-28 Harman Becker Automotive Systems GmbH Bass enhancement and separation of an audio signal into a harmonic and transient signal component
EP3182411A1 (en) 2015-12-14 2017-06-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an encoded audio signal
BR112018014813A2 (pt) * 2016-01-22 2018-12-18 Fraunhofer Ges Forschung ?aparelho, sistema e método para codificar canais de um sinal de entrada de áudio, aparelho, sistema e método para decodificar um sinal de áudio codificado e sistema para gerar um sinal de áudio codificado e um sinal de áudio decodificado?
PT3405951T (pt) 2016-01-22 2020-02-05 Fraunhofer Ges Forschung Aparelhos e métodos para codificar ou descodificar um sinal de áudio multicanal utilizando sincronização de controlo de quadro
EP3208800A1 (en) * 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
DE102016104665A1 (de) * 2016-03-14 2017-09-14 Ask Industries Gmbh Verfahren und Vorrichtung zur Aufbereitung eines verlustbehaftet komprimierten Audiosignals
US10741196B2 (en) 2016-03-24 2020-08-11 Harman International Industries, Incorporated Signal quality-based enhancement and compensation of compressed audio signals
US10141005B2 (en) 2016-06-10 2018-11-27 Apple Inc. Noise detection and removal systems, and related methods
JP6976277B2 (ja) 2016-06-22 2021-12-08 ドルビー・インターナショナル・アーベー 第一の周波数領域から第二の周波数領域にデジタル・オーディオ信号を変換するためのオーディオ・デコーダおよび方法
US10249307B2 (en) * 2016-06-27 2019-04-02 Qualcomm Incorporated Audio decoding using intermediate sampling rate
US10812550B1 (en) * 2016-08-03 2020-10-20 Amazon Technologies, Inc. Bitrate allocation for a multichannel media stream
EP3288031A1 (en) 2016-08-23 2018-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding an audio signal using a compensation value
US9679578B1 (en) 2016-08-31 2017-06-13 Sorenson Ip Holdings, Llc Signal clipping compensation
EP3306609A1 (en) * 2016-10-04 2018-04-11 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for determining a pitch information
US10362423B2 (en) * 2016-10-13 2019-07-23 Qualcomm Incorporated Parametric audio decoding
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
US10304468B2 (en) * 2017-03-20 2019-05-28 Qualcomm Incorporated Target sample generation
US10090892B1 (en) * 2017-03-20 2018-10-02 Intel Corporation Apparatus and a method for data detecting using a low bit analog-to-digital converter
EP3382704A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal
EP3382700A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
EP3382701A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
ES2881704T3 (es) 2017-05-18 2021-11-30 Fraunhofer Ges Forschung Dispositivo de red de gestión
US11188422B2 (en) 2017-06-02 2021-11-30 Apple Inc. Techniques for preserving clone relationships between files
DK3642839T3 (da) * 2017-06-19 2022-07-04 Rtx As Audiosignalkodning og -afkodning
CN110998722B (zh) 2017-07-03 2023-11-10 杜比国际公司 低复杂性密集瞬态事件检测和译码
CN111386568B (zh) * 2017-10-27 2023-10-13 弗劳恩霍夫应用研究促进协会 使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机可读存储介质
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483882A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
TWI702594B (zh) 2018-01-26 2020-08-21 瑞典商都比國際公司 用於音訊信號之高頻重建技術之回溯相容整合
US11076252B2 (en) * 2018-02-09 2021-07-27 Mitsubishi Electric Corporation Audio signal processing apparatus and audio signal processing method
US10950251B2 (en) * 2018-03-05 2021-03-16 Dts, Inc. Coding of harmonic signals in transform-based audio codecs
EP3576088A1 (en) * 2018-05-30 2019-12-04 Fraunhofer Gesellschaft zur Förderung der Angewand Audio similarity evaluator, audio encoder, methods and computer program
AU2019298307A1 (en) * 2018-07-04 2021-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multisignal audio coding using signal whitening as preprocessing
CN109088617B (zh) * 2018-09-20 2021-06-04 电子科技大学 比率可变数字重采样滤波器
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder
US10847172B2 (en) * 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder
EP3671741A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio processor and method for generating a frequency-enhanced audio signal using pulse processing
WO2020146870A1 (en) * 2019-01-13 2020-07-16 Huawei Technologies Co., Ltd. High resolution audio coding
JP7262593B2 (ja) * 2019-01-13 2023-04-21 華為技術有限公司 ハイレゾリューションオーディオ符号化
KR102470429B1 (ko) * 2019-03-14 2022-11-23 붐클라우드 360 인코포레이티드 우선순위에 의한 공간 인식 다중 대역 압축 시스템
CN110265043B (zh) * 2019-06-03 2021-06-01 同响科技股份有限公司 自适应有损或无损的音频压缩和解压缩演算方法
WO2020253941A1 (en) * 2019-06-17 2020-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs
US11527252B2 (en) 2019-08-30 2022-12-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. MDCT M/S stereo
TWI702780B (zh) 2019-12-03 2020-08-21 財團法人工業技術研究院 提升共模瞬變抗擾度的隔離器及訊號產生方法
CN111862953B (zh) * 2019-12-05 2023-08-22 北京嘀嘀无限科技发展有限公司 语音识别模型的训练方法、语音识别方法及装置
CN113192517B (zh) * 2020-01-13 2024-04-26 华为技术有限公司 一种音频编解码方法和音频编解码设备
US11158297B2 (en) * 2020-01-13 2021-10-26 International Business Machines Corporation Timbre creation system
US20230085013A1 (en) * 2020-01-28 2023-03-16 Hewlett-Packard Development Company, L.P. Multi-channel decomposition and harmonic synthesis
CN111199743B (zh) * 2020-02-28 2023-08-18 Oppo广东移动通信有限公司 音频编码格式确定方法、装置、存储介质及电子设备
CN111429925B (zh) * 2020-04-10 2023-04-07 北京百瑞互联技术有限公司 一种降低音频编码速率的方法及系统
CN113593586A (zh) * 2020-04-15 2021-11-02 华为技术有限公司 音频信号编码方法、解码方法、编码设备以及解码设备
CN111371459B (zh) * 2020-04-26 2023-04-18 宁夏隆基宁光仪表股份有限公司 一种适用于智能电表的多操作高频替换式数据压缩方法
CN113808596A (zh) * 2020-05-30 2021-12-17 华为技术有限公司 一种音频编码方法和音频编码装置
CN113808597A (zh) * 2020-05-30 2021-12-17 华为技术有限公司 一种音频编码方法和音频编码装置
CN113113033A (zh) * 2021-04-29 2021-07-13 腾讯音乐娱乐科技(深圳)有限公司 一种音频处理方法、设备及可读存储介质
CN113365189B (zh) * 2021-06-04 2022-08-05 上海傅硅电子科技有限公司 多声道无缝切换方法
CN115472171A (zh) * 2021-06-11 2022-12-13 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序
CN113593604A (zh) * 2021-07-22 2021-11-02 腾讯音乐娱乐科技(深圳)有限公司 检测音频质量方法、装置及存储介质
TWI794002B (zh) * 2022-01-28 2023-02-21 緯創資通股份有限公司 多媒體系統以及多媒體操作方法
CN114582361B (zh) * 2022-04-29 2022-07-08 北京百瑞互联技术有限公司 基于生成对抗网络的高解析度音频编解码方法及系统
WO2023224665A1 (en) * 2022-05-17 2023-11-23 Google Llc Asymmetric and adaptive strength for windowing at encoding and decoding time for audio compression
WO2024085551A1 (ko) * 2022-10-16 2024-04-25 삼성전자주식회사 패킷 손실 은닉을 위한 전자 장치 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050165611A1 (en) * 2004-01-23 2005-07-28 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
WO2008084427A2 (en) * 2007-01-10 2008-07-17 Koninklijke Philips Electronics N.V. Audio decoder
US20080262853A1 (en) * 2005-10-20 2008-10-23 Lg Electronics, Inc. Method for Encoding and Decoding Multi-Channel Audio Signal and Apparatus Thereof
TW201205558A (en) * 2010-04-13 2012-02-01 Fraunhofer Ges Forschung Audio or video encoder, audio or video decoder and related methods for processing multi-channel audio or video signals using a variable prediction direction

Family Cites Families (260)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62234435A (ja) * 1986-04-04 1987-10-14 Kokusai Denshin Denwa Co Ltd <Kdd> 符号化音声の復号化方式
US6289308B1 (en) 1990-06-01 2001-09-11 U.S. Philips Corporation Encoded wideband digital transmission signal and record carrier recorded with such a signal
CN1038089C (zh) 1993-05-31 1998-04-15 索尼公司 信号编码或译码装置及信号编码或译码方法
JP3465697B2 (ja) * 1993-05-31 2003-11-10 ソニー株式会社 信号記録媒体
TW272341B (zh) * 1993-07-16 1996-03-11 Sony Co Ltd
GB2281680B (en) * 1993-08-27 1998-08-26 Motorola Inc A voice activity detector for an echo suppressor and an echo suppressor
BE1007617A3 (nl) * 1993-10-11 1995-08-22 Philips Electronics Nv Transmissiesysteem met gebruik van verschillende codeerprincipes.
US5502713A (en) * 1993-12-07 1996-03-26 Telefonaktiebolaget Lm Ericsson Soft error concealment in a TDMA radio system
JPH07336231A (ja) * 1994-06-13 1995-12-22 Sony Corp 信号符号化方法及び装置、信号復号化方法及び装置、並びに記録媒体
DE69619284T3 (de) * 1995-03-13 2006-04-27 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur Erweiterung der Sprachbandbreite
US6041295A (en) 1995-04-10 2000-03-21 Corporate Computer Systems Comparing CODEC input/output to adjust psycho-acoustic parameters
JP3747492B2 (ja) 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
JP3246715B2 (ja) * 1996-07-01 2002-01-15 松下電器産業株式会社 オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
JPH10124088A (ja) * 1996-10-24 1998-05-15 Sony Corp 音声帯域幅拡張装置及び方法
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
US6253172B1 (en) * 1997-10-16 2001-06-26 Texas Instruments Incorporated Spectral transformation of acoustic signals
US5913191A (en) 1997-10-17 1999-06-15 Dolby Laboratories Licensing Corporation Frame-based audio coding with additional filterbank to suppress aliasing artifacts at frame boundaries
DE19747132C2 (de) * 1997-10-24 2002-11-28 Fraunhofer Ges Forschung Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
US6029126A (en) * 1998-06-30 2000-02-22 Microsoft Corporation Scalable audio coder and decoder
US6253165B1 (en) * 1998-06-30 2001-06-26 Microsoft Corporation System and method for modeling probability distribution functions of transform coefficients of encoded signal
US6453289B1 (en) 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US6061555A (en) 1998-10-21 2000-05-09 Parkervision, Inc. Method and system for ensuring reception of a communications signal
US6400310B1 (en) * 1998-10-22 2002-06-04 Washington University Method and apparatus for a tunable high-resolution spectral estimator
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
JP3762579B2 (ja) 1999-08-05 2006-04-05 株式会社リコー デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
US6978236B1 (en) 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
EP1147514B1 (en) * 1999-11-16 2005-04-06 Koninklijke Philips Electronics N.V. Wideband audio transmission system
US7742927B2 (en) 2000-04-18 2010-06-22 France Telecom Spectral enhancing method and device
SE0001926D0 (sv) 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
CN100431355C (zh) * 2000-08-16 2008-11-05 多尔拜实验特许公司 响应补充信息修改音频或视频感知编码系统的一个或多个参数
US7003467B1 (en) 2000-10-06 2006-02-21 Digital Theater Systems, Inc. Method of decoding two-channel matrix encoded audio to reconstruct multichannel audio
SE0004163D0 (sv) 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
US20020128839A1 (en) 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
US20040054525A1 (en) 2001-01-22 2004-03-18 Hiroshi Sekiguchi Encoding method and decoding method for digital voice data
JP2002268693A (ja) 2001-03-12 2002-09-20 Mitsubishi Electric Corp オーディオ符号化装置
SE522553C2 (sv) 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
US6934676B2 (en) 2001-05-11 2005-08-23 Nokia Mobile Phones Ltd. Method and system for inter-channel signal redundancy removal in perceptual audio coding
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
JP2003108197A (ja) * 2001-07-13 2003-04-11 Matsushita Electric Ind Co Ltd オーディオ信号復号化装置およびオーディオ信号符号化装置
DE60230856D1 (de) * 2001-07-13 2009-03-05 Panasonic Corp Audiosignaldecodierungseinrichtung und audiosignalcodierungseinrichtung
DE60220307T2 (de) * 2001-10-25 2008-02-07 Koninklijke Philips Electronics N.V. Verfahren zur übertragung breitbandiger tonsignale über einen übertragungskanal mit verminderter bandbreite
JP3923783B2 (ja) * 2001-11-02 2007-06-06 松下電器産業株式会社 符号化装置及び復号化装置
JP4308229B2 (ja) 2001-11-14 2009-08-05 パナソニック株式会社 符号化装置および復号化装置
AU2002352182A1 (en) * 2001-11-29 2003-06-10 Coding Technologies Ab Methods for improving high frequency reconstruction
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7146313B2 (en) 2001-12-14 2006-12-05 Microsoft Corporation Techniques for measurement of perceptual audio quality
US7206740B2 (en) * 2002-01-04 2007-04-17 Broadcom Corporation Efficient excitation quantization in noise feedback coding with general noise shaping
DE60323331D1 (de) 2002-01-30 2008-10-16 Matsushita Electric Ind Co Ltd Verfahren und vorrichtung zur audio-kodierung und -dekodierung
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
RU2316154C2 (ru) 2002-04-10 2008-01-27 Конинклейке Филипс Электроникс Н.В. Кодирование стереофонических сигналов
US20030220800A1 (en) * 2002-05-21 2003-11-27 Budnikov Dmitry N. Coding multichannel audio signals
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
CN1659927A (zh) * 2002-06-12 2005-08-24 伊科泰克公司 房间内扬声器声音的数字均衡方法及其使用
KR100462615B1 (ko) * 2002-07-11 2004-12-20 삼성전자주식회사 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
DE20321883U1 (de) 2002-09-04 2012-01-20 Microsoft Corp. Computervorrichtung und -system zum Entropiedecodieren quantisierter Transformationskoeffizienten eines Blockes
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
US7318027B2 (en) 2003-02-06 2008-01-08 Dolby Laboratories Licensing Corporation Conversion of synthesized spectral components for encoding and low-complexity transcoding
FR2852172A1 (fr) * 2003-03-04 2004-09-10 France Telecom Procede et dispositif de reconstruction spectrale d'un signal audio
RU2244386C2 (ru) 2003-03-28 2005-01-10 Корпорация "Самсунг Электроникс" Способ восстановления высокочастотной составляющей аудиосигнала и устройство для его реализации
CN1774957A (zh) 2003-04-17 2006-05-17 皇家飞利浦电子股份有限公司 音频信号生成
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
US20050004793A1 (en) 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
EP1667109A4 (en) * 2003-09-17 2007-10-03 Beijing E World Technology Co METHOD AND DEVICE FOR QUANTIFYING MULTI-RESOLUTION VECTOR FOR AUDIO CODING AND DECODING
US7447317B2 (en) 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
DE10345995B4 (de) 2003-10-02 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten
DE10345996A1 (de) * 2003-10-02 2005-04-28 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Verarbeiten von wenigstens zwei Eingangswerten
RU2374703C2 (ru) 2003-10-30 2009-11-27 Конинклейке Филипс Электроникс Н.В. Кодирование или декодирование аудиосигнала
DE102004007191B3 (de) * 2004-02-13 2005-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
DE102004007200B3 (de) * 2004-02-13 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
DE102004007184B3 (de) 2004-02-13 2005-09-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Quantisieren eines Informationssignals
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
DE602005022641D1 (de) 2004-03-01 2010-09-09 Dolby Lab Licensing Corp Mehrkanal-Audiodekodierung
US7739119B2 (en) 2004-03-02 2010-06-15 Ittiam Systems (P) Ltd. Technique for implementing Huffman decoding
US7272567B2 (en) * 2004-03-25 2007-09-18 Zoran Fejzo Scalable lossless audio codec and authoring tool
CN1677491A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
CN1677492A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
EP1852851A1 (en) * 2004-04-01 2007-11-07 Beijing Media Works Co., Ltd An enhanced audio encoding/decoding device and method
CN1677493A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
RU2382419C2 (ru) * 2004-04-05 2010-02-20 Конинклейке Филипс Электроникс Н.В. Многоканальный кодер
US7668711B2 (en) 2004-04-23 2010-02-23 Panasonic Corporation Coding equipment
KR20070009644A (ko) * 2004-04-27 2007-01-18 마츠시타 덴끼 산교 가부시키가이샤 스케일러블 부호화 장치, 스케일러블 복호화 장치 및 그방법
DE102004021403A1 (de) * 2004-04-30 2005-11-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalverarbeitung durch Modifikation in der Spektral-/Modulationsspektralbereichsdarstellung
ATE394774T1 (de) * 2004-05-19 2008-05-15 Matsushita Electric Ind Co Ltd Kodierungs-, dekodierungsvorrichtung und methode dafür
US7649988B2 (en) 2004-06-15 2010-01-19 Acoustic Technologies, Inc. Comfort noise generator using modified Doblinger noise estimate
WO2006003891A1 (ja) * 2004-07-02 2006-01-12 Matsushita Electric Industrial Co., Ltd. 音声信号復号化装置及び音声信号符号化装置
US7465389B2 (en) 2004-07-09 2008-12-16 Exxonmobil Research And Engineering Company Production of extra-heavy lube oils from Fischer-Tropsch wax
US6963405B1 (en) 2004-07-19 2005-11-08 Itt Manufacturing Enterprises, Inc. Laser counter-measure using fourier transform imaging spectrometers
KR100608062B1 (ko) * 2004-08-04 2006-08-02 삼성전자주식회사 오디오 데이터의 고주파수 복원 방법 및 그 장치
TWI497485B (zh) 2004-08-25 2015-08-21 Dolby Lab Licensing Corp 用以重塑經合成輸出音訊信號之時域包絡以更接近輸入音訊信號之時域包絡的方法
EP1798724B1 (en) 2004-11-05 2014-06-18 Panasonic Corporation Encoder, decoder, encoding method, and decoding method
US7983904B2 (en) * 2004-11-05 2011-07-19 Panasonic Corporation Scalable decoding apparatus and scalable encoding apparatus
KR100721537B1 (ko) * 2004-12-08 2007-05-23 한국전자통신연구원 광대역 음성 부호화기의 고대역 음성 부호화 장치 및 그방법
WO2006062202A1 (ja) * 2004-12-10 2006-06-15 Matsushita Electric Industrial Co., Ltd. 広帯域符号化装置、広帯域lsp予測装置、帯域スケーラブル符号化装置及び広帯域符号化方法
KR100707174B1 (ko) * 2004-12-31 2007-04-13 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
ES2350494T3 (es) * 2005-04-01 2011-01-24 Qualcomm Incorporated Procedimiento y aparatos para codificar y decodificar una parte de banda alta de una señal de habla.
NZ562188A (en) 2005-04-01 2010-05-28 Qualcomm Inc Methods and apparatus for encoding and decoding an highband portion of a speech signal
US7983922B2 (en) 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
DE602006004959D1 (de) * 2005-04-15 2009-03-12 Dolby Sweden Ab Zeitliche hüllkurvenformgebung von entkorrelierten signalen
US8892448B2 (en) * 2005-04-22 2014-11-18 Qualcomm Incorporated Systems, methods, and apparatus for gain factor smoothing
US7698143B2 (en) 2005-05-17 2010-04-13 Mitsubishi Electric Research Laboratories, Inc. Constructing broad-band acoustic signals from lower-band acoustic signals
JP2006323037A (ja) * 2005-05-18 2006-11-30 Matsushita Electric Ind Co Ltd オーディオ信号復号化装置
EP1899959A2 (en) 2005-05-26 2008-03-19 LG Electronics Inc. Method of encoding and decoding an audio signal
US8315863B2 (en) * 2005-06-17 2012-11-20 Panasonic Corporation Post filter, decoder, and post filtering method
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
US8082157B2 (en) 2005-06-30 2011-12-20 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US8032368B2 (en) * 2005-07-11 2011-10-04 Lg Electronics Inc. Apparatus and method of encoding and decoding audio signals using hierarchical block swithcing and linear prediction coding
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
KR100803205B1 (ko) 2005-07-15 2008-02-14 삼성전자주식회사 저비트율 오디오 신호 부호화/복호화 방법 및 장치
CN100539437C (zh) 2005-07-29 2009-09-09 上海杰得微电子有限公司 一种音频编解码器的实现方法
JP4640020B2 (ja) 2005-07-29 2011-03-02 ソニー株式会社 音声符号化装置及び方法、並びに音声復号装置及び方法
EP1938663A4 (en) 2005-08-30 2010-11-17 Lg Electronics Inc DEVICE FOR ENCODING AND DECODING AUDIO SIGNAL AND CORRESPONDING METHOD
US7974713B2 (en) 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
US8620644B2 (en) 2005-10-26 2013-12-31 Qualcomm Incorporated Encoder-assisted frame loss concealment techniques for audio coding
KR20070046752A (ko) * 2005-10-31 2007-05-03 엘지전자 주식회사 신호 처리 방법 및 장치
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
KR100717058B1 (ko) * 2005-11-28 2007-05-14 삼성전자주식회사 고주파 성분 복원 방법 및 그 장치
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US7831434B2 (en) 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
KR100959971B1 (ko) * 2006-01-27 2010-05-27 돌비 스웨덴 에이비 복소 변조된 필터뱅크를 이용한 효율적인 필터링
EP1852848A1 (en) * 2006-05-05 2007-11-07 Deutsche Thomson-Brandt GmbH Method and apparatus for lossless encoding of a source signal using a lossy encoded data stream and a lossless extension data stream
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
US8682652B2 (en) * 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
EP2337224B1 (en) * 2006-07-04 2017-06-21 Dolby International AB Filter unit and method for generating subband filter impulse responses
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8135047B2 (en) 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
JP2010503881A (ja) 2006-09-13 2010-02-04 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声・音響送信器及び受信器のための方法及び装置
DE602007013415D1 (de) * 2006-10-16 2011-05-05 Dolby Sweden Ab Erweiterte codierung und parameterrepräsentation einer mehrkanaligen heruntergemischten objektcodierung
RU2420815C2 (ru) 2006-10-25 2011-06-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для генерации значений подполос звукового сигнала и устройство и способ для генерации отсчетов звукового сигнала во временной области
US20080243518A1 (en) * 2006-11-16 2008-10-02 Alexey Oraevsky System And Method For Compressing And Reconstructing Audio Files
US8170359B2 (en) 2006-11-28 2012-05-01 Panasonic Corporation Encoding device and encoding method
WO2008072524A1 (ja) 2006-12-13 2008-06-19 Panasonic Corporation オーディオ信号符号化方法及び復号化方法
US8200351B2 (en) 2007-01-05 2012-06-12 STMicroelectronics Asia PTE., Ltd. Low power downmix energy equalization in parametric stereo encoders
US20080208538A1 (en) 2007-02-26 2008-08-28 Qualcomm Incorporated Systems, methods, and apparatus for signal separation
US20080208575A1 (en) * 2007-02-27 2008-08-28 Nokia Corporation Split-band encoding and decoding of an audio signal
JP5294713B2 (ja) 2007-03-02 2013-09-18 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
KR101355376B1 (ko) 2007-04-30 2014-01-23 삼성전자주식회사 고주파수 영역 부호화 및 복호화 방법 및 장치
KR101411900B1 (ko) 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
CN101067931B (zh) * 2007-05-10 2011-04-20 芯晟(北京)科技有限公司 一种高效可配置的频域参数立体声及多声道编解码方法与系统
RU2422922C1 (ru) * 2007-06-08 2011-06-27 Долби Лэборетериз Лайсенсинг Корпорейшн Гибридное извлечение аудиоканалов объемного звука посредством управляемого объединения компонент сигналов окружения и компонент матрично-декодируемых сигналов
US7774205B2 (en) 2007-06-15 2010-08-10 Microsoft Corporation Coding of sparse digital media spectral data
CN101325059B (zh) * 2007-06-15 2011-12-21 华为技术有限公司 语音编解码收发方法及装置
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8428957B2 (en) * 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
CN101809657B (zh) 2007-08-27 2012-05-30 爱立信电话股份有限公司 用于噪声填充的方法和设备
MX2010001394A (es) * 2007-08-27 2010-03-10 Ericsson Telefon Ab L M Frecuencia de transicion adaptiva entre llenado de ruido y extension de anchura de banda.
DE102007048973B4 (de) * 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
US8527265B2 (en) 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
KR101373004B1 (ko) * 2007-10-30 2014-03-26 삼성전자주식회사 고주파수 신호 부호화 및 복호화 장치 및 방법
US9177569B2 (en) * 2007-10-30 2015-11-03 Samsung Electronics Co., Ltd. Apparatus, medium and method to encode and decode high frequency signal
EP2207166B1 (en) * 2007-11-02 2013-06-19 Huawei Technologies Co., Ltd. An audio decoding method and device
EP2218068A4 (en) 2007-11-21 2010-11-24 Lg Electronics Inc METHOD AND APPARATUS FOR SIGNAL PROCESSING
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
CN101933086B (zh) * 2007-12-31 2013-06-19 Lg电子株式会社 处理音频信号的方法和设备
ATE500588T1 (de) * 2008-01-04 2011-03-15 Dolby Sweden Ab Audiokodierer und -dekodierer
US20090180531A1 (en) 2008-01-07 2009-07-16 Radlive Ltd. codec with plc capabilities
KR101413967B1 (ko) 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화 방법 및 복호화 방법, 및 그에 대한 기록 매체, 오디오 신호의 부호화 장치 및 복호화 장치
ES2401817T3 (es) 2008-01-31 2013-04-24 Agency For Science, Technology And Research Procedimiento y dispositivo de distribución/truncado de la velocidad de transmisión de bits para codificación de audio escalable
BRPI0907508B1 (pt) * 2008-02-14 2020-09-15 Dolby Laboratories Licensing Corporation Método, sistema e método para modificar uma entrada estéreo que inclui sinais de entrada esquerdo e direito
AU2009221444B2 (en) * 2008-03-04 2012-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Mixing of input data streams and generation of an output data stream therefrom
EP2252996A4 (en) * 2008-03-05 2012-01-11 Voiceage Corp SYSTEM AND METHOD FOR ENHANCING A DECODED TONAL SIGNAL SIGNAL
EP3273442B1 (en) 2008-03-20 2021-10-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for synthesizing a parameterized representation of an audio signal
KR20090110244A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치
WO2009135532A1 (en) 2008-05-09 2009-11-12 Nokia Corporation An apparatus
US20090319263A1 (en) 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
EP2144171B1 (en) * 2008-07-11 2018-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding frames of a sampled audio signal
MY178597A (en) 2008-07-11 2020-10-16 Fraunhofer Ges Forschung Audio encoder, audio decoder, methods for encoding and decoding an audio signal, and a computer program
EP2346030B1 (en) * 2008-07-11 2014-10-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, method for encoding an audio signal and computer program
RU2536679C2 (ru) * 2008-07-11 2014-12-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Передатчик сигнала активации с деформацией по времени, кодер звукового сигнала, способ преобразования сигнала активации с деформацией по времени, способ кодирования звукового сигнала и компьютерные программы
JP5010743B2 (ja) 2008-07-11 2012-08-29 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル傾斜で制御されたフレーミングを使用して帯域拡張データを計算するための装置及び方法
MY155538A (en) 2008-07-11 2015-10-30 Fraunhofer Ges Forschung An apparatus and a method for generating bandwidth extension output data
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
BR122021007798B1 (pt) * 2008-07-11 2021-10-26 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Codificador de áudio e decodificador de áudio
AU2009267525B2 (en) * 2008-07-11 2012-12-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal synthesizer and audio signal encoder
EP2154911A1 (en) 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
US8463603B2 (en) 2008-09-06 2013-06-11 Huawei Technologies Co., Ltd. Spectral envelope coding of energy attack signal
US8532983B2 (en) 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Adaptive frequency prediction for encoding or decoding an audio signal
WO2010031049A1 (en) 2008-09-15 2010-03-18 GH Innovation, Inc. Improving celp post-processing for music signals
JP5295372B2 (ja) * 2008-09-17 2013-09-18 フランス・テレコム デジタルオーディオ信号におけるプリエコーの減衰
EP2224433B1 (en) * 2008-09-25 2020-05-27 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
US9947340B2 (en) * 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
EP4231294B1 (en) 2008-12-15 2023-11-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio bandwidth extension decoder
EP2360687A4 (en) * 2008-12-19 2012-07-11 Fujitsu Ltd VOICE BAND EXTENSION DEVICE AND VOICE BAND EXTENSION METHOD
CA3231911A1 (en) 2009-01-16 2010-07-22 Dolby International Ab Cross product enhanced harmonic transposition
JP4977157B2 (ja) 2009-03-06 2012-07-18 株式会社エヌ・ティ・ティ・ドコモ 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
KR101367604B1 (ko) * 2009-03-17 2014-02-26 돌비 인터네셔널 에이비 적응형으로 선택가능한 좌/우 또는 미드/사이드 스테레오 코딩과 파라메트릭 스테레오 코딩의 조합에 기초한 진보된 스테레오 코딩
EP2239732A1 (en) 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
JP4932917B2 (ja) * 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
CN101521014B (zh) * 2009-04-08 2011-09-14 武汉大学 音频带宽扩展编解码装置
US8391212B2 (en) * 2009-05-05 2013-03-05 Huawei Technologies Co., Ltd. System and method for frequency domain audio post-processing based on perceptual masking
EP2249333B1 (en) * 2009-05-06 2014-08-27 Nuance Communications, Inc. Method and apparatus for estimating a fundamental frequency of a speech signal
CN101556799B (zh) 2009-05-14 2013-08-28 华为技术有限公司 一种音频解码方法和音频解码器
TWI643187B (zh) * 2009-05-27 2018-12-01 瑞典商杜比國際公司 從訊號的低頻成份產生該訊號之高頻成份的系統與方法,及其機上盒、電腦程式產品、軟體程式及儲存媒體
CN101609680B (zh) * 2009-06-01 2012-01-04 华为技术有限公司 压缩编码和解码的方法、编码器和解码器以及编码装置
PL2273493T3 (pl) 2009-06-29 2013-07-31 Fraunhofer Ges Forschung Kodowanie i dekodowanie z rozszerzaniem szerokości pasma
EP2452323B1 (en) 2009-07-07 2018-03-14 Xtralis Technologies Ltd Chamber condition
US8793617B2 (en) * 2009-07-30 2014-07-29 Microsoft Corporation Integrating transport modes into a communication stream
US9031834B2 (en) 2009-09-04 2015-05-12 Nuance Communications, Inc. Speech enhancement techniques on the power spectrum
GB2473267A (en) 2009-09-07 2011-03-09 Nokia Corp Processing audio signals to reduce noise
RU2591661C2 (ru) * 2009-10-08 2016-07-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Многорежимный декодировщик аудио сигнала, многорежимный кодировщик аудио сигналов, способы и компьютерные программы с использованием кодирования с линейным предсказанием на основе ограничения шума
KR101137652B1 (ko) * 2009-10-14 2012-04-23 광운대학교 산학협력단 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법
MX2012004593A (es) 2009-10-20 2012-06-08 Fraunhofer Ges Forschung Codec multimodo de audio y codificacion de celp adaptada a este.
MY166169A (en) 2009-10-20 2018-06-07 Fraunhofer Ges Forschung Audio signal encoder,audio signal decoder,method for encoding or decoding an audio signal using an aliasing-cancellation
ES2906085T3 (es) * 2009-10-21 2022-04-13 Dolby Int Ab Sobremuestreo en un banco de filtros de reemisor combinado
US8484020B2 (en) * 2009-10-23 2013-07-09 Qualcomm Incorporated Determining an upperband signal from a narrowband signal
US8856011B2 (en) 2009-11-19 2014-10-07 Telefonaktiebolaget L M Ericsson (Publ) Excitation signal bandwidth extension
CN102081927B (zh) 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
CA2779453C (en) 2009-12-07 2015-12-22 Dolby Laboratories Licensing Corporation Decoding of multichannel audio encoded bit streams using adaptive hybrid transformation
KR101764926B1 (ko) 2009-12-10 2017-08-03 삼성전자주식회사 음향 통신을 위한 장치 및 방법
AU2010332925B2 (en) * 2009-12-16 2013-07-11 Dolby International Ab SBR bitstream parameter downmix
EP2357649B1 (en) * 2010-01-21 2012-12-19 Electronics and Telecommunications Research Institute Method and apparatus for decoding audio signal
CN102194457B (zh) * 2010-03-02 2013-02-27 中兴通讯股份有限公司 音频编解码方法、系统及噪声水平估计方法
CN103038819B (zh) * 2010-03-09 2015-02-18 弗兰霍菲尔运输应用研究公司 用以使用补丁边界对准处理输入音频信号的装置及方法
EP2369861B1 (en) 2010-03-25 2016-07-27 Nxp B.V. Multi-channel audio signal processing
DK2556504T3 (en) * 2010-04-09 2019-02-25 Dolby Int Ab MDCT-BASED COMPLEX PREVIEW Stereo Encoding
EP2375409A1 (en) 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
US8886523B2 (en) 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
CN102947882B (zh) 2010-04-16 2015-06-17 弗劳恩霍夫应用研究促进协会 使用制导带宽扩展和盲带宽扩展生成宽带信号的装置、方法
US8600737B2 (en) 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
WO2011155170A1 (ja) 2010-06-09 2011-12-15 パナソニック株式会社 帯域拡張方法、帯域拡張装置、プログラム、集積回路およびオーディオ復号装置
US9047875B2 (en) 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
US9236063B2 (en) * 2010-07-30 2016-01-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dynamic bit allocation
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
US8489403B1 (en) 2010-08-25 2013-07-16 Foundation For Research and Technology—Institute of Computer Science ‘FORTH-ICS’ Apparatuses, methods and systems for sparse sinusoidal audio processing and transmission
KR101826331B1 (ko) 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
AR085895A1 (es) * 2011-02-14 2013-11-06 Fraunhofer Ges Forschung Generacion de ruido en codecs de audio
EP2702589B1 (en) 2011-04-28 2017-04-05 Dolby International AB Efficient content classification and loudness estimation
WO2012158705A1 (en) 2011-05-19 2012-11-22 Dolby Laboratories Licensing Corporation Adaptive audio processing based on forensic detection of media processing history
WO2012158333A1 (en) 2011-05-19 2012-11-22 Dolby Laboratories Licensing Corporation Forensic detection of parametric audio coding schemes
DE102011106033A1 (de) * 2011-06-30 2013-01-03 Zte Corporation Verfahren und System zur Audiocodierung und -decodierung und Verfahren zur Schätzung des Rauschpegels
US20130006644A1 (en) 2011-06-30 2013-01-03 Zte Corporation Method and device for spectral band replication, and method and system for audio decoding
JP6001657B2 (ja) 2011-06-30 2016-10-05 サムスン エレクトロニクス カンパニー リミテッド 帯域幅拡張信号生成装置及びその方法
JP6037156B2 (ja) * 2011-08-24 2016-11-30 ソニー株式会社 符号化装置および方法、並びにプログラム
JP5942358B2 (ja) 2011-08-24 2016-06-29 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
KR20130022549A (ko) 2011-08-25 2013-03-07 삼성전자주식회사 마이크 노이즈 제거 방법 및 이를 지원하는 휴대 단말기
US9384749B2 (en) 2011-09-09 2016-07-05 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, encoding method and decoding method
BR112014007481A2 (pt) 2011-09-29 2017-04-04 Dolby Int Ab detecção de alta qualidade em sinais de rádio fm estéreo
EP3321931B1 (en) * 2011-10-28 2019-12-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding apparatus and encoding method
EP3279895B1 (en) * 2011-11-02 2019-07-10 Telefonaktiebolaget LM Ericsson (publ) Audio encoding based on an efficient representation of auto-regressive coefficients
JP6069341B2 (ja) * 2011-11-30 2017-02-01 ドルビー・インターナショナル・アーベー オーディオ・コーデックからの向上したクロマ抽出のための方法、エンコーダ、デコーダ、ソフトウェア・プログラム、記憶媒体
JP5817499B2 (ja) * 2011-12-15 2015-11-18 富士通株式会社 復号装置、符号化装置、符号化復号システム、復号方法、符号化方法、復号プログラム、及び符号化プログラム
CN103165136A (zh) * 2011-12-15 2013-06-19 杜比实验室特许公司 音频处理方法及音频处理设备
US9390721B2 (en) 2012-01-20 2016-07-12 Panasonic Intellectual Property Corporation Of America Speech decoding device and speech decoding method
KR101398189B1 (ko) 2012-03-27 2014-05-22 광주과학기술원 음성수신장치 및 음성수신방법
CN104221082B (zh) * 2012-03-29 2017-03-08 瑞典爱立信有限公司 谐波音频信号的带宽扩展
KR20140130248A (ko) * 2012-03-29 2014-11-07 텔레폰악티에볼라겟엘엠에릭슨(펍) 하모닉 오디오 신호의 변환 인코딩/디코딩
CN102750955B (zh) * 2012-07-20 2014-06-18 中国科学院自动化研究所 基于残差信号频谱重构的声码器
US9589570B2 (en) 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
EP2903004A4 (en) 2012-09-24 2016-11-16 Samsung Electronics Co Ltd METHOD AND APPARATUS FOR HAMPERING FRAME ERRORS, AND METHOD AND APPARATUS FOR DECODING AUDIO DATA
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
US9135920B2 (en) 2012-11-26 2015-09-15 Harman International Industries, Incorporated System for perceived enhancement and restoration of compressed audio signals
PL3054446T3 (pl) 2013-01-29 2024-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Koder audio, dekoder audio, sposób dostarczania kodowanej informacji audio, sposób dostarczania zdekodowanej informacji audio, program komputerowy i kodowana reprezentacja, stosujące adaptacyjne względem sygnału rozszerzenie szerokości pasma
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050165611A1 (en) * 2004-01-23 2005-07-28 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
US20080262853A1 (en) * 2005-10-20 2008-10-23 Lg Electronics, Inc. Method for Encoding and Decoding Multi-Channel Audio Signal and Apparatus Thereof
WO2008084427A2 (en) * 2007-01-10 2008-07-17 Koninklijke Philips Electronics N.V. Audio decoder
TW201205558A (en) * 2010-04-13 2012-02-01 Fraunhofer Ges Forschung Audio or video encoder, audio or video decoder and related methods for processing multi-channel audio or video signals using a variable prediction direction

Also Published As

Publication number Publication date
WO2015010952A9 (en) 2017-10-26
US10147430B2 (en) 2018-12-04
PT3025328T (pt) 2018-11-27
EP3025337A1 (en) 2016-06-01
MY187943A (en) 2021-10-30
WO2015010947A1 (en) 2015-01-29
TWI541797B (zh) 2016-07-11
BR112015007533A2 (zh) 2017-08-22
EP3025337B1 (en) 2021-12-08
ES2959641T3 (es) 2024-02-27
AU2014295298A1 (en) 2016-03-10
EP2830059A1 (en) 2015-01-28
WO2015010949A1 (en) 2015-01-29
KR20160034975A (ko) 2016-03-30
CN110310659B (zh) 2023-10-24
MX355448B (es) 2018-04-18
ES2667221T3 (es) 2018-05-10
US20190074019A1 (en) 2019-03-07
CN105518776B (zh) 2019-06-14
US20150287417A1 (en) 2015-10-08
JP6568566B2 (ja) 2019-08-28
US20180102134A1 (en) 2018-04-12
JP6321797B2 (ja) 2018-05-09
KR20160030193A (ko) 2016-03-16
MX353999B (es) 2018-02-07
BR112016000740A2 (pt) 2017-08-22
AU2014295300B2 (en) 2017-05-25
PL3506260T3 (pl) 2024-02-19
SG11201502691QA (en) 2015-05-28
CN105453175B (zh) 2020-11-03
TW201517024A (zh) 2015-05-01
WO2015010948A1 (en) 2015-01-29
CN111554310A (zh) 2020-08-18
KR101774795B1 (ko) 2017-09-05
AU2014295298B2 (en) 2017-05-25
CN105453176B (zh) 2019-08-23
JP6400702B2 (ja) 2018-10-03
US11769513B2 (en) 2023-09-26
MY184847A (en) 2021-04-27
RU2640634C2 (ru) 2018-01-10
JP6306702B2 (ja) 2018-04-04
EP2883227A1 (en) 2015-06-17
BR112016001072B1 (pt) 2022-07-12
HK1211378A1 (zh) 2016-05-20
RU2016105619A (ru) 2017-08-23
CN110660410A (zh) 2020-01-07
EP2883227B1 (en) 2016-08-17
SG11201600506VA (en) 2016-02-26
RU2016105759A (ru) 2017-08-25
CA2918810C (en) 2020-04-28
EP3025340B1 (en) 2019-03-27
AU2014295296B2 (en) 2017-10-19
BR112016001125A2 (zh) 2017-08-22
BR122022011238B1 (pt) 2023-12-19
BR122022010960B1 (pt) 2023-04-04
CA2918807A1 (en) 2015-01-29
US10847167B2 (en) 2020-11-24
TR201816157T4 (tr) 2018-11-21
PT3407350T (pt) 2020-10-27
US20190043522A1 (en) 2019-02-07
PT3017448T (pt) 2020-10-08
BR112016001072A2 (zh) 2017-08-22
EP3025340A1 (en) 2016-06-01
US20220270619A1 (en) 2022-08-25
EP3506260B1 (en) 2023-08-16
JP6389254B2 (ja) 2018-09-12
AU2014295297B2 (en) 2017-05-25
US20160133265A1 (en) 2016-05-12
EP3017448B1 (en) 2020-07-08
AU2014295300A1 (en) 2016-03-10
ES2813940T3 (es) 2021-03-25
EP2830063A1 (en) 2015-01-28
US11922956B2 (en) 2024-03-05
EP2830064A1 (en) 2015-01-28
US11250862B2 (en) 2022-02-15
US10332539B2 (en) 2019-06-25
RU2635890C2 (ru) 2017-11-16
RU2651229C2 (ru) 2018-04-18
TW201523589A (zh) 2015-06-16
MX356161B (es) 2018-05-16
CA2973841A1 (en) 2015-01-29
RU2649940C2 (ru) 2018-04-05
US20210295853A1 (en) 2021-09-23
KR20160046804A (ko) 2016-04-29
JP2016530556A (ja) 2016-09-29
BR112015007533B1 (pt) 2022-09-27
EP3506260A1 (en) 2019-07-03
US10276183B2 (en) 2019-04-30
US20220139407A1 (en) 2022-05-05
US20200082841A1 (en) 2020-03-12
EP2830061A1 (en) 2015-01-28
MX2016000940A (es) 2016-04-25
CN104769671A (zh) 2015-07-08
EP3025344B1 (en) 2017-06-21
BR112016000740B1 (pt) 2022-12-27
CN110310659A (zh) 2019-10-08
AU2014295295B2 (en) 2017-10-19
ES2827774T3 (es) 2021-05-24
US20160140973A1 (en) 2016-05-19
EP3742444A1 (en) 2020-11-25
CN105580075B (zh) 2020-02-07
CA2918807C (en) 2019-05-07
WO2015010952A1 (en) 2015-01-29
ZA201601046B (en) 2017-05-31
EP3407350A1 (en) 2018-11-28
JP6186082B2 (ja) 2017-08-23
PL3017448T3 (pl) 2020-12-28
KR20150060752A (ko) 2015-06-03
EP3025343B1 (en) 2018-02-14
WO2015010950A1 (en) 2015-01-29
US20160210974A1 (en) 2016-07-21
WO2015010953A1 (en) 2015-01-29
CA2918804A1 (en) 2015-01-29
KR101764723B1 (ko) 2017-08-14
PT3025343T (pt) 2018-05-18
BR122022010958B1 (pt) 2024-01-30
US20230352032A1 (en) 2023-11-02
TWI555009B (zh) 2016-10-21
US20220157325A1 (en) 2022-05-19
SG11201600496XA (en) 2016-02-26
US10593345B2 (en) 2020-03-17
WO2015010954A1 (en) 2015-01-29
US10002621B2 (en) 2018-06-19
RU2016105618A (ru) 2017-08-28
ES2698023T3 (es) 2019-01-30
PL3407350T3 (pl) 2020-12-28
US10134404B2 (en) 2018-11-20
MY182831A (en) 2021-02-05
RU2016105610A (ru) 2017-08-25
US20160140980A1 (en) 2016-05-19
JP2022123060A (ja) 2022-08-23
US10311892B2 (en) 2019-06-04
CA2918835A1 (en) 2015-01-29
US20160140981A1 (en) 2016-05-19
SG11201600494UA (en) 2016-02-26
CA2918701C (en) 2020-04-14
US10515652B2 (en) 2019-12-24
US10332531B2 (en) 2019-06-25
BR122022011231B1 (pt) 2024-01-30
TWI545561B (zh) 2016-08-11
MX354002B (es) 2018-02-07
CA2886505A1 (en) 2015-01-29
US20170154631A1 (en) 2017-06-01
EP3025328A1 (en) 2016-06-01
KR20160042890A (ko) 2016-04-20
PT2883227T (pt) 2016-11-18
CA2973841C (en) 2019-08-20
EP3975180A1 (en) 2022-03-30
US11222643B2 (en) 2022-01-11
US11049506B2 (en) 2021-06-29
KR101826723B1 (ko) 2018-03-22
CA2918701A1 (en) 2015-01-29
CA2918524A1 (en) 2015-01-29
KR20160024924A (ko) 2016-03-07
JP2016529545A (ja) 2016-09-23
EP4246512A3 (en) 2023-12-13
JP7092809B2 (ja) 2022-06-28
SG11201600401RA (en) 2016-02-26
CN112466312A (zh) 2021-03-09
EP3025344A1 (en) 2016-06-01
RU2016105613A (ru) 2017-08-28
JP2016527557A (ja) 2016-09-08
EP2830065A1 (en) 2015-01-28
PL3025343T3 (pl) 2018-10-31
BR112016001125B1 (pt) 2022-01-04
ZA201601010B (en) 2017-11-29
KR101681253B1 (ko) 2016-12-01
PL3025337T3 (pl) 2022-04-11
TW201517023A (zh) 2015-05-01
CA2918524C (en) 2018-05-22
TW201513098A (zh) 2015-04-01
CN111554310B (zh) 2023-10-20
MY180759A (en) 2020-12-08
EP3025328B1 (en) 2018-08-01
TW201514974A (zh) 2015-04-16
ZA201601111B (en) 2017-08-30
AU2014295301B2 (en) 2017-05-25
US20190198029A1 (en) 2019-06-27
ZA201502262B (en) 2016-09-28
MX2016000935A (es) 2016-07-05
US20160140979A1 (en) 2016-05-19
BR112016000947B1 (pt) 2022-06-21
CN111179963A (zh) 2020-05-19
MX2016000943A (es) 2016-07-05
US11289104B2 (en) 2022-03-29
MX2016000854A (es) 2016-06-23
US20210217426A1 (en) 2021-07-15
RU2643641C2 (ru) 2018-02-02
US20190251986A1 (en) 2019-08-15
MX2015004022A (es) 2015-07-06
PT3025340T (pt) 2019-06-27
US11769512B2 (en) 2023-09-26
CA2886505C (en) 2017-10-31
EP3017448A1 (en) 2016-05-11
US20180144760A1 (en) 2018-05-24
MX354657B (es) 2018-03-14
AU2014295302B2 (en) 2016-06-30
EP2830056A1 (en) 2015-01-28
KR101822032B1 (ko) 2018-03-08
CN105453175A (zh) 2016-03-30
US11735192B2 (en) 2023-08-22
RU2646316C2 (ru) 2018-03-02
EP2830054A1 (en) 2015-01-28
CN105518776A (zh) 2016-04-20
KR20160041940A (ko) 2016-04-18
AU2014295296A1 (en) 2016-03-10
US20190371355A1 (en) 2019-12-05
BR112016000852A2 (pt) 2017-08-22
JP2018077487A (ja) 2018-05-17
RU2016105473A (ru) 2017-08-23
JP6705787B2 (ja) 2020-06-03
CN105518777B (zh) 2020-01-31
EP3025343A1 (en) 2016-06-01
CN110660410B (zh) 2023-10-24
JP2015535620A (ja) 2015-12-14
JP6144773B2 (ja) 2017-06-07
JP2016527556A (ja) 2016-09-08
AU2014295297A1 (en) 2016-03-10
SG11201600464WA (en) 2016-02-26
CN105580075A (zh) 2016-05-11
US20180268842A1 (en) 2018-09-20
ES2728329T3 (es) 2019-10-23
BR122022010965B1 (pt) 2023-04-04
CN105518777A (zh) 2016-04-20
CA2918835C (en) 2018-06-26
EP4246512A2 (en) 2023-09-20
CA2918804C (en) 2018-06-12
RU2015112591A (ru) 2016-10-27
PL2883227T3 (pl) 2017-03-31
MX2016000924A (es) 2016-05-05
AU2014295295A1 (en) 2016-03-10
MX340575B (es) 2016-07-13
JP2018041100A (ja) 2018-03-15
TW201523590A (zh) 2015-06-16
MX362036B (es) 2019-01-04
TW201517019A (zh) 2015-05-01
EP3407350B1 (en) 2020-07-29
JP2016525713A (ja) 2016-08-25
CN104769671B (zh) 2017-09-26
US20210065723A1 (en) 2021-03-04
US10573334B2 (en) 2020-02-25
ES2638498T3 (es) 2017-10-23
ES2599007T3 (es) 2017-01-31
PL3025340T3 (pl) 2019-09-30
CN105453176A (zh) 2016-03-30
JP6691093B2 (ja) 2020-04-28
ZA201601011B (en) 2017-05-31
KR101807836B1 (ko) 2018-01-18
MX2016000857A (es) 2016-05-05
PL3025328T3 (pl) 2019-02-28
BR112016000852B1 (pt) 2021-12-28
AU2014295302A1 (en) 2015-04-02
EP3506260C0 (en) 2023-08-16
ES2908624T3 (es) 2022-05-03
US10984805B2 (en) 2021-04-20
JP2020060792A (ja) 2020-04-16
RU2607263C2 (ru) 2017-01-10
BR112016000947A2 (zh) 2017-08-22
CA2918810A1 (en) 2015-01-29
JP2016529546A (ja) 2016-09-23
KR101809592B1 (ko) 2018-01-18
CN105556603A (zh) 2016-05-04
JP2018013796A (ja) 2018-01-25
CN105556603B (zh) 2019-08-27
MY175978A (en) 2020-07-19
PT3025337T (pt) 2022-02-23
AU2014295301A1 (en) 2016-03-10
EP3723091A1 (en) 2020-10-14
TWI545560B (zh) 2016-08-11
TWI549121B (zh) 2016-09-11
TWI545558B (zh) 2016-08-11
SG11201600422SA (en) 2016-02-26
US11257505B2 (en) 2022-02-22
US10347274B2 (en) 2019-07-09
JP6310074B2 (ja) 2018-04-11

Similar Documents

Publication Publication Date Title
TWI555008B (zh) 使用在智慧間隙填充架構內之雙聲道處理之音頻編碼器、音頻解碼器及相關方法