TW201248615A - Noise generation in audio codecs - Google Patents

Noise generation in audio codecs Download PDF

Info

Publication number
TW201248615A
TW201248615A TW101104680A TW101104680A TW201248615A TW 201248615 A TW201248615 A TW 201248615A TW 101104680 A TW101104680 A TW 101104680A TW 101104680 A TW101104680 A TW 101104680A TW 201248615 A TW201248615 A TW 201248615A
Authority
TW
Taiwan
Prior art keywords
background noise
parameter
audio signal
data stream
phase
Prior art date
Application number
TW101104680A
Other languages
English (en)
Other versions
TWI480856B (zh
Inventor
Panji Setiawan
Stephan Wilde
Anthony Lombard
Martin Dietz
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of TW201248615A publication Critical patent/TW201248615A/zh
Application granted granted Critical
Publication of TWI480856B publication Critical patent/TWI480856B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/13Residual excited linear prediction [RELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/02Synthesis of acoustic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Description

201248615 六、發明說明: c發明戶斤屬之技術領域3 本發明係有關於在不活動階段期間支援雜訊合成之音 訊編解碼器。 【先前技術3 利用語音或其它雜訊源的不活動週期來縮小傳輸帶寬 的可能乃技藝界所已知。此等方案一般係使用某個檢測形 式來區別不活動(或無聲)階段與活動(或非無聲)階段。在不 活動階段期間,藉由中止精準地編碼該記錄信號之平常資 料串流的傳輸,而只發送無聲插入描述(SID)更新來取而代 之而達成較低位元率。SID更新可以常規間隔傳輸,或當檢 測得背景雜訊特性改變時傳輸。然後SID訊框可用在解碼端 來產生背景雜訊,該背景雜訊具有類似在活動階段期間之 背景雜訊的特性,使得中止編碼該記錄信號的平常資料串 流的傳輸在接收者端不會導致從活動階段至不活動階段令 人不愉悅的過渡情況。 但仍然需要進一步減低傳輸率。位元率耗用者數目的 增加諸如行動電話數目的增加,及或多或少位元率密集應 用數目的增加,諸如無線傳輸廣播,要求穩定地減少耗用 的位元率。 另一方面,合成雜訊須密切地仿真真實雜訊,使得該 合成對使用者而言為透明不可見。 【發明内容】 據此,本發明之一個目的係提出一種在不活動階段期 201248615 使得減低傳輸位元 間支板雜訊合成之音訊編解碼器方案 率同時維持可達雜訊產生品質。 分主旨藉審❹隨附之申請專利範圍獨立項之部 合成雜^之個目㈣提出—種在不活動階段期間支援 雜度t:=:r器,就例如位™算複 nt, #額外負擔之下產生更真實感的雜 的主旨達r可11樹咖範_增另-部分 心確'r之本糾之基本構想在㈣譜域可極為有 :也用來參數化背景雜訊,因而獲得更真實的背景雜訊之 成及如此導致活動階段切換至不活動階段更透明不可 見 此外,業已發現於頻譜域參數化背景雜訊,許可分離 雜錢有用信號及據此,於頻譜域參數化背景雜訊當組合 在活動階段期間參數背景雜訊估值之前述連續更新時有其 優點,原因在於頻譜域可達成雜訊與有用信號間之更佳分 離’因而當組合本案之兩個優異構面時,無需從—個定義 域至另—定義域的額外變遷。 依據特定實施例,藉由在活動階段期間連續地更新炎 數背景雜訊估值,使得當在活動階段之後進入不活動階^ 時可即刻地開始雜訊的生成,可節省有價值的位元率伴以 維持雜訊產生品質。舉例言之,連續更新可在解碼端進行, 無需在檢測得不活動階段之後緊接的暖機階段期間斜兮解 碼端初步地提供以背景雜訊之編碼表示型態,該項提供以 201248615 訊之蝙碼表示型態將耗用有價值 點,及如此、、’,階段期間連續地更新該參考電壓節 雜訊產生地^料動㈣伴以合宜的 可避免此^該參考電壓節婦、錢碼端完成,則 暖機階段。替代當檢測得進入不活動階段睥、 習得該背二景雜訊之編碼表示型態來 在檢測得進!= 舉習階咖 讀人不活動階段時時即刻’藉回到料活動 乂:連續地更新的參數背景雜訊估值’編碼器能對解: 益曰供以所需參數背景雜訊估值,因而避免額外執行詢查 式編碼背景雜訊而初步耗用位元率。 — 本發明之實施例之額外優異細節為審查中之申請專利 範圍中之附屬項的主旨。 圖式簡單說明 本案之較佳實施例係參考附圖說明如後,附圖中: 第1圖為方塊圖顯示依據一實施例之音訊編碼器; 第2圖顯示編碼引擎14之可能體現; 第3圖為依據一實施例音訊解碼器之方塊圖; 第4圖顯示依據一實施例第3圖之解碼引擎之可能體現; 第5圖顯示依據實施例之又一進一步細節描述音訊編 碼器之方塊圖; 第6圖顯示依據一實施例可與第5圖之編碼器連結使用 之解碼器之方塊圖; 第7圖顯示依據實施例之又一進一步細節描述音訊解 5 201248615 碼器之方塊圖; 第8圖顯示依據一實施例音訊編碼器之頻譜帶寬擴延 部分之方塊圖; 第9圖顯示依據一實施例第8圖之舒適雜訊產生(Qsfq 頻譜帶宽擴延編碼器之體現; 第10圖顯示依據一實施例使用頻錯帶寬擴延之音t代解 碼器之方塊圖; 第11圖顯示使用頻譜帶寬擴延之音訊解碼器之一實施 例的可能進一步細節描述之方塊圖; 第12圖顯示依據又一實施例使用頻譜帶寬擴延之音訊 編碼器之方塊圖;及 第13圖顯示音訊編碼器之又一實施例之方塊圖。 【實施方式3 第1圖顯示依據本發明之一實施例之音訊編碼器。第1 圖之音訊編碼益包含一背景雜訊估算益12、一編碼引擎 14、一檢測器16、一音訊信號輸入18及一資料串流輸出20。 提供器12、編碼引擎14及檢測器16分別地具有一輸入連結 至一音訊信號輸入18。估算器12及編碼引擎14之輸出分別 地透過開關22而連結至資料串流輸出20。開關22、估算器 12及編碼引擎η具有一控制輸入分別地連結至檢測器16之 一輸出。 編碼器14在活動階段24期間將輸入音訊信號編碼成資 料串流30,及檢測器16係經組配來基於該輸入信號而檢測 後活動階段24之後進入34不活動階段28。藉編碼引擎Η輸 6 201248615 出之資料串流30部分係標示為44。 背景雜訊估算器12係經組配來基於—輸入音訊信號之 頻譜分解表示型態而決定一參數背景雜訊估值,使得該參 數背景雜訊估值頻譜描述該輸入音訊信號之背景雜訊之頻 譜波封。決定可始於進入不活動階段38時,亦即恰在檢測 器16檢測得不活動性時的該時間瞬間34之後。於該種情況 下,資料串流30之正常部分44將略微擴延至不活動階段, 亦即將持續另一個短週期足夠讓背景雜訊估算器丨2從輸入 信號學習/估算背景雜訊,此時輸入信號係假定只由背景雜 訊組成。 但下述實施例採用另一種方式。依據另一實施例容後 s羊述,在活動階段期間可連續地執行決定來更新供當進入 不活動階段時即刻使用的該估值。 總而s之,音訊編碼器1 〇係經纟且配來在不活動階段Μ 期間,諸如運用SID訊框32及38來將該參考電壓節點編碼成 資料串流30。 如此,雖然後續解說的許多實施例係指在活動階段期 間連續地執行雜訊估算因而可即刻地開始雜訊合成,但非 必要為此種情況,體現上可以不同。大致言之,須瞭解此 等優異實施例中呈示的全部細節也解說或揭露當檢測雜訊 估值時例如也執行雜訊估算之實施例。 如此,背景雜訊估算器12係經組配來在活動階段24期 間,基於在輸入18端進入音訊編碼器1〇的輸入音訊信號而 連續地更新一參數背景雜訊估值。雖然第丨圖提示背景雜訊 201248615 估算器12可基於在輪入18端所輸入的音訊信號而推衍參數 背景雜訊估值之連續更新,但非必要為此種情況。背景雜 訊估异器12可另外地或此外地從編碼引擎14獲得音訊信號 版本’如虛線26例示說明。於該種情況下,背景雜訊估算 益12可另外地或此外地分別地透過連接線26及編碼引擎14 而間接地連結至輪入18。更明確言之,針對背景雜訊估算 益12連續地更新背景雜訊估值存在有不同的可能性,若干 此等可能性容後詳述。 編碼引擎14係餘絲在活動階段24鮮1編碼到達輸 入18的輸入音訊信號成為資料串流。活動階段應涵蓋有用 的Η讯含在該音訊信號内部的全部時間,諸如語音或其它 雜訊源之有用聲音。另一方面,具有幾乎時間不變特性的 聲音諸如於揚聲器背景中由雨聲或交通聲所引起的時間不 變頻譜須歸類為背景雜訊,每當只存在有此種背景雜訊 時,個別時間週期應歸類為不活動階段28。檢測器16係負 貝基於在輸入18的輸入音訊信號而檢測在活動階段24後進 入不活動階段28。換言之,檢測器16區別兩個階段,亦即 活動階段及不活動階段,其中檢測器16決定目前存在哪個 階段*檢測器16通知編碼引擎14有關目前存在的階段,及 如前文已述,編碼引擎14執行活動階段24期間該輸入音訊 信號之編碼成為資料串流。檢測器16據此控制開關22,使 得由編碼引擎14所輸出的資料串流係在輸出2〇輸出。在不 活動階段期間,編碼引擎14可停止編碼輸入音訊信號。至 少在輸出20所輸出的資料串流不再由可能藉編碼引擎14所 201248615 輸出的任何資料串流而饋入。此外,編碼引擎14可只執行 最少處理來支援估算器12而只有若干狀態變數更新。此種 動作將大減運算功率。例如開關22係設定為使得估算器12 的輸出係連結至輸出20,而非連結至編碼引擎的輸出。藉 此減少用以傳輸在輸出2〇所輸出的位元串流之有用的傳輪 位元率。 於背景雜訊估算器12係經組配來在活動階段24期間基 於如前文已述之輸入音訊信號18而連續地更新一參數背景 雜訊估值的情況下,恰在從活動階段24過渡至不活動階段 28後,亦即恰在進入不活動階段28時,估算器12能夠將在 活動階段2 4期間所連續地更新的該參數背景雜訊估值插入 在輸出20所輸出的資料串流30。緊接在活動階段24結束 後’及緊接在檢測器16檢測得進入不活動階段28之時間瞬 間34後,背景雜訊估算器12例如可將無聲插入描述符(SID) 讯框32插入資料串流30内。換言之,由於在活動階段24期 間背景雜訊估算器對參數背景雜訊估值之連續更新,故在 檢測器16檢測得進入不活動階段28與SID 32之插入間無需 時間間隙。 如此,摘要如上說明,第1圖之音訊編碼器1〇符合體現 第1圖實施例之較佳選項,可操作如下。用於例示說明目 的,假設目前存在一活動階段24。於此種情況下,編碼引 擎14將在輸入18的輸入音訊信號目前地編碼成資料串流 20。開關22連結編碼引擎14之輸出至輸出2〇。編碼弓丨擎14 可使用參數編碼及變換編碼來將輸入音訊信號18編碼成資 201248615 料串流。更明確言之,編碼引擎丨何以訊框單位編碼該輸 入音訊信號,各個訊框編碼該輸入音訊信號之接續且部分 彼此重疊之時間區間中之一者。編碼引擎14額外地可在資 料串流的接續訊框間,在不同編碼模式間切換。舉例言之, 某些訊框可使用預測編碼諸如CELP編碼而編碼,及若干其 它訊框可使用變換編碼諸如TCX或AAC編碼而編碼。請參 考例如USAC及其編碼模式’例如述於iso/iec CD 23003-3 日期2010年9月24日。 在活動階段24期間,背景雜訊估算器丨2連續地更新參 數背景雜訊估值。據此’背景雜訊估算器12可經組配來區 別該輸入音訊信號内部的雜訊成分與有用信號成分而只從 該雜訊成分決定參數背景雜訊估值。背景雜訊估算器12在 頻譜域執行此項更新’諸如頻譜域也可用在編碼引擎14内 部之變換編碼。此外,在例如變換編碼輸入信號之以LPC 為基礎的濾波版本期間’而非進入輸入18或遺漏編碼成資 料串流的音訊信號’背景雜訊估算器12可基於呈中間結果 在編碼引擎14内部獲得的激勵信號或殘差信號而執行更 新。藉此在輸入音訊信號内的大量有用信號成分已經被移 除,故針對背景雜訊估算器12,雜訊成分的檢測更容易。 至於頻譜域’可使用重疊變換域諸如MDCT域,或濾波器 組域诸如複數值遽波益組域諸如QMF域。 在活動階段24期間,檢測器16也連續地運轉來檢測不 活動階段28的進入。檢測器16可具體實施為語音/聲音活動 檢測器(VAD/SAD)或若干其它構件,決定有用的信號成分 10 201248615 目前是否存在於該輸入音訊信號。假設一旦超過臨界值則 進入不活動階段,檢測器16決定是否繼續活動階段24的基 本標準可以是:查核該輸入音訊信號之低通濾波功率是否 保持低於某個臨界值。 與檢測器16執行檢測在活動階段24之後進入不活動階 段28的確切方式獨立無關地,檢測器16即刻地通知其它實 體12、14及22進入不活動階段28。在活動階段24期間背景 雜訊估算器的連續更新參數背景雜訊估值之情況下,在輸 出20所輸出的資料串流3〇可即刻地避免進一步從編碼引擎 14饋入。反而,當被通知進入不活動階段28時即刻,背景 雜訊估算器12將以SID訊框32形式,將該參數背景雜訊估值 之末次更新的資訊插入資料串流30内部。換言之,SID訊框 32緊接在編碼引擎的最末訊框之後,該最末訊框係編碼有 關檢測器16檢測得不活動階段進入的該時間區間之音訊信 號訊框。 一般而言,背景雜訊不常改變。於大部分情況下,就 時間上而言背景雜訊傾向於不變。據此,恰在檢測器16檢 測得不活動階段28的起始後即刻,在背景雜訊估算器12插 入SID訊框32後,任何資料串流的傳輸可被中斷,使得於此 中斷階段34中,資料串流30並不耗用任何位元率,或只耗 用若干傳輸目的所要求的最小位元率。為了維持最小位元 率,背景雜訊估算器12可間歇地重覆SID 32的輸出。 但儘管背景雜訊傾向於不隨時間而改變,雖言如此, 可能出現背景雜訊改變。舉例言之,設想在講電話中,行 11 201248615 動電話使用者離開汽車’故背景雜訊從馬達雜訊改變成車 外的交通雜訊。為了追蹤此種背景雜訊的改變,背景雜訊 估算器丨2可經組配來連續地調查背景雜訊,即便於不活動 階段28期間亦復如此。每當背景雜訊估算器12判定參數背 景雜訊估值改變量超過某個臨界值時,背景估算器12可透 過另一個SID 38而將參數背景雜訊估值的更新版本插入資 料串流20,其中隨後可接著另一個中斷階段4〇,直到例如 檢測器16檢測得另一個活動階段42開始為止等等。當然, 揭露目則已更新參數背景雜訊估值的SID訊框可另外地或 此外地,以中間方式散布在不活動階段内部,而與參數背 景雜訊估值之改變獨立無關。 顯然’藉編碼引擎14所輸出及第丨圖中使用影線指出的資 料串流44比較在不活動階段28期間欲傳輸㈣料流片段32 及38耗用更多傳輸位元率,因而位元率的節省相當顯著。 此外於方景雜gfl估算器12能夠藉前述選擇性連續估值 更新而即刻地開始進行至進_步饋進㈣串流3〇之情況 因而更進一步減低總耗用位元率。
音訊信號預測編碼成線性預測係數, 預測係數,及以變換編碼激勵信 下’超過時間上不活動階段檢測點34即無需初步繼續傳輸編 碼引擎14之資料串洎44, 號成編碼成激勵信號,及 料 φ吞 n /1 >1 及將線性預測係數分別地編碼成資
圖, F於第2圖。依據第2 一頻域雜訊塑形器 12 201248615 (FDNS)52、及-量化器54,係以所述順序串接在編碼引擎 14的音訊信號輸人56與資料串流輸出湖。又復,第2圖之 編碼引擎14包括線性_分析模組60 ,模組60係經組配來 藉個別地分析音訊信號各部分關f及施加自相關性至開 窗部上來從音ta信號56$定祕預測係數 ,或基於由變換 |§ 50所輸出的輸人音訊信號之變換域中的變換而決定自相 關性㈣〇c_lati〇n),決定方式係使用其功率頻譜,及施加 反DFT於其上’因而決定自相關性,隨後基於該自相關性諸 如使用(早-)李-杜演算法執行線性預測編碼(Lpc)估算。 基於由線性預測分析模組6〇所決定的線性預測係數, 於輸出58所輸出的貢料串流被饋以Lpc之個別資訊,及頻 域雜訊塑形器係經控制因而依據相對應於藉模組60所輸出 的線性預祕數所決定的線性制分析濾波器之轉移函式 的該轉移函式而頻譜上塑形該音訊韻_譜1為了於 資料串流中傳輸而將LPC的量化可於LSp/LSF域及使用内 插法進行,因㈣較分析_巾的分析速率,減低傳輸速 率。又復,在酬S中所執行的Lpc至頻譜加權轉換可涉及 施加ODFT至LPC_L ’及施加所得加權值至變換器的頻譜作 為除數。 然後,量化器54量化頻譜成形(平坦化)頻譜圖之變換係 數。舉例5之’變換器50使用重疊變換諸如MDCT來將該 音訊信號從時域轉成頻譜域,藉此獲得相對應於該輸入音 訊信號之重疊開窗部的接續變換,然後藉依據Lp分析遽波 器的轉移函式,加權此等變換而藉頻域雜訊塑形器52頻譜 13 201248615 成形。 已塑形頻譜圖可解譯為激勵信號,及以虚線箭頭62例 示說明時’背景雜訊估算器丨2可經組配來使用此一激勵信 號而更新該參數背景雜訊估值。另外地,如藉虚線箭頭64 指示’背景雜訊估算器12可利用如由變換器50輸出的重疊 變換表示型態作為直接更新的基礎,亦即無需藉雜訊塑形 器52做頻域雜訊塑形。 有關第1至2圖所示元件之可能體現的進一步細節係從 後文更詳細說明之實施例推衍,注意全部此等細節皆可個 別地轉移至第1及2圖之元件。 但在參考第3圖描述此等進一步細節實施例前,此外地 或另外地顯示可在解碼器端執行參數背景雜訊估值更新。 第3圖之音訊解碼器80係經組配來解碼進入解碼器8〇 之一輸入82的資料串流,因而從該資料串流重建一音訊信 號,欲在解碼器80之一輸出84輸出。該資料串流包括至少 一個活動階段86接著一個不活動階段88。音訊解碼 器80之 内部包括一背景雜訊估算器90、一解碼引擎92、一參數隨 機產生益94、及一背景雜訊產生器96。解碼引擎%係連結 在輸入82與輸出84間,及同理,背景雜訊估算器卯、背景 雜況產生n96及參數隨機產生器94係連結在輸人82與輸出 84間。解碼器92係經組配來在活動階段期間從資料串流重 建日。凡L號,使得如在輸出84輸出的音訊信號卯包括雜訊 及適當品質的有用聲音。 背景雜訊估算器9 0係經組配來基於得自資料串流的輸 201248615 入音訊信號之頻譜分解麵«而決定-參考電壓節點, 故該參考電壓㈣頻譜上描述該輸人音訊信號之背景雜^ 之頻譜波封。該參數隨機產生器94及#景雜訊產生器%係智 組配來藉由在不活動階段期間,使用該參考電壓節點控制該 參數隨機產生器而在該不活動階段期間重建音訊信號。 但如第3圖之虛線指示,音訊解碼器80可不包括估算器 90。反而如前文指示’資料串流可於其中編碼—參數背景 雜訊估值,其於頻譜上描述歸㈣訊之賴波封。於該 種情況下’解碼ϋ92可肋8&來在活㈣段顧從資料串 流重建音訊錢,㈣鱗數_產生㈤4及背景雜訊產 生器96協作來藉由在不活動階段88期間,取決於該參考電 壓郎點控㈣參數隨機產生H 9 4而在該不活動階段期間合 成該音訊信號。 但若存在有估算器9〇,則第3圖之解碼器80可在進入 1 〇 6不活動階段丨〇 6時藉由資料串流8 8諸如利用啟動不活動 旗標獲得通知。然後,解碼器92可進行繼續解碼初步額外 饋給部102,及在時間瞬間1〇6之後的該初步時間以内,背 厅、雜吼估算器可習得/估計該背景雜訊。但遵照前述第1及2 圖之實施例,可能背景雜訊估算器90係經組配來在活動階 &期間從該資料串流連續地更新該參數背景雜訊估值。 背景雜訊估算器90可能不是直接連結輸入82,反而係 透過解碼引擎92連結,如虛線1〇〇之例示說明,因而從解碼 弓丨擎92獲得該音訊信號之某個重建版本。原因在於背景雜 afl估算器90可經組配來極其類似背景雜訊估算器12地操 15 201248615 ’旦下«實料,背景雜㈣算_只存取該音訊信 〜之可重建版本’亦即包括在編碼端由量化所造成的損耗。 參數隨機產生器94可包括—或多個真或假i數產生 ,,藉該產生器輸出之數值序列可符合統計分布,可透過 彦景雜訊產生器96而參數地設定。 11 背景雜訊產生器96係經組配來藉由在不活動階段88期 間取決於传自背景㈣估算H 9⑽參數f景雜訊估值而控 制參數隨機產生频,而在*活龍段㈣間合成音訊作 號98。雖然兩個實體96及94顯示為串接,但串接不可解譯 為限制性。產生器96與94可以交聯。實際上,產生器舛可 解譯為產生器96之一部分。 如此,依據第3圖之優異體現’第3圖之音訊解碼器⑽ 之操作模式可以是如下。在活動階段86期間,輸入们係被 連續地提供以資料串流部分1〇2,該部分1〇2係在活動階段 86期間將由解碼引擎92處理。然後,在某個時間瞬間1〇6= 進入輸入82的資料串流104中止專用於解碼引擎92的資料 串流部分102的傳輸。換言之,在時間瞬間1〇6不再有額外 資料串流部分之訊框可資藉引擎92用於解碼。進入不活動 階段88的傳訊可以是資料申流部分1〇2傳輸的瓦解,或可藉 若干資訊108緊接排列在不活動階段88起點而予傳訊。 總而言之,不活動階段88的進入極為突然發生,但如 此不成問題,原因在於在活動階段86期間,背景雜訊估算 器90已經基於資料串流部分102而連續地更新參數背景雜 訊估值。因此之故,一旦不活動階段88在106開始時,背景 201248615 雜訊估算器90能夠對背景雜訊產±器96提供以參數背景雜 訊估值的最新版本。因此,從時間瞬間1〇6開始,當解碼引 擎92不再被饋以資料串流部分102時,解碼引擎%中止輸出 任何音訊信號重建,反而參數隨機產生器94係由背景雜訊 產生器%依據參數背景雜訊估值加以控制,使得在時間瞬 間10 6之後即刻可在輸出8 4輸出背景雜訊的仿真,因而無縫 地遵循如由解碼引擎92所輸出的重建音訊信號直到時間瞬 間106。交叉衰減可用來從如由引擎92所輸出的活動階段之 最末重建訊框變遷至如藉由近更新的參數背景雜訊估值版 本所決定之背景雜訊。 背景雜訊估算器90係經組配來在活動階段86期間,連 續地更新來自資料串流1〇4的參數背景雜訊估值,背景雜訊 估算器9 0可經組配來區別在音訊信號版本内部在活動階段 86從資料串流1〇4所重建的雜訊成分與有用信號成分,及只 從雜訊成分而不從有用信號成分決定該參數背景雜訊估 值。背景雜訊估算器90執行此項區別/分離之方式係相對應 於如前文就背景雜訊估算器12所摘要說明的方式。舉例言 之,可使用解碼引擎92内部從資料串流1〇4所内部重建的激 勵信號或殘差信號。 類似第2圖’第4圖顯示解碼引擎92之可能體現。依據 第4圖’解碼引擎92包括用以接收資料串流部分1〇2之一輸 入no,及用以輸出在活動階段86内部的重建音訊信號之一 輸出112。串接在其間,解碼引擎92包括一解量化器114、 一頻域雜訊塑形器(FDNS) 116及一反變換器118,該等構件 17 201248615 係以其所述順序連結在輸出110與音訊信號H2間。到達輸 出110的資料串流部分102包括激勵信號之變換編碼版本, 亦即表示該激勵信號之變換係數位準,該版本係饋至解量 化器之輸入;以及線性預測係數的資訊,該資訊係饋至頻 域雜訊塑形器I16。解量化器114解量化激勵信號的頻譜表 示型態及前傳至頻域雜訊塑形器116,頻域雜訊塑形器116 轉而依據相對應於線性預測合成濾波器的轉移函式而頻譜 成形激勵信號(連同平坦量化雜訊)之頻譜圖,藉此形成量化 雜訊。原則上,第4圖之FDNS 116的作用係類似第2圖之 FDNS : LPC係提取自資料串流,及然後LPC接受頻譜加權 轉換,轉換方式例如藉由施加ODFT至所提取的LPc,然後 施加所得頻譜加權至得自解量化器114的解量化頻譜上作 為乘數。然後重新變換器118將如此所得之從頻譜域重建音 訊信號轉移至時域,及在音訊信號112輸出如此所得之重建 音訊信號。重疊變換可由反變換器118諸如由IMDCT使用。 如虛線箭頭12 0例示說明,激勵信號的頻譜圖可由背景雜訊 估算器90用於參數背景雜訊更新。另外地,音訊信號之頻 譜圖本身可如虛線箭頭122指示使用。 有關第2圖及第4圖,須注意用以體現編碼/解碼引擎之 此等實施例並非解譯為限制性。其它實施例亦屬可行。此 外’編碼/解碼引擎可屬多模式編解碼器型別,於該處第2 及須之部件只負責編碼/解碼具有特定訊框編碼^式虚其 =的訊框,而其它訊框係由未顯示於第…圖之編碼 解碼5丨擎部件負責。此種另-種訊_碼模式也可以 18 201248615 是例如使用線性_編碼之_編碼模式,但編碼係在時 域編碼而非使用變換編碼。 第5圖顯示第!圖之編碼器之進一步細節實施例。更明 確言之’依據特定實施例背景雜訊估算器_以進一步細 節顯示於第5圖。 依據第5圖,背景雜訊估算器12包括一變換器14〇、一 FDNS 142、-LP分析模組144、-雜訊估算器146、一參數 估算器148、-平穩性測量器15〇、及一量化器152。剛才述 及的若干組件部分地或全部地可由編碼引擎㈣共同擁 有。舉例言之’變換器140與第2圖之變換器5〇可以相同, 線性預測分析模組6〇與14何以相同,FDNs 52與142可以 相同及/或量化器54及量化器152可在一個模組内體現。 第5圖也顯示位元串流封裝器154,其被動負責第i圖中 開關22的操作。更明確言之,例如VAD作為第5圖編碼器之 檢測器16,只是決定須採用哪一路徑,音訊編碼14路徑或 #景雜sfl估算器12路徑。更精確言之,編碼引擎14及背景 雜汛估算器12皆係並聯在輸入18與封裝器154間,其中於背 景雜訊估算器12内部,變換器14〇、FDNS 142、Lp分析模 組144、雜訊估算器146、參數估算器148、及量化器152係 並聯在輸入18與封裝器154間(以所述順序),而lp分析模組 144係個別地連結在輸入丨8與FDNS模組142之Lpc輸入與 量化器152之又一輸入間,及平穩性測量器15〇係額外地連 結在LP分析模組144與量化器152之控制輸入間。位元串流 封裝器154若接收到來自連結至其輸入的任一個實體之輸 19 201248615 入時單純執行封裝。 *於傳輸零訊框之情況下,亦即在不活動階段的中斷階 &期間’檢測1116通知背景雜訊估算器12,特別量化器152 來中止處理及不發送任何輸人給位元串流封裝器154。 依據第5圖,檢測訊可於時域及/或變換域 作來檢測活動階段/不活動階段。 , 第5圖之編碼器之操作模式如下。如將更明瞭,第5圖 之、扁I器此夠改良舒適雜訊之品質,諸如通常為靜態雜 訊’諸如汽車雜訊、許多人講話的喃喃雜訊、某些樂器、 及特別富含和諧之雜訊諸如雨滴聲。 更明確言之’第5圖之編碼器係控制在解碼端的隨機產 生器,因而激勵變換係數使得仿真在編碼端檢測得之雜 訊。據此,在討論第5圖之編碼器之功能前,進—步簡短地 參考第6圖’顯示解石馬器的一個可能實施例,能夠如藉第$ 圖之編碼器指示而在解碼端仿真該舒適雜訊。更概略言 之,第6圖顯示匹配第丨圖之編碼器的解碼器之可能體現。 更明確言之,第6圖之解碼器包括一解碼引擎16〇因而 在活動階段期間,解碼資料串流部分44 ,及一舒適雜訊產 生部分16 2用以基於在有關不活動階段2 8的資料串流中提 供的資訊32及38產生舒適雜訊。舒適雜訊產生部分ι62包括 一參數隨機產生器164、一 FDNS 166及一反量化器(或合成 器)168。模組164至168係彼此串接,因而在合成器168的輸 出端導致舒適雜訊,該舒適雜訊填補如就第1圖討論,在不 活動階段28期間藉解碼引擎160所輸出的重建音訊信號間 20 201248615 之間隙。處理器FDNS 166及反量化器168可以是解碼引擎 160的一部分。更明確言之’例如可與第4圖之FDNS 116及 118相同。 第5及6圖個別模組之操作模式及功能從後文討論將更 為明瞭。 更明確言之,諸如藉使用重疊變換,變換器14〇將輸入 信號頻譜分解頻譜圖。雜訊估算器146係經組配來從頻譜圖 中決定雜訊參數。同時,語音或聲音活動檢測器16評估從 輸入信號推衍的特徵,因而檢測是否發生從活動階段過渡 至不活動階段,或反之亦然。由檢測器16所利用的特徵可 以呈暫態/起始檢測器、調性度量、及LPC殘差度量形式。 暫態/起始檢測器可用來檢測於乾淨環境或去雜訊化信號 中活動語音的攻擊(能量的突增)或起始;調性度量可用來區 別有用的背景雜訊’諸如警笛聲、電話鈴聲及音樂聲;LpC 殘差可用來獲得該信號中存在有語音的指示。基於此等特 徵,檢測器16能粗略地給予目前訊框是否可歸類為例如語 音、無聲、音樂、或噪音之資訊。 雖然雜訊估算器146可負責區別頻譜圖内部的雜訊與 其中的有用信號成分,諸如提示於[R. Martin,基於最佳平 順化及最小統計資料之雜訊功率頻譜密度估計,2001],參 數估算器148可負責統計上分析雜訊成分,及例如基於雜訊 成分而決定各個頻譜成分之參數。 雜sfl估算器146例如可經組配來搜尋頻譜圖中之局部 最小值’及參數估算器148可經組配來決定在此等部分之雜 21 201248615 a統計資料’假設頻譜圖中之最小值主要係由於背景雜訊 而非前景聲音所促成。 作為中間註釋,強調也可藉沒有FDnS 142的雜訊估算 器進行估算’原因在於最小值確實也出現在未經塑形的頻 譜。大部分第5圖之描述維持不變。 參數$化器152轉而可經組配來參數化由參數估算器 148所估算轉數。_言之,^考慮雜訊成分 ,參數可 描述頻譜值在輸入信號之頻譜圖内之分布的平均幅值及第 人幂或更南次冪動量。為了節省位元率,參數可前傳至 資料串流用來以比變換器⑽所提供的頻譜解析度更低的 頻譜解析度而插入SID訊框内部。 平穩性測量器150可經組配來針對雜訊信號推衍出平 齡度里。參數估算器148轉而可使賴平穩性度量,因而 決定是否應藉發送另一個SID訊框諸如第旧之訊框%而起 始參數更新,或影響參數的估算方式。 前,頻譜成分可分成多組。 選用,諸如吻合咆哮標度等 需執4亍量化。炉v fe. ^ VL_ . 模組152量化由參數估算器分析模組輯計 的參數,及傳訊此參數給解碼端。更明確言之,於量化 此等分組可依據心理聲學構面 。檢測器16通知量化器152是否 。於無需量化之情況下
If况時’第5_之模組如下述動作。 至從活動階段切換至不活動階段的具體 在活動階段期間, 信號編碼成資料串流。 ,編碼弓丨擎14透㈣襄ϋ繼續將音訊 。編碼可以逐—訊框進行。資料串流 。資料串流 22 201248615 之各個訊框可表示該音訊信號的一個時部/時間區間。音訊 編碼器14可經組配來使用LPC編碼而編碼全部訊框。音訊 編碼器14可經組配來如就第2圖所述編碼若干訊框,例如稱 作TCX訊框編碼模式。剩餘者可使用代碼激勵線性預測 (CELP)編碼諸如ACELP編碼模式編碼。換言之,資料串流 之部分44可包括運用某個LPC傳輸率’可等於或大於訊框 率而連續地更新LPC係數。 並行地,雜訊估算器146檢視LPC平坦化(LPC分析濾波) 頻譜,因而識別TCX頻譜圖内部由此等頻譜序列所表示的 最小值kmin。當然,此等最小值可隨時間t而改變,亦即 kmin(t)。雖言如此,最小值可在由FDNS 142所輸出的頻譜 圖形成蹤跡,如此針對在時間^的各個接續頻譜i,最小值 可分別地與在先行頻譜及後續頻譜的最小值相聯結。 然後參數估算器從其中推衍背景雜訊估值參數,諸如 針對不同頻譜成分或頻帶的取中傾向(平均值、中數等)m及 /或分散性(標準差、變因等沁。推衍可涉及頻譜圖之在該最 小值頻譜的接續頻譜係數之統計分析,藉此針對各個在 的最小值獲得m及d。可執行沿頻譜維度在前述頻譜最小值 間的内插,因而獲得其它預定頻譜成分或頻帶的爪及3。推 衍及/或取中傾向(平均值)之内插及分散性(標準差 '變因等) 之推衍的頻譜解析度可能各異。 剛才所述參數例如係依由FDNS 142輸出的頻譜而連 續地更新。 —旦檢測器16檢測得進入不活動階段,檢測器16可據 23 201248615 此通知編碼引擎14,使得不再有活動訊框係前傳至封裝器 154。但取而代之,量化器152輸出不活動階段内部在第一 SID訊框中的剛才所述統計雜訊參數。SID訊框可以或可不 包括LPC的更新。若存在有LPC更新,則可以部分44亦即在 活動階段期間所使用的格式在SID訊框32的資料串流内部 傳遞,諸如使用於LSF/LSP定義域的量化,或不同地,諸如 使用相對應於LPC分析濾波器或LPC合成濾波器的轉移函 式之頻譜權值’諸如在進行活動階段中已經由FDNS 142施 加在編碼引擎14之框架内部的該等頻譜權值。 在不活動階段期間,雜訊估算器146、參數估算器148 及平穩性測量器150繼續共同協作因而維持解碼端的更新 跟得上背景雜訊的變化。更明確言之,測量器15〇檢查由 LPC界定的頻s普權值’因而識別改變及通知估算器Mg何時 SID §fL框須被發送給解碼器。舉例言之,每當前述平穩性度 量指示LPC的波動度超過某個量時’測量器15〇可據此而作 動估算器。此外或另外,估算器可經觸發來以規則基礎發 送已更新的參數。在此等SID更新訊框4〇間資料串流中不發 送任何資訊,亦即「零訊框」。 在解碼器端’在活動階段期間’解碼弓丨擎16〇負貴執行 重建音訊信號。-旦不活⑽段起始,適應性參數隨機產 生器164使用在*活動階段期間在資料串流内部由參數量 化器15〇所發送的已解量化隨機產Q參數來產生隨_ 譜成分’藉此形成隨機頻譜圖,其係使用合成器16_普 能處理器166内部頻譜成形’然後執行從頻譜域再度變換成 24 201248615 時域。為了在FDNS 166内部之頻譜成形,可使用得自最晚 近活動訊框的最晚近LPC係數,或可藉外推法而從其中推 衍欲藉FDNS 166施加的頻譜加權,或SID訊框32本身可傳 遞資訊。藉此方式,在不活動階段起始,FDNS 166繼續依 據LPC合成濾波器之轉移函式而頻譜地加權輸入頻譜,Lps 界定LPC合成濾波器係從活動資料部分44或SID訊框32推 衍。但不活動階段開始’欲藉FDNS 166塑形之頻譜為隨機 產生的頻譜而非如同TCX訊框編碼模式的變換編碼。此 外’於166施加的頻譜塑形只藉使用SID訊框38非連續地更 新。在中斷階段36期間,可執行内插或衰減來從一個頻譜 塑形定義切換至下一個。 如第6圖所示,適應性參數隨機產生器164可額外地選擇 性地使用如含在資料串流中的最末活動階段的最晚近部分 内°卩亦即含在恰在進入不活動階段前的資料串流部分44 内邻的解里化變換係數。舉例言之,用途為從活動階段内部 的頻谱圖平順地變遷成不活㈣段内部的隨機頻譜圖。 簡短地回頭參考第1及3圖,遵照第5及6圖(及後文解釋 的第7圖)之實施例,在編碼器及/或解碼器内部產生的參數 背景雜訊估值可包括針對分開的頻譜部分諸如咆哮帶或不 同頻譜成分之時間上接續頻譜值的分散性的統計資訊。針 對各個此種頻增部分’例如統計資訊可含有分散性度量。 據此刀放性度量可以頻譜解析方式界定於頻譜資訊,亦 p在/對於頻譜部分取樣。頻譜解析度,亦即沿頻譜軸展開 的分散性及取中傾向之度量數目可在例如分散性度量與選 25 201248615 擇性地存在的平均值或取中傾向度量間相異。統計資訊係 含在SID訊框内。述及塑形頻譜諸如LPC分析濾波(亦即LPC 平坦化)頻譜’諸如塑bMDCT頻譜,其允許依據統計頻譜 合成隨機頻譜’及依據LPC合成濾波器的轉移函式而解除 其塑形來合成之。於該種情況下,頻譜塑形資訊可存在於 SID訊框内部,但例如可於第一SID訊框32離開。但容後顯 不,此種統計資訊另可述及非塑形頻譜。此外,替代使用 實數值頻譜表示型態諸如MDCT,可使用複數值濾波器組 頻譜諸如音訊信號之qMF頻譜。舉例言之,可使用於非塑 形形式及藉統計資訊統計上描述的音訊信號之qMF頻譜, 於忒種情況下,除了含在統計資訊本身之外並無頻譜塑形。 類似第3圖實施例相對於第i圖實施例間之關係,第7圖 顯示第3圖之解碼器的可能體現。如使用第5圖之相同元件 符號顯示,第7圖之解碼器可包括一雜訊估算器146、一參 數估算器14 8及一平穩性測量器丨5 〇,其操作類似第5圖之相 同元件,但第7圖之雜訊估算器146係對經傳輸的且經解量 化的頻譜圖諸如第4圖之120或122操作。然後雜訊估算器 146之操作類似第5圖討論者。同理適用於參數估算器148, 其係在揭示在活動階段期間如透過/從資料串流經傳輸的 且經解量化的LPC分析渡波器的(或LPC合成據波器的)頻 譜之時間展頻的能值及頻譜值或LPC資料上操作。 雖然元件^似酬系作為仏圖之背景雜訊估算 器90,但第7圖之解碼器也包括一適應性參數隨機產生器 164及—HDNS 166,以及一反量化器168,及係類似第6圖 26 201248615 彼此串聯因而在合成器168之輸出端輸出舒適雜訊。模組 164、166及168係作為第3圖之背景雜訊產生器96,模組164 負責參數隨機產生器94之功能。適應性參數隨機產生器94 或164依據由參數估算器148所決定的參數而隨機地產生頻 譜圖之頻譜成分,該頻譜成分又轉而使用由平穩性測量器 150所輸出的平穩性度量觸發。然後處理器166頻譜塑形如 此產生的頻譜圖’反量化器168然後執行從頻譜域變換至時 域。注意當於不活動階段88期間’解碼器接收資訊log,背 景雜訊估算器90執行雜訊估值的更新接著某種内插手段。 否則若接收到零訊框,則將單純只進行處理,諸如内插及/ 或衰減。 摘述第5至7圖,此等實施例顯示技術上可能施加經控 制的隨機產生器164來激勵TCX係數,可以是實數諸如於 MDCT或複數諸如於FFT。也可優異地施加隨機產生器164 至通常透過遽波器組所達成的多組係數。 隨機產生器164較佳係經控制使得儘可能接近雜訊型 別而模型化。若目標雜訊為事前已知則可達成。有些應用 許可此點。於許多實際應用中個體可能遭遇不同型噪音, 要求適應性方法,如第5至7圖所示。據此使用適應性參數 隨機產生器164,可簡短地定義為g=f(x),於該處χ=⑷,χ2,) 為分別地由參數估算器146及150所提供的隨機產生器參數 集合。 為了讓參數隨機產生器變成適應性,隨機產生器參數 估算器146適當控制隨機產生器。可含括偏移補償來補償資 27 201248615 料被視為統計上不足的情況。此點係進行來基於過去訊框 產生統計上匹配的雜訊模型,將經常性地更新估計參數。 納定一個實例,於該處隨機產生器丨6 4係提出來產生高斯雜 说。於此種情況下’舉例言之,只需平均及變因參數,及 可计算偏移值及施加至該等參數。更進階方法可處理任一 型雜訊或分布,及參數並非必要為分布力矩。 針對非穩態雜訊’需要平穩性度量,則可使用較非適 應性參數隨機產生器。藉測量器148決定的平穩性度量可使 用多種方法從輸入信號之頻譜形狀推衍,例如板倉(Itakura) 距離度量、庫李(Kullback-Leibler)距離度量等。 為了處置發送通過SID訊框,諸如第1圖中以38例示說 明的雜訊更新的非連續本質,通常發送額外資訊,諸如雜 訊之能及頻譜形狀。此一資訊可用來在解碼器產生具有平 順變遷的雜訊,即便在不活動階段内部的不連續期間亦復 如此。最後,各項平順或濾波技術可應用來協助改良舒適 雜訊仿真器的品質。 如前文已述,一方面第5及6圖及另一方面,第7圖係屬 不同情況。相對應於第5及6圖的情況中,參數背景雜訊估 算係在編碼器基於已處理輸入信號進行,及後來參數係傳 輸給編碼器。第7圖係相對應於另—種情況,於該處解碼器 可基於活動階段内的過去接收訊框而處理參數背景雜訊估 值。使用語音/½號活動檢測器或雜訊估算器事有利於提取 雜訊成分,即便在活動語音(舉例)期間亦復如此。 第5至7圖所示情況中,以第7圖之情況為佳,原因在於 28 201248615 此種情況導致傳輪較低位元率。但第5及6圖之情況具有更 準確的可用雜訊估值之優點。 以上全部實施例可組合帶寬擴延技術,諸如頻帶複製 (SBR) ’但一般可用帶寬擴延。 為了例示說明此點,參考第8圖。第8圖顯示模組,藉 該模組第1及5圖之編碼器可經擴延來就輸入信號之高頻部 執行參數編碼。更明確言之,依據第8圖,時域輸入音訊信 號係藉分析濾波器組200諸如第8圖所示QMF分析濾波器組 作頻譜分解。然後前述第丨及5圖之實施例只施加至藉濾波 器組200所產生的頻譜分解之低頻部。為了傳遞高頻部之資 訊給解碼器端,也使用參數編碼。為了達成此項目的’常 規頻帶複製編碼器202係經組配來在活動階段期間,參數化 高頻部,及在資料串流内部以頻帶複製資訊形式饋送高頻 部上資訊給解碼端。開關204可設在QMF濾波器組200之輸 出與頻帶複製編碼器202之輸入間來連結濾波器組200之輸 出與並聯至編碼器202的頻帶複製編碼器206之輸入,因而 負責在不活動階段期間的帶寬擴延。換言之,開關204可類 似第1圖之開關22控制。容後詳述,頻帶複製編碼器模組206 可經組配來類似頻帶複製編碼器202操作:二者可經組配來 參數化高頻部内部輸入音訊信號之頻譜波封,亦即剩餘高 頻部不接受藉例如編碼引擎的核心編碼。但頻帶複製編碼 器模組206可使用最低時/頻解析度,頻譜波封係在資料串 流内部參數化及傳遞,而頻帶複製編碼器202可經組配來調 整時/頻解析度適應輸入音訊信號,諸如取決於音訊信號内 29 201248615 部的變遷發生。 第9圖顯示頻帶複製編碼器模組2〇6之可能體現。一時/ 頻方陣設定器208、-能計#||細、及—能編碼器212係在 編碼模組206之輸入與輸出間串聯。時/頻方陣設定器2〇8可 經組配來設定時/頻解析度,在此決定高頻部的波封。舉例 言之’最小容許時/頻解析度係由編碼模组連續使用。 然後能計算器210決定在相對應於時/頻解析度的時/頻拼貼 的问頻4内邛藉濾波器組2〇〇輸出的頻譜圖之高頻部之 忐,在不活動階段期間,諸如SID訊框内部諸如SID訊框38, 能編碼器212可使用例如熵編碼來將計算器2職計算的能 插入資料串流40(參考第1圖)。 須注意依據第8及9圖之實施例所產生的帶寬擴延資訊也 可用來依據前摘實施例聯結編碼器使用,諸如第3、4及7圖。 如此,第8及9圖明白顯示就第丨至7圖解說的舒適雜訊 產生也可連結頻帶複製使用。舉例言之,前述音訊編碼器 及音況解碼器可以不同操作模式操作,其巾有些操作模式 包括頻帶複製’有些則否。超寬帶操作模式例如可涉及頻 帶複製。總而言之,以就第8及9圖所述方式,前述第丨至7 圖之實施例顯示舒適雜訊之產生實例可組合帶寬擴延技 術。負責在不活動階段期間之帶寬擴延的頻帶複製編碼器 模組206可餘配來基於極糾間及鮮㈣度操作。比較 常規頻帶複製處理,編碼器2G6可在不同頻率解析度操作, 需要額外頻帶表’觸帶表具有極低頻率解析度連同針對 每個舒適雜訊產生標度因數(該標度因數内插在不活動階 30 201248615 段期間施加於波封調整器的能標度因數)在解碼器内的j工r 平順化濾波器。如剛才所述,時/頻方陣可經組配來相對應 於最低可能時間解析度。 換言之,帶寬擴延編碼可取決於存在無聲階段或活動 階段而在QMF域或頻譜域差異執行。在活動階段中亦即在 活動訊框期間,藉編碼器202進行常規3]8尺編碼’導致正常 SBR資料串流分別地伴隨資料串流44及102。在不活動階段 中或在歸類為SID訊框之訊框期間,只有表示為能標度因數 的有關頻譜波封資訊可藉施加時/頻方陣提取,其具有極低 頻率解析度,及例如最低可能時間解析度。所得標可藉編 碼器212有效編碼及寫至資料串流。於零訊框中或在中斷階 段36期間,並無任何側邊資訊可藉頻帶複製編碼器模組2〇6 寫至該資料串流,因此並無能計算可藉計算器210進行。 遵照第8圖,第1〇圖顯示第3及7圖之解碼器實施例可能 擴延至帶寬擴延編碼技術。更精確言之,第1〇圖顯示依據 本案之音訊解碼器可能的實施例。核心解碼器92並聯至舒 適雜訊產生器’舒適雜訊產生器以元件符號22〇標示,及包 括例如舒適雜訊產生模組162或第3圖之模組90、94及96。 開關222係顯示為取決於訊框型別,亦即該訊框攸關或係屬 活動階段’或攸關或係屬不活動階段,諸如有關中斷階段 的SID訊框或零訊框,分配資料串流1〇4及3〇内部的訊框至 核心解碼器92或舒適雜訊產生器220上。核心解碼器92及舒 適雜訊產生器220之輸出係連結至帶寬擴延解碼器224之輸 入’其輸出顯示重建音訊信號。 31 201248615 第11圖顯示帶寬擴延解碼器224之可能體現的進一步 細節實施例。 如第11圖所示,依據第11圖實施例之帶寬擴延解碼器 224包括一輸入226 ’該輸入226用以接收欲重建的完整音訊 信號之低頻部的時域重建。輸入226連結帶寬擴延解碼器 224與核心解碼器92及舒適雜訊產生器220之輸出,使得在 輪入226的時域輸入可以是包括雜訊及有用成分二者的音 訊信號之已重建低頻部,或用以橋接活動階段間之時間的 舒適雜訊。 因依據第11圖之實施例帶寬擴延解碼器224係經建置 來執行頻譜帶寬複製,故解碼器224於後文中稱作SBR解碼 器。但有關第8至10圖,強調此等實施例並非限於頻譜帶宽 複製。反而更為一般性的帶寬擴延之替代之道也可就此等 實施例使用。 又復,第11圖之SBR解碼器224包含一時域輸出228, 用以輸出最終重建音訊信號,亦即於活動階段或不活動階 段。在輸入228與輸出228間,SBR解碼器224以述及順序串 聯包括一頻譜分解器230,如第u圖所示,可以是分析濾波 器組諸如QMF分析濾波器組、一 HF產生器232、一波封調 整器234及一頻譜至時域轉換器236,如第n圖所示,可體 現為合成濾波器組,諸如qMf合成濾波器組。 模組230至236操作如下。頻譜分解器23〇頻譜分解時域 輪入信號因而獲得重建低頻部。HF產生器232基於重建低頻 部而產生尚頻複製部,及波封調整器234利用透過SBR資料 32 201248615 串流部傳遞的及藉前文尚未討論但於第11圖顯示於波封調 整器234上方的模組提供的高頻部之頻譜波封表示型態來 頻邊成形或塑形高頻複製部。如此,波封調整器234依據所 傳輸问頻波封的時/頻方陣表示型態調整高頻複製部之波 封’及前傳如此所得高頻部給頻譜至時域轉換器236,用以 將整個頻譜亦即頻譜朗高頻料同重建㈣部變換成在 輸出228的重建時域信號。 如前文就第8至1〇圖已述,高頻部頻譜波封可以能標度 因數形式在資料串流内部傳遞,SBR解碼器224包括一輸入 238來接收在高頻部頻譜波封上的此種資訊。如第11圖所 不,以活動階段為例,亦即在活動階段期間存在於資料串 流的活動訊框,輪入238可透過個別開關240直接連結至波 封調整1§234的頻譜波封輸入。但53尺解碼器224額外地包 括-標度a數組合器242、—標度隨f料贿模組244、 一内插濾波單元246諸如IIR濾波單元,及一增益調整器 248。模組242、244、246及248係在輸入238與波封調整器 234之頻譜波封輸人間彼此串接,開關細係連結在增益調 整IS248與波封調整器234間,又一帛關25〇係連結在標度因 數資料儲存_244錢波單元。開關2_經組配來 連結此標度因數資料儲存触244舰波單元246之輸入, 或連結標度因數資料重設器252。在不活動階段期間於灿 訊框之情況τ ’及選雜地於活㈣框之情況下,高頻部 頻譜波封之極為粗略表示型態為可接受之情況下開關25〇 及240連結輸入238至波封調整器234間的模組序列242至 33 201248615 248。標度因數組合器242調整適應高頻部頻譜波封已經透 過資料串流傳輸的頻率解析度成為波封調整器234預期接 收的解析度,及標度因數資料儲存模組244儲存所得頻譜 波封直到下次更新。濾波單元246於時間及/或頻譜維度濾 波該頻譜波封,及增益調整器248調整適應高頻部的頻譜波 封之增益。為了達成該項目的,增益調整器可組合如藉單 元246獲得的波封資料與從QMF濾波器組輸出導出的實際 波封。標度因數資料重設器252再現如藉標度因數資料儲存 模組244所儲存的表示在中斷階段或零訊框内部之頻譜波 封的標度因數資料。 如此在解碼器端可進行下列處理。在活動訊框内或在 活動階段期間,可施加常規頻帶複製處理。在此等活動週 期期間,得自資料串流的標度因數其典型地比較舒適雜訊 產生處理可用在更高數目的標度因數頻帶,該等標度因數 係藉標度因數組合器242而變換成舒適雜訊產生頻率解析 度。標度因數組合器組合針對較高頻率解析度之標度因數 來獲得多個標度因數,藉探勘不同頻帶表之共用頻帶邊界 而符合舒適雜訊產生(CNG)。在標度因數組合單元242之輸 出端的所得標度因數值係儲存來供零訊框再度使用,及後 來藉重設器252再現,及隨後用在更新用於CNG操作模式的 濾波單元246。於SID訊框中,施加已修改的SBR資料串流 讀取器,其係從資料串流提取標度因數資訊。SBR處理之 其餘組態係以預定值初始化,時/頻方陣係經初始化成為編 碼器内使用的相同時/頻解析度。所提取的標度因數係饋至 34 201248615 滤波單元246 ’於該處例如—個nR平順·器内插一個低 解析度標度隨帶隨0㈣之能進展。於零訊框之情況下, 從位元H貝取有效負載,含時/頻方陣之組態係與 SID訊框使用者相同。於零訊框中,濾波單元施中的平順 遽波器係被饋以從標度因數組合單元⑽輸出的標度因數 值札度因數值已經儲存在含有效標度因數資訊的最末 訊框。於目前餘被咖為秘動赌或5職框之情況 下,舒適雜訊係在TCX域產生,及變換回時域。隨後,含 舒適雜訊的時域信號饋進S B R模組224的Q M F分析濾波器 組230。於QMF域中,舒適雜訊之帶寬擴延係利用HF產生 器232内部的拷貝轉位進行,及最後,人工產生的高頻部分 之頻瑨波封係藉施加能標度因數資訊於波封調整器234而 調整。此等能標度因數係藉濾波單元246之輸出獲得,及在 施用於波封調整器234前藉增益調整單元248定標。於此增 盈凋整單元248中,用以定標標度因數的增益值係經計算及 施加來補償該信號的低頻部與高頻部間邊界的巨大能差。 前述實施例常用在第12及13圖之實施例。第12圖顯示依據 本案之一實施例音訊編碼器之一實施例,及第13圖顯示音 訊解碼器之一實施例。有關此等圖式揭示之細節須同等適 用於前述個別元件。 第U圖之音訊編碼器包括用以頻譜分解輸入音訊信號 之一QMF分析濾波器組2〇〇。一檢測器270及一雜訊估算器 262係連結至QMF分析濾波器組200之一輸出。雜訊估算器 262負責背景雜訊估算器12之功能。在活動階段期間,得自 35 201248615 QMF分析濾波器組之QMF頻譜係藉頻帶複製參數估算器 260之並聯處理,接著一方面為某個SBR編碼器264,及另 一方面為QMF合成濾波器組272接著核心編碼器14的級聯 (concatenation)。二並聯路徑係連結至位元串流封裝器266 之個別輸入。於輸出SID訊框之情況下,SID訊框編碼器274 從雜訊估算器262接收資料,及輸出SID訊框給位元串流封 裝器266。 由估算器260所輸出的頻譜帶寬擴延資料描述頻譜圖 之高頻部的頻譜波封或由QMF分析遽波器組200所輸出的 頻譜’然後藉SBR編碼器264編碼,諸如藉熵編碼而編碼。 資料串流多工器266將活動階段的頻譜帶寬擴延資料插入 在多工器266之輸出268的資料串流輸出内。 檢測器270檢測目前是否活動階段或不活動階段為作 用態。基於此項檢測,目前將輸出一活動訊框、一SID訊框 或一零訊框亦即一不活動訊框。換言之’模組270決定是否 活動階段或不活動階段為作用態,及若不活動階段為作用 態’則決定是否將輸出一SID訊框。該等決定係指示於第12 圖’ I表示零訊框’ A表示活動訊框,及s表示SID訊框。相 對應於存在有活動階段的輸入信號之時間區間之一訊框也 刖傳給QMF合成濾波器組272與核心編碼器14的級聯。比較 QMF分析濾波器組2〇〇時,qMF合成濾波器組272具有較低 頻率解析度,或在較低數目QMF子帶操作,因而在再度轉 移輪入信號之活動訊框部至時域中,藉子帶數目比而達成 相對應縮減取樣率。更明確言之,QMF合成濾波器組272 36 201248615 係施加至活動訊框内部Q M F分析濾波器組頻譜圖的低頻部 或低頻子帶。如此核心、編碼器14接收輸人信號之縮減取樣 版本,如此只涵蓋原先輸入QMF分析濾波器組2〇〇的輸入信 號之低頻部。其餘高頻部係藉模組260及264參數編碼。 SID訊框(或更精確言之,欲藉SID訊框傳遞之資訊)係 刖傳至SID編碼器274,其例如負責第5圖之模組152之功 能。唯一差異:模組262在輸入信號頻譜上直接操作,未經 LPC塑形。此外,因使用QMF分析濾波,故模組262之操作 係與藉核心編碼器所選訊框模式或頻譜帶寬擴延選項的施 加與否獨立無關。第5圖之模組148及150之功能可在模組 274内部體現。 多工器266在輸出268將個別編碼資訊多工化成為資料 串流。 第13圖之音訊解碼器能在如由第12圖之編碼器所輸出 的負料串流上操作。換言之,模組280係經組配來接收資料 串流,及類資料串流内部訊框成為例如活動訊框、sid訊 框及零訊框,亦即資料串流不含任何訊框。活動訊框係前 傳至核心解碼器92、QMF分析濾波器組282及頻譜帶寬擴延 模組284之級聯。選擇性地,雜訊估算器286係連結至QMf 分析濾波器組的輸出。雜訊估算器286的操作係類似例如第 3圖之背景雜訊估算器90且負責背景雜訊估算器9〇的功 月b ’但雜afL估算器係在未經塑形的頻譜上操作而非激勵頻 譜。模組92、282及284之級聯係連結至QMF合成濾波器組 288之一輸入端。SID訊框係前傳至SID訊框解碼器290,其 37 201248615 例如負貴第3圖之背景雜訊產生器9 6之功能。舒適雜訊產生 參數更新器292係藉來自解碼器29〇及雜訊估算 器286的資
訊饋給,此更新器292駕馭隨機產生器294,隨機產生器294 負責第3圖之參數隨機產生器功能。因遺漏不活動訊框或零 訊框,故無需前傳至任何處所,反而觸發隨機產生器294的 另一隨機產生循環。隨機產生器294之輸出係連結至QMF 合成濾波器組288 ’其輸出顯示無聲的重建音訊信號及時域 之活動階段。 如此,在活動階段期間,核心解碼器92重建音訊信號 之低頻部,包括雜訊成分及有用信號二成分。QMF分析濾 波器組282頻譜分解重建信號,頻譜帶寬擴延模組284分別 地使用資料串流及活動訊框内部的頻譜帶寬擴延資訊來加 上高頻部。雜訊估算器286若存在時基於如藉核心解碼器重 建的頻譜部亦即低頻部執行雜訊估算。在不活動階段中, SID訊框傳遞資訊,該資訊描述在編碼器端由雜訊估算器 262所推衍的背景雜訊估值。參數更新器292主要使用編碼 器資訊來更新其參數背景雜訊估值,於有關SID訊框傳輸損 耗之情況下,使用由雜訊估算器286所提供的資訊主要係作 為底牌。QMF合成濾波器組288變換在活動階段由頻譜帶寬 擴延模組284所輸出的頻譜分解信號及在時域的舒適雜訊 產生信號頻譜。如此,第12及13圖清楚顯示QMF濾波器組 框架可用作為以QMF為主的舒適雜訊產生的基礎。QMF框 架提供方便方式來在編碼器重新取樣輸入信號縮減至核心 編碼器的取樣率,或運用QMF合成濾波器組288在解碼器端 38 201248615 向上取樣核心解媽ϋ 92之核'。解碼ϋ輸出信號。同時,QMF 才术也可組合帶寬擴延來提取及處理由核心編碼器14及核 “解碼&92二模組所留下的信號之頻率成分。據此,QMF ;慮波器組可對各種信號處理卫具提供共用框架。依據第12 及13圖之實施例,舒適雜訊產生成功地含括於此框架内。 更特別依據第12及13圖之實施例,可知在QMF分析後 可月b在解碼器端產生舒適雜㉝,但在分析前,藉施用 機產生器294來激勵例如qMF合成濾波器組288之各個 QMF係數之貫數部分及虛數部分。隨機序列之幅值為例如 在各個QMF帶計算’使得產生舒適雜訊之頻賴似實際輸 入背景雜訊信號之頻譜。此點可在編碼端在QMF分析後使 用雜訊估算器而在各個QMF帶達成。然後此等參數可經由 SID訊框傳輸來更新在解碼器端,在各個QMF帶施加的隨機 序列之幅值。 理想上,注意施加於編碼器端的雜訊估算器262應可在 不活動(亦即只有噪音)及活動週期(典型地含有嘈雜語音) -者期間操作’使得在各個活動週期結束後即刻更新舒適 雜afl參數。此外,雜訊估算也可用在解碼器端。因在以 為基礎的編碼/解餐財抛棄只㈣音的訊框,在解碼器 端的雜訊估算有利地能夠對,雜語音内容操作。除了編碼 益端之外’在解碼H端執行雜㈣算的優點是舒適雜訊之 頻譜形狀可被更新,即便後—段活動週期後,第—個sl〇訊 框封包從編碼器傳輸至解碼器失敗亦復如此。 雜§fL估算須能準確地且快速地遵循背景雜訊的頻譜内 39 201248615 容,及理想上’如前記,在活動及不活動二訊框期間 須月t·執行。達成此項目的的—個士 4〆 丨*^万式係如[R. Martin,基於 最佳平順化及最小統計㈣之雜訊功率賴密度估計, 纖]提示,使用有限長度的滑動窗追縱藉功率頻譜在各帶 取最小值。其賴的構思是㈣語音頻譜之功率經常地衰 減至背景雜訊的功率,例如在各字間或在各音㈣。追蹤 功率頻譜之最小值因而提財各頻帶中固有雜訊位準之估 值,即便於語音活動期間亦復如此。但通常此等固有雜訊 位準被低估。此外’不允許捕捉頻譜功率的快速起伏 別於能量突增時尤為如此。 雖言如此,在各頻帶中如前述計算的固有雜訊位準提 供極為有用的側邊資訊來施加雜訊估算之第二階段。實朽 上,發明人可預期雜訊«之功率接近在不活動期間估^ 的固有雜訊位準,而頻譜功率將遠高於活動期間的固有雜 訊位準。因此在各鮮分開計算的时雜訊位準可用作為 各頻帶的粗略活動檢測器。基於此項資訊,容易估計背景 雜讯功率為功率頻谱的遞歸地平順化版本,如下: ' ❼2(m,fc)=的n,fc)-〜2(m - i,fc) + (!_ 奶.々如幻 於該處σ/ (m,幻表示在訊框m及頻帶k之功率頻譜密度, % (m,幻表示雜訊功率估值,及p(m k)為忘記因數(需為〇至1) 分開地控制各頻帶及各訊框之平順因數。使用固有雜訊位 準資汛來反映活動狀態,在不活動週期期間須為小值(亦即 此時功率頻譜係接近固有雜訊位準),而在活動訊框期間, 須選用高值來施加更多平順化(理想上保持%2(%岣為常 40 201248615 數)。為了達成此項目的,藉如下計算忘記因數可做出軟性 決定: 於該處〇W2為固有雜訊功率位準及α為控制參數。α之較高值 導致較大忘記因數,因而造成總體更平順。 如此,已經描述舒適雜訊產生(CNG)構想,於該處人工 雜訊係在變換域在解碼器端產生。前述實施例可組合將時 域信號分解成多個頻譜帶的實質上任何型別的頻-時分析 工具(亦即變換或濾波器組)應用。 再度,須注意單獨使用頻譜域提供背景雜訊之更精確 估值,並不使用前述在活動階段期間連續地更新該估值的 可能性而達成優點。據此,據此若干額外實施例與前述實 施例之差異在於不使用連續地更新該參數背景雜訊估值的 此一項特徵。反而此等其它實施例利用頻譜域來參數地決 定該雜訊估值。 因此於又一實施例中,背景雜訊估算器12可經組配來 基於一輸入音訊信號之一頻譜分解表示型態而決定一參數 背景雜訊估值,使得該參數背景雜訊估值頻譜地描述該輸 入音訊信號之一背景雜訊之一頻譜波封。該決定可始於進 入不活動階段時,或可共同運用前述優勢,及可在活動階 段期間連續地執行決定來更新該估值供當進入不活動階段 時即刻使用。編碼器14在活動階段期間將該輸入音訊信號 編碼成一資料串流,及一檢測器16可經組配來基於該輸入 信號而檢測在活動階段後進入一不活動階段。編碼器進一 5 41 201248615 /可丄、且配來將該參數背景雜訊估值編石馬成資料串流。背 =算器可經組配來執行在活動階段決定該參數背景 ^ 辑以11财域人音訊錢之頻譜分解表示 «内雜訊成分及__有用信號成分,及只從該雜訊 成、“數背景雜訊估值。於另_個實施例中,編碼 器可經組配來在編碼該輸人音黯號中,將該輸入音訊信 说預測地編碼成線性預測係數及—激勵信號,及變換編瑪 該激齡叙1譜分解,絲該線__數編碼成資 射肌,其中該背景雜訊估算器係經組配來在決定該參數 背^雜訊估值時’使用該激勵信號之該頻譜分解作為該輸 入音訊信號之頻譜分解表示型態。 ^復’背景雜訊估算器可經域來識職激 =:型態中的局部最小值,及在該經識別的局部最小 ㈣為支㈣間’運用内插法來估計該輸人音訊信號之一 背景雜訊之頻譜波封。 中番聿立個^例中’―種用以解喝_f料串流來從其 中重建一音訊信號之音訊解碼器, 個活動階段接著為—個不活動階段::音訊 背景雜訊估算器90其可經組配來基於得:該資料二 輸入音訊信號之-_分解表示型^蚊㈣料 = 景雜訊估值頻譜上描述該輸: ^之- W雜仏頻譜波封。 :活動_二該資料串流重建該音訊信號。:參= 景雜訊產生器96可經組配來在該不活動 42 201248615 Γ二:利用該參數背景雜訊估值藉控制該參數隨機產 依^不活動階段期間重建該音訊信號。 階段中:另—實施例’該背景雜訊估算11可㈣配來在活動 音訊作^參數背景雜訊估值之決定,及伴以區別該輸入 信號二Γ分解表示型態内部的—雜訊成分及一有用 於又—/、從5亥雜訊成分決定該參數背景雜訊估值。 串流重建^實㈣巾,轉碼11可經㈣來在從該資料 係數而#/就破巾,依據也編碼人該資料的線性預測 分解。^已變換編碼射料线之―_信號之-頻謹 數背景:訊1!:編可更進一步經組配來在決定該參 入音訊 ,採用該激勵信號之頻譜分解作為該輸 。唬之頻譜分解表示型態。 依據__ 該激勵貫施例,該背景雜訊估算器可經組配來識別 別的局^之頻譜表示型態中的局部最小值,及在該經識 音訊最丨、值作為支撐點間,運用内插法來估計該輸入 。說之—背景雜訊之頻譜波封。 士此,前述實施例描述以TCX為基礎之CNG ,於該處 ^雜訊產生器採用隨機脈衝來模型化殘差。 雖默p、 、、、^以裝置脈絡描述若干構面,但顯然此等構面 、不相對應方法的描述,於該處一方塊或一裝置係相對 ’心於方法步驟或一方法步驟之特徵。同理,以方法步驟 之脈絡福述的構面也表示相對應裝 置之相對應方塊或項或 特徵結構之描述。部分或全部方法步驟可藉(或使用)硬體設 備例如微處理器、可程式規劃電腦或電子電路執行。於若 43 201248615 干實施例中,最重要的方法步驟之某一者或多者可藉此種 設備執行。 取决於某些體現要求’本發明之實施例可於硬體或於 軟體體現。體現可使用數位儲存媒體執行,例如軟碟、 DVD、CD、ROM、PROM、EPROM、EEPROM或快閃記憶 體,具有可電子讀取控制信號儲存於其上,該等信號與(或 可與)可程式規劃電腦系統協作,因而執行個別方法。因而 該數位儲存媒體可以是電腦可讀取。 依據本發明之若干實施例包含具有可電子式讀取控制 信號的資料賴’該等控制信號可與可程式_電腦系統 協作,因而執行此處所述方法中之一者。 大致言之,本發明之實施例可體現為具有程式代石馬的 電腦程式產品,該程式代㈣t電腦程式產品在電腦上跑 時可執行料料巾之—者。軸式代碼勤可儲存在機 器可讀取載體上。 兵匕貫㈣含儲存在機器可讀取載體或非過渡儲存 媒體上的用以執行此處所述方法中之—者的電腦程式。 換言之’因此’本發明士、+ ^ I月方法之實施例為一種具有— 式代碼之《喊,軸錢碼係當該電難式於 上跑時用以執行此處所述方法中之者 向 因此,本發明方法之又 _ 如 ^ 一貫施例為資料載體(或數位# 存媒體或電腦可讀取媒趙)包含用以執行此處所述方法t
之一者的電腦程式記錄於| L ^ T 、丹上。資料載體、數位儲存姐 或記錄媒體典魏為_㈣彡及/或㈣渡。 某體 44 201248615 因此,本發明方法之又一貫施例為表示用以執行此處 所述方法中之一者的電腦程式的資料串流或信號序列。資 料串流或信號序列例如可經組配來透過資料通訊連結,例 如透過網際網路轉移。 又一實施例包含處理構件例如電腦或可裎式規劃邏輯 裝置,其係經組配來或適用於執行此處所述方法中之一者。 又一實施例包含一電腦,其上安裝有用以執行此處所 述方法中之一者的電腦程式。 依據本發明之又一實施例包含一種設備或系統其係經 組配來傳輸(例如電子式或光學式)用以執行此處所述方法 中之一者的電腦程式給接收器。接收器例如可以是電腦' 行動裝置、記憶體裝置或其類。設備或系統包含槽案:服 器用以轉移電腦程式給接收器。 於若干實施例中,可程式規劃邏輯裝置(例如可現場程 式規劃開陣列)可絲執行此處描狀料_分或全部 於若干實施射,可現場程式__列可與微處 理益協作來執行此處所述方法中之—者。^上該 較佳係藉任何硬體裝置執行。 ^ ' 前述實施例係僅供舉例說明本發明之原理。須 所返配置及細節之修改及變化將為熟諳技藝人士頻 知。因此’意圖僅受審查巾之專利巾請非= 以描述及解說此處實施例所呈示之特定細節二 45 201248615 【圖式簡單說明:! 第1圖為方塊圖顯示依據一實施例之音訊編碼器; 第2圖顯示編碼引擎14之可能體現; 第3圖為依據一實施例音訊解碼器之方塊圖; 第4圖顯示依據一實施例第3圖之解碼引擎之可能體現; 第5圖顯示依據實施例之又一進一步細節描述音訊編 碼器之方塊圖; 第6圖顯示依據一實施例可與第5圖之編碼器連結使用 之解碼器之方塊圖; 第7圖顯示依據實施例之又一進一步細節描述音訊解 碼器之方塊圖; 第8圖顯示依據一實施例音訊編碼器之頻譜帶寬擴延 部分之方塊圖; 第9圖顯示依據一實施例第8圖之舒適雜訊產生(CNG) 頻譜帶寬擴延編碼器之體現; 第10圖顯示依據一實施例使用頻譜帶寬擴延之音訊解 碼器之方塊圖; 第11圖顯示使用頻譜帶寬擴延之音訊解碼器之一實施 例的可能進一步細節描述之方塊圖; 第12圖顯示依據又一實施例使用頻譜帶寬擴延之音訊 編碼器之方塊圖;及 第13圖顯示音訊編碼器之又一實施例之方塊圖。 46 201248615 【主要元件符號說明】 10.. .音訊編碼器 12··.背景雜訊估算器、提供器 14.. .編碼引擎 16.. .檢測器 18、56.··音訊信號輸入 20、58···資料串流輸出 22、204、222、240、250. · ·開關 24、42...活動階段 26.. .虛線、連接線 28.. .不活動階段 30、44…資料串流 32、38…無聲插入描述符(sid) 訊框、資料串流片段 34、40…時間瞬間 '申斷階段 36.. .中斷階段 50、140...變換器 52、116、142、166…頻域雜訊 塑形器(FDNS) 54、152...量化器 60、144…線性預測(LP)分析模 組、分析器 62、64、120、122".虛線箭頭 80…音訊解碼器 82、110、226、238...輸入 84、112、228、268·.·輸出 86…活動階段 88.. .不活動階段 9〇、146.·,提供器、背景雜訊估 算器 92、160…解碼引擎、核心解碼器 94、164…參數隨機產生器 96…背景雜訊產生器 98…音訊信號 100.. .虛線 102···資料串流部分 104…資料串流 106.. .時間瞬間 108.. .資訊 114·.·解量化器 118、168…反變換器 148.. .參數估算器 150.. .平穩性測量器 154.. .位元串流封裝器 162·.·舒適雜訊產生部分 200、282...QMF分析濾波器組 202.. .常規頻帶複製編碼器 47 201248615 206.··頻帶複製編碼器模組 208…時/頻方陣設定器 210…能計算器 212…能編碼器 220·.·舒適雜訊產生器 224…帶宽擴延解碼器、SBR解 碼器 228··.時域輸出 230.. .頻譜分解器 242.. .標度因數組合器 244…標度因數資料儲存模組 246· ·.内插濾波單元、IIR濾波 單元 248…増益調整器 252…標度因數資料重設器 260.. .頻帶複製參數估算器 262·.·雜訊估算器 264.. .5.R編碼器 266…位元串流封裝器、資料串 流多工器 270…檢測器 272、288...QMF合成濾波器組 274.. . SH)訊框編碼器 280.. .模組 284…頻譜帶寬擴延模組 286·..雜訊估算器 290.. .51.訊框解碼器 292…舒適雜訊產生參數更新器 294…隨機產生器 48

Claims (1)

  1. 201248615 七、申請專利範圍: 1. 一種音訊編碼器,其係包含 一背景雜訊估算器係經組配來基於一輸入音訊信 號之一頻譜分解表示型態而決定一參數背景雜訊估 值,使得該參數背景雜訊估值頻譜上描述該輸入音訊信 號之一背景雜訊之一頻譜波封; 用以在該活動階段期間將該輸入音訊信號編碼成 一資料申流之一編碼器;及 一檢測器係經組配來基於該輸入信號而檢測在該 活動階段後進入一不活動階段, 其中該音訊編碼器係經組配來在該不活動階段中 將該參數背景雜訊估值編碼成該貧料串流。 2. 如申請專利範圍第1項之音訊編碼器,其中該背景雜訊 估算器係經組配來在該活動階段中決定該參數背景雜 訊估值,伴以區別在該輸入音訊信號之該頻譜分解表示 型態内部的一雜訊成分及一有用信號成分,及只從該雜 訊成分決定該參數背景雜訊估值。 3_如申請專利範圍第1或2項之音訊編碼器,其中該編碼器 係經組配來於編碼該輸入音訊信號中,將該輸入音訊信 號預測地編碼成線性預測係數及一激勵信號,及變換編 碼該激勵信號,及將該線性預測係數編碼成該資料串 流,其中該背景雜訊估算器係經組配來在決定該參數背 景雜訊估值中,使用該激勵信號之該頻譜分解作為該輸 入音訊信號之該頻譜分解表示型態。 49 201248615 4. 如申請專利範圍第1至3項中任一項之音訊編碼器,其中 該背景雜訊估算器係經組配來識別該激勵信號之該頻 譜表示型態中的局部最小值,及在該經識別的局部最小 值作為支撐點間,運用内插來估計該輸入音訊信號之一 背景雜訊之該頻譜波封。 5. 如前述申請專利範圍各項中任一項之音訊編碼器,其中 該編碼器係經組配來於編碼該輸入音訊信號中,使用預 測及/或變換編碼來編碼該輸入音訊信號之該頻譜分解表 示型態之一低頻部,及使用參數編碼來編碼該輸入音訊 信號之該頻譜分解表示型態之一高頻部的一頻譜波封。 6. 如前述申請專利範圍各項中任一項之音訊編碼器,其中該 編碼器係經組配來於編碼該輸入音訊信號中,使用預測及 /或變換編碼來編碼該輸入音訊信號之該頻譜分解表示型 態之一低頻部,及在使用參數編碼來編碼該輸入音訊信號 之該頻譜分解表示型態之一高頻部的一頻譜波封或留下 該輸入音訊信號之該高頻部不經編碼間作出選擇。 7. 如申請專利範圍第5或6項之音訊編碼器,其中該編碼器 係經組配來在不活動階段中,中斷該預測及/或變換編 碼及該參數編碼;或在該活動階段中,中斷該預測及/ 或變換編碼及以比較使用該參數編碼更低之一時/頻解 析度來對該輸入音訊信號之該頻譜分解表示型態之該 南頻部的該頻t普波封執行該參數編碼。 8. 如申請專利範圍第5、6或7項之音訊編碼器,其中該編 碼器使用一濾波器組來頻譜上分解該輸入音訊信號成 50 201248615 為形成該低頻部之一子帶集合,及形成該高頻部之一子 帶集合。 9. 如申請專利範圍第8項之音訊編碼器,其中該背景雜訊 估算器係經組配來在該活動階段中,基於該輸入音訊信 號之該頻譜分解表示型態之該低及高頻部而更新該參 數背景雜訊估值。 10. 如申請專利範圍第9項之音訊編碼器,其中該背景雜訊 估算器係經組配來於更新該參數背景雜訊估值中,識別 §亥輸入音訊信號之該頻譜分解表示型態之該低及高頻 部中之局部最小值,及在該局部最小值,執行該輸入音 讯k號之該頻譜分解表示型態之該低及高頻部之統計 分析因而導出該參數背景雜訊估值。 11 ·如剞述申請專利範圍各項中任一項之音訊編碼器,其中 該雜訊估算器係經組配來在不活動階段期間繼續連續 地更新該背景雜訊估值,其中該音訊編碼器係經組配來 當在不活動階段期間連續地更新時,間歇地編碼該參數 背景雜訊估值之更新。 12·如申請專利範圍第11項之音訊編碼器,其中該音訊編碼 盗係經組配來於一固定或可變時間區間内間歇地編碼 3亥參數背景雜訊估值之該等更新。 13.—種用以解碼一資料串流因而從其中重建一音訊信號 之音訊解碼器,該資料串流包含至少一個活動階段接著 為一個不活動階段,其中該資料串流已經於其中編石馬一 參數背景雜訊估值其係頻譜上描述一背景雜訊之—頻 51 201248615 譜波封,該音訊解碼器係包含 一解碼器係經組配來在該活動階段期間從該資料 串流重建該音訊信號; 一參數隨機產生器;及 一背景雜訊產生器係經組配來取決於該參數背景 雜訊估值,在該不活動階段期間藉控制該參數隨機產生 器而在該不活動階段期間合成該音訊信號。 14. 如申請專利範圍第14項之音訊解碼器,其中該背景雜訊 產生器係經組配來從該參數背景雜訊估值重建一頻譜 及將該頻譜重新變換成一時域。 15. —種用以解碼一資料串流因而從其中重建一音訊信號 之音訊解碼器,該資料串流包含至少一個活動階段接著 為一個不活動階段,該音訊解碼器係包含 一背景雜訊估算器係經組配來基於得自該資料串 流之該輸入音訊信號之一頻譜分解表示型態而決定一 參數背景雜訊估值,使得該參數背景雜訊估值頻譜地描 述該輸入音訊信號之一背景雜訊之一頻譜波封; 一解碼器係經組配來在該活動階段期間從該資料 串流重建該音訊信號; 一參數隨機產生器;及 一背景雜訊產生器係經組配來使用該參數背景雜 訊估值,在該不活動階段期間藉控制該參數隨機產生器 而在該不活動階段期間重建該音訊信號。 16. 如申請專利範圍第15項之音訊解碼器,其中該背景雜訊 52 201248615 估算器係經減來在該活_段巾執行決定該參數背 景雜訊估值’及伴以區別該輸人音訊信號之該頻譜分解 表示型態内部的一雜訊成分及一有用信號成分,及只從 該雜訊成分決定該參數背景雜訊估值。 17. 如申請專利範圍第15或16項之音訊解碼器,其中該解碼 器係經組配來於從該資料串流重建該音訊信號中,依據 也已編碼入該資料之線性預測係數而施加塑形變換編 碼成該資料串流之一激勵信號之一頻譜分解,其中該背 景雜訊估算器係經組配來在決定該參數背景雜訊估值 中使用5玄激勵k 5虎之s玄頻έ普分解作為該輸入音訊信號 之該頻譜分解表示型態。 18. 如申请專利範圍第π項之音訊解碼器,其中該背景雜訊 估算器係經組配來識別該激勵信號之該頻譜表示型態 中的局部最小值,及在該經識別的局部最小值作為支撐 點間’運用内插來估計該輸入音訊信號之一背景雜訊之 該頻譜波封。 19. 一種音訊編碼方法,其係包含 基於一輸入音訊信號之一頻譜分解表示型態而決 定一參數背景雜訊估值,使得該參數背景雜訊估值頻譜 上描述該輸入音訊信號之一背景雜訊之一頻譜波封; 在該活動階段期間將該輸入音訊信號編碼成一資 料串流;及 基於該輸入音訊信號而檢測在該活動階段後之一 不活動階段的進入;及 53 201248615 在該不活動階段中將該參數背景雜訊估值編碼成 該資料串流。 2〇.—種用以解碼一資料串流因而從其中重建一音訊信號 之方法,該資料串流包含至少一個活動階段接著為—個 不活動階段,其中該資料串流已經於其中編碼一參數背 景雜訊估值其係頻譜上描述一背景雜訊之一頻譜波 封,該方法係包含 在该活動階段期間,從該資料串流重建該音訊信號; 取決於該參數背景雜訊估值,在該不活動階段期間 藉控制-參數隨機產生器而在該不活動階段期間合成 s玄音訊信號。 21♦種用以解碼-資料串流因而從其中重建—音訊信號 之方法資料串流包含至少-個活動階段接著為-個 不活動階段,該方法係包含 基於付自該資料串流之該輸人音訊信號之-頻譜 ^解表不型g而決定-參數背景雜訊估值,使得該參數 背景雜訊估值頻错地描述該輸入音訊信號之一背景雜 訊之一頻譜波封; 在該活動階㈣間從«料Φ流重建該音訊信號; 使用轉數背景雜訊估值,在該不活動階段期間藉 控制參數隨機產生器而在該不活動階段期間重建該 音訊信號β 似種,、有程式代碼之電腦程式,當該電腦程式在一電 上九時。亥程式代石馬係用以執行如申請專利範圍第19 至21項中任一項之方法。 54
TW101104680A 2011-02-14 2012-02-14 音訊編解碼器中之雜訊產生技術 TWI480856B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201161442632P 2011-02-14 2011-02-14
PCT/EP2012/052464 WO2012110482A2 (en) 2011-02-14 2012-02-14 Noise generation in audio codecs

Publications (2)

Publication Number Publication Date
TW201248615A true TW201248615A (en) 2012-12-01
TWI480856B TWI480856B (zh) 2015-04-11

Family

ID=71943600

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101104680A TWI480856B (zh) 2011-02-14 2012-02-14 音訊編解碼器中之雜訊產生技術

Country Status (16)

Country Link
US (1) US8825496B2 (zh)
EP (2) EP3373296A1 (zh)
JP (3) JP5934259B2 (zh)
KR (1) KR101624019B1 (zh)
CN (1) CN103477386B (zh)
AR (2) AR085895A1 (zh)
AU (1) AU2012217162B2 (zh)
CA (2) CA2968699C (zh)
ES (1) ES2681429T3 (zh)
MX (1) MX2013009305A (zh)
MY (1) MY167776A (zh)
RU (1) RU2585999C2 (zh)
SG (1) SG192745A1 (zh)
TW (1) TWI480856B (zh)
WO (1) WO2012110482A2 (zh)
ZA (1) ZA201306874B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PT3239978T (pt) 2011-02-14 2019-04-02 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
KR101699898B1 (ko) 2011-02-14 2017-01-25 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 스펙트럼 영역에서 디코딩된 오디오 신호를 처리하기 위한 방법 및 장치
KR101525185B1 (ko) 2011-02-14 2015-06-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법
AR085222A1 (es) 2011-02-14 2013-09-18 Fraunhofer Ges Forschung Representacion de señal de informacion utilizando transformada superpuesta
TWI488177B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 使用頻譜域雜訊整形之基於線性預測的編碼方案
RU2630390C2 (ru) 2011-02-14 2017-09-07 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для маскирования ошибок при стандартизированном кодировании речи и аудио с низкой задержкой (usac)
CN103918029B (zh) * 2011-11-11 2016-01-20 杜比国际公司 使用过采样谱带复制的上采样
CN105469805B (zh) 2012-03-01 2018-01-12 华为技术有限公司 一种语音频信号处理方法和装置
EP2869299B1 (en) * 2012-08-29 2021-07-21 Nippon Telegraph And Telephone Corporation Decoding method, decoding apparatus, program, and recording medium therefor
DK2922053T3 (da) * 2012-11-15 2019-09-23 Ntt Docomo Inc Lydkodningsindretning, lydkodningsfremgangsmåde, lydkodningsprogram, lydafkodningsindretning, lydafkodningsfremgangsmåde og lydafkodningsprogram
EP2936487B1 (en) * 2012-12-21 2016-06-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Generation of a comfort noise with high spectro-temporal resolution in discontinuous transmission of audio signals
CN105210148B (zh) 2012-12-21 2020-06-30 弗劳恩霍夫应用研究促进协会 用以在低比特率下模型化背景噪声的舒缓噪声添加技术
CN103971693B (zh) 2013-01-29 2017-02-22 华为技术有限公司 高频带信号的预测方法、编/解码设备
KR101926651B1 (ko) * 2013-01-29 2019-03-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 노이즈 채움 개념
CN106169297B (zh) * 2013-05-30 2019-04-19 华为技术有限公司 信号编码方法及设备
CN105247610B (zh) * 2013-05-31 2019-11-08 索尼公司 编码装置和方法、解码装置和方法以及记录介质
EP2830054A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework
EP2830052A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
CN104978970B (zh) * 2014-04-08 2019-02-12 华为技术有限公司 一种噪声信号的处理和生成方法、编解码器和编解码系统
US10715833B2 (en) * 2014-05-28 2020-07-14 Apple Inc. Adaptive syntax grouping and compression in video data using a default value and an exception value
CN105336336B (zh) 2014-06-12 2016-12-28 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
EP2980801A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
EP2980790A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for comfort noise generation mode selection
CN106971741B (zh) * 2016-01-14 2020-12-01 芋头科技(杭州)有限公司 实时将语音进行分离的语音降噪的方法及系统
JP7011449B2 (ja) 2017-11-21 2022-01-26 ソニーセミコンダクタソリューションズ株式会社 画素回路、表示装置および電子機器
US10650834B2 (en) * 2018-01-10 2020-05-12 Savitech Corp. Audio processing method and non-transitory computer readable medium
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder
US10847172B2 (en) * 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5657422A (en) * 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
US5960389A (en) * 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
JPH10326100A (ja) * 1997-05-26 1998-12-08 Kokusai Electric Co Ltd 音声録音方法及び音声再生方法及び音声録音再生装置
JP3223966B2 (ja) * 1997-07-25 2001-10-29 日本電気株式会社 音声符号化/復号化装置
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US7124079B1 (en) * 1998-11-23 2006-10-17 Telefonaktiebolaget Lm Ericsson (Publ) Speech coding with comfort noise variability feature for increased fidelity
WO2000075919A1 (en) * 1999-06-07 2000-12-14 Ericsson, Inc. Methods and apparatus for generating comfort noise using parametric noise model statistics
JP2002118517A (ja) 2000-07-31 2002-04-19 Sony Corp 直交変換装置及び方法、逆直交変換装置及び方法、変換符号化装置及び方法、並びに復号装置及び方法
US20050130321A1 (en) * 2001-04-23 2005-06-16 Nicholson Jeremy K. Methods for analysis of spectral data and their applications
US20020184009A1 (en) * 2001-05-31 2002-12-05 Heikkinen Ari P. Method and apparatus for improved voicing determination in speech signals containing high levels of jitter
US20030120484A1 (en) * 2001-06-12 2003-06-26 David Wong Method and system for generating colored comfort noise in the absence of silence insertion description packets
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
CA2457988A1 (en) 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
FI118834B (fi) * 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
FI118835B (fi) * 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
WO2005096274A1 (fr) 2004-04-01 2005-10-13 Beijing Media Works Co., Ltd Dispositif et procede de codage/decodage audio ameliores
GB0408856D0 (en) 2004-04-21 2004-05-26 Nokia Corp Signal encoding
US7649988B2 (en) * 2004-06-15 2010-01-19 Acoustic Technologies, Inc. Comfort noise generator using modified Doblinger noise estimate
US8160274B2 (en) 2006-02-07 2012-04-17 Bongiovi Acoustics Llc. System and method for digital signal processing
JP5202960B2 (ja) * 2005-01-31 2013-06-05 スカイプ 通信システムにおけるフレームの連結方法
JP4519169B2 (ja) * 2005-02-02 2010-08-04 富士通株式会社 信号処理方法および信号処理装置
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
WO2006107833A1 (en) * 2005-04-01 2006-10-12 Qualcomm Incorporated Method and apparatus for vector quantizing of a spectral envelope representation
RU2296377C2 (ru) * 2005-06-14 2007-03-27 Михаил Николаевич Гусев Способ анализа и синтеза речи
US7610197B2 (en) * 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
RU2312405C2 (ru) * 2005-09-13 2007-12-10 Михаил Николаевич Гусев Способ осуществления машинной оценки качества звуковых сигналов
US7720677B2 (en) 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US8032369B2 (en) 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
FR2897733A1 (fr) 2006-02-20 2007-08-24 France Telecom Procede de discrimination et d'attenuation fiabilisees des echos d'un signal numerique dans un decodeur et dispositif correspondant
JP4810335B2 (ja) 2006-07-06 2011-11-09 株式会社東芝 広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置
US7933770B2 (en) * 2006-07-14 2011-04-26 Siemens Audiologische Technik Gmbh Method and device for coding audio data based on vector quantisation
ES2383217T3 (es) 2006-12-12 2012-06-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador, descodificador y métodos para codificar y descodificar segmentos de datos que representan una corriente de datos de dominio de tiempo
FR2911426A1 (fr) * 2007-01-15 2008-07-18 France Telecom Modification d'un signal de parole
US8185381B2 (en) 2007-07-19 2012-05-22 Qualcomm Incorporated Unified filter bank for performing signal conversions
MX2010001763A (es) 2007-08-27 2010-03-10 Ericsson Telefon Ab L M Analisis/sintesis espectral de baja complejidad utilizando la resolucion temporal seleccionable.
JP4886715B2 (ja) * 2007-08-28 2012-02-29 日本電信電話株式会社 定常率算出装置、雑音レベル推定装置、雑音抑圧装置、それらの方法、プログラム及び記録媒体
US8000487B2 (en) * 2008-03-06 2011-08-16 Starkey Laboratories, Inc. Frequency translation by high-frequency spectral envelope warping in hearing assistance devices
EP2107556A1 (en) 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
MY152252A (en) 2008-07-11 2014-09-15 Fraunhofer Ges Forschung Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
JP2010079275A (ja) * 2008-08-29 2010-04-08 Sony Corp 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム
US8352279B2 (en) * 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
TWI520128B (zh) 2008-10-08 2016-02-01 弗勞恩霍夫爾協會 多解析度切換音訊編碼/解碼方案(一)
ES2825032T3 (es) 2009-06-23 2021-05-14 Voiceage Corp Cancelación de solapamiento de dominio de tiempo directo con aplicación en dominio de señal original o ponderado
CA2778240C (en) 2009-10-20 2016-09-06 Fraunhofer Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-mode audio codec and celp coding adapted therefore

Also Published As

Publication number Publication date
RU2013142079A (ru) 2015-03-27
JP2016026319A (ja) 2016-02-12
CA2968699C (en) 2020-12-22
EP2676262A2 (en) 2013-12-25
KR20130126711A (ko) 2013-11-20
AR085895A1 (es) 2013-11-06
WO2012110482A2 (en) 2012-08-23
TWI480856B (zh) 2015-04-11
SG192745A1 (en) 2013-09-30
ES2681429T3 (es) 2018-09-13
CA2968699A1 (en) 2012-08-23
JP5934259B2 (ja) 2016-06-15
EP2676262B1 (en) 2018-04-25
CA2827305C (en) 2018-02-06
CA2827305A1 (en) 2012-08-23
RU2585999C2 (ru) 2016-06-10
JP6185029B2 (ja) 2017-08-23
AU2012217162A1 (en) 2013-08-29
KR101624019B1 (ko) 2016-06-07
AR102715A2 (es) 2017-03-22
MY167776A (en) 2018-09-24
JP2017223968A (ja) 2017-12-21
JP6643285B2 (ja) 2020-02-12
CN103477386A (zh) 2013-12-25
US20130332176A1 (en) 2013-12-12
BR112013020239A2 (pt) 2020-11-24
CN103477386B (zh) 2016-06-01
MX2013009305A (es) 2013-10-03
JP2014510307A (ja) 2014-04-24
US8825496B2 (en) 2014-09-02
ZA201306874B (en) 2014-05-28
WO2012110482A3 (en) 2012-12-20
EP3373296A1 (en) 2018-09-12
AU2012217162B2 (en) 2015-11-26

Similar Documents

Publication Publication Date Title
TW201248615A (en) Noise generation in audio codecs
TWI480857B (zh) 在不活動階段期間利用雜訊合成之音訊編解碼器
KR101774541B1 (ko) 스피치 처리를 위한 무성음/유성음 결정
TWI785753B (zh) 多聲道信號產生器、多聲道信號產生方法及電腦程式
EP2866228B1 (en) Audio decoder comprising a background noise estimator
AU2012217161B9 (en) Audio codec using noise synthesis during inactive phases