TWI473078B - 音訊處理方法以及裝置 - Google Patents

音訊處理方法以及裝置 Download PDF

Info

Publication number
TWI473078B
TWI473078B TW100130740A TW100130740A TWI473078B TW I473078 B TWI473078 B TW I473078B TW 100130740 A TW100130740 A TW 100130740A TW 100130740 A TW100130740 A TW 100130740A TW I473078 B TWI473078 B TW I473078B
Authority
TW
Taiwan
Prior art keywords
spectral
audio signal
frequency bands
audio
current
Prior art date
Application number
TW100130740A
Other languages
English (en)
Other versions
TW201310442A (zh
Inventor
Tsunghan Tsai
Yujie Sha
Original Assignee
Univ Nat Central
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Nat Central filed Critical Univ Nat Central
Priority to TW100130740A priority Critical patent/TWI473078B/zh
Priority to US13/329,481 priority patent/US9076438B2/en
Publication of TW201310442A publication Critical patent/TW201310442A/zh
Application granted granted Critical
Publication of TWI473078B publication Critical patent/TWI473078B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

音訊處理方法以及裝置
本發明是有關於一種音訊處理方法以及裝置。
隨著電腦科技的日益進步,數位化多媒體技術及相關應用已深入日常生活及社會活動層面,且需求猶在蓬勃發展中。多媒體的檔案,如影像、聲音、圖片等,都需要經過適當的壓縮及編解碼處理,才能夠在有限的頻寬上傳輸。在聲音的壓縮標準上,目前最為普遍使用的就是MPEG-1 Layer 3(MP3)。然而隨著技術的進步,更高壓縮率及壓縮品質的音訊標準也不斷的被提出,在1994年Moving Picture Experts Group(MPEG)所提出新一代的音訊壓縮標準MPEG-2音訊編碼標準(Advanced Audio Coding,AAC),因為比MP3有更好的壓縮效率及壓縮品質,未來將有可能取代目前的MP3。此外,以MPEG-2 AAC為基本核心的MPEG-4 AAC也在1998年被提出,使用更多先進的技術來解決壓縮品質及壓縮效率的問題,MPEG-2/4 AAC也將成為繼MP3之後,下一個最廣為被應用的音訊壓縮標準。
習知MPEG-2/4 AAC之聲學模型(Psychoacoustic Model,PAM)需進行快速傅立葉轉換(fast Fourier transform,FFT)。因此,先前MPEG-2/4 AAC的計算複雜度很高,無法達到聲音即時播放之效果,此為一般常見手持式裝置(如:手機、隨身聽、隨身碟等)的一個瓶頸。
因此,如何維持良好之聲音品質的前提下,降低音訊壓縮之計算複雜度,實屬當前重要研發課題之一,亦成為當前相關領域亟需改進的目標。
因此,本發明之一態樣是在提供一種音訊處理方法,用以利用一個修正過的改良式離散餘弦轉換演算法,將時域音訊訊號轉換為頻譜音訊訊號,並藉由查表及對數運算所產生之各頻帶之音框型態以及訊號遮罩率,將頻譜音訊訊號壓縮為一音訊位元串流。音訊處理方法包含:
(a)接收一目前時域音訊訊號。
(b)使用一改良式離散時間餘弦轉換演算法,將目前時域音訊訊號轉換為一頻譜(spectrum)音訊訊號。其中,頻譜音訊訊號具有數個頻帶。
(c)計算頻譜音訊訊號中每一頻帶之一頻譜能量。
(d)根據頻譜音訊訊號,計算頻域音訊訊號之一目前頻譜平滑度(spectral flatness measure,SFM)。
(e)查詢一展開函數(spreading function)表,以取得每一頻帶之一展開函數係數。
(f)根據每一頻帶之頻譜能量,對對應之展開函數係數進行正規化,以調整對應之展開函數係數。
(g)根據目前頻譜平滑度,計算一目前音調指標(tonality index)。
(h)根據目前音調指標,計算每一頻帶之一目前訊雜比(signal-to-noise ratio,SNR)。
(i)根據每一頻帶之目前雜訊比以及調整後之展開函數係數進行對數運算,以計算每一頻帶之一遮罩能量界限(masking partitioned energy threshold)值。
(j)根據一預設頻寬、每一頻帶之頻譜能量以及遮罩能量界限值,取得每一頻帶之一音框型態。
(k)根據頻譜音訊訊號、每一頻帶之遮罩能量界限值以及目前頻寬,計算頻譜音訊訊號之一訊號遮罩率(signal-to-mask ratio,SMR)。
(l)根據每一頻帶之音框型態以及訊號遮罩率,將頻譜音訊訊號壓縮為一音訊位元串流。
本發明之另一態樣是在提供一種音訊處理裝置,用以利用一個修正過的改良式離散餘弦轉換演算法,將時域音訊訊號轉換為頻譜音訊訊號,並藉由查表及對數運算所產生之各頻帶之音框型態以及訊號遮罩率,將頻譜音訊訊號壓縮為一音訊位元串流。音訊處理裝置包含一改良式離散時間餘弦轉換模組、一頻譜平滑度計算模組、一展開函數處理模組、一界線值產生模組、一型態決定模組、一遮罩率產生模組以及一量化迴路模組。改良式離散時間餘弦轉換模組使用改良式離散時間餘弦轉換演算法,將所接收之一目前時域音訊訊號轉換為一頻譜音訊訊號。其中,頻譜音訊訊號具有數個頻帶。頻譜平滑度計算模組根據頻譜音訊訊號,計算頻域音訊訊號之一目前頻譜平滑度。展開函數處理模組計算頻譜音訊訊號中每一頻帶之一頻譜能量。展開函數處理模組查詢一展開函數表,以取得每一頻帶之一展開函數係數。展開函數處理模組根據每一頻帶之頻譜能量,對對應之展開函數係數進行正規化,以調整對應之展開函數係數。界線值產生模組根據目前頻譜平滑度,計算一目前音調指標。界線值產生模組根據目前音調指標,計算每一頻帶之一目前訊雜比。界線值產生模組根據每一頻帶之目前雜訊比以及調整後之展開函數係數進行對數運算,以計算每一頻帶之一遮罩能量界限值。型態決定模組根據一預設頻寬、每一頻帶之頻譜能量以及遮罩能量界限值,取得每一頻帶之一音框型態。遮罩率產生模組根據頻譜音訊訊號、每一頻帶之遮罩能量界限值以及目前頻寬,計算頻譜音訊訊號之一訊號遮罩率。量化迴路模組根據每一頻帶之音框型態以及訊號遮罩率,將頻譜音訊訊號壓縮為一音訊位元串流。
應用本發明具有下列優點。不需要藉由快速傅立葉轉換即可產生音框型態以及訊號遮罩率,作為將頻譜音訊訊號壓縮為音訊位元串流之依據。於是,可大大減少採用快速傅立葉轉換所需之計算量以及運算複雜度。即使本發明在取樣頻率為44.1KHz下,僅需20MHz之處理元件即可達到即時播放的效果。因此,本發明應用於運算能力較差之電子裝置(如手機、隨身聽、隨身碟或其他手持式電子裝置)時,仍可設定於較佳之聲音品質。換言之,藉由本發明之一實施例,可使運算能力較差之電子裝置亦能採用壓縮效率及壓縮品質較好之音訊編碼標準(如MPEG-2 AAC之音訊編碼標準)。
以下將以圖式及詳細說明清楚說明本發明之精神,任何所屬技術領域中具有通常知識者在瞭解本發明之較佳實施例後,當可由本發明所教示之技術,加以改變及修飾,其並不脫離本發明之精神與範圍。
請參照第1圖,其係依照本發明一實施方式的一種音訊處理方法之流程圖。在音訊處理方法中,利用一個修正過的改良式離散餘弦轉換演算法,將時域音訊訊號轉換為頻譜音訊訊號,並藉由查表及對數運算所產生之各頻帶之音框型態以及訊號遮罩率,將頻譜音訊訊號壓縮為一音訊位元串流。音訊處理方法可實作為一電腦程式,並儲存於一電腦可讀取記錄媒體中,而使電腦讀取此記錄媒體後執行音訊處理方法。電腦可讀取記錄媒體可為唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之電腦可讀取紀錄媒體。
音訊處理方法100包含以下步驟:
在步驟102中,接收一目前時域音訊訊號。其中,目前時域音訊訊號可包含一左聲道音框以及一右聲道音框。
在步驟104中,使用一改良式離散時間餘弦轉換演算法,將目前時域音訊訊號轉換為一頻譜音訊訊號。其中,頻譜音訊訊號具有數個頻帶。此外,在本發明之一實施例中,可藉由頻譜分析(Spectrum Process,SPP),進一步簡化頻譜音訊訊號。
在步驟106中,計算頻譜音訊訊號中每一頻帶之一頻譜能量。其中,步驟106之計算式可為:
e (b )=P (b )2
b 為各頻帶對應之頻帶索引,e (b )為對應頻帶索引之頻譜能量,P (b )為對應頻帶索引之頻譜。
在步驟108中,根據頻譜音訊訊號,計算頻域音訊訊號之一目前頻譜平滑度(spectral flatness measure,SFM)。在步驟108之一實施例中,可將頻譜音訊訊號之一幾何平均值除以頻譜音訊訊號之一算術平均值後取對數,以取得頻域音訊訊號之一目前頻譜平滑度,其計算式可為:
其中,G m 為頻譜音訊訊號之幾何平均值,A m 為頻譜音訊訊號之算術平均值。如此一來,可藉由對數運算,減少除法所需之運算量,因而降低計算目前頻譜平滑度所需之複雜度。
在步驟110中,查詢一展開函數(spreading function)表,以取得每一頻帶之一展開函數係數。如此一來,可減少計算展開函數所需要之複雜計算。此外,由於展開函數表上之展開函數係數集中分佈於對角線上,因此所查詢之展開函數表可以線性陣列的方式儲存。如此一來,可減少展開函數表所需之儲存空間大小。第2圖係展開函數表之一實施例。舉例來說,展開函數表上原本是要存入7x7=49個資料。在此實施例中,可使用三個陣列去儲存展開函數表。其中一個陣列儲存每一列中非零值的啟始x位址,另一個陣列儲存每一列中非零值的終止x位址,剩餘的一個陣列儲存每一列中非零值的數值。因此,在此實施例中,三個陣列分別為{0,0,1,2,3,4,5};{2,3,4,5,6,6,6};{14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37}。由上可知,原本的展開函數表需要49x6(bits)=18424(bits)的儲存空間,而使用線性陣列的方式儲存展開函數表變成只需要7x3(bits)+7x3(bits)+24x6(bits)=186(bits)的儲存空間。其中,因為我們數值資料的範圍是從14到37所以需要6個bit去存取數值。而位址是從0到6所以需要3個bit。如此一來,可大大節省展開函數表所需要之儲存空間大小。然而,在本發明之其他實施例中,可視情況設計不同之展開函數表,並不限於本揭露。
在步驟112中,根據每一頻帶之頻譜能量,對對應之展開函數係數進行正規化,以調整對應之展開函數係數。
en (b )=norm ×(Σe (b ) sprdngf (b ))
其中,en (b )為對應頻帶索引之調整後之展開函數係數,norm 為正規化計算,為捲積算子(convolution operator),sprdngf (b )為對應頻帶索引之調整前之展開函數係數。
在步驟114中,根據目前頻譜平滑度,計算一目前音調指標(tonality index)。在本發明之一實施例中,步驟114之計算式可為:
其中,tb 為目前音調指標。
在步驟116中,根據目前音調指標,計算每一頻帶之一目前訊雜比(signal-to-noise ratio,SNR)。在本發明之一實施例中,步驟116之計算式可為:
SNR (b )=tb (b )×12+6
其中,SNR (b )為對應頻帶索引b 之頻帶之目前訊雜比。
在步驟118中,根據每一頻帶之目前雜訊比以及調整後之展開函數係數進行對數運算,以計算每一頻帶之一遮罩能量界限(masking partitioned energy threshold)值。在本發明之一實施例中,可藉由對數運算,進行遮罩能量界限值之運算,其計算式可為:
其中,n 'b (b )為對應頻帶索引b 之頻帶之遮罩能量界限值。另外,亦可根據先前之遮罩能量界限值以及音框型態,進一步運算出目前之遮罩能量界限值,其計算式如下:
lognb (b )=max[logqsthr (b ),min(logn 'b (b ),lognb _l (b )+log(replev ))]
其中,qsthr (b )為對應頻帶索引b 之頻帶於安靜(quiet)狀態下的臨界值;nb _l (b )為先前之遮罩能量界限值;在音框型態為短音框時,將replev 設為1;在音框型態為長音框時,將replev 設為0。
在步驟120中,根據一預設頻寬、每一頻帶之頻譜能量以及遮罩能量界限值,取得每一頻帶之一音框型態。其中,頻帶之音框型態可為長音框、短音框、起始音框以及結束音框的其中之一。在步驟120之一實施例中,可根據根據預設頻寬、每一頻帶之頻譜能量以及遮罩能量界限值,計算一感知熵(Perceptual Entropy,PE),作為判斷音框型態之依據,其計算式可為:
PE =PE -(BW ×(lognb (b )-loge (b )))
其中,BW 為預設頻寬。於是,步驟120可根據PE 值判斷音框型態。在本發明之一實施例中,可根據PE 值是否大於一界線值以及音框型態是否需切換,進行音框型態之判斷。
在步驟122中,根據頻譜音訊訊號、每一頻帶之遮罩能量界限值以及目前頻寬,計算頻譜音訊訊號之一訊號遮罩率(signal-to-mask ratio,SMR)。
在步驟124中,根據每一頻帶之音框型態以及訊號遮罩率,將頻譜音訊訊號壓縮為一音訊位元串流。如此一來,不需要藉由快速傅立葉轉換即可產生音框型態以及訊號遮罩率,作為將頻譜音訊訊號壓縮為音訊位元串流之依據。於是,可大大減少採用快速傅立葉轉換所需之計算量以及運算複雜度,因而可適用於運算能力較差之電子裝置,如手機、隨身聽、隨身碟或其他手持式電子裝置。換言之,藉由音訊處理方法100,可使運算能力較差之電子裝置亦能採用壓縮效率及壓縮品質較好之音訊編碼標準(如MPEG-2 AAC之音訊編碼標準)。此外,步驟124可根據仍是對數值之訊號遮罩率進行壓縮,進一步省去一個對數運算,以減少步驟124所需之運算量。
請參照第3圖,其係依照本發明一實施方式的一種音訊處理裝置之功能方塊圖。音訊處理裝置利用一個修正過的改良式離散餘弦轉換演算法,將時域音訊訊號轉換為頻譜音訊訊號,並藉由查表及對數運算所產生之各頻帶之音框型態以及訊號遮罩率,將頻譜音訊訊號壓縮為一音訊位元串流。
音訊處理裝置200包含一改良式離散時間餘弦轉換(MDCT)模組230、界限值產生器240以及一量化迴路模組250。其中,音訊處理裝置200可採用數位信號處理(Digital signal processing,DSP)方式進行計算。MDCT模組230使用改良式離散時間餘弦轉換演算法,將所接收之一目前時域音訊訊號轉換為一頻譜音訊訊號。其中,所接收之目前時域音訊訊號可包含一左聲道音框以及一右聲道音框,所轉換出之頻譜音訊訊號具有數個頻帶。此外,MDCT模組230可採用管線式(piplining)設計。另外,可先將目前時域訊號接收至緩衝器210以及多工器200,以提供給MDCT模組230進行運算。其中,可採用一位移暫存器作為緩衝器210。進一步來說,緩衝器210可暫存目前時域訊號,作為下一周期之先前時域音訊訊號,以提供給MDCT模組230。於是,MDCT模組230可根據先前時域音訊訊號,將目前時域音訊訊號轉換為頻譜音訊訊號。此外,在本發明之一實施例中,可藉由頻譜分析,進一步簡化MDCT模組230所轉換出之頻譜音訊訊號。
界限值產生器240包含一展開函數(SF)處理模組241、一頻譜平滑度(SFM)計算模組242、一型態決定模組243、一遮罩率產生模組244以及一界線值產生模組245。SFM計算模組242根據頻譜音訊訊號,計算頻域音訊訊號之一目前頻譜平滑度。在本發明之一實施例中,SFM計算模組242可將頻譜音訊訊號之一幾何平均值除以頻譜音訊訊號之一算術平均值後取對數,以取得頻域音訊訊號之一目前頻譜平滑度。如此一來,可藉由對數運算,減少除法所需之運算量,因而降低計算目前頻譜平滑度所需之複雜度。此外,SFM計算模組242可將取得之目前頻譜平滑度儲存於界限值產生器240之一記憶體246。
SF處理模組242計算頻譜音訊訊號中每一頻帶之一頻譜能量。SF處理模組242查詢一展開函數表,以取得每一頻帶之一展開函數係數。如此一來,可減少計算展開函數所需要之複雜計算。展開函數表可預先儲存於音訊處理裝置200。其中,由於展開函數表上之展開函數係數集中分佈於對角線上,因此所查詢之展開函數表可以線性陣列的方式儲存。如此一來,可減少展開函數表所需之儲存空間大小。於是,SF處理模組242根據每一頻帶之頻譜能量,對對應之展開函數係數進行正規化,以調整對應之展開函數係數。此外,SF處理模組242可將調整後之展開函數係數儲存於記憶體246。
界線值產生模組245根據存於記憶體246之目前頻譜平滑度,計算一目前音調指標。界線值產生模組245根據目前音調指標,計算每一頻帶之一目前訊雜比。界線值產生模組245根據每一頻帶之目前雜訊比以及調整後之展開函數係數進行對數運算,以計算每一頻帶之一遮罩能量界限值。型態決定模組243根據一預設頻寬、每一頻帶之頻譜能量以及遮罩能量界限值,取得每一頻帶之一音框型態。遮罩率產生模組244根據頻譜音訊訊號、每一頻帶之遮罩能量界限值以及目前頻寬,計算頻譜音訊訊號之一訊號遮罩率。
量化迴路模組250根據每一頻帶之音框型態以及訊號遮罩率,將頻譜音訊訊號壓縮為一音訊位元串流。如此一來,不需要藉由快速傅立葉轉換即可產生音框型態以及訊號遮罩率,作為將頻譜音訊訊號壓縮為音訊位元串流之依據。於是,可大大減少採用快速傅立葉轉換所需之計算量以及運算複雜度,因而可適用於運算能力較差之電子裝置,如手機、隨身聽、隨身碟或其他手持式電子裝置。換言之,即使音訊處理裝置200之運算能力較差,仍能採用壓縮效率及壓縮品質較好之音訊編碼標準(如MPEG-2 AAC之音訊編碼標準)。在本發明之一實施例中,量化迴路模組250可使用以對數為基礎之計算方式,壓縮出音訊位元串流。如此一來,可進一步省去一個對數運算,以減少音訊處理裝置200所需之運算量。
由上述本發明實施方式可知,應用本發明具有下列優點。不需要藉由快速傅立葉轉換即可產生音框型態以及訊號遮罩率,作為將頻譜音訊訊號壓縮為音訊位元串流之依據。於是,可大大減少採用快速傅立葉轉換所需之計算量以及運算複雜度。即使本發明在取樣頻率為44.1KHz下,僅需20MHz之處理元件即可達到即時播放的效果。因此,本發明應用於運算能力較差之電子裝置(如手機、隨身聽、隨身碟或其他手持式電子裝置)時,仍可設定於較佳之聲音品質。換言之,藉由本發明之一實施例,可使運算能力較差之電子裝置亦能採用壓縮效率及壓縮品質較好之音訊編碼標準(如MPEG-2 AAC之音訊編碼標準)。
雖然本發明已以實施方式揭露如上,然其並非用以限定本發明,任何熟習此技藝者,在不脫離本發明之精神和範圍內,當可作各種之更動與潤飾,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
100...音訊處理方法
102~124...步驟
200...音訊處理裝置
210...緩衝器
220...多工器
230...MDCT模組
240...界線值產生器
241...SF處理模組
242...SFM計算模組
243...型態決定模組
244...遮罩率產生模組
245...界線值產生模組
246...記憶體
250...量化迴路模組
為讓本發明之上述和其他目的、特徵、優點與實施例能更明顯易懂,所附圖式之說明如下:
第1圖係依照本發明一實施方式的一種音訊處理方法之流程圖。
第2圖係展開函數表之一實施例。
第3圖係依照本發明一實施方式的一種音訊處理方法之流程圖。
100...音訊處理方法
102~124...步驟

Claims (9)

  1. 一種音訊處理方法,包含:(a)接收一目前時域音訊訊號;(b)使用一改良式離散時間餘弦轉換(modified discrete cosine transform,MDCT)演算法,將該目前時域音訊訊號轉換為一頻譜(spectrum)音訊訊號,其中該頻譜音訊訊號具有複數個頻帶;(c)計算該頻譜音訊訊號中每一該些頻帶之一頻譜能量;(d)根據該頻譜音訊訊號,計算該頻域音訊訊號之一目前頻譜平滑度(spectral flatness measure,SFM);(e)查詢一展開函數(spreading function,SF)表,以取得每一該些頻帶之一展開函數係數,其中該展開函數表儲存於複數個線性陣列中,其中一第一線性陣列用以儲存該展開函數表每一列中非零值的啟始x位址,一第二線性陣列用以儲存該展開函數表每一列中非零值的終止x位址,一第三線性陣列用以儲存每一列中非零值的數值;(f)根據每一該些頻帶之該頻譜能量,對對應之該展開函數係數進行正規化,以調整對應之該展開函數係數;(g)根據該頻譜平滑度,計算一目前音調指標(tonality index);(h)根據該目前音調指標,計算每一該些頻帶之一目前訊雜比(signal-to-noise ratio,SNR); (i)根據每一該些頻帶之該目前雜訊比以及調整後之該展開函數係數進行對數運算,以計算每一該些頻帶之一遮罩能量界限值;(j)根據一預設頻寬、每一該些頻帶之該頻譜能量以及該遮罩能量界限值,取得每一該些頻帶之一音框型態;(k)根據該頻譜音訊訊號、每一該些頻帶之該遮罩能量界限值以及該目前頻寬,計算該頻譜音訊訊號之一訊號遮罩率(signal-to-mask ratio,SMR);以及(l)根據每一該些頻帶之該音框型態以及該訊號遮罩率,將該頻譜音訊訊號壓縮為一音訊位元串流。
  2. 如請求項1所述之音訊處理方法,其中步驟(d)包含:將該頻譜音訊訊號之一幾何平均值除以該頻譜音訊訊號之一算術平均值後取對數,以取得該頻域音訊訊號之一目前頻譜平滑度。
  3. 如請求項1所述之音訊處理方法,其中步驟(f)之計算式為: 其中b 為該些頻帶中對應之一頻帶索引,en (b )為對應該頻帶索引之調整後之該展開函數係數,norm 為正規化計算,e (b )為對應該頻帶索引之該頻譜能量,為捲積算子(convolution operator),sprdngf (b )為對應該頻帶索引之調整前之該展開函數係數。
  4. 如請求項1所述之音訊處理方法,其中每一該些頻帶之該音框型態為長音框、短音框、起始音框或結束音框。
  5. 一種音訊處理裝置,包含:一改良式離散時間餘弦轉換模組,使用改良式離散時間餘弦轉換演算法,將所接收之一目前時域音訊訊號轉換為一頻譜音訊訊號,其中該頻譜音訊訊號具有複數個頻帶;一頻譜平滑度計算模組,根據該頻譜音訊訊號,計算該頻域音訊訊號之一目前頻譜平滑度;一展開函數處理模組,計算該頻譜音訊訊號中每一該些頻帶之一頻譜能量,查詢一展開函數表,以取得每一該些頻帶之一展開函數係數,並根據每一該些頻帶之該頻譜能量,對對應之該展開函數係數進行正規化,以調整對應之該展開函數係數,其中該展開函數表儲存於複數個線性陣列中,其中一第一線性陣列用以儲存該展開函數表每一列中非零值的啟始x位址,一第二線性陣列用以儲存該展開函數表每一列中非零值的終止x位址,一第三線性陣列用以儲存每一列中非零值的數值;一界線值產生模組,根據該頻譜平滑度,計算一目前音調指標,根據該目前音調指標,計算每一該些頻帶之一目前訊雜比,並根據每一該些頻帶之該目前雜訊比以及調整後之該展開函數係數進行對數運算,以計算每一該些頻帶之一遮罩能量界限值; 一型態決定模組,根據一預設頻寬、每一該些頻帶之該頻譜能量以及該遮罩能量界限值,取得每一該些頻帶之一音框型態;一遮罩率產生模組,根據該頻譜音訊訊號、每一該些頻帶之該遮罩能量界限值以及該目前頻寬,計算該頻譜音訊訊號之一訊號遮罩率;以及一量化迴路模組,根據每一該些頻帶之該音框型態以及該訊號遮罩率,將該頻譜音訊訊號壓縮為一音訊位元串流。
  6. 如請求項5所述之音訊處理裝置,更包含:一緩衝器,暫存一先前時域音訊訊號,作為該改良式離散時間餘弦轉換模組將該目前時域音訊訊號轉換為該頻譜音訊訊號之依據。
  7. 如請求項6所述之音訊處理裝置,其中該緩衝器為一位移暫存器。
  8. 如請求項5所述之音訊處理裝置,其中該量化迴路模組使用以對數為基礎之計算方式,壓縮出該音訊位元串流。
  9. 如請求項5所述之音訊處理裝置,其中該改良式離散時間餘弦轉換模組係採用管線式(piplining)設計,該音訊處理裝置採用數位信號處理(Digital signal processing,DSP)方式進行計算。
TW100130740A 2011-08-26 2011-08-26 音訊處理方法以及裝置 TWI473078B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW100130740A TWI473078B (zh) 2011-08-26 2011-08-26 音訊處理方法以及裝置
US13/329,481 US9076438B2 (en) 2011-08-26 2011-12-19 Audio processing method and apparatus by utilizing a partition domain spreading function table stored in three linear arrays for reducing storage

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW100130740A TWI473078B (zh) 2011-08-26 2011-08-26 音訊處理方法以及裝置

Publications (2)

Publication Number Publication Date
TW201310442A TW201310442A (zh) 2013-03-01
TWI473078B true TWI473078B (zh) 2015-02-11

Family

ID=47744896

Family Applications (1)

Application Number Title Priority Date Filing Date
TW100130740A TWI473078B (zh) 2011-08-26 2011-08-26 音訊處理方法以及裝置

Country Status (2)

Country Link
US (1) US9076438B2 (zh)
TW (1) TWI473078B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5732994B2 (ja) * 2011-04-19 2015-06-10 ソニー株式会社 楽曲検索装置および方法、プログラム、並びに記録媒体
JP6334564B2 (ja) * 2013-01-29 2018-05-30 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 低複雑度の調性適応音声信号量子化
US9710447B2 (en) * 2014-03-17 2017-07-18 Yahoo! Inc. Visual recognition using social links
CN106057208B (zh) * 2016-06-14 2019-11-15 科大讯飞股份有限公司 一种音频修正方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5341457A (en) * 1988-12-30 1994-08-23 At&T Bell Laboratories Perceptual coding of audio signals
US6157938A (en) * 1998-05-28 2000-12-05 Industrial Technology Research Institute Fast fourier transform device with parallel lattice architecture
US20080004873A1 (en) * 2006-06-28 2008-01-03 Chi-Min Liu Perceptual coding of audio signals by spectrum uncertainty
TW200912892A (en) * 2007-09-04 2009-03-16 Univ Nat Central Method and apparatus of low-complexity psychoacoustic model applicable for advanced audio coding encoders

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2185745C (en) * 1995-09-19 2001-02-13 Juin-Hwey Chen Synthesis of speech signals in the absence of coded parameters
US8332216B2 (en) * 2006-01-12 2012-12-11 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for low power stereo perceptual audio coding using adaptive masking threshold

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5341457A (en) * 1988-12-30 1994-08-23 At&T Bell Laboratories Perceptual coding of audio signals
US6157938A (en) * 1998-05-28 2000-12-05 Industrial Technology Research Institute Fast fourier transform device with parallel lattice architecture
US20080004873A1 (en) * 2006-06-28 2008-01-03 Chi-Min Liu Perceptual coding of audio signals by spectrum uncertainty
TW200912892A (en) * 2007-09-04 2009-03-16 Univ Nat Central Method and apparatus of low-complexity psychoacoustic model applicable for advanced audio coding encoders

Also Published As

Publication number Publication date
TW201310442A (zh) 2013-03-01
US20130054252A1 (en) 2013-02-28
US9076438B2 (en) 2015-07-07

Similar Documents

Publication Publication Date Title
JP6069341B2 (ja) オーディオ・コーデックからの向上したクロマ抽出のための方法、エンコーダ、デコーダ、ソフトウェア・プログラム、記憶媒体
AU2005266546B2 (en) Device and method for robustly classifying audio signals, method for establishing and operating audio signal database and a computer program
KR102158896B1 (ko) 음향 신호의 대역폭 확장을 행하는 장치 및 방법
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
JP5986199B2 (ja) 音声信号の符号化と復号化の方法および装置
TWI616869B (zh) 音訊解碼方法、裝置及電腦可讀取記錄媒體
KR20090110244A (ko) 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치
EP2863388B1 (en) Bit allocation method and device for audio signal
TWI473078B (zh) 音訊處理方法以及裝置
US20190198033A1 (en) Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
TWI438770B (zh) 使用通道間及時間冗餘減少之音訊信號編碼
JP2013502619A (ja) 周波数帯信号エネルギーに基づいた、音声符号化における周波数帯スケール・ファクタ測定
US20130006644A1 (en) Method and device for spectral band replication, and method and system for audio decoding
WO2012006942A1 (zh) 一种音频数据的编码方法及装置
JP5970602B2 (ja) 条件付き量子化器をもつオーディオ・エンコードおよびデコード
US8751219B2 (en) Method and related device for simplifying psychoacoustic analysis with spectral flatness characteristic values
TW201440039A (zh) 低複雜度音調適應性之音訊信號量化技術
Zhao et al. Speech Compression with Best Wavelet Packet Transform and SPIHT Algorithm
US9996503B2 (en) Signal processing method and device
US20090063137A1 (en) Method and Apparatus of Low-Complexity Psychoacoustic Model Applicable for Advanced Audio Coding Encoders
US10950251B2 (en) Coding of harmonic signals in transform-based audio codecs
Liu et al. A new criterion and associated bit allocation method for current audio coding standards
Zhou et al. Research and design of the audio coding scheme
JP3725876B2 (ja) オーディオ符号化器とその符号化処理プログラム
Huang et al. Memory and computationally efficient psychoacoustic model for MPEG AAC on 16-bit fixed-point processors

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees