TWI569257B - 音訊處理裝置及其音訊處理方法 - Google Patents

音訊處理裝置及其音訊處理方法 Download PDF

Info

Publication number
TWI569257B
TWI569257B TW103123132A TW103123132A TWI569257B TW I569257 B TWI569257 B TW I569257B TW 103123132 A TW103123132 A TW 103123132A TW 103123132 A TW103123132 A TW 103123132A TW I569257 B TWI569257 B TW I569257B
Authority
TW
Taiwan
Prior art keywords
sound
audio
modulation
processor
audio processing
Prior art date
Application number
TW103123132A
Other languages
English (en)
Other versions
TW201602999A (zh
Inventor
黃柄凱
陳建璋
林哲毅
朱柏聿
Original Assignee
玄舟科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 玄舟科技有限公司 filed Critical 玄舟科技有限公司
Priority to TW103123132A priority Critical patent/TWI569257B/zh
Priority to CN201410552766.0A priority patent/CN105280178A/zh
Priority to US14/599,876 priority patent/US20160005415A1/en
Publication of TW201602999A publication Critical patent/TW201602999A/zh
Application granted granted Critical
Publication of TWI569257B publication Critical patent/TWI569257B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/036Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal of musical genre, i.e. analysing the style of musical pieces, usually for selection, filtering or classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

音訊處理裝置及其音訊處理方法
本發明關於一種處理裝置及其處理方法。更具體而言,本發明關於一種音訊處理裝置及其音訊處理方法。
隨著數位音樂在網路及個人裝置上的快速發展,如何管理收集到的大量音樂已變得非常重要。為了管理收集到的大量音樂,經常需要附加各種資訊至各個音樂。可附加的資訊例如有演唱者、唱片、音樂名稱等等。然而,這些傳統附加的資訊並無法滿足某些特殊應用,例如音樂治療。取而代之,這些附加資訊應更包含能夠描述音樂內容之音樂類型(music genre)及/或能夠描述音樂之本質情感之音樂情境(music mood)。
為了滿足各種特殊應用,音樂勢必需要被系統地進行歸類、辨識、調諧;為此,許多音訊處理技術已被開發出來。當從一音訊中所擷取出的特徵越精確,則針對該音訊所進行之歸類、辨識、調諧等後續處理將越適當。因此,對各種音訊處理技術而言,如何有效地擷取出一音訊之特徵乃為其首要考量。
有鑑於此,提供一種能夠有效地擷取出音訊特徵之 技術,確為本發明所屬技術領域之一項重大需求。
本發明的主要目的在於提供一種能夠有效地擷取出音訊特徵之技術。
為達上述目的,本發明提供一種音訊處理裝置,該音訊處理裝置包含一接收器及一電性連接至該接收器之處理器。該接收器用以接收一音訊。該處理器用以:分割該音訊為複數個訊框;對該等訊框分別進行傅立葉轉換以取得複數個聲音頻譜;在該等聲音頻譜中將對應至各個聲音頻率的複數個成分組合分別進行傅立葉轉換以取得一二維聯合頻率頻譜,其中該二維聯合頻率頻譜包含一聲音頻率維度及一調變頻率維度;以及根據該二維聯合頻率頻譜計算該音訊之至少一特徵。
為達上述目的,本發明提供一種用於一音訊處理裝置之音訊處理方法,該音訊處理裝置包含一接收器及一處理器,該音訊處理方法包含下列步驟:使該接收器接收一音訊;使該處理器分割該音訊為複數個訊框;使該處理器對該等訊框分別進行傅立葉轉換以取得複數個聲音頻譜;使該處理器在該等聲音頻譜中將對應至各個聲音頻率的複數個成分組合分別進行傅立葉轉換以取得一二維聯合頻率頻譜,其中該二維聯合頻率頻譜具有一聲音頻率維度及一調變頻率維度; 以及使該處理器根據該二維聯合頻率頻譜計算該音訊之至少一特徵。
綜上所述,本發明提供了一種音訊處理裝置及其音訊處理方法。該音訊處理裝置及其音訊處理方法可針對一音訊計算一二維聯合頻率頻譜,並根據該二維聯合頻率頻譜計算該音訊之特徵。由於該二維聯合頻率頻譜乃是在複數個聲音頻譜中將對應至各個聲音頻率的複數個成分組合分別進行傅立葉轉換而得,故根據該二維聯合頻率頻譜所計算之特徵,不但包含了各短期(short-term)內之頻率組合,亦考慮到該音訊之各個訊框之間的交互影響。因此,相對於傳統音訊處理技術對該音訊所計算之特徵,根據該二維聯合頻率頻譜所計算之特徵更能代表該音訊。
於參閱圖式及隨後描述的實施方式後,本發明所屬技術領域中具有通常知識者便可瞭解本發明的其他目的、本發明的技術手段及部分實施例。
1‧‧‧音訊處理裝置
11‧‧‧接收器
13‧‧‧處理器
20‧‧‧音訊
A1~An‧‧‧訊號振幅
B1~Bn‧‧‧訊號強度
C1~Cm‧‧‧訊號強度
F1~Fm‧‧‧聲音頻譜
f1~fn‧‧‧聲音頻率
P1~Pn‧‧‧成分組合
Q1~Qn‧‧‧調變頻譜
S21、S23、S25、S27、S29‧‧‧步驟
T1~Tm‧‧‧訊框
ω1~ωm‧‧‧調變頻率
以下是針對本案圖式所記載之簡單說明,並非用以限定本發明,其中:第1圖為本發明之一實施例之音訊處理裝置的一結構示意圖;第2A-2C圖為本發明之一實施例之音訊處理裝置之一處理器的一運作示意圖;以及第3圖為本發明之一實施例之一用於一音訊處理裝置之音訊 處理方法的一流程圖。
以下將透過各種實施例來解釋本發明的內容,惟以下實施例並非用以限制本發明須在如其所述的環境、應用、結構、流程或步驟方能實施。以下實施例的說明僅為闡釋本發明,而非用以限制本發明。以下實施例及圖式中,與本發明非直接相關的元件皆已省略而未繪示,且圖式中各元件間的尺寸關係僅為求容易表示,非用以限制實際實施的比例。
本發明的一實施例(簡稱「第一實施例」)為一種音訊處理裝置。第1圖為音訊處理裝置的一結構示意圖。如第1圖所示,一音訊處理裝置1包含一接收器11及一處理器13。接收器1與處理器13之間可直接或間接地電性連接,並可相互通訊與交換資訊。音訊處理裝置1可以是但不限於:一桌上型電腦、一智慧型手機、一平板電腦、一筆記型電腦等裝置。接收器11可包含各種音訊接收介面,並用以接收一音訊20(包含一音訊或複數個音訊),以及可包含與處理器13通訊之各種介面,用以傳送音訊20至處理器13。音訊20可為一不特定時間長度的聲音訊號。
在處理器13接收到音訊20後,可用以執行下列操作:分割音訊20為複數個訊框;對該等訊框分別進行傅立葉轉換以取得複數個聲音頻譜;在該等聲音頻譜中將對應至各個聲音頻率的複數個成分組合分別進行傅立葉轉換以取得一二維聯合頻率頻譜,其中該二維聯合頻率頻譜具有一聲音頻率維度及一調變頻 率維度;以及根據該二維聯合頻率頻譜計算音訊20之至少一特徵。以下將結合第2A圖、第2B圖及第2C圖為一範例,進一步說明處理器13的運作。
第2A-2C圖為處理器13的一運作示意圖。如第2A圖所示,在接收到音訊20後,處理器13可分割音訊20為複數個訊框。舉例而言,處理器13可據不同需求分割音訊20為m個訊框,即訊框T1、訊框T2、訊框T3、...、訊框Tm(簡稱「T1~Tm」),其中m為正整數。為了易於說明,各個訊框T1~Tm可用一向量來表示。以第2A圖所示訊框T2為例,其向量表示即為對應至不同時間t1、t2、t3、t4、t5、t6、...、tn(簡稱「t1~tn」)的訊號振幅A1、A2、A3、A4、A5、A6、...、An(簡稱「A1~An」),其中n為正整數。
處理器13可對各個訊框分別進行傅立葉轉換(Fourier Transform)以取得複數個相對應的聲音頻譜(acoustic spectra)。舉例而言,處理器13可對訊框T1~Tm分別進行傅立葉轉換,以取得聲音頻譜F1、聲音頻譜F2、聲音頻譜F3、聲音頻譜F4、聲音頻譜F5、聲音頻譜F6、...、聲音頻譜Fm(簡稱「F1~Fm」)。為了易於說明,各個聲音頻譜F1~Fm可用一向量來表示。以第2A圖所示聲音頻譜F2為例,其向量表示即為對應至不同聲音頻率f1、f2、f3、f4、f5、f6、...、fn(簡稱「f1~fn」)的訊號強度B1、B2、B3、B4、B5、B6、...、Bn(簡稱「B1~Bn」),其中n為正整數。本實施例所述的傅立葉轉換可視為快速傅立葉轉換(Fast Fourier Transform),惟此並非用以限定本發明。
第2B圖所示,經由傅立葉轉換,該等訊框T1~Tm乃分別對應至該等聲音頻譜F1~Fm。在該等聲音頻譜F1~Fm中,對應至相同頻率的成分(components)係分佈在該等訊框T1~Tm內。為了易於說明,分佈在該等訊框T1~Tm內之對應至各個頻率的這些成分將被稱為一成分組合,且用一向量來表示。詳言之,分佈在該等訊框T1~Tm內之對應至頻率f1~fn的成分組合可依序表示為成分組合P1、成分組合P2、成分組合P3、成分組合P4、成分組合P5、成分組合P6、...、成分組合Pn(簡稱「P1~Pn」)。
處理器13可對成分組合P1~Pn再次分別進行傅立葉轉換,以取得複數個調變頻譜Q1~Qn(modulation spectra)。為了易於說明,各個調變頻譜Q1~Qn可用一向量來表示。以第2B圖所示調變頻譜Q2為例,其向量表示即為對應至不同調變頻率ω1、ω2、ω3、ω4、ω5、ω6、...、ωm(簡稱「ω1~ωm」)的訊號強度C1、C2、C3、C4、C5、C6、...、Cm(簡稱「C1~Cm」),其中m為正整數。
經由上述操作,處理器13可取得如第2C圖所示之具有一聲音頻率維度及一調變頻率維度的二維聯合頻率頻譜(two-dimensional joint frequency spectrum)24。然後,處理器13可根據二維聯合頻率頻譜24計算音訊20之至少一特徵。於其他實施例,為了在不同之音樂節拍速率(musical beat rates)上分析諧波(或非諧波)之強度,處理器13更可沿著該聲音頻率維度分解該二維聯合頻率頻譜24為八度子頻帶(octave-based subbands), 以及沿著該調變頻率維度分解該二維聯合頻率頻譜24為對數間隔調變子頻帶(logarithmically spaced modulation subbands);然後,根據該八度子頻帶及該對數間隔調變子頻帶計算音訊20之至少一特徵。因八度子頻帶以及對數間隔調變子頻帶之計算方式及其效果已為所屬技術領域中具通常知識者知悉,於此不多贅述。
處理器13根據二維聯合頻率頻譜24計算音訊20之特徵可包含但不限於:一聲音-調變頻譜峰值(acoustic-modulation spectral peak,AMSP)一聲音-調變頻譜峰谷(acoustic-modulation spectral valley,AMSV)、一聲音-調變頻譜對比(acoustic-modulation spectral contrast,AMSC)、一聲音-調變平滑測量(acoustic-modulation spectral flatness measure,AMSFM)及一聲音-調變峰值測量(acoustic-modulation spectral crest measure,AMSCM)。
進一步言,處理器13可根據下式計算該聲音-調變頻譜對比峰值及該聲音-調變頻譜峰谷: 其中,S a,b [i]為對應至第a個聲音子頻帶(即聲音頻率f1~fn中的第a個)及第b個調變子頻帶(即調變頻率ω1~ωm中的第b個)之強度頻譜矩陣中之第i個元素,N a,b S a,b 內的元素總數,α為一鄰近參 數。可選擇地,α可設定為大於等於1且小於等於8。
處理器13可根據下式計算該聲音-調變頻譜對比:AMSC(a,b)=AMSP(a,b)-AMSV(a,b) (2)。
處理器13可根據下式計算該聲音-調變平滑測量: 其中,B a,b [i]為對應至第a個聲音子頻帶(即聲音頻率f1~fn中的第a個)及第b個調變子頻帶(即調變頻率ω1~ωm中的第b個)之強度頻譜矩陣中之第i個元素,N a,b 為B a,b 內的元素總數。
處理器13可根據下式計算該聲音-調變峰值測量: 其中,B a,b [i]為對應至第a個聲音子頻帶(即聲音頻率f1~fn中的第a個)及第b個調變子頻帶(即調變頻率ω1~ωm中的第b個)之強度頻譜矩陣中之第i個元素,N a,b 為B a,b 內的元素總數。
在處理器13根據二維聯合頻率頻譜24計算音訊20之上述特徵或其他特徵之後,處理器13可根據計算出來的特徵來對音訊20進行歸類、辨識、調諧等後續處理。舉例而言,處理器13可根據計算出來的特徵辨識音訊20之曲風,並為音訊20之曲風提供一組等化器參數,然後根據該組等化器參數調諧音訊20。
於其他實施例,音樂處理裝置1還可包含一存有各種曲風資訊之曲風資料庫。處理器13可根據該曲風資料庫所提供的曲風資訊辨識音訊20得知音訊20所對應的曲風。具體而言,處理器13可根據二維聯合頻率頻譜24計算出音訊20之特徵,然後根據該曲風資料庫所提供的曲風資訊判斷音訊20之特徵屬於何種曲風。在得知音訊20所對應的曲風後,處理器13可根據各種等化器技術,自動為該曲風提供一組等化器參數,並根據該組等化器參數調諧音訊20。
本發明的另一實施例(簡稱「第二實施例」)為一種用於一音訊處理裝置之音訊處理方法,其中該音訊處理裝置可包含至少一接收器及一處理器。舉例而言,第二實施例可為一種用於第一實施例之音訊處理裝置1之音訊處理方法。第3圖為該音訊處理方法的一流程圖。如第3圖所示,第二實施例之音訊處理方法包含:步驟S21,使該接收器接收一音訊;步驟S23,使該處理器分割該音訊為複數個訊框;步驟S25,使該處理器對該等訊框分別進行傅立葉轉換以取得複數個聲音頻譜;步驟S27,使該處理器在該等聲音頻譜中將對應至各個聲音頻率的複數個成分組合分別進 行傅立葉轉換以取得一二維聯合頻率頻譜,其中該二維聯合頻率頻譜具有一聲音頻率維度及一調變頻率維度;以及步驟S29,使該處理器根據該二維聯合頻率頻譜計算該音訊之至少一特徵。
在其他實施例中,本實施例之音訊處理方法更包含以下步驟:使該處理器沿著該聲音頻率維度分解該二維聯合頻率頻譜為八度子頻帶;以及使該處理器沿著該調變頻率維度分解該二維聯合頻率頻譜為對數間隔調變子頻帶。
在其他實施例中,該音訊之至少一特徵包含一聲音-調變頻譜峰值及一聲音-調變頻譜峰谷,且該處理器根據上述方程式(1)計算該聲音-調變頻譜對比峰值及該聲音-調變頻譜峰谷。
在其他實施例中,該音訊之至少一特徵更包含一聲音-調變頻譜對比,且該處理器根據上述方程式(2)計算該聲音-調變頻譜對比。
在其他實施例中,該音訊之至少一特徵包含一聲音-調變平滑測量,且該處理器根據上述方程式(3)計算該聲音-調變平滑測量。
在其他實施例中,該音訊之至少一特徵包含一聲音-調變峰值測量,且該處理器根據上述方程式(4)計算該聲音-調變峰值測量。
在其他實施例中,本實施例之音訊處理方法更包含下列步驟:使該處理器根據該至少一特徵辨識該音訊之曲風;使該處理器為該曲風提供一組等化器參數;以及使該處理器根據該 組等化器參數調諧該音訊。
除了上述提及的各項步驟之外,第二實施例之音訊處理方法亦包含對應至第一實施例之音訊處理裝置1之所有操作的步驟。因所屬技術領域中具有通常知識者可根據第一實施例之上述揭露內容而直接瞭解未記載於第二實施例之音訊處理方法之相對應步驟,於此不再贅述。
綜上所述,本發明提供了一種音訊處理裝置及其音訊處理方法。該音訊處理裝置及其音訊處理方法可針對一音訊計算一二維聯合頻率頻譜,並根據該二維聯合頻率頻譜計算該音訊之特徵。由於該二維聯合頻率頻譜乃是在複數個聲音頻譜中將對應至各個聲音頻率的複數個成分組合分別進行傅立葉轉換而得,故根據該二維聯合頻率頻譜所計算之特徵,不但包含了各短期內之頻率組合,亦考慮到該音訊之各個訊框之間的交互影響。因此,相對於傳統音訊處理技術對該音訊所計算之特徵,根據該二維聯合頻率頻譜所計算之特徵更能代表該音訊。
上述實施例並非用來限制本發明的實施方式,且任何熟悉此技術者可輕易完成的改變或均等性的安排均不脫離本發明的範圍。本發明的範圍以申請專利範圍為準。
S21、S23、S25、S27、S29‧‧‧步驟

Claims (14)

  1. 一種音訊處理裝置,包含:一接收器,用以接收一音訊;以及一處理器,電性連接至該接收器並用以分割該音訊為複數個訊框,對該等訊框分別進行傅立葉轉換以取得複數個聲音頻譜,在該等聲音頻譜中將對應至各個聲音頻率的複數個成分組合分別進行傅立葉轉換以取得一二維聯合頻率頻譜,以及根據該二維聯合頻率頻譜計算該音訊之至少一特徵;其中,該二維聯合頻率頻譜具有一聲音頻率維度及一調變頻率維度。
  2. 如請求項1所述之音訊處理裝置,其中該處理器更沿著該聲音頻率維度分解該二維聯合頻率頻譜為八度子頻帶(octave-based subbands),以及沿著該調變頻率維度分解該二維聯合頻率頻譜為對數間隔調變子頻帶(logarithmically spaced modulation subbands)。
  3. 如請求項1所述之音訊處理裝置,其中該至少一特徵包含一聲音-調變頻譜峰值(acoustic-modulation spectral peak,AMSP)及一聲音-調變頻譜峰谷(acoustic-modulation spectral valley,AMSV),且該處理器根據下式計算該聲音-調變頻譜對比峰值及該聲音-調變頻譜峰谷: 其中,S a,b [i]為對應至第a個聲音子頻帶及第b個調變子頻帶之強度頻譜矩陣中之第i個元素,N a,b S a,b 內的元素總數,α為一鄰近參數。
  4. 如請求項3所述之音訊處理裝置,其中該至少一特徵更包含一聲音-調變頻譜對比(acoustic-modulation spectral contrast,AMSC),且該處理器根據下式計算該聲音-調變頻譜對比:AMSC(a,b)=AMSP(a,b)-AMSV(a,b)
  5. 如請求項1所述之音訊處理裝置,其中該至少一特徵包含一聲音-調變平滑測量(acoustic-modulation spectral flatness measure,AMSFM),且該處理器根據下式計算該聲音-調變平滑測量: 其中,B a,b [i]為對應至第a個聲音子頻帶及第b個調變子頻帶之 強度頻譜矩陣中之第i個元素,N a,b 為B a,b 內的元素總數。
  6. 如請求項1所述之音訊處理裝置,其中該至少一特徵包含一聲音-調變峰值測量(acoustic-modulation spectral crest measure,AMSCM),且該處理器根據下式計算該聲音-調變峰值測量: 其中,B a,b [i]為對應至第a個聲音子頻帶及第b個調變子頻帶之強度頻譜矩陣中之第i個元素,N a,b 為B a,b 內的元素總數。
  7. 如請求項1所述之音訊處理裝置,其中該處理器更根據該至少一特徵辨識該音訊之曲風、為該曲風提供一組等化器參數、以及根據該組等化器參數調諧該音訊。
  8. 一種用於一音訊處理裝置之音訊處理方法,該音訊處理裝置包含一接收器及一處理器,該音訊處理方法包含下列步驟:使該接收器接收一音訊;使該處理器分割該音訊為複數個訊框;使該處理器對該等訊框分別進行傅立葉轉換以取得複數個聲音頻譜;使該處理器在該等聲音頻譜中將對應至各個聲音頻率的複 數個成分組合分別進行傅立葉轉換以取得一二維聯合頻率頻譜,其中該二維聯合頻率頻譜具有一聲音頻率維度及一調變頻率維度;以及使該處理器根據該二維聯合頻率頻譜計算該音訊之至少一特徵。
  9. 如請求項8所述之音訊處理方法,更包含下列步驟:使該處理器沿著該聲音頻率維度分解該二維聯合頻率頻譜為八度子頻帶;以及使該處理器沿著該調變頻率維度分解該二維聯合頻率頻譜為對數間隔調變子頻帶。
  10. 如請求項8所述之音訊處理方法,其中該至少一特徵包含一聲音-調變頻譜峰值(acoustic-modulation spectral peak,AMSP)及一聲音-調變頻譜峰谷(acoustic-modulation spectral valley,AMSV),且該處理器根據下式計算該聲音-調變頻譜對比峰值及該聲音-調變頻譜峰谷: 其中,S a,b [i]為對應至第a個聲音子頻帶及第b個調變子頻帶之強度頻譜矩陣中之第i個元素,N a,b S a,b 內的元素總數,α為一鄰近參數。
  11. 如請求項10所述之音訊處理方法,其中該至少一特徵更包含一聲音-調變頻譜對比(acoustic-modulation spectral contrast,AMSC),且該處理器根據下式計算該聲音-調變頻譜對比:AMSC(a,b)=AMSP(a,b)-AMSV(a,b)
  12. 如請求項8所述之音訊處理方法,其中該至少一特徵包含一聲音-調變平滑測量(acoustic-modulation spectral flatness measure,AMSFM),且該處理器根據下式計算該聲音-調變平滑測量: 其中,B a,b [i]為對應至第a個聲音子頻帶及第b個調變子頻帶之強度頻譜矩陣中之第i個元素,N a,b 為B a,b 內的元素總數。
  13. 如請求項8所述之音訊處理方法,其中該至少一特徵包含一聲音-調變峰值測量(acoustic-modulation spectral crest measure,AMSCM),且該處理器根據下式計算該聲音-調變峰值測量: 其中,B a,b [i]為對應至第a個聲音子頻帶及第b個調變子頻帶之強度頻譜矩陣中之第i個元素,N a,b 為B a,b 內的元素總數。
  14. 如請求項8所述之音訊處理方法,更包含下列步驟:使該處理器根據該至少一特徵辨識該音訊之曲風;使該處理器為該曲風提供一組等化器參數;以及使該處理器根據該組等化器參數調諧該音訊。
TW103123132A 2014-07-04 2014-07-04 音訊處理裝置及其音訊處理方法 TWI569257B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW103123132A TWI569257B (zh) 2014-07-04 2014-07-04 音訊處理裝置及其音訊處理方法
CN201410552766.0A CN105280178A (zh) 2014-07-04 2014-10-17 声音信号处理装置及其声音信号处理方法
US14/599,876 US20160005415A1 (en) 2014-07-04 2015-01-19 Audio signal processing apparatus and audio signal processing method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW103123132A TWI569257B (zh) 2014-07-04 2014-07-04 音訊處理裝置及其音訊處理方法

Publications (2)

Publication Number Publication Date
TW201602999A TW201602999A (zh) 2016-01-16
TWI569257B true TWI569257B (zh) 2017-02-01

Family

ID=55017441

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103123132A TWI569257B (zh) 2014-07-04 2014-07-04 音訊處理裝置及其音訊處理方法

Country Status (3)

Country Link
US (1) US20160005415A1 (zh)
CN (1) CN105280178A (zh)
TW (1) TWI569257B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102364853B1 (ko) * 2017-07-18 2022-02-18 삼성전자주식회사 음향 센싱 소자의 신호 처리 방법과 음향 센싱 시스템
CN111951812A (zh) * 2020-08-26 2020-11-17 杭州情咖网络技术有限公司 一种动物情感识别方法、装置及电子设备
CN112633091B (zh) * 2020-12-09 2021-11-16 北京博瑞彤芸科技股份有限公司 一种验证真实会面的方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201246183A (en) * 2011-02-10 2012-11-16 Yahoo Inc Extraction and matching of characteristic fingerprints from audio signals
TW201342890A (zh) * 2011-12-20 2013-10-16 Yahoo Inc 內容辨識之聲紋

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3685823B2 (ja) * 1993-09-28 2005-08-24 ソニー株式会社 信号符号化方法及び装置、並びに信号復号化方法及び装置
US5745583A (en) * 1994-04-04 1998-04-28 Honda Giken Kogyo Kabushiki Kaisha Audio playback system
KR100832360B1 (ko) * 2006-09-25 2008-05-26 삼성전자주식회사 음원 재생기에서의 이퀄라이저 조정 방법 및 그 시스템
KR20080060641A (ko) * 2006-12-27 2008-07-02 삼성전자주식회사 오디오 신호의 후처리 방법 및 그 장치
US20080300702A1 (en) * 2007-05-29 2008-12-04 Universitat Pompeu Fabra Music similarity systems and methods using descriptors
WO2011086924A1 (ja) * 2010-01-14 2011-07-21 パナソニック株式会社 音声符号化装置および音声符号化方法
JP5593852B2 (ja) * 2010-06-01 2014-09-24 ソニー株式会社 音声信号処理装置、音声信号処理方法
TWI607321B (zh) * 2012-03-01 2017-12-01 群邁通訊股份有限公司 音樂自動優化系統及方法
US9280984B2 (en) * 2012-05-14 2016-03-08 Htc Corporation Noise cancellation method
US9401153B2 (en) * 2012-10-15 2016-07-26 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201246183A (en) * 2011-02-10 2012-11-16 Yahoo Inc Extraction and matching of characteristic fingerprints from audio signals
TW201342890A (zh) * 2011-12-20 2013-10-16 Yahoo Inc 內容辨識之聲紋

Also Published As

Publication number Publication date
CN105280178A (zh) 2016-01-27
US20160005415A1 (en) 2016-01-07
TW201602999A (zh) 2016-01-16

Similar Documents

Publication Publication Date Title
US11366850B2 (en) Audio matching based on harmonogram
Molla et al. Single-mixture audio source separation by subspace decomposition of Hilbert spectrum
US7565213B2 (en) Device and method for analyzing an information signal
Chang et al. Music Genre Classification via Compressive Sampling.
US10019998B2 (en) Detecting distorted audio signals based on audio fingerprinting
US9313593B2 (en) Ranking representative segments in media data
CN102129456B (zh) 去相关稀疏映射音乐流派有监督自动分类方法
JP2014512022A (ja) スペクトル挙動の変換を実行する音響信号処理システム及び方法
US10657973B2 (en) Method, apparatus and system
Yang On sparse and low-rank matrix decomposition for singing voice separation
TWI569257B (zh) 音訊處理裝置及其音訊處理方法
Bronson et al. Phase constrained complex NMF: Separating overlapping partials in mixtures of harmonic musical sources
Rump et al. Autoregressive MFCC Models for Genre Classification Improved by Harmonic-percussion Separation.
Dimoulas et al. Investigation of wavelet approaches for joint temporal, spectral and cepstral features in audio semantics
Han et al. Environmental sound classification based on feature collaboration
Park et al. Exploiting continuity/discontinuity of basis vectors in spectrogram decomposition for harmonic-percussive sound separation
Kronvall et al. Sparse chroma estimation for harmonic audio
Calderón-Piedras et al. Blind source separation from single channel audio recording using ICA algorithms
Bammer et al. Invariance and stability of Gabor scattering for music signals
JP5772957B2 (ja) 音響処理装置、音響処理システム、ビデオ処理システム、制御方法および制御プログラム
Hsu et al. Sparse Coding Based Music Genre Classification Using Spectro-Temporal Modulations.
Costa et al. Sparse time-frequency representations for polyphonic audio based on combined efficient fan-chirp transforms
Hossain et al. Dual-transform source separation using sparse nonnegative matrix factorization
Vani et al. Hilbert Huang transform based speech recognition
Jeong et al. Vocal separation using extended robust principal component analysis with Schatten p/l p-norm and scale compression

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees