TWI569257B

TWI569257B - 音訊處理裝置及其音訊處理方法

Info

Publication number: TWI569257B
Application number: TW103123132A
Authority: TW
Inventors: 黃柄凱; 陳建璋; 林哲毅; 朱柏聿
Original assignee: 玄舟科技有限公司
Priority date: 2014-07-04
Filing date: 2014-07-04
Publication date: 2017-02-01
Also published as: CN105280178A; US20160005415A1; TW201602999A

Description

音訊處理裝置及其音訊處理方法

本發明關於一種處理裝置及其處理方法。更具體而言，本發明關於一種音訊處理裝置及其音訊處理方法。

隨著數位音樂在網路及個人裝置上的快速發展，如何管理收集到的大量音樂已變得非常重要。為了管理收集到的大量音樂，經常需要附加各種資訊至各個音樂。可附加的資訊例如有演唱者、唱片、音樂名稱等等。然而，這些傳統附加的資訊並無法滿足某些特殊應用，例如音樂治療。取而代之，這些附加資訊應更包含能夠描述音樂內容之音樂類型(music genre)及/或能夠描述音樂之本質情感之音樂情境(music mood)。

為了滿足各種特殊應用，音樂勢必需要被系統地進行歸類、辨識、調諧；為此，許多音訊處理技術已被開發出來。當從一音訊中所擷取出的特徵越精確，則針對該音訊所進行之歸類、辨識、調諧等後續處理將越適當。因此，對各種音訊處理技術而言，如何有效地擷取出一音訊之特徵乃為其首要考量。

有鑑於此，提供一種能夠有效地擷取出音訊特徵之技術，確為本發明所屬技術領域之一項重大需求。

本發明的主要目的在於提供一種能夠有效地擷取出音訊特徵之技術。

為達上述目的，本發明提供一種音訊處理裝置，該音訊處理裝置包含一接收器及一電性連接至該接收器之處理器。該接收器用以接收一音訊。該處理器用以：分割該音訊為複數個訊框；對該等訊框分別進行傅立葉轉換以取得複數個聲音頻譜；在該等聲音頻譜中將對應至各個聲音頻率的複數個成分組合分別進行傅立葉轉換以取得一二維聯合頻率頻譜，其中該二維聯合頻率頻譜包含一聲音頻率維度及一調變頻率維度；以及根據該二維聯合頻率頻譜計算該音訊之至少一特徵。

為達上述目的，本發明提供一種用於一音訊處理裝置之音訊處理方法，該音訊處理裝置包含一接收器及一處理器，該音訊處理方法包含下列步驟：使該接收器接收一音訊；使該處理器分割該音訊為複數個訊框；使該處理器對該等訊框分別進行傅立葉轉換以取得複數個聲音頻譜；使該處理器在該等聲音頻譜中將對應至各個聲音頻率的複數個成分組合分別進行傅立葉轉換以取得一二維聯合頻率頻譜，其中該二維聯合頻率頻譜具有一聲音頻率維度及一調變頻率維度；以及使該處理器根據該二維聯合頻率頻譜計算該音訊之至少一特徵。

綜上所述，本發明提供了一種音訊處理裝置及其音訊處理方法。該音訊處理裝置及其音訊處理方法可針對一音訊計算一二維聯合頻率頻譜，並根據該二維聯合頻率頻譜計算該音訊之特徵。由於該二維聯合頻率頻譜乃是在複數個聲音頻譜中將對應至各個聲音頻率的複數個成分組合分別進行傅立葉轉換而得，故根據該二維聯合頻率頻譜所計算之特徵，不但包含了各短期(short-term)內之頻率組合，亦考慮到該音訊之各個訊框之間的交互影響。因此，相對於傳統音訊處理技術對該音訊所計算之特徵，根據該二維聯合頻率頻譜所計算之特徵更能代表該音訊。

於參閱圖式及隨後描述的實施方式後，本發明所屬技術領域中具有通常知識者便可瞭解本發明的其他目的、本發明的技術手段及部分實施例。

1‧‧‧音訊處理裝置

11‧‧‧接收器

13‧‧‧處理器

20‧‧‧音訊

A1~An‧‧‧訊號振幅

B1~Bn‧‧‧訊號強度

C1~Cm‧‧‧訊號強度

F1~Fm‧‧‧聲音頻譜

f1~fn‧‧‧聲音頻率

P1~Pn‧‧‧成分組合

Q1~Qn‧‧‧調變頻譜

S21、S23、S25、S27、S29‧‧‧步驟

T1~Tm‧‧‧訊框

ω1~ωm‧‧‧調變頻率

以下是針對本案圖式所記載之簡單說明，並非用以限定本發明，其中：第1圖為本發明之一實施例之音訊處理裝置的一結構示意圖；第2A-2C圖為本發明之一實施例之音訊處理裝置之一處理器的一運作示意圖；以及第3圖為本發明之一實施例之一用於一音訊處理裝置之音訊處理方法的一流程圖。

以下將透過各種實施例來解釋本發明的內容，惟以下實施例並非用以限制本發明須在如其所述的環境、應用、結構、流程或步驟方能實施。以下實施例的說明僅為闡釋本發明，而非用以限制本發明。以下實施例及圖式中，與本發明非直接相關的元件皆已省略而未繪示，且圖式中各元件間的尺寸關係僅為求容易表示，非用以限制實際實施的比例。

本發明的一實施例(簡稱「第一實施例」)為一種音訊處理裝置。第1圖為音訊處理裝置的一結構示意圖。如第1圖所示，一音訊處理裝置1包含一接收器11及一處理器13。接收器1與處理器13之間可直接或間接地電性連接，並可相互通訊與交換資訊。音訊處理裝置1可以是但不限於：一桌上型電腦、一智慧型手機、一平板電腦、一筆記型電腦等裝置。接收器11可包含各種音訊接收介面，並用以接收一音訊20(包含一音訊或複數個音訊)，以及可包含與處理器13通訊之各種介面，用以傳送音訊20至處理器13。音訊20可為一不特定時間長度的聲音訊號。

在處理器13接收到音訊20後，可用以執行下列操作：分割音訊20為複數個訊框；對該等訊框分別進行傅立葉轉換以取得複數個聲音頻譜；在該等聲音頻譜中將對應至各個聲音頻率的複數個成分組合分別進行傅立葉轉換以取得一二維聯合頻率頻譜，其中該二維聯合頻率頻譜具有一聲音頻率維度及一調變頻率維度；以及根據該二維聯合頻率頻譜計算音訊20之至少一特徵。以下將結合第2A圖、第2B圖及第2C圖為一範例，進一步說明處理器13的運作。

第2A-2C圖為處理器13的一運作示意圖。如第2A圖所示，在接收到音訊20後，處理器13可分割音訊20為複數個訊框。舉例而言，處理器13可據不同需求分割音訊20為m個訊框，即訊框T1、訊框T2、訊框T3、...、訊框Tm(簡稱「T1~Tm」)，其中m為正整數。為了易於說明，各個訊框T1~Tm可用一向量來表示。以第2A圖所示訊框T2為例，其向量表示即為對應至不同時間t1、t2、t3、t4、t5、t6、...、tn(簡稱「t1~tn」)的訊號振幅A1、A2、A3、A4、A5、A6、...、An(簡稱「A1~An」)，其中n為正整數。

處理器13可對各個訊框分別進行傅立葉轉換(Fourier Transform)以取得複數個相對應的聲音頻譜(acoustic spectra)。舉例而言，處理器13可對訊框T1~Tm分別進行傅立葉轉換，以取得聲音頻譜F1、聲音頻譜F2、聲音頻譜F3、聲音頻譜F4、聲音頻譜F5、聲音頻譜F6、...、聲音頻譜Fm(簡稱「F1~Fm」)。為了易於說明，各個聲音頻譜F1~Fm可用一向量來表示。以第2A圖所示聲音頻譜F2為例，其向量表示即為對應至不同聲音頻率f1、f2、f3、f4、f5、f6、...、fn(簡稱「f1~fn」)的訊號強度B1、B2、B3、B4、B5、B6、...、Bn(簡稱「B1~Bn」)，其中n為正整數。本實施例所述的傅立葉轉換可視為快速傅立葉轉換(Fast Fourier Transform)，惟此並非用以限定本發明。

第2B圖所示，經由傅立葉轉換，該等訊框T1~Tm乃分別對應至該等聲音頻譜F1~Fm。在該等聲音頻譜F1~Fm中，對應至相同頻率的成分(components)係分佈在該等訊框T1~Tm內。為了易於說明，分佈在該等訊框T1~Tm內之對應至各個頻率的這些成分將被稱為一成分組合，且用一向量來表示。詳言之，分佈在該等訊框T1~Tm內之對應至頻率f1~fn的成分組合可依序表示為成分組合P1、成分組合P2、成分組合P3、成分組合P4、成分組合P5、成分組合P6、...、成分組合Pn(簡稱「P1~Pn」)。

處理器13可對成分組合P1~Pn再次分別進行傅立葉轉換，以取得複數個調變頻譜Q1~Qn(modulation spectra)。為了易於說明，各個調變頻譜Q1~Qn可用一向量來表示。以第2B圖所示調變頻譜Q2為例，其向量表示即為對應至不同調變頻率ω1、ω2、ω3、ω4、ω5、ω6、...、ωm(簡稱「ω1~ωm」)的訊號強度C1、C2、C3、C4、C5、C6、...、Cm(簡稱「C1~Cm」)，其中m為正整數。

經由上述操作，處理器13可取得如第2C圖所示之具有一聲音頻率維度及一調變頻率維度的二維聯合頻率頻譜(two-dimensional joint frequency spectrum)24。然後，處理器13可根據二維聯合頻率頻譜24計算音訊20之至少一特徵。於其他實施例，為了在不同之音樂節拍速率(musical beat rates)上分析諧波(或非諧波)之強度，處理器13更可沿著該聲音頻率維度分解該二維聯合頻率頻譜24為八度子頻帶(octave-based subbands)，以及沿著該調變頻率維度分解該二維聯合頻率頻譜24為對數間隔調變子頻帶(logarithmically spaced modulation subbands)；然後，根據該八度子頻帶及該對數間隔調變子頻帶計算音訊20之至少一特徵。因八度子頻帶以及對數間隔調變子頻帶之計算方式及其效果已為所屬技術領域中具通常知識者知悉，於此不多贅述。

處理器13根據二維聯合頻率頻譜24計算音訊20之特徵可包含但不限於：一聲音-調變頻譜峰值(acoustic-modulation spectral peak，AMSP)一聲音-調變頻譜峰谷(acoustic-modulation spectral valley，AMSV)、一聲音-調變頻譜對比(acoustic-modulation spectral contrast，AMSC)、一聲音-調變平滑測量(acoustic-modulation spectral flatness measure,AMSFM)及一聲音-調變峰值測量(acoustic-modulation spectral crest measure，AMSCM)。

進一步言，處理器13可根據下式計算該聲音-調變頻譜對比峰值及該聲音-調變頻譜峰谷：其中，S _a,b[i]為對應至第a個聲音子頻帶(即聲音頻率f1~fn中的第a個)及第b個調變子頻帶(即調變頻率ω1~ωm中的第b個)之強度頻譜矩陣中之第i個元素，N _a,b為S _a,b內的元素總數，α為一鄰近參數。可選擇地，α可設定為大於等於1且小於等於8。

處理器13可根據下式計算該聲音-調變頻譜對比：AMSC(a,b)=AMSP(a,b)-AMSV(a,b) (2)。

處理器13可根據下式計算該聲音-調變平滑測量：其中，B_a,b[i]為對應至第a個聲音子頻帶(即聲音頻率f1~fn中的第a個)及第b個調變子頻帶(即調變頻率ω1~ωm中的第b個)之強度頻譜矩陣中之第i個元素，N _a,b為B_a,b內的元素總數。

處理器13可根據下式計算該聲音-調變峰值測量：其中，B_a,b[i]為對應至第a個聲音子頻帶(即聲音頻率f1~fn中的第a個)及第b個調變子頻帶(即調變頻率ω1~ωm中的第b個)之強度頻譜矩陣中之第i個元素，N _a,b為B_a,b內的元素總數。

在處理器13根據二維聯合頻率頻譜24計算音訊20之上述特徵或其他特徵之後，處理器13可根據計算出來的特徵來對音訊20進行歸類、辨識、調諧等後續處理。舉例而言，處理器13可根據計算出來的特徵辨識音訊20之曲風，並為音訊20之曲風提供一組等化器參數，然後根據該組等化器參數調諧音訊20。

於其他實施例，音樂處理裝置1還可包含一存有各種曲風資訊之曲風資料庫。處理器13可根據該曲風資料庫所提供的曲風資訊辨識音訊20得知音訊20所對應的曲風。具體而言，處理器13可根據二維聯合頻率頻譜24計算出音訊20之特徵，然後根據該曲風資料庫所提供的曲風資訊判斷音訊20之特徵屬於何種曲風。在得知音訊20所對應的曲風後，處理器13可根據各種等化器技術，自動為該曲風提供一組等化器參數，並根據該組等化器參數調諧音訊20。

本發明的另一實施例(簡稱「第二實施例」)為一種用於一音訊處理裝置之音訊處理方法，其中該音訊處理裝置可包含至少一接收器及一處理器。舉例而言，第二實施例可為一種用於第一實施例之音訊處理裝置1之音訊處理方法。第3圖為該音訊處理方法的一流程圖。如第3圖所示，第二實施例之音訊處理方法包含：步驟S21，使該接收器接收一音訊；步驟S23，使該處理器分割該音訊為複數個訊框；步驟S25，使該處理器對該等訊框分別進行傅立葉轉換以取得複數個聲音頻譜；步驟S27，使該處理器在該等聲音頻譜中將對應至各個聲音頻率的複數個成分組合分別進行傅立葉轉換以取得一二維聯合頻率頻譜，其中該二維聯合頻率頻譜具有一聲音頻率維度及一調變頻率維度；以及步驟S29，使該處理器根據該二維聯合頻率頻譜計算該音訊之至少一特徵。

在其他實施例中，本實施例之音訊處理方法更包含以下步驟：使該處理器沿著該聲音頻率維度分解該二維聯合頻率頻譜為八度子頻帶；以及使該處理器沿著該調變頻率維度分解該二維聯合頻率頻譜為對數間隔調變子頻帶。

在其他實施例中，該音訊之至少一特徵包含一聲音-調變頻譜峰值及一聲音-調變頻譜峰谷，且該處理器根據上述方程式(1)計算該聲音-調變頻譜對比峰值及該聲音-調變頻譜峰谷。

在其他實施例中，該音訊之至少一特徵更包含一聲音-調變頻譜對比，且該處理器根據上述方程式(2)計算該聲音-調變頻譜對比。

在其他實施例中，該音訊之至少一特徵包含一聲音-調變平滑測量，且該處理器根據上述方程式(3)計算該聲音-調變平滑測量。

在其他實施例中，該音訊之至少一特徵包含一聲音-調變峰值測量，且該處理器根據上述方程式(4)計算該聲音-調變峰值測量。

在其他實施例中，本實施例之音訊處理方法更包含下列步驟：使該處理器根據該至少一特徵辨識該音訊之曲風；使該處理器為該曲風提供一組等化器參數；以及使該處理器根據該組等化器參數調諧該音訊。

除了上述提及的各項步驟之外，第二實施例之音訊處理方法亦包含對應至第一實施例之音訊處理裝置1之所有操作的步驟。因所屬技術領域中具有通常知識者可根據第一實施例之上述揭露內容而直接瞭解未記載於第二實施例之音訊處理方法之相對應步驟，於此不再贅述。

綜上所述，本發明提供了一種音訊處理裝置及其音訊處理方法。該音訊處理裝置及其音訊處理方法可針對一音訊計算一二維聯合頻率頻譜，並根據該二維聯合頻率頻譜計算該音訊之特徵。由於該二維聯合頻率頻譜乃是在複數個聲音頻譜中將對應至各個聲音頻率的複數個成分組合分別進行傅立葉轉換而得，故根據該二維聯合頻率頻譜所計算之特徵，不但包含了各短期內之頻率組合，亦考慮到該音訊之各個訊框之間的交互影響。因此，相對於傳統音訊處理技術對該音訊所計算之特徵，根據該二維聯合頻率頻譜所計算之特徵更能代表該音訊。

上述實施例並非用來限制本發明的實施方式，且任何熟悉此技術者可輕易完成的改變或均等性的安排均不脫離本發明的範圍。本發明的範圍以申請專利範圍為準。

S21、S23、S25、S27、S29‧‧‧步驟

Claims

一種音訊處理裝置，包含：一接收器，用以接收一音訊；以及一處理器，電性連接至該接收器並用以分割該音訊為複數個訊框，對該等訊框分別進行傅立葉轉換以取得複數個聲音頻譜，在該等聲音頻譜中將對應至各個聲音頻率的複數個成分組合分別進行傅立葉轉換以取得一二維聯合頻率頻譜，以及根據該二維聯合頻率頻譜計算該音訊之至少一特徵；其中，該二維聯合頻率頻譜具有一聲音頻率維度及一調變頻率維度。
如請求項1所述之音訊處理裝置，其中該處理器更沿著該聲音頻率維度分解該二維聯合頻率頻譜為八度子頻帶(octave-based subbands)，以及沿著該調變頻率維度分解該二維聯合頻率頻譜為對數間隔調變子頻帶(logarithmically spaced modulation subbands)。
如請求項1所述之音訊處理裝置，其中該至少一特徵包含一聲音-調變頻譜峰值(acoustic-modulation spectral peak，AMSP)及一聲音-調變頻譜峰谷(acoustic-modulation spectral valley，AMSV)，且該處理器根據下式計算該聲音-調變頻譜對比峰值及該聲音-調變頻譜峰谷：其中，S _a,b[i]為對應至第a個聲音子頻帶及第b個調變子頻帶之強度頻譜矩陣中之第i個元素，N _a,b為S _a,b內的元素總數，α為一鄰近參數。
如請求項3所述之音訊處理裝置，其中該至少一特徵更包含一聲音-調變頻譜對比(acoustic-modulation spectral contrast，AMSC)，且該處理器根據下式計算該聲音-調變頻譜對比：AMSC(a,b)=AMSP(a,b)-AMSV(a,b)。
如請求項1所述之音訊處理裝置，其中該至少一特徵包含一聲音-調變平滑測量(acoustic-modulation spectral flatness measure，AMSFM)，且該處理器根據下式計算該聲音-調變平滑測量：其中，B_a,b[i]為對應至第a個聲音子頻帶及第b個調變子頻帶之強度頻譜矩陣中之第i個元素，N _a,b為B_a,b內的元素總數。
如請求項1所述之音訊處理裝置，其中該至少一特徵包含一聲音-調變峰值測量(acoustic-modulation spectral crest measure，AMSCM)，且該處理器根據下式計算該聲音-調變峰值測量：其中，B_a,b[i]為對應至第a個聲音子頻帶及第b個調變子頻帶之強度頻譜矩陣中之第i個元素，N _a,b為B_a,b內的元素總數。
如請求項1所述之音訊處理裝置，其中該處理器更根據該至少一特徵辨識該音訊之曲風、為該曲風提供一組等化器參數、以及根據該組等化器參數調諧該音訊。
一種用於一音訊處理裝置之音訊處理方法，該音訊處理裝置包含一接收器及一處理器，該音訊處理方法包含下列步驟：使該接收器接收一音訊；使該處理器分割該音訊為複數個訊框；使該處理器對該等訊框分別進行傅立葉轉換以取得複數個聲音頻譜；使該處理器在該等聲音頻譜中將對應至各個聲音頻率的複數個成分組合分別進行傅立葉轉換以取得一二維聯合頻率頻譜，其中該二維聯合頻率頻譜具有一聲音頻率維度及一調變頻率維度；以及使該處理器根據該二維聯合頻率頻譜計算該音訊之至少一特徵。
如請求項8所述之音訊處理方法，更包含下列步驟：使該處理器沿著該聲音頻率維度分解該二維聯合頻率頻譜為八度子頻帶；以及使該處理器沿著該調變頻率維度分解該二維聯合頻率頻譜為對數間隔調變子頻帶。
如請求項8所述之音訊處理方法，其中該至少一特徵包含一聲音-調變頻譜峰值(acoustic-modulation spectral peak，AMSP)及一聲音-調變頻譜峰谷(acoustic-modulation spectral valley，AMSV)，且該處理器根據下式計算該聲音-調變頻譜對比峰值及該聲音-調變頻譜峰谷：其中，S _a,b[i]為對應至第a個聲音子頻帶及第b個調變子頻帶之強度頻譜矩陣中之第i個元素，N _a,b為S _a,b內的元素總數，α為一鄰近參數。
如請求項10所述之音訊處理方法，其中該至少一特徵更包含一聲音-調變頻譜對比(acoustic-modulation spectral contrast，AMSC)，且該處理器根據下式計算該聲音-調變頻譜對比：AMSC(a,b)=AMSP(a,b)-AMSV(a,b)。
如請求項8所述之音訊處理方法，其中該至少一特徵包含一聲音-調變平滑測量(acoustic-modulation spectral flatness measure，AMSFM)，且該處理器根據下式計算該聲音-調變平滑測量：其中，B_a,b[i]為對應至第a個聲音子頻帶及第b個調變子頻帶之強度頻譜矩陣中之第i個元素，N _a,b為B_a,b內的元素總數。
如請求項8所述之音訊處理方法，其中該至少一特徵包含一聲音-調變峰值測量(acoustic-modulation spectral crest measure，AMSCM)，且該處理器根據下式計算該聲音-調變峰值測量：其中，B_a,b[i]為對應至第a個聲音子頻帶及第b個調變子頻帶之強度頻譜矩陣中之第i個元素，N _a,b為B_a,b內的元素總數。
如請求項8所述之音訊處理方法，更包含下列步驟：使該處理器根據該至少一特徵辨識該音訊之曲風；使該處理器為該曲風提供一組等化器參數；以及使該處理器根據該組等化器參數調諧該音訊。