TWI579836B - Real - time music emotion recognition system - Google Patents

Real - time music emotion recognition system Download PDF

Info

Publication number
TWI579836B
TWI579836B TW105101201A TW105101201A TWI579836B TW I579836 B TWI579836 B TW I579836B TW 105101201 A TW105101201 A TW 105101201A TW 105101201 A TW105101201 A TW 105101201A TW I579836 B TWI579836 B TW I579836B
Authority
TW
Taiwan
Prior art keywords
music
loudness
feature
information
sound
Prior art date
Application number
TW105101201A
Other languages
English (en)
Other versions
TW201725582A (zh
Inventor
Guang-You Lian
jia-jun Xie
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed filed Critical
Priority to TW105101201A priority Critical patent/TWI579836B/zh
Application granted granted Critical
Publication of TWI579836B publication Critical patent/TWI579836B/zh
Publication of TW201725582A publication Critical patent/TW201725582A/zh

Links

Landscapes

  • Auxiliary Devices For Music (AREA)

Description

即時音樂情緒辨識系統
本發明係一種音樂情緒辨識系統,尤指一種可營造出適合特定歌曲情緒氣氛之音樂情緒辨識系統。
現代繁忙的生活中,人們常常會到KTV唱歌紓解壓力。現行KTV包廂內的之環境調控裝置,例如燈光裝置等,會在點唱機點播歌曲時產生各式各樣的燈光效果,藉以營造出特定之氣氛。
然而現行之燈光呈現方式變化不多,此外現行之技術無法依照各別歌曲之類型來營造出適合之燈光效果,而千篇一律之燈光效果無法提供給使用者更優異的娛樂體驗。
綜上所述,如何提供一種可依照各種音樂之類型來調控環境氛圍之技術手段乃本領域亟需解決之技術問題。
為解決前揭之問題,本發明之目的係提供一種可營造出適合特定歌曲情緒氣氛之技術手段。
為達上述目的,本發明提出一種即時音樂情緒辨識系統。前述之系統包含運算處理裝置以及環境調控裝置。運算處理裝置在分析輸入音樂之音訊資訊以提供複數個音樂特徵,並依據音樂特徵以判斷音訊資訊所屬之音樂情緒以提供至少一音樂情緒判別資訊。而與運算處理裝置連接之環境調控裝置更依據音樂情緒判別資訊以配置前述環境調控裝置之設定值。
綜上所述,本發明之即時音樂情緒辨識系統透過分析音訊之各個特徵並產生對應之音樂情緒判別資訊,得以讓環境調控裝置做出適切之配置,而能為使用者營造出匹配特定歌曲情緒氣氛。
S101~S108‧‧‧步驟
S201~S208‧‧‧步驟
S301~S309‧‧‧步驟
S401~S407‧‧‧步驟
1‧‧‧即時音樂情緒辨識系統
11‧‧‧運算處理裝置
12‧‧‧環境調控裝置
圖1係為本發明一實施例之即時音樂情緒辨識系統方塊示意圖。
圖2係為本發明之響度分析流程圖。
圖3係為本發明之重音提取流程圖。
圖4係為本發明之基頻提取流程圖。
圖5係為本發明之音色分析流程圖。
以下將描述具體之實施例以說明本發明之實施態樣,惟其並非用以限制本發明所欲保護之範疇。
請參閱圖1,其為本發明之即時音樂情緒辨識系統1方塊示意圖。前述之即時音樂情緒辨識系統1包含運算處理裝置11以及環境調控裝置 12。前述之運算處理裝置11係分析輸入音樂之音訊資訊以提供複數個音樂特徵,並依據音樂特徵以判斷音訊資訊所屬之音樂情緒以提供一音樂情緒判別資訊。而與運算處理裝置11連接之環境調控裝置12更依據音樂情緒判別資訊以配置環境調控裝置12之設定值。
前述之環境調控裝置12選擇的為光源裝置、芳香機、或水氧機。而運算處理裝置11為具備運算功能之電子裝置,例如電腦裝置、智慧型手機、可程式數位電路板等。前述之運算處理裝置11可透過有線或無線方式連接環境調控裝置12,使用端可透過ASP、C/C++/C#、JAVA、Python、PHP、Perl等程式語言設定運算處理裝置11之操作流程,惟其程式語言之類別不在此限。
前述之音樂特徵選擇的為音高特徵、旋律特徵、響度特徵、斷音特徵、節拍特徵、音色特徵、或和弦特徵。而音樂情緒判別資訊選擇的包含憤怒情緒資訊、快樂情緒資訊、悲傷情緒資訊、或溫和情緒資訊。各個音樂特徵之擷取方式說明如下。
運算處理裝置11將音訊資訊分割成複數個音框,例如將各個音框以10~30ms進行分割,每個音框可選擇重疊或不重疊,重疊的部分一般約在1/2到1/3左右。本案在響度序列分析之一實施例中係採用連續音框,而在頻率分析方面則是利用1/3重疊音框進行分析。音訊的取樣率可選擇的為8kHz、16kHz、22.05kHz和44.1kHz,本案於一實施例中使用的是44.1kHz的取樣率。因每段輸入的音訊大小聲不一致,所以在處理前都會將其波形振幅調整到±1,去除每段訊號大小聲的影響。
響度(Loudness)是指人耳對聲音的強弱感受,並以分貝(dB) 來表示響度的大小。並可依聲音大小排成由弱到強的序列。響度在音樂中對聽眾的情緒有直接或間接的關聯,其大小或變化對聽者的情緒具有相當的影響力。本案對響度單一音框的定義如公式Eq1所示:
其中m表示第m個音框,N為單一音框之長度,X表示聲音訊號,n是X樣本之索引。此特徵之框窗長度設定為30ms,為優化即時處理之功效,本案於一實施例中在響度運算時將原本的44.1kHz降低至4.41kHz,讓每個音框的資料處理點數就會從原本1323下降為132,剩下原本的1/10之運算量以提高運算的速度,來快速取得音訊之平均響度、響度之變異度、響度最大值與平均值差等特徵。下列之斷音和節拍特徵的提取,亦會沿用響度的序列來提升整體的運算速度。響度分析流程圖如圖2所示:
S101:輸入音訊。
S102:降低取樣率。
S103:切割音框。
S104:讀入音框。
S105:計算響度。
S106:存入響度序列。
S107:判斷是否為最後音框?若是則執行S108;若否則執行S104。
S108:計算平均響度。
斷音(又稱之跳音)係指音符短促的發音,在聽覺上會有乾淨俐落與鮮明的效果。運算處理裝置11利用響度的序列,再取一條取樣長度 0.2秒的平均線判斷當能量序列衰減時與平均線的差異來計算出音樂斷音的量。由於在有斷音的音樂中,每個音符的響度會快速的遞減,因此運算處理裝置11在比較響度移動平均的序列與響度序列波形的差異量,來判斷是否為斷音(有斷音的音樂差異量較大)。本領域之習知技術中尚未有利用斷音特徵來分析音樂情緒,本案於後續內容會進一步說明此特徵扮演重要角色。並透過斷音特徵以得知音樂能量的變化為急促或和緩。
請參閱附件1之說明,上圖藍色線條為不含斷音之音訊波形、下圖藍色線條為是響度序列波形、下圖紅色線條為響度波形之移動平均序列。請參閱附件2之說明,上圖藍色線條為斷音之音訊波形、下圖藍色線條為是響度序列波形、下圖紅色線條為響度波形之移動平均序列。比對是響度序列波形以及移動平均序列可知,具有斷音之音訊其差異量較大。
節拍是指在長度相同的時間內,有很多強拍音和弱拍音的組合規律,並按照一定的次序反覆出現,形成有規律的強弱變化。運算處理裝置11利用重音點出現平均時間來計算音樂事件的流速。習知技術係提取重音利用頻譜流量來做運算,每個音框的頻譜流量需要使用短時距傅立葉轉換(STFT)來計算,計算出訊號在該時間點各種頻率成分的強度。而頻譜流量則是計算在該時間點各頻率成分的正流量,其運算式如Eq(2)所示:
其中m代表的是第m個音框,S m (i)和S m-1(i)代表第m個音框和第m-1個音框頻譜的強度,而Eq(3)之H(x)則是計算是否為正流量。整體運算複雜而無法用 於即時性的系統。
本案提出一套連續式的方法。該方法可在能量序列計算一條移動平均線,並判斷能量序列超過移動平均線的量來進行重音點的判斷。在能量超越比例方面經過多次音訊分析得知,超越響度超越移動平均線0.011時精確度最佳,因為多數聲音訊號在結尾時會有抖動現象,為避免設定太低則會誤判。該數值是經過多個音樂樣本測試的結果,適用於各類情緒。圖3為重音提取流程圖,附件3則是重音實際分析結果,圖3之流程說明如下:。
S201:輸入響度序列。
S202:切割音框。
S203:讀入音框。
S204:計算響度之移動平均線。
S205:判斷響度曲線是否下降且低於移動平均線?若是,則執行S206;若否,則執行S203。
S206:計算平均線與響度差。
S207:判斷是否為最後音框?若是則執行S208;若否則執行S203。
S208:計算平均斷音。
音高在音樂領域中指的是人類心理對於音符基頻的感受,根據人耳可聽的頻率範圍20~20000Hz,將所感受到的頻率對應到不同的音高。所有自然聲音的組成都是由許多頻率不同的正弦波組合而成,而將聲音利用傅立葉轉換後,會發現這些正弦波的頻率皆會是其中一個正弦波的倍數,而這個頻率最低的正弦波頻率稱之為基頻。音樂演奏或歌唱中,基 音是區別音高的主要元素並用於決定旋律。本案提供二種提取基頻之方法,方法一是利用平均振幅差分函數法Average Magnitude Difference Function(AMDF);方法二則是利用自相關函數Auto-correlation function(ACF)分析基頻。
方法一:平均振幅差分函數法(AMDF)
平均振幅差分函數法是利用音框不斷向右位移,同時與自身音框進行點對點的相減取絕對值再加總的運算。如此動作可以發現當向右位移剛好達到組成成份中最大周期正弦波的一個完整周期時,平均振幅差分函數法運算的結果會達到一個最小值,亦即曲線中第一次出現的谷點位置。但由於平均振幅差分函數法點對點的特性,當繼續計算時,重疊的點數遞減而造成峰值幅度的下降,使得欲求的谷點位置變為區域最小值而非全域最小值,造成檢測上的不易。運算式如下式Eq(4)所示,τ為平移點數,X位輸入音源訊號。
為解決此問題,本案另採用改良的循環式平均振幅差分函數法(Circular Average Magnitude Difference Function,簡稱:CAMDF)來提取基頻。平均振幅差分函數法利用模數的方式,當音框向右位移超過自身音框長度時,便從頭取點。此做法使得進行運算得點數維持固定,以改善峰值幅度下降所造成的問題,確立谷值點的顯著性檢測。由於從頭取點的運算方式,使結果呈現對稱的特性,故在降低運算量的考量下,本案只做一半的平均振幅差分函數法運算檢測基頻。運算式如下式Eq(5)所示,i為平移 的點數,X為輸入訊號,n為X訊號的長度。
最後,本案在循環式平均振幅差分函數法曲線大於平均值以後,提取最小值,並以取樣率除以谷點位置點數計算出基頻。
方法二:自相關函數(Auto-correlation Function,簡稱:ACF)
自相關函數法利用音框不斷向右位移,同時與自身音框進行點對點的相乘再加總的運算。在移動中可以發現當向右位移剛好達到組成成份中最大周期正弦波的一個完整周期時,自相關函數法運算的結果會達到二個最大值,亦即曲線中第二次出現的峰點位置,其數學定義如公式Eq(6):
其中X(i)為音樂訊號的第i個索引點,將音框每次向右平移一點,和原本音框的重疊部分進行點對點的相乘、相加,重複N次,即得到自相關函數。計算完成後找到自相關函數序列的第二峰值所對應的時間及是基頻的週期時間。
考量抗雜訊能力,本案於一實施例中選擇使用自相關函數來提取基頻,其基頻提取之流程圖如圖4所示。於此流程中係將輸入訊號切割成數的音框,再將每個音框計算ACF分析出基頻,附件4是一段鋼琴C、D、E、...A、B、C的音訊分析結果。圖4之步驟說明如下:
S301:輸入音訊。
S302:切割音框。
S303:讀入音框。
S304:判斷響度是否大於1e-4?若是,則執行S305;若否,則執行S303。
S305:計算自相關函數。
S306:計算自相關函數第二峰點出現時間。
S307:換算音訊基頻。
S308:判斷是否為最後音框?若是,則執行S309;若否,則執行303。
S309:計算平均基頻。
旋律是由一系列的音高所組成的。其高音是利用特定的高低排列和節奏聯繫起來的一種音的序列。旋律對於人的聽覺感觀來說相當於視覺感觀中的線條概念。旋律是呈現音樂作品思想感情的主要元素之一。
在旋律特徵提取的部分,本案係計算一段音樂的基頻序列的標準差σ作為特徵值,其公式定義如Eq(7)所示: 其中,B為一段基頻的序列,N為B的序列長度。
聲音是由物體震動的發聲所產生,而當發聲物體的主體震動時會發出一個基音,同時發聲物體的其餘部分也有複合的震動,藉由這些震動組合成泛音。泛音決定了發聲物體的音色,使人能辨別出不同的樂器甚至不同的人發出的聲音。本案利用DFT分析提取此特徵,判斷超越1000Hz頻率成分的百分比和超越3000Hz頻率成分的百分比來做判斷。
本案同時也計算了聲音的共振峰來當作特徵點。共振峰是一段訊號成分最強的頻率,因此本案可以計算FFT轉換後成分最強的頻率來計 算出共振峰頻率。本案利用短時距傅立葉轉換Short time Fourier transform來進行分析,分析公式如Eq(8)所示。而短時距傅立葉轉換是配與特定權重函數的離散傅立葉轉換,每個框窗的權重函數本案是選擇漢明窗(Hamming window)來改善計算頻譜的邊界效應,其公式定義如Eq(9)所示:
w=(1-α)-α cos(2 π n/(N-1)) Eq(9)其中0nN-1,N為框窗長度,α=0.46。
本案同時也計算了頻譜的質心(Spectrum Centroid)來做分析。質心可以看出整段頻譜的音域是偏高或偏低,計算方式如公式Eq(10)所示: 其中k為頻率樣本的索引,Sn[k]表示第k點的頻譜強度,f[k]表示第k點的頻率數值。圖5為音色分析的流程圖,附件4是頻譜質心曲線分析圖,附件5則是STFT色階圖。
S401:輸入音訊。
S402:切割音框。
S403:讀入音框。
S404:乘上漢明窗。
S405:計算STFT。
S406:判斷是否為最後音框?若是,則執行S407;若否,則執行S403。
S407:判斷音色特徵。
和弦係由至少一個頻率所造成之聲音,即兩個以上的單音組合所產生的聲音。本案利用PCP(Pitch Class Profile)來提取合音的強度,PCP向量是由頻譜的每個頻率窗口映射到12個音調階級(12個音符色調等級包括:C、C/D、D、D/E、E、F、F/G、G、G/A、A、A/B、B)來計算,其分佈圖如附件6所示。PCP處理流程如附件7所示。於步驟(a)中輸入一段聲音訊號。接著,在步驟(b)中將聲音進行傅立葉變換(FFT)將時域訊號轉換到頻域。接著於步驟(c)中,將每個FFT成分映射到其最接近的音符頻率。並將頻譜畫分成多個區域。最後於步驟(d)中,將各區域內部的幅度加總並除以該區域內音調階級的數目,並以直方圖進行劃分。最後,將該直方圖折疊,折疊的節距等於相同類的純音,產生了12個大小的向量,其中每個指數表示一個音符的強度。
於公式Eq(11)中,將頻譜的數值映射到12個音調層級上。該式中k表示頻域樣本中第k點的索引,p(k)表示音調空間層級和頻域的對應關係,f sr 是取樣率,f ref 表示參考頻率。於公式Eq(12)式中,S[k]表示在第k個樣本索引點中頻率的強度,p(k)=0,1,...,11。公式Eq(12)的用意在於累加所有相同音調的頻率強度,因此PCP可以顯示出當下音框各種音調的成分。
於本案中,和諧度之定義為使用最顯著的音(PCP最大值)與其音之增四度的程度值作為一個判斷的指標,其公式Eq(13)如下式所示: Note1[n]=max[PCP(1:12,n)] Eq(13)
Note2[n]=PCP(index of Note1[n]±6,n) Eq(14)
於公式Eq(13)、Eq(14)式中,Note1[n]是第n個音框中音調最強的音,Note2[n]是Note1[n]所對應的增四度,計算方法是取Note1[n]所對應的PCP為度索引點取±6來得到。附件8為PCP分析色階圖,由該圖中可以看出各時間的和弦。在不和諧度(Dissonance)提取是利用公式Eq(15)來計算,並提供不和諧度的曲線圖。
本案利用音樂認知心理學中之音樂情緒環狀模型(附件9)進行整理,因恐怖情緒之音樂特徵較沒有符合環狀程度遞減概念,因此僅分類四種情緒,分別為憤怒(Anger)、快樂(Happiness)、溫和(Tenderness)、悲傷(Sadness)。
在音樂情緒辨識的過程中,本案於一實施例中係利用樣本庫進行比對。於第一階段初步樣本挑選是觀察整首歌曲的音樂波形,憤怒音樂聲波訊號以及響度訊號如附件10所示,整段音樂的振幅大致上維持在±1左右。快樂音波聲波訊號以及響度訊號如附件11波形所示,相較於憤怒音樂,快樂音樂波形之訊號結構較為鬆散。
請參閱附件12,其為溫和音樂之聲波訊號以及響度訊號。請參閱附件13,其為悲傷音樂之聲波訊號以及響度訊號。溫和音樂悲傷音樂較為相似,從波形上可以明顯看出每個音符的起伏,而溫和音樂的音符起 出現率判斷;斷音則是利用音符響度快速遞減作分析;音色則是利用頻譜圖分析,介於1000Hz至3000Hz間音色較亮,而3000Hz以上音色較尖。音樂情緒辨識流程茲以說明如下。
分析憤怒音樂、快樂音樂、溫和音樂和悲傷音樂之響度曲線圖後(附件10~附件13),並根據分析結果量化後提供如表1之響度分析表。由表1可以看出,憤怒音樂的響度平均值最高,代表平均維持在高音量的時間最久,最吵雜。快樂音樂的響度分析結果其平均值比憤怒音樂略低一點,次低為溫和音樂,最低為悲傷音樂。每個類別呈現遞減的趨勢,表1所呈現之結果與附件9之音樂特徵的分類結果相同。另外本案亦針對響度分析了變異度和響度最大與平均值差,來增加特徵資訊。
本案利用平均重音出現的時間來分析如附件14~附件17音樂的流速,根據分析結果量化成表2節拍重音時間分析表。由表2量化的結果可以看出,憤怒之重音平均時間最短(附件14),代表著整體的音樂速度最快。快樂的音樂略緩一些(附件15),溫和次之(附件16),而悲傷音樂速度最慢(附件17),整體數據呈現遞減的趨勢。量化結果與附件9的情緒的環狀模型與音樂特徵的分類結果相同。本案另外也分析了重音響度,程度也是由 憤怒到悲傷呈現遞減狀態。斷音程度的部分可以看出憤怒的量最高,一直到悲傷呈現遞減狀態。另外也分析了響度的曲線與平均線的誤差,可以看出此段音訊的響度化是不是很突然,程度值有是由憤怒到悲傷呈現遞減狀態,其結果也符合附件9之音樂情緒模型。
接著,運算處理裝置11分析憤怒音樂(附件18)、快樂音樂(附件19)、溫和音樂(附件20)和悲傷音樂(附件21)之音高特徵,並量化成表3音高分析表。由表3量化的結果可以看出,憤怒音樂的平均音高最低,而悲傷音樂的平均音高最高,數值呈現遞增的情形。因憤怒音樂通常是由很多樂器組合的音樂,且大部分以敲擊樂和BASS為主,因此音高都維持在低頻,且較無變化。而悲傷音樂的音樂通常是較單純的一種樂器,高低音都有,但是一個音維持的時間較久,因此平均起來音高較高。在音高標準差的部分可以看到憤怒音樂和溫和音樂特別的低,代表者音高變化較少,而快樂音樂和悲傷音樂數值較高,代表者音高變化較多。
接著,運算處理裝置11分析憤怒音樂(附件22)、快樂音樂(附件23)、溫和音樂(附件24)和悲傷音樂(附件25)之音色特徵,以產生對應之共振峰及頻譜質心分析圖,以及STFT色階圖。由可以STFT色階圖看出每個類型的音樂於各個時間頻率成分分布情形。本案定義兩個門檻,第一門檻為頻率大於1000Hz的比例,第二門檻是大於3000Hz的比例,由STFT色階圖可以看出憤怒音樂的頻率多分布在3000Hz以上(代表音色較尖)。而悲傷音樂頻率較少分布在3000Hz以上(代表音色較暗)。由憤怒音樂到悲傷音樂呈現遞減,其結果也符合圖12的情緒的環狀模型。同時也分析了共振峰來增加特徵。一個聲音中包含了多種不同的頻率,而共振峰是這些頻率中較有意義的成分,提取的方式是尋找頻譜的峰值。
本案也分析了頻譜質心。頻譜質心可以看出整個頻譜的頻率是偏向高音還是低音。由表4可知憤怒音樂的質心明顯偏高,而悲傷音樂的質心明顯偏低,也是由憤怒音樂遞減到悲傷音樂。由悲傷音樂的頻譜質心曲線也可以看到,當一個音剛剛出現的時候,高音的成分會比較明顯,但是當聲音下降到中後的時候,會剩下的是比較低頻的成分,因此頻譜質心的曲線可以看出聲音事件的密集程度,同樣的聲音若很密集的出現則頻譜的質心曲線會較為平滑。
接著,運算處理裝置11分析憤怒音樂(附件26)、快樂音樂(附件27)、溫和音樂(附件28)和悲傷音樂(附件29)之不和諧度曲線,並根據分析結果量化成表5不和諧度分析表以及PCP圖。從和弦分析圖可以看出,憤怒音樂之圖形最雜亂,且節奏相當的急促,因此不和諧度的曲線一值為持在高點,平均後的結果也最高。而悲傷音樂因為聲音較為單純且較緩,所以不和諧度曲線的平均值也最低。
為對輸入之音樂進行音樂情緒分類,本案利用相似度比對的方式來做分類,讓當下的資料與參考樣本進行特徵點差異的比較,比對的定義如公式Eq(16)所示: 公式中X為測試樣本的特徵點序列,A為憤怒音樂的參考樣本,n為第n個特徵點,m為第m個樣本,N為總特徵點數量,M為總樣本數量,設計上式來進行比對是因為每個特徵點的數值大小不一致,小的數值有0~1之間,大的數值有到3000左右,因此利用上式讓每個比對結果都能夠維持在0~1之間。之後,利用公式Eq(17)運算出同一個情緒類別中最大的相似度:
當提取出每個類別之最大相似度後,再比較四個類別中最大相似度的情感來進行當下音樂之情緒判斷,並提供音樂情緒判別資訊,以達到音樂分類的效果。
本案之即時音樂情緒辨識系統1可應用於KTV包廂環境。於一實施例中,前述之環境調控裝置12則使用具有RGB色溫變化之LED燈具,以及可提供芳香療法之芳香機。當運算處理裝置11取得輸入之歌曲時,透過前述之處理流程處理後產生所對應之音樂情緒判別資訊。而環境調控裝置12在取得音樂情緒判別資訊後會進行環境調控設定。
舉例說明之,當環境調控裝置12為LED燈具時,可依各類型 的音樂情緒判別資訊來調整燈光顏色以及色溫;而當環境調控裝置12為芳香機時,則可依各類型的音樂情緒判別資訊來產生特定味道之氣體以及產生之時間、濃度等,以營造適合該音樂之情緒氣氛。
於另一實施例中,當輸入之歌曲包含多種音樂情緒時,運算處理裝置11更可計算各首歌曲情緒比例,並選擇的依比例以或所分佈之時段來調整環境之情緒。以表6說明之,當歌曲為「樹枝孤鳥」時,由於情緒主要包含了「憤怒情緒」以及「快樂情緒」,因此環境調控裝置12可依二者之綜合設定值進行運作。於另一實施例中,若該首歌曲之情緒時序分佈為「憤怒-快樂-快樂-憤怒」時,亦可讓環境調控裝置12依此時序進行配置。
上列詳細說明係針對本發明之一可行實施例之具體說明,惟該實施例並非用以限制本發明之專利範圍,凡未脫離本發明技藝精神所為之等效實施或變更,均應包含於本案之專利範圍中。
1‧‧‧即時音樂情緒辨識系統
11‧‧‧運算處理裝置
12‧‧‧環境調控裝置

Claims (8)

  1. 一種即時音樂情緒辨識系統,包含:運算處理裝置,分析輸入音樂之音訊資訊以提供複數個音樂特徵,並依據該等音樂特徵以判斷該音訊資訊所屬之音樂情緒以提供至少一音樂情緒判別資訊;以及環境調控裝置,連接該運算處理裝置,其中該環境調控裝置係依據該音樂情緒判別資訊以配置環境調控裝置之設定值;其中該等音樂特徵包含音高特徵、旋律特徵、響度特徵、斷音特徵、節拍特徵、音色特徵、或和弦特徵;其中該音樂情緒判別資訊選擇的包含憤怒情緒資訊、快樂情緒資訊、悲傷情緒資訊、或溫和情緒資訊。
  2. 如請求項1所述之即時音樂情緒辨識系統,其中該環境調控裝置選擇的為光源裝置、芳香機、或水氧機。
  3. 如請求項1所述之即時音樂情緒辨識系統,其中該運算處理裝置係將輸入之該音訊資訊分割成複數個音框,並分析該等音框之響度以產生響度序列,以及計算該響度序列之平均值以提供該響度特徵。
  4. 如請求項3所述之即時音樂情緒辨識系統,其中該運算處理裝置係分析該等音框響度之移動平均線,並判斷該響度特徵之曲線是否下降,且低於該響度移動平均線以提供該斷音特徵。
  5. 如請求項3所述之即時音樂情緒辨識系統,其中該運算處理裝置係分析該響度特徵之曲線是否大於0.011倍之該移動平均線,以提供該節拍特徵。
  6. 如請求項3所述之即時音樂情緒辨識系統,其中該運算處理裝置係分析該響度之自相關函數,以換算音訊基頻,並依據該音訊基頻判斷該音訊資訊之音高以提供該音高資訊。
  7. 如請求項6所述之即時音樂情緒辨識系統,其中該運算處理裝置係將該音訊資訊之基頻序列之標準差作為旋律提取特徵值,以依據該旋律提取特徵值分析該音訊資訊,以提供該旋律資訊。
  8. 如請求項1所述之即時音樂情緒辨識系統,其中該環境調控裝置更選擇的依該至少一音樂情緒判別資訊之比例或分佈之時段以配置該設定值。
TW105101201A 2016-01-15 2016-01-15 Real - time music emotion recognition system TWI579836B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW105101201A TWI579836B (zh) 2016-01-15 2016-01-15 Real - time music emotion recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW105101201A TWI579836B (zh) 2016-01-15 2016-01-15 Real - time music emotion recognition system

Publications (2)

Publication Number Publication Date
TWI579836B true TWI579836B (zh) 2017-04-21
TW201725582A TW201725582A (zh) 2017-07-16

Family

ID=59241107

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105101201A TWI579836B (zh) 2016-01-15 2016-01-15 Real - time music emotion recognition system

Country Status (1)

Country Link
TW (1) TWI579836B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200915300A (en) * 2007-09-26 2009-04-01 Fraunhofer Ges Forschung Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
TW201033909A (en) * 2009-03-05 2010-09-16 Chunghwa Telecom Co Ltd Electronic pets system capable of recognizing music
TW201349223A (zh) * 2012-05-30 2013-12-01 Univ Nat Central 環境聲音辨識方法
TW201423734A (zh) * 2012-12-13 2014-06-16 Univ Nat Chiao Tung 基於語音情感辨識之音樂播放系統及其方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200915300A (en) * 2007-09-26 2009-04-01 Fraunhofer Ges Forschung Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
TW201033909A (en) * 2009-03-05 2010-09-16 Chunghwa Telecom Co Ltd Electronic pets system capable of recognizing music
TW201349223A (zh) * 2012-05-30 2013-12-01 Univ Nat Central 環境聲音辨識方法
TW201423734A (zh) * 2012-12-13 2014-06-16 Univ Nat Chiao Tung 基於語音情感辨識之音樂播放系統及其方法

Also Published As

Publication number Publication date
TW201725582A (zh) 2017-07-16

Similar Documents

Publication Publication Date Title
Bittner et al. Deep Salience Representations for F0 Estimation in Polyphonic Music.
JP6290858B2 (ja) 発話の入力オーディオエンコーディングを、対象歌曲にリズム的に調和する出力へと自動変換するための、コンピュータ処理方法、装置、及びコンピュータプログラム製品
Mion et al. Score-independent audio features for description of music expression
Suied et al. Auditory gist: Recognition of very short sounds from timbre cues
Canazza et al. Modeling and control of expressiveness in music performance
US9741327B2 (en) Automatic transcription of musical content and real-time musical accompaniment
Agus et al. Characteristics of human voice processing
JP4815436B2 (ja) 可変分解能により情報信号をスペクトル表現に変換する装置および方法
Reymore et al. Using auditory imagery tasks to map the cognitive linguistic dimensions of musical instrument timbre qualia.
CN106383676B (zh) 用于声音的即时光色渲染系统及其应用
KR100721973B1 (ko) 분류알고리즘을 이용한 음악장르 분류 방법
Teixeira et al. Ulises: a agent-based system for timbre classification
Schneider Perception of timbre and sound color
Yang et al. Vibrato performance style: A case study comparing erhu and violin
Stowell Making music through real-time voice timbre analysis: machine learning and timbral control
Chau et al. The emotional characteristics of bowed string instruments with different pitch and dynamics
Rao Audio signal processing
TWI579836B (zh) Real - time music emotion recognition system
Delviniotis Acoustic characteristics of modern Greek Orthodox Church music
Bonjyotsna et al. Analytical study of vocal vibrato and mordent of Indian popular singers
Wang et al. Beijing opera synthesis based on straight algorithm and deep learning
Datta et al. Automatic musical instrument recognition
KR101092228B1 (ko) 음원 분류를 위한 악기 인식 시스템 및 방법
Jensen et al. Hybrid perception
Schneider et al. Perception of harmonic and inharmonic sounds: Results from ear models