TWI394141B

TWI394141B - Karaoke song accompaniment automatic scoring method

Info

Publication number: TWI394141B
Application number: TW098106930A
Authority: TW
Inventors: Wen Hsin Lin
Original assignee: Wen Hsin Lin
Priority date: 2009-03-04
Filing date: 2009-03-04
Publication date: 2013-04-21
Also published as: TW201034000A

Description

卡拉OK歌曲伴唱自動評分方法

本發明係涉及一種卡拉OK歌曲伴唱自動評分方法，特別是指一種依據音感、節奏感及情感等多項分數，再以加權計分方式核算評分之創新設計者。

按，在卡拉OK(KARAOK)歌曲伴唱過程中，目前的伴唱機通常伴有自動評分的功能，但是，此種功能的習知設計，往往只是粗略估算整體分數而已，也可能只是依據唱歌聲音的分貝數值高低來作為評量的唯一參考，而某些伴唱機的評分結果，甚至與歌曲唱的好壞品質狀態其實沒什麼關連性，如此只能達到些許的娛樂效果而已，並不能真正的評出歌曲唱的好壞，因此對於歌唱者的練唱而言，其實並無法有所幫助。

是以，針對上述習知卡拉OK歌曲伴唱產品設計使用上所存在之問題點，如何研發出一種能夠更具理想實用性之創新設計，實有待相關業界再加以思索突破之目標及方向者。

有鑑於此，發明人本於多年從事相關產品之製造開發與設計經驗，針對上述之目標，詳加設計與審慎評估後，終得一確具實用性之本發明。

本發明之主要目的，係在提供一種卡拉OK歌曲伴唱自動評分方法，其所欲解決之問題點，係針對習知卡拉OK歌曲伴唱機之自動評分功能並不能真正評出歌唱好壞，以致對於歌唱者練唱而言並無所助益之問題點加以思索突破；本發明解決問題之技術特點，在於所述卡拉OK歌曲伴唱自動評分方法，主要是藉由比對唱歌者的音高、拍點位置及音量與歌曲主旋律的音高、拍點位置及音量，分別得到音感分數、節奏感分數及情感分數，最後以加權計分方式核算加權總分；藉此創新獨特設計，使本發明對照先前技術而言，可以精確計算出演唱者在每一個歌曲段落的音高、拍點位置及音量誤差，並可利用音高曲線、音量曲線的顯示效果，讓演唱者可以很容易知道哪個地方唱得不夠準確以及哪個地方需要加強，同時具有教學及娛樂之雙重效果而確具實用進步性。

請參閱第1~16圖所示，係本發明卡拉OK歌曲伴唱自動評分方法之較佳實施例，惟此等實施例僅供說明之用，在專利申請上並不受此結構之限制；所述卡拉OK歌曲伴唱自動評分方法，大致而言，主要是藉由比對唱歌者的音高、拍點位置及音量與歌曲主旋律的音高、拍點位置及音量的方式，以分別得到音感分數、節奏感分數及情感分數之計分項目，最後以加權計分方式核算該等計分項目之加權總分，以獲得自動評分之分數者。

當一個人在唱歌時，除了個人聲音的特質外，要評論其歌聲與歌曲的匹配，主要應包括三種感覺，一是音感、二是節奏感、三是情感，音感是判斷其音高與相對之每個音符的音高準確度；節奏感是判斷其拍點位置的誤差，包括起唱拍點及結束拍點；情感是判斷其音量的變化，包括每句的音量變化及整體的音量變化。而具體獲取所述音感分數、節奏感分數及情感分數之方法分別說明如下：

(一)音感分數：

請參考第1圖所示，每隔一小段時間(例如0.1秒)，由演唱者所唱之麥克風音訊，計算一次演唱者的音高，此音高估算，是取得人聲音訊的基頻(Fundamental Frequency)，而其取得方法通常可利用基於自相關函數(Autocorrelation Function)的方法取得，然後，將此基頻經由音感估算器先轉換成相對之音階，接著比對此人聲音階與音樂主旋律中所擷取到的音階之匹配程度，並給予該音階一音感分數，如此計算所有音階之音感分數，直到演唱結束，即可輸出一平均音感分數。如第2圖所示，其具體說明如下：首先是“初始參數設定”，其中初始化了的音階個數m=0、及人聲與該音階之高音感匹配值NoteHit=0，和低音感匹配值NoteHitAround=0，NoteHit表示該音階演奏期間，人聲音高與之完全匹配的時間段數，NoteHitAround則表示人聲音高與音樂音階相差在一個半音之內的時間段數，接著取得下一段時間的主旋律音階及計算一段時間的人聲音高，又計算音階的音感分數算法，係由高音感匹配值NoteHit、低音感音階匹配值NoteHitAround及音階長度NoteLength來決定；主旋律音階是由midi等文件中直接取得的，依時間的增加取得其相對於該時間的演奏音階，人聲音高(基頻)，可經由轉碼表轉換得到相對於該音高的音階，例如音階“A4”的頻率是440 Hz，每提高八度音，頻率增加兩倍，如音階“A5”的頻率是880 Hz，一個八度有12個半音，每個半音間的頻率相差2^(1/12)倍，因為若人聲與該音階的頻率相差2倍或1/2倍等，整數的倍數關係時，其音感是相同的，因此透過音階±12個半音，我們調整了計算所得到的人聲音階Note_p與主旋律的音階Note_{_m}，令其相差在+6個半音與-5個半音之間，即Note_p=Note_p+12*i,i是非0的整數，使得-5<=Note_p-Note_m<=6。接著，判斷是否為新的音階，若是則計算上個音階的音感分數，然後重新設置起始參數，NoteHit=0且NoteHitAround=0及音階個數m=m+1，若否則比較是否主旋律音階與人聲音階匹配，此匹配指的是，誤差在一個比較小的容許的範圍內，如0.5個半音以內，若匹配則增加該音階之高音感匹配值NoteHit=NoteHit+1，否則判斷是否主旋律音階與人聲音階為低音感匹配，此低音感匹配表示，誤差在一個比較大的容許的範圍內，如相差一個半音以內，若是則增加音階低音感匹配值NoteHitAround=NoteHitAround+1，接著回到取得下一段時間的主旋律音階及計算人聲音高。上述“計算上個音階的音感分數”，其算法如第3圖所示：先取得前一音樂主弦律音階長度NoteLength(m)，其中：m=0、1、2、...、M

該M為音階總個數，然後判斷高音感匹配值NoteHit是否大於零，若是則計算高音感音階匹配分數： PitchScore(m)=PSH+K1 * NoteHit(m)/NoteLength(m)；其中：PSH，K1為可調整之經驗值參數，否則計算低音感音階匹配分數：PitchScore(m)=PSL+K2 * NoteHitAround(m)/NoteLength(m)；其中：PSL，K2為可調整之經驗值參數，並限制：0<=PitchScore(m)<=100

最後判斷是否為最後一個音階，若否則重複上述流程，若是則“計算平均音感分數”，其算法為所有PitchScore(m)以音長NoteLength(m)為加權比重的加權平均，如下：令音階總長度NL=Σ_m=0~M-1 NoteLength(m)，平均音感分數SOP(Score of Pitch)：

(二)節奏感分數：

節奏感是計算人聲起唱拍點與該音樂主旋律音階的起奏時間及人聲結束拍點與該音樂主旋律音階的結束時間的匹配程度來決定。要準確的估算出歌唱者每個節拍的拍點位置，在此我們以估計歌唱者音高的變化，當做其演唱不同音階的時間變化，進而來判斷其節拍的準確度，如第4圖所示，其雷同第1圖所述方法，係先估算人聲的音高及取得音樂主旋律的音階，然後透過節奏感估算器產生平均節奏感分數。

經由節奏感估算器，先將人聲音高轉成相對之音階，然後比對此音階，與主旋律中得到之音階在時間上的誤差，此時間的誤差包括提早或延遲的起奏拍點與結束拍點，並記錄每個音階的時間誤差，然後給予該音階之節奏感分數，如此計算所有的音階之節奏感分數，直到演唱結束，然後輸出平均節奏感分數。如第5圖所示，可利用節奏感延遲匹配器及節奏感超前匹配器，由轉換後之人聲音階、目前、上一個及下一個音樂主弦律音階，分別計算出人聲與該音階在時間上延遲或超前的匹配程度，得到人聲結束拍點或起唱拍點延遲時間及超前時間，再經由計算音階節奏感分數之手段，得到該音階的節奏感分數，依此，從第一個音階開始，我們計算每個音階的節奏感誤差，直到最後一個音階結束，然後計算平均節奏感分數。

請配合參看第6圖所示，該節奏感延遲匹配器是先判斷是否為新音樂音階的開始，若否則判斷是否已設定起唱拍點延遲時間，若是則結束，否則再判斷人聲音階與音樂音階是否匹配，若否則增加起唱拍點延遲時間，若是則設定起唱拍點延遲時間，然後結束，此延遲時間表示音樂音階開始後，人聲比它晚開始的時間誤差；若為新音樂音階的開始，則重設起唱拍點延遲時間並記錄上個音階結束時間，接著判斷人聲音階是否與上一個音樂主弦律音階匹配，若是則再判斷下一個人聲音階是否與上一個音樂主弦律音階匹配，直到否為止，然後設定結束拍點延遲時間後結束，此延遲時間表示該上個音樂音階結束後，人聲比它晚結束的時間誤差。

請配合參看第7圖所示，該節奏感超前匹配器，則是先判斷是否為新音樂音階的開始，若否，則判斷人聲音階與目前音樂音階是否匹配，若是，則記錄人聲音階結束時間，否則設定結束拍點超前時間，然後結束，此超前時間表示該音樂音階結束前，人聲比它更早結束的時間誤差；若為新音樂音階的開始，則重設結束拍點超前時間並記錄該音階開始時間，接著判斷人聲音階是否與該音樂主弦律音階匹配，若是則再判斷上一個人聲音階是否與該音階匹配，直到否為止，然後設定起唱拍點超前時間後結束，此超前時間表示該音樂音階開始前，人聲比它更早開始的時間誤差。

接著，由起唱拍點延遲時間、起唱拍點超前時間、結束拍點延遲時間及結束拍點超前時間，計算音階節奏感分數SOB(Score of Beat)，算法如下：令起唱拍點時間誤差為TDS，則，起唱拍點分數(SOBS)：SOBS=As+100．(1-TDS/Ls)

其中，TDS=起唱拍點延遲時間(NoteOnLag)+起唱拍點超前時間(NoteOnLead)，As與Ls是預設的經驗值參數。令結束拍點時間誤差為TDE，則：結束拍點分數(SOBE)： SOBE=Ae+100．(1-TDE/Le)

其中，TDE=結束拍點延遲時間(NoteOffLag)+結束拍點超前時間(NoteOffLead)，Ae與Le是預設的經驗值參數，該音階節奏感分數(SOB)：SOB=SOBS．R+SOBE．(1-R)

其中，R為一預設的加權參數，且0<=R<=1。

(三)情感分數：

情感是一種比較難以客觀衡量的參數，在此我們利用計算人聲的平均振幅與音樂主旋律的平均振幅之匹配程度來決定。計算情感分數係先取得並計算人聲振幅曲線與音樂振幅曲線的整首歌及每句的匹配程度及每一句的振幅曲線相對整體振幅的變化程度，以取得一平均情感分數。人聲的平均振幅是藉由計算每一個人聲聲音區段的RMS(Root of Mean Square，以下簡稱RMS)值得到，音樂主旋律的平均振幅亦可藉由計算每一個主旋律聲音區段的RMS值或直接由合成之音樂資訊中的振幅參數取得，所述RMS的算法如下：

其中，x(i),i=0,1,…,K-1,K代表此一聲音區段之聲音樣本點數(Samples)，此RMS值，在實際運算上，還可用其他方法如平均振幅或最大振幅等方法取代。如第8、9圖所示，係藉由情感分數估算器每隔一段時間(約0.1 sec)分別計算一次人聲信號與音樂主旋律的RMS值，可得到人聲與音樂的RMS序列，假設分別為MicVol(n)及MelVol(n)，n=0、1、N-1、、、，表示第n個時段，所得到的RMS值，其中N為歌曲時間總長度，並將MicVol(n)的能量準位調成與MelVol(n)相同，然後將其依每個音階的長度做平均，可得人聲與音樂的第m個音階的平均RMS序列分別為AvgMelVol(m)、AvgMicVol(m)；其中須釋明的是：前述MicVol代表麥克風人聲音量(下亦同)，MelVol代表音樂的主旋律音量(下亦同),AvgMelVol(m)代表音樂在第m個音階的平均值，AvgMicVol(m)則代表麥克風人聲音量在第m個音階的平均值；又音階表示音符的音高，音階的長度則是指音符的音長；假設第n個時間段的人聲振幅及音樂主旋律振幅序列分別為MicVol(n)及MelVol(n)，n=0、1、N-1，其中N為歌曲時間總長度將其依每個音階的長度做平均，可得人聲與音樂的第m個音階的平均振幅序列分別為AvgMelVol(m)、AvgMicVol(m)；如下：

其中L_m為第m個音符之音長，n_m為第m個音符開始的時間段。

由AvgMelVol(m)，AvgMicVol(m)可用來計算情感分數SOE(Score of Emotion)，首先取得並計算人聲振幅曲線與音樂振幅曲線的整體匹配程度SOET，它可代表整體的情感變化分數，如下：

其中M為音階總個數，且

故SOET<=100。

接著，可進行每一句情感分數SOES的計算，首先係將AvgMicVol(m)，AvgMelVol(m)切成一句一句，假設每句歌詞的起始音階為第S(j),j=0,1,2,…,L-1個開始，其中L為歌詞總句數，且令S(L)=M，則每一句的情感變化分數為：

j=0,1,2,…,L-1，然後計算每一句的相對情感變化分數，此分數為每句音量相對於整體音量的變化：首先，令

則

由上述可得，平均情感分數為整體的情感變化分數、每一句的情感變化分數及每一句的相對情感變化分數的加權平均：

其中α、β、γ為加權係數，且α+β+γ=1。

(四)加權總分：(請參考第9圖所示)

由上述SOP、SOB、SOE可得加權總分AES(Average Evaluated Score)如下：AES=p．SOP+q．SOB+r．SOE

其中p、q、r為加權係數，且p+q+r=1。

實作範例：

以一首歌曲為例，我們每0.1秒計算一次人聲的音高MicPitch(n)及RMS平均值MicVol(n)，同時擷取音樂主旋律音符的音高MelNote(n)及計算其RMS平均值MelVol(n)，n=0,1,2,…,N，N表示歌曲總長度，在此不失一般性，為方便說明，在此取N=280，表示歌曲時間總長度為28秒，如第10圖所示，為MicPitch(n)與MelNote(n)之曲線圖，圖中實線代表主旋律音符的音高，縱軸為音樂及人聲音階，每一個整數間隔為一個半音，60表示中音Do，61表示中音升Do，69表示中音La，依此類推，圓點表示由人聲所計算出之音高，並將之轉為音階代號，此音高已經經過正負12個半音的調整，使得人聲音高最接近主旋律音符的音高，圖中實線為一段一段，每一段表示一段持續的音階，每段的高低起伏，表示音階的高低變化，在主旋律音階為-1時，表示該音符為休止符或空的音階，將跳過忽略，圖中圓點為零時，表示該人聲未被計算出音高，該點人聲可能為無聲氣音、靜音或雜音等，將被視為未發出聲音。

首先由上述之音感分數的算法，可得到第m個音階的高音感匹配值NoteHit(m)(如第11圖中圓形所示)與低音感匹配值NoteHitAround(m)(如第11圖中三角形所示)，m=0,1,2,…M，M=3，如第11圖所示，令PSH=50,K1=100，及PSL=35，K2=50，可得到每個音階m的音感分數(如第11圖中矩形所示)，經過音符長度(如第11圖中星形所示)的加權平均計算後可得平均音感分數ScoreOfPitch(SOP)=98。

接著由上述之節奏感分數的算法，如第12圖所示可得到第m個音階的NoteOnLag(m)(圓形)、NoteOnLead(m)(星形)，令As=10，Ls=10，可算出BeatOnScore(m)(矩形)，如第13圖所示即可得到NoteOffLag(m)(圓形)與NoteOffLead(m)(星形)，令Ae=50,Le=NoteLength(音階長度)，可算出BeatOffScore(m)(圓形)，經過音階長度的加權平均計算後可得ScoreOfBeatStart(SOBS)=93.19，ScoreOfBeatEnd(SOBE)=99.82，令R=0.5，SOB=96.5。

再接著由上述之情感分數的算法，首先可得到人聲與音樂主旋律的RMS序列MelVol(n)(如第14圖之L1所示)、MicVol(n)(如第14圖之L2所示)，並將MicVol(n)的能量準位調成與MelVol(n)相同，如第14圖所示，將其依每個音階的長度平均，可得第m個音階的平均RMS序列AvgMelVol(m)(如第15圖L3所示)、AvgMicVol(m)(如第15圖L4所示)，如第15圖所示，設定加權係數，並由此可算出SOET=98.33，第j句的SOES(j)(如第16圖L5所示)及SOEA(j)(如第16圖L6所示)，j=0,1,2,…L-1，總句數L=6，如第16圖所示，平均之SOES=97.2，及SOEA=95.67，經過加權計算後可得：ScoreOfEmotion(SOE)=97.24

最後設定加權係數p=0.6，q=0.2，r=0.2，可得到加權總分：AES=p．SOP+q．SOB+r．SOE=97.55

本發明之優點：

本發明所述卡拉OK歌曲伴唱自動評分方法主要藉由比對唱歌者音高、拍點位置及音量與歌曲主旋律的音高、拍點位置及音量，分別得到音感分數、節奏感分數及情感分數，再以加權計分方式核算加權總分之創新獨特設計，使本發明對照先前技術而言，將可精確計算出演唱者在每一個歌曲段落的音高、拍點位置及音量誤差，並可利用音高曲線、音量曲線的顯示效果，讓演唱者可以很容易知道哪個地方唱得不夠準確以及哪個地方需要加強，達到同時具教學及娛樂雙重效果之實用進步性者。

上述實施例所揭示者係藉以具體說明本發明，且文中雖透過特定的術語進行說明，當不能以此限定本發明之專利範圍；熟悉此項技術領域之人士當可在瞭解本發明之精神與原則後對其進行變更與修改而達到等效之目的，而此等變更與修改，皆應涵蓋於如后所述之申請專利範圍所界定範疇中。

第1圖：本發明之音感分數取得方法文字方塊圖一。

第2圖：本發明之音感分數取得方法文字方塊圖二。

第3圖：本發明之音感分數取得方法文字方塊圖三。

第4圖：本發明之節奏感分數取得方法文字方塊圖一。

第5圖：本發明之節奏感分數取得方法文字方塊圖二。

第6圖：本發明之節奏感分數取得方法文字方塊圖三。

第7圖：本發明之節奏感分數取得方法文字方塊圖四。

第8圖：本發明之情感分數取得方法文字方塊圖。

第9圖：本發明之自動評分估算方法文字方塊圖。

第10圖：本發明之實作範例說明參考圖表一。

第11圖：本發明之實作範例說明參考圖表二。

第12圖：本發明之實作範例說明參考圖表三。

第13圖：本發明之實作範例說明參考圖表四。

第14圖：本發明之實作範例說明參考圖表五。

第15圖：本發明之實作範例說明參考圖表六。

第16圖：本發明之實作範例說明參考圖表七。

Claims

一種卡拉OK歌曲伴唱自動評分方法，主要是藉由比對唱歌者的音高、拍點位置及音量與音樂主旋律的音高、拍點位置及音量的方式，以分別得到音感分數、節奏感分數及情感分數之計分項目，最後以加權計分方式核算該等計分項目之加權總分，以獲得自動評分之分數者；其中所述音感分數之取得，係透過每隔一小段時間由演唱者所唱出之麥克風音訊估算一次演唱者的音高，此音高之估算係取得人聲音訊的基頻(Fundamental Frequency)，然後將該基頻經由一音感估算器先轉換成相對之音階，然後比對該人聲音階與該音樂主旋律中所擷取到的音階之匹配程度，並給予該音階一音感分數，如此計算所有音階之音感分數，直到演唱結束，即可輸出一平均音感分數；音感分數之取得包括初始參數設定，係設定初始化了的音階個數m=0、及人聲與該音階之高音感匹配值NoteHit=0，和低音感匹配值NoteHitAround=0，NoteHit表示音階演奏期間人聲音高與之完全匹配的時間段數，NoteHitAround則表示人聲音高與音階相差在一個半音之內的時間段數，接著取得下一段時間的主旋律音階及計算一段時間的人聲音高；又計算音階的音感分數算法，係由高音感匹配值NoteHit、低音感匹配值NoteHitAround及音階長度NoteLength來決定；所述節奏感分數，是計算人聲起唱拍點與該音樂主旋律音階的起奏時間及人聲結束拍點與該音樂主旋律音階的結束時間的匹配程度來決定；係經由節奏感估算器先將人聲音高轉成相對之音階，然後比對此音階與主旋律中得到之音階在時間上的誤差，此時間的誤差包括提早或延遲的起奏拍點與結束拍點，並記錄每個音階的時間誤差，然後給予該音階之節奏感分數，如此計算所有的音階之節奏感分數，直到演唱結束，然後輸出平均節奏感分數；係利用節奏感延遲匹配器及節奏感超前匹配器，由轉換後之人聲音階、目前、上一個及下一個音樂主弦律音階，分別計算出人聲與該音階在時間上延遲或超前的匹配程度，得到人聲結束拍點或起唱拍點延遲時間及超前時間，再經由計算音階節奏感分數之手段，得到該音階的節奏感分數，依此，從第一個音階開始計算每個音階的節奏感誤差，直到最後一個音階結束，然後計算平均節奏感分數；其中所述情感分數，係利用計算人聲的平均振幅與該音樂主旋律的平均振幅之匹配程度來決定；其中所述人聲的平均振幅是藉由計算每一個人聲聲音區段的RMS(Root of Mean Square)值得到，該音樂主旋律的平均振幅係藉由計算每一個主旋律聲音區段的RMS值或直接由合成之音樂資訊中的振幅參數取得；係藉由情感分數估算器每隔一段時間分別計算一次人聲信號與音樂主旋律的RMS值，以得到人聲與音樂的RMS序列，然後將其依每個音階的長度做平均，可得人聲與音樂的音階平均RMS序列；接著計算情感分數，係先取得並計算人聲振幅曲線與音樂振幅曲線的整首歌及每句的匹配程度及每一句的振幅曲線相對整體振幅的變化程度，以取得一平均情感分數。
依據申請專利範圍第1項所述之卡拉OK歌曲伴唱自動評分方法，其中若高音感匹配值NoteHit大於零則計算第m個高音感音階匹配分數(以PitchScore(m)簡稱)：PitchScore(m)=PSH+K1 * NoteHit(m)/NoteLength(m)其中：PSH，K1為可調整之經驗值參數，否則計算低音感音階匹配分數：PitchScore(m)=PSL+K2 * NoteHitAround(m)/NoteLength(m)其中：PSL，K2為可調整之經驗值參數，並限制：0<=PitchScore(m)<=100最後判斷是否為最後一個音階，若否則重複上述流程，若是則“計算平均音感分數”，其算法為所有PitchScore(m)以音長NoteLength(m)為加權比重的加權平均，如下：令音階總長度NL=Σ_m=0~M-1 NoteLength(m)，平均音感分數SOP(Score of Pitch)：所述計算音階節奏感分數SOB(Score of Beat)之算法如下：令起唱拍點時間誤差為TDS，則起唱拍點分數(SOBS)：SOBS=As+100．(1-TDS/Ls)其中，TDS=起唱拍點延遲時間(NoteOnLag)+起唱拍點超前時間(NoteOnLead)，As與Ls是預設的經驗值參數，令結束拍點時間誤差為TDE，則：結束拍點分數(SOBE)：SOBE=Ae+100．(1-TDE/Le)其中，TDE=結束拍點延遲時間(NoteOffLag)+結束拍點超前時間(NoteOffLead)，Ae與Le是預設的經驗值參數，該音階節奏感分數(SOB)：SOB=SOBS．R+SOBE．(1-R)其中，R為一預設的加權參數，且0<=R<=1假設第n個時間段的人聲振幅及音樂主旋律振幅序列分別為MicVol(n)及MelVol(n)，n=0、1、N-1，其中N為歌曲時間總長度將其依每個音階的長度做平均，可得人聲與音樂的第m個音階的平均振幅序列分別為 AvgMelVol(m)、AvgMicVol(m)；如下：其中L_m為第m個音符之音長，n_m為第m個音符開始的時間段；AvgMelVol(m)，AvgMicVol(m)係用來計算情感分數SOE(Score of Emotion)，首先取得並計算人聲振幅曲線與音樂振幅曲線的整體匹配程度SOET，其代表整體的情感變化分數，如下：其中M為音階總個數，且：故SOET<=100接著，進行每一句情感分數SOES的計算，首先係將該AvgMicVol(m)，AvgMelVol(m)切成一句一句，假設每句歌詞的起始音階為第S(j),j=0,1,2,…,L-1個開始，其中L為歌詞總句數，且令S(L)=M，則每一句的情感變化分數為： j=0,1,2,…,L-1，然後計算每一句的相對情感變化分數，此分數為每句音量相對於整體音量的變化：首先，令：則由上述可得平均情感分數為整體的情感變化分數、每一句的情感變化分數及每一句的相對情感變化分數的加權平均：其中α、β、γ為加權係數，且α+β+γ=1；由所述SOP、SOB、SOE得加權總分AES(Average Evaluated Score)如下：AES=p．SOP+q．SOB+r．SOE其中p、q、r為加權係數，且p+q+r=1。