TWM491896U

TWM491896U - 哼唱聲音轉樂譜的辨識轉換系統及辨識轉換裝置

Info

Publication number: TWM491896U
Application number: TW103201479U
Authority: TW
Inventors: Wei-Xiong Dai; Ling-Gao Guo
Original assignee: Big Mind Digital Music Co Ltd
Priority date: 2014-01-24
Filing date: 2014-01-24
Publication date: 2014-12-11

Description

哼唱聲音轉樂譜的辨識轉換系統及辨識轉換裝置

本創作係關於聲音的辨識轉換，更特別是關於一種將哼唱聲音轉為樂譜的辨識轉換系統及辨識轉換裝置。

隨著聲音辨識技術的發展，辨識的準確度已大幅提高，使得聲音辨識的各種應用面開始蓬勃發展，例如：用於電子裝置之語音輸入法、透過語音辨識技術來作溝通的語音數位助理等，語音辨識技術開始充斥於你我的數位生活中。

聲音辨識於樂譜創作上亦有所應用，如樂器聲音的辨識，如一種應用聲音辨識技術來進行樂譜分析辨識的前案技術，可參閱本國發明專利公告號第I229845號所述，其係透過對演奏者使用樂器所發出的聲音信號進行辨識處理，以獲得一辨識音符，再藉由該辨識音符與內儲存之對應的樂譜資料以判斷該辨識音符位於該樂譜資料之相對應位置，並在該辨識音符位於所顯示頁面之最後一個音符時控制顯示單元顯示下一頁面樂譜，進而完成翻頁動作。該專利係藉由樂器所發出的聲音來辨識樂譜中的音符，進而除了可在演奏時充當樂譜翻頁的功能外，更可讓使用者或新手在演奏練習時進行演奏速度、音準、節奏等的紀錄、評分及自我調整。

然而，第I229845號專利係對樂器所發出的聲音進行辨識，雖然樂器係由演奏者所操作，然該樂器仍是屬於較穩定的發聲源，即便係由演奏者的演奏技巧造成聲音的變調，辨識系統仍就可輕易地辨識出該樂器發出之聲音對應的音符資料。一旦發聲源改為由人聲發出時，由於人的發聲頻率不像樂器的發聲頻率那樣穩定，即便是受過專業訓練的歌手也會有像抖音這樣的技巧，因此，以單一個音來說，對於我們人的耳朵來判斷，我們會知道他是同一個音，但對於一開始的辨識，辨識系統可能會辨識成這個音或是其上下半音，所以導致只唱一個音，但辨識系統卻會發生辨識成三個音的誤判情況。

基於此，人聲轉樂譜的技術上仍有待解決辨識結果誤判的情況。

為解決上述現有技術的缺失，本創作之一目的在於可準確地將所錄製的聲音轉換成正確的樂譜資料。

本創作之進一步目的在於可供使用者輕易調整該樂譜資料且不會大幅增加系統負荷。

為達上述目的及其他目的，本創作係提供一種哼唱聲音轉樂譜的辨識轉換系統，用於供使用者將所錄製的哼唱聲音資料轉換為樂譜資料，包含：一網路通訊元件，係與一網路建立連接，用於接收使用者之電子裝置透過該網路所傳送的該聲音資料；及一辨識轉換處理器，係連接該網路通訊元件，用於產生具有BPM值資訊的設定操作介面供該使用者之電子裝置使用，以及用於根據該BPM值資訊、透過該網路通訊元件傳送對應的一節拍音訊資料供該使用者之電子裝置於錄製哼唱聲音時播放，以及用於根據該聲音資料進行聲音轉樂譜的辨識轉換以產生該樂譜資料，其中該BPM值資訊係為每分鐘節拍數。

為達上述目的及其他目的，本創作復提出一種哼唱聲音轉樂譜的辨識轉換裝置，用於供使用者將哼唱的聲音轉換為樂譜資料，包含：一揚聲器；一麥克風收音器，係用於接收該使用者之哼唱聲音而轉換為一聲音資料；一辨識轉換處理器，係連接該揚聲器及連接該麥克風收音器以接收該聲音資料，該辨識轉換處理器用於產生具有BPM值資訊的設定操作介面，以及用於根據該BPM值資訊產生對應的一節拍音訊資料以供該使用者於錄製該聲音資料時透過該揚聲器播放，以及用於根據該聲音資料進行聲音轉樂譜的辨識轉換以產生該樂譜資料，其中該BPM值資訊係為每分鐘節拍數；及一顯示器，係連接該辨識轉換處理器，用以顯示該設定操作介面供該使用者進行設定及開始錄製的操作。

於本創作的一實施例中，該辨識轉換處理器更用於提供拍子記號資訊及起音調性的設定於該設定操作介面上，其中該拍子記號資訊係為幾分音符為一拍及每小節有幾拍的資訊。

於本創作的一實施例中，該辨識轉換處理器更用於透過該網路通訊元件傳送一背景音樂資料以供該使用者之電子裝置於錄製哼唱聲音時播放。

於本創作的一實施例中，該辨識轉換處理器包含：一節拍設定模組，具有一聲音取樣頻率之預設值，係用於提供該BPM值資訊及該拍子記號資訊的設定，並顯示於該設定操作介面上；一聲音錄製模組，係用於根據該BPM值資訊透過該網路通訊元件傳送對應之該節拍音訊資料供該使用者之電子裝置播放，以及用於錄製該使用者之電子裝置所傳送之該聲音資料；一聲音辨識分析模組，係用於基於該BPM值資訊、該聲音取樣頻率資訊、該拍子記號資訊之每小節有幾拍的資訊、及預設之用於解析該聲音資料內之總取樣點數量值的一音符解析度值，將該總取樣點以每小節分開的方式逐一進行辨識轉換，進而於該總取樣點內篩選出作為音符資訊的取樣點；一樂譜轉換模組，係用於根據所辨識出之該等取樣點各別對應的音符資訊，以及根據用於區分各小節的該拍子記號資訊，將所辨識出之該等取樣點對應之音符資訊的每一者轉換為具有包含有音高資訊、升降資訊、八度音資訊及音長資訊的物件；及一樂譜圖像產生模組，係用於依據選擇將該等物件依據一簡譜對應表產生作為該樂譜資料的一簡譜圖像資料，或用於依據選擇將該等物件以區分各小節的方式進行資訊擷取以產生作為該樂譜資料的一五線譜圖像資料。

於本創作的一實施例中，該聲音取樣頻率之預設值係設定為每0.05秒取樣一次。

於本創作的一實施例中，該音符解析度值係選自1/16音符及1/8音符的其中一者。

於本創作的一實施例中，執行該辨識轉換的該聲音辨識分析模組係用於執行：(a1)根據該BPM值資訊及該聲音取樣頻率資訊產生一拍之時間內具有的取樣點數量值C1；再執行(a2)依據該C1值及該拍子記號資訊之每小節有幾拍的資訊產生一小節內具有的取樣點數量值C2；再執行(a3)依據該C2值及該聲音資料之總取樣點數量值產生該聲音資料具有的小節數量值C3；再執行(a4)依據預設之用於解析該總取樣點數量值的該音符解析度值及該C3值產生一個音符解析度值具有幾個取樣點數量值C4；再執行(a5)篩選取樣點，其係基於一個音符解析度值包含之取樣點中所對應之複數音符資訊的中位數，以該中位數對應之取樣點作為該音符解析度值的取樣點，或基於一個音符解析度值包含之取樣點中所對應之複數音符資訊之出現次數最多的取樣點，且其出現之次數大於該音符解析度值對應之取樣點的數量，以該出現次數最多的取樣點作為該音符解析度值的取樣點；再執行(a6)，將所有小節中之每一音符解析度值的所篩選之取樣點的聲音資料轉換為音符資訊。

於本創作的一實施例中，該音長資訊之物件的轉換係依據下式來轉換：音長資訊=相鄰同一個音的取樣點個數*(x/y)，其中，x為音長資訊度量值個數，y為依據該拍子記號資訊之幾分音符為一拍的資訊而將一拍切成幾等分的數量值。

於本創作的一實施例中，該五線譜圖像資料的產生係依據該拍子記號資訊之幾分音符為一拍及每小節有幾拍的資訊將該等物件依據單一小節內之所有資料的處理區塊進行轉換，並將每一小節內之每一拍下的所有音符對應的物件，逐一地以對應的音符圖像覆蓋在一五線譜底圖圖像上，以產生該五線譜圖像資料。

藉此，本創作透過在錄製聲音的過程中同步播放使用者設定之節拍，使得所錄製之聲音資料的節拍準度可大幅提高，並有利於後續的轉換處理；進一步地，透過對錄製聲音之取樣點資料的辨識及樂譜圖像的轉換，本創作可提供精確之樂譜圖像，以及更可供使用者直接修改樂譜資料中之每小節內的音符資訊，進而提供使用者一種準確且不會大幅增加運算負荷的辨識轉換系統及辨識轉換裝置。

100‧‧‧辨識轉換系統

110‧‧‧網路通訊元件

120‧‧‧辨識轉換處理器

121‧‧‧節拍設定模組

122‧‧‧聲音錄製模組

123‧‧‧聲音辨識分析模組

124‧‧‧樂譜轉換模組

125‧‧‧樂譜圖像產生模組

200‧‧‧使用者之電子裝置

210‧‧‧揚聲器

220‧‧‧麥克風收音器

230‧‧‧顯示器

300‧‧‧網路

500‧‧‧辨識轉換裝置

520‧‧‧辨識轉換處理器

521‧‧‧節拍設定模組

522‧‧‧聲音錄製模組

523‧‧‧聲音辨識分析模組

524‧‧‧樂譜轉換模組

525‧‧‧樂譜圖像產生模組

550‧‧‧揚聲器

560‧‧‧麥克風收音器

570‧‧‧顯示器

612‧‧‧BPM資訊設定區塊

614‧‧‧BPM資訊設定區塊

630‧‧‧起音調性設定區塊

650‧‧‧拍子記號設定區塊

第1圖係為本創作一實施例中之辨識轉換系統的示意圖。

第2圖係為本創作一實施例中之辨識轉換處理器的系統方塊圖。

第3圖係為本創作一實施例中之辨識轉換裝置的系統方塊圖。

第4圖係為本創作一實施例中之辨識轉換處理器的系統方塊圖。

第5圖係為本創作一實施例中之設定操作介面的示意圖。

為充分瞭解本創作之目的、特徵及功效，茲藉由下述具體之實施例，並配合所附之圖式，對本創作做一詳細說明，說明如後：首先請參閱第1圖，係本創作一實施例中之辨識轉換系統的示意圖。本創作之哼唱聲音轉樂譜的辨識轉換系統100係用於供使用者將所錄製的哼唱聲音資料轉換為樂譜資料，包含：網路通訊元件110及辨識轉換處理器120。本創作之辨識轉換系統100係可運作於電腦主機中，透過與網路300的連接來提供使用者之電子裝置200的連接，使得亦連接至網路300的使用者之電子裝置200可連接上該辨識轉換系統100，進而透過該辨識轉換系統100將所錄製的哼唱聲音資料轉換為樂譜資料。其中，該網路300係包含網際網路(Internet)、區域網路(Local Area Network)或其組合(例如：電腦主機透過網際網路；而使用者之電子裝置200係透過區域網路)，此外，有線或無線之網路皆包含在該網路300之範疇。本創作之使用者之電子裝置200可為桌上型電腦、智慧型手機、平板電腦等可連接網路之設備或裝置。

因此，本創作之網路通訊元件110係與網路300建立連接，用於接收使用者之電子裝置200透過該網路300所傳送的聲音資料。該聲音資料係指使用者哼唱時透過使用者之電子裝置200之內建或外接的麥克風收音器220所錄製的聲音資料。

本創作之辨識轉換處理器120係連接該網路通訊元件110，用於產生具有BPM值資訊的設定操作介面供該使用者之電子裝置200操作使用，以供相關節拍資訊的設定，例如：BPM值資訊，該BPM值資訊係為每分鐘節拍數(BPM=100即為每分鐘有100拍)。本創作之辨識轉換處理器120並用於根據該BPM值資訊產生對應的一節拍音訊資料，以及透過該網路通訊元件110傳送該節拍音訊資料供該使用者之電子裝置200的揚聲器220(於第1圖所圖示之手機的使用者中，由於麥克風收音器及揚聲器較小，故未圖示出)於錄製哼唱聲音時播放。接著，於該聲音資料錄製完成時，辨識轉換處理器120進行聲音轉樂譜的辨識轉換以產生轉換後的樂譜資料供使用者儲存、審視或修改。

本創作透過於設定操作介面提供使用者設定該BPM值資訊，以及依據該BPM值資訊播放對應之節拍音訊資料的功能，使得使用者在錄製時可有一穩定且根據使用者之需要而設定之節奏可遵循，讓哼唱的節奏得以有一規範的提示，進而使得所錄製之聲音資料的節拍準度可大幅提高。

進一步地，該辨識轉換處理器100更可用於提供拍子記號資訊及起音調性的設定於該設定操作介面上，其中該拍子記號資訊係為幾分音符為一拍及每小節有幾拍的資訊。舉例來說：拍子記號資訊「4/4」即代表四分音符為一拍，每一小節有四拍；起音調性=C即為C調。

此外，該辨識轉換處理器100更可用於透過該網路通訊元件110傳送一背景音樂資料以供該使用者之電子裝置於錄製哼唱聲音時播放。該背景音樂資料係透過使用者可在創作時藉由該背景音樂資料而進行搭配性的哼唱創作。

接著請參閱第2圖，係為本創作一實施例中之辨識轉換處理器的系統方塊圖。該辨識轉換處理器100包含：節拍設定模組121、聲音錄製模組122、聲音辨識分析模組123、樂譜轉換模組124、及樂譜圖像產生模組125。

節拍設定模組121具有一聲音取樣頻率之預設值，係用於提供該BPM值資訊及該拍子記號資訊的設定，並顯示於該設定操作介面上。於一實施例中，該聲音取樣頻率之預設值係可設定為每0.05秒取樣一次。

聲音錄製模組122係用於根據該BPM值資訊透過該網路通訊元件傳送對應之該節拍音訊資料供該使用者之電子裝置播放，以及用於錄製該使用者之電子裝置所傳送之該聲音資料。

聲音辨識分析模組123係用於基於該BPM值資訊、該聲音取樣頻率資訊、該拍子記號資訊之每小節有幾拍的資訊、及預設之用於解析該聲音資料內之總取樣點數量值的一音符解析度值，將該總取樣點以每小節分開的方式逐一進行辨識轉換，進而於該總取樣點內篩選出作為音符資訊的取樣點。於一實施例中，該音符解析度值係可選自1/16音符及1/8音符的其中一者。

樂譜轉換模組124係用於根據所辨識出之該等取樣點各別對應的音符資訊，以及根據用於區分各小節的該拍子記號資訊，將所辨識出之該等取樣點對應之音符資訊的每一者轉換為具有包含有音高資訊(notenumber)、升降資訊(sharp)、八度音資訊(octave)及音長資訊(notelength)的物件(objects)。

樂譜圖像產生模組125係用於依據選擇將該等物件依據一簡譜對應表產生作為該樂譜資料的一簡譜圖像資料，或用於依據選擇將該等物件以區分各小節的方式進行資訊擷取以產生作為該樂譜資料的一五線譜圖像資料。

其中，執行該辨識轉換的聲音辨識分析模組123中，係用於執行以下步驟：(a1)根據該BPM值資訊及該聲音取樣頻率資訊產生一拍之時間內具有的取樣點數量值C1；(a2)依據該C1值及該拍子記號資訊之每小節有幾拍的資訊產生一小節內具有的取樣點數量值C2；(a3)依據該C2值及該聲音資料之總取樣點數量值產生該聲音資料具有的小節數量值C3；(a4)依據預設之用於解析該總取樣點數量值的該音符解析度值及該C3值產生一個音符解析度值具有幾個取樣點數量值C4；(a5)篩選取樣點，其係基於一個音符解析度值包含之取樣點中所對應之複數音符資訊的中位數，以該中位數對應之取樣點作為該音符解析度值的取樣點，或基於一個音符解析度值包含之取樣點中所對應之複數音符資訊之出現次數最多的取樣點，且其出現之次數大於該音符解析度值對應之取樣點的數量，以該出現次數最多的取樣點作為該音符解析度值的取樣點；(a6)將所有小節中之每一音符解析度值的所篩選之取樣點的聲音資料轉換為音符資訊。

其中該聲音辨識分析模組123更用於在(a3)中執行：依據該C3值及該C2值產生該聲音資料之總取樣點數量值應具備的取樣數量值，並於不足時以預設之資料值補足。

聲音辨識分析模組123係可增強音準的分析，舉例來說，若取樣的資料點的個數太少就會導致準確性嚴重不足，但若取樣資料點的個數太多即會造成拍子變得很零碎，因此本創作之聲音辨識分析模組123以上述分析步驟來篩選出適當的取樣點，以下將以一例子來做說明：這部分需要的參數，包括(1)BPM值資訊(Beats Per Min)、(2)拍子記號資訊、(3)聲音取樣頻率資訊RefreshHz、及(4)總取樣點Array。

首先步驟(a1)：利用(1)&(2)，必須先用60/BPM來得到在此BPM下，一拍應該是幾秒鐘。以下以BPM=100、拍子記號為4/4為例，亦即，每分鐘100拍所以一拍是60/100=0.6秒，再利用(3)，用每拍幾秒去除以RefreshHz，這樣可以算出一拍應該要有幾個資料點，0.6/0.05=12。所以Array裡面每12個資料點代表一拍(一小節內具有的取樣點數量值C2)。

接著步驟(a2)：利用(4)，用一拍有幾個資料點去乘以拍子記號中的分母，分母代表每小節有幾拍，所以用12*4=48。代表一小節應該要有48個資料點(一小節內具有的取樣點數量值C2)。

接著步驟(a3)：再用錄音完得到之總取樣點Array的個數去除以48，無條件進位到整數位(ceil function)，並補足不滿一小節的部分，於此可計算出這段錄音總共有幾個小節(該聲音資料具有的小節數量值C3)。算出幾個小節後，用小節數去乘以48(每小節有48個資料點)，表示完整的總取樣點Array真正應該要有這麼多個資料點z。利用這個數字z扣掉目前總取樣點Array的個數，就可以得到後面還缺幾個資料點才能補足最後不滿一小節的部分，舉例來說，之後可在後面補上這麼多個"0"使得總取樣點Array的個數會是每小節資料點數的整數倍。

接著步驟(a4)：亦即決定多少個資料點可以代表一個部分拍子的音，在設定操作介面中使用者可以調整辨識解析度高低，高的話辨識最短拍子為1/16音符，低的話是1/8音符，以預設值1/16拍子為例：即代表必須去算出多少個資料點可以決定出一個1/16音符的音應該是什麼。以預設值為例，每小節4拍，一拍可分成4個16分音符，所以一小節總共有4*4個16分音符，再用16*上面算出來的小節數(C3值)即是應該要決定出來的資料點數(一個音符解析度值具有幾個取樣點數量值C4)。假設四個小節，總取樣點Array的資料點數應該有4*48個點，因而需要決定的資料點數是4*16個，用4*48/4*16可以得出3，3表示3個總取樣點Array裡面的資料點可以決定一個1/16音符的音。

接著步驟(a5)：決定的方法有兩種，一者為採用多數決，以出現最多次的數字且出現次數大於總數目的半數的話就決定是那個數字，若出現最多次的數字沒有過半數即可採用另一種方法，即，取所有數字的中位數來當做那個音。依上述例子，經過此處理後會得到最後的總取樣點Array應該是64個資料點，每一個點代表一個16分音符的音。

接著步驟(a6)：將所有小節中之每一音符解析度值的所篩選之取樣點的聲音資料轉換為音符資訊。

另一方面，關於樂譜轉換模組124，該音長資訊之物件的轉換係依據下式來轉換：音長資訊=相鄰同一個音的取樣點個數*(x/y)。其中，x為音長資訊度量值個數，y為依據該拍子記號資訊之幾分音符為一拍的資訊而將一拍切成幾等分的數量值。此外，樂譜圖像產生模組125中，該五線譜圖像資料的產生係依據該拍子記號資訊之幾分音符為一拍及每小節有幾拍的資訊將該等物件依據單一小節內之所有資料的處理區塊進行轉換，並將每一小節內之每一拍下的所有音符對應的物件，逐一地以對應的音符圖像覆蓋在一五線譜底圖圖像上，以產生該五線譜圖像資料。

關於樂譜轉換模組124及樂譜圖像產生模組125，可分成五線譜跟簡譜兩種呈現方式，首先是將五線譜分成小節線底圖、八度音記號及拍號，再將辨識得出的音符或休止符種類(長度)，亦即前述所辨識出之每一取樣點的音符資訊，對應到各自代表的圖檔，配合辨識出來的音高疊圖至五線譜上的高低位置。由於每個小節的長度會隨著音符多寡而調整長度，並不是固定大小，再者，當有符桿(8分音符以下)的音符放在一起，可以用線連在一起，但是又會隨著拍子以及音高會產生不同長度以及角度，使得樂譜轉換必須使用精確的轉換方式來克服，亦即，根據用於區分各小節的該拍子記號資訊，將所辨識出之該等取樣點對應之音符資訊的每一者轉換為具有包含有音高資訊、升降資訊、八度音資訊及音長資訊的物件，再依據選擇將該等物件產生簡譜圖像資料或五線譜圖像資料，舉例如下：首先，先讀取辨識出之代表音符資訊的所有取樣點，作為一有效取樣點Array，再轉換為另一格式的Array，稱之為Measures。這部分的轉換主要是要將單純的幾個半音值轉換成四個部分：notenumber(音高)，sharp(升降)，octave(八度音記號)還有notelength(音長)。

此四部分可用”/”隔開方便後續的讀取。Notenumber的值是1~7。sharp則是”#”或”“(space)。octave則是從-2~+2。notelength則可為2、4、6、8，其中8代表為一拍的長度。

以半音值60來說，這個音在鋼琴鍵上代表的是C4，也是所謂的中央Do，若是一個一拍的C4經過轉換後會表示成”1//0/8”，其中1代表Do，依此類推2代表Re，3代表Mi，一直到7。

sharp則是代表有無升降。特殊的例子如升Mi以及升Si，實際上這兩個是不存在的，因為Mi跟Fa只差半音，Si跟Do也是，所以升Mi就是Fa，升Si就是Do。

Octave的部分代表八度音記號，前面舉的例子60是C4中央Do，我們以這個八度為基準，Octave為0，所以octave=-1代表降一個八度會跳到C3的Do，半音值則會差12，所以是48，octave=1代表升一個八度，跳到C5的Do，半音值一樣差12所以是72，同理可推得其他的音。

Notelength代表音的長度，是利用前述之「音長資訊=相鄰同一個音的取樣點個數*(x/y)」來決定，如前面提到的，若選擇高辨識度，則可辨識到16分音符，則一拍就是分成四等分；若選擇低辨識度，則可辨識到八分音符，一拍就是兩等分。以高辨識度為例：資料點個數若有四個，4*(8/4)=8，得到的8就是notelength，代表是一拍。依此類推，2的話代表16分音符，4代表八分音符，六則是附點八分音符等。

Measures的部分會以一個完整拍子為一個單位，每個拍子裡面又包含了它的組成，可能是四個16分音符，可能是兩個八分音符，當然也有可能就是單純一個四分音符等。所以最後產生出來的Measures是一個兩層的Array，第一層就是以一拍為單位的object，第二層則是每個object裡所包含的拍子的組成。假設input的有效取樣點Array前四個半音值為60,60,62,62,則Measures裡的第一個object就會是{1//0/4，2//0/4}，分別就是代表一個八分音符的C4和八分音符的D4，兩個合起來就是一個四分音符。

接著，在簡譜的部分，係可直接將該等物件依據一簡譜對應表產生作為該樂譜資料的一簡譜圖像資料，進而供顯示器顯示。例如：”1//0/8”(四分音符的C4)，利用預先建立對照表及可轉換為字元”1”。簡譜的產出系可透過預先建立之table來判斷，幾拍子的什麼音應該要輸入什麼字元，完成後套入字型便可顯示出該簡譜，並進而形成該簡譜圖像資料。

至於五線譜的部分，所有的符號包含有五線譜底圖(含高音譜記號)，拍子記號(ex.2/2 4/4,etc)，音符(小黑點，二分音符，全音符，附點)，符桿，符尾(八分音符符尾，十六分音符符尾，三十二分音符符尾)，beam(左低右高，水平，左高右低)，連結線(tie，下連結線，下連結線前半段，下連結線後半段，上連結線的部分皆由下連結線鏡射呈現)，升記號，休止符(三十二分，十六分，八分，四分，二分，全休止符，附點)等。

五線譜係將前述之Measures中，將同音的音符連起來計算拍子長度，假設前兩個音都是一拍的Do，這邊會將這兩個合起來變成一個兩拍的Do。依此類推，經過這段處理後會得到一個新的PlotData將用於接下來畫五線譜的部分。

第一步就是先把五線譜底圖畫上去，之後的音符還有其他的符號就重疊在這個底圖上，再來就是拍子記號，拍子記號只有出現在五線譜的第一小節的部分，所以只需要畫一次。讀取PlotData的時候，總共分為三層結構，所以在讀取的時候，第一層讀取到的Array是一整個小節裡所有的資料；第二層資料讀取到的Array是每一小節內的每一拍；第三層讀取到的Array是每一拍裡面的所有的音符，如果只有一個一拍的音，那這個Array就只有1個object，如果一拍裡面是由四個16分音符組合而成的一拍，則這個Array裡就會有4個objects。讀取到的object都會帶有四個所需要的資料，分別是notenumber(音符)、sharp(升降號)、octave(八度音記號)、及notelength(音長)。整個方法主要就是一個一個處理PlotData裡面所存取得所有object，以及每完成一個小節的繪製之後，在小節結束的地方加上小節線，以區分每個小節。最後全部處理完後產生該五線譜圖像資料。

接著請同時參閱第3及4圖，本創作亦可將辨識轉換系統直接配置於一裝置上，使用者可直接透過該裝置進行前述辨識轉換功能的使用，舉例來說，使用者可透過App應用程式的下載來使自己的智慧型手機、平板電腦等電子裝置成為一種哼唱聲音轉樂譜的辨識轉換裝置。其中，第3圖係為本創作一實施例中之辨識轉換裝置的系統方塊圖，第4圖係為本創作一實施例中之辨識轉換處理器的系統方塊圖。

哼唱聲音轉樂譜的辨識轉換裝置500係用於供使用者將哼唱的聲音轉換為樂譜資料，包含：揚聲器550、麥克風收音器560、顯示器570及辨識轉換處理器520。麥克風收音器560係用於接收使用者之哼唱聲音而轉換為一聲音資料。辨識轉換處理器520係連接該揚聲器550及連接該麥克風收音器560以接收該聲音資料，該辨識轉換處理器520用於產生具有BPM值資訊的設定操作介面，以及用於根據該BPM值資訊產生對應的節拍音訊資料以供該使用者於錄製該聲音資料時透過該揚聲器550播放，以及用於根據該聲音資料進行聲音轉樂譜的辨識轉換以產生該樂譜資料，其中該BPM值資訊係為每分鐘節拍數。其中，該辨識轉換處理器520更可用於提供拍子記號資訊及起音調性的設定於該設定操作介面上，其中該拍子記號資訊係為幾分音符為一拍及每小節有幾拍的資訊。該辨識轉換處理器520更可用於根據該使用者之選擇，透過該揚聲器550播放一背景音樂資料以供錄製哼唱聲音時播放。

此外，辨識轉換處理器520包含：節拍設定模組521、聲音錄製模組522、聲音辨識分析模組523、樂譜轉換模組524、及樂譜圖像產生模組525。

節拍設定模組521具有一聲音取樣頻率之預設值，係用於提供該BPM值資訊及該拍子記號資訊的設定，並顯示於該設定操作介面上。聲音錄製模組522係用於根據該BPM值資訊產生該節拍音訊資料以透過該揚聲器550播放，以及用於錄製該聲音資料。聲音辨識分析模組523係用於基於該BPM值資訊、該聲音取樣頻率資訊、該拍子記號資訊之每小節有幾拍的資訊、及預設之用於解析該聲音資料內之總取樣點數量值的一音符解析度值，將該總取樣點以每小節分開的方式逐一進行辨識轉換，進而於該總取樣點內篩選出作為音符資訊的取樣點。樂譜轉換模組524係用於根據所辨識出之該等取樣點各別對應的音符資訊，以及根據用於區分各小節的該拍子記號資訊，將所辨識出之該等取樣點對應之音符資訊的每一者轉換為具有包含有音高資訊、升降資訊、八度音資訊及音長資訊的物件。樂譜圖像產生模組525係用於依據選擇將該等物件依據一簡譜對應表產生作為該樂譜資料的一簡譜圖像資料，或用於依據選擇將該等物件以區分各小節的方式進行資訊擷取以產生作為該樂譜資料的一五線譜圖像資料。

辨識轉換裝置500之各功能如同前述之辨識轉換系統100之各個例子的運作，於此不再贅述。

接著請參閱第5圖，係本創作一實施例中之設定操作介面的示意圖，如圖所示，BPM資訊設定區塊612、614係可供使用者設定BPM值資訊，其中BPM資訊設定區塊區塊614係可供使用者手動自訂拍速；起音調性設定區塊630可供調性(即起音及音色)的設定；拍子記號設定區塊650可供拍子記號的設定，如此使得哼唱聲音錄製的前置作業得以由操作介面中輕易地設定，亦即完成節拍設定模組(121、521)中的設定動作。

因此，本創作係在創設音符資料之找尋及定義的規範，進而讓錄製的聲音資料得以被精準及快速地匹配出對應的樂譜資料，且該樂譜資料由於是每小節每小節地區分開來做為圖像檔的，更能讓辨識轉換系統或辨識轉換裝置在部大幅增加系統或裝置的負荷下提供音符資訊的直接編輯，例如：將某個音符拉升為另一音符。至於本創作之每一取樣點之音符基本資訊的取得係依據一般的辨識方法來進行，例如即時頻率辨識(real-time pitch tracking)，如一種開放原始碼之dywapitchtrack函式庫。

綜上所述，本創作係讓使用者選擇自己創作樂譜的結構部分，讓辨識出來的聲音有一個基本架構做基準來產生該樂譜資料，使得依據本創作產生的樂譜是具有高參考價值的(若無基本架構，則辨識出的樂譜資料將因為哼唱的規則紊亂無依歸而毫無參考價值，甚至辨識出的樂譜資料完全錯誤)。據此，本創作透過BPM值的設定來產生所謂的節拍器，加上「Tap Tempo」，可讓使用者依據心裡的感受，很直接的將心裡感受的節拍直接敲擊在按鍵上，而能讓辨識出來的聲音具有一個基本架構，進而提供使用者一種準確且不會大幅增加運算負荷的辨識轉換系統及辨識轉換裝置。

本創作在上文中已以較佳實施例揭露，然熟習本項技術者應理解的是，該實施例僅用於描繪本創作，而不應解讀為限制本創作之範圍。應注意的是，舉凡與該實施例等效之變化與置換，均應設為涵蓋於本創作之範疇內。因此，本創作之保護範圍當以申請專利範圍所界定者為準。