TWI426501B - 旋律辨識方法與其裝置 - Google Patents
旋律辨識方法與其裝置 Download PDFInfo
- Publication number
- TWI426501B TWI426501B TW099141179A TW99141179A TWI426501B TW I426501 B TWI426501 B TW I426501B TW 099141179 A TW099141179 A TW 099141179A TW 99141179 A TW99141179 A TW 99141179A TW I426501 B TWI426501 B TW I426501B
- Authority
- TW
- Taiwan
- Prior art keywords
- melody
- batch
- pitch
- comparison
- candidate
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 24
- 239000013598 vector Substances 0.000 claims description 43
- 238000011156 evaluation Methods 0.000 claims description 29
- 238000005311 autocorrelation function Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 230000002452 interceptive effect Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 230000004907 flux Effects 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000002896 database filtering Methods 0.000 claims 1
- 238000012216 screening Methods 0.000 claims 1
- 238000001514 detection method Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/051—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or detection of onsets of musical sounds or notes, i.e. note attack timings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/066—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/076—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
- G10H2240/141—Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
- G10L2025/906—Pitch tracking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Description
本發明係有關於旋律辨識。
傳統上,旋律辨識方法的辨識基礎為音高與該音高之總長度。目前旋律辨識技術先建立包含多首曲目的音高資訊的旋律資料庫,當使用者哼唱一段旋律之後,擷取該旋律的音高資訊,例如音高與音高的總長度等,然後與旋律資料庫作比對,藉以提供可能的對應曲目。
一些習知的旋律辨識方法除了比對上述音高資訊之外,同時也利用額外輸入的歌曲文字資訊或歌詞來輔助辨識。然而,當使用者哼唱輸入不標準時,旋律與旋律資料庫的比對極容易發生誤差而使旋律辨識的成功辨識率無法提升,尤其在使用者哼唱旋律五音不全時。
有鑑於此,本發明之實施例提供一種旋律辨識方法,其根據輸入旋律的清晰度並利用二階段的比對以更精確且更有效率地辨識旋律。該旋律辨識方法包括:輸入一旋律;取得該旋律的音高追蹤資訊;取得該旋律的節拍資訊;由該音高追蹤資訊判斷該旋律的一清晰度;若該清晰度大於一預設門檻值,先進行一第一比對,以從一資料庫中篩選出第一批候選歌曲;再進行一第二比對,以從該等第一批候選歌曲中篩選出第二批候選歌曲;以及根據該等第二批候選歌曲決定至少一最後候選歌曲。
本發明之實施例更提供一種旋律辨識裝置,包括:一接收器,其接收一旋律;一處理器,其取得該旋律的音高追蹤資訊與節拍資訊,並藉由該音高追蹤資訊判斷該旋律的一清晰度;以及一比對器,其根據該清晰度進行該旋律與一資料庫的比對;其中若該清晰度大於一預設門檻值,該比對器先進行一第一比對,以從該資料庫中篩選出第一批候選歌曲;該比對器再進行一第二比對,以從該等第一批候選歌曲中篩選出第二批候選歌曲;其中該比對器根據該等第二批候選歌曲決定至少一最後候選歌曲。
本發明之實施例還提供一種電腦程式產品,用以被一電子裝置載入以執行一旋律辨識方法,該電腦程式產品包括:第一程式碼,用以接收輸入的一旋律;第二程式碼,用以取得該旋律的音高追蹤資訊;第三程式碼,用以取得該旋律的節拍資訊;第四程式碼,用以從該音高追蹤資訊判斷該旋律的一清晰度;第五程式碼,用以當該清晰度大於一預設門檻值時,先進行一第一比對,以從一資料庫中篩選出第一批候選歌曲;再進行一第二比對,以從該等第一批候選歌曲中篩選出第二批候選歌曲;以及第六程式碼,用以根據該等第二批候選歌曲決定至少一最後候選歌曲。
以下說明為本發明的實施例。其目的是要舉例說明本發明一般性的原則,不應視為本發明之限制,本發明之範圍當以申請專利範圍所界定者為準。
目前旋律辨識多用音高與音高總長度等音高資訊來辨識。然而歌曲的節拍也是重要的特徵,若兩首歌曲的音調相近但是節拍不同,則兩首歌曲很有可能是完全不相同的,因此,若能結合音高資訊與節拍資訊就可以更有效地辨識旋律;此外,更由於使用者哼唱旋律五音不全(輸入不標準)時,所導致的成功辨識率降低的問題,能得到有效的解決方案。
第1A圖所示為根據本發明一實施例的旋律辨識流程圖。步驟S100為輸入旋律,在一實施例中,可藉由使用者對著麥克風哼唱一旋律。使用者對麥克風所哼唱的旋律需要經過合適的取樣以將此旋律數位化成數位音訊(Audio Signal)檔案。
步驟S120,取得該旋律的音高追蹤資訊,例如對上述的輸入旋律進行音高追蹤(Pitch tracking)以取得音高追蹤資訊。音高追蹤的相關技術將於後再述。
步驟S122,取得該旋律的節拍資訊,例如對上述的輸入旋律進行拍點偵測(Onset detection)以取得節拍資訊。拍點偵測的相關技術將於後再述。
步驟S130,由該音高追蹤資訊判斷該旋律的一清晰度,例如,將音高追蹤資訊正規化(Normalize)之後所得之值作為清晰度,清晰度的相關技術將於後再述。
步驟S150,若該清晰度大於一預設門檻值,先進行一第一比對,以從一資料庫中篩選出第一批候選歌曲。第一比對可以是音高向量比對。本實施例雖以音高向量比對作為舉例說明,但第一比對並不限於音高向量比對。音高向量比對的相關技術將於後再述。
步驟S160,進行一第二比對,以從該等第一批候選歌曲中篩選出第二批候選歌曲。第二比對係指相異於第一比對的另一種比對方式。例如當第一比對是音高向量比對時,第二比對可為節拍比對,但第二比對並不限於節拍比對。節拍比對的相關技術將於後再述。
步驟S170,根據該等第二批候選歌曲決定至少一最後候選歌曲。例如,輸出TOP 10首候選歌曲以供使用者參考。
第1B圖所示為根據本發明另一實施例的旋律辨識流程圖。其中步驟和第1A圖中步驟相同者,以相同標號進行標示。
步驟S100為輸入旋律。
步驟S110為對輸入的旋律進行前置處理,前置處理為一般音訊處理時所需要的預處理,包括端點偵測(end-point detection)、預強調(pre-emphasis)、音框切割(frame partitioning)等。端點偵測用來判斷音訊中哪些區段是有聲段、哪些是無聲段或背景雜訊;預強調用來補償高頻部分的訊號數位化後所造成的失真;音框切割為將音訊檔案每間隔一固定時間切割成一個又一個的音框,相鄰音框之間可以重疊。
輸入旋律前置處理完成後,步驟S120和步驟S122分別對前置處理過的輸入旋律進行音高追蹤(Pitch tracking)與拍點偵測(Onset detection),以取得輸入旋律的音高追蹤資訊和節拍資訊。在一些實施例中,可利用自相關函數(Auto-Correlation Function,ACF)進行音高追蹤,音框s中某個時間點t的自相關函數值計算如下:
其中s(i)表示音框s在第i個時間點的值,n表示音框中取樣點的總數(i=0到i=n-1)。s(i)與s(i+t)作內積時,若s(i)與s(i+t)越相近,則得到的內積值越大,因此,找出ACF(t)極大值的位置就可以得到音訊的週期,進而求出音訊的頻率與音高。
在另一些實施例中,可利用平均差異量函數(Average Magnitude Difference Function,AMDF)進行音高追蹤,音框s中某個時間點t的平均差異量函數值計算如下:
平均差異量函數與自相關函數相似,只是AMDF(t)計算s(i)與s(i-t)相減之後的絕對值,若s(i)與s(i-t)越相近,則AMDF(t)越小,因此,找出AMDF(t)極小值的位置就可以得到音訊的週期,進而求出音訊的頻率與音高。
綜上所述,音高追蹤利用自相關函數或平均差異量函數取得輸入旋律的音高追蹤資訊(自相關函數值或平均差異量函數值),再根據音高追蹤資訊取得各音框的音高值,並將之轉換成一個音高向量,音高向量即是一連串音高值所組合的向量。
步驟S122為拍點偵測,在一實施例中,步驟S122利用相位偏移(Phase deviation)來偵測拍點,並紀錄其時間點以供計算節拍資訊。在另一實施例中,步驟S122利用光譜通量(Spectral flux)來偵測拍點,並紀錄其時間點以供計算節拍資訊。
步驟S130由該音高追蹤資訊判斷該旋律的一清晰度(Clarity),清晰度可以是為音高追蹤資訊正規化(Normalize)之後所得之值,以自相關函數舉例而言,清晰度計算方式如下:
如上述計算方式,清晰度之值將限制在[1,-1]之間,清晰度越高則代表此音框的週期性越佳,也就是求出的音高值準確性越高。當各音框的清晰度所構成的清晰度曲線為穩定平滑時,代表其較有可能為哼或唱的旋律;若清晰度曲線上下跳動時,則表示其可能為氣音或是無聲波段。
步驟S140根據清晰度決定二階段比對中,先進行第一比對比對還是先進行第二比對。在一實施例中,若清晰度大於一預設門檻值,代表使用者哼唱輸入的資訊完整,則採用音高向量比對即可獲得良好的準確度,因此先進行第一比對再進行第二比對。也就是說先進行步驟S150的音高向量比對再進行步驟S160的節拍比對。若清晰度小於上述預設門檻值,代表使用者哼唱輸入的資訊雜亂或五音不全,則採用節拍比對的結果準確度較高,因此先進行第二比對,再進行第一比對。也就是說先進行步驟S152的節拍比對再進行S162的音高向量比對。其中上述預設門檻值係根據經驗與實驗結果來設定與調整。
在一實施例中,設定預設門檻值為250個音框中至少201個音框的清晰度大於0.5,因此若一旋律的250個音框內有50個音框的清晰度小於0.5,則代表上述旋律的哼唱輸入資訊雜亂,因此先進行步驟S152的節拍比對再進行S162的音高向量比對。
在一實施例中,經過步驟S150與S152的第一階段比對後,根據第一階段比對結果先決定第一批候選歌曲(步驟S152則為第三批候選歌曲),例如TOP 100首候選歌曲,然後步驟S160與S162的第二階段比對再從第一批候選歌曲中篩選出第二批候選歌曲(步驟S162則為從第三批候選歌曲篩選出第四批候選歌曲),例如從上述TOP 100首候選歌曲中決定TOP 10首候選歌曲。
舉例而言,第一比對根據比對結果計算一資料庫中每首歌曲的第一評估分數,按照每首歌曲的第一評估分數的高低選擇出TOP 100首候選歌曲,然後第二比對根據比對結果計算TOP 100首候選歌曲的第二評估分數,然後按照每首TOP 100首候選歌曲的第二評估分數高低選擇出TOP 10首候選歌曲推薦給使用者,最後結合第一評估分數和第二評估分數計算出TOP 10首候選歌曲的評估分數以供使用者參考,其中評估分數為第一評估分數與第二評估分數根據一權重比例所組成。若清晰度大於預設門檻值則權重比例偏重於第一評估分數,若清晰度小於預設門檻值則權重比例偏重於第二評估分數,評估分數越高代表與輸入旋律的匹配度越高。
步驟S150和S162的音高向量比對使用步驟S120所產生的輸入旋律的音高向量與資料庫中所有歌曲的音高向量資料作比對,其中資料庫中所有歌曲的音高向量資料儲存於音高語料庫。在一實施例中,音高向量比對使用線性伸縮(Linear scaling)演算法,其利用內插法將使用者輸入旋律的音高向量進行線性拉長或壓縮,舉例而言,伸縮比例可以從0.5到20,跳距為0.1,因此共可得到16個版本的音高向量,然後再將此16個伸縮版本的音高向量與資料庫中的每首歌曲進行比對,因而得到每首歌曲與輸入旋律的16個距離值,其中的最小值即為輸入旋律和每首歌曲的距離並換算成第一評估分數,距離越小則第一評估分數越高。輸入旋律的音高向量與資料庫中某歌曲的音高向量距離越小,則代表該歌曲與輸入旋律越相似。在另一實施例中,音高向量比對也可使用動態時間扭曲(Dynamic Time Warping)演算法。
步驟S152和S160的節拍比對使用步驟S122所產生的輸入旋律的節拍資訊與資料庫中所有歌曲的節拍資料作比對,其中資料庫中所有歌曲的節拍資料儲存於節拍資料庫。節拍比對將輸入旋律與節拍資料庫中的節拍資料轉換成拍點內部區間(Inter Onset Interval,IOI),並作一般化處理。接著再將輸入旋律的拍點內部區間與節拍資料庫中所有節拍資料的拍點內部區間一一使用以動態規劃為基礎的方法作比對,求得距離後並換算成第二評估分數,距離越小第二評估分數越高,也就是節拍越相似。在另一實施例中,節拍比對也可使用EMD(Earth Mover’s Distance)演算法。
經過二階段比對後,步驟S170根據第二批候選歌曲(或第四批候選歌曲)決定至少一最後候選歌曲,例如從第二批候選歌曲(或第四批候選歌曲)中選擇比對結果最相似的歌曲作為一最後候選歌曲,或者選擇比對結果最相似的前三首歌曲作為最後候選歌,亦或者是輸出TOP 10首候選歌曲以及TOP 10首候選歌曲的評估分數以供使用者參考。
另外,在步驟S132當中可利用步驟S122拍點偵測所得到的輸入旋律節拍資訊,透過互動裝置預定的燈光閃爍或動作,配合輸入旋律節拍資訊一邊播放使用者的聲音,進行互動播放,其中互動裝置可為電子公仔、虛擬寵物、機器人等。
除此之外,本發明的一實施例還包括訓練過程,其事先準備音高語料庫與節拍資料庫,其中音高語料庫紀錄資料庫中每首歌曲的音高向量資料,而節拍資料庫紀錄資料庫中每首歌曲的節拍資料。
第2圖所示為根據本發明一實施例的旋律辨識裝置20,其中接收器200接收一輸入旋律,接收器200可為麥克風等裝置。接收器200將輸入旋律傳送給處理器210,處理器210取得該旋律的音高追蹤資訊與節拍資訊,並藉由該音高追蹤資訊判斷該旋律的一清晰度。
處理器210包括清晰度模組212、音高追蹤模組214以及拍點偵測模組216,其中音高追蹤模組214利用自相關函數或平均差異量函數取得輸入旋律的音高追蹤資訊(自相關函數值或平均差異量函數值),再根據音高追蹤資訊取得各音框的音高值,並將之轉換成一個音高向量,音高向量即是一連串音高值所組合的向量。拍點偵測模組216利用相位偏移或光譜通量來偵測拍點,並紀錄其時間點以供計算節拍資訊。清晰度模組212將音高追蹤資訊正規化之後得到清晰度並傳送清晰度至比對器220。
比對器220根據清晰度進行輸入旋律與資料庫230的比對;其中若清晰度大於預設門檻值,比對器230的音高向量比對模組232先進行音高向量比對,以從資料庫230中篩選出例如TOP 100首候選歌曲,然後節拍比對模組234再進行節拍比對,以從TOP 100首候選歌曲中篩選出例如TOP 10首候選歌曲。若清晰度小於該預設門檻值,比對器230的節拍比對模組234先進行節拍比對,以從資料庫230中篩選出例如TOP 100首候選歌曲,然後音高向量比對模組232再進行音高向量比對,以從TOP 100首候選歌曲中篩選出例如TOP 10首候選歌曲。顯示裝置240顯示篩選出的TOP 10首候選歌曲。
其中音高向量比對係比對輸入旋律的音高向量與資料庫230中所有歌曲的音高向量資料,其中資料庫中所有歌曲的音高向量資料儲存於音高語料庫232。節拍比對係比對輸入旋律的節拍資訊與資料庫230中所有歌曲的節拍資料,其中資料庫中所有歌曲的節拍資料儲存於節拍資料庫234。
旋律辨識裝置20更包括一互動裝置250,其根據輸入旋律的節拍資訊透過預定之燈光閃爍與動作做出對應節拍資訊的互動撥放,其中互動裝置可為電子公仔、虛擬寵物、機器人等。
本發明之實施例更提供一種電腦程式產品,用以被一電子裝置載入以執行一旋律辨識方法,該電腦程式產品包括:第一程式碼,用以接收輸入的一旋律;第二程式碼,用以取得該旋律的音高追蹤資訊;第三程式碼,用以取得該旋律的節拍資訊;第四程式碼,用以從該音高追蹤資訊判斷該旋律的一清晰度;第五程式碼,用以當該清晰度大於一預設門檻值時,先進行一第一比對,以從一資料庫中篩選出第一批候選歌曲;再進行一第二比對,以從該等第一批候選歌曲中篩選出第二批候選歌曲;以及第六程式碼,用以根據該等第二批候選歌曲決定至少一最後候選歌曲。
在一實施例中,該電腦程式產品更包括:第七程式碼,用以當該清晰度小於該預設門檻值時,先進行該第二比對,以從該資料庫中篩選出第三批候選歌曲;再進行該第一比對,以從該等第三批候選歌曲中篩選出第四批候選歌曲;以及第八程式碼,用以根據該等第四批候選歌曲決定至少一最後候選歌曲。
S100、S110、......S170...步驟
20...旋律辨識裝置
200...接收器
210...處理器
212...清晰度模組
214...音高追蹤模組
216...拍點偵測模組
220...比對器
222...音高向量比對模組
224...節拍比對模組
230...資料庫
232...音高語料庫
234...節拍資料庫
240...顯示裝置
250...互動裝置
第1A圖所示為根據本發明一實施例的旋律辨識流程圖;
第1B圖所示為根據本發明另一實施例的旋律辨識流程圖;
第2圖所示為根據本發明一實施例的旋律辨識裝置示意圖。
S100、S110、......S170...步驟
Claims (19)
- 一種旋律辨識方法,包括:輸入一旋律;取得該旋律的音高追蹤資訊;取得該旋律的節拍資訊;由該音高追蹤資訊判斷該旋律的一清晰度;若該清晰度大於一預設門檻值,先進行一第一比對,以從一資料庫中篩選出第一批候選歌曲,再進行一第二比對,以從該等第一批候選歌曲中篩選出第二批候選歌曲;以及根據該等第二批候選歌曲決定至少一最後候選歌曲。
- 如申請專利範圍第1項所述之旋律辨識方法,更包括:若該清晰度小於該預設門檻值,先進行該第二比對,以從該資料庫中篩選出第三批候選歌曲,再進行該第一比對,以從該等第三批候選歌曲中篩選出第四批候選歌曲;以及根據該等第四批候選歌曲決定至少一最後候選歌曲。
- 如申請專利範圍第2項所述之旋律辨識方法,其中該第一比對為音高向量比對,該第二比對為節拍比對。
- 如申請專利範圍第3項所述之旋律辨識方法,更包括:進行該旋律的前置處理;其中該前置處理包括偵測該旋律的端點、預強調處理以及切割該旋律的音框。
- 如申請專利範圍第4項所述之旋律辨識方法,更包括:使用自相關函數或平均差異量函數取得前置處理過的該旋律的各個音框的該音高追蹤資訊,從該音高追蹤資訊取得各個音框的音高值,並將各個音框的該音高值轉換為該旋律的音高向量。
- 如申請專利範圍第4項所述之旋律辨識方法,更包括:使用相位偏移偵測該旋律的拍點以取得該旋律的該節拍資訊。
- 如申請專利範圍第4項所述之旋律辨識方法,更包括:使用光譜通量偵測該旋律的拍點以取得該旋律的該節拍資訊。
- 如申請專利範圍第5項所述之旋律辨識方法,其中該音高向量比對使用線性伸縮將該旋律的該音高向量與一音高語料庫的所有音高向量資料作比對。
- 如申請專利範圍第3項所述之旋律辨識方法,其中該節拍比對使用以動態規劃為基礎的一演算法將該旋律的該節拍資訊與一節拍資料庫的所有節拍資料作比對,該節拍資料庫紀錄該資料庫中每首歌曲的節拍資訊。
- 如申請專利範圍第8項所述之旋律辨識方法,其中該音高語料庫紀錄該資料庫中每首歌曲的音高向量。
- 如申請專利範圍第5項所述之旋律辨識方法,其中該清晰度為該音高追蹤資訊正規化後之值,且該清晰度越高代表該音高值越準確。
- 如申請專利範圍第1項所述之旋律辨識方法,更包括:根據該第一比對產生一第一評估分數;根據該第二比對產生一第二評估分數;根據該第一評估分數與該第二評估分數產生該至少一最後候選歌曲中每首歌曲的一評估分數;其中該評估分數為該第一評估分數與該第二評估分數根據一權重比例所組成,若該清晰度大於該預設門檻值則該權重比例偏重該第一評估分數,若該清晰度小於該預設門檻值則該權重比例偏重該第二評估分數,該評估分數越高與該旋律的匹配度越高。
- 一種旋律辨識裝置,包括:一接收器,其接收一旋律;一處理器,其取得該旋律的音高追蹤資訊與節拍資訊,並藉由該音高追蹤資訊判斷該旋律的一清晰度;以及一比對器,其根據該清晰度進行該旋律與一資料庫的比對;其中若該清晰度大於一預設門檻值,該比對器先進行一第一比對,以從該資料庫中篩選出第一批候選歌曲;該比對器再進行一第二比對,以從該等第一批候選歌曲中篩選出第二批候選歌曲;其中該比對器根據該等第二批候選歌曲決定至少一最後候選歌曲。
- 如申請專利範圍第13項所述之旋律辨識裝置,其中若該清晰度小於該預設門檻值,該比對器先進行該第二比對,以從該資料庫中篩選出第三批候選歌曲,再進行該第一比對,以從該等第三批候選歌曲中篩選出第四批候選歌曲,然後根據該等第四批候選歌曲決定至少一最後候選歌曲。
- 如申請專利範圍第14項所述之旋律辨識裝置,其中該第一比對為音高向量比對,該第二比對為節拍比對。
- 如申請專利範圍第13項所述之旋律辨識裝置,更包括:一顯示裝置,其顯示該至少一最後候選歌曲。
- 如申請專利範圍第16項所述之旋律辨識裝置,更包括:一互動裝置,其根據該旋律的該節拍資訊透過預定之燈光閃爍與動作做出對應該節拍資訊的互動播放。
- 一種電腦程式產品,用以被一電子裝置載入以執行一旋律辨識方法,該電腦程式產品包括:第一程式碼,用以接收輸入的一旋律;第二程式碼,用以取得該旋律的音高追蹤資訊;第三程式碼,用以取得該旋律的節拍資訊;第四程式碼,用以從該音高追蹤資訊判斷該旋律的一清晰度;第五程式碼,用以當該清晰度大於一預設門檻值時,先進行一第一比對,以從一資料庫中篩選出第一批候選歌曲;再進行一第二比對,以從該等第一批候選歌曲中篩選出第二批候選歌曲;以及第六程式碼,用以根據該等第二批候選歌曲決定至少一最後候選歌曲。
- 如申請專利範圍第18項所述之電腦程式產品,更包括:第七程式碼,用以當該清晰度小於該預設門檻值時,先進行該第二比對,以從該資料庫中篩選出第三批候選歌曲;再進行該第一比對,以從該等第三批候選歌曲中篩選出第四批候選歌曲;以及第八程式碼,用以根據該等第四批候選歌曲決定至少一最後候選歌曲。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW099141179A TWI426501B (zh) | 2010-11-29 | 2010-11-29 | 旋律辨識方法與其裝置 |
CN2011100321456A CN102479509A (zh) | 2010-11-29 | 2011-01-28 | 旋律辨识方法与其装置 |
US13/160,750 US8742243B2 (en) | 2010-11-29 | 2011-06-15 | Method and apparatus for melody recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW099141179A TWI426501B (zh) | 2010-11-29 | 2010-11-29 | 旋律辨識方法與其裝置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201222526A TW201222526A (en) | 2012-06-01 |
TWI426501B true TWI426501B (zh) | 2014-02-11 |
Family
ID=46092123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW099141179A TWI426501B (zh) | 2010-11-29 | 2010-11-29 | 旋律辨識方法與其裝置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8742243B2 (zh) |
CN (1) | CN102479509A (zh) |
TW (1) | TWI426501B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103730128A (zh) * | 2012-10-13 | 2014-04-16 | 复旦大学 | 一种基于频谱sift特征描述子的音频片段认证方法 |
US9373336B2 (en) | 2013-02-04 | 2016-06-21 | Tencent Technology (Shenzhen) Company Limited | Method and device for audio recognition |
CN103971689B (zh) * | 2013-02-04 | 2016-01-27 | 腾讯科技(深圳)有限公司 | 一种音频识别方法及装置 |
US9798974B2 (en) | 2013-09-19 | 2017-10-24 | Microsoft Technology Licensing, Llc | Recommending audio sample combinations |
US9372925B2 (en) | 2013-09-19 | 2016-06-21 | Microsoft Technology Licensing, Llc | Combining audio samples by automatically adjusting sample characteristics |
US9280313B2 (en) * | 2013-09-19 | 2016-03-08 | Microsoft Technology Licensing, Llc | Automatically expanding sets of audio samples |
US9257954B2 (en) | 2013-09-19 | 2016-02-09 | Microsoft Technology Licensing, Llc | Automatic audio harmonization based on pitch distributions |
CN104021151A (zh) * | 2014-05-19 | 2014-09-03 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN104023247B (zh) | 2014-05-29 | 2015-07-29 | 腾讯科技(深圳)有限公司 | 获取、推送信息的方法和装置以及信息交互系统 |
US11132983B2 (en) | 2014-08-20 | 2021-09-28 | Steven Heckenlively | Music yielder with conformance to requisites |
CN104599663B (zh) * | 2014-12-31 | 2018-05-04 | 华为技术有限公司 | 歌曲伴奏音频数据处理方法和装置 |
TWI622896B (zh) | 2015-12-23 | 2018-05-01 | 絡達科技股份有限公司 | 可回應外部音訊產生動作回饋之電子裝置 |
CN106919583B (zh) * | 2015-12-25 | 2020-11-10 | 广州酷狗计算机科技有限公司 | 音频文件的推送方法及装置 |
WO2018018283A1 (zh) * | 2016-07-24 | 2018-02-01 | 张鹏华 | 歌曲信息识别技术的使用情况统计方法和识别系统 |
KR101925217B1 (ko) * | 2017-06-20 | 2018-12-04 | 한국과학기술원 | 가창 표현 이식 시스템 |
KR101931087B1 (ko) * | 2017-09-07 | 2018-12-20 | 주식회사 쿨잼컴퍼니 | 사용자 허밍 멜로디 기반 멜로디 녹음을 제공하기 위한 방법 및 이를 위한 장치 |
CN108320730B (zh) * | 2018-01-09 | 2020-09-29 | 广州市百果园信息技术有限公司 | 音乐分类方法及节拍点检测方法、存储设备及计算机设备 |
CN109979483B (zh) * | 2019-03-29 | 2020-11-03 | 广州市百果园信息技术有限公司 | 音频信号的旋律检测方法、装置以及电子设备 |
CN111696500B (zh) * | 2020-06-17 | 2023-06-23 | 不亦乐乎科技(杭州)有限责任公司 | 一种midi序列和弦进行识别方法和装置 |
CN111859015A (zh) * | 2020-07-01 | 2020-10-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 音乐响应方法及相关设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070276656A1 (en) * | 2006-05-25 | 2007-11-29 | Audience, Inc. | System and method for processing an audio signal |
JP2007328288A (ja) * | 2006-06-09 | 2007-12-20 | Sony Corp | 韻律識別装置及び方法、並びに音声認識装置及び方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9918611D0 (en) * | 1999-08-07 | 1999-10-13 | Sibelius Software Ltd | Music database searching |
WO2001069575A1 (en) * | 2000-03-13 | 2001-09-20 | Perception Digital Technology (Bvi) Limited | Melody retrieval system |
CN1703734A (zh) * | 2002-10-11 | 2005-11-30 | 松下电器产业株式会社 | 从声音确定音符的方法和装置 |
JP2006106818A (ja) * | 2004-09-30 | 2006-04-20 | Toshiba Corp | 音楽検索装置、音楽検索方法及び音楽検索プログラム |
US7518052B2 (en) * | 2006-03-17 | 2009-04-14 | Microsoft Corporation | Musical theme searching |
US7838755B2 (en) * | 2007-02-14 | 2010-11-23 | Museami, Inc. | Music-based search engine |
CN101657817A (zh) * | 2007-02-14 | 2010-02-24 | 缪斯亚米有限公司 | 基于音乐的搜索引擎 |
CN101398827B (zh) * | 2007-09-28 | 2013-01-23 | 三星电子株式会社 | 用于哼唱检索的方法和装置 |
US8084677B2 (en) * | 2007-12-31 | 2011-12-27 | Orpheus Media Research, Llc | System and method for adaptive melodic segmentation and motivic identification |
CN101364238B (zh) * | 2008-09-17 | 2010-12-15 | 清华大学 | 分层递阶的歌曲旋律检索方法 |
CN102074233A (zh) * | 2009-11-20 | 2011-05-25 | 鸿富锦精密工业(深圳)有限公司 | 乐曲辨识系统及方法 |
-
2010
- 2010-11-29 TW TW099141179A patent/TWI426501B/zh active
-
2011
- 2011-01-28 CN CN2011100321456A patent/CN102479509A/zh active Pending
- 2011-06-15 US US13/160,750 patent/US8742243B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070276656A1 (en) * | 2006-05-25 | 2007-11-29 | Audience, Inc. | System and method for processing an audio signal |
JP2007328288A (ja) * | 2006-06-09 | 2007-12-20 | Sony Corp | 韻律識別装置及び方法、並びに音声認識装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
US8742243B2 (en) | 2014-06-03 |
CN102479509A (zh) | 2012-05-30 |
US20120132056A1 (en) | 2012-05-31 |
TW201222526A (en) | 2012-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI426501B (zh) | 旋律辨識方法與其裝置 | |
US8440901B2 (en) | Musical score position estimating apparatus, musical score position estimating method, and musical score position estimating program | |
US11354355B2 (en) | Apparatus, method, and computer-readable medium for cue point generation | |
US7035742B2 (en) | Apparatus and method for characterizing an information signal | |
JP5593608B2 (ja) | 情報処理装置、メロディーライン抽出方法、ベースライン抽出方法、及びプログラム | |
US12029579B2 (en) | Apparatus for estimating mental/neurological disease | |
JPWO2004111996A1 (ja) | 音響区間検出方法および装置 | |
KR102212225B1 (ko) | 오디오 보정 장치 및 이의 오디오 보정 방법 | |
KR101142679B1 (ko) | 생체 신호를 이용한 음악 검색 장치 및 그 방법 | |
JP2002116754A (ja) | テンポ抽出装置、テンポ抽出方法、テンポ抽出プログラム及び記録媒体 | |
WO2015114216A2 (en) | Audio signal analysis | |
US10572812B2 (en) | Detection apparatus, detection method, and computer program product | |
JP2012032677A (ja) | テンポ検出装置、テンポ検出方法およびプログラム | |
CN105895079B (zh) | 语音数据的处理方法和装置 | |
US11205407B2 (en) | Song analysis device and song analysis program | |
CN106663110B (zh) | 音频序列对准的概率评分的导出 | |
JP2008015388A (ja) | 歌唱力評価方法及びカラオケ装置 | |
JP2010060846A (ja) | 合成音声評価システム及び合成音声評価方法 | |
JP5092876B2 (ja) | 音響処理装置およびプログラム | |
US20090063149A1 (en) | Speech retrieval apparatus | |
Tang et al. | Melody Extraction from Polyphonic Audio of Western Opera: A Method based on Detection of the Singer's Formant. | |
US10629177B2 (en) | Sound signal processing method and sound signal processing device | |
Jaczyńska et al. | Music recognition algorithms using queries by example | |
JP2010054535A (ja) | コード名検出装置及びコード名検出用コンピュータ・プログラム | |
Ištvánek et al. | Towards Automatic Measure-Wise Feature Extraction Pipeline for Music Performance Analysis |