TWI716413B

TWI716413B - 用於在第一音頻片段和作為目標的第二音頻片段之間淡變的方法、電腦程式產品、及音頻系統

Info

Publication number: TWI716413B
Application number: TW105119565A
Authority: TW
Inventors: 喬瑟夫‧麥可‧威廉萊斯克
Original assignee: 英商梅許崔克斯有限公司
Priority date: 2015-06-22
Filing date: 2016-06-22
Publication date: 2021-01-21
Also published as: CN112562747A; GB2573597A; US20160372095A1; GB2550090B; AU2021201916B2; CA3127192C; PL3311383T3; CN108064406B; CA2990320C; US11854519B2; GB2550090A; AU2021204836B2; DK3311383T3; CN112530470B; US20220044663A1; US20190164527A1; EP3311383A2; CA3101403C; US10803842B2; GB201510907D0

Abstract

第2圖是允許將被辨識的樂句或主題(T₁-T₄)同步和聯接至演變中的現實世界的事件(12)中的系統(30)。所達成的同步化包括預先被辨識的樂句之間無縫的音樂性過渡-這是採用時間上的偏移(例如將某重要的音樂性“進入”相對地推前)達成的，其是被插入以和固有的但已被辨識的音樂拍子記號、拍子或時基調準-該些預先被辨識的樂句可能是完全不同的，並具有不同的情感主題，該些主題由樂句各自的拍子記號、強度、音調、音樂韻律及/或音樂分句所界定。該系統運作以增強在現實世界中使用者的整體官感體驗，這是通過在“周圍的實際環境在發生什麼事情”這意境下將音頻主題動態地改變、重新排序或重複然後播放，例如，在踏步課堂的心肺健身過程的不同階段期間音樂速率和強度在衝刺時期中增加而在復原時期中減小。根據預先插入的關鍵，從原音軌重新排序出配樂，並(可選為即時地)選出配樂以配襯所檢測或辨識的變更中的實際事件，例如是在心肺健身科堂期間所感應和報告出的心率。因此該系統產生複合媒體檔(54)並將其提供作例如即時播放或廣播等用途；該複合媒體檔將即時或演變中的現實世界事件與自訂化的、使用者可選擇的音頻組成成份相關聯，而該些音頻組成成份是被設計以增強總體的感官體驗的。

Description

用於在第一音頻片段和作為目標的第二音頻片段之間淡變的方法、電腦程式產品、及音頻系統

本發明大體上涉及音樂系統，並特別適用於將數位音軌的片段(或切片)與現實世界的事件於情境上同步的系統和方法論，但不僅限於此。該些片段的特徵描述是按照使用者的感受及/或機器執行的評估就所感知的“主題”(其是通過於該音頻片段中檢測或以其它方式辨識得的基本韻律或節拍向使用者或機器提示的)為每個音頻片段分類。

音樂、電影和遊戲行業-特別是其涉及提供內容的範疇-正在演變。在這方面，在該些市場中，(例如)音樂或原聲帶的銷售和發行，正在變成以串流或供下載的數位檔案的形式為主導。這與根基已穩固的但正在萎縮的專門零售點銷售的CD和DVD技術(或古舊的黑膠唱片)成對比。

雖然音樂的銷售是商業性的而內容是屬於感知和美學性質的，但卻沒有現成的、簡單直接的機制可將情境上相關的音頻內容辨識和分配給多個現實世界中的情境。實際上，已被公認的是，音頻內容支持聽者或使用者的情感、生理及/或心理上的投入，並因此提升聽者或使用者的感官體驗。因此業介面對的其中一個問題便是如何最佳地增強聽者/使用者的體驗，特別是在個人/個別人士的層面上的。實際上，長期以來一直已被公認的是，某段音樂與某事件之間的情境關聯性或關係會勾起記憶或導出相應的情感反應，例如在電影中帶來恐懼或懸疑的感覺或在電視廣告中出現對某產品的聯想。另一例子涉及於所謂的“spin”固定式腳踏車健身課堂中的間歇訓練時常常使用的連續背景音樂，當中穿插著一些短而突發的音樂，其與通過在每時間單位腿部轉數的增加而提高的心肺運動速率和增加的能量輸出相關聯。在《人機交互百科全書》2013年第2版(The Encyclopedia of Human-Computing Interaction,2013,2 ^nd Edition)中，其作者(M.Hassenzahl)形容了“由鬧鐘所引起的被喚醒體驗”是如何“與太陽升起和喜悅的雀鳥所引起的體驗實質上不同”，並隨後提問是否可能“創造出瞭解日出和雀鳥的關鍵特點，並且即使當太陽拒絕照耀、雀鳥已飛往非洲時，仍能成功給出類似[日出和雀鳥]的體驗的科技。”

因此，將數位內容和檔案格式技術上適配，會給出以新穎和具創意的方法影響、塑造及/或設計使用者的體驗(個別或整群的)的可能性。但技術上的適配無需侷限於未來的作品中，而是亦可於儲存於可存取的資料庫中的固有音樂庫上實施，例如在受控的持有許可的環境中和在用者自定的生活體驗的情境中，令這樣被儲存的音樂等重獲新生。

有多個現有的演算法可執行關於音樂轉錄至曲譜或音樂詮譯的任務。例如，以下技術論文指出可用於自動化的音樂資料檢索(music information retrieval,“MIR”)的已知技術，因此可應用一個或多個這樣的過程作為(如本文中說明的)本發明的一個或多個實施方案或應用中的構件：

i)於2000年於技術刊物《數位音效》(Digital Audio Effects,DAFX)中出現的文章，J.P.Bello所著的《用於簡單複音音樂的曲譜轉錄的黑板系統和自上而下處理法》(“Blackboard system and top-down processing for the transcription of simple polyphonic music”)討論了音高的檢測演算法。於2003年《IEEE工作坊：信號處理於音頻和聲學上的應用》(IEEE Workshop on Applications of Signal Processing to Audio and Acoustics)中P.Smaragdis和J.C.Brown著的《用於複音音樂的曲譜轉錄的非負數矩陣因數分解》(“Non-negative matrix factorization for polyphonic music transcription”)這文章說明瞭第二種技術。

ii)於2003年於英國倫敦出版的《第六屆數位音效國際會議》(6th Int.Conference on Digital Audio Effects(DAFx-03))中C.Duxbury等人著的文章《用於音樂訊號的複數域起始檢測》(“Complex Domain Onset Detection For Musical Signals”)討論了起始和終止的檢測。2005年的《IEEE工作坊：信號處理於音頻和聲學上的應用》(IEEE Workshop on Applications of Signal Processing to Audio and Acoustics)中M.Gainza、B.Lawlor和E.Coyle著的《採用梳狀濾波器作起始檢測》(“Onset Detection Using Comb Filters”)是於這技術領域中的另一文章。

iii)2004年巴塞隆納的《音樂資料檢索國際研討會》(International Symposium on Music Information Retrieval)中S.Pauws著的《從音頻提取音樂音調》(“Musical key extraction from audio”)，以及2005年倫敦的《音樂資料檢索國際研討會》(ISMIR)中W.Chai和B.Vercoe著的《於古典鋼琴音樂中檢測音調的轉變》(“Detection Of Key Change In Classical Piano Music”)討論了音調估算。

iv)《美國聲學協會期刊》(Journal of Acoust.Soc.Am.)1998年卷103(1)第588-601頁中E.Scheirer著的《原聲音樂訊號的速度和節拍分析》(“Tempo and Beat Analysis of Acoustic Musical Signals”)討論了音樂速度的提取。2004年Pompeu Fabra大學視聽研究所(Audiovisual Institute)於西班牙巴塞隆納出版的《音樂資料檢索國際研討會：會議紀要》(Proceedings of the International Conference on Music Information Retrieval)中M.E.P.Davies和M.D.Plumbley著的文章《音頻的遵因果性速度跟蹤》(“Causal Tempo Tracking of Audio”)提供了另一種方法。

v)M.Gainza和E.Coyle合著或參著的文章討論了拍子記號的檢測，特別是：a)2007年奧地利維也納，音頻工程協會第122次大會(Audio Engineering Society 122nd Convention)中的《採用多解析度音頻相似度矩陣檢測拍子記號》(“Time Signature Detection by Using a Multi-Resolution Audio Similarity Matrix”)；b)2007年十月於美國紐約，音頻工程協會第123次大會中展示的大會論文《自動小節線分節》(“Automatic Bar Line Segmentation”)；以及c)2007年5月5-8日於奧地利維也納，音頻工程協會第122次大會中的《採用多解析度音頻相似度矩陣檢測拍子記號》。

電影企業(例如新力娛樂(Sony Entertainment))所發行的電影明顯具有經編輯並大體上與匯編至電影中的動作訊框同步的音軌。實際上，移動的影像(例如電影和電視和電玩中的)常常需要音軌伴隨。這過程被稱為音樂同步。版權人和電影製作人聘請專業人士於具創意的大型音樂庫存中執行搜索以找出適用於同步的音樂。然後進行費勁的編輯工作以將該段音樂配對至該段錄像；這工作需要專業設備，而且並不能由最終使用者/看電影者自定。事實上，該音樂編製是由製片廠主觀地匯編及核准的。其也不能相應即時發生的事件被動態地配置。

而且，另一問題涉及如何在林林種種具不同儲存格式的不同資料庫中存取和搜尋儲藏的資訊。在這方面，同步業界中採用的語言是多變數的而且涉及多種套路，其有時互相矛盾。事實上，同一術語在不同語境下可具不同意思，而語境卻是動態和約定俗成的。如採用自然語言介面，會為使用者提供具意義的搜索系統。已被公認的是，近年數位音樂的極速膨脹令使用者面對複雜的難題，並且需求大量的知識管理技術和工具。

和電影媒體同步的情況類似，使用固定式健身腳踏車的所謂的“spin課堂”會以音樂伴隨，但這音樂只是個人健身教練用於娛樂和協助課堂成員進行密集訓練或主動復原的背景音樂。該背景音軌甚或播放音樂的音頻廣播系統皆無法變成動態並對即時的變化作出反應。如所有現有的音頻廣播或揚聲系統般，其只是播放音軌，因此音軌完全跟隨預錄的音軌編排。

根據本發明的第一方面，提供了用於在第一音頻片段和作為目標的第二音頻片段之間淡變的方法，其中該第一音頻片段和該目標的音頻片段各包含代表重大音頻事件的起始，該方法包含：相對於共同的時間性參照點判斷該第一音頻片段和該目標音頻片段中各自的起始點的相對時間性位置；相對於該共同的時間性參照點評估該第一音頻片段和該目標音頻片段中各自的起始，以確定哪個起始於時間上是最早發生的；以及在所述的最早起始的某上升處，促成該第一音頻片段和該目標音頻片段之間的交叉淡變，以致該目標音頻片段代替該第一音頻片段作為當前的音頻輸出，且其中該交叉淡變同時跨過該第一音頻片段以及該目標音頻片段地發生，以實現音頻輸出中無縫的節奏性過渡。

在本發明的另一方面，提供了音頻系統，其包含：處理器；以及儲存裝置，其包含多個數位音頻檔案，其各皆被分隔成至少一個以情境主題作為特徵的音頻片段，而每個所述的至少一個音頻片段皆具有代表重大音頻事件的起始；其中該處理器被配置以：相對於共同的時間性參照點，判斷第一音頻片段和作為目標的第二音頻片段中各自的起始點的相對時間性位置，其中該第一音頻片段被可控地播放，而作為目標的第二音頻片段會變成當前的及被播放；相對於該共同的時間性參照點，評估該第一音頻片段和該作為目標的第二音頻片段中各自的起始，以確定哪個起始於時間上是最早發生的；以及在所述的已判定為最早起始的某上升處，促成從該第一音頻片段至該作為目標的第二音頻片段的交叉淡變，以致該作為目標的第二音頻片段代替該第一音頻片段作為當前的音頻輸出，且其中該處理器被編排，令該交叉淡變在時域上於該第一音頻片段以及該作為目標的第二音頻片段中同時開始，且其中該處理器被進一步編排以在音頻輸出過渡至作為目標的第二音頻片段後維持由第一音頻片段於音頻輸出中確立的節奏模式。

在本發明的又另一方面，提供了用於判斷於某音頻訊號的某片段中起始的存在的方法，該方法包含：將該音頻訊號的瞬變的部份從該音頻訊號的相對靜態的部份分離，以產生時域代表方式；產生瞬變部份的波幅包絡；設定功率臨界值並檢測出波幅包絡中超過該功率臨界值的局部峰值點；以及對於該些局部峰值點，於由該瞬變波幅包絡辨識出來的多個取樣點分析該瞬變訊號，所述的分析於每個取樣點進行，在該取樣點之前及之後在某預定週期中測量某特徵；以及將在該取樣點之前及之後的該些預定週期之間所測量得的特徵差異最大的取樣點辨識為起始。

在本發明的又再另一方面，提供了音頻系統，其包含：處理器；以及資料庫，其包含多個數位音頻檔案，其各皆被分隔成至少一個以某情境主題作為特徵的音頻片段，而每個所述的至少一個音頻片段皆具有代表重大音頻事件的起始；其中該處理器被配置以：在資料庫中的每個數位音頻檔案中將每個音頻片段的瞬變的部份從該音頻訊號的相對靜態的部份分離，以產生時域代表方式；產生瞬變部份的波幅包絡；設定功率臨界值並檢測出波幅包絡中超過該功率臨界值的局部峰值點；以及相對該些局部峰值點，於多個由該瞬變波幅包絡辨識出來的取樣點分析該瞬變訊號，所述分析於每個取樣點之前及之後的某預定週期中測量某特徵；以及將在該取樣點之前及之後的該些預定週期之間測量所得的特徵差異最大的取樣點辨識為起始；以及採用所述已辨識的起始，以從第一情境主題過渡至第二情境主題。

在本發明的又再另一方面，提供了資料庫，其包含多個可存取的檔案，該資料庫包含：數位音頻檔案的多個音頻片段，每個音頻片段被編配至相對於對應該音頻片段的識別性的音樂時間性而界定的情境主題，每個主題本身被編配至至少一個進入點和至少一個退出點，所述進入點和退出點支緩不同音頻片段之間無縫的淡變過渡，且其中所述的至少一個進入點和所述的至少一個退出點各皆與該片段的某弱拍的事件關聯，這是以拍子和小份(beats and fractions)的形式表達。

在本發明的又再另一方面，提供了將兩個音頻片段拼接在一起的方法，其中該兩個音頻片段具有與其相關的元資料所反映的、預先被辨識的情境主題，而該兩個音頻片段各皆具有與其被編配的主題相關的開始點和結束點，而該方法包含：通過將每個音頻片段分隔成各具有已被辨識的速度的節奏性拍子，為該兩音頻片段各自產生第一時基；通過將每個拍子分成拍子中的至少多個在時間上相等和等距的細份，將每個音頻片段的每個拍子分隔成可測量的小份，從而產生第二時基；於被擬定跟隨第一音頻片段的目標音頻片段中判定至少一個進入的弱拍，該至少一個進入的弱拍相對於目標音頻片段的開始點各自提供以拍子和小份表達的第一時移；於該第一音頻片段中判定至少一個退出的弱拍，該至少一個退出的弱拍相對於第一音頻片段的結束點各自提供以拍子和小份表達的第二時移；將該第一時移和該第二時移對比，以辨識該第一時移和該第二時移之間是否有對應性；以及如果該第一時移和該第二時移之間沒有對應性，便否決從該第一音頻片段至該目標音頻片段的擬定拼接，否則便認定該第一音頻片段與該擬定的目標音頻片段的拼接是相容的。

在本發明另一方面，提供了電腦程式產品，當其由處理器執行時，令該處理器執行如申請專利範圍第21項至第27項之任一項所述的將兩音頻片段拼接在一起的方法的程式。

在本發明的又一方面，提供了聽感增強系統，其包含：如申請專利範圍第20項所述的資料庫；處理系統，其耦合至該資料庫並對所述元資料有反應性；以及耦合至處理系統的輸入，該輸入將以時間性輸入的形式呈現給處理系統，以辨識事件演變中的性質，其中每個事件以某主題分類；其中該處理系統被編排以確立所述的演變中的事件的已分類的主題與所述的音頻片段的情境主題的相關性，並且還被編排以隨著時間性的輸入改變而自動選定音頻片段和將其拼接在一起以反映所述的事件。

本發明的實施方案允許被辨識的樂句或主題被同步或以其它方式聯接至現實世界的事件中。在這文義中，“樂句或主題”界定音頻的“片段”，其具有一組可界定的特徵，該些特徵反映該些作為時間性輸入呈現的、情境上被感知及辨識的事件的性質，或與其互補或以其它方式配合。因此該些音頻片段“配合”該些事件的情境的“美學設計”。所得的同步有利地達成預先被辨識的樂句之間無縫的音樂性過渡-採用時基以準確地配對本來存在的但被辨識了的音樂拍子記號或拍子以達成該無縫音樂性過渡-該些預先被辨識的樂句可能是完全不同的，並具有不同的情感主題，該些主題由樂句各自的拍子記號、強度、音調、音樂韻律及/或音樂分句所界定。因此較佳的實施方案通過動態地將音頻片段改變、重新排序或重複，然後播放，從而增強現實世界中使用者的總體感官體驗；這是在周圍的實際環境中正在發生的事件的情境下進行的，例如，在踏步課堂的心肺健身過程的不同階段期間，音樂速率和強度在衝刺時增加而在復原時期減小。配樂是自動地即時地被選擇以配襯演變中的實際事件或本地環境事件，其中對音頻取樣的同步化導致該音頻取樣成為總體感官體驗的不可分割而相輔相成的一部份。

有利地，本發明提供新穎、創新的數位格式科技。軟體形式的編輯套裝(其可選為以可下載的應用程式的形式提供)向消費者提供用以動態地、即時地將固有的音樂內容編輯和重新設計的工具，從而達致與使用者的體驗同步。更具體地，該系統和方法論提供了將數位音樂內容與生活方式、活動和消費者選擇同步化從而與其配合的契機，其中該同步化是基於某界定的音頻片段中的主體的特徵描述，以及隨後基於該音頻片段中的弱拍事件而確立對於該音頻片段的合適進入點和退出點。該軟體應用程式允許將(例如)某使用者最喜好的一些歌曲選擇性地重新形象化和將該些音軌與特定的物理刺激同步化，以適配該一刻的情況，如跑步或散步的情況，或與視訊片段的某場景調準，從而產生訂製的、為個別使用者度身訂造的體驗。因此該系統產生複合媒體檔並將其提供作例如即時播放或廣播等用途；該複合媒體檔將即時或演變中的現實世界事件與自訂化的、使用者可選擇的音頻組成成份相關聯，而該些音頻組成成份是被設計以增強總體的感官體驗的。

這樣就達成了更高程度地將現有的數位音樂重用和重新編排以即時同步至多種媒體，其中該基於元資料的同步化適用於多個不同應用範疇，包括運動、電玩、個人視訊編輯以及廣告。基於環境中的變化，較佳實施方案的系統創造音樂內容，更具體地是將以一個或更多個時間上分開的音頻片段或音頻檔案展示的音樂內容編輯和重組以適應場合。因此，音頻輸出例如會隨在某遊戲中所感應的改變而改變，以致該音頻輸出是同步化的音樂，其配襯遊戲中的動作，或配襯某DVD中的氣氛和動作。所得出的音樂檔案格式(包括以嵌入於元資料中的標籤對音樂分段的特徵描述)給予使用者將他們最喜好的一些音軌用於他們的視訊和社交媒體應用程式中的能力。更具體地，可通過將系統連接至合適的、對環境情況的改變作動態反應的感測器，達成即時同步化。

本發明的如所附的申請專利範圍和以下的說明所簡介的多方面和多個實施方案皆可作為硬體及/或軟體方案實施。

1:音頻片段

10:示圖

12:事件

14:音樂主題/音軌/片段

16:音軌的開始

20:音頻頻譜

30:系統

32:通信介面

34:處理環境

36:記憶體

38:術語詞彙

40:使用者介面

42:時間性

44:強度

46:音頻函數分析

50:儲存

52:片段匯編智慧

54:複合媒體檔

56:音軌

58:音軌/元資料

59:選擇

60:排序

62:音頻片段

64:分析

66:評估

68:提供

70:音序器

72:與時段/音樂性功能匹配

74:與進入和退出點匹配

76:與時間性匹配

80:音頻生成器

82:交叉淡變

84:緩衝功能

86:輸出

88:串流

90:檔案

102:拍子記號

104:起始檢測

106:小節/拍子檢測

110:使用者

112:元標籤器

130:時域示圖

132:音頻分段/音頻片段

134:音頻分段/目標片段

136a、136b、136c、136d、136e、136f:起始

150:時基

151:音頻頻譜

152:抽象進入點

154:抽象退出點

155:抽象退出點

160:標號

162、164:實際退出點

166、168:實際進入點

180:剪接

200:資料庫

202:音頻片段

204:主題

206:音軌

208:時間性

210:進入點

212:退出點

250:時間性示圖

252、254:拍子記號

300:音頻訊號

302、304:成份

310:代表方式

320:波幅包絡

現以參照附圖說明本發明的示例性實施方案。在附圖中：第1圖的示圖代表現實世界的事件與某段音頻之間確立了的關係，音頻例如為一段音樂，而其中該關係是根據本發明而確立的；第2圖是根據本發明的較佳實施方案的一系統的示意性示圖；第3圖是第2圖的系統中採用的片段匯編智慧的功能示意圖；第4圖是根據一較佳的創作過程的音軌匯編和元資料創建的功能示意圖；第5圖是於音頻片段內從某音樂主題的退出點剪接至其它音樂主題的進入點的一較佳的剪接策略的時域示圖；第6a圖、第6b圖和第6c圖示出當前的音頻片段和目標音頻片段之間的交叉淡變或剪接相對一共同時基以及相應的起始事件的關係，而該交叉淡變或剪接是根據一較佳實施方案的；第7圖由第7a圖至第7c圖構成，其為不同音樂片段的頻譜示圖，該些片段具有根據本發明一較佳實施方案判斷退出點和進入點；第8圖是時間性的示圖，其示出不同音樂片段的不同拍子記號之間的相對時間性；第9圖由第9a圖至第9d圖構成並示出判斷起始點的一較佳過程，較佳的系統採用該過程執行於第6a圖至第6c圖中示例化的交叉淡變或剪接；而第10圖是根據一較佳實施方案的音軌資料庫的示例性配置。

第1圖是示圖10，其代表現實世界中的事件12與某段音軌的某音樂主題14之間確立了的關係，而其中該關係是根據本發明而確立的。例如，事件12可以被監測或以其它方式感應(例如通過在運動中的人佩帶的感測器或遙測裝置)，或可以是預錄的並於某媒體上存在的(例如是某電影的一連串場景訊框)。隨著時間流逝，現實世界中的該些事件12改變，各事件12因此可被彼此分辨。

舉一純示例性的運動例子(或者是某人在運動的影片)，進行運動的人可於開始時間(零時)和第二分鐘結尾之間經過一熱身階段、於第二分鐘結尾和第六分鐘結尾之間經過一劇烈運動階段、於第六分鐘結尾和第八分鐘結尾之間經過一復原階段，並最後於第八分鐘結尾和第九分鐘結尾之間經過一冷卻運動階段。這運動計劃中不同的活動階段多半會在伴隨的情境音樂方面要求不同的對策。

上文對活動的時長以整數的分鐘的形式形容，但這是純示例性的，以秒或其它時段作基礎亦完全沒問題。例子中各運動活動之間的過渡時刻亦只是為了簡化說明而被隨意選定了，因此過渡其實可於任何合適的觸發點發生。例如，該些過渡可以是感測器驅動的，該感測器可以是在某人的運動項目期間主動地在監測和報告那人的心率。就某電影而言，選定的過渡點可以是在某場景的結尾、與某人物的出現相連，或與某段說話的某特定部份相連。

在第1圖中，為了提供令人投入的效果，以連續的音軌14增強該活動12，音軌14跟隨反映出演出者的原來錄音的自然路徑。但是，即使在開始時可寬鬆地和大約地把音軌的開始16與於零時剛剛開始的熱身狀態吻合，該音軌很快便和該事件脫節而變成一般的背景，即是說，那自然音頻就支援或加強該與其勉強有點聯繫的現實世界的事件的用途而言是不理想的。

但是我們瞭解，(例如)一段音樂音軌的不同片段其實可和不同時間上的不同事件活動有直接相關性，而且期望於不同音頻片段之間過渡(基於在該片段和該時間上的事件中辨識出的共同主題)以增強總體的感官體驗。換言之，音樂編制的多個片段14中具有多個主題，而這些片段具有不同的時長和不同的情感特質，後者可由使用者或裝置基於質化(及/或量化)的評估而被分類。因此“主題”這術語應被瞭解為概括的描述，其泛指使用者及/或MIR過程基於從某認定的音頻片段所感知的情境意義而可編配給某音樂(或其它音頻取樣)片段的選定屬性或感知到的特性。

因此，操作本發明的某實施方案以辨識出片段，並將經取樣的音樂(或類似物)的分段儲存於資料庫中。每個片段14-其各可具不同時長T₁-T₄-編碼期間皆加入元資料，其辨識該片段(及其主題)及/或尤其可從該片段14解析出的情境特質。存取和參照該些元資料允許隨後將該些片段於時間上重新排序，讓該些片段可與相關的現實世界事件調準。

較佳地，該系統從不改動原本的音頻檔案，而是利用匯編好的元資料讓播放引擎於合適地編碼的檔案中跳動，接近即時(除了一點兒合適的緩衝以允許進行處理)將其編輯和交叉淡變。

作為非限制性的例子，在運動的情境中，音軌可包括作為副歌的輕快節拍，該輕快節拍因此適合該運動的一衝刺部份期間較高能量輸出速率所引致的較快心率。相反地，同一音軌可能包括半速(half-time)的片段。該半速的片段因此會較適合運動期間的主動復原階段，而不適合衝刺階段。現要求保護的發明因此從某音軌產生多種被辨識的片段(即切片)，其可在時間上被移動從而與外在驅動的活動更合適地調準。這時間上的移動可能引致片段次序被重組，即是說某原本的音軌中的自然連續的順序可能給出T₁、T₂、T₃、T₁、T₅、T₆、T₁的順序，其中T₁是重複的副歌而T₂至T₆是節、主題或樂章。這時間上的移動亦可能導致音頻輸出的總時長相對原本的音軌被延長或截短。將該片段的主題辨識並將與該片段相關的特徵描述於元資料中儲存可能可導致將片段(相對某電影)的次序重新排列，其產生的音頻輸出具有不同的順序T₁、T₁、T₆、T₂、T₃、T₁、T₁、T₁。第1圖中的“Mashtraxx”音頻頻譜20代表了這次序重組，其示出了Matraxx片段的重新排序。較佳地，鄰接的片段是彼此連貫的，例如音樂韻率沒可察覺的變化，及/或鄰接片段之間沒有可察覺的無聲片段。下文參照第5圖和第7圖描述了用於當前的音軌取樣片段和(同音軌或另一音軌的)另一儲存的片段之間的淡變機制。

本發明的實施方案允許被辨識了的音樂片段被聯接至現實世界的事件中並與其同步。該達成的同步包括可能是本質上完全不同的、預先被辨識了的片段之間的無縫、具音樂性的過渡，該些片段具不同的情感主題，其由各片段各自的拍子記號、音量、音調、音樂韻律及/或音樂分句限定；而該無縫過渡是通過使用時間上的偏移(例如相對的推前)達成的，其較佳地用於準確地配合某原先存在但被辨識了的音樂拍子記號或節拍。因此，通過根據在周圍實際環境中在發生的事情的情境於不同的音樂片段之間跳轉(並因此於不同主題之間跳轉)較佳的實施方案加強整體的感官體驗；例如，在踏步課堂的心肺健身過程的不同階段期間音樂速率和強度在衝刺時期中增加而在復原時期中減小。伴隨的音樂(或可聽內容，例如聲源不可見和聲源可見的音效設計或非演奏式的純音效) 於即時內被自動選定以配襯在演變中的實際事件-其可於即時內被電子監測，例如以心律監測器監測-並從而形成整體感官體驗的不可分割而相輔相成的一部份。除了即時監測外，還可將該伴隨的音頻取樣(例如某段音樂)預編程以和某觸發點(例如某電子遊戲內的某場景轉接)綁定並與其一起播放。

現轉看第2圖，其示出根據本發明的一較佳實施方案的一系統30的示意性示圖。

如上所示，系統30擷取現實世界的外界事件12作為輸入。這些可以是即時感應的事件或是儲於媒體上的記錄了的事件，它們通過通信介面32呈現給該系統的。處理環境34一般包括至少一個處理器，其運行儲於記憶體36中的程式代碼。

多種不同的平臺皆可支援該處理環境34，包括經網路連接的服務器、平板電腦、私人電腦或智慧型手機。

記憶體36可以是處於處理環境34本地或處於某分佈式系統的遠端。儲於記憶體36中的應用程式(“app”)允許對現實世界的事件作自動化的分析，並進一步允許對事件中的取樣了的時域中的資料相對預先確立了的術語詞彙38(其亦儲於記憶體36中)將其特徵描述。實際上，對應某被監測或記錄的外界事件12的輸入信號可包含多個不同的特徵，例如從即時監測器感應並報告的與運動和主動復原的不同階段(如第1圖所示)關聯的不同心律；或者是就某影片的情境而言，其可能具有的可辨識的不同面部表情、不同的像素亮度及/或某坨物體移動經過螢幕期間像素具有的不同移動速率。可界定其它反映某情感或活動的特徵。

以上共同的特點是，可辨識的特徵隨時間改變，因為外界活動隨時間改變，因為環境或個人的情感或物理狀態隨時間改變。因此，該事件輸入-無論形式為何-便可被視為一組由取樣的事件資料構成的多個連續的事件分段，其具有不同的但可辨識的主題。從功能而言，處理環境34被配置為以至少一個預儲存的詞彙字詞描述每個事件分段，其中這描述或永久地或臨時地與該事件分段記錄在一起。對於每事件分段的詞彙字詞作為關鍵或“簡報元素”，其可隨後用於交叉參照和最後選定相關的音頻片段，後者類似地被賦予特徵描述，且具有相應或密切相關的詞彙字詞描述，其可以是被儲於音軌的元資料中、儲於相關聯的檔案中，最較佳為被分成各自獨立的部份地儲於每段音頻片段的標頭中。除非特定的情境需要更狹義的詮釋，否則術語“音頻片段”、“分段”和“音頻切片”應被視為同等的，同樣是代表某數位音頻檔案中不同長度的取樣。

作為對處理環境34的次級輸入，可提供使用者介面40以允許使用者評價該外界事件輸入12。這評價功能可以是獨立於產生該些簡報元素的自動分析的，或者是與其互補的。因此，該人工的評價亦給事件分段賦予詞彙字詞，因此提供了替代或增補性的產生簡報元素的程式。

說回第2圖，該處理環境對外界事件執行的功能分析可包括：

i)外界事件12中的相對及/或實際的時間性42。例如，時間性分析可辨出滿足某最低臨界值的事件，具持續時長及/或擊點的事件/特點。擊點是指某遊戲或電影的時間線上某給定的時刻，在該時刻發生某動作，其需要某音樂特徵同時發生(“擊”)。擊點的另一業界名稱為“Mickey Mousing”，例如在某Tom and Jerry卡通中某保齡球源某架滾動至掉在湯姆貓頭上後，可能發出一大聲的木塊響聲。替代地，某些時候擊點具有給定的時長；更合適地應將這樣的擊點稱為“持續特徵”。例如，在該些保齡球掉在湯姆貓頭上並彈走之後，湯姆貓不由自主地抖動三秒。因此，可以將尺子在桌子上撥彈時發出的聲音實現相關的持續特徵，其中該震動的聲音持續三秒後被淡出或結束。

ii)強度44以及外界事件中強度的縮放。例如，強度可以是基於通過從該外界來源經輸入32接收的相對的光照水準或音量，或某可監測的函數(例如心率)中的變化。強度亦可涉及某個以情感感知的強度，其辨識出某段音頻中的某片段相對整段音頻中的其它片段是有何重要性或者是如何從屬於其它片段的；該整段音頻可為一首完整的曲目或者是不同音頻來源或錄音的音軌合輯，例如是從不同的音頻CD所得的不同音軌。因此，強度可為根據某使用者的口味或喜好設定的主觀尺度。

iii)音頻函數分析46，其包括但不限於節拍分析、拍子記號分析、性質(climatic)變化辨識、音量增加或減小、戲劇性急停(其中音頻突然靜止)、靜態或韻律性分析、重複段的強調和辨識。

當對該些事件分段生成了字詞，從而產生了簡報元素後，可將這些事件分段經過網路串流，或將其儲存50以供片段匯編智慧52往後取回和使用。這片段匯編智慧52是基於人工智慧(“AI”)的處理支援的，並或可被稱為“Mashtraxx框架”。該片段匯編智慧52被配置了以提供額外的處理以及產生新的媒體樣本(或稱“複合媒體檔”54)，其中新創的音頻(例如新創的音軌)以無縫、順序的方式加強現實世界事件中的事件分段。事實上，該新創的音頻可增補或取代從現實世界事件擷取的音頻取樣。

該片段匯編智慧52可對額外的輸入有反應，該額外的輸入即為加強的音軌58，其包含對於原音軌的分段或切片的Mashtraxx元資料58。實際上，該音軌可為從由使用者選定的多個音軌或單一錄製的音頻檔(其不一定要是音樂)所得的多個取樣。音軌56可例如由iTunes^®曲庫提供，或從某音樂存庫串流或以其它方式取得。下文將說明Mashtraxx元資料的產生。

下文將更詳細地說明Mashtraxx元資料的產生，並具體地參照第4圖。但總括而言，Mashtraxx元資料提供音頻分段的界定，包括音軌的拍子記號和其它音樂屬性及/或函數，其被提供為與音軌關聯的資料。對某音軌的經修改的數位音頻檔案可包括元資料標籤，其嫁聯至該音軌中的音樂性事件，例如擊鈸聲和鼓聲。替代地，可從於外部管理的資料庫存取或串流該Mashtraxx元資料，通過於裝置上運行的本地app進行存取。對於後者的情況，較佳地安排了某基於裝置中的app基於該原本具版權的藝術作品(即該音軌)相對該本地裝置/使用者的記錄狀態而將Mashtraxx元資料從該遠程資料庫抽取。如該原音軌被視為非法複製的，可向其Mashtraxx元資料施加存取禁制及/或可讓該app將該非法複製品標記或禁止播放該原音軌，直至該音軌/使用者由對應該原音軌的經認證的許可證驗證。

在一較佳的防偽的實施方案中，於本地安裝的app通過對音頻作指紋驗證而檢查本地內容；這可以是基於任何一種以至多種已知技術進行，包括音軌標頭中的元資料及/或通過音頻取樣作音軌內的分析。該app被配置以致隨後以包含Mashtraxx資料的中央資料庫作核對，以揭示有沒有現存的Mashtraxx資料對應所辨認出的音軌。如果有，該app則被配置以於app中將Mashtraxx資料作為Mashtraxx選項展示給使用者。

取得被授權的狀態的方法是公知的，並一般是基於登記程式的。但登記使用版權的程式和本發明要處理的根本問題並不相關，特別是和創作所述的元資料標籤並不相關(所述的元資料標籤是用於將與補充演變中的現實世界事件的協調的音頻關聯的令人投入的感官體驗加強)。

第3圖是第2圖的系統中所採用的片段匯編智慧52的功能示意圖。

某些音頻片段是將要被插入的，而且其固有的主題的特徵是已被預先描述的(為此，已於該些音頻片段的相應元資料中置入標籤，如下文將解釋)；該片段匯編智慧52對於這樣的音頻片段作出選擇59和排序60以將其與現實世界事件對應。這樣給出一組經排序的音頻片段62，其可包括連續的、重複的音樂章節。要選出恰當的音頻片段，須對元資料標籤作考慮和分析64，而且可選但較佳地也應評估66所選擇的音頻片段62本身是否具足夠材料以供插入。判定材料不足夠，將導致以下運作之至少其一：拒用該音頻片段、決定重複(即循環)該音頻分段以填滿該現實世界事件的全部時長，及/或通過使用者介面(例如第2圖的使用者介面(在一般包括圖形用戶介面“GUI”的實施方案的情況下))通知使用者。循環可涉及由預先儲存的元資料標籤反映的片段內循環。這片段內循環允許於片段內部中確立循環，並因此限定於內部彼此一致的切點。

使用者可通過控制介面直接向系統輸入簡報筆記以指令音頻分段的選擇。該簡報筆記指示變量的參數，包括但不限於時長、音軌內擊點的性質以及音軌的氣氛。替代地，可向使用者展示各具共同主題的多個可選的音軌選項，然後要求使用者指示其喜好。也可以完全自動化的系統替代。

除了實在執行從當前音軌淡變及/或直接剪接至目標音軌的過程(如特別參照第6a圖至第6c圖而論述的)，該片段匯編智慧52還與該過程獨立地被配置以評估不同音軌中的片段是否根本上相容，和是否較佳地相容至可被拼接或剪接在一起以在兩者之間產生可聽地為無縫的過渡。現將參照第7圖、第8圖和第10圖說明較佳的過程。

第7圖是不同音樂片段的頻譜示圖，該些片段具有根據本發明一較佳實施方案決定的退出和進入點。第7圖示出編輯點過程，其可被獨立地執行以將選定的音頻片段中相關的主題調準，並且是一預備過程，預備將選定的音頻片段重新編排進入統一的資料格式，後來會將其與現實世界事件調準，從而通過加強向伴隨的聲音場景的貢獻而加強感官的體驗。

在第7a圖示出某音頻片段(“音頻片段1”)的音頻頻譜151，其中包絡的變化被高度簡化、並被示為具突然的過渡點的塊件。讀者會理解，頻譜151具有時域的代表方式，其隨時間改變。具音樂小節形式的時基(片段1的為“小節1”至“小節8”)將音頻片段於名義上已辨識的“抽象”進入點152和於名義上已辨識的“抽象”退出點154之間分隔。因此該抽象進入點152和抽象退出點154限定該音頻片段，而這些抽象點是以MIR程式及/或使用者輸入而決定和選定的，從而辨識出例如一首歌的整個音軌中不同主題之間的、其特徵可被描述的過渡點。因此“主題”是某音軌或某匯編合成的作品中情境不同的方面。主題可在所感知/辨識的相同和不同之處兩方面將某片段的情境分類。因此，主題是被編碼入與該音軌的片段相關的資料庫內，並可被直接編碼入賦予其的元資料內。

不幸地，已發現因音頻的本質使然，令抽象進入點152和抽象退出點154大有機會和某音頻片段的實效，即實際的退出點162、164和進入點166、168時間不一。例如，於片段1(第7a圖中參照標號160)內，可具有一個或多個可能的抽象退出點154、155，而每個抽象退出點154、155具有一個或多個實際退出點162、164。在這示例性情況中，主題過渡可以是被辨識為於小節4和小節5之間的過渡點發生，而(將時基和節拍納入考慮的)實際退出點162、164可於小節4中的不同時間發生。

因此，在可以於片段之間過渡之前，是必須尋找不同片段之間的相容性，以及提供實質上無縫的可聽過渡的時間性過渡。在第一例中，經辨識和施加的元資料標籤可提供不同主題之間可接受的相關性的指示。例如，假設限定於一和八之間的主題指數，第一音頻片段可具有“主題一”的特徵描述，其可為代表慢調、憂鬱的情境的。作為對比，第二音頻片段可具有“主題二”的特徵描述，其可為代表(相比第一音頻片段)稍快的、情境上較強烈的氣氛的。第三音頻片段可能是給人很有活力的感覺的，因此可以是被描述為具有強度(即為使用者界定的級別)被測定為N級中的第八級(其中N為整數)的特徵描述。在這例子中，從達成無縫的可聽過渡的角度而言，於第一片段的主題一和另一音樂片段中的另一主題一之間過渡似乎是非常可行的。亦可能可以於第一片段和第二片段之間無縫過渡，因為兩者的特徵描述似乎相近。但實際上，如果只從第一音頻片段和第三音頻片段各自的根本主題的特徵描述的評估的角度看，從第一片段過渡至第三音頻片段可能是不可行的。但是，較佳的實施方案對這樣的無縫可聽過渡問題提供解決方案。

因此，根據本發明，必須進一步研究於當前的音頻片段和擬切入音頻播放中的擬定目標音頻片段之間的實際退出點和進入點的性質。實際退出點選自至少為一個、通常為數個的、聯繫至某被辨識了的弱拍(anacrusis)的合適的退出點。在編輯前，預先為每個音頻片段辨識合適的退出和進入點(並將其儲於資料庫中)以致該智慧處理環境52只需作最少量的緩衝便能匯編出編輯好的音頻，其與外界事件刺激的可解析的流程是互補的。因此可實質上以即時達成音頻之間的過渡，且無論是否隨現實世界事件的發展動態地選擇片段，音頻的連續性也沒有可辨的損失。

第7b圖是第7a圖的第4小節的放大視圖。為了令說明清晰，再以簡化的塊件形式顯示第4小節的音頻頻譜，其具有隨時間變更的訊號衝程。第4小節被分成四拍(“第1拍”至“第4拍”)，每拍再細分為同等數量的小份(fraction)(f₁至f₄)-在這例子中每拍具四個同等的小份。相對抽象退出點155，實際可能的退出點將對應在某弱拍(可替代地並可互換地被稱為“pickup”或“起始”(“onset”))處或緊接在其之前的點。弱拍是處於一小節音樂的第一重拍之前的音符或一串音符。因此，通過MIR及/或使用者輸入，於抽象退出點155附近辨識了對於實際退出點的弱拍。在第7b圖的示例中，弱拍處於抽象退出點前：i)在第一可能退出點162的例子中，距離為負一拍零小份；而ii)在第二可能退出點164的例子中，距離為零拍負兩小份。

必須執行類似的評估以辨識進入某音頻片段的進入點。現參照第7c圖。實際退出點選自至少一個，通常為數個的聯繫至某被辨識了的弱拍的合適的退出點。為了令說明清晰，再以簡化的塊件形式顯示第0小節和第1小節的音頻頻譜，其中的訊號衝程隨時間變更。小節0和小節1各被分成了四拍(“第1拍”至“第4拍”)，每拍再細分為同等數量的小份(f₁至f₄)-在這例子中每拍具四個同等的小份。相對抽象進入點152，實際可能的進入點166、168將對應在某弱拍處或緊接在其之前的點。因此，通過MIR及/或使用者輸入，於抽象進入點152附近辨識了對於實際進入點166、168的弱拍。在第7c圖的示例中，弱拍橫跨抽象退出點：i)在第一可能進入點166的例子中，距離為正零拍零小份；而ii)在第二可能進入點168的例子中，距離為負一拍負二小份。

作為辨識音頻片段內精確、實際的進入和退出點的位置的過程的摘要，較佳的實施方案將音頻的片段(其在其主題方面已被辨識)分隔成重複的時間單位，例如是跟隨節奏的拍子(其可具有變量的時長)。每拍可具有其本身的“速度”(“tempo”)，這裡“速度”這詞語應被理解為意指每分鐘的時間單位的數量。然後將這些拍子細分或“分份”為至少多個相等和等距的時間細份(其稱為“小份”)。鄰接的拍子之中的小份數量可以是不同的。但鄰接的時間單位(“拍子”)的小份的時長可為彼此不同的，因為每個時間單位皆可能具有其獨特的速度。因此，相對與拍子相關的第一時基以及第二時基的小份的第二量化時計，相對某辨識了的片段的開始/完結點決定某可能合適但重要的進入/退出點(即某弱拍)的大概位置。是這測定的距離弱拍的時移-其以拍子和小份表示-允許將一音頻片段無縫地整合至另一不同的音頻片段。更具體地，系統的處理智慧尋找退出點和進入點-其以拍子和小份表示-其具有相同的測定時移(以拍子和小份地表示為相同的)，從而達成可聽地為無縫的過渡。

因此，如第10圖所示，將資料庫200組成並提供給於第2圖的系統中運作中的某裝置。因此，資料庫200將音軌與相關的音軌元資料關聯。更具體地，該資料庫將音頻片段202編配至音軌206的已辨識的主題204，亦表達這些主題是如何相對於該片段中限定的時間性208被定義的。最後，每個主題202被分解成至少一個，一般是多個適於編輯的進入點210和退出點212，其與弱拍事件關聯(以拍子和小份表示)。

回到第7b圖和第7c圖，因此，片段之間的剪接將為由當前音頻片段於小節4、第4拍的開始(參照標號162)接至片段(X-1)、小節零、第4拍的位置(其對於進入點168具有一拍零小份的弱拍時移)。當然，亦會發生對於該弱拍的其它拍子和小份的時移的組合，這由音頻主導。按需要採用緩衝以適應時間性的滯後或推前，以將不同片段之間的剪接調準。

因此，第7c圖的目的在於支援有效的編輯功能，並更具體地允許辨識編輯點，該辨識是相對於音頻的節奏中的，距(與任一拍子記號相關的)小節轉折點的特定的量化距離以及拍子和拍子的小份而言的。

第10圖的資料庫至少儲存音頻片段的交叉參照的進入點和退出點，其中如要將它們無縫地拼接在一起，則必須使它們具有正確的調準的時間性。實際上，在計算編輯點之前，需要滿足配對的條件。通過起始檢測(拍子檢測)計算拍子，通過將拍子之間的時間平均細分以計算小份。“實際進入/退出”和“抽象進入/退出”並不對應“抽象小份位置”和“實際檢測得的拍子”；沒有這樣的關係。

第8圖是時間性示圖250，其示出在例如某音軌的不同片段之中不同拍子記號252、254之間的相對時間性。例如，第一音頻片段中的拍子記號可為複合6/8時間，而第二音頻片段中的拍子記號可為簡單4/4時間。由於拍子記號之間的時間不同，較佳實施方案的系統必須評估某記錄下來的退出點和進入點之間的時移(其以拍子和小份表示)是否實際對應。換言之，於片段之間的剪接必須顧及各片段不同的拍子記號。

在較佳的實施方案中，通過確立對應一些脈衝的第三時基達成這評估，該些脈衝具有的時長取決於對於不同片段的相應的小節中的小份的最小公倍數，之後將各片段的小節分隔成相同數量的固定時長的脈衝。因此，不同片段的不同小份之間，小份中的脈衝數量可為不同的。因此，系統施加系數以將不同拍子記號調準，這系數為不同片段內的脈衝之間的比率。

在第8圖的例子中，在複合6/8時間下鄰接的拍子之間會具有六個小份。在簡單4/4時間下，鄰接的拍子之間會具有四個小份。因此對於乘積所得出的最小公倍數提供的脈衝數量為六。因此，在相關性分析後，系數1.5表示(與合適的弱拍相關的)剪接點於(本例子中的)複合時間中存在於小節X、第1拍、第2八分音、第2小份，但於(本例子中的)簡單時間中則位於小節Y、第3拍、第3小份。

該乘數系數令一個拍子記號中的時間弱拍可與其它的互換，這可以是複雜的。

將第8圖技術性地但從樂理角度地表達：該簡單的拍子記號是4/4/(16)。4/4的標號是標準的，而16是意指十六分音小份；因此，每個四分音拍子具有四個十六分音小份。該4/4/16簡單拍子記號的實際退出點是從小節結尾計負一拍和負兩2小份。在這情況中小節的結尾和抽象退出點對應。

該複合的拍子記號是6/8/(16)。6/8意指每小節具有兩拍，每拍為附點四分音符。這意味著每個拍子具有三個八分音，與之相比該簡單拍子記號中則只有個八分音。如是者，16分音小份的數量分別為6和4。

在第8圖的例子中，這意味著，要於某拍子的中間處編輯，需要將小份的數量乘1.5，以從4/4的小節至6/8的小節作同等的編輯。因此，要在拍子之間將編輯點對齊，將簡單拍子記號的退出乘以1.5，或相反地，將複合拍子記號的最低成份除以1.5。這意味著得出一列24分音的脈衝，其中簡單拍子記號中的一16分音等於三個脈衝，而複合拍子記號中的16分音等於兩個脈衝。系統因此能以這樣的脈衝測量所有的進入和退出，並將該數量乘以與拍子記號相關的給定系數。這裏注明，在這例子中24分的脈衝是正確的，但在涉及其它拍子記號的其它情況中可以是不同的。在實踐上就如系統智慧說：“這裏有一簡單拍子記號的退出點，位於負一拍及負兩小份，因此是位於-4-2=-6個16分音小份處。這給出18個脈衝，而每個小份提供三個脈衝。對於複雜時間，該預先計算的退出點於負一拍負一八分音負一小份處發生。因此就是-6-2-1=-9個16分音小份，這給出十八個脈衝以及每小份三個脈衝，但除以複合系數1.5。兩者現皆被正常化至十八脈衝的長度，所以設有對於這進入的退出。

該片段匯編智慧52被配置以對任何輸入、上載或使用者通過使用者介面輸入而提供的簡報筆記執行分析。該片段匯編智慧52操作以辨識和計算滿足該簡報筆記所需的音樂分段，其中該辨識是基於和片段關聯的元資料進行。該簡報筆記可以是在輸出音軌期間可被動態更新的，以反映使用者通知的要求的變更。

隨後，可用的音頻片段62於音序器70中被提供68以作全面的音序處理，其中音序器70較佳地是基於AI邏輯的。音序器70(其一般是經編程實施的)是被配置以選擇合適的音頻分段和將其與相應的事件調準。該音序處理是基於置於音頻片段的元資料中的標籤與該簡報元素的相關性，其中該簡報元素即Mashtraxx詞彙字詞，其被編配至要可聽地被加強的外界事件的每部份。

在功能上，該音序器70是被配置或安排以將該音樂時段或功能辨識和配對72；為了音頻片段之間無縫過渡這是必須的。此外，該音序器70操作以於不同的已辨識的主題之間將進入點和退出點配合74，其中是正在播放第一主題的某音頻片段，而將要將第二主題的某音頻片段切入該第一主題，同時(快速地)將第一主題淡出。這也是音頻片段之間無縫過渡所必須的。最後，該音序器70匹配音樂時間性76。這些功能性可以是基於音樂資料檢索(music information retrieval，“MIR”)演算法(例如上文提及的)，但是通過提供介面解決MIR評估的低效率或錯誤的自動化分析這些問題，該介面讓使用者可以輸入、覆寫或以其它方式指定於音頻片段元資料中施加的標籤，從而限定該音頻/音樂片段的主題。這對於音頻片段之間的無縫過渡也是必須的。如前述般，分段的限定是相對某聽者/使用者對該片段中的音頻感知的屬性及/或通過MIR軟體對該片段中的音頻測量的量化及/或質化的參數而限定的。

該“主題”可以二進制編碼的形式代表，或以基於字詞的自然語言代表，其相比剛在上文提供的例子包括更多或更少資訊。例如可使用使用者定義的啟發式以為該簡報筆記提供更高的精度和限定性，從而提供更具指定性的音頻分段選擇和組合。啟發式可涉及例如i)歌曲順序，即相對原歌曲或原聲帶中的歌節和副歌的次序，在所得出的音頻輸出中對其重新排序的程度，ii)分段的獨特性，例如指示分段有多少重複或可否重複，以及iii)循環點，其確立將某指定音頻分段延長時所需的用於“填充”的點。

在某極限上，該音頻分段的元資料標籤可以只是一個字，其與用於界定現正進行中的外界事件12的特徵的Mashtraxx詞彙具關聯性。

音頻生成器80與音序器70耦合。音頻生成器80被配置以管理於正在播放的當前音頻分段以及目標分段之間交叉淡變82，其中該目標分段是被編排和選定當外界事件改變時要播放的下一個音頻分段。這功能包括辨識與某弱拍(其替代地和可互換地被稱為“pickup”或“起始”(“onset”))關聯的合適過渡，例如是在某小節音樂的第一重拍前的音符或一串音符。對於現要求保護的發明的實施方案，該起始-例如一重拍-是重要的，因為其欠缺或其時間性錯誤皆是可被辨認的，且是代表音頻的不自然的斷處，而其存在則提供連續性和流動性。因此，較佳的實施方案於弱拍處將當前音頻分段和隨後的一些音頻分段拼接，該弱拍是緊接在現播放中的當前音軌或目標音軌中的最早的起始之前的，從而允許表達不同主題的不同音頻分段被配對在一起。該系統因此運作以將弱拍釘定至某音頻分段中的合適時間點並對其記錄。

該音頻生成器80較佳地包括緩衝功能84以使音頻傳送更順利並將延遲減至最短。作為其輸出86，該音頻生成器80可將該匯編而成的音頻分段串流88，或將該音頻分段傳送至檔案90。

第4圖是對於根據一較佳的創作過程的音軌組成和元資料創作的功能性示圖。因此第4圖代表施加至例如原音軌56以創建複合媒體檔案(第1圖的參照標號54)的過程，該複合媒體檔案包含對應原音軌56的Mashtraxx元資料。

對於上載至或提供至第3圖的系統的音軌，該音軌如上述般接受基於AI的MIR演算法。通過較佳地提供GUI、人工的對音軌的頻譜性構成內容、拍子記號102(包括速度)和其它重要的音樂性事件的分析可被輸入以限定或(進一步)優化主題和音頻分段。因此，這基於人工的過程雖然只是較佳的，但其可解決與該音軌特徵的自動化詮釋關聯的不足或錯誤。例如，可通過GUI手動對某音頻分段的期望的信號包絡的開始點調節，從而更精確地將音頻資料取樣的開始與某特定音樂事件的開始調準(從而調準某與該要通過本發明的過程加強的外界事件相關的被辨識的主題)。

對於拍子記號的分析提供對小節和拍子的判斷，還判斷它們於組成該些選定的音頻片段的取樣之間發生的任何變化。這分析為(對於較佳實施方案)描述的機制提供基礎，從而將一個片段無縫地整合進另一片段，即使拍子記號和弱拍不同亦如是。

此外，於每個音頻片段中，系統是被配置以檢測104於不同時間點的起始。下文將更詳細地描述於源切片(即當前在播放中的切片)和目標切片(即被選定為下一段播放的從而改變音頻主題的音頻分段)之間的剪接，其中將參照第5圖，而第9圖示出可決定起始的較佳過程。

參照第9圖而解釋的起始判斷可獨立地於如本文中說明般的其它實施方案和方面上實施，不過若其被包括在系統中其則提供全面的方案。音樂上的起始是指某音樂性(或其它重要的可聽到的)事件開始的時間點。

於第9a圖中，某典型的音頻訊號300被示出，其包含具不同波幅的成份302、304。對於起始檢測，較佳的實施方案先將音頻訊號300的瞬變的部份(即音頻訊號中快速演變的方面)從靜態的部份(即音頻訊號中穩定的方面)分離；這產生如第9b圖中所示的時域的代表方式310。瞬變一般更為與較高頻率關聯，以及與這些較高頻率展示重大的能量增加的地方關聯。然後判斷該瞬變部份的波幅包絡320；這一般是基於卷積函數進行的，如音頻訊號處理技術熟練的讀者所瞭解的般。

隨後，相對功率臨界值330地檢測出波幅包絡320中的峰值點。峰值點對應某局部區域中包絡的最高點。然後，為了達至該起始的精確位置，該系統被配置以從峰值點於時間上往回頭方向地處理該瞬變訊號以找出時間點X，在該點X前的該訊號的一週期的某特徵與該點X後的該訊號的一週期的同一特徵差異是最大的。特徵包括但不限於點X前和點X後該瞬變訊號的第一階導數(derivative)的標準差。換句話說，經過整個瞬變的波幅包絡取樣的各鄰接時間點的功率值之間最大的比率提供起始點的最合適時間位置；這於第9d圖中描示。若再以不同方式表達，某起始的開始較佳是通過尋找、辨識出取樣點檢測出來的，在該取樣點前某週期中某被辨識的特徵的改變速率的標準差與該點後該同一特徵的相差是最大的。

取樣週期可以是於約十毫秒至約五十毫秒的區域之中。作為起始的例子，擊鈸聲大有可能代表起始，因為在其於音頻訊號中出現的時間點處瞬態的改變大有可能是最大的。

再回到第4圖以及產生音軌元資料的過程，進一步的自動化音軌分析(其亦可視乎人手輸入而作檢討)作用以解析出小節/拍子位置106。由於水準和因而起始之間的給定的關係，便可從起始檢測104或基於起始檢測104得出小節或拍子的檢測。

對於系統中進行中的訊號處理，拍子記號分析102、起始檢測104和小節/拍子檢測106(以及任何從使用者110輸入的監督性輸入)被用於將該音軌切片或分段成具不同時長的主題，並與應用於將外界事件的性質分類(因此亦將音頻加強的性質分類)的Mashtraxx詞彙關聯。在這方面，元標籤器112(其較佳地以AI邏輯實施)彙編出包括對應選定的音頻片段的元資料標籤的加強音軌58。如其指示或自推斷的，這元資料至少為與該片段相關的主題辨識出音樂性功能和強度以及用於剪接和淡變的退出和進入點。該元資料標籤化意味著可將取樣和傳送的音頻訊框(即切片或分段)精確地與某被辨識的外界事件12在時間上吻合，例如通過超過觸發臨界值或從某被編配的Mashtraxx詞彙字詞識別出某主題而將事件識別。

拍子記號或時間線生成允許以樂譜的方式描述音軌片段，這對於將音軌片段正確地配對是必要的。準確地辨識拍子記號允許採用可動的時間線，其支援自動對齊至最接近的拍子的功能。

該系統生成用於應數位音軌的時間線，其較佳地是以拍子和小節形式創建的，並確保為編輯過程保留忠於音樂的樂譜。這對於要成功地將內容剪接、拼接和重新混音以致不損樂曲的音樂完整性，是基本要素。系統智慧允許建立彈性的方案，其可根據要更改的音頻輸入而適應。例如，如檢測出音樂速度下降，則可因應地調節時間線。這對於為重新混音和重新編輯的用途而將音樂形式解構是重要的。其導致可得出對音頻如何在音樂上與時間線關聯的實質的瞭解，並允許使用者於數位格式中維持對於音樂結構的實在觸覺。

因此，音頻片段創作是將音軌分成可被重新編排以形成新作品的片段的過程。較佳地，將片段自動地對齊至小節。每個片段可屬於某可以是可供使用者自訂的群組，但較佳地默認為是前奏、主歌、過渡、副歌、中間8小節或結尾之任一群組(如元標籤所識別的)。每片段允許可自訂的元資料屬性，包括但不限於強度、音樂功能、樂器、語音和標籤。

本發明的系統採用軟體以保持以小節、拍子和小節小份的形式作傳統的作曲上節奏性的分析。這允許使用者以傳統的方式參與小節和拍子編寫的分割和瞭解。這將維持作曲的直覺，以致構思的解構和重新編排變得音樂上是簡單直接的。該系統還整合脈衝資料，這充分利用了數位音頻的全部潛能，允許了將作曲上最小的小份被進一步分割為脈衝。該些脈衝的主要功能在於提供能應付用於在不同片段中的不同拍子記號之間剪接的不同拍子記號和系數所必須的最小精度。

因此，根據本發明，對於一完整音軌的元資料包含一組音頻片段的描述，還包含對如何可將其過渡往任何另一片段或從任何另一片段過渡往該片段的解釋。因此，每個音頻片段包括廣泛的元資料，其在提供有與外界事件的特徵描述關聯的使用者簡報的情況下允許創建一系列的切片順序。可選地，該元資料可包含對原音軌的參照，以允許正確的音軌從例如Spotify等在線音樂庫中被尋出。這允許該元資料被獨立於原音軌地被儲存，並允許該片段匯編智慧52把元資料和音軌兩者皆串流或下載。

因此該元資料框架允許根據某些使用者界定的類別將音樂標籤。例如，這些類別可包括；例如音樂流派、氣氛、風格和速度，並可被用於創建可被搜索的聲音資料庫。在實效上，該系統導致不僅可以歌名和演出者搜索音樂，還可以聲音、流派和音樂風格搜尋音樂。因此第10圖的資料庫配置允許搜索個別片段的元標籤，而不只是處理元資料的全域性方案。例如，較佳地，該元標籤系統可滿足這樣般的簡報要求：“我想要一音軌，它是輕快、歡樂活潑的，它還要在某地方包括喇叭獨奏、在某另一地方包括線床式樂器演奏的鬆弛片段。”固有的系統不能提供這樣內容豐富和彈性的搜索。

較佳地，元資料的系統法不單允許資料被歸屬於整個音軌，還促成對指定片段的高精度註解，從而對某首樂曲的重要特徵提供描述性資料。每首樂曲皆具有一個或更多個(一般是多個)共同的所施加的音樂特徵描述，這因此允許AI機制根據與辨識的(從現實世界)進來的事件的同步要求編輯某數位音頻檔案。因此該音頻的情感元標籤是獨立於施加至每片段的主題的特徵描述。搜尋不同的情感氣氛將容許更換出不同的音頻片段以滿足同步的要求。因此一些重點特徵包括音樂擊點，以及關於以下方面的功能描述：

˙高潮：音樂達至一高峰的地方

˙靜態片段：音樂在所感知的情境強度和或實際音量強度方面皆無增無減

˙戲劇急停：音樂突然變成非常稀疏

˙減弱淡出：音樂強度緩慢地減弱

˙提升：音樂強度緩慢地增加

˙背景音樂：對白和演出之下的低量音頻

˙流派

˙樂器類別

一首樂曲的每個片段皆可在其形式功能方面被描述，即該片段如何於整首樂曲中運作，例如背景音樂、急停淡出和提升。因此，不管被施加至某片段的情感相關情境元標籤為何，如果正在進來的事件資料可以所描述的音樂形式功能的形式被描述，則任何一首樂曲皆可被選用，並皆會符合同步的要求，無論由使用者對某首樂曲的特徵描述引起的是什麼主觀地的情感的。這對於本發明的各實施方案中所描述的所施加的處理的功能性是重要的。

元標籤不需被限於音樂，並可應用於其它音頻來源(例如踢足球聲)，以致可插入已標籤至某被辨識的外界事件的某音頻片段以增強聲音場景。

第5圖是於音軌取樣內從某些音樂主題的退出點剪接至其它音樂主題的進入點的一較佳的剪接策略的時域示圖130。

於第5圖中有兩個時域頻譜：第一個的當前“播放中的”音頻分段132以及第二個的“目標”音頻分段134，其用於引入主題的改變，以及第二個片段，其將要作為新的具相關性的音頻輸出被切入(即代替)該第一個的當前分段。較佳的實施方案以接近無縫的方式達成這淡變/剪接。

兩個時域頻譜包括共同的特徵，例如起始136a-136f。

就拍子記號或時基150方面而言，這在示圖中是以垂直虛線表示，其將音頻包絡分隔成分段，該些分段可具有對應十六分音、四分音的時長或某另一選定的時間性。在第5圖中，某示例性的代表方式指定某拍子分成四小份3.1、3.2、3.3和3.4，其將每個包絡的相應部份分成四個同等的時間分區。這四小份實際上可能代表該音軌中的某音樂拍子、多個拍子或某其它週期。

參照第6a圖、第6b圖和第6c圖，就從第一個的當前播放中的音頻分段132退出至第二的目標音頻分段134而言，較佳的淡變/剪接過程首先辨識第一個的當前播放中的音頻分段中的相對起始起始_A以及第二個的目標音頻分段中的相對起始起始_D，然後將兩者對照，其中該評估是相對最接近的合適時基150而作出的。如兩起始起始_A和起始_D於時間上彼此接近地被播出，或某預期的起始於時間上被顯著地延遲，皆會引致音頻的流暢性和主題之間的過渡中發生可察覺的斷續。

因此，當要執行主題過渡時，較佳的實施方案查看(當前和目標分段中各自的)第一起始之間的取樣時間差異(s₁相對s₂的分別以及s₃相對s₄的分別)並選出各候選方案之中最早的方案。無論該起始於當前播放中的音軌還是目標音軌中發生，相對時基150時間上最早的起始的時間點皆是發生從當前播放中的片段交叉淡變-較佳地更是瞬間剪接180-至目標分段之時。對於交叉淡變，一般的交叉淡變可能需時上至約五毫秒。交叉淡變是比瞬間剪接較佳的，因為其避免因多半情況下出現的兩訊號的電平不匹配而可能產生的音頻“噗”聲。除非特定的語境要求更限制性的解讀，否則“剪接”這術語應被視為較快速發生的交叉淡出事件特例。

因此，在第6a圖中，從當前音頻片段132至目標片段134的剪接180是與當前音頻片段132中的起始開始上升的取樣同時(或，如設有緩衝，比該取樣早一點點)地被觸發。然後將目標音軌播放，其變成當前音軌，直至需要另一個主題變更為止。因此，在第6b圖中，從當前音頻片段132至目標片段134的剪接180是與目標音頻片段132中的起始開始上升的取樣同時(或，如設有緩衝，比該取樣早一點點)地被觸發。一般而言，取樣率和時基以一秒的小份運作，所以完全的剪接(而不是較慢的淡變)也是無關重要的及不怎樣可被察覺的。因此該過程允許一段音頻被無縫、無止境地從新建構。設有緩衝是較佳的，因為其允許預處理。

在第6c圖中，注明目標音頻134中的起始於時基150之前發生，而在當前播放的片段中，起始被檢測為在時基之後發生。因此在第6c圖中，剪接和交叉淡變的時間被定於目標片段134中檢測得的起始之時，並採用緩衝以確保其時間性被維持。

通過將元資料從原音軌分離並將該元資料儲存於具保安的資料庫中，較佳實施方案的系統可選擇將內容的實質內容保持隱形，從而對授權和版權問題作出保護。因此，該分離的過程可消除P2P(點對點)共用所需的大部份存取，這是因為該內容可以在每次有需要的時候被動態地產生。事實上，較佳的實施方案的系統除了可保護原本的內容之外，還可保護由使用者輸入和該同步過程所產生的新內容。

因此，本發明的系統和過程支援通過可即時操作的自動化過程作創造性編輯。如此地便可動態地編輯遊戲的配樂以跟隨遊戲的劇情：包括其高潮低潮、成功與失敗。由於遊戲的體驗永遠是多變的，這意味著(第2圖的)智慧框架52可操作以串流音樂，其中每首音樂皆對照各自的存取鏈而被驗證，從而杜絕沒持有有效的存取鏈的使用者盜用音樂。此外，使用音頻的元標籤和與現實世界事件的相關性允許使用者於例如個人的YouTube、Facebook和Vimeo視訊上採用其最喜好的音樂。

作為總結，本發明提供方法以編輯具音樂性編作特徵的數位音頻資訊，該方法允許即時性音樂同步。系統提供起始檢測，還在退出以及進入性音頻片段辨識弱拍事件，其促成可聽地無縫的過渡。這先進的系統採用DSP和特製的AI演算法以分析原始的音頻資料並執行編輯性的操作，其以往是必須專業知識和經訓練的音樂專業人士執行的。此外，這具適應性的系統在將音頻資料分段的同時，嘗試加入一組控制代碼，其可被簡單地調節以允許編輯性的變化。本發明發揮的作用包括將數位音頻資訊的在音樂上重要的參數轉化。雖然波形成為了數位編輯的標準代表方式和導航介面，但其忽略了以小節和拍子的形式作出的傳統作曲節奏性分析。這資訊對於音軌的重新編排和重新混音是必須的，並且是自動化同步的不可分割的一部份。此外，這系統還支援將額外的描述性元資料編碼在檔案格式中，該些元資料涉及某首給定的樂曲的質感(texture)、軌跡(trajectory)和強度(intensity)。現時並沒有現存的用於捕捉某首樂曲的敘述性功能的元資料格式，而這會提供有條理地這樣做的方法，並提供系統以將這高層次資訊轉換成低層次的可傳送的資料格式。

從對最終使用者的功能性的角度看，該軟體是被配置以允許最終使用者提供描述性資料，其將促成自動化地取回一組選定的音軌，其由片段匯編智慧52自動重新混音以配合需要配樂的情境。最終使用者可通過所描述的存取介面提供指導(該指導可以是基於使用者想創造的氣氛)甚至提議其期望音樂達成的故事敘述。該系統較佳是被配置以減輕資訊超載的現象，這是通過基於從使用者簡單的輸入決定只取回被估計為對於使用者相關的項目，簡單的輸入例如為對於某段影片資料的基本註解或關於音樂的擬定用途的信息。該系統是被配置以基於由分析員或註解員決定的全域指定規格和限定於音軌中的指定規格以選擇相關的音軌，所述指定規格例如為通過自然語言或Mashtraxx詞彙字詞輸入並與該外界事件關聯的。這樣的例子包括氣氛、音樂的總體步伐/速度、關鍵樂器(如心目中有選定任何的)以及流派。

除非個別的編排是互斥的，否則本文中說明的各個實施方案皆是可以被組合的，以在有效地傳送與感官相關的、同步的音頻方面強化系統功能性及/或產生互補的功能。有見前文的說明是如何地全面，技術熟練的讀者必能易於瞭解該些組合。同樣地，在較有限的功能性編排是合適的情況下，亦可將較佳實施方案的某些方面於獨立的編排中實施。實際上，應瞭解，除非在特定較佳實施方案中特定的特徵被明文指明是互相不相容的，或前後文意暗示它們為互斥的並不能簡單地以互補及/或互助的意味而被組合的，否則本公開的全文是考慮並設想該些互補的實施方案的特定特徵是可被選擇性地組合的，以提供一個或多個全面但稍為不同的技術方案。

本發明可以是以可下載的形式提供，或在其它電腦可讀的媒體(例如CD ROM)上提供，其包含程式代碼，當該些代碼被體現時，其於網路服務器或類似物上執行該鏈接嵌入功能性。大家當然會瞭解，以上說明只是以例子形式提供，而於本發明的範圍內是可作細節上的修改的。例如，較佳實施方案是以運動的環境以及作為意境而被說明的，但該科技亦適用於聲音的增強，例如與擊打網球關聯的被辨識的聲音設定檔。因此本發明的系統可被編排以通過在辨識網球被擊打的時間點將某音頻取樣更替入聲音混音中而將直播運動賽事的環境性體驗增強。

除了將音頻資料同步以增強被監測的事件之外，該辨識起始點的方法和系統(如特別是參照第9a圖至第9d圖而說明的)實際上還可有更多的、進一步的應用範圍。因此，該方法和系統還可被更全面地被應用於辨識任何音樂或音頻內容檔案中的起始，無論該音樂是否在情境主題方面被分類(無論是自動感知的或是通過使用者或專家評價的)。

雖然較佳的實施方案是討論如何將音頻適配至外界事件，但相反也是可以的，即外界事件可被音頻元資料觸發或塑造。例如，外界事件可以是於某電影中連續的場景之間發生的視訊過渡，或者是某電腦遊戲的關卡中的新階段(例如在遊戲中新的角色登場的時刻，或獲取新技能並將其首次向玩家展示的時刻等)。基於對(例如)強度、片段、小節、拍子和拍子的小份之其一或更多項(其在較佳實施方案之中被判斷)的瞭解，從各較佳實施方案得出的音頻元資料可被用以驅動所體驗的事件中所觀察得的時間性屬性的改變，例如是於現場演出的舞臺上燈光閃動或道具移動的時間性，或於電腦成像環境或錄像中事件的時間性。