TWI795816B

TWI795816B - 用於無延遲地近實時地演奏及錄製實況網際網路音樂之方法及系統

Info

Publication number: TWI795816B
Application number: TW110122928A
Authority: TW
Inventors: 阿爾比伽魯坦
Original assignee: 美商索尼互動娛樂有限責任公司
Priority date: 2020-06-25
Filing date: 2021-06-23
Publication date: 2023-03-11
Also published as: US20210409134A1; EP4172793A1; CN115867902B; CN115867902A; US11563504B2; JP2023525397A; TW202324376A; JP7456019B2; TW202207208A; WO2021262616A1; EP4172793A4

Abstract

示例性方法包括一處理器執行儲存於一記憶體中之指令，該等指令用於產生一電子預備拍；將該電子預備拍綁定至一第一演奏以產生一主時脈；及將一第一樂手之第一演奏及第一定時資訊傳輸至一網路快取、儲存、定時及混合模組。該第一樂手之第一演奏可以全解析度記錄於本地且傳輸至一全解析度媒體伺服器，且可將該第一定時資訊傳輸至該主時脈。將該第一樂手之第一演奏傳輸至一第二樂手之一聲音裝置，且該第二樂手產生一第二演奏，將該第二演奏及第二定時資訊傳輸至一網路快取、儲存、定時及混合模組。將該第一演奏及該第二演奏連同該第一定時資訊及該第二定時資訊一起混合以產生一第一混合音訊，該第一混合音訊可傳輸至一第三樂手之一聲音裝置。

Description

用於無延遲地近實時地演奏及錄製實況網際網路音樂之方法及系統

本揭示案係關於音樂演奏及錄製領域且係關於網路延遲及同步。

音樂通常係以同時演奏及異步演奏之某種組合來錄製。即，部分或全部樂手同時演奏音樂，且將其錄製為單場表演。最初，所有音樂皆被錄製，其中所有樂手一起演奏，作為單場表演。在1950年代，萊斯．保羅(Les Paul)首次發明了多軌錄音機，使得他可在預先錄音之音樂片段之上演奏第二音樂片段。此後，樂手開始在初始錄音中錄製一種或多種樂器，然後再添加其他樂器-此被稱為混音。

在過去之20年中，樂手一直希望他們可與不同地方之其他樂手一起進行現場演奏(同時)，儘管該願望已在某種程度上實現，但對於大多數音樂風格而言，網路延遲太大而無法產生有用之錄音。優秀之樂手會發現音符或鼓點「不合拍」，且精確性低至幾毫秒。即使以光速行駛，自洛杉磯到紐約亦要花費約13毫秒(往返為26毫秒)，因此該延遲太大而使樂手無法即時地一起演奏。

示例性實施例提供了用於無延遲地近實時地演奏及錄製實況網際網路音樂的系統及方法。

示例性方法包括一處理器執行儲存於一記憶體中之指令，該等指令用於產生一電子預備拍；將該電子預備拍綁定至一第一演奏以產生一主時脈；及將一第一樂手之第一演奏及第一定時資訊傳輸至一網路快取、儲存、定時及混合模組。該第一樂手之第一演奏可以全解析度記錄於本地且傳輸至一全解析度媒體伺服器，且可將該第一定時資訊傳輸至該主時脈。可替代地，可將該第一樂手之第一演奏的一較低解析度版本傳輸至一壓縮音訊媒體伺服器，且可將該第一定時資訊傳輸至該主時脈。

隨後，根據示例性實施例，將該第一樂手之第一演奏傳輸至一第二樂手之一聲音裝置，且該第二樂手產生一第二演奏，將該第二演奏及第二定時資訊傳輸至一網路快取、儲存、定時及混合模組。將該第一演奏及該第二演奏連同該第一定時資訊及該第二定時資訊一起混合以產生一第一混合音訊，該第一混合音訊可傳輸至一第三樂手之一聲音裝置。該第三樂手產生一第三演奏及第三定時資訊，該第三演奏及第三定時資訊與該第一混合音訊混合以產生一第二混合音訊。重複此過程，直至最後一位樂手演奏完且被錄製。

用於網路快取、儲存、定時及媒體混合之示例性系統包括：一網際網路頻寬測試模組，該網際網路頻寬測試模組經組態以對一網路執行ping命令且確定到一第一使用者裝置之一頻寬；一品質/延遲設定模組，該品質/延遲設定模組通信地耦接至該網際網路頻寬測試模組，該品質延遲設定模組經組態以基於該頻寬來確定媒體之一解析度；及一網路音訊混合器，該網路音訊混合器通信地耦接至該品質/延遲設定模組，該網路音訊混合器經組態以將該媒體依照該所確定之解析度傳輸至該第一使用者裝置。該系統包括：一全解析度媒體伺服器，該全解析度媒體伺服器經組態以自該第一使用者裝置接收該媒體及用於一主時脈之一時間同步碼；及/或一壓縮媒體伺服器，該壓縮媒體伺服器經組態以自該第一使用者裝置接收該媒體及用於一主時脈之一時間同步碼。

隨後，根據各種示例性實施例，該網際網路頻寬測試模組對該網路執行ping命令且確定到一第二使用者裝置之一頻寬以便確定將傳輸至該第二使用者裝置的該媒體之一解析度。在其他示例性實施例中，該媒體為組合了複數位樂手之演奏的單個混合音軌，該等演奏具有一系列解析度。在此種情況下，一全解析度媒體伺服器及一壓縮媒體伺服器將該媒體傳輸至該網路音訊混合器，該網路音訊混合器將該媒體傳輸至該第二使用者裝置。該系統自該第二使用者裝置接收一演奏且將其與該單個混合音軌混合。

用於管理網際網路頻寬、延遲、品質及媒體混合之示例性系統包括一處理器，該處理器執行儲存於一記憶體中之指令，該等指令用於控制：用於量測一段時間內之頻寬的一組件；用於改變不同壓縮級別之一組件；及用於使用一共同時間碼將各種解析度無縫地拼接在一起之一組件，其中品質隨時間改變。所有該等組件彼此通信地耦接且用匯流排連接至一單個化音器。

101；200；701:第一樂手

102:定時資訊

103:網路快取、儲存及定時模組

104；506:全解析度媒體伺服器

105；507:壓縮音訊媒體伺服器

106:主時脈

107；300:第二樂手

108:網路音訊混合器

109:第三樂手

110:最後一位樂手

111:聽衆

201:麥克風

202:時脈

203:全保真度

205:傳輸堆叠

206:網路快取、儲存、定時及混合組件

207:共同(主)時脈

208；209；703:解析度

210:網路音訊混合器

213:相機

214:視訊

301；807:網路快取、儲存、定時及混合服務

302:傳輸堆叠

303:定時資訊

304:無損音訊

305:壓縮音訊

306:混合模組

307:第二樂手監視器

308:麥克風

312:傳輸堆叠協定

408:回放同步及頻寬最佳化模組

500:樂手N

501:NNCSTM模組

502:網際網路頻寬測試模組

503:品質/延遲設定模組

504:網路音訊混合器

505:主時脈

508:下一位樂手

602~604:化音器

605:全頻寬

606~609:壓縮級別

610~616；704；904:樂手

801:鼓

802:打擊樂器

803:貝斯

804:鋼琴

805；806:吉他

901:時脈

902:小節數目

903:鼓手

905:鼓手

906:打擊樂手

907:貝斯手

908:鍵盤手

909:吉他手

911；912；913:灰色區域

1001~1006:演員

1007:時間

在考慮了以下對本發明之一些具體實施例的詳細描述後，尤其在結合附圖來閱讀時，本發明之以上及其他目標、特徵及優點將變得顯而易見，在附圖中，各圖中的相似之元件符號用於表示相似之組件，且其中：圖1為展示樂手、網路服務及聼眾的架構概要圖。

圖2A提供第一樂手、網路堆叠及傳輸堆叠之更多細節。

圖2B展示了時間如何與音樂樣本相關。

圖2C展示了此可與視訊及音訊一起使用。

圖3展示了與第二(及其他)樂手有關之網路堆叠及傳輸堆叠。

圖4展示了如何藉由網路堆叠及傳輸堆叠將鏈中之樂手連接起來且如何最佳化播放同步及頻寬。

圖5展示了在音樂自一位樂手傳到下一位樂手時網路快取、儲存、定時及混合模組如何一起工作。

圖6展示了網際網路頻寬、延遲、品質及混合如何一起工作。

圖7展示了可如何製作不同解析度之個人演奏。

圖8展示了示例性即興樂隊場景。

圖9展示了即興樂隊場景之示例性定時情形。

圖10展示了示例性戲劇播客場景。

相關申請案之交叉引用

本申請案請求在2020年6月25日申請之題為「Methods and Systems for Performing and Recording Live Internet Music Near Live with no Latency」的美國非臨時專利申請案第16/912,578號之優先權，此依次關於在2020年6月25日與本案同時申請之題為「Methods and Systems for Performing and Recording Live Internet Music Near Live with no Latency」的美國非臨時專利申請案第16/912,569號，以上各案藉此以全文引用之方式併入。

全文所標示之元件為示例性的，且可包括其各種替代物、等效物或衍生物。可利用硬體、軟體及電腦可執行指令之各種組合。程式模組及引擎可包括在由處理器執行時執行特定任務的常式、程式、目標程式、組件及資料結構，該處理器可為通用的或應用特定的。儲存於電腦可讀儲存媒體中之電腦可執行指令及相關聯之資料結構表示用於執行方法步驟及/或實施本文中揭示之特定系統組態的程式設計構件之示例。

本揭示案描述了一種用於允許樂手就之前樂手之聲音即時地一起連續地演奏的機制。假如有多位樂手一起演奏一首歌曲，第一人開始且雖然音樂可能延遲了數毫秒才到達第二人，但第二人演奏他們所聽到之音樂，因此對於他們而言，該兩個演奏完美合拍。現在，第三人聽到前兩個人之該演奏(彼此合拍)，該演奏亦被第二人聽到，且雖然他們聽到該演奏之時間可能晚於實際上演奏之時間，但他們將與他們聽到之演奏合拍地進行演奏，且對於他們而言，所有三個樂器將完美合拍。此可不受限制地繼續進行。

為了實現此目標，需要一類連續錄製。然而，由於音訊係在網路上傳送的，因此可能會易於發生品質降級。亦即，一旦為一位樂手開始播放音樂，則無法暫停或減慢該音樂，但可降低位元速率(品質)以實現準確定時。在此建議，將每一演奏以全解析度記錄於雲端中(例如，在網路伺服器上)且在必要時亦進行壓縮。亦可能需要將每一演奏緩存於本地以保持保真度，使得在最終演奏到達雲端時，其將為全解析度的。如此，即便樂手在演奏時聽到之品質稍有下降，亦無需犧牲其至雲端之記錄及傳輸的品質，因此最終結果將具有全保真度且在最後回訪全部演奏時能完美地合拍。

如圖1中可見，整個系統由各樂手(及其設備及軟體及唱片)及網路快取、儲存、定時及混合組件組成。場景如下：第一樂手(101)首先說出或產生電子預備拍(通常是說1、2、3、4)。在各種示例性實施例中，存在一信號--數位資料或音訊資料，該信號表示該片段之開始以及使其他樂手知道何時開始的提示。在某些情況下，可能存在節拍音軌(節拍器)，第一位(及可能之後的)樂手跟著該節拍音軌來進行演奏。在其他情況下，其可為聲音報數或樂器拾音器。可替代地，可存在視覺提示，諸如將由指揮給出的視覺提示。在任何情況下，此第一標記(同樣，不必為下拍)絕對會與第一演奏綁定，一起變為主時脈，該主時脈將用於使所有本地時脈及演奏保持同步。使用NTP或網路時間協定將為最容易的，但NTP通常僅精確到100毫秒以內。必須將所有參與者之演奏綁定至一共同時脈，該共同時脈精確到小於1毫秒。將第一樂手(101)之演奏及定時資訊(102)發送至網路快取、儲存、定時及混合模組(103)。

每位樂手之演奏均以全解析度記錄於本地。此演奏最終傳送至全解析度媒體伺服器(104)。此能夠即時地發送，但可能不會即時地發送。在無最佳頻寬之情況下，此可在之後發送。

若無足夠之頻寬來無延遲地發送全解析度音訊，則可將第一樂手之演奏的較低解析度版本發送至壓縮音訊媒體伺服器(105)。此較低解析度版本將足以使樂手跟上而聽到他們之前的且給他們播放的片段。此較低解析度版本應具有儘可能高之品質，且在理想之網路條件下，應與全品質版本幾乎沒有區別。然而，取決於頻寬條件，有可能之後必須要發送全解析度音訊。

同時且作為相同媒體檔案之部分(全解析度與壓縮)，將定時資訊發送至主時脈(106)。音訊通常係以44.1、48或96千赫來記錄，因此，根據定義，存在遠比此處所要求之1毫秒更精確的時脈。使用與音訊錄製相關聯之時間戳來設定時脈且使時脈同步。

當第二樂手(107)取決於網路頻寬而聽到來自全解析度媒體伺服器(104)或壓縮音訊媒體伺服器(105)的音樂時，第二樂手(107)將添加其演奏。現在將第二樂手之演奏發送至網路快取、儲存及定時模組(103)，音訊及定時資訊儲存於該模組中。同時，前兩位樂手之音訊藉由網路音訊混合器(108)組合(或混合)，且連同定時資訊一起發送至第三樂手(109)，第三樂手之演奏被發送回網路快取、儲存及定時模組(103)，新音訊及定時資訊連同其他演奏一起儲存於該模組中且隨後發送給其他樂手，直至最後一位樂手(110)演奏完且被記錄。

網路音訊混合器(108)不僅組合了各個樂手之演奏以讓彼此聽到，且亦組合了所有樂手之累積演奏以讓聽衆(111)聽到。如將在下面更詳細地描述，網路音訊混合器(108)不僅組合了不同音軌(或演奏)，且以提高最大保真度之方式來將其組合。因此，例如，假如一位樂手之演奏歸因於頻寬限制而具有較低解析度，但隨著其頻寬提高，其品質亦將提高。另外，全解析度版本將最終進入全解析度媒體伺服器(104)，且只要該解析度到達伺服器，則之後聽到其之人將聽到該全解析度。從長遠來看，此意謂著，若之後(例如，實況演奏之後兩個小時)回放音樂，則其將處於全解析度。在某些情況下，頻寬增加之一些樂手的解析度可使其片段之解析度隨著其演奏展開而增加。

圖2A提供了音訊及定時資訊之記錄及初始傳輸的細節。在該過程中彼等系統及之後的樂手應能準確地辨別出可靠之同步起始點。例如，假設一位樂手在倒計時(例如1、2、3、4)。在記錄詞語「一」時，其具有特定且可識別之波形，該波形出現在特定時間--基於音訊波形樣本。根據定義，數位波形係以某個頻率(例如44.1kHz、48kHz、96kHz等)取樣，且位置始終與時間相關聯。圖2B展示了演奏音調A4之大提琴的樣本。基本頻率為440赫茲，約為2¼毫秒(波形中之擾動為諧波及其他雜訊，例如來自運弓之雜訊)。一旦找到了錄音中之共同點，則可容易地計算該點到該片段中之任何點的毫秒數。

相同之定時資訊可應用於視訊。例如，若第一樂手為指揮，則樂手仍可及時跟上(即便不是同時)。實際上，他們可能需要共同之節奏，像節拍音軌或鼓循環，但理論上，沒有什麽能阻止他們全部跟隨同一位指揮或其他視覺提示(像為電影配樂)。參看圖2C，該圖類似於圖2A之左邊，但麥克風(201)被相機(213)替代，且視訊(214)之錄製已被添加至所錄製之元件，該等元件藉由取樣時脈(202)與本地錄製(203、204)同步。

返回圖2A，第一樂手(200)在麥克風(201)上發出聲音，如此用一些音訊(如上文所闡釋，或視訊)來啟動時脈(202)。聲音以全保真度(203)記錄且準備好進行傳輸。自錄製設備被開啟且連接至網路時起，對網路進行輪詢以測試頻寬。若頻寬足夠，則將全保真度(無損)版本(203)連同定時資訊一起傳輸(205)。然而，若頻寬不夠，則第一樂手錄製環境中之軟體模組可將音訊壓縮為較小之檔案大小。例如，認為音訊編解碼器AAC能夠自48kHz錄音產生每秒128千位元(kbps) 之合理保真度。未壓縮檔案將以1536kbps來進行流式傳輸，即便使用無損壓縮，仍將為約800kbps。[注意：任何給定解析度之多個檔案在一起播放時將導致解析度比樂器被記錄為單個記錄時之解析度高的檔案。例如，16個通道之16位元48k音訊在混合在一起時將具有比2個通道之16位元48k音訊高的解析度。]在本揭示案中稍後將進一步論述平衡延遲、頻寬及品質。

關於傳輸格式，時脈始終綁定至每一錄音之每一版本(無損及壓縮)。當查看傳輸堆叠(205)時，其應被視為兩個獨立串流，各具有相同之對應時間/同步碼。如此，在音樂到達網路快取、儲存、定時及混合組件(伺服器/服務)(206)時，若服務必須在解析度(208、209)之間進行切換，則可使用共同(主)時脈(207)來保持為絕對同步。當其他樂手之演奏被組合時，此將藉由網路音訊混合器(210)完成。

圖3展示第二樂手(300)之添加。音訊及可能還有視訊來自網路快取、儲存、定時及混合服務(301)，其中儲存來自第一樂手之媒體且使用傳輸堆叠(302)協定來經由網際網路傳輸，該等傳輸堆叠協定包括綁定至定時資訊(303)之無損音訊(304)，且受頻寬限制，壓縮音訊(305)亦綁定至定時資訊(303)。可在該整個過程中包括視訊，且音訊視覺領域中之技術人員可基於本揭示案中之資料使用視訊來容易地建構。若頻寬足夠，則不需要壓縮音訊。當音訊到達時，其將先去到混合模組(306)，該混合模組將對第二樂手監視器(307)(像頭戴式耳機)進行饋送。當第二樂手演奏或唱歌時，音訊將藉由直接注入(對於電子樂器或聲電拾音器，諸如壓電或磁性拾音器)或藉由麥克風(308)進入混合模組中，在混合模組中，音訊與來自第一樂手之音訊組合(混合)，且第二樂手在他們一起演奏時能聽到該兩個片段。

無損地記錄(310)第二樂手，且使用與原始錄製相同之時脈同步(309)來對第二樂手標上時間戳。使用相同之傳輸堆叠協定(312)將來自第二樂手之音訊發送回網路快取、儲存、定時及混合服務(NCSTMS)(301)，其中時間碼與自原始錄製接收到之時間碼相同。由於NCSTMS已具有第一樂手之音訊及相同之同步時間碼，因此不必將第一樂手之音訊發送回NCSTMS。請注意，在NCSTMS處有網路音訊混合器，該網路音訊混合器將不同樂手之演奏混合在一起。該混合器與各個樂手之位置處的混合器分離。

圖4展示了回放同步及頻寬最佳化(408)。如上所述，同步係基於在所有解析度之音訊(及視訊)間共用的共同時間碼。有時可能需要在品質與延遲之間進行權衡。假設一位樂手(樂手N)以800kbps(無損壓縮)按全解析度來傳輸，且下一位樂手(樂手N+1)將具有較少頻寬。例如，若基於已測試了網路之通過量，為了讓樂手N以800kbps進行流式傳輸，她/他將必須快取足夠之音樂，使得延遲為15秒。然而，若樂手N以128kbps接收及發送音訊，則延遲將僅為75毫秒。回放同步及頻寬最佳化模組(408)可選擇解析度且因此選擇將音訊發送至樂手N+1所需要的頻寬。

要更詳細地瞭解此情況，參看圖5及圖6。

圖5展示了樂手N(500)。為了知道樂手N(500)與NNCSTM模組(501)之間的可能可用頻寬，使用網際網路頻寬測試模組(502)。比較標準之做法為對網路執行「ping」命令且找出兩個點之間的頻寬，且此能力可為本領域之技術人員獲得。基於可用頻寬，品質/延遲設定模組(503)將決定(如圖6中更詳細地展示)網路音訊混合器將向樂手N發送何種解析度之媒體。取決於頻寬，樂手N將向全解析度媒體伺服器(506)或壓縮媒體伺服器(507)發送其媒體及同步時間碼，該同步時間碼去往主時脈(505)。應注意，「伺服器」表示自家庭電腦上之硬驅動器至廣泛地分散於網際網路上之伺服器陣列的任何伺服器組態。同樣，「壓縮媒體伺服器」可包括多個解析度之視訊及或音訊且亦可為分散式的。為了將媒體發送至樂手N+1(508)，亦即，鏈中之下一位樂手，必須藉由網際網路頻寬測試模組(502)再次測試頻寬。如此確定了媒體將以何種解析度發送至樂手N+1。請注意，發送至樂手N+1之媒體并非之前已演奏之樂手的所有個人錄音，而是，組合了其全部演奏之單個混合音軌。例如，假設樂手N+1為鏈中之第5位樂手，且之前樂手之演奏品質具有以下頻寬限制：樂手1，800kbps(全無損)；樂手2，450kbps；樂手3，800kbps；樂手4，325kbps；及樂手5，800kbps。該媒體將來自全解析度媒體伺服器(506)及壓縮媒體伺服器(507)之組合，在該等伺服器處，該媒體將饋送至網路音訊混合器(504)。該組合「混音」將發送至樂手N+1。請注意，在該組合混音中，來自樂手1及3之片段將具有比來自樂手2及4之片段高的解析度。亦請注意，僅發送回NCSTM模組之媒體將為樂手5之新演奏，因為其他演奏已被快取。因此，到樂手5之連接中的任何頻寬限制將僅影響樂手5之片段的品質，且儘管如此，其將僅影響鏈中之樂手--而非能(取決於他們何時收聽)接收所有樂手之全保真度的最終聽衆。

圖6展示了該系統之頻寬、品質、延遲及混合組件。頻寬對音樂品質之影響在兩個方向上發生。上載頻寬影響个人演奏之初始傳輸的品質(該演奏的之後傳輸仍為全解析度)。下載頻寬影響樂手在一起演奏時聽到之品質。

上載樂手之操作環境將自己能夠量測頻寬，使得可能例如在某些時刻存在全頻寬(605)，或取決於頻寬，可能存在不同壓縮級別(606、607、608、609)。系統將使用共同時間碼將各種解析度無縫地拼接在一起，其中僅品質(而非定時)隨時間改變。所有這些將實際上用匯流排連接至用於混音中之此樂手級別的單個化音器(可能係人在操作化音器，或可能係演算法來進行混合)。對於鏈中之第二樂手(610、611、612、613)等一直到第N位樂手(614、615、616)，此情況均成立。此等級別組合於該混音中，且正是該混音以特定頻寬發出至鏈中之下一位樂手(508)。請注意，自NCSTM至任何單個樂手之傳輸頻寬通常(如現今通常做的)以適當頻寬發送以確保無延遲。此與來自每位樂手之上載頻寬無關。例如，若一位樂手具有特別低之頻寬，則該樂手可能會接收較低品質之串流。然而，其在其本地環境中仍以全保真度來錄製，且對於低延遲之收聽者，該等樂手之演奏品質將為其上載頻寬之反映。當然，如前所述，一旦其全解析度演奏已上載，則隨後之收聽者將以全解析度聽到該演奏(當然，要受到該收聽者之頻寬的限制)。

為了闡明對不同解析度之討論，參看圖7可能有幫助。該圖展示了可如何記錄及儲存不同解析度之音訊。請注意，來自第一樂手(701)之不同解析度隨著時間過去(702)顯示為多個波形。隨後之樂手將聽到來自第一樂手之演奏，該演奏具有可變解析度但呈現為單個演奏。第二樂手與接下來之樂手(704)一樣亦可以多種解析度(703)來記錄。如上所述，將由混音工程師使用化音器(602、603、604)將此等不同之演奏混合在一起，使得該等演奏可被接下來之樂手或聽衆成員聽到。再次請注意，一旦音訊之較高解析度部分已上載至網路快取、儲存、定時及混合組件，則其可在隨後之混音中(例如，在演奏結束之後)使用來提高品質。

作為一個用例，讓我們看一下如圖8中所示之即興樂隊場景。假設有6位樂手在演奏：鼓(801)、打擊樂器(802)、貝斯(803)、鋼琴(804)及兩把吉他(805及806)。他們與聽衆(808)一樣全都連接至NCSTM(807)。假設讓鼓手先開始，且在兩個小節之後，打擊樂手及貝斯手加入。其他樂手可立即加入，或在一定數目之小節之後加入。每位樂手僅能依序聽到他們之前的樂手，但您可藉由佈局來改變次序。

參見圖9，時脈(901)上之實際時間無停頓地向前移動，但實際之小節數目(902)與樂手同時移動。鼓手(903)之小節1為開始，但接下來之每位樂手(904)之小節1要落後一點--每一小節比之前的小節多一點。鼓手(905)先開始，後面跟著打擊樂手(906)、貝斯手(907)及鍵盤手(908)。假設一位吉他手(909)正好在鍵盤手之後但在第二位吉他手之前開始，但她/他希望在獨奏時將能夠聽到另一把吉他。在該上下文中當我們說「在......之前開始」，我們係指「網路次序」，不要與音樂次序混淆。她/他(或有預定提示之混音工程師)可按下重設或「改變位置」，且他們將開始在新位置之時間聽到音訊。

在圖9中，灰色區域(911、912及913)表示有人正在離開。因此，假設總共有2秒之延遲，當吉他手按下開關，他們將聽到他們所處位置2秒之後的音樂，但同時所有樂手在演奏。因此，若想要離開一個或兩個小節，則可在聽到其他樂手時再次加入。若有交互式和弦圖，則可能更易於對此進行編排，該交互式和弦圖追蹤歌曲中之位置，但樂手可能很快就能識別出他們要保持安靜的位置。

現在，在此想象出之即興樂隊場景中，樂手可輪流離開且回來聼其他人演奏--即便鼓手或打擊樂手可能會離開且在幾個節拍之後但能聽到其他樂手時返回。您不一定要去到隊尾。也許歌手總是排在隊尾，且「退回」將僅將你帶到倒數第二，或你可退回僅一位或兩位。例如，鼓手與打擊樂手可交換位置。可能會有很多問答類型的演奏，但你在最後回放之前都不會聽到你的應答。

另一個用例為戲劇播客場景。在此種場景中，如圖10中所示，我們有多位演員在綫上產生近實況表演。此可為有脚本的，或可為自發的，像采訪或像真人秀。我們可做上面做的事，但我們有一些其他選擇可用。口頭語言并未像音樂那般對時間敏感，因此我們可能能夠有稍多時間來進行表演。此外，表演比并行更具連續性，且其保真度要求更靈活。在即興樂隊情形中，當一位樂手離開幾個小節時，她/他可排在隊列後面。此外，可壓縮中場表演之時間。讓我們想像一下有6位演員(1001、1002、1003、1004、1005及1005)之戲劇。出於興趣考慮，讓我們假設演員5及6(1005及1006)位於同一位置。追蹤時間(1007)，我們從演員1(1001)開始，演員1要說上略少於一分鐘的話。演員2(1002)正在聽，對於他們而言，為即時的。現在，演員1計劃在稍小於一分鐘之後重新加入。為了進行討論，讓我們假設演員1與2之間的延遲為100毫秒。一旦演員1完成，她/他便可跳出隊列。然而，有兩個約束條件：1)演員1不想錯過演員2必須要說的任何話，及2)演員1想要至少聽到儘可能未更改的演員2之部分的最後部分，使得其定時及音調起伏將儘可能地自然。因此，解決方案如下：當演員1跳出隊列時，他們落後於演員2 100毫秒--亦即，演員2已說了100毫秒。因此，當演員1回到隊列中時，必須要補上該100毫秒。該做法為在不改變音調之情況下加快播放錄音的常用技術。因此，當演員1回到隊列中時，她/他將聽到自錄音回放但速度加快的演員2。若其加快了10%(幾乎察覺不到，音調亦未改變)且總延遲為100毫秒，則演員1將在演員1之真實時間以真實速度聽到演員2。此操作可無限期地繼續，其中在必要時，多位演員可加入且跟上。與音樂錄製場景一樣，最終產品(在附帶有聲音效果之口頭語言的情況中)將可能僅落後於即時實況幾分鐘。

在不偏離本發明之實質教示的情況下，可進行修改。可利用各種替代系統來實施本文中描述之各種方法，且可使用各種方法來達成前述系統之某些結果。

101:第一樂手

102:定時資訊

103:網路快取、儲存及定時模組

104:全解析度媒體伺服器

105:壓縮音訊媒體伺服器

106:主時脈

107:第二樂手

108:網路音訊混合器

109:第三樂手

110:最後一位樂手

111:聽衆

Claims

一種用於無延遲地近實時地演奏及錄製實況網際網路音樂之方法，該方法藉由一處理器執行，該處理器執行儲存於一記憶體中之指令，該等指令包括：產生一電子預備拍(count-in)；將該電子預備拍綁定至一第一演奏以產生一主時脈；藉由一網路快取、儲存、定時及混合模組接收一第一樂手之第一演奏及第一定時資訊；將該第一樂手之第一演奏傳輸至一第二樂手之一聲音裝置且該第二樂手產生一第二演奏；藉由該網路快取、儲存、定時及混合模組接收該第二演奏及第二定時資訊；藉由一網路音訊混合器將來自該第一演奏及該第二演奏之音訊連同該第一定時資訊及該第二定時資訊一起混合以產生一第一混合音訊；將該第一混合音訊傳輸至一第三樂手之一聲音裝置且該第三樂手產生一第三演奏；藉由該網路快取、儲存、定時及混合模組接收該第三演奏及第三定時資訊；及藉由該網路音訊混合器將來自該第三演奏之音訊連同該第三定時資訊一起與該第一混合音訊混合以產生一第二混合音訊。
如請求項1之方法，其進一步包括將該第一樂手之第一演奏以全解析度記錄於本地且在一全解析度媒體伺服器上接收該第一演奏；及在該主時脈上接收該第一定時資訊。
如請求項1之方法，其進一步包括藉由一壓縮音訊媒體伺服器接收該第一樂手之第一演奏的一或多個較低解析度版本；及藉由該主時脈接收該第一定時資訊。
如請求項1之方法，其進一步包括一網路音訊混合器將各個樂手之演奏組合以進行傳輸而讓彼此聽到，且將所有各個樂手之累積演奏組合以進行傳輸而讓一聽衆聽到。
如請求項1之方法，其進一步包括一網路音訊混合器隨著頻寬增加而增大音訊解析度。
如請求項1之方法，其進一步包括該電子預備拍具有一特定且可識別之波形，該波形基於音訊波形樣本而在一特定時間出現以便被該網路快取、儲存、定時及混合模組接收。
如請求項1之方法，其中該電子預備拍為一視訊。
如請求項1之方法，其中該電子預備拍為音訊及視訊。
如請求項1之方法，其進一步包括：啟動錄製設備；輪詢一網路以測試頻寬；若該頻寬足夠，則藉由該網路快取、儲存、定時及混合模組接收帶有該定時資訊的全保真度(fidelity)之數位資料；若該頻寬不夠，則藉由該網路快取、儲存、定時及混合模組接收具有一較小檔案大小的壓縮音訊。
如請求項1之方法，其進一步包括該第一定時資訊包括用於每一記錄之無損及壓縮版本的定時資訊以便被該網路快取、儲存、定時及混合模組接收。
如請求項10之方法，其進一步包括在對一記錄進行流式傳輸(streaming)的同時，在該兩個版本之間進行切換時保持同步，以便被該網路快取、儲存、定時及混合模組接收。