TWI511489B - 語意音軌混合器 - Google Patents

語意音軌混合器 Download PDF

Info

Publication number
TWI511489B
TWI511489B TW101101946A TW101101946A TWI511489B TW I511489 B TWI511489 B TW I511489B TW 101101946 A TW101101946 A TW 101101946A TW 101101946 A TW101101946 A TW 101101946A TW I511489 B TWI511489 B TW I511489B
Authority
TW
Taiwan
Prior art keywords
track
semantic
tracks
command
audio
Prior art date
Application number
TW101101946A
Other languages
English (en)
Other versions
TW201238279A (en
Inventor
Christian Uhle
Juergen Herre
Harald Popp
Falko Ridderbusch
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of TW201238279A publication Critical patent/TW201238279A/zh
Application granted granted Critical
Publication of TWI511489B publication Critical patent/TWI511489B/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/02Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information
    • H04H60/04Studio equipment; Interconnection of studios
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

語意音軌混合器
本發明之領域係關於用於根據使用者指定混合多軌信號之混音器。本發明之領域係關於音訊信號處理,特定言之係關於根據使用者定義標準之集合,混合多軌錄音之任務。本發明之領域進一步係關於用於將複數個音軌混合成混合信號之方法。本發明之領域亦係關於用於指示電腦執行混合複數個音軌之方法之電腦程式。
多媒體內容不斷增長的可用性產生使用者欣賞音樂且與音樂互動之新的方式。此等可能性伴隨著開發用於在此等活動中輔助使用者之工具的挑戰。
從資訊擷取之視角看,十多年前已接受此挑戰,從而產生音樂資訊擷取及眾多商業應用之活躍的研究領域。
未解決到此程度之一不同態樣為與可以多軌格式獲得的內容之互動。多軌格式可由每一聲音物件(sound obiect;SO)或物件(符幹)之群組之分離的及時間對準信號(亦稱為單音軌(single tracks;ST))組成。根據一個定義,符幹為混合物之個別組分,該等個別組分出於再混合使用之目的而單獨保存(通常保存至碟片或磁帶)。
在音樂產生之傳統程序中,多個單音軌以複雜的方式組合成混合信號(mixture signal;MS),隨後將該MS傳遞至最終使用者。數位音訊技術之持續進化,例如,基於參數物件的音訊之新的音訊格式的開發在更大程度上實現與 音樂之互動。使用者存取多軌錄音且可主動地控制混合程序。一些藝術家開始釋放該等藝術家之歌曲中的一些歌曲之符幹,為了使聽眾可以任何所要方式自由地再混合及再使用音樂。
可以眾多方式使用以多軌格式發佈的音樂或音訊作品。使用者可控制不同軌之混合參數,因此強調選定的軌而衰減其他軌。例如出於伴唱機或同步演奏之目的,一或更多軌可為無聲的。諸如回音、混響、失真、合唱等之音效可應用於選定軌而不影響其他軌。可自多軌格式摘錄一或更多軌,且該所摘錄之一或更多軌可用於另一音樂作品或另一形式之音訊作品中,諸如,音訊書籍、演講、播客等。在以下描述中,本文所揭示之教示之應用以示例性方式論述經錄音的音樂作品之主控。然而,應理解,本文所揭示的教示意欲同等地解決且覆蓋涉及混合複數個單音軌之任何經錄音聲音之處理。
自動混合已為且仍為若干研究計劃之焦點。在2009年,Perez-Gonzalez等人描述多軌信號之自動等化之方法(E.Perez-Gonzalez及J.Reiss,「Automatic Equalization of Multi-Channel Audio Using Cross-Adaptive Methods」,Proc.of the AES 127th Conv.,2009年出版)。作者提供用於自動設定多軌信號之每一信號之衰減的方法。決定增益,以使得每一信號之響度等於所有信號之平均響度。相同作者的另一文章闡明「Automatic Gain and Fader Control for Live Mixing」且出版於2009年的Proc.of WASPAA中。
語意高保真度(HiFi)為歐洲計劃IST-507913之名稱(H.Vinet等人,「Semantic HiFi Final Report」,IST-507913之最終報告,2006年出版)。該報告主要關於多媒體內容之擷取、瀏覽及共享。此報告包含資料庫中的瀏覽及導覽、播放表產生、軌內導覽(使用如詩與合唱識別之結構分析)及元資料共享。該報告亦解決互動/創作/編輯:產生混合,該等混合包括同步(該同步為「序連」音訊信號,而非混合多軌信號)、語音變換、節奏變換、語音控制樂器及音效。
另一計劃在「結構音訊」或MPEG4之名稱之下已知。結構音訊實現以低位元率且在知覺上基於使用信號之符號及語意描述的聲音資料之調處及存取,來傳輸音訊信號(cf.B.L.Vercoe及W.G.Gardner及E.D.Scheirer,「Structured Audio:Creation,Transmission,and Rendering of Parametric Sound Representations」,Proc.of IEEE,第86卷,第922-940頁,1998年出版)。該計劃之特徵為描述了用於混合多個串流及添加音訊效果之參數聲音後產生。參數描述決定如何合成聲音。結構音訊係關於合成音訊信號。
多軌錄音之混合通常為常由專家、混合工程師執行的創作任務。如互動的音訊格式之多媒體中的當前發展產生應用,在該等應用中多軌錄音需要由非專家指導以自動方式或以半自動方式混合。期望自動導出的混合信號具有可與由人類專家產生的混合信號相當的主觀聲音質量。
本文所揭示之教示闡明此總體目標。教示係關於音訊 信號處理,特定言之係關於出於收聽之(最終)目的,根據使用者定義的錄音標準之集合,混合多軌之任務。根據本文所揭示之教示的混音器及用於將複數個音軌混合成混合信號之方法建立非專家之實質上美學設想與所得混合信號之間的聯繫。
此等目標中之至少一個目標及/或可能的其他目標借助於如申請專利範圍第1項之混音器、如申請專利範圍第14項之用於混合複數個音軌之方法及如申請專利範圍第15項之電腦程式來獲得。
根據本文所揭示之教示,一種用於將複數個音軌混合成混合信號之混音器包含語意命令解譯器、音軌處理器及音軌組合器。語意命令解譯器經配置用於接收語意混合命令及用於自該語意混合命令導出針對該等複數個音軌之複數個混合參數。音軌處理器經配置用於根據該等複數個混合參數處理該等複數個音軌。音軌組合器經配置用於將由音軌處理器處理的複數個音軌組合成混合信號。
根據所揭示教示,用於將複數個音軌混合成混合信號之方法包含以下步驟:接收語意混合命令;自該語意混合命令導出針對該等複數個音軌之複數個混合參數;根據該等複數個混合參數處理該等複數個音軌;以及組合由該等複數個音軌之處理產生的該等複數個音軌,以形成混合信號。
電腦程式包含或表示用於使電腦或處理器能執行混合複數個音軌之方法的指令。電腦程式可在電腦可讀取媒體 上實施,該電腦可讀取媒體上儲存有當在電腦上執行時用於執行申請專利範圍第14項中敍述的方法之該電腦程式。
語意混合命令可基於使用者定義標準,該等使用者定義標準提供所要的所得混合信號之語意描述。根據本文所揭示之教示,語意音訊分析、心理聲學及音訊信號處理可彼此結合,以基於語意描述自動導出混合信號。此程序可稱為「語意混合」。
語意混合可視為方法,該方法使電腦能根據使用者給定的指定混合多軌錄音。通常以語意描述之形式給定指定。在給定此語意描述的情況下,可藉由考慮一或更多單音軌之特性及人類聽覺,來決定混合參數。
根據本文所揭示之教示的混音器因此通常包含電腦或處理器,或該混音器與電腦/處理器互動。音軌處理器及音軌組合器可組合為單一單元。
自語意混合命令導出該等複數個混合參數可涉及以下步驟:分析語意混合命令或該語意混合命令之部分之意義。語意混合命令部分可為語意表達,諸如,用語或用語之群組。一或更多語意表達可隨後翻譯成該等複數個音軌之特定混合參數之集合。因此,語意混合命令借助於對應於語意混合命令之意義的特定混合參數來實施。翻譯語意混合命令及/或該語意混合命令的構成語意表達之動作可包含以下步驟:例如,評估翻譯函數或查詢查找表。翻譯函數之參數或查找表中之資料記錄通常經預定義且表示(例如)有經驗的混合工程師之專業知識之集合。例如,可藉 由記錄由藝術家或音樂生產者給予該藝術家或音樂生產者的混合工程師之口頭指令以及由該混合工程師執行的設定,來隨時間收集專門知識。因此,翻譯函數及/或查找表可由專家混合工程師訓練。
根據本文所揭示之教示之態樣,語意命令解譯器可包含用於識別語意混合命令內語意表達之語彙資料庫。借助於語彙資料庫,語意命令解譯器可識別例如同義詞。進一步可能的是將語意混合命令中含有的用語或用語之群組映射至比值。舉例而言,可將用於識別樂器之用語(「吉他」)映射至特定通道號碼或識別符,該樂器已記錄在該特定通道號碼或識別符上。語彙資料庫可進一步包含識別音樂部分之某一部分的項,諸如,開始(例如,「導奏」)、合唱(「合唱」)或結束(例如,「尾聲」或「尾曲」)。語彙資料庫之又一可能的使用為用於辨識且分配語意表達的混合參數或風格,諸如,「大聲的」、「輕柔的」、「清楚的」「消音的」「遠距的」「接近的」等。
在本文所揭示之教示之實施例中,混音器可進一步包含用於識別該等複數個音軌之中目標音軌之音軌識別器。目標音軌可在語意混合命令內由音軌識別表達來指示。若該等複數個音軌未經清楚地標記或識別關於該等音軌含有哪個部分或符幹,則音軌識別器可能是有用的。舉例而言,可將音軌簡單地編號為「軌1」、「軌2」、…「軌N」。音軌識別器可隨後分析該等複數個音軌中之每一音軌,以決定似乎匹配由軌識別表達所識別的音軌之一個或者若干音軌或 無音軌匹配。
音軌識別器可組配來從音軌模板資料庫擷取對應於音軌識別表達之資料記錄,音軌識別器可組配來執行軌名稱、軌識別符、音色、節奏結構、頻率範圍、聲音樣本及該等複數個音軌之中至少一個音軌的和聲密度中之至少一者的分析,音軌識別器可組配來將分析之結果與資料記錄比較,從而產生至少一個匹配分數,且音軌識別器可組配來基於至少一個音軌與資料記錄之間的至少一個匹配分數,來決定目標音軌。由音軌識別器執行的任務為識別該等複數個音軌之中的目標音軌。目標音軌對應於音軌識別表達,亦即,若音軌識別表達為「吉他」,則在由音軌識別器成功識別之後,目標音軌應通常含有音樂作品之吉他部分。音軌模板資料庫可包含對應於樂器「吉他」的資料記錄,該資料記錄本身包含吉他之特性之值及/或資訊。舉例而言,資料記錄可包含典型的吉他聲音之頻率模型及/或典型的吉他聲音之上升-衰減模型。資料記錄亦可含有吉他之聲音樣本,吉他之該聲音樣本可用於音軌識別器的類似分析。
根據本文所揭示之教示之態樣,混音器可進一步包含用於識別該等複數個音軌內目標時間區段之時間區段識別器,該目標時間區段在語意混合命令內由時間區段識別表達來指示。若使用者希望以不同於音訊信號(例如,音樂作品)之第二區段的方式混合該相同音訊信號之第一區段,則混音器通常需要知道音訊信號之各個區段開始及結束於何 處,以將特定混合參數應用於音訊信號之此等區段。
時間區段識別器可組配來將該等複數個音軌構造成複數個時間區段。尤其音樂作品通常具有受音樂慣例影響之某一結構,例如,具有該歌曲形式之交替的詩及合唱區段之歌曲形式。藉由首先決定由該等複數個音軌表示的音訊信號是否接在某一音樂結構之後且隨後將音訊信號之時間區段分配至音樂結構之時間區段,此知識可由時間區段識別器來利用。為此,時間區段識別器可包含辨識音訊信號內重複及/或相似模式的模式辨識器。例如,模式辨識可基於旋律分析、和聲分析及節奏分析等。
時間區段識別器可組配來執行該等複數個音軌之分析,以決定至少一個時刻,在該至少一個時刻,由該等複數個音軌表示的音訊信號之特徵性質發生改變,且將該至少一個決定的時刻用作兩個鄰近時間區段之間的至少一個邊界。
混音器可進一步包含用於接收關於該等複數個音軌的元資料之元資料介面,該元資料指示軌名稱、軌識別符、時間結構資訊、強度資訊、音軌或該音軌之部分之空間屬性、音色特性及節奏特性中之至少一者。元資料可由該等複數個音軌之生產者產生,且元資料提供對混音器或用於混合該等複數個音軌之方法有用的資訊。元資料之可用性使混音器或方法不必執行音訊信號廣泛分析,以識別各個音軌及/或時間區段。元資料介面亦可用於儲存分析結果(樂器、時間結構、…)供將來再次使用。因此,該等複數個音 軌之可能的冗長分析僅需要執行一次。此外,亦可儲存對於自動決定的分析結果的任何手動修正,以使得使用者不必再三修正相同問題。使用者在具有所儲存分析結果後,可使用相同元資料產生與相同複數個音軌不同的混合版本。
根據本文所揭示之教示之態樣,混音器可進一步包含用於以語言學格式接收語意混合命令之命令介面。該語言學格式允許使用者實質上借助於普通語言表達該使用者關於混音器執行的混合結果之期望。可將呈語言學格式的語意混合命令作為使用麥克風之口語或使用(例如)鍵盤之書面語輸入至混音器。
根據本文所揭示之教示之另一態樣,混音器可進一步包含用於接收示例性混合信號之示例性介面,及用於分析該示例性混合信號且用於基於分析該示例性混合信號而產生語意混合命令之混合信號分析器。使用經由示例性介面提供的示例性混合信號,混合信號分析器可決定哪些特徵表徵示例性混合信號。舉例而言,混合信號分析器可辨識對於(強烈重複的)鼓聲部分及低音部分的強調,而較少強調旋律。此等偵測到的特徵暗示所謂的舞蹈混合(Dance-Mix),亦即,混合之某一風格。可將此資訊自混合信號分析器提供至語意命令解譯器。基於此資訊,例如,語意命令解譯器可增加鼓聲部分及低音部分相對於其他部分的音量。語意命令解譯器甚至可能以(例如)通常用於所要舞蹈混合風格的合成鼓聲部分來替代鼓聲部分。
示例性介面可進一步組配來接收複數個示例性音軌,自該等複數個示例性音軌獲取示例性混合信號。混合信號分析器可組配來將示例性音軌與示例性混合信號比較,以決定之前用以獲取所得示例性混合信號的混合參數。由混合信號分析器產生的語意混合命令可隨後包含在示例性音軌混合在一起形成示例性混合信號之前該等示例性音軌是如何修改的之描述。舉例而言,語意混合命令可包含表達,諸如,「鼓聲顯著較大;聲樂適度較輕柔、較遠,用高通濾波器過濾」。語意命令解譯器可隨後自此語意混合命令導出該等複數個混合參數。
根據本文所揭示之教示之另一態樣,語意命令解譯器可包含用於根據混合信號之聽覺相關的性質之知覺模型,將語意混合命令變換成複數個混合參數的知覺處理器。知覺模型通常實施心理聲學規則,該等心理聲學規則描述應如何選擇某些混合參數,以實現聽眾之所要效果。舉例而言,為傳達距離之印象,可涉及若干聲音處理動作,諸如,混響、頻率濾波及衰減。通常基於心理聲學發現的知覺模型促進決定用於實現所要效果之適合的混合參數。
根據本文所揭示之教示之另一態樣,語意命令解譯器包含模糊邏輯處理器,用於接收由語意命令解譯器自語意混合命令導出的至少一個模糊規則且用於基於該至少一個模糊規則而產生複數個混合參數。模糊邏輯處理器較佳地適合於處理呈至少一個模糊規則之形式的語意混合命令。該至少一個模糊規則在實質上語意域中將模糊邏輯處理器 之輸入量映射至模糊邏輯處理器之輸出量,亦即,自第一語意格式之量映射至第二語意格式之量。
模糊邏輯處理器可組配來接收由語意命令解譯器準備的至少兩個並行模糊規則,且其中混音器進一步包含隨機選擇器,用於在該至少兩個並行模糊規則之中選擇一個並行模糊規則。藉由使自兩個或兩個以上並行模糊規則選擇模糊規則隨機化,可產生藝術自由之錯覺,以使得由混音器產生的混合信號未傾向於發出就混合風格而言實質上類似的聲音,此狀況可能原本為當混音器接在關於模糊規則的更嚴格方案之後時的情況。
關於用於混合複數個音軌之方法,可查詢用於識別語意混合命令內語意表達之語彙資料庫。
該方法可進一步或替代性地包含以下步驟:識別該等複數個音軌之中的目標音軌,該目標音軌在語意混合命令內由音軌識別表達來指示。為此,可自音軌模板資料庫擷取對應於音軌識別表達之資料記錄。隨後,可執行軌名稱、軌識別符、音色、節奏結構、頻率範圍、聲音樣本及該等複數個音軌之中至少一個音軌的和聲密度中之至少一者的分析。可將分析之結果與資料記錄比較,從而產生至少一個匹配分數。隨後,可基於至少一個音軌與資料記錄之間的至少一個匹配分數,來決定目標音軌。
該方法亦可包含用於識別該等複數個音軌內目標時間區段之動作,該目標時間區段在語意混合命令內由時間區段識別表達來指示。用於識別目標時間區段之動作可組配 來將該等複數個音軌構造成複數個時間區段。時間區段識別可包含以下步驟:執行該等複數個音軌之分析,以決定至少一個時刻,在該至少一個時刻,由該等複數個音軌表示的音訊信號之特徵性質發生改變,且將該至少一個所決定的時刻用作兩個鄰近時間區段之間的至少一個邊界。
根據本文所揭示之教示之另一態樣,該方法可進一步包含以下步驟:在元資料介面處接收相對於該等複數個音軌之元資料。元資料可指示軌名稱、軌識別符、時間結構資訊、強度資訊、音軌或該音軌之部分之空間屬性、音色特性及節奏特性中之至少一者。
該方法可進一步包含以下步驟:在相應混音器之命令介面處接收語言學格式之語意混合命令。
根據本文所揭示之教示之另一態樣,該方法可進一步包含以下步驟:在示例性介面處接收示例性混合信號;借助於混合信號分析器分析該示例性混合信號;以及基於該示例性混合信號之分析,而產生語意混合命令。
自語意混合命令導出該等複數個混合參數之動作可包含以下步驟:根據混合信號之聽覺相關的性質之知覺模型,將語意混合命令變換成該等複數個混合參數。
根據本文所揭示之教示之態樣,導出該等複數個混合參數之動作可包含以下步驟:接收藉由語意命令解譯器自語意混合命令導出的至少一個模糊規則,且基於該至少一個模糊規則而產生該等複數個混合參數。可藉由模糊邏輯處理器來執行接收至少一個模糊規則及基於該至少一個模 糊規則而產生該等複數個混合參數。
該方法可進一步包含以下步驟:接收至少兩個並行模糊規則,且在該至少兩個並行模糊規則之中隨機選擇一個並行模糊規則。
本文所揭示之教示在以下諸點中不同於以上提及的先前技術:
-Perez-Gonzalez等人建議的方法不考慮語意描述來控制處理。
-語意高保真度計劃未解決多軌格式之處理。該語意高保真度計劃未解決根據語意描述混合信號。該語意高保真度計劃未解決計算混合信號所需要的知覺態樣,該混合信號實現語意描述。
-「結構化音訊」計劃係關於合成音訊信號。相比之下,本文所揭示之教示(語意混合)係關於混合音訊信號。
為簡要地概述本文所揭示之教示的核心態樣中的一些核心態樣,混合多軌錄音為創作任務。語意混合的目的在於開發用於混合藉由語意描述導引的多軌錄音之解決方案。語意混合將語意音訊分析、心理聲學及音訊信號處理之技術組合。語意混合適用於各種應用,如音樂產生、空間物件音訊編碼(Spatial Object Audio Coding;SAOC)、家庭視訊創作、虛擬現實及遊戲。
可用以下(部分為任選的)特徵簡短描述語意混合:
-語意混合為使用者互動提供手段。
-語意混合在較大程度上解決知覺組分。此舉亦可包括對環境的適應、播放系統及使用者偏好。
-語意混合組合語意部分及心理聲學部分。任何語意處理需要考慮知覺態樣。語意混合聚焦於音訊信號處理而非聚焦於語意分析之傳統應用(音樂資訊擷取、播放表產生)。語意混合的目的在於提供與內容互動之新的方式。
-語意混合係關於多軌錄音之處理。
本文所揭示之教示尤其關於一種用於根據使用者指定混合多軌信號之方法。本文所揭示之教示係關於音訊信號處理,特定言之係關於根據使用者定義標準之集合,混合多軌錄音之任務。使用者定義標準提供所得混合信號之語意描述。本文所揭示之教示可結合音訊分析、心理聲學及音訊信號處理,以基於語意描述自動導出混合信號。
圖式簡單說明
本文所揭示之教示之以上特徵及其他特徵將自以下描述顯而易見,參閱伴隨的示意性圖式僅以舉例之方式進行該描述,其中:第1圖圖示混音器之示意性方塊圖;第2圖圖示通常在流行音樂中採用的歌曲結構中音樂作品之示例性時間結構;第3圖圖示呈古典音樂中已知的奏鳴曲形式之音樂作品之另一示例性時間結構;第4圖圖示流行音樂錄音之示例性音軌佈局;第5圖圖示根據本文所揭示之教示的混音器之示意性 方塊圖;第6圖圖示模糊邏輯處理器之示意性方塊圖;第7圖圖示模糊集合之示例性隸屬函數;第8圖圖示包含模糊邏輯處理器的混音器之示意性方塊圖;第9圖圖示根據本文所揭示之教示的混音器之另一配置的示意性方塊圖;第10圖圖示根據本文所揭示之教示的態樣的語意混合命令及該語意混合命令之分解;第11圖圖示根據本文所揭示之教示的態樣的另一語意混合命令及該語意混合命令之分解;第12圖圖示根據本文所揭示之教示的混音器之另一配置之示意性方塊圖;第13圖圖示根據本文所揭示之教示,包含音軌識別器的混音器之配置之示意性方塊圖;第14圖圖示根據本文所揭示之教示,包含時間區段識別器的混音器之配置之示意性方塊圖;第15圖圖示根據本文所揭示之教示,包含元資料介面的混音器之配置之示意性方塊圖;第16圖圖示根據本文所揭示之教示,包含用於接收示例性混合信號之示例性介面的混音器之配置之示意性方塊圖;第17圖圖示根據本文所揭示之教示,包含知覺處理器及知覺模型的混音器之配置之示意性方塊圖;以及 第18圖圖示根據本文所揭示之教示,用於將複數個音軌混合成混合信號之方法的示意流程圖。
第1圖圖示混音器之示意性方塊圖。混音器允許組合複數個單音軌ST,以使得形成混合信號MS。為了控制單音軌ST之組合,通常將每一單音軌饋送至個別信號處理器。一個單音軌之個別信號處理器可包含(例如)等化器EQ、平移控制PAN、混響器REVERB、音量控制VOL及可能進一步的音效。混音器之中心作用為調整該等複數個單音軌ST中之每一單音軌ST的音量,以使得混合信號為由該等複數個單音軌ST提供的音訊信號之較佳平衡的疊加。通常由混合工程師作出決策:音效及單音軌ST之音量的哪種特定設定構成較佳平衡的疊加。複數個個別信號處理器修改複數個音軌信號。經修改的音軌信號隨後在信號組合器Σ中組合,以產生混合信號MS。
第2圖圖示屬於流行音樂類型的典型歌曲之時間結構。用作第2圖內實例的歌曲以導奏(INTRO)開始,繼之以詩區段(VERSE 1)、合唱(CHORUS)、具有實質上相同音樂但不同歌詞的第二詩(VERSE 2)區段、合唱之重複、過渡(BRIDGE)、合唱之另一重複及尾聲或尾曲(OUTRO)。儘管存在此基本方案之眾多變化,但對於大多數人而言區分流行音樂歌曲之各個區段通常是有可能的。舉例而言,通常在整個歌曲中具有實質上相同歌詞及旋律的各個位置處重複合唱,以使得該合唱可輕易地由聽眾辨識。
第3圖圖示以奏鳴曲形式組合的音樂作品之時間結構。奏鳴曲形式已由眾多古典音樂之作曲家使用。如名稱暗示的,奏鳴曲形式廣泛用於奏鳴曲中,通常用於該等奏鳴曲之第一樂章中。許多交響樂之第一樂章亦通常呈奏鳴曲形式。奏鳴曲形式之特性區段為呈示部、發展部及再現部,在該再現部中基本上相同的音樂材料呈現有各種修改,尤其相對於和絃進行有各種修改。任選地,導奏及尾聲可分別存在於音樂作品之開始及結束處。儘管區分奏鳴曲形式之各個時間區段可能需要一些經驗,但此舉對於人類聽眾而言一般是可能的。
混合工程師可能想要以不同方式處理音樂作品之不同時間區段。原因可能為實現某一藝術效果之期望,或藉由補償可能發生在該等複數個音軌之錄音期間的潛在缺陷來使混合信號MS聲音更均勻的期望。關於音樂作品或一般錄音之時間結構的知識(例如音訊書籍、演講等)可輔助混合工程師找到錄音中各個時間區段之起始點及終點。
第4圖圖示流行音樂類型中歌曲之錄音之示例性音軌佈局。單音軌ST存在於以下樂器中:主奏吉他、節奏吉他、聲樂部分、鋼琴及低音。使用鼓組之各個部分之若干單音軌對鼓組錄音:強音鈸、打點鈸、高帽鈸、高音鼓、小軍鼓及低音鼓。使用鼓組之不同部分之若干音軌ST允許混合工程師比當僅將單音軌用於整個鼓組時更佳地平衡鼓聲部分。
使用所具有的該複數個單音軌,必要時可由表演藝術 家及/或混合工程師主控音樂作品。特定言之,藉由改變用於該複數個音軌ST之混合參數,可明顯改變音樂作品之特性或「語氣」。為混合之消費者提供複數個音軌給該消費者提供較大的自由度。然而,特定言之由於混合參數之間複雜的互連及互動,所以許多使用者缺乏適當地選擇混合參數之經驗。為了實現似乎影響單音軌之某一效果,可能有必要調整若干乃至所有音軌之混合參數。
第5圖圖示根據本文所揭示之教示,具有第一可能配置的混音器之示意性方塊圖。
通常,使用者(或聽眾)具有混合信號應如何發出聲音之某一想法,但使用者(或聽眾)不知道應如何調整混合參數來實現此想法。
根據本文所揭示之教示的混音器建立以簡明形式描述使用者的想法或期望之語意表達與將複數個單音軌ST混合成混合信號MS所需要的實際混合參數之間的聯繫。
導引混合程序的語意描述之簡單但說明性的實例為以下:「在吉他獨奏期間,顯著地混合該吉他且略微地移動鍵盤至背景中 」。
為完成此舉,通常需要解決下文列出的各個子任務中之至少一些子任務:
-需要使用適當的使用者介面擷取由使用者給定的語意描述。
-需要將使用者輸入翻譯成機器可讀取形式。
-需要執行音樂音訊信號之語意分析(例如,識別吉他軌及鍵盤軌,找到吉他獨奏之開始及結束)。
-需要藉由考慮人類聽覺機制來決定物理混合參數(例如,決定增益,以使得混合中吉他之知覺的響度比任何其他樂器更大,但不能太大聲;對於鍵盤,決定增益、延遲及發送軌至所要距離知覺之混響效果的增益)。
-使用經計算的物理混合參數導出混合。參數包含單音軌ST及輸出通道之每一組合之增益因子及時間延遲。此外,物理混合參數控制數位音訊效果處理器(DAFx),例如,人工混響及動態範圍處理。
語意描述可(例如)指定
-混合信號MS中每一聲音物件SO之知覺位置及響度
-每一軌之DAFx之參數
-混合信號MS之特性(例如,混響之量、動態範圍)。
在圖示根據本文所揭示之教示的混音器之可能配置的第5圖之示意性方塊圖中,以上提及的子任務藉由混音器之模組來完成。混音器包含使用者介面(UI)20、命令解譯器(command interpreter;CI)30、語意音訊分析(semantic audio analysis;SAA)40、目標描述符分配單元(descriptor assignment unit;DAU)50、知覺處理器60及信號處理器70。
使用者介面20提供用於自混音器之使用者擷取輸入之設施。如為使用者介面20之部分的複數個子模組所示,存在使用者輸入之實施之不同選擇。實例為:-預設之集合(子模組22)中之一個預設之選擇; -一組n維控制器(子模組21),將該等n維控制器分配至單音軌及所得混合信號MS之不同特性;-自然語言輸入(子模組24);-混合信號MS之實例或與相應混合信號MS一起的多軌之實例的輸入(子模組23)。隨後將分析給定的實例,以導出混合信號MS之語意描述。藉由此種使用者輸入控制的混音器之操作模式將在後續描述中稱為「藉由實例混合」。
命令解譯器30連接至使用者介面20,且命令解譯器30將輸入(該輸入為人類可讀取的或藉由實例給定)翻譯成機器可讀取命令。此等命令通常具有限制性的語彙及已知的文法,該已知的文法藉由語彙文法子模組31提供及/或控制。
在表1中針對不同使用者介面設計給出命令解譯器30之實施實例。
除使用者輸入之外,混音器亦接收包含單音軌ST的資料10作為輸入。若資料10對應於音樂作品之音軌,則資料10可包含音樂容器11及任選的元資料容器12。可經由適合的介面(未圖示於第5圖中)向混音器提供資料10。
將資料10饋送至語意音訊分析(SAA)40。語意音訊分析40通常為自動程序,該自動程序計算音軌ST中之每一音軌ST之元資料之集合。此外,可計算描述多軌(亦即,該複數個音軌)之元資料(例如,音樂類型)。元資料為表徵音訊信號之語意描述符。
語意音訊分析40可包含:
-樂器識別
-結構分析(詩、合唱及每一信號之其他部分之標示)
-演奏風格(獨奏、伴奏、旋律的、和聲及節奏一致性)之識別
-節奏分析(例如,用於拍子同步音效之拍子追蹤)
-旋律及和聲分析
-音色之特性(例如,亮度、粗度、銳度)
-單音軌ST之中相似性(相對於音色、演奏風格、形式)之特性
-音樂類型
此等元資料可用以經由混合參數將適當的信號處理分配至單音軌ST中之每一單音軌ST。
每次執行語意混合之程序時,可執行語意音訊分析。任選地,可執行一次語意音訊分析(在產生/創作期間),且所得元資料可與多媒體項目一起儲存且傳輸。
任選地,語意音訊分析40可藉由使用者輸入導引,亦即,若使用者不滿意語意音訊分析之自動導出的結果中之一或更多結果,則該使用者可輔助語意音訊分析40或該使 用者可輸入元資料。可藉由語意音訊分析儲存此等修正的使用者輸入,以供在未來分析期間考慮,以使得語意音訊分析40可適應於使用者的偏好,亦即,借助於使用者輸入隨時間訓練語意音訊分析40。
語意音訊分析40可包含用於基於複數個音軌ST中含有的音訊信號,計算元資料之第一子模組41。另外或替代地,語意音訊分析40可包含用於讀取與該複數個音軌ST一起提供的元資料之第二子模組42。
將命令解譯器30連接至語意音訊分析40的為目標描述符分配單元(DAU)50。在給定來自命令解譯器30的命令以及自語意音訊分析40獲取的元資料的情況下,目標描述符分配單元50選擇音訊信號之部分(該部份決定對應於聲音物件之音軌及起始時間及停止時間,存在該等聲音物件之命令)且將適當的知覺目標描述符(perceptual target descriptors;PTD)分配至該部份。
知覺目標描述符可描述:
-聲音物件之知覺強度(響度)
-聲音物件之空間屬性(側角、高度、距離、擴散度、寬度)
-聲音物件之音色特性(例如,亮度、銳度、粗度)
-關於數位音訊效果(DAFx)之特性
若使用語言學變數給定命令,則目標描述符分配單元50可將模糊邏輯用於將語言學變數轉換成明確值。
提供知覺目標描述符的目標描述符分配單元50之輸出連接至知覺處理器(perceptual processor;PP)60之輸入。在 給定分配的知覺目標描述符的情況下,知覺處理器60計算用於混合及額外的信號處理(例如,DAFx)之物理參數(混合參數)。此舉通常為需要考慮心理聲學61及專門知識62的高要求任務。
使用以下實例說明此舉:針對特定音訊信號,例如,吉他音軌,將知覺水平之描述符設定成「高」。簡單的解決方案為將吉他增益增加固定量,例如,6 dB。由於響度之知覺以高度複雜的方式取決於經處理音訊信號及混合信號MS之頻譜及時間特性,故此簡單的解決方案可能並非在所有情況下具有所要效果。
可藉由設定所有水平,以使得例如藉由使用響度及部分響度之知覺模型來調整混合中由聽眾感知的吉他之響度,來獲取較佳的結果。部分響度為存在於聲音混合物中的信號之響度,其中所關注信號被部分遮蔽。
除響度之知覺之外,通常需要解決人類聽覺及聲音知覺之不同態樣。此等態樣為混響之量、聲音定位之知覺及空間屬性之知覺。
心理聲學部分對將語意描述(例如,「使此聲音略微更大聲」)翻譯成物理參數(例如,「升高4.5 dB」)較為重要。
知覺處理器60經由該知覺處理器60之輸出中之一個輸出連接至信號處理器(signal processor;SP)70之輸入。信號處理器70可包含處理物理混合參數之模組71、一或更多數位音訊效果之模組72及格式化之模組73。信號處理器70使用用於混合及信號處理之物理參數,計算混合信號MS。
在會議論文「Automatic Music Production System Employing Probabilistic Expert Systems」(Audio Engineering Society,在第129次會議提供,2010年11月4日-7日)中,作者R.Gang等人建議採用機率性的圖形模型嵌入專業的音訊工程知識且基於自音訊檔案擷取的音樂資訊來推斷自動化生產決策。可自人類音訊工程師之操作資料學習或自領域知識人工建構表示為機率性圖形模型的生產模式。知覺處理器60及/或語意命令解譯器30可實施此會議論文中建議的技術特徵。上文會議論文之全部內容以引用之方式併入本文。
混合多軌錄音包含以下步驟:
-每一單音軌之水平及平移位置之調整(處理物理混合參數71之模組)
-等化(針對單音軌ST及混合信號MS)
-動態範圍處理(Dynamic Range Processing;DRP)(針對單音軌ST及混合信號MS)
-人工混響
-應用音效(DAFx 72)
此等操作中之每一操作由知覺處理器60計算的物理參數來控制。
任選地需要格式化73來注意實體限制(例如,應用自動增益控制)及格式轉換(音訊編碼/解碼)。
以下部分詳述處理區塊中之每一處理區塊之示例性實施。
使用者介面20可實施為預設之集合。每一預設表示具有一組特性的「混合類型」。此等特性可以「混合規則」之形式給定為語意表達,且在以下命令解譯器30之描述之上下文中描述此等特性。
例如,混合類型可為「舞蹈混合」、「環境混合」、「搖滾吉他混合」等。
此等名稱以高度簡潔的方式給出目標混合信號MS之描述,然而使用者可解譯該等名稱(或該等名稱之子集)。使用者解譯預設之名稱的能力係基於慣例及廣泛使用的風格分類。舉例而言,使用者可使特定演奏風格及/或聲音與某一藝術家之名稱相關聯。
在命令解譯器30之上下文內,使用查找表將混合規則之集合分配至預設中之每一預設。以如此處所示的模糊邏輯(J.M.Mendel,「Fuzzy Logic Systems for Engineering:A Tutorial」,Proc.of IEEE,第83卷,第345-377頁,1995年出版)中之IF-THEN敍述之形式將混合規則描繪為邏輯暗示,其中聲音物件描述符<SOD>為前件,且混合操作描述符<MOD>為後續: IF<SOD>THEN<MOD>
該IF-THEN敍述指定
-聲音物件SO如何出現在表達為混合操作描述符(mixing operation descriptors;MOD)的混合信號MS中。根據藉由聲音物件描述符(sound object descriptors;SOD)給定的聲音物件之特性選擇MOD。
-與特定混合操作描述符MOD無關的混合信號MS之特性,且該IF-THEN敍述指定混合信號MS之操作之參數。
聲音物件描述符SOD可表示為(資料)結構,例如:
混合操作描述符MOD描述水平(亦即,音量)、平移位置、距離及聲音物件SO之可在混合信號MS中感知到的其他特性。應用於聲音物件SO之混合操作描述符MOD可藉由在資料結構內之SO.MOD來指定。混合操作描述符MOD亦可應用於混合信號MS。此等混合操作描述符MOD由MT.MOD來指定。通常,此等混合操作描述符MOD控制應用於所有音訊信號或應用於混合信號之信號處理,該信號處理例如,混響或動態範圍處理DRP。
混合操作描述符MOD可由知覺屬性及分配至該知覺屬性的值組成。混合操作描述符可實施為語言學變數。
知覺屬性之列表可含有以下(除其他之外):
知覺屬性可為語言學變數。經分配的值可為以下值中之一個值:{「非常低」、「低」、「中等」、「高」、「非常高」}。
將未由混合操作描述符MOD設定的知覺屬性設定成預設值。
隨後混合規則可能看起來像以下:IF<SO.INSTR=value>AND<SO.C1=value>...AND<SO.Cn=value>
THEN<SO.MOD1=value>AND<SO.MOD2=value>...AND<SO.MODn=value>
應注意,使用連接詞(亦即,「AND」)足夠,且可將分離(亦即,「OR」)表達為單獨的規則。
示例性規則集合:針對舞蹈混合 之實例給出所具有的使用情況之混合規則之集合:針對樂器級別指定此等混合規則:
1. IF<SO.INSTR=”kick drum”>
THEN<SO.PLOUDLEVEL=”high”>AND<SO.LATERALDISPLACEMENT=”zero”>
AND<SO.DISTANCE=”near”>
2. IF<SO.INSTR=”bass”>
THEN<SO.PLOUDLEVEL=”high”>AND<SO.LATERALDISPLACEMENT=”zero”>
AND<SO.DISTANCE=”near”>
3. IF<SO.INSTR=”percussion”>AND<SO.ENTROPY =”high”>
THEN<SO.PLOUDLEVEL=”high”>AND<SO.FXLEVEL=”high”>
4. IF<SO.INSTR=”percussion”>AND<SO.ENTROPY=”low”>
THEN<SO.PLOUDLEVEL=”low”>
針對與樂器級別無關的特性指定以下混合規則:
5. IF<SO.INSTR=” ”>AND<SO.ENTROPY=”low”>
THEN<SO.LATERALDISPLACEMENT=”far left”>
6. IF<SO.INSTR=” ”>AND<SO.CREST=”low”>
THEN<SO.PLOUDLEVEL=”low”>
任選地,可針對混合信號MS指定混合規則。該等混合 規則與聲音物件SO之特性沒有關聯。若在混合規則之IF部 分中未指定任何聲音物件,則將所得操作應用於所有聲音 物件SO。
7. IF
THEN<MS.REVERBLEVEL=”low”>
8. IF
THEN<MS.FX1LEVEL=”high”>
此外,在規則之IF部分中,亦可將屬性與相對值而非絕對值進行比較。此舉意謂例如使用如「最大化」或「最小化」之操作,可將一個聲音物件SO之屬性與所有其他聲音物件SO之相同屬性比較。
9. IF<SO.INSTR=” ”>AND<SO.ENTROPY =”maximum”>
THEN<SO.FX2LEVEL=”high”>
應注意,以上列出的屬性及規則為實例且並不意欲為特定混合預設之完整集合。
根據本文所揭示之教示之態樣,可執行規則集合之變化。特定言之,可實施規則集合,以含有並行規則(具有相同前件但不同後續之規則),任意地(隨機化的)選擇該等並行規則中之一個並行規則。此舉將變化引入至結果中且藉此增加使用者滿意度。此舉在產生規則集合之產生程序中無一致的規則集合可獲得一致同意的情形下亦有益。
現轉向語意音訊分析40之示例性實施,回憶起應用語意音訊分析40來收集關於複數個音軌ST及可能的多軌之資訊,該資訊可用於決定將哪些混合參數應用於該複數個音軌ST中之哪個音軌ST。語意音訊分析單獨處理該複數個音軌中之每一音軌ST,且語意音訊分析額外處理多軌MT之表示。多軌MT之表示可(例如)以來源於將所有音軌ST與單位增益向下混合獲得的混合信號之形式獲取。
可將結果表示為結構之陣列(其中每一陣列元素含有一個音軌ST之元資料)及含有多軌之元資料的額外結構。結構元素之變數類型可為字串(例如,針對樂器名稱)、標量值(例如,針對拍子、一致性)或陣列(例如,針對演奏風格之描述之起始時間及停止時間)或結構元素本身之專用結構(例如,描述樂曲形式之結構)。
分析結果可伴隨有置信測度,該置信測度表示各別結 果之可靠程度。
藉由語意音訊分析40產生的結果之表示之實例:
ST(1).ID=”TR909”
ST(1).INSTRUMENT=”kick drum”
ST(1).INSTRUMENT_CONFIDENCE=0.93
ST(1).ENTROPY=0.12
ST(2).ID=”lead guitar”
ST(2).INSTRUMENT=”guitar”
ST(2).INSTRUMENT_CONFIDENCE=0.68
ST(2).SOLO=[[123.4 234.5][567.7 789.0]]
ST(3).ID=”background vocals”
ST(3).INSTRUMENT=”human singing”
ST(3).INSTRUMENT_CONFIDENCE=0.8
ST(3).BRIGHTNESS=0.12
MT.TEMPO=”126”
MT.GENRE=”electro”
MT.FORM=<form structure>
語意音訊分析40可用於藉由將唯一的識別符分配至音軌ST且分配至音樂作品之各個時間區段,來標準化所提供的多軌音訊材料。特定言之,多軌音訊材料通常不是接在 某一慣例之後的預定義格式。換言之,混音器無法依賴特定音軌(例如,「軌1」)始終含有某一樂器(例如,「吉他」)。然而,由語意音訊分析產生的元資料可提供關於多軌信號之組織及內容的實質上標準化資訊,多軌信號之該組織及該內容輔助混音器之其他模組完成該等其他模組的各別任務。由語意音訊分析執行的標準化是有用的,因為該標準化允許由命令解譯器30提供的混合命令與多軌音訊信號所遇到的情形有關。因此,命令解譯器30與語意音訊分析40「講相同的語言」。
目標描述符分配單元DAU 60處理由語意音訊分析40提供的元資料及來自命令解譯器30之混合規則,以將混合操作描述符分配至複數個音軌ST或分配至音軌ST之區段。此等描述符敍述在目標混合信號MS中如何感知在音軌ST之各別區段中佔主導的每一聲音物件SO。
假定在每一音軌ST中,每次僅一個聲音物件佔主導。在此假定的情況下,將自語意音訊分析40導出的屬性(對每一音軌ST計算該等屬性)處理為聲音物件SO之屬性。或者,若音軌ST含有多個聲音物件,尤其若若干聲音物件SO在音軌ST內在時間上彼此後續,此狀況意謂若干聲音物件SO可相對容易地分離,則語意音訊分析可輸出每一音軌ST之多於一個的屬性結構。另一可能性為,第一聲音物件SO1主要存在於立體聲信號之左通道中,而第二聲音物件SO2主要存在於右通道中。又一可能性將為,若干聲音物件在頻率域中可借助於低通、高通及/或帶通濾波器分離。
若輸入變數為明確值,則可應用模糊邏輯,但使用模糊屬性(例如,「低」或「高」)來制定規則集合。舉例而言,可將演奏樂器之變化程度表達為介於0與1之間的範圍內的標量值。此外,語意音訊分析40可輸出與置信值(例如,機率)一起的元資料,該等置信值描述計算經估計的元資料的置信度。
模糊邏輯允許通常結合專門知識來模型化複雜任務。模糊邏輯利用模糊集合,該等模糊集合提供用於將精確值來回轉換成模糊描述之直接機制。
實施為模糊邏輯系統時的處理之綜述圖示於第6圖的方塊圖中(Mendel,1995年)。模糊邏輯系統包含模糊化模組622、推斷模組624、規則集合626及去模糊化模組628。模糊化模組622(例如)自語意音訊分析40接收明確輸入之集合。模糊化622基於明確輸入產生模糊輸入集合,該模糊輸入集合被饋送至推斷模組624。推斷模組624借助於被同等地饋送至該推斷模組624之規則集合626評估模糊輸入集合。規則集合626可由命令解譯器30提供。推斷模組624產生模糊輸出集合且將該模糊輸出集合饋送至去模糊化模組628。在去模糊化模組628中,將模糊輸出集合翻譯成明確輸出,該等明確輸出可隨後用作為混合參數或作為中間量。
現更詳細地轉向模糊化,基於由命令解譯器30決定的規則集合之IF部分中描述的標準,執行將混合操作描述符MOD分配至單音軌ST。若語意音訊分析40將各別元資料形式給定為實數或與置信值一起給定為字串(例如,作為樂器 分類之結果),則使用模糊化將該等實數翻譯成語言學變數。模糊集合為元素具有隸屬度的集合。此隸屬度可為區間[0,1]中的任何實數(與經典的集合論相反,在經典的集合論中,隸屬度為0或者1)。
使用第7圖中示例性地所示之模糊集合之隸屬函數執行模糊化。在模糊化中,針對每一實值的輸入變數,決定相應的模糊集合(I.A.Zadeh,「Fuzzy Sets」,Information and Control,第8卷,第338-353頁,1965年出版)及隸屬度。舉例而言,給定0.25之亮度值,相應的模糊集合「非常低」,隸屬為0.5;及「低」,隸屬為0.5。
在推斷步驟或模組624中,使用規則之集合626將輸入變數之模糊集合映射至輸出變量之模糊集合。結果再次為知覺屬性之語言學變數之集合(與相應的置信隸屬度一起)。
在以下步驟或去模糊化模組628中,使用輸出變量之相應模糊集合將推斷之結果轉換成該等輸出變量之明確值。亦即,知覺屬性之以上表中列出的變數具有帶明確值之相對應部分。
關於知覺處理器60,命令解譯器30之輸出及目標描述符分配單元50決定聲音物件SO中之每一聲音物件SO應如何出現於混合信號MS中。到目前為止,借助於知覺值給定此指定。
藉由考慮信號特性及人類聽覺機制,知覺處理器60將知覺值翻譯成物理混合參數。以下段落說明一些知覺值之處理,該等知覺值亦即,聲級、給定側角之平移係數、混 響級及時間延遲、DAFx參數、等化及動態範圍處理。
可使用知覺響度模型來計算聲音物件SO之聲級,該知覺響度模型例如,Glasberg在2002年描述的模型。
或者,Moore在1996年描述的響度模型可用以計算聲音信號之混合物內聲音信號之響度(B.C.J.Moore及B.R.Glasberg,「A Revision of Zwicker's Loudness Model」,Acustica-Acta Acustica,第82卷,第335-345頁,1996年出版)。
計算每一音軌ST之增益因子以使得音軌ST(或混合信號MS)中聲音物件SO之知覺響度匹配藉由混合操作描述符MOD表達的語意描述。
給定側角之平移係數:聲音物件SO之側向位置之知覺藉由耳朵入口處的聽覺間級差(inter-aural level differences;ILD)及聽覺間時差(inter-aural time differences;ITD)來決定(Lord Rayleigh,「On our perception of Sound Direction」,Philosophical Magazine,第6卷,第214-232頁,1907年出版)。在知覺處理器60之上下文內,針對每一播放通道決定時間延遲及級差,以使得喚起側面化之知覺。
混響級及時間延遲:決定人工混響處理器之級別,以使得混響之知覺量匹配由使用者給定的語意描述。針對每一聲音物件單獨定義混響級及/或針對混合信號MS定義混響級。可針對每一聲音物件單獨調整混響級,以喚起特定聲音物件SO之距離知覺。藉由級別、時間延遲、等化曲線 及側向位置來額外控制距離知覺。
DAFx參數:設定數位音訊效果之參數取決於特定DAFx處理器。使用響度模型(例如,Moore,1996年)計算經DAFx處理的信號之級別。
等化:設定等化之參數,以使得經處理信號匹配相對於混合信號MS或聲音物件之「亮度」之知覺屬性。
動態範圍處理:將動態範圍處理DRP之參數設定成匹配動態範圍之知覺屬性。
第8圖圖示包含模糊處理器37的混音器之部分之示意性方塊圖。模糊處理器37之輸入連接至語意音訊分析40,且模糊處理器37之輸入係組配來經由此連接接收音軌分析值。音軌分析值可為明確值或者語言學變數。模糊處理器37亦具有用於自語意命令解譯器35接收規則或規則集合之輸入。如以上所闡釋的,模糊處理器37使用規則來處理音軌分析值,該等音軌分析值產生可向音軌處理器75提供的明確混合參數。
由語意命令解譯器35基於由使用者提供的語意混合命令產生規則。
知覺模型64向模糊邏輯處理器37提供模糊化及去模糊化參數。模糊化及去模糊化參數建立數值與相應語意描述之間的連接。舉例而言,模糊化及去模糊化參數可指定向聽眾呈現輕柔、中等或大聲的音訊信號之響度範圍。
此外,知覺模型64可指定當期望某一效果時,涉及哪些混合參數。此等混合參數之相應值亦可由知覺模型64指 定。可向語意命令解譯器35提供此等指定作為指導方針。語意命令解譯器35在產生模糊規則時可遵循此等指導方針。
混音器可包含任選的隨機模糊規則選擇器38,當兩個並行模糊規則已由語意命令解譯器35產生且僅一個並行模糊規則可由模糊邏輯處理器37實施時,使用該隨機模糊規則選擇器38。適度的隨機度可增加使用者滿意度,因為混合程序似乎更自然且更「人性化」。畢竟,人類混合工程師亦可能偶然動作略微隨機,此舉可能被混合工程師之用戶視為「具有藝術性」。
第9圖圖示根據本文所揭示之教示的混音器之可能的基本配置之示意性方塊圖。以複數個單音軌ST之形式提供資料10。混音器包含語意命令解譯器35、音軌處理器75及音軌組合器(AT CMB)76。
語意命令解譯器35大體上對應於第5圖之命令解譯器30。此外,語意命令解譯器35可包含目標描述符分配模組50及知覺處理器60之一些功能。語意命令解譯器35接收語意混合命令作為輸入且自語意混合命令導出一個混合參數或複數個混合參數。向音軌處理器75或更精確而言向音軌處理器75之個別音軌處理器ATP1、ATP2、ATP3、ATP N提供複數個混合參數。混合參數通常呈明確值之形式,該等明確值可較容易地由複數個個別音軌處理器ATP1至ATP N來實施。
該複數個個別音軌處理器ATP1至ATP N根據混合參數 修改由音軌ST1至ST N中之相應音軌提供的音訊信號。
經修改音訊信號由音軌組合器76組合,以獲取混合信號MS。
在第9圖中所示之配置中,語意命令解譯器35能夠將語意混合命令內的特定語意內容分配至相應的個別音軌處理器ATP1至ATP N之適當的混合參數。語意命令解譯器35之此能力可基於以下事實:根據達成一致的標準組織該複數個單音軌ST1至ST N,以使得該語意命令解譯器35可已知道哪個音軌對應於哪個樂器。在第11圖至第14圖中,在此描述之對應部分中圖示且描述混音器之替代性配置,此混音器能夠自資料本身獲得關於多軌錄音之組織及/或經錄音的音樂作品之時間結構的資訊。
第10圖圖示語意混合命令。語意混合命令包含呈英語句子之形式的語言表達。當然,亦可使用其他語言。該句子寫的是:During the guitar solo,mix the guitar prominently(在吉他獨奏期間,主導性地混合該吉他)」。此句子之語意分析揭示該句子可分解成三個部分。第一部分含有表達「在吉他獨奏期間」且可識別為指定語意混合命令之目標時間區段的表達。第二部分含有表達「該吉他」且可識別為指定目標音軌之表達。第三部分含有表達「主導性地混合[…]」且可識別為指定所要混合操作之表達。
第11圖圖示語意混合命令之延伸的實例。延伸的混合命令係基於來自第10圖之語意混合命令。此外,已添加第二目標音軌之第二混合操作,亦即「[...]move the keyboards slightly into the background([…]略微地移動鍵盤至背景中)」。連接用以指定第一混合操作/第一目標音軌與第二混合操作/第二目標音軌之間的關係。在所示情況下,連接為用語「及」,以使得第一混合操作及第二混合操作兩者皆在該第一混合操作及該第二混合操作之各別目標音軌上同時執行。
第12圖圖示根據另一可能配置的混音器之部分之示意性方塊圖。特定言之,第12圖圖示由複數個音訊信號ST1至ST N及由預設混合信號MT(「多音軌」)提供的資料可如何用以獲取關於音樂作品之音軌佈置及/或時間結構之有用資訊。除非另有說明,該複數個音軌之引用應包括預設混合信號MT之引用。
向語意音訊分析40提供複數個音軌ST1至MT。藉由分析該複數個音軌,可獲取向語意至明確轉換模組65提供的音軌資訊及時間結構資訊。
語意混合命令包含複數個表達,每一表達包含指定目標時間區段26、目標音軌27及混合操作28。
語意至明確轉換模組65近似對應於第5圖之目標描述符分配單元50。語意至明確轉換模組65亦自語意混合命令接收資訊作為輸入。語意至明確轉換模組65基於所提供的輸入產生一或更多知覺目標描述符PTD及相應的混合參數。若一或更多受影響音軌之僅時間區段受混合命令的影響,則知覺目標描述符PTD可含有受影響音軌ST1至ST N之音軌識別器以及時間區段資訊。注意到,混合參數可為 明確值或者將在隨後階段解析的語言學變數。
語意音訊分析40可任選地接收目標時間區段指定26及/或目標音軌指定27作為輸入,以使得該語意音訊分析40可分析複數個音軌ST1至MT,特別聚焦於所提供指定上。
第13圖圖示根據本文所揭示之教示的混音器之另一可能配置之示意性方塊圖。此配置以音軌識別器430為特徵結構。
第13圖中所示之配置之基本結構實質上與第9圖中相同;然而,為清晰起見,已省略一些部分。
因為並非始終立即清楚音軌ST1至ST N中哪個音軌含有哪個樂器或聲樂部分,所以音軌識別器430可用以決定此資訊。音軌識別器430可為語意音訊分析40之部分。
語意混合命令包含已相對於第12圖提及的目標音軌識別27。向音軌模板資料庫432提供目標音軌識別27。音軌模板資料庫432提供對應於目標音軌識別27的一或更多資料記錄,且音軌模板資料庫432向音軌識別器432提供該一或更多資料記錄。該資料記錄可包含呈量測值、聲音樣本等之形式的關於(例如)樂器之資訊。音軌識別器430可隨後將資料記錄中含有的資訊與該複數個音軌ST1至ST N中之每一音軌之音訊信號比較。為此,音軌識別器可(例如)執行來自資料記錄的聲音樣本與音軌信號之短區段的互相關。另一選擇將是決定音軌信號之泛音之位置及量值及比較該結果與資料記錄中的相應資料。又一選擇為分析及比較音軌信號之上升-衰減-維持-釋放行為。
音軌識別器產生向音軌處理器75提供的音軌識別資訊,以使得該音軌處理器75可根據由(例如)語意混合命令內的樂器名稱之指示,處理每一單音軌ST1至ST N。
第14圖圖示混音器之另一可能配置之示意性方塊圖,在該配置中,時間區段識別器460自該複數個音軌ST 1至MT擷取時間區段資訊。時間區段識別器460連接至該複數個音軌ST1至MT且係組配來分析由該等音軌ST1至MT呈現的音樂作品之時間結構。特定言之,時間區段識別器460可在音樂作品內尋找相似或實質上相同的區段。若音樂作品屬於流行音樂類型,則此等相似或實質上相同的區段可能為歌曲之合唱。時間區段識別器460亦可計數音樂作品之拍子或小節,此舉可改良時間區段識別之精度。
向語意命令解譯器35提供時間區段資訊,該語意命令解譯器35使用該時間區段資訊來將語意混合命令內使用的語意時間區段表達翻譯成明確的區段開始及結束時間值。
藉由時間區段識別器執行的音樂作品之時間結構分析可採用過去各個研究者建議的方法中的一或更多方法。在ICASSP 2005,Xi Shao等人的文章「Automatic Music Summarization Based on Music Structure Analysis」中,建議基於音樂結構分析的音樂概述之新穎方法,該文章之全部內容以引用之方式併入本文。特定言之,首先自音訊信號擷取起始音符,以獲取歌曲之時間節奏。可基於此節奏資訊執行音樂結構分析。在將音樂內容結構化成諸如導奏(Intro)、詩、合唱、尾曲(Outro)等之不同區域之後,可產生 具有合唱及音樂樂句之最終音樂概述,在選定的合唱之前或之後包括該等合唱及音樂樂句,以獲得最終概述之所要長度。音樂結構分析區分基於旋律的相似性區域(詩)與基於內容的相似性區域(合唱)。
在「Chorus Detection with Combined Use of MFCC and Chroma Features and Image Processing Filters」,Proc.of the 10th Int.Conference on Digital Audio Effects(DAFx-07),Bordeaux,France,2007年9月10日至15日出版中,作者Antti Eronen描述用於偵測流行搖滾樂中合唱區段之計算上有效率之方法。該方法利用距離矩陣表示,該距離矩陣表示藉由合計使用美爾頻率倒譜系數(mel-frequency cepstral coefficient)及音高半音特徵計算的兩個單獨的距離矩陣來獲取。Eronen的文章的全部內容以引用之方式併入本文。
Mark Levy等人為文章「Extraction of High-Level Musical Structure from Audio Data and its Application to Thumbnail Generation」,ICASSP 2006之作者,該文章之內容以引用之方式全部併入本文。在該文章中,介紹了用於用階層式音色模型將音樂音訊分段的方法。提供新證據以顯示音樂分段可重作為音色特徵之叢集,且描述新的叢集演算法。
在「A Chorus Section Detection Method for Musical Audio Signals and Its Application to a Music Listening Station」,IEEE Transactions on Audio,Speech,and Language Processing,第14卷,第5期,2006年9月出版中,作者Masataka Goto描述用於獲取流行音樂之壓縮碟片錄音中重複合唱(「引人樂段」)區段之列表的方法。首先,自輸入信號之每一訊框擷取稱為半音向量的十二維特徵向量且隨後計算此等向量之間的相似性,該半音向量相對於伴奏之變化是穩固的。列出且整合識別為正在重複的區段之區段。該方法甚至可以藉由甚至在調變之後,引入以知覺方式刺激的聲學特徵及實現重複合唱區段之偵測的相似性,來偵測經調變的合唱區段。該文章之全部內容以引用之方式併入本文。
Bee Suang Ong在Bee Suang Ong之論文「Structural Analysis and Segmentation of Music Signals」,Universitat Pompeu Barcelona,2007年出版,ISBN 978-84-691-1756-9中編輯當時所知的自動音樂結構分析方法之綜述,該論文之全部內容以引用之方式併入本文。
第15圖圖示混音器之另一可能配置之示意性方塊圖,在該配置中提供元資料介面480,以利用與多軌信號一起供應的元資料12。元資料可包含第12圖及第13圖之上下文中闡釋的關於音軌組織之資訊或時間區段資訊。
元資料12(若存在)使混音器不必自多軌信號決定音軌資訊、時間區段資訊或其他有用資訊。此決定可涉及可能耗費相對較長時間的計算密集型資料處理任務。此外,藉由混音器本身執行的決定之結果可能比由多軌音訊信號之發起者產生且提供的元資料可靠性更差。
元資料介面480係組配來自多軌錄音之資料12擷取元資料12。在輸出側,元資料介面480連接至語意命令解譯器 35之輸入。在第15圖中所示之配置中,語意命令解譯器35係組配來將由元資料介面480提供的元資料12用於自語意混合命令導出複數個混合參數之程序中。
第16圖圖示混音器之另一可能配置之示意性方塊圖,在該配置中,提供示例性介面490及示例性混合信號分析器492,以基於該示例性混合信號產生語意混合命令。
示例性介面490係組配來接收示例性混合信號。示例性混合信號可(例如)儲存於記憶體中或經由網路擷取。使用者可根據該使用者之偏好自示例性混合信號之集合選擇示例性混合信號,該等偏好例如,因為該使用者喜歡混合特定混合信號的方式。一般而言,任何音訊信號可用作示例性混合信號,但若該示例性混合信號具有類似於多軌錄音之結構及風格,則通常預期結果是較佳的。舉例而言,若示例性混合信號之配器法實質上與將藉由混音器混合的多軌信號之配器法相同,則該示例性混合信號可能是有用的。
示例性介面490將示例性混合信號轉發至混合信號分析器492。混合信號分析器492可組配來識別示例性混合信號中的樂器及聲樂部分。此外,混合信號分析器492可決定經識別樂器部分、經識別聲樂部分及/或示例性混合信號作為整體而言之相對響度級別及/或頻率曲線。亦可能決定諸如混響的音訊效果之量。基於所決定的值,混合信號分析器492可建立示例性混合信號及/或語意混合命令之輪廓。舉例而言,由混合信號分析器492執行的分析可揭示示例性混合信號之鼓聲音軌及低音音軌相對佔主導,而其他音軌 較輕柔。因此,語意混合命令可包含表達,該表達敍述鼓聲音軌及低音音軌應在將由混音器產生的整個混合信號MS佔主導。
示例性介面490亦可組配來接收與示例性混合信號一起的示例性音軌。示例性音軌在第16圖中由虛線菱形標記的「示例性ST的」表示。由示例性介面490向混合信號分析器492提供示例性音軌。示例性音軌對應於示例性混合信號,因為該等示例性音軌用以產生該示例性混合信號。使用可用的示例性音軌,混合信號分析器492可將示例性混合信號與該等示例性音軌中之每一示例性音軌比較,以找出如何在將示例性混合信號混合成示例性混合信號之前修改了某一示例性混合信號。以此方式,可藉由混合信號分析器492以語意形式或半語意形式決定音軌相關的混合參數。
第17圖圖示混音器之另一可能配置之示意性方塊圖,在該配置中,知覺處理器63及知覺模型64用於將語意混合命令轉換成混合參數之程序中。在第17圖之配置中將知覺處理器63及知覺模型64圖示為語意命令解譯器35之部分。如以上所述,藉由考慮信號特性及人類聽覺機制,知覺處理器63將知覺值翻譯成物理混合參數。描述人類聽覺機制的參數由知覺模型64來提供。可將知覺模型64組織為資料庫或知識庫。資料庫的項可包含聽覺相關的現象之語意描述及呈音訊效果、響度、相對響度、頻率內容等的參數之形式的相應實施。聽覺相關的現象可(例如)藉由表達來描述,該等表達諸如,「遠」、「近」、「平」、「完全」、「亮」、「偏 向低頻」、「偏向高頻」等。相應實施可包含數值,該等數值指示應如何選擇該複數個音軌ST中之一或更多音軌ST之混合參數來實現所要效果。自語意描述至混合參數之相應值之此映射通常基於專門知識及心理聲學。可能已在複雜的科學測試及研究期間獲取了該等專門知識及心理聲學。
第8圖及第11圖至第16圖中所示之配置可以任何組合與彼此組合。舉例而言,藉由組合第12圖及第13圖中所示之配置,可提供包含音軌識別器430及時間區段識別器460之混音器。
第18圖圖示用於將複數個音訊信號混合成混合信號之方法之示意流程圖。在102處方法之開始之後,接收語意混合命令,如方塊104所示。語意混合命令可由使用者使用鍵盤以本文形式輸入、口頭上作為發音命令輸入、作為自複數個預設之選擇輸入,藉由調整一或更多參數輸入、作為示例性混合信號輸入或以另一方式輸入。
在由方塊106表示的動作處,自語意混合命令導出複數個混合參數。此動作可涉及專門知識及心理聲學,以使得混合參數產生使用者所要之結果。
根據由方塊108表示的動作之上下文中的混合參數處理該複數個音軌。該複數個音軌之處理可包含設定響度級別、平移位置、音訊效果、頻率濾波(等化)及其他修改。
在由方塊110表示的動作處,在方法結束於方塊112處之前,將由處理產生的音軌組合以形成混合信號。
儘管已在設備之上下文中描述一些態樣,但顯然此等態樣亦表示相應方法之描述,其中區塊或裝置對應於方法步驟或方法步驟之特徵。類似地,在方法步驟之上下文中描述的態樣亦表示相應區塊或項目或相應設備之特徵結構的描述。該等方法步驟中的一些或全部步驟可由(或使用)硬體設備來執行,該硬體設備例如,微處理器、可程式化電腦或電子電路。在一些實施例中,最重要方法步驟中之一些一或更多方法步驟可由此設備執行。
取決於某些實施要求,可在硬體中或在軟體中實施本發明之實施例。可使用數位儲存媒體(例如軟碟、DVD、藍光光碟、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體)執行實施,該數位儲存媒體上儲存有電子可讀取的控制信號,該等電子可讀取的控制信號與可程式化電腦系統合作(或能夠合作),以使得執行各別方法。因此,數位儲存媒體可為電腦可讀取的。
根據本發明之一些實施例包含資料載體,該資料載體具有電子可讀取控制信號,該等電子可讀取控制信號能夠與可程式化電腦系統合作,以使得執行本文所述之方法中之一種方法。
大體而言,本發明之實施例可實施為具有程式碼之電腦程式產品,當電腦程式產品在電腦上執行時,該程式碼經操作用於執行該等方法中之一種方法。例如,該等程式碼可儲存在機器可讀取載體上。
其他實施例包含在機器可讀取載體上儲存的用於執行 本文所述方法中之一種方法的電腦程式。
換言之,本發明方法之實施例因此為電腦程式,該電腦程式具有用於當該電腦程式在電腦上執行時,執行本文所述之方法中之一種方法的程式碼。
本發明方法之另一實施例因此為資料載體(或數位儲存媒體或電腦可讀取媒體),該資料載體包含該資料載體上記錄的用於執行本文所述方法中之一種方法的電腦程式。資料載體、數位儲存媒體或記錄媒體通常為有形的及/或非暫時性的。
本發明方法之另一實施例因此為表示用於執行本文所述方法中之一種方法的電腦程式的資料串流或信號之序列。例如,資料串流或信號之序列可組配來經由資料通訊連接轉移,例如經由網際網路。
另一實施例包含處理構件,例如電腦或可程式化邏輯裝置,該處理構件係組配來或經調適以執行本文所述方法中之一種方法。
另一實施例包含電腦,該電腦上安裝有用於執行本文所述方法中之一種方法的電腦程式。
根據本發明之另一實施例包含設備或系統,該設備或系統係組配來將用於執行本文所述方法中之一種方法的電腦程式(例如,以電子學方式或以光學方式)轉移至接收器。例如,該接收器可為電腦、行動裝置、記憶體裝置或類似物。例如,設備或系統可包含用於將電腦程式轉移至接收器之檔案伺服器。
在一些實施例中,可程式化邏輯裝置(例如可現場規劃閘陣列)可用以執行本文所述方法之功能中的一些或全部。在一些實施例中,可現場規劃閘陣列可與微處理器合作,以執行本文所述方法中之一種方法。大體而言,方法較佳地由任何硬體設備來執行。
以上描述的實施例僅說明本發明之原理。應理解,佈置及本文所述的細節之修改及變化將對其他熟習此項技術者顯而易見。因此,本發明意欲僅受到以下即將描述的專利申請範圍之範疇的限制而不受以本文實施例之描述及闡釋的方式呈現的具體細節的限制。
10‧‧‧資料
11‧‧‧音樂容器
12‧‧‧元資料容器
20‧‧‧使用者介面
21~24‧‧‧子模組
26‧‧‧目標時間區段
27‧‧‧目標音軌
28‧‧‧混合操作
30、35‧‧‧語意命令解譯器
31‧‧‧語彙資料庫/語彙文法子模組
37‧‧‧模糊處理器
38‧‧‧隨機模糊規則選擇器
40‧‧‧語意音訊分析
41‧‧‧第一子模組
42‧‧‧第二子模組
50‧‧‧目標描述符分配單元
60、63‧‧‧知覺處理器
61‧‧‧心理聲學
62‧‧‧專門知識
64‧‧‧知覺模型
65‧‧‧語意至明確轉換模組
70、75‧‧‧音軌處理器
71‧‧‧物理混合參數之模組
72‧‧‧數位音訊效果之模組
73‧‧‧格式化之模組
76‧‧‧音軌組合器
102~112‧‧‧方塊
430‧‧‧音軌識別器
432‧‧‧音軌模板資料庫
460‧‧‧時間區段識別器
480‧‧‧元資料介面
490‧‧‧示例性介面
492‧‧‧示例性混合信號分析器
622‧‧‧模糊化模組
624‧‧‧推斷模組
626‧‧‧規則集合
628‧‧‧去模糊化模組
ST‧‧‧單音軌
EQ‧‧‧等化器
PAN‧‧‧平移控制
REVERB‧‧‧混響器
VOL‧‧‧音量控制
MS‧‧‧混合信號
Σ‧‧‧信號組合器
第1圖圖示混音器之示意性方塊圖;第2圖圖示通常在流行音樂中採用的歌曲結構中音樂作品之示例性時間結構;第3圖圖示呈古典音樂中已知的奏鳴曲形式之音樂作品之另一示例性時間結構;第4圖圖示流行音樂錄音之示例性音軌佈局;第5圖圖示根據本文所揭示之教示的混音器之示意性方塊圖;第6圖圖示模糊邏輯處理器之示意性方塊圖;第7圖圖示模糊集合之示例性隸屬函數;第8圖圖示包含模糊邏輯處理器的混音器之示意性方塊圖;第9圖圖示根據本文所揭示之教示的混音器之另一配 置的示意性方塊圖;第10圖圖示根據本文所揭示之教示的態樣的語意混合命令及該語意混合命令之分解;第11圖圖示根據本文所揭示之教示的態樣的另一語意混合命令及該語意混合命令之分解;第12圖圖示根據本文所揭示之教示的混音器之另一配置之示意性方塊圖;第13圖圖示根據本文所揭示之教示,包含音軌識別器的混音器之配置之示意性方塊圖;第14圖圖示根據本文所揭示之教示,包含時間區段識別器的混音器之配置之示意性方塊圖;第15圖圖示根據本文所揭示之教示,包含元資料介面的混音器之配置之示意性方塊圖;第16圖圖示根據本文所揭示之教示,包含用於接收示例性混合信號之示例性介面的混音器之配置之示意性方塊圖;第17圖圖示根據本文所揭示之教示,包含知覺處理器及知覺模型的混音器之配置之示意性方塊圖;以及第18圖圖示根據本文所揭示之教示,用於將複數個音軌混合成混合信號之方法的示意流程圖。
10‧‧‧資料
35‧‧‧語意命令解譯器
75‧‧‧音軌處理器
76‧‧‧音軌組合器
ST‧‧‧單音軌
MS‧‧‧混合信號

Claims (14)

  1. 一種用於將複數個音軌混合成一混合信號之混音器,該混音器包含:一語意音訊分析組,組配來藉由分析該等複數個音軌獲取軌資訊;一語意命令解譯器,用以接收一語意混合命令,且用以自該語意混合命令導出針對該等複數個音軌之複數個混合參數,其中該軌資訊係提供給一語意至明確模組,其中該語意至明確模組接收從該語意混合命令導出之資訊,其中該語意至明確模組基於該軌資訊及從該語意混合命令導出之該資訊來建立該等複數個混合參數;一音軌處理器,用以根據該等複數個混合參數處理該等複數個音軌;一音軌組合器,用以將由該音軌處理器處理的該等複數個音軌組合成該混合信號;以及一音軌識別器,用以識別該等複數個音軌之中的一目標音軌,該目標音軌在該語意混合命令內由一音軌識別表達來指示,該音軌識別器係組配來分析該等音軌以決定似乎匹配該目標音軌之一個音軌或若干音軌。
  2. 如申請專利範圍第1項之混音器,其中該語意命令解譯器包含用於識別該語意混合命令內的語意表達之一語彙資料庫。
  3. 如申請專利範圍第1項之混音器,其中該音軌識別器係組配來: 自一音軌模板資料庫擷取對應於該音軌識別表達之一資料記錄,執行該等複數個音軌中至少一個音軌的一軌名稱、一軌識別符、一音色、一節奏結構、一頻率範圍、一聲音樣本及一和聲密度中之至少一者的一分析,將該分析之一結果與該資料記錄比較,從而產生至少一個匹配分數,及基於該至少一個音軌與該資料記錄之間的該至少一個匹配分數,來決定該目標音軌。
  4. 如申請專利範圍第1項之混音器,進一步包含用於識別該等複數個音軌內之一目標時間區段之一時間區段識別器,該目標時間區段在該語意混合命令內由一時間區段識別表達來指示。
  5. 如申請專利範圍第4項之混音器,其中該時間區段識別器係組配來將該等複數個音軌結構化成複數個時間區段。
  6. 如申請專利範圍第4項之混音器,其中該時間區段識別器係組配來執行該等複數個音軌之一分析,以決定至少一個時刻,在該至少一個時刻,由該等複數個音軌表示的一音訊信號之一特徵性質發生一改變,且將該至少一個所決定的時刻用作兩個鄰近時間區段之間的至少一個邊界。
  7. 如申請專利範圍第1項之混音器,進一步包含用以接收關於該等複數個音軌的元資料之一元資料介面,該元資料指示一軌名稱、一軌識別符、一時間結構資訊、一強 度資訊、一音軌或該音軌之一部分之空間屬性、音色特性及節奏特性中之至少一者。
  8. 如申請專利範圍第1項之混音器,進一步包含用於以一語言學格式接收該語意混合命令之一命令介面。
  9. 如申請專利範圍第1項之混音器,進一步包含:一示例性介面,用以根據關於已如何混合一示例性混合信號之一使用者的偏好,接收另一混合信號作為該示例性混合信號;以及一混合信號分析器,用以分析該示例性混合信號,且用以基於該示例性混合信號之該分析產生該語意混合命令。
  10. 如申請專利範圍第1項之混音器,其中該語意命令解譯器包含一知覺處理器,用以根據該混合信號之聽覺相關性質之一知覺模型,將該語意混合命令變換成該等複數個混合參數。
  11. 如申請專利範圍第1項之混音器,其中該語意命令解譯器包含一模糊邏輯處理器,用以接收由該語意命令解譯器自該語意混合命令導出的至少一個模糊規則,且用以基於該至少一個模糊規則而產生該等複數個混合參數。
  12. 如申請專利範圍第11項之混音器,其中該模糊邏輯處理器係組配來接收由該語意命令解譯器準備的至少兩個並行模糊規則,且其中該混音器進一步包含用於在該至少兩個並行模糊規則之中選擇一個並行模糊規則之一隨機選擇器。
  13. 一種用於將複數個音軌混合成一混合信號之方法,該方法包含以下步驟:接收一語意混合命令;藉由分析該等複數個音軌獲取軌資訊;自該語意混合命令導出針對該等複數個音軌之複數個混合參數,該等複數個混合參數包含針對一目標音軌之一混合參數,其中該軌資訊係提供給一語意至明確模組,其中該語意至明確模組接收從該語意混合命令導出之資訊,其中該語意至明確模組基於該軌資訊及從該語意混合命令導出之該資訊來建立該等複數個混合參數;藉由分析該等音軌以決定似乎匹配該目標音軌之一個音軌或若干音軌,而在該等複數個音軌之中識別出該目標音軌;根據該等複數個混合參數處理該等複數個音軌;以及組合由該等複數個音軌之該處理產生的該等複數個音軌,以形成該混合信號。
  14. 一種用於指示電腦執行的電腦程式,其係指揮該電腦來執行如申請專利範圍第13項之方法。
TW101101946A 2011-02-03 2012-01-18 語意音軌混合器 TWI511489B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP11153211A EP2485213A1 (en) 2011-02-03 2011-02-03 Semantic audio track mixer

Publications (2)

Publication Number Publication Date
TW201238279A TW201238279A (en) 2012-09-16
TWI511489B true TWI511489B (zh) 2015-12-01

Family

ID=44189207

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101101946A TWI511489B (zh) 2011-02-03 2012-01-18 語意音軌混合器

Country Status (15)

Country Link
US (1) US9532136B2 (zh)
EP (2) EP2485213A1 (zh)
JP (1) JP5759022B2 (zh)
KR (1) KR101512259B1 (zh)
CN (1) CN103597543B (zh)
AR (1) AR085121A1 (zh)
AU (1) AU2012213646B2 (zh)
BR (1) BR112013019792B1 (zh)
CA (1) CA2826052C (zh)
ES (1) ES2561534T3 (zh)
HK (1) HK1191131A1 (zh)
MX (1) MX2013008919A (zh)
RU (1) RU2573228C2 (zh)
TW (1) TWI511489B (zh)
WO (1) WO2012104119A1 (zh)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9575960B1 (en) * 2012-09-17 2017-02-21 Amazon Technologies, Inc. Auditory enhancement using word analysis
US9640163B2 (en) * 2013-03-15 2017-05-02 Dts, Inc. Automatic multi-channel music mix from multiple audio stems
JP6201460B2 (ja) * 2013-07-02 2017-09-27 ヤマハ株式会社 ミキシング管理装置
US9411882B2 (en) 2013-07-22 2016-08-09 Dolby Laboratories Licensing Corporation Interactive audio content generation, delivery, playback and sharing
CA2887124C (en) * 2013-08-28 2015-09-29 Mixgenius Inc. System and method for performing automatic audio production using semantic data
TW201538001A (zh) * 2014-03-18 2015-10-01 Wistron Corp 聲音輸出裝置及其等化器調整方法
US20160092159A1 (en) * 2014-09-30 2016-03-31 Google Inc. Conversational music agent
GB201419396D0 (en) * 2014-10-31 2014-12-17 Univ Salford Entpr Ltd Assistive Mixing System And Method Of Assembling A Synchronised Spattial Sound Stage
GB201421513D0 (en) * 2014-12-03 2015-01-14 Young Christopher S And Filmstro Ltd And Jaeger Sebastian Real-time audio manipulation
JP2016118649A (ja) 2014-12-19 2016-06-30 ティアック株式会社 無線lan機能を備えたマルチトラック録音システム
US9609383B1 (en) * 2015-03-23 2017-03-28 Amazon Technologies, Inc. Directional audio for virtual environments
CN106251876A (zh) * 2015-06-12 2016-12-21 徐文波 基于hook技术的音效混合方法与系统
US9977645B2 (en) * 2015-10-01 2018-05-22 Moodelizer Ab Dynamic modification of audio content
KR102519902B1 (ko) 2016-02-18 2023-04-10 삼성전자 주식회사 오디오 데이터를 처리하는 방법 및 이를 제공하는 전자 장치
CN105976802A (zh) * 2016-04-22 2016-09-28 成都涂鸦科技有限公司 基于机器学习技术的音乐自动生成系统
WO2017196382A1 (en) * 2016-05-11 2017-11-16 Nuance Communications, Inc. Enhanced de-esser for in-car communication systems
US10951985B1 (en) * 2016-07-01 2021-03-16 Gebre Waddell Method and system for audio critical listening and evaluation
US9653095B1 (en) 2016-08-30 2017-05-16 Gopro, Inc. Systems and methods for determining a repeatogram in a music composition using audio features
CN106486128B (zh) * 2016-09-27 2021-10-22 腾讯科技(深圳)有限公司 一种双音源音频数据的处理方法及装置
CN106251738B (zh) * 2016-10-19 2019-03-29 楼益程 一种乐器合成的培训方法及其装置
US10068573B1 (en) * 2016-12-21 2018-09-04 Amazon Technologies, Inc. Approaches for voice-activated audio commands
US10621980B2 (en) * 2017-03-21 2020-04-14 Harman International Industries, Inc. Execution of voice commands in a multi-device system
CN107071641A (zh) * 2017-03-31 2017-08-18 李宗盛 实时编辑多音轨的电子设备与处理方法
US10199070B2 (en) * 2017-04-03 2019-02-05 Adobe Inc. Digital audio data user interface customization based on user expertise, content type, or testing
US10622002B2 (en) 2017-05-24 2020-04-14 Modulate, Inc. System and method for creating timbres
CN110610702B (zh) * 2018-06-15 2022-06-24 惠州迪芬尼声学科技股份有限公司 以自然语言声控均衡器的方法及计算器可读存储介质
US11195511B2 (en) 2018-07-19 2021-12-07 Dolby Laboratories Licensing Corporation Method and system for creating object-based audio content
CN109147739B (zh) * 2018-09-12 2021-07-23 网易(杭州)网络有限公司 基于语音控制的音效调节方法、介质、装置和计算设备
WO2020077046A1 (en) * 2018-10-10 2020-04-16 Accusonus, Inc. Method and system for processing audio stems
AU2020253755A1 (en) 2019-04-05 2021-11-04 Tls Corp. Distributed audio mixing
US11030940B2 (en) 2019-05-03 2021-06-08 X Development Llc Display array with distributed audio
US11538485B2 (en) 2019-08-14 2022-12-27 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
US11763787B2 (en) * 2020-05-11 2023-09-19 Avid Technology, Inc. Data exchange for music creation applications
GB2595222A (en) * 2020-05-18 2021-11-24 Waves Audio Ltd Digital audio workstation with audio processing recommendations
US20220012007A1 (en) * 2020-07-09 2022-01-13 Sony Interactive Entertainment LLC Multitrack container for sound effect rendering
EP4226362A1 (en) 2020-10-08 2023-08-16 Modulate, Inc. Multi-stage adaptive system for content moderation
KR102534870B1 (ko) * 2022-09-22 2023-05-26 뉴튠(주) 복수 개의 오디오 스템을 이용한 오디오 믹싱 인터페이스 제공 방법 및 장치
CN116013332A (zh) * 2022-12-29 2023-04-25 上海哔哩哔哩科技有限公司 音频处理方法和装置
CN116524883B (zh) * 2023-07-03 2024-01-05 腾讯科技(深圳)有限公司 音频合成方法、装置、电子设备和计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020087310A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented intelligent dialogue control method and system
WO2010111373A1 (en) * 2009-03-27 2010-09-30 Vocollect, Inc. Context aware, speech-controlled interface and system

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW320696B (zh) * 1993-06-29 1997-11-21 Philips Electronics Nv
US5576843A (en) 1993-10-29 1996-11-19 Time Warner Entertainment Co., L.P. System and method for controlling play of multiple dialog audio tracks of a software carrier
US6931134B1 (en) * 1998-07-28 2005-08-16 James K. Waller, Jr. Multi-dimensional processor and multi-dimensional audio processor system
JP4168310B2 (ja) * 2000-09-25 2008-10-22 ソニー株式会社 データ信号処理装置および方法、並びに記録媒体
US7333934B1 (en) * 2003-04-06 2008-02-19 Apple Inc. Pre-processing individual audio items in a media project in order to improve real-time processing of the media project
US7496387B2 (en) * 2003-09-25 2009-02-24 Vocollect, Inc. Wireless headset for use in speech recognition environment
JP4683850B2 (ja) 2004-03-22 2011-05-18 ヤマハ株式会社 ミキシング装置
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
CN101278349A (zh) * 2005-09-30 2008-10-01 皇家飞利浦电子股份有限公司 处理用于重放的音频的方法和设备
US20070124293A1 (en) * 2005-11-01 2007-05-31 Ohigo, Inc. Audio search system
US7899673B2 (en) * 2006-08-09 2011-03-01 Microsoft Corporation Automatic pruning of grammars in a multi-application speech recognition interface
JP4458096B2 (ja) * 2007-02-09 2010-04-28 ヤマハ株式会社 データ再生装置、データ再生方法およびプログラム
US8812323B2 (en) * 2007-10-11 2014-08-19 Agency For Science, Technology And Research Dialogue system and a method for executing a fully mixed initiative dialogue (FMID) interaction between a human and a machine
US8229748B2 (en) * 2008-04-14 2012-07-24 At&T Intellectual Property I, L.P. Methods and apparatus to present a video program to a visually impaired person
US8438485B2 (en) * 2009-03-17 2013-05-07 Unews, Llc System, method, and apparatus for generating, customizing, distributing, and presenting an interactive audio publication
US8204755B2 (en) * 2009-05-22 2012-06-19 Universal Music Group, Inc. Advanced encoding of music files

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020087310A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented intelligent dialogue control method and system
WO2010111373A1 (en) * 2009-03-27 2010-09-30 Vocollect, Inc. Context aware, speech-controlled interface and system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Kwong M D , Lefebvre R ; CONFERENCE RECORD OF THE 37TH. ASILOMAR CONFERENCE ON SIGNALS, SYSTEMS, & COMPUTERS. PACIFIC GROOVE, CA, NOV. 9 - 12, 2003; [ASILOMAR CONFERENCE ON SIGNALS, SYSTEMS AND COMPUTERS], 20031109; 20031109 - 20031112 NEW YORK, NY : IEEE, US ;Page(s):542 - 545 Vol.1 *

Also Published As

Publication number Publication date
CA2826052C (en) 2017-07-11
CN103597543A (zh) 2014-02-19
AU2012213646A1 (en) 2013-08-29
AU2012213646B2 (en) 2015-07-16
KR101512259B1 (ko) 2015-04-15
JP5759022B2 (ja) 2015-08-05
ES2561534T3 (es) 2016-02-26
WO2012104119A1 (en) 2012-08-09
US20140037111A1 (en) 2014-02-06
US9532136B2 (en) 2016-12-27
EP2485213A1 (en) 2012-08-08
RU2573228C2 (ru) 2016-01-20
EP2659485B8 (en) 2016-04-06
CN103597543B (zh) 2017-03-22
TW201238279A (en) 2012-09-16
RU2013140574A (ru) 2015-03-10
EP2659485B1 (en) 2015-12-16
JP2014508460A (ja) 2014-04-03
KR20130121173A (ko) 2013-11-05
CA2826052A1 (en) 2012-08-09
BR112013019792A2 (pt) 2016-10-25
MX2013008919A (es) 2013-11-18
BR112013019792B1 (pt) 2022-04-19
EP2659485A1 (en) 2013-11-06
AR085121A1 (es) 2013-09-11
HK1191131A1 (zh) 2014-07-18

Similar Documents

Publication Publication Date Title
TWI511489B (zh) 語意音軌混合器
Rubin et al. Content-based tools for editing audio stories
US20220172744A1 (en) Post-processing of audio recordings
US20110112672A1 (en) Systems and Methods of Constructing a Library of Audio Segments of a Song and an Interface for Generating a User-Defined Rendition of the Song
US10349196B2 (en) Method of editing audio signals using separated objects and associated apparatus
CN113691909B (zh) 具有音频处理推荐的数字音频工作站
Thomas et al. Production perspectives of heavy metal record producers
Schwarz et al. Methods and datasets for DJ-mix reverse engineering
Werthen-Brabants Ground truth extraction & transition analysis of DJ mixes
US20240194173A1 (en) Method, system and computer program for generating an audio output file
US20240055024A1 (en) Generating and mixing audio arrangements
WO2021124919A1 (ja) 情報処理装置および方法、並びにプログラム
Lopes INSTRUMENT POSITION IN IMMERSIVE AUDIO: A STUDY ON GOOD PRACTICES AND COMPARISON WITH STEREO APPROACHES
Burlin The creation (and re-creation) of virtual spatiality: Surround sound mixing in King Crimson’s back catalog box sets
Exarchos et al. Audio processing