TW202101431A - 訓練神經網路反映情緒感知之方法、用於分類與找尋關聯內容之相關系統及方法及內嵌有多維屬性向量之相關數位媒體檔案 - Google Patents

訓練神經網路反映情緒感知之方法、用於分類與找尋關聯內容之相關系統及方法及內嵌有多維屬性向量之相關數位媒體檔案 Download PDF

Info

Publication number
TW202101431A
TW202101431A TW109111404A TW109111404A TW202101431A TW 202101431 A TW202101431 A TW 202101431A TW 109111404 A TW109111404 A TW 109111404A TW 109111404 A TW109111404 A TW 109111404A TW 202101431 A TW202101431 A TW 202101431A
Authority
TW
Taiwan
Prior art keywords
attribute
vector
file
semantic
dissimilarity
Prior art date
Application number
TW109111404A
Other languages
English (en)
Inventor
約瑟夫 米歇爾 威廉 萊斯克
南迪 克洛荷
安格洛斯 皮可拉奇斯
Original Assignee
英商梅許崔克斯有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB1904719.0A external-priority patent/GB2584598B/en
Priority claimed from GB1904713.3A external-priority patent/GB2583455A/en
Priority claimed from GB1904716.6A external-priority patent/GB2583696A/en
Application filed by 英商梅許崔克斯有限公司 filed Critical 英商梅許崔克斯有限公司
Publication of TW202101431A publication Critical patent/TW202101431A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/071Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for rhythm pattern analysis or rhythm style recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/081Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for automatic key or tonality recognition, e.g. using musical rules or a knowledge base

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

利用人工神經網路(ANN)將一代表檔案中可擷取且可測量屬性(例如音樂屬性)之屬性向量映射於該檔案之語義屬性。該人工神經網路(ANN)之權重及偏誤係經訓練而使成對的比較檔案在屬性空間內之距離相異性測度準齊於相同檔案在語義空間內之對應語義距離相異性測度。經最佳化後,該等ANN可處理任何經上述屬性分析之檔案,以識別出其他具有共同情緒感知特點之檔案,藉此產生更為真實可靠之相似度/相異性結果。相較之下,若單純訓練神經網路考量可擷取之可測量屬性,則無法提供符合真實情況之可靠語境關係。

Description

訓練神經網路反映情緒感知之方法、用於分類與找尋關聯內容之相關系統及方法及內嵌有多維屬性向量之相關數位媒體檔案
本發明大致關於人工智慧及神經網路經訓練而可反映人類對特定感官刺激產生主觀響應之能力,該感官刺激例如是音訊,特別是音樂或影像資料(包含靜態及視訊)形式,及/或主觀語境輸入,例如氣味或對一段文字之描述。更具體而言,但不限於,本發明係關於用以實現識別系統之人工智慧,該識別系統能夠在情緒感知語義方面上分類並可靠識別歌曲或影像語境屬性間之感知共通性或相異性,藉此方便多媒體裝置使用者從廣大之型錄中搜尋而找出經排序且具有共通性之複數資料檔案。又更具體而言,本發明是關於一種系統及操作方法,其能夠確定可選音訊內容位置,對於一曲目(或其片段)給予客觀分類或初始主觀評估評論,並就選擇性「推播」之內容方面,針對具有共同使用者可選擇音樂主題感知之分類內容存取進行宣傳。
人工智慧「AI」通常建立於人工神經網路架構之上,其最具挑戰性之長期目標應屬複製人類智慧行為。然此目標有其複雜性,至少部分原因在於人類意見係基於對於刺激之主觀反映,而現有AI辦法卻無法充分連結情緒觀點反映,蓋因 AI運算架構基本原理主要係關乎對於大量具有客觀可識別屬性之資料同化後產生之反映。
深度神經網路「DNN」之增進,或稱訓練,通常是基於「反向傳播」之概念,亦即將誤差反向傳播,以計算目標網路應使用權重DNN計算所需之梯度,如熟悉此技藝人士所知者。DNN 係在其層體中移動,計算各輸出之機率以此找尋能夠將輸入轉為輸出之正確數學運算,包含線性關係及非線性關係。
在實務範例中,根據現有AI音樂解讀方案,不同音樂間之感知相似度識別乃是囿於絕對相似性而非關於語義概念上感知到之相似性。雖然乍看之下並無問題,但在智慧與實際之立足點上仍有其根本問題,因為「世上沒有其他事物如同音樂般是在人類頭腦中創造、感知並體驗。換言之,音樂本身並不存在… 因為音樂及語言兩者皆無法以其純粹表面型態研究, 因為兩者之認知均產生未包含於表面型態內之資訊」。此說見於Geraint A. Wiggins等人發表於ESCOM歐洲音樂認知科學協會之「關於音樂之非存在:為何音樂理論僅是出於空想」一文(Musicæ Scientiæ, Discussion Form 5, 2010,231-255頁)。
因此,現有AI建模之根源即是基於一定程度之絕對性(基於測得參數之解讀),以用於音樂搜尋工具為例,其必然難逃產生不一致及/或錯誤結果之缺陷。
相同問題亦可見於對例如繪畫或相片或例如醫療CT掃描等影像解讀或其他純描述性之表達(例如氣味描述、醫療報告或小說情節概要)等其他表達形式進行識別及分類以相對於選定起始點(例如香氣之具體描述或樂曲之音調、節奏及音色)而定位並評估完全無關或從具有可接受貼近度主觀特性、特質或特色之觀點上可能彼此相關之可搜尋電子影像及/或資料之關聯性。
事實上,現有AI 系統無法辨識語義相關特性,且因此可能忽略語義相似性,卻接受或建議與感知上區別相異性密切相關者。
音樂、影片及遊戲產業(特別是關於內容提供方面)持續發展進化。就此而言,(例如)音樂或聲音曲目以串流或下載數位檔案之方式所進行之銷售或分配成為市場主流,與光碟及DVD(或以往之唱片)藉由現已式微之慣例零售通路進行銷售之情況形成明顯對照。
音樂銷售本質上屬於商業活動,且關乎內容感知及美學,然而目前尚缺乏一種直截可靠機制,能夠有效針對個人特定品味找出具有共同音樂特性之曲目。詳言之,音樂在作品類型上之大至分類包括例如爵士、搖滾、古典及藍調等等,但在每一作品類型中又通常存在有大量子類別或子種類。例如,爵士音樂即有至少三十種類型,例如自由放克、跨界、硬咆勃及搖擺。上述子種類可能在定義該類型之使用者可識別構成架構上具有整體相似性,但通常亦存有在聽覺或音樂判斷上顯著之相異性。舉例而言,兩種爵士類型可能於聽覺感知上截然不同,導致特定聽者喜好一者,卻不喜另一者。出於相同(但相向)之理由,聽者可能因誤以為古典樂曲之收聽特性[在音樂空間及音樂感方面]應與硬式搖滾不同,而過早放棄(或根本不知)一首與硬式搖滾在音樂空間貼近度上實質完全相同之古典樂曲。
線上音樂庫通常均包含數百萬首歌曲 –iTunes®及Tidal®音樂庫分別號稱包含約五千萬條曲目–問題在於如何對此等資料庫進行有效搜尋,以便從涵蓋各種不同類型之大量曲目中,識別出使用者感知為相同之音樂主題、特性或特徵。因此,從以往至今,對於相似音樂之搜尋確實往往並非以整個作品類型[或至少為一類型之次級種類]為考量,及/或未能將來自不同作品類型之不同曲目中之極端相關音樂內容關聯在一起。商業音樂庫可能採用「協同過濾」,亦即根據基於其他收聽相同曲目之使用者之播放清單提出建議,然此做法極為仰賴事先儲存之使用者資料及統計用量。協同過濾雖可反映音樂庫聽者/使用者之個人偏好,但受限於可得使用者資料數量,因此本身並非完整之解決方案。
再者是新進(即尚未出名或鮮為人知之)藝人[亦即唱片工作室或唱片公司所簽「新人」]推出首支單曲音或首張專輯時之「冷啟動」問題。由於藝人尚無知名度,因此在線上或其他管道均未獲得實際關注,例如藉由電台或電視宣傳所吸引而來之聽者。換言之,由於缺乏收聽歷史,因而難以藉由例如協同過濾等方式提供建議,或為新人建立口碑及群眾關注。例如唱片公司等經銷商之問題在於如何提升新藝人之知名度,如何分類新藝人之音樂性質[屬於使用者感知性質,因此多變],以及如何將此音樂連結/插入現有音樂庫而使人收聽、下載或串流,以確保有利於商業發展之最大曝光?收聽及/或串流大眾或電台就新人方面之問題在於,「不知其所不知者為何」,因此隨機找到新人初試啼聲之作機會渺茫,較關乎運氣而非判斷。
對於經銷商而言,藝人歌曲之有效曝光及存取便等於是提升銷售機會。確實,就商業觀點而論,亦宜避免「慢燃」,而應快速為新進藝人累積聲望。
簡言之,新進藝人必須以尚無口碑之新產品打入市場。對照之下,知名歌星之歌迷必然忠心支持,亦即持續關注藝人,並通常願意購買藝人最新推出之音樂作品,不論作品好壞。確實,即便並未廣獲好評,知名歌星新推出之音樂作品亦不乏消費者串流、收聽及/或購買,因此具有既定跟隨者及收聽群眾之知名藝人並無所謂「冷啟動」問題。冷啟動問題不僅阻礙音樂散播,亦不利於新音樂形式之發展。
此外,使用者感知與音樂欣賞在本質上為迅速成立之個人特質。具體而言,聽者在樂曲(或其片段)播放後或為其聽聞後短短數秒之內即可能判定該首樂曲是否符合其個人品味且為其所喜好。因此,任何曲目找尋建議方案,例如以可下載 app形式實現者,在本質上皆必須講求快速(在識別建議方面),且亦必須能夠確保其所提供之任何建議滿足使用者感知音樂價值,亦即個人音樂品味。所有提供看似隨機選擇曲目之曲目找尋建議工具,例如利用其他具有共同興趣或條件使用者(例如年齡30至40歲,已婚育有兩子,職業為會計師且居住於紐約史坦頓島已抵資產)人口統計分析資料之現有系統,效果皆不理想,終究為使用者所棄用或停止供應。因此,對於所有音樂類型而言,類似音訊曲目之感知分類均是有效音訊曲目尋找技術之重要考量。
如Shazam®及SoundHound®等現有app主要是針對即時或以其他方式取樣之音訊曲目進行辨識,並列出社群中其他使用者所查看之曲目,因此並未解決上述問題。SoundHound®支援哼唱辨識,此類 app識別播放/取樣之曲目,或者,根據硬式資料,提供其他曲目建議,但通常不甚相關。此等現有app並不提供對於音樂庫中大量曲目之音樂相似性感知。
音樂產業所面臨之另一問題乃是如何盡可能加強聽者/使用者體驗,特別是在個人/個體層面。音樂與事件間之語境關聯或關係確實能夠造成辨識或引致相配之情緒反映,例如電影中之畏懼感或懸疑感或電視廣告中產生之產品聯想。
辨識共同音樂特性有助於適當運用音樂內容,藉此促進聽者之情感、生理及/或心理投入,並從而提升聽者之感官體驗。適用情況例如是當遊戲開發者及/或廣告商或電影預告製作者/編輯者因任務所需而必須快速編輯符合相關音樂主題之多媒體產品以利視訊輸出用提升音樂強度時(目的為增加劇情發展迫切感,未必關乎絕對音訊功率輸出等級)。開發者或編輯者必須耗費大量時間識別可能適合之音樂,而後將選擇之音樂與視訊配合,方能提供至少一結果「證明」以供檢視。為延後辨識可商用音訊曲目,內容開發者目前可透過所謂之「暫時音軌」方式運用受權利限制而無法輕易取得之知名曲目,但僅為權宜措施,因為之後仍必須透過搜尋找出能夠獲得使用權之商業上適用曲目。而後由於指示客戶必須評估編輯結果是否符合其原始概要,又造成進一步時間延遲。因此需要有效之曲目搜尋工具以利選擇用於例如視覺次序或音樂程式之建立(例如在「健身車」課程中透過音樂配合自行車運動以提高運動率)之替代音樂曲目。
網路上已有搜尋具有相同或相似視覺特徵影像之技術,包括識別出呈現相同或相關影像之網站。例如,Google® 支援一款稱為「反向影像搜尋」之電腦應用程式[有時簡稱「app」] (見https://support.google.com/websearch/answer/1325808?hl=en),其係在伺服器中將上傳之影像分散成複數組成位元群體,就此等位元群體進行搜尋以根據在一經定義之參數空間內某種形式之邏輯距離測度識別出相關影像。而後將識別所得之相關影像提供予該app使用者及上傳原始影像之使用者。
雖然影像比對仰賴複雜運算(通常基於神經網路),但可將基礎來源文件分解為形狀、顏色及/或尺寸大小,例如角度或長度。對照以上一或多種因素可建立關聯,例如藉由相對尺度比例。對照之下,音樂特性評論雖然同樣是利用神經網路,但由於音樂結構之差異在感知上更為微妙,目前仍受限於辨識上之難點。
本發明之第一態樣提供一種在某系統中訓練人工神經網路(ANN)之方法,此系統係用於識別某第一資料檔案內容相對於另一資料檔案內容之相似度或相異性,該方法包含:針對一對所選的不同資料檔案,自該第一資料檔案及該另一資料檔案各擷取可測量訊號性質,並自該等可測量訊號性質中識別出複數屬性;在該ANN所負責處理某屬性之輸出處,為該所選檔案對之該第一資料檔案及該另一資料檔案之各項屬性在屬性空間內產生一對應屬性向量;組合該第一資料檔案之一第一多維度向量與該另一資料檔案之有區別的第二多維度向量,其中各多維度向量係藉由將來自該ANN之輸出之個別屬性向量組合而取得;在該第一多維度向量與該第二多維度向量之間判定一距離測度;因應該判定之距離測度,藉由一反向傳播程序調整該ANN之權重及/或偏誤值,該反向傳播程序將該第一資料檔案相對於該另一資料檔案在屬性空間判定之距離測度與在語義空間內所評估之量化語義相異性距離測度間產生之差異納入考量,藉此視反映於該量化語義相異性距離測度中之語義感知的價值高於由該第一多維度向量與該第二多維度向量間之距離測度所反映之屬性評估而訓練該系統。
在語義空間內評估之量化語義相異性距離測度可基於關聯於該第一資料及該另一資料檔案的各個之文字解釋之向量表述。該文字解釋可編碼入各自的檔案之元資料。
在一較佳實施例中,該量化語義相異性距離測度之評估包括:將自然語言處理(NLP)應用於文字描述以為訓練集之中多重N 資料檔案產生語義向量;為該訓練集並以成對的方式,計算各語義向量間之分離距離;針對該訓練集之中的每個該檔案,識別其相對於該訓練集中其他檔案之最小及最大分離距離;為該訓練集之中各檔案,創建檔案對的集,其中第一對具有最小分離距離且第二對具有最大分離距離;將代表語義貼近度之第一值指定予該第一對且將代表語義相異性之第二值指定予該第二對,其中該第二值與該第一值不同。
第一對可為該第一資料檔案及該另一資料檔案。
訓練方法可涉及,為一包含m 最小分離距離及m 最大分離距離之子集,將該第一值指定予該m 最小且將該第二值指定予該m 最大,其中m 為小於N 之正整數。
本發明之第二態樣提供一種用於訓練及操作被配置以識別資料檔案間的內容之相似度或相異性的人工神經網路(ANN)之方法,該資料檔案中包含音訊內容及影像內容中之一或多者,該方法包含:使該資料檔案之該內容在語義空間內之語義相異性量化測度與為上述內容所擷取出之可測量屬性在屬性空間內之相關屬性分離距離產生關聯,以及訓練並操作該系統以視語義相異性測度的價值高於可測量屬性。
在語義空間內評價之語義相異性量化測度可為基於與不同資料檔案關聯之文字解釋之向量表述。
在一較佳實施例中,該資料檔案為音訊檔案,且該可測量屬性為以關於節奏、音調、音色及音樂織體之屬性所定義之音樂屬性。
語義相異性量化測度可藉由以下程序取得:將自然語言處理(NLP)應用於文字描述以為訓練集之中多重N 資料檔案產生語義向量;為該訓練集並以成對的方式,計算各語義向量間之分離距離;針對該訓練集之中的每個該檔案,識別相對於該訓練集中其他檔案之最小及最大分離距離;為該訓練集之中各檔案,創建檔案對的集,其中第一對具有該最小分離距離且第二對具有該最大分離距離;將代表語義貼近度之第一值指定予該第一對且將代表語義相異性之第二值指定予該第二對,其中該第二值與該第一值不同。
第一對可為該第一資料檔案及該另一資料檔案。
於一特定實施例中,為一包含該m 最小分離距離及該m 最大分離距離之子集,該方法可包括將該第一值指定予該m 最小且將該第二值指定予該m 最大,其中m 為一小於N 之正整數。
該ANN訓練操作方法可進一步包括:在一資料庫中儲存檔案識別符,該等檔案識別符係容許識別根據以上任一申請專利範圍所述之方法而被評價過其相異性之個別檔案;及對照已儲存之檔案識別符,記錄以下至少一者:與資料庫中其他已識別檔案之距離關係及為該個別檔案所計算而得之屬性向量。
該資料庫可為可經網路存取之資料庫,或位在一使用者裝置內部之記憶體或儲存裝置內。
在某些實施例中,該方法進一步包含:在訓練具有複數處理分支之神經網路過程時,對被指定以處理檔案中不同屬性而在屬性空間中產生個別屬性向量之不同處理分支之間區別,其中區別包括:為在進行成對的比較之成對的對照檔案識別各自屬性向量之相對相似度及相異性;及針對其中成對的比較所產生之屬性向量具有最大相異性之特定處理分支,調整偏誤值及權重中之至少一者。
當該成對的比較中之屬性經評價為相對相似而非相對不相似時,可將相對較大重要性指定予該複數處理分支中之一特定處理分支。
量化語義相異性距離測度可取自對檔案相關描述性內容之自然語言處理。描述性內容可包含於檔案之元資料內。
在各種態樣之特定實施例中,該資料檔案包含音訊,該屬性為音樂屬性,且該等可測量訊號性質定義關於節奏、音調、音色及音樂織體之屬性。
本發明之另一態樣提供一種用於識別具有共通使用者可感知性質之檔案之方法,該方法包含評估目標檔案對儲存於檔案庫中之檔案之貼近度,其中該檔案庫包含多種經獨特識別之檔案,該檔案具有關聯屬性向量,該方法包含:在神經網路中,處理該目標檔案而在屬性空間內產生多維屬性向量,該多維屬性向量係由複數屬性向量組成,該屬性向量是源自複數選擇性地擷取自該目標檔案之可測量訊號性質之不同的集,且其中該複數屬性向量各自經該神經網路加權至語義相異性之測度;及基於該目標檔案多維屬性向量與該檔案庫中檔案之屬性向量間之貼近度,自該檔案庫產生有序的檔案清單。
本發明之第三態樣提供一種使用神經網路識別語義相近資料檔案之方法,該方法包含:於識別語義相近檔案時,在該神經網路中,將反映於量化語義相異性距離測度中之語義感知視為與擷取出之可測量訊號性質之距離測度(330)所反映之屬性評估同樣重要。
本發明之又一態樣提供一種電腦程式,其係包含代碼,當由處理器智慧執行時,該代碼執行如本文所述且特別是如申請專利範圍中所述之各種態樣之方法。
本發明之另一態樣提供一種人工神經網路"ANN",其係包含多層互連之神經元,該等神經元係用於將藉由反向傳播而配置性地選擇之權重及偏誤應用於以音訊內容及影像內容中之至少之一之形式呈現予該ANN之內容,其中該ANN將該內容在語義空間內語義相異性量化測度關聯於為上述內容所擷取出之可測量屬性在屬性空間內之相關屬性分離距離,以提供一輸出,該輸出係隨着時間適應而使在屬性空間內之結果調準在語義空間內之結果,且其中在適應該權重及偏誤時,該ANN視語義相異性測度的價值高於可測量屬性。
本發明之再一態樣提供一種人工神經網路"ANN",其係包含多層互連之神經元,該等神經元係用於將藉由反向傳播而選擇性地配置之權重及偏誤應用於以音訊內容及影像內容中之至少之一之形式呈現予該ANN之內容,而使在語義空間內測得之該內容之語義相異性量化測度關聯於為上述內容所擷取出且經該ANN之該神經元處理之可測量屬性在屬性空間內之相關屬性分離距離,因此使該ANN於應用該權重及偏誤時,視語義相異性測度的價值高於可測量屬性。
本發明之又一態樣提供一種人工神經網路"ANN",其係包含耦接於神經元輸出層之神經元輸入層,其中該神經元用於對藉此所接收之資料套用權重及偏誤,且其中該ANN為:被配置為產生用於神經元之權重及偏誤而使得該ANN之輸出在屬性空間內之調準關聯於事先在語義空間內為參考比較性描述內容所測得之參考語義相異性測度,且其中該屬性空間之判決方式為該ANN處理由套於該輸入之檔案中所擷取出之音訊及/或影像內容之可測量屬性。
輸入層通常與該輸出層以至少一隱藏層隔開。
本發明之另一態樣亦提供一種系統,其係包含:a)複數人工神經網路輸出,用於提供複數屬性向量且其中該屬性向量係自第一資料檔案內容所擷取出之可測量訊號性質;b) 至少一卷積神經網路,用於提供又一屬性向量,其中該又一屬性向量係取自該第一資料檔案該內容之二維表述;c)包含複數獨特可識別資料檔案之資料庫,各資料檔案具有一參考向量,其中各參考向量係由屬性向量組成,且該屬性向量取自(a)擷取出之可測量訊號性質,取自其資料檔案之內容及(b)一取自其資料檔案內容之二維表述之又一屬性向量;及d) 處理智慧被配置為:為該第一資料檔案,自該複數屬性向量及該又一屬性向量產生多維屬性向量;將該多維屬性向量與該資料庫中之該複數參考向量比較;及識別至少一獨特檔案識別符,該檔案識別符具有一參考向量,該參考向量在可測量性方面與該第一檔案之多維屬性向量之參考向量相似,藉此從資料庫中識別出在語義上接近該第一資料檔案之第二資料檔案。
該複數屬性向量係由一神經網路加權以反映語義相異性。
該系統可包括網路連接及通訊單元,其中該處理智慧致使該通訊單元藉由該網路連接將該另一第二資料檔案發送至一互動使用者裝置。可提供使用者介面以便選擇由使用者設定為優先之搜尋特質。
本發明之另一態樣提供一種系統,其係包含:a)複數人工神經網路輸出,用於為一資料檔案提供複數屬性向量,且其中該屬性向量係自該資料檔案之內容所擷取出之可測量訊號性質;b) 至少一卷積神經網路,用於提供由該該複數屬性向量組成之又一上層向量,以產生多維屬性向量;c) 處理智慧,用於接收一對資料檔案之第一及第二不同多維屬性向量且該對資料檔案包括該第一資料檔案及另一資料檔案,且該處理智慧因應上述接收以產生在該第一與第二不同多維屬性向量間之距離測度;及d) 處理智慧,被配置為辨識屬性空間中之距離測度是否關聯於為該第一及第二向量在語義空間內產生之參考距離,該參考距離是基於該對資料檔案之參考比較性描述內容之語義相異性測量。
處理智慧用於將該內容在語義空間內語義相異性量化測度關聯於為上述內容所擷取出之可測量屬性在屬性空間內之相關屬性分離距離。
本發明之再一態樣提供一種預測性系統,藉由創建多對的獨立向量而受到訓練,該獨立向量代表電子來源檔案之人類感知性質及可測量性質,其中:第一向量係產生在語義空間內,且是根據成對來源檔案之間所測得之人類產生的描述中的相異性,因而該第一向量提供成對的貼近度之以使用者為中心的感知;第二向量取得方式是對來源檔案之內容之可測量屬性進行成對的比較所得;且該預測性系統包括 處理智慧,用於適應第二向量之產生程序,因而該第一向量之成對距離接近該第二向量之成對距離。
電子來源檔案包括以下至少之一:數位音訊;影像資料;及語境文學資料。
本發明之又一態樣提供一種內嵌有多維屬性向量之數位音訊檔案,該多維屬性向量包含複數相互組合而成之屬性向量分量,各關於一取自該數位音訊檔案訊號性質之複數數值化表述之音樂屬性。
內嵌多維度向量係一關聯於音樂屬性之向量,該音樂屬性係由代表節奏、音調、音色及音樂織體之可測量訊號性質所定義。
該相互組合之向量分量(ORx 、OTOx 、OTIx 及OTXx )各反映對於該音樂屬性在向量相異性空間內之一測度,該測度係相對於在語義距離分離空間內之參考向量評估而得。
本發明亦提供一種內嵌有一多維屬性向量之數位影像檔案,該多維屬性向量包含複數組合而成之屬性向量分量,各屬性向量分量係關於一取自該數位影像檔案訊號性質之複數數值化表述之視覺屬性。
多維屬性向量(音訊或影像/視訊檔案皆是)並非採用有向性內嵌,而是連結至或交互參照於該數位音訊檔案之獨特識別,例如檔案名稱或國際曲目識別號。
本發明之另一態樣提供一種資料庫,其係包含如請求項41至請求項 43項中任一項所述之多種數位音訊檔案,或如請求項44所述之多種數位影像檔案。
根本上,本發明之方法不同於現有根植於硬性資料數值及/或絕對資料數值之資料科學方法。本發明則強調利用神經網路在向量空間內評估自成對的比較來源檔案所擷取出可測量屬性之相異性對應於相同成對的比較來源檔案相似度/相異性在語義空間內表達之人類感知,輸出評估結果。此語義空間為另一向量空間,其中主觀描述脈絡是映射為代表該脈絡之可測量向量,但現在改用運算數學形式表達。換言之,該內嵌程序可使語義上相似之主觀描述在結果之向量(語義)空間中視為對應相似。
本發明並提供一種創新之資料分類方法,且具體而言,其系統及方法可使原始資料與可能相關搜尋資料間之使用者可感知性質快速同化,該搜尋資料例如是偵測可能吸引聽者興趣之音訊或音訊檔案片段。
一較佳實施例提供一種曲目找尋器或曲目建議工具,其能夠持續對取樣而得之音樂片段進行分類,具體程序包括在在其片段中提煉出可識別音樂屬性,而後識別出其他具有與此相同音樂特性及/或主觀音樂學特點之音樂片段。
有鑑於音樂庫(不論包含數百或數千首樂曲之個人音樂庫或是具有數百萬曲目且用於商業串流或下載之商業音樂庫)內可存取音樂性檔案之數量,包括可能與原始音樂片段略有不同或大幅不同之樂曲混音,本發明提供一種有用且有效之建議工具,其可根據感知音樂學相似性排序而調整曲目搜尋結果,且因此能夠無視任意類型分類,而專注於感知音訊特性/相似性。
因此,本案各種實施例中曲目找尋工具之優點在於可幫助聽者找出符合使用者特定主觀品味之音樂,減少聽者所需聽取之樂曲數量,亦即本發明之曲目找尋工具可藉由識別使用者導向之感知性相關曲目縮小搜尋空間。此外,藉由客觀且技術合格之音樂學評估,本發明實施例能夠以更快速度取得儲存於音樂庫或藉由音樂庫存曲之音樂(特別是可供訂閱者存取之線上音樂庫或伺服器商店)並增加存取頻率,藉此藉由合格建議而有助於改善末端使用者選擇及末端使用者對音樂之存取。因此本發明實施例可藉由基於感知上相似之音樂屬性,對更具選擇性且更可能接受之收聽群眾宣傳新增音訊曲目及藝人而解決冷啟動問題。
相同原理適用於以透過電腦所實施之來源資料分析程序識別可用其他語境描述之主觀作品,包括影像、文字及/或視訊。
如所附申請專利範圍及以下說明中所描述之本發明各種態樣及實施例可藉由硬體解決方案及/或軟體方式實施,包括可下載代碼或網路式應用程式。
為提供一種例如可藉由一網路瀏覽器或本機應用程式存取,而評估(例如)音訊曲目間之語義相似性或相異性之工具,必須利用深度學習及人工智慧識別經處理而在語義空間內提供第一指標之語義意義與相同資料來源內容在另一可測量空間(例如歐幾里得空間,但亦可使用其他維度空間)內之可測量屬性間之相似性。此程序能夠有效在一空間內語義意義之相似性與另一空間內擷取出之可測量屬性之相似性間達成平移映射。
更具體而言,情緒感知相似度或相異性之測度(特別是在數位音訊檔案、影像檔案或其他數位形式感知性美學創作方面)無法單獨從例如訊號性質之數值化表述等硬式資料領域取得,因為硬式資料無法提供由人類評論者(例如聽者)所體驗之任何解讀。換言之,單純仰賴特徵擷取無法準確提供情緒感知相似度或相異性之客觀評估,因為訊號性質之量化表述(不論單獨或群聚)完全無法反映真實情感世界。
因此,本發明有鑑於先前技術中完全解耦且採用客觀評價之辦法之缺失,利用一或複數經訓練之人工神經網路 ANN,將以主觀方式取得並在語義空間內表達之內容描述,映射(亦即關聯或連接於)為擷取自同對對比檔案而表達於歐幾里得空間內之可測量屬性,藉此解決前案技術中特徵擷取與相似度或相異性之人類直覺及/或人類情緒感知(具體而言,為主觀評估/感知資料,例如音樂)間解耦之問題。
利用神經網路可建立兩個獨立向量,在不同向量空間內表述數位音訊及/或影像資料及/或文學作品之情緒性可感知相異性或文件記錄之相異性。語義空間中之第一向量係基於人類對於來源檔案之描述,且因此絕大部分為語境權重,因此利用第一向量評價並修正在例如歐幾里得空間內之第二向量,藉此藉由改變ANN中之權重,促使另一神經網路之輸出收斂為第一神經網路之語義結果。歐幾里德向量亦 是取自於在人工神經網路之深度學習過程中自該原始來源資料提處而出之選定主觀屬性,例如歌曲之成對的比較。
在訓練之後,藉由收斂程序而最終提供ANN之轉換功能,將任何資料檔案相對於其他經預先評估之資料檔案進行對照評估,藉此評價語義及情緒性可感知內容之相似度。
確切而言,至少在人工神經網路之訓練階段,針對一共同來源產生兩種獨立向量。第一向量係在語義上基於且取自(通常) 該來源資料/檔案之關聯元資料,且該第二向量係擷取自該來源/資料檔案之主要內容(例如有效載荷)。上述兩種向量(一者基於人類判斷,另一者為自硬式資料擷取出之可識別及絕對可測量屬性)應為完全相同,但事實上可能並非如此。因此,為產生真正具有情緒/感知相異性或貼近度評估能力之代表性預測工具,絕對可測量屬性之處理必須最終導致與人類判斷性質,亦即語義性質,完全相同之結果。為反映真實情緒感知,關於人類判斷之評估遠較取自共同來源之可識別及可測量有形屬性之絕對評價更為重要。藉由對於處理可識別及可測量有形屬性之人工神經網路所套用之權重及偏誤值進行調整,取得更貼近現實之準齊,如人類智慧、判斷及感知推理所反映者。1. 語義空間內語境解釋之相似度 / 相異性評估
首先利用自然語言處理(NLP)及類似技術,將檔案性質之初始語義描述,例如一語境書面描述包括脈絡一文句及特定文字之使用,轉換為或「內嵌」至一多維度語義向量。語境書面描述可產生主觀、感知及/或情緒性之人類判斷指標。
NLP,如Google®通用文句編碼器及具體而言為TensorflowTM Hub所支援者,將 文字編碼為高維向量,以便用於文字分類、語義相似度、群聚及其他自然語言處理任務。就實務而言,兩種語義相似描述之NLP 處理將產生相似之向量表述。
雖然不同註解者之文字描述間可能有所差異,但因所採取之處理性質之故,此類差異在統計上並不納入考量。
文字與向量表述間轉換程序之選擇取決於設計,例如TensorflowTM 處理可利用Transformer編碼器或者深度平均網路(DAN)進行訓練。從整體訓練觀點而言,在語義空間內之關聯向量具有技術重要性。
語義向量化程序可應用於具有語義屬性及可轉換為數值表述之對應美學描述符之其他形式之媒體資料,例如為繪畫或影片形式之影像資料。
在訓練過程中,將取自NLP之多維度向量以成對方式與其他以NLP取得之向量比較,藉此在語義向量空間中識別成對語義貼近度之分離距離表述。如此可首先建立關於成對貼近度之使用者中心感知。於此方面,應知「語義」及「語義空間」等與係反映源自對例如音訊曲目等檔案內容之人類知覺或情感 (亦即語義)性質主觀描述之對應向量或數值之原點。
NLP之使用可提供文字描述符與在語義空間內向量值間之初始映射。相同原理可套用於其他媒體之分類,例如視訊、影片、繪畫、服裝等時尚主體及裝飾(顏色及模式及覆蓋物等等之織體方面之屬性)且可能包含具有影像資料之醫療記錄。
在音樂領域之範例中,若取Rimsky-Korsakov之「Flight Of Bumblebee」為第一音訊訓練曲目,此音訊曲目可描述為兩個文字維度「狂熱」及「光」,NLP將僅包含此二NLP辨識語彙之曲目歸類於向量表述1004512112。當然,語言維度之數量可超過兩個,因此音訊曲目之描述可擴大至包括其他語義聯想,例如關於(i)時間事件,例如黃昏、復活節、多雲等等及/或(ii)感覺及/或(iii) 主題,例如童話故事或事實及/或(iv)環境。
向量「1004512112」僅為一任意範例,事實上,產生之多維度向量可為完全不同之型態,特別是因為文字/文句維度之數量僅受限於可取自該音訊曲目描述文句之語義聯想。
此程序重複於大量獨立樣本,例如通常包含數千且更佳者為至少約一萬或以上之樣本,以組成音訊曲目找尋應用之多維度矩陣,用於提供一語境範例。因此可在所有訓練曲目之間建立語義相似度/相異性,例如上述之「Flight Of Bumblebee」及,例如,Delta Heavy之電子歌曲「White Flag」或Green Day表演之「Boulevard of Broken Dreams」。但訓練集之大小係為設計選擇,且取決於處理能力、時間及所需達成之信心程度/準確度。於訓練ANN時,亦可不就所有向量對進行評估,而僅選擇成對距離測度之極端變化。
於一較佳實施例中,結果之語義第一向量係由至少64個別維度分量組配而成(確切數量係取決於實施選擇及所需準確度)。使用TensorflowTM 通用文句編碼器時,語義描述處理產生一個包含五百一十二個維度之向量(在語義空間內)。確切語義向量長度為設計選擇且可變動。
語義向量與屬性向量(下文詳述)大小是否相同無關緊要,因為系統是以成對方式評估相異性。2. 基於擷取出之屬性評估距離
在第二訓練程序中基於所得「屬性」(對比於用於成對語義貼近度之檔案語義描述,如上段及下文中段落3所詳述者)產生第二獨立向量時,套用於神經網路各層中結點之權重因數經反向傳播而修改,藉此使屬性距離空間(通常為歐幾里得空間)內之結果朝向語義(通常歐幾里得)分離距離(在語義空間內)之結果收斂,並因此於本質上回歸原始語義描述。
如上所述,所處理之輸入資料雖然來自共同來源及一個檔案,但輸入性質不同,就此概念而言,第一向量與第二向量之向量空間不同。因此,NLP對主觀描述材料之處理可視為在語義空間(或語義距離空間)內產生第一向量,而對於特定屬性絕對值(即便此等屬性可透過不同訊號屬性數值用語表達)之處理則如同ANN之輸出,產生「屬性空間」內之第二向量。
在一較佳實施例中,歐幾里得空間係對立於可輕易思得之替代方案,亦即非歐幾里德幾何。
人工神經網路之功能為將來源檔案之可測量屬性轉換為可操縱之向量表述。如此轉換能夠產生第二獨立產生向量,亦稱為第二向量。此一轉換過程可視為「特徵擷取」。在一較佳實施例中(音訊處理之示範案例),特徵擷取係使用Music Technology Group在龐培法布拉大學所開發之EssentiaTM 應用程式而達成(見https://essentia.upf.edu/documentation/streaming_extractor_music.html)。
EssentiaTM (或具有相同功能之工具)是一現有檔案庫,提供來源音訊檔案分析基礎,以供識別多種音訊描述符,例如頻帶能量、頻帶直方圖及來源曲目之其他可測量音樂性質。在EssentiaTM 中,此等音訊描述符之數量多達一百二十七個。每一音訊描述符可視為音訊訊號可測量參數之數值化表述。
復見音訊檔案之範例,EssentiaTM 之處理智慧(與同等分類機制相似)可擷取來源檔案之特徵。自一定義各音訊曲目廣泛音樂性態樣或特性之子集中選擇適當音訊描述符,該子集例如是[名義上]來自音訊描述符倉1、15、32、33及108 (來自Essentia 總計127個音訊描述符中)之第一測得數值化表述子集,可再加上程式員所定義之「節奏」,而來自音訊描述符5-21、43、45、50、71-77及123-127之測得數值化表述子集可定義「音色」及第三不同子集音調,亦即該演奏之音調性質。因此上述子集可提供來源音訊曲目樣本之進一步音樂學語義屬性。
對於其他形式之來源檔案,例如視訊或影像檔案,自來源檔案分析出替代可測量參數,以定義替代可用性質。
如上所述,在音訊方面,且具體而言為音訊屬性方面,一段音樂可透過音色、節奏、音調及織體加以描述。音色、節奏及音調之屬性尤為重要。3. 可測量音樂屬性 就此方面而言,應知:
「織體」(TEXTURE)通常反映於時間頻率空間中關於光譜內容之時間進行之之二維模式。因此織體可見於描述頻域與時域關係之梅爾光譜或梅爾頻譜。神經網路 (如下文所述)可藉由識別梅爾頻譜隨時間變化之模式而習得織體之變化情形,例如(i)中高範圍頻率內之中斷水平光譜線、(ii)延伸於中高頻範圍內之平行垂直光譜線以及(iii)中低頻範圍內之向上或向下階段。因此織體提供一進一步補充語義屬性,在本發明中可用於藉由提供屬性空間內之進一步可測量指標而評估曲目相似度/相異性。
「節奏」(RHYTHM)可視為根據音符相對持續時間及相對抑揚之安排(見https://www.naxos.com/education/glossary.asp?char=P-R#)。如可知,節奏之表達方式可例如(但不限於)為: i)       節拍響度,推算自節拍及具有反映 平均及變異值之集合之音樂聲譜圖(見https://essentia.upf.edu/documentation/reference/std_BeatsLoudness.html及https://essentia.upf.edu/documentation/reference/std_BeatTrackerMultiFeature.html); ii)    每分鐘節拍「BPM」(見https:// essentia.upf.edu/documentation/reference/std_BpmHistogramDescriptors.html及https://essentia.upf.edu/documentation/reference/std_BeatTrackerMultiFeature.html); iii)  BPM直方圖,推算自具有反映第一及第二峰高及寬度之集合之訊號 (見https://essentia.upf.edu/documentation/reference/std_BpmHistogramDescriptors.html,及https://essentia.upf.edu/documentation/reference/std_BeatTrackerMultiFeature.html); iv)  舞蹈性 (見https://essentia.upf.edu/documentation/reference/std_Danceability.html); v)    起音速率(見https://essentia.upf.edu/documentation/reference/std_OnsetRate.html);及 vi)  全頻帶節拍響度,推算自節拍及由六個頻帶平均值及變異所反映之音樂聲譜圖(見 https://essentia.upf.edu/documentation/reference/std_BeatsLoudness.html及https://essentia.upf.edu/documentation/reference/std_BeatTrackerMultiFeature.html)。
雖然Essentia中之節奏屬性包含六種可測量特性,但事實上,此項屬性可包含超過六種可測量特性,如特定音樂學特性之平均及變異值說明所反映者。熟悉此技藝人士應知,為屬性節奏所編輯之多維度向量可與建議Essentia 參數不同,且可由其他可測量特性構成而提供具音樂學上可行性之節奏定義。在一較佳實施例中,節奏概念於名義上包含十九個(19)可測量特性,但亦可使用其他特性數量。
「音調」(TONALITY)為音樂作品之音高及/或和弦在感知關係、穩定度與吸引力及定向性之層次關係中之安排。在此層次關係中,具有最大穩定度之單一音高或三和弦稱為主音。因此音調是組織化之音調系統(例如,大調或小調音階音調),其中一個音調 (主音)成為其餘音調之中點,其餘音調可根據與主音之關係加以定義。和聲為感知音調性質。
如可知,音調之表達方式可例如(但不限於)為: i)                和弦改變率,推算自光譜之諧波音級配置文件(HPCP) (見https://essentia.upf.edu/documentation/reference/std_ChordsDescriptors.html); ii)              和弦數量率,推算自HPCP (見https://essentia.upf.edu/documentation/reference/std_ChordsDescriptors.html); iii)           和弦強度,推算自具有反映平均及變異之集合之HPCP (見https://essentia.upf.edu/documentation/reference/std_ChordsDescriptors.html); iv)           HCPC熵,推算自具有反映平均及變異之集合之HPCP (見https://essentia.upf.edu/documentation/reference/std_HPCP.html,及 https://essentia.upf.edu/documentation/reference/std_Entropy.html); v)              調強度,推算自 HPCP (見https://essentia.upf.edu/documentation/reference/std_KeyExtractor.html); vi)           tuning 全音階強度,推算自 HPCP (見https://essentia.upf.edu/documentation/reference/std_TuningFrequency.html); vii)         調音等同經調整偏差,推算自 HPCP (見https://essentia.upf.edu/documentation/reference/std_TuningFrequency.html); viii)      調音非經調整能量率,推算自 HPCP (見https://essentia.upf.edu/documentation/reference/std_TuningFrequency.html);及 ix)           和弦直方圖,推算自 HPCP (見https://essentia.upf.edu/documentation/reference/std_ChordsDescriptors.html)。
雖然Essentia中之音調屬性包含十種可測量特性,但事實上,此項屬性可包含超過十種可測量特性,如特定音樂學特性之平均及變異值說明所反映者。熟悉此技藝人士應知,為屬性音調所編輯之多維度向量可與建議Essentia 參數不同,且可由其他可測量特性構成而提供具音樂學上可行性之音調定義。在一較佳實施例中,音調概念於名義上包含三十三(33)個可測量特性,但亦可使用其他特性數量,該其他特性係取自使用更大或更小之數值化測量細粒度。例如,「和弦直方圖」實施為二十三維向量。
在Essentia對不同可測量特性「和弦強度」之處理方面,其推算方式為以移動窗口(框架)解析音訊檔案,並自各移動窗口(框架)擷取一值以產生一連串數字(每框架一數字)。而後利用數字串計算平均及變異。因此,在一較佳實施例中,「和弦強度」之測量係合理化為僅僅兩個數字,亦即上述數字串之平均及變異。此範例顯示,即便反映一屬性之多維度向量,例如節奏或音調,包含足以提供使用者可接受屬性定義之光譜資訊,用於評估該屬性之測量值仍可能脫離Essentia之建議。
「音色」(TIMBRE)是相對深奧之測度,且藉由聲音之頻譜圖可見其聲音複雜性。音色為音符、聲音或音調之感知聲音性質。音色區分不同聲音產生類型,例如人聲合唱及樂器,例如弦樂器、管樂器及打擊樂器。其亦使聽者能夠區別同類中之不同樂器(例如雙簧管與單簧管,兩者皆為木質吹管樂器)。代表音色感知之聲音物理特性包括聲譜及訊號封包,即便兩種聲音具有相同音高及響度,亦可從音色加以區分。
如可知,音色之表達方式可例如(但不限於)為: i)                       barkbands_crest,推算自具有Bark頻率範圍平均及變異集合之Bark帶頻過濾聲譜圖 (見https://essentia.upf.edu/documentation/reference/streaming_Crest.html及https://en.wikipedia.org/wiki/Bark_scale#Bark_scale_critical_bands); ii)                     barkbands_flatness_db, 推算自具有Bark頻率範圍平均及變異集合之Bark帶頻過濾聲譜圖 (見https://essentia.upf.edu/documentation/reference/std_FlatnessDB.html); iii)                  barkband_kurtosis,推算自具有Bark頻率範圍平均集合之Bark帶頻過濾聲譜圖 (見https://essentia.upf.edu/documentation/reference/std_DistributionShape.html); iv)                  barkband_skewness,推算自具有Bark頻率範圍平均及變異集合之Bark帶頻過濾聲譜圖 (見https://essentia.upf.edu/documentation/reference/std_DistributionShape.html); v)                     barkband_spread,推算自具有Bark頻率範圍平均集合之Bark帶頻過濾聲譜圖 (見推算自具有反映平均及變異之集合之音訊訊號聲譜圖之光譜複雜度 (見https://essentia.upf.edu/documentation/reference/std_DistributionShape.html); vi)                  光譜失調,推算自具有反映平均及變異之集合之音訊訊號聲譜圖(見https://essentia.upf.edu/documentation/reference/std_Dissonance.html); vii)                dynamic_complexity 推算自音訊訊號之RMS封包(見https://essentia.upf.edu/documentation/reference/std_DynamicComplexity.html); viii)             高頻內容, 推算自具有平均之集合之音訊訊號聲譜圖 (見https://essentia.upf.edu/documentation/reference/std_HFC.html); ix)                  音高顯著, 推算自具有反映平均及變異之集合之音訊訊號聲譜圖 (見https://essentia.upf.edu/documentation/reference/std_PitchSalience.html); x)                     光譜複雜度,推算自具有反映平均及變異之集合之音訊訊號聲譜圖(見https://essentia.upf.edu/documentation/reference/std_SpectralComplexity.html); xi)                  光譜能量高頻,推算自具有反映平均及變異之集合之音訊訊號聲譜圖(見https://essentia.upf.edu/documentation/reference/std_EnergyBand.html); xii)                光譜能量低頻,推算自具有反映平均及變異之集合之音訊訊號聲譜圖(見https://essentia.upf.edu/documentation/reference/std_EnergyBand.html); xiii)             光譜能量 中高頻, 推算自具有反映平均及變異之集合之音訊訊號聲譜圖(見https://essentia.upf.edu/documentation/reference/std_EnergyBand.html); xiv)             光譜能量中低頻,推算自具有反映平均及變異之集合之音訊訊號聲譜圖(見https://essentia.upf.edu/documentation/reference/std_EnergyBand.html); xv)                光譜熵,推算自具有反映平均及變異之集合之音訊訊號聲譜圖 (見 https://essentia.upf.edu/documentation/reference/std_Entropy.html); xvi)             光譜通量,推算自具有反映平均及變異之集合之音訊訊號聲譜圖(見https://essentia.upf.edu/documentation/reference/streaming_Flux.html); xvii)           光譜峰度,推算自具有平均之集合之音訊訊號聲譜圖值 (見https://essentia.upf.edu/documentation/reference/std_DistributionShape.html); xviii)        光譜強峰,推算自具有反映平均及變異之集合之音訊訊號聲譜圖(見https://essentia.upf.edu/documentation/reference/std_StrongPeak.html); xix)             零交叉率,推算自音訊訊號且具有平均及變異之集合(見https://essentia.upf.edu/documentation/reference/std_zeroCrossingRate.html); xx)                MFCC,推算自具有平均之集合之音訊訊號聲譜圖 (見https://essentia.upf.edu/documentation/reference/std_MFCC.html);及 xxi)             光譜對比,推算自音訊訊號且兼具峰谷平均及變異之集合 (見https://essentia.upf.edu/documentation/reference/std_SpectralContrast.html)。
雖然Essentia中之音色屬性包含二十一(21)種可測量特性,但事實上,此項屬性可包含超過二十一種可測量特性,如特定音樂學特性之平均及變異值說明所反映者。熟悉此技藝人士應知,為屬性音色所編輯之多維度向量可與建議Essentia 參數不同,且可由其他可測量特性構成而提供具音樂學上可行性之音調定義。在一較佳實施例中,音色概念之可測量特性公稱數量為七十五(75)個,但若於測量時使用更高之細粒度,亦可使用其他數量之特性,如上述且如音樂學家所知者。
於音訊曲目評估及曲目找尋之範例中,音調、節奏及音色屬性主要是為來源檔案主觀性質之客觀評價提供衡量基礎。此等屬性可取自EssentiaTM 特性,如上所述,或取自EssentiaTM 訊號特性之子集,或取自可識別適當音訊描述符之類似檔案庫。確實,如可知,本發明選擇十九、三十三及七十五個節奏、音調及音色屬性量化表述,其中有些可見於EsssentiaTM 工具箱,有些則為變體或其他訊號測度。因此,數值化表述之數量並非固定,實可根據該音樂學家認為所評估之特定屬性應使用何種訊號特性加以定義而變化。
有鑑於此,熟悉相關技藝人可視設計需要選擇以何種可測量特性定義用於同化程序之適合之屬性。例如,節奏屬性可包括或排除某些Essentia測量項目,因此可知雖然所評估之屬性為技術性質且可利用先前技術程序測量,但因其對於如何構成「屬性」缺乏統一定義,在技術上有所不足。檔案內容屬性實則在一定程度上既深奧且主觀。重點在於必須將具有決定性且以主觀方式組合之可測量項目在屬性空間內映射為獨立卻完全相關且對應之語義評估 。4. 人工神經網路 (ANN)
根據本發明各種態樣及實施例之概念,是將在屬性空間內之成對相似度/相異性映射回在語義空間內內之初始語義相似度/相異性(例如具表達性且主觀之語言描述符)。此為多階段程序,可能涉及平行運作之複數神經網路。利用多重平行ANN可控制音樂形式,但亦可使用單一ANN。本發明之態樣係針對負責處理擷取而得屬性並評估在該屬性空間內之相異性之神經網路進行 訓練。
圖1為根據本發明之流程圖,描繪檔案(具體而言為音訊檔案)相異性之評價較佳程序 100及人工神經網路之訓練程序。圖1 因此對應於並擴大至上述關於「1:在語義空間內語境解釋之相似度/相異性評估」之程序。
在此以音訊檔案為根本程序之範例,因為音訊檔案,特別是音樂檔案,可自套用之個別人類感知主觀解讀。
於一具有數百(數千更佳)來源檔案之訓練集中,選擇檔案對102並藉由ANN 評估進行語義對照。在第一路徑上,人工神經網路利用NLP擷取104,亦即進行處理而為每一檔案相關文字元資料(或為附加描述)中所轉換之語義意義產生/嵌入表述向量,例如該檔案對中之每一音訊曲目。如此通常可自TensorflowTM (或類似工具)產生106一個有五百一十二(512)維向量,將所得語義意義表達為可加以評估之可操縱數值。
因此ANN能夠有效表列出訓練集中所有N個檔案之向量分離距離,其中N 通常超過五百個檔案且通常遠多於數千個。訓練程序中之樣本越多,雖會使得處理複雜度增加,但細粒度及關聯信心越大。簡言之,樣本越多越好。然而,訓練ANN時,亦可於程序中進行檔案對之子選擇,以距離分離表示檔案十分相似或十分不相似,亦即可基於極端條件進行訓練。
此時,將相對距離分離以表列方式呈現,雖然分離距離值中存在有絕對距離 (例如五個測量單位、五十七個測量單位或1013個單位),但其並未反映相似度/語義貼近度在多維度空間中之刻度表示值。假設N 夠大,每一檔案(曲目)會在N個檔案中有至少一合理特定數量m 之檔案(其中m 為一正整數且m <<N )為相似或不相似。
在一較佳實施例中,針對訓練集中之每一來源檔案,例如歌曲「A」,選擇任意數量(例如十個)在語義距離向量空間中最貼近之向量;如此可形成一組或一群語義密切相關歌曲。統計上,針對包含數千或數萬來源檔案之訓練集,在可能語義貼近度方面,聚集全部檔案之[為等量] 0.1% 即為統計上可接受之比例。相對於合理訓練程序中之所有歌曲而言,貼近度之範圍可為約0.05%至約1%,但音訊相異性之可能使用者感知將會隨百分比值增加。
對於歌曲「A」,系統智慧將「m 」首 (例如十且其中m ≥1)最接近歌曲視為使用者感知上近似而為語義上相似。具體做法為將歌曲「A」向量前後之m 首歌曲間之距離設定為零,並記錄在資料記錄中。對於所有非上述m 首最貼近歌曲以外之所有歌曲,系統智慧將之視為不相似,亦即此等其他(非上述m 首) 歌曲在語義上不相似,亦即在使用者感知上遠離。因此,不相似歌曲與歌曲「A」相隔為一之距離。因此,就每一接受評估之音訊曲目,系統會創造2*m 對記錄並儲存為可檢索且可存取之記錄。選擇相同之m 值可確保神經網路之訓練不因另一者之極端而產生偏誤(就相似度或相異性方面)。
ANN之處理負擔在多數情況下能夠於訓練程序中之某時點合理化114,如熟悉此技藝人士所知者。具體而言,經最佳化之ANN訓練是藉由以極端案例訓練而成,並非使用大量相似值。因此,針對任何成對關聯,採用分隔最遠及最近分離距離可省下用以調整ANN中神經元所用權重之時間。
藉此,如以上段落1 :在語義空間內之語境解釋相似度 / 相異性評估 所說明,以「第一向量」形式存在之第一語義參考建立為ANN 訓練之參考。
回到原始來源檔案(例如音訊曲目),第二評價及評估路徑126 同樣以成對方式在擁有N個檔案 (例如N個音訊曲目)之整個訓練空間中尋找指示模式。具體而言,如上文2 :基於擷取出之屬性評估距離 所述,該程序藉由解析來源 (音訊)檔案對而執行訊號特性之特徵擷取130,藉此產生訊號性質數值化表述倉,如上文3 :語義屬性 [於音訊/音樂之該特定範例中]所解釋者。訊號性質之個別數值化表述倉經適當辨識後選擇性分組132以定義語義/主觀音樂學屬性,亦即節奏、音調、音色及織體,而後可在屬性空間內以更為絕對之方式進行評估及操縱。
以下參照圖2 及圖3之程序。
圖2為根據一較佳實施例之系統架構示意圖,此系統係用以訓練一包含人工神經網路在內之系統。圖3之流程圖說明訓練圖2神經網路之較佳程序,其目的在於使語義向量空間與屬性向量空間同化以識別來源檔案間之屬性相似性及屬性相異性。
以成對方式,從訓練資料庫 306之N 個檔案中選擇兩個檔案(例如數位音訊檔案302、304),由系統 300進行評估及解讀。系統 300可實施於一更通用之系統智慧,例如受伺服器支援或為包括複數人工神經網路之分散式互動處理器系統。
如上所述,以特徵擷取器 301 (例如 Essentia或其功能相等者,不論用於示範之音訊檔案案例處理或例如圖片等不同格式來源檔案處理)對所選音訊檔案進行初始處理,產生訊號性質之數值化表述倉,將此等表述倉選擇性分組,藉此定義以數值方式代表不同語義屬性P之多項輸出,例如音色「PTi」、音調「PTo」及節奏 PR。將各音訊曲目各項主觀屬性之數值表述(例如自曲目2所擷取出之音調屬性PTo2)共同以輸入之形式套用於專屬平行神經網路,以利於屬性評價程序中進行權重最佳化。
以音訊檔案及曲目找尋系統為例,其中包含用於節奏「NNR 」310、音調 NNTO 312、音色 NNTI 314及音樂織體NNTX 318之複數獨立 ANN。
音樂織體為特殊案例,所需流程不同,將於下文詳述。
對於例如影像等其他訓練資料之處理及評價,平行ANN 鏈之數量可有所增減。ANN 鏈,圖2中所示為四個,可視為獨立處理路徑、分支或途徑,且因此為網路之子網路)。數量僅關乎語義上可識別屬性之數量。事實上,系統可僅利用單一ANN鏈處理多重路徑之資料,以達成適合用於評價之複合結果。
節奏「NNR 」310之ANN接收僅屬於節奏屬性之輸入表述,此係由具有十九個分量之向量所組配而成(在一較佳實施例中),亦即十九個擷取出之訊號特性。音調「NNTO 」312之ANN接收僅屬於音調屬性之輸入表述,此係由具有三十三個分量之向量所組配而成(在一較佳實施例中),亦即三十三個擷取出之訊號特性。音色「NNTI 」314之ANN接收僅屬於音調屬性之輸入表述,此係由具有七十五個分量之向量所組配而成(在一較佳實施例中),亦即七十五個擷取出之訊號特性。
如上所述,各屬性之定義可能在數量及/或各倉擷取之訊號表述特性本質上有所變化。因此,於使用Essentia處理音訊檔案之範例中,可使用所有或部分可用特性訊號倉(包括,例如,音色之barkbands_flatness_db及dynamic_complexity),亦可改用以上未提及之或其他特性訊號倉或以其他方式擴大數量。因此,「屬性」之定義(在某種程度上)屬於主觀性質,然若採用一貫之屬性定義辦法,則主觀性並不構成影響。換言之,編程者能夠藉由識別並選擇所需之訊號特性測量而決定如何定義主觀屬性。
因此,節奏「NNR 」310、音調 NNTO 312、音色 NNTI 314及音樂織體NNTX 318之ANN 判定並調整用於說明此等屬性差異之權重值,透過迭代程序調整權重及偏誤。該迭代程序涉及整個訓練集,並利用反向傳播演算法找出各項可訓練參數之適當調整。反向傳播程序為熟悉此技藝人士已知,因而在此指出準齊之目標及在此所述之架構及程序所欲達成之目標及優點。
音樂織體對於內容屬性指標 (以成對方式比較取自各曲目可測量屬性之向量表述)與語義指標 (以成對方式比較取自各曲目語義描述之向量表述)同化亦有所影響。
因此,本發明實施例所採用之辦法是強調人類情緒感知重於嚴格機器學習,藉此使ANN之運作偏重人類感知而非基於絕對數值資料解讀之統計映射。
圖4為音訊曲目之標準梅爾頻譜500。如熟悉此技藝人士所知者,梅爾譜圖(可換稱為梅爾頻譜)為準對數,其間隔大致類似人類聽覺系統之解析度,且因此為更「生物學感」之音樂感知測度。梅爾頻譜為聲音短期功率譜跨一頻譜之表述,根據對數功率譜在非線性梅爾頻率刻度上之線性餘弦轉換。於梅爾頻譜中,(名義上) 50Hz至100Hz間之頻格中之功率譜等同於在較高頻率跨較大頻率範圍之功率譜,例如400Hz 至800Hz,但可為亦 10kHz至20kHz。梅爾頻譜產生方式係為已知技術,因為此等頻格就音樂解讀方面而言,在感知方面具有同等重要性。
此外,雖然音訊曲目之音樂主題可能每段不同且因此影響梅爾頻譜,但於解釋一較佳實施例時,假設音訊中之主題及引用窗格均為相對固定。當然,此一替代方案是將音訊曲目,例如Queen之「Bohemian Rhapsody」,分割為數個片段,使其於語義空間內分別接受獨立之評估程序。
梅爾頻譜不僅為局部樣本,亦因在時域及頻域中皆具有維度而呈現複雜本質。在結果之時域與頻域分量二維矩陣中,可藉由分離出目標模式而釐清主題。此一目標模式可在一頻率(縱座標)相對於時間(橫座標)之光譜分量圖中觀察而得:i) 延伸藉由中高頻範圍之平行垂直線502;ii) 中高頻範圍內之中斷水平線504;iii) 中低頻範圍之上升506或下降508階段。可以理解的是,其他模式亦存在於該梅爾頻譜。
因此,屬性織體可經分析梅爾頻譜而得,且具體而言,ANN對模式及趨勢之識別提供在屬性空間內之額外向量分量,可用於圖2系統 300之訓練。
各ANN用於訓練程序/訓練資料集之輸出,包括對各曲目織體之貢獻,在屬性空間內組合成一多維度輸出向量序連,或以其他方式自各曲目各屬性之多重輸出ORx、OTOx、OTIx及OTXx (其中x代表相關曲目號碼,亦即曲目1或曲目2)組成。各輸出向量之確切長度出於自由設計選擇,然應知其長度應足以實現在屬性空間內之客觀評估及區別。在一較佳實施例中,來自各ANN 鏈之每一必要平行處理輸出構成分屬於節奏、音調、音色及織體等屬性之六十四維輸出向量ORx、OTOx、OTIx及OTXx(織體需要不同之處理,將於下文詳述)。
複參照圖2,此係為所選檔案對中之各檔案(於此示範案例中為數位音訊曲目)302、304產生之梅爾頻譜 500。此程序已為熟悉此技藝人士所知。首先將兩首樂曲交由卷積神經網路(CNN)320處理,而後將各曲目之個別向量輸出交由指定之織體評價ANN (NNTX 316)進行處理及解讀。NNTX 316平行於其他負責節奏、音調及音色等方面向量之評價及內嵌之神經網路。於一較佳形式中,曲目1及2自NNTX 316之個別向量輸出OTX1 、OTX2 亦是六十四維向量,繼而將每一輸出序連或以其他方式與各曲目之另三個向量組配(標示為ORx、OTOx、OTIx),而為曲目1及2分別產生一兩百五十六維向量。此兩百五十六維向量(確切長度同樣如上述為設計選擇)即為上述「歐幾里得空間內之第二向量」。
系統智慧包括一比較器330,其功能為利用在語義空間內之對應距離測度評估在屬性空間內之距離測度(產生於成對曲目中就每一曲目所組成之複合第二向量間,如由四項輸出 ORx、OTOx、OTIx及OTXx組成者)。系統智慧因此建立起兩個空間之關聯。系統比較向量間距離之方式可例如為利用平方絕對距離計算。
而後,系統智慧以操作視圖對照第一向量與第二向量,使該第二向量準齊於第一向量之貼近度評估。換言之,系統智慧將語義距離(基於文字評價)對照於屬性距離。換言之,語義空間內之第一向量(基於來源檔案之人類描述)係用於評價並修正屬性空間內之第二向量(關於擷取出之內容可測量屬性),藉此藉由改變ANN中之權重而促成該第二神經網路輸出朝向第一神經網路語義結果之收斂。目的是使重組之序連輸出 [且具體而言,關於訓練曲目間差異所評估之歐幾里德屬性向量330]亦可由零至一之刻度表示,且就節奏「NNR 」310、音調 NNTO 312、音色 NNTI 314及音樂織體NNTX 318)之各ANN之權重進行調整,而使歐幾里德屬性距離測度330傾向,或更佳者為複製,語義數值化距離。量化方案亦可使用其他刻度表示方式,而非硬性階級。
具體而言,在節奏「NNR 」310、音調 NNTO 312、音色 NNTI 314及音樂織體NNTX 318之各ANN中所套用之權重因數是透過已知反向傳播程序進行調整,因此使得成對比較曲目/檔案之歐幾里德屬性距離測度330結果傾向,且理想上最終是以高度準確度關聯於,語義空間內之距離測度。如熟悉此技藝人士所知者,反向傳播程序是根據客觀對照用於定義可識別檔案屬性可測量訊號特性而調整所用權重,進而對神經網路進行訓練。
採用兩條評估獨立路徑(一條完全在語義空間內處理,另一條基於觀評價屬性之可測量性質推進至測得屬性空間)之效用為產生能夠更貼切準齊於人類貼近度或相異性感知之情緒性感知系統。在於不同音樂類型間找尋曲目之範例中,其效用為於不同曲目間產生在量上增加且在質上提升之關聯,即便曲目乍看之下屬於完全不同且無關之音樂作品類型。如此能夠提供改良且可靠之建議工具,將相關內容推送至新增或現有使用者,進一步解決例如冷啟動之問題。事實上,該程序及系統之架構具有情緒性感知性,而可允許語義意義之語言獨立內嵌。因此可疊用中文及英文可而不影響語義解讀或結果。
梅爾圖譜是音訊作品在客觀歐幾里得空間中語義屬性評估之另一元素,其係經卷積神經網路(CNN)處理而產生一代表音樂「織體」主觀但補充概念之向量分量。
圖5繪示人工神經網路中交由梅爾頻譜解讀之卷積層及池化層,並且,具體而言,深度學習必須識別出待評估曲目中之重要音樂性模式及趨勢。卷積處理符合光譜輸入矩陣 600之二維性質。
如上所述,在梅爾頻譜中隨時間變化之模式可反映出織體,此為屬性空間內屬性相似度/相異性評估之另一元素。為能在二維梅爾聲譜圖辨識出此等文字趨勢,卷積神經網路中之濾鏡經訓練而可識別梅爾聲譜圖之模式,且具體而言,是識別各濾鏡內最佳化後之參數值,使產生之濾鏡輸出反映對於輸入矩陣模式/趨勢識別之高度信心。確切而言,可利用ANN之操作性質,就各濾鏡內之參數進行調整,如熟悉此技藝人士所知者,藉此允許各濾鏡在所調查曲目之梅爾頻譜中,偵測與所需主觀屬性相關之特定輸入項目,例如節奏及/或旋律模式。
就此方面而言,織體ANN中之處理鏈包括連續卷積層。例如,層體1、3及5可實施為卷積層,分別具有128、128及64個神經元且各濾鏡之核大小[亦即濾鏡矩陣之大小]為三(3)。於訓練過程中,濾鏡602 [具有一組初始未經訓練參數及一組修訂後參數]以逐步方式前進藉由光譜輸入矩陣 600。藉由將濾鏡602套用於輸入資料,輸出矩陣 604可在重疊矩陣中之輸入值間產生正向匹配結果。以下為一簡化範例: 二維矩陣樣本            濾鏡#1                      產出(匹配) (位置 n)
Figure 02_image001
Figure 02_image003
於迭代階段,修改濾鏡中之參數值,並再次運行二維輸入以判定新濾鏡係數就相同輸入資料產生之匹配結果較佳或較差,例如 二維矩陣樣本              濾鏡#2                       產出(匹配) (位置 n)
Figure 02_image005
Figure 02_image007
於處理2D 輸入資料中之所有可能濾鏡位置時,建立起具有正向產出結果之另一結果矩陣604,其係代表用於最佳化濾鏡係數/參數以最大化匹配之ANN。參照圖5,相較於由零與一表示之較差匹配,使用四(4)個數值能使結果矩陣識別出與濾鏡602之較高關聯度,因此產生高度匹配並且更可能在輸入資料中識別出值得關注之模式。
如同任一CNN,使用之濾鏡越多,便可識別越多模式,但代價是需要更多參數且需要更多訓練資料。
較佳者,出於便利之理由,每一卷積後跟隨具有適當核尺寸之最大池化層,例如為2x2矩陣/核。最大池化方案之效用顯示於圖5之下半部,其中結果矩陣606大幅縮減,產生較小之新輸入矩陣,交由後續卷積階段處理。如熟悉此技藝人士所知者,最大池化係針對一輸出區塊進行分析,其係認定較小數值在統計上與後續處理無關,因此對於分析區塊中除卻最大值以外之所有數值一律拒絕。於圖5中,將2x2 最大池化方案套用於來自前一卷積階段之4x4 輸入矩陣,因而產生四個獨立區塊,每一區塊包含四個(產出)數值。最大池化結果為第一2x2 最大池化矩陣 608,其中僅保留最大產出值。之後將第一2x2 最大池化矩陣 608輸入至後續卷積層。因此,最大池化可縮減矩陣之操作大小,降低ANN不同(後續)層體之維度。
由於各神經元會導入需要學習之參數,而限制輸入矩陣大小可減少資料量 (否則需要以適當細粒度及準確度與計算參數/權重等方式達成),因此利用最大池化方案可提升運算效率。
CNN包括若干卷積層,通常由一最大池化層散置。
對最後一個最大池化層之輸出進行平坦化處理,亦即將所有矩陣欄序連而形成單一向量,以此向量輸入專用於織體評估之神經網路,亦即音樂織體NNTX 318。
在討論ANN(特別是如圖6所示者)整體形式及操作之前,應知來自CNN 230之平坦化輸出係以(例如)六十四維向量之型態,輸入專屬織體神經網路 NNTX 318中具有兩百五十六個神經元隱藏層, 較佳者,神經網路 NNTX 318具有經調整之線性單元(「ReLU」) 啟動函數,以提供最佳化之深度學習。織體神經網路 NNTX 318在其輸出上提供六十四維向量(形式為經啟動之線性函數),代表梅爾光譜之各項元素OTX1 OTX2 ,上述向量OTX1 OTX2 組合於代表各檔案評估屬性之其他輸出向量,亦即音調、音色及節奏。如此為成對檔案中每一檔案產生256維向量,並在歐幾里得空間中進行距離評價,如上所述及圖2所示者。
CNN之初始/上方卷積層用於決定套用於神經節點之濾鏡權重,藉此定義可用參數 功能,以利識別梅爾頻譜[為CNN之輸入]中值得關注之模式。因此,濾鏡矩陣參數 612至620之數值係藉由迭代及反向傳播而習得。其中,反向傳播測試替代值之可行性以最佳化輸出,並在依序藉由來源輸入資料及訓練集之變化來源輸入之過程中逐漸建立最佳化。
圖6顯示圖2各種ANN 屬性處理鏈中所用之人工神經網路 700。
用於節奏「NNR 」310、音調 NNTO 312、音色 NNTI 314及音樂織體(後卷積處理) NNTX 318之ANN各包括一多重神經元輸入層702,其後接續至少一個且通常為複數(第1至第k個)隱藏神經元層,包含至少與多神經元輸入層702相同數量之神經元704至718。第k個隱藏層提供一輸出層720,該輸出中之神經元數量通常少於先前第k個隱藏層中之神經元數量。
在基本神經元映射方面,將各神經(例如在第一輸入層中)之輸出以多對多之方式做為輸入,映射入緊接(例如第1隱藏)層中之各神經。第k個隱藏層,亦即各ANN之倒數第二層,將多重輸入以多對多之方式映射至各輸出(O1 至Om ),因此使得輸出O1 至Om 為線性函數(例如描述於https://towardsdatascience.com/activation-functions-neural-networks-1cbd9f8d91d6者)。
以針對各識別屬性(於本案例中或節奏、音調及音色)所擷取出之各數值化訊號表述或CNN功能(用於織體)之平坦化輸出做為輸入層 702神經元之輸入(i1 至in )。
以神經元712為例,圖6 (左側方框)中可見神經元接收複數加權輸入wi,1 、wi,2 、wi,3 、wi,r ,此等輸入經加總成為一加總函數730。事實上,加總函數包括第二偏誤輸入 bi ,其通常僅為各層中各神經元之習得常數。處理智慧評估權重wi 及偏誤 bi ,而後藉由反向傳播程序對之進行修訂。其中,反向傳播程序取成對之歐幾里德屬性距離測度330為影響因數,具體而言是影響如何在語義空間內同化/映射對應之成對目標距離。而後將來自加總函數730之輸出ai 帶入非線性啟動函數f(編號734),並將神經元 yi 之輸出傳遞至下一層。
在音訊資料訊號成對比較之範例中,輸入 i1 至in 可取自Essentia特徵集,如上文就音色、音調、節奏所述者,而CNN梅爾頻譜提供織體專屬人工神經網路 NNTX 之神經元輸入。來自各特定屬性64維內嵌向量最終輸出o1 至om ,例如音色 OTI1 及織體 OTX2
有關圖6之較佳實施方式,其中共有至少兩個隱藏層。第一隱藏層包含五百一十二(512)個神經元。第二隱藏層包含一千零二十四(1024)個神經元。較佳者,啟動此二隱藏層之函數可為ReLU函數,如https://en.wikipedia.org/wiki/Rectifier_(neural_networks)中所述。
圖3以通用語彙說明用於訓練圖2系統之訓練程序。
自通用音訊曲目訓練集(或所選對子集)中,選擇402一對曲目進行語義及音樂屬性比較。而後將兩首曲目交付特徵擷取404以識別屬性,例如可用於定義節奏等等之多組可測量描述符。由於梅爾頻譜之性質,織體係採用經修改之程序,如上所述。每對之屬性由系統智慧共同處理,以訓練網路並修改套用406於節奏「NNR 」310、音調 NNTO 312、音色 NNTI 314及音樂織體NNTX 318等平行人工神經網路之權重及偏誤值。不論ANN 處理是否涉及CNN,各神經網路經操作而為處理中之該對檔案中之每一檔案貢獻408在(通常為歐幾里得)屬性空間中之內嵌向量輸出 350、352 [以貢獻向量ORx 、OTOx 、OTIx 及OTXx 組合而成]。繼而執行各檔案向量輸出 350、352間歐幾里德屬性距離之評估/判定410。將由神經網路計算判定出之歐幾里德距離映射/對比於相同檔案間(在語義空間內)之語義距離(如關於圖1所述)。
若經評估418發現屬性距離與數值化語義距離間存有整體數值對應416(較不可能出現於訓練開始時僅有數十/數百筆成對比較之初始權重及偏誤值),而後判斷貢獻ANN中之權重及偏誤是否滿足可符合規則。如此可縮短ANN訓練時間而不用盡所有成對比較選項,雖然各NN中之最佳化將會隨持續增加之成對評估數量及權重與偏誤修正而改善。
就實際應用而言,此系統通常是對整個訓練集執行數輪或數「回合」作業。訓練可於出現以下情況時停止:(a)訓練損失經過若干回合仍未改善,或(b)認證損失 (於未見資料)並未改善。此外,應知若訓練損失改善但確認損失並未改善,即表示過適。
然而,在訓練開始時,可能出現顯著差異且需要利用經過調整之濾鏡權重 wi 及偏誤 bi 值在參數識別方面改進ANN操作。具體做法是使用全部訓練資料最佳化ANN性能。因此,訓練程序就訓練集中之所有資料重複成對評估之路徑。此一部分表示為決定方塊 414及由其出發之否定或肯定路徑。
若相繼檔案接連出現重複近似對應(數值化語義距離與(通常使用) 取自該向量輸出 350、352之屬性距離間之肯定路徑),則表示權重及偏誤之最佳化已經達成(至少達到明顯且可接受之程度)。
回到該條路徑(亦即負面結果420),若語義與屬性空間中距離測度間存在顯著數值差異,則表示濾鏡參數,且具體而言是一或複數神經網路所套用之權重及偏誤, 需要調整。此時調整之目的是達成數值收斂,使在屬性空間內之向量距離相異性測度連結(亦即對應)在語義空間內之距離相異性測度。應知,就此方面而言,屬性空間內之數值必然不同於語義距離空間中之硬性數值零與一,因為不相似曲目對間存在有感知差異及絕對差異(即便比較之曲目為同一歌曲之不同翻唱版本)。通常於各回合結束後應檢查有無損失或過適。
因此,該系統中之處理智慧藉由反向傳播調整422權重及偏誤,以期達成語義與屬性(數字表示)距離間之收斂。此等經調整之權重而後套用於各神經網路之神經元,如圖2所示,以改善訓練集中之下一檔案對之準齊。
ANN之訓練產生屬性距離空間內之距離值,以成對的比較之方式反映曲目相異性。因此,一經訓練,屬性距離空間內之任何距離即能夠正確可靠映射為語義空間內之實際可感知差異。ANN神經元中權重及偏誤之變化為轉換函數或機制,藉此可使屬性空間映射為抽象語義空間。
訓練集用盡後,即評估神經網路已經完成最佳化。此係由出發自決定方塊 414之肯定路徑 424所反映。
如熟悉此技藝人士所知者,各擷取出屬性之各處理鏈係一機器。於本示範音訊評價案例中共有四台機器:節奏、音調、音色及織體各一。為最佳化訓練程序,每台獨立機器為屬性空間內之最終向量表述 350、352製作一獨立解耦貢獻。因此,一種相對於語義空間內語義評價之成對評估方案,是在各有效平行機器間採取重要性加權。換言之,訓練程序對個別ANN之輸入判定其特定音訊描述符(關聯於各屬性)間之相對重要性,即表示每一機器學習特定貢獻擷取可測量值中之何者對於反映所需人類主觀評估(在語義空間內)之最終結果具有最大影響。為此,系統運作以對各機器就兩首曲目進行評估。而後,針對用於定義機器所評估屬性之該組數質化表述,另對應機器識別其間之相似性或相異性。若在一較佳實施例中,語義空間內之特定成對的比較有相異性(在屬性距離空間內)與對應屬性同時受到評估,則機器在反向傳播程序中調整其偏誤及加權因數時,將該屬性(例如節奏)之相對重要性下調,亦即減少。換言之,識別出之相異性並不用於產生可改善與語義評估及在語義空間內以成對方式接受評估之音訊曲目間之語義差異之準齊之偏誤及權重具有貢獻。確切而言,系統智慧對每一機器中之其他屬性(對兩首曲目)略為加重,因為此等屬性對語義評估之準齊具有較大影響,亦即系統可能評估節奏向量分量ORx 較音調向量分量OTOx 對音訊內容性質之人類感知更具貢獻。確實,將此原理擴大至個別量化表述,由機器自成對的比較曲目中所識別出之個別數值化表述(例如在Essentia中貢獻於音色屬性之 barkbands_crest值)相異性表示此等個別數值化表述對於使屬性式向量準齊於語義式數值並不重要
應知神經網路轉換函數之準確度係由訓練資料之強健性決定,具體而言是矩陣大小,因此雖然一萬個音訊檔案可能評估為產生一萬個對應向量,NLP 可能評估遠少於此或遠多於此之向量提供嵌入。
為建立比較檔案庫,此時必須由ANN對訓練集中之各檔案以非比較之方式進行處理426,以產生曲目之歐幾里德向量。而後所得向量儲存430於資料庫中,成為與與例如歌曲名及藝人檔案名稱或其他識別符形式交互參照之數植。由於此向量係由歸屬於特定檔案屬性之不同元素所構成,分析向量本身即可進行特定識別屬性之搜尋。例如,若節奏之共通性為最高要求,則在此特定貢獻(於此較佳示範案例) 六十四維輸出 ORx 中來源檔案與參考檔案間之任何數值貼近度對於節奏之語義貼近度均具有決定性。
換言之,在節奏「NNR 」310、音調 NNTO 312、音色 NNTI 314及音樂織體NNTX 318之個別人工神經網路經最佳化後,(範例)音訊曲目之可測量屬性忠實反映於由具有各種已經設定最佳化權重及偏誤之ANN處理音訊曲目樣本 (例如部分或整首歌曲)而產生之多維度向量中。因此,基於絕對值刻度,可評估曲目間之實際可感知相異性或相似性,包括未用於訓練資料集之新增曲目。此時,用於訓練之語義距離可因此忽略,因為語義空間現已映射成絕對刻度,其中貼近數值準確代表語境相似度,而較大數值距離代表使用者可識別相異性。
圖7之流程800是一較佳實施例中用以評估情緒知覺檔案相異性測度之程序,特別是在處理音訊檔案之情況下。
圖2之神經網路經訓練後,選擇802音訊曲目(或適當檔案類型)。該選擇通常是由使用者發起,例如音樂庫或服務之所有者或訂閱者。或者,選擇之形式可為其中包括原始作曲之音樂或檔案上傳。而後處理所選或上傳之「第一」音訊檔案,以達成可識別屬性之特徵擷取804,例如音調等等。再由圖2之神經網路使用經最佳化之權重及偏誤處理806擷取出之特徵,以產生第一檔案向量VFILE 808(在歐幾里德屬性空間或其他某些適當屬性空間內),待代表該特定檔案之複數使用者可識別或使用者可選且系統可測量屬性。將第一音訊檔案之檔案向量VFILE 參照810於以檔案識別符及相關檔案向量(該些其他檔案)為索引之檔案庫,因此使得檔案庫中之檔案可按照與第一音訊檔案語義相似度之遞減順序列表812。kNN分析可用於實現或補充此一步驟。
圖8之系統或網路架構 900係根據本發明之態樣,其可存取資料庫902中包含反映檔案相似度/相異性測度之向量表述。
通常,網路(例如網際網路) 902可傳達例如伺服器904、家用電腦906及智慧型手機 908等裝置間之通訊。此三類裝置並非限制性,僅是象徵系統 900之處理智慧 及存取點。伺服器 904通常支援上述人工神經網路 905,特別是圖2及圖6所示者。但系統智慧可為更分散之形式,包括雲端式或分散於複數互連伺服器之間。為求明確,圖中僅以伺服器內之一方塊代表系統智慧,但應知運算能力亦存在於智慧型手機及電腦內。如同其他互動單元,伺服器亦包括總體控制韌體及軟體 914,例如支援網路存取及/或控制使用者對由伺服器或其他服務提供者 912管理之服務之註冊及/或支援通訊協定。伺服器可管理存取及資訊載入至或擷取自例如藉由LAN或WAN而與伺服器連接之來源資料庫 306。此存取可由電腦 906、智慧型手機 908或類似裝置實施。
事實上,來源資料庫可為現有檔案庫,例如音訊檔案型錄。因此,來源資料庫中之檔案可由伺服器分別於不同時間擷取後進行處理,以在檔案身分(例如曲名及藝人) 920與代表準齊於情緒感知語義性質之檔案屬性之歐幾里德向量測度(VFILE ) 922間產生交互參照。
在本發明中,可透過使用者介面 930,例如智慧型手機上圖形使用者介面「GUI 」之觸控螢幕,存取搜尋工具軟體應用程式,進而具有搜尋相近語義屬性之曲目。軟體可儲存於本機或以其他方式藉由可與伺服器 904、資料庫306或服務提供者互動之網路瀏覽器存取(例如對內容具有存取權之社群媒體公司)。或者,該軟體可為網路式服務。較佳者,使用者介面(GUI) 930為使用者提供若干「軟體」滑桿控制裝置,用於調節可選屬性或收聽/搜尋偏好,例如第一滑桿可調整節奏。使用者可變更滑桿位置,使搜尋參數關聯於最終內嵌向量輸出 350、352中之個別貢獻多維度向量ORx 、OTOx 、OTIx 及OTXx 。因此,在GUI上設定滑桿可標定系統中所儲存已處理曲目920之特定向量態樣。
除非特定安排彼此相互排除,否則在此所述之各種實施例可結合使用以提升系統機能並/或產生互補功能或系統,幫助有效識別使用者可感知相似性及相異性。此等組合可為熟悉此技藝人士經閱讀上文描述後所輕易知悉。同理,若需較受限之功能安排,可將較佳實施例之態樣單獨實施。但應知,除非該等特定較佳實施例中之特徵經言明與另一特徵不相容,或前後文顯示其為相斥且難以出於補充及/或支持之目的而結合,否則本發明之整體應包將該等補充實施例之特定特徵選擇性結合,以提供一或多種廣泛且略有出入之技術解決方案。在附圖之建議程序方面,程序中步驟之確切執行點可加以變動,只要整體效果或重新安排能夠達成相同客觀最終結果或允許後續邏輯步驟進行之重要中間結果即可。因此上述流程係屬邏輯性質而非絕對。
本發明態樣可透過可下載形式或以其他方式在例如CD ROM等電腦可讀媒體上實現,該媒體中包含之程式碼可在網路伺服器或類似裝置執行連結內嵌功能。
應知以上描述僅為範例,且對於細節之修改仍應屬於本發明之範疇。例如,用以訓練神經網路之原理及在語義向量空間內以語義方式評估性質並以刻度距離表示之方法可映射為屬性空間內之客觀產生(通常為歐幾里得)向量,可應用於多種形式之可搜尋資料,包括音訊、視覺及/或影片、文獻及科學報告 (例如因趨勢分析而需交互參照之醫療報告)。
可就不同來源資料擷取之屬性包括亮度、對比、顏色、強度及形狀與相對大小,以及某些或全部上述屬性中之相對特徵位置及變化率。此等檔案亦可能有其他可測量屬性,包括文字頻率(適用於文本分析)或動作相關測量(取自感應器),因此上述僅是以非限制性範例說明屬性空間包含何種可對照並準齊於在語義空間內所呈現向量之[屬性空間內]有意義向量。對於影像或視訊,整個像素化影像或一連串影格可對應於音樂「織體」,由取樣影像中之所有像素提供用於卷積處理之二維矩陣。應知可取自靜態影像或視訊及音樂形式之屬性間可能有所重疊,如以上範例實施例中所詳述者。
100:程序 102、104、106、108、110、112、114、116、130、132、402、404、406、408、410、412、414、418、422、426、430、802、804、806、808、810、812:步驟 126:評估路徑 300:系統 302、304:數位音訊檔案 306:資料庫 310:節奏NNR 312:音調 NNTO 314:音色 NNTI 316、318:音樂織體NNTX 320:卷積神經網路(CNN) 330:比較器、歐幾里德屬性距離測度 350、352:向量輸出 416:整體數值對應 420:負面結果 424:肯定路徑 500:標準梅爾頻譜 502:平行垂直線 504:中斷水平線 506:上升 508:下降 600:光譜輸入矩陣 602:濾鏡 604:輸出矩陣 606:結果矩陣 608:最大池化矩陣 612、614、616、618、620:濾鏡矩陣參數 702:多神經元輸入層 704、706、708、710、712、714、716、718:神經元 720:輸出層 730:加總函數 734:非線性啟動函數f 800:流程 902:資料庫、網路 904:伺服器 905:人工神經網路 906:電腦 908:智慧型手機 910:系統智慧 912:其他服務提供者 914:總體控制韌體及軟體 920:檔案身分、曲目 922:歐幾里德向量測度(VFILE) 930:使用者介面
本發明之範例實施例將參照附圖加以說明,其中: 圖1為本發明之檔案(具體而言為音訊檔案)相異性評估程序及人工神經網路 訓練程序流程圖; 圖2為根據一較佳實施例之人工神經網路訓練系統架構示意圖; 圖3係一流程圖,顯示訓練圖2神經網路同化語義向量空間與屬性向量空間以識別來源檔案間屬性相似性及屬性相異性之較佳程序; 圖4 為音訊曲目之典型梅爾頻譜; 圖5繪示人工神經網路中交由梅爾頻譜解讀之卷積層及池化層; 圖6描繪圖2各種ANN鏈中所使用之人工神經網路。 圖7係一較佳實施例中用以評價情緒感知檔案相異測度之程序,該檔案具體而言為音訊檔案;及 圖8係根據一較佳實施例之網路架構,其中之可存取資料庫包含向量表述。
100:程序
102、104、106、108、110、112、114、116、130、132:步驟
126:評估路徑

Claims (52)

  1. 一種訓練某系統中人工神經網路(ANN)之方法,該系統被配置為識別某第一資料檔案內容相對於一另一資料檔案內容之相似度或相異性,該方法包含: 針對一對所選不同資料檔案,自該第一資料檔案及該另一資料檔案各擷取一可測量訊號的性質,並自該等可測量訊號的性質識別出複數屬性; 在該ANN所負責處理某屬性之輸出處,為該所選的一對檔案之該第一資料檔案及該另一資料檔案之各項屬性在屬性空間中產生對應的屬性向量; 將該第一資料檔案之第一多維度向量與該另一資料檔案之有區別的第二多維度向量組合,其中各多維度向量係藉由將來自該ANN之輸出之個別屬性向量組合而取得; 在該第一多維度向量與該第二多維度向量之間判定一距離測度; 因應該判定之距離測度,藉由一反向傳播程序調整該ANN之權重及/或偏誤值,該反向傳播程序將該第一資料檔案相對於該另一資料檔案在屬性空間中判定之距離測度與在語義空間內所評估之一量化之語義相異性距離測度間產生之差異納入考量,藉此藉由視反映於該量化之語義相異性距離測度中之語義感知的價值高於由該第一多維度向量與該第二多維度向量間之該距離測度所反映之屬性評估而對系統進行訓練。
  2. 如請求項1所述之人工神經網路訓練方法,其中在語義空間中評價之該量化語義相異性距離測度係基於關聯於該第一資料檔案及該另一資料檔案的各個之文字解釋之向量表述。
  3. 如請求項2所述之人工神經網路訓練方法,其中該文字解釋係編碼入該各自的檔案之元資料。
  4. 請求項2或請求項3所述之人工神經網路訓練方法,其中該資料檔案包含一音訊,且該屬性為一音樂屬性,且該等可測量訊號性質定義關於節奏、音調、音色及音樂織體之屬性。
  5. 如請求項1或請求項4所述之人工神經網路訓練方法,其中該量化語義相異性距離測度之評估包括: 將自然語言處理(NLP)應用於文字描述,藉此為一訓練集之中的複數N 資料檔案產生語義向量; 為該訓練集並以成對的方式,計算各語義向量間之分離距離; 針對該訓練集之中的每個該檔案,識別相對於該訓練集中其他檔案之最小及最大分離距離; 為該訓練集之中各檔案創建檔案對的集,其中第一對具有最小分離距離且第二對具有最大分離距離; 將代表語義貼近度之第一值指定予該第一對且將代表語義相異性之第二值指定予該第二對,其中該第二值與該第一值不同。
  6. 如請求項5所述之人工神經網路訓練方法,其中該第一對為該第一資料檔案及該另一資料檔案。
  7. 如請求項5所述之人工神經網路訓練方法,其中針對一包含m 最小分離距離及m 最大分離距離之子集,將該第一值指定予該m 最小且將該第二值指定予該m 最大,其中m 為小於N 之正整數。
  8. 一種用於訓練及操作被配置以識別一資料檔案間的內容之相似度或相異性的人工神經網路(ANN)之方法,該資料檔案包含音訊內容及影像內容中之一或多者,該方法包含: 使該等資料檔案之該內容在語義空間內之一語義相異性量化測度與為上述內容所擷取出之可測量屬性在屬性空間內之相關屬性分離距離產生關聯,及 訓練及操作該系統,使其視語義相異性測度的價值高於可測量屬性。
  9. 如請求項8所述之ANN訓練及操作方法,其中在語義空間中評價之該語義相異性量化測度係基於與不同資料檔案關聯之一文字解釋之向量表述。
  10. 如請求項9所述之ANN訓練及操作方法,其中該等文字解釋係取自該等資料檔案之元資料。
  11. 請求項9或請求項10所述之ANN訓練及操作方法,其中該等資料檔案為一音訊檔案且該等可測量屬性為由關於節奏、音調、音色及音樂織體之屬性所定義之音樂屬性。
  12. 如請求項8至請求項11中任一項所述之ANN訓練及操作方法,其中該語義相異性量化測度係藉由以下程序取得: 將一自然語言處理(NLP)應用於文字描述以為訓練集之中複數N 資料檔案產生語義向量; 為該訓練集並以成對的方式,計算各語義向量間之分離距離; 針對該訓練集之中的每個檔案,識別相對於該訓練集中其他檔案之一最小及一最大分離距離; 為該訓練集之中各檔案,創建檔案對的集,其中第一對具有該最小分離距離且第二對具有該最大分離距離; 將代表語義貼近度之一第一值指定予該第一對且將代表語義相異性之一第二值指定予該第二對,其中該第二值與該第一值不同。
  13. 如請求項12所述之人工神經網路訓練方法,其中該第一對為該第一資料檔案及該另一資料檔案。
  14. 如請求項12所述之人工神經網路訓練方法,其中針對包含該m 最小分離距離及該m 最大分離距離之子集,將該第一值指定予該m 最小且將該第二值指定予該m 最大,其中m 為一小於N之正整數。
  15. 如請求項8至請求項14中任一項所述之ANN訓練及操作方法,進一步包含: 在一資料庫中儲存一檔案識別符,該等檔案識別符係容許識別根據以上任一請求項所述之方法而被評價過其相異性之一個別檔案;及 對照已儲存之檔案識別符,記錄該資料庫中其他已識別檔案之距離關係及為該個別檔案所計算而得之屬性向量的至少一者。
  16. 如請求項15所述之ANN訓練及操作方法,其中該資料庫係一可經網路存取之資料庫。
  17. 如請求項15所述之ANN訓練及操作方法,其中該資料庫係一本地的使用者裝置。
  18. 如請求項8至請求項17中任一項所述之ANN訓練及操作方法,進一步包含: 在訓練具有複數處理分支之該神經網路過程中,對被指定以處理檔案中不同屬性而在屬性空間中產生個別屬性向量之不同處理分支之間一區別,其中該區別包括: 為在進行一成對的比較之成對的對照檔案識別各自屬性向量之相對相似度及相異性;及 促成對某特定的處理分支中的偏誤值及權重中之至少其一之調整,其中該特定處理分支是在該成對的比較所產生之屬性向量中體現最大相異性之處理分支。
  19. 如請求項18所述之ANN訓練及操作方法,其中,當該成對的比較中之屬性經評價為相對相似而非相對不相似時,將相對較大重要性指定予該複數處理分支中之一特定處理分支。
  20. 如請求項8至請求項19中任一項所述之ANN訓練及操作方法,其中該量化語義相異性距離測度係取自對該檔案相關描述性內容之自然語言處理。
  21. 如請求項20所述之ANN訓練及操作方法,其中該描述性內容係包含於該檔案之元資料中。
  22. 如請求項8至請求項21中任一項所述之ANN訓練及操作方法,其中該資料檔案包含一音訊且該屬性為一音樂屬性且該等可測量訊號性質係顯示為節奏、音調、音色及音樂織體之可測量的屬性。
  23. 一種用於識別具有共通使用者可感知性質之檔案之方法,該方法包含評估目標檔案對儲存於一檔案庫中之檔案之貼近度,其中該檔案庫包含複數經獨特識別之一檔案,該檔案具有關聯屬性向量,該方法包含: 在一神經網路中,處理該目標檔案,以在屬性空間內產生一多維屬性向量,該多維屬性向量包含複數屬性向量,其係源自複數選擇性地擷取自該目標檔案之可測量訊號性質之不同的集,且其中該複數屬性向量各自經該神經網路加權至語義相異性之測度;及 根據該目標檔案之該多維屬性向量與該檔案庫中檔案之屬性向量間之貼近度,自該檔案庫產生一有序的檔案清單。
  24. 一種使用神經網路識別語義相近資料檔案之方法,該方法包含: 於識別語義相近檔案時,在該神經網路中將反映於量化語義相異性距離測度中之語義感知視為較由擷取出之可測量訊號性質之距離測度所反映之屬性評估更加重要。
  25. 一種電腦程式包含一代碼,該代碼當由處理器智慧執行時,可執行如請求項1至請求項 24中任一項所述之方法。
  26. 一種人工神經網路"ANN"包含一多層互連之神經元,該等神經元係用於將藉由反向傳播而配置性地選擇之權重及偏誤應用於以音訊內容及影像內容中之至少之一之形式呈現予該ANN之內容, 其中該ANN將該內容在語義空間內語義相異性量化測度關聯於為上述內容所擷取出之可測量屬性在屬性空間內之相關屬性分離距離,以提供一輸出,該輸出係隨着時間適應而使在屬性空間內之結果調準在語義空間內之結果,且其中在適應該權重及偏誤時,該ANN視語義相異性測度的價值高於可測量屬性。
  27. 一種人工神經網路"ANN"包含一多層互連之神經元,該等神經元係用於將藉由反向傳播而選擇性地配置之權重及偏誤應用於以音訊內容及影像內容中之至少之一之形式呈現予該ANN之內容,而使在語義空間內測得之該內容之語義相異性量化測度關聯於為上述內容所擷取出且經該ANN之該神經元處理之可測量屬性在屬性空間內之相關屬性分離距離,因此使該ANN於應用該權重及偏誤時,視語義相異性測度的價值高於可測量屬性。
  28. 一種人工神經網路"ANN"包含耦接於一神經元輸出層之一神經元輸入層,其中該神經元用於對藉此所接收之資料套用權重及偏誤,且其中該ANN為: 被配置為產生用於神經元之權重及偏誤而使得該ANN之輸出在一屬性空間內之調準關聯於事先在語義空間內為參考比較性描述內容所測得之參考語義相異性測度,且其中 該屬性空間之判定方式為該ANN處理由套用於該輸入之檔案中所擷取出之音訊及/或影像內容之可測量屬性。
  29. 如請求項28所述之ANN,其中該輸入層係經至少一隱藏層而與該輸出層隔離 。
  30. 如請求項26至請求項29中任一項所述之ANN,其中該資料檔案包含一音訊且該屬性為一音樂屬性且該等可測量訊號性質係顯示為節奏、音調、音色及音樂織體之可測量屬性。
  31. 一種系統包含: a)      複數人工神經網路輸出,用於提供複數屬性向量且其中該屬性向量係自一第一資料檔案內容所擷取出之可測量訊號性質; b)     至少一卷積神經網路,用於提供又一屬性向量,其中該又一屬性向量係取自該第一資料檔案該內容之二維表述; c)      一資料庫,包含複數獨特可識別資料檔案,各具有一參考向量,其中各參考向量係由一屬性向量組成,且該屬性向量取自(a)擷取出之可測量訊號性質,取自其資料檔案之內容以及(b)又一屬性向量,取自其資料檔案內容之二維表述;及 d)     一處理智慧,被配置為: 自該複數屬性向量及該又一屬性向量,為該第一資料檔案產生一多維屬性向量; 比較該多維屬性向量與該資料庫中之該複數參考向量;及 識別至少一獨特檔案識別符,其具有一參考向量,該參考向量經識別為在可測量性方面與該第一檔案之該多維屬性向量之參考向量相似,藉此識別該資料庫中不同之一第二資料檔案,該第二資料檔案在語義上接近該第一資料檔案。
  32. 如請求項31所述之系統,其中該複數屬性向量各由一神經網路加權以反映語義相異性。
  33. 如請求項31或請求項32所述之系統,進一步包括一網路連接及一通訊單元,其中該處理智慧致使該通訊單元藉由該網路連接將該不同的第二資料檔案發送至一互動使用者裝置。
  34. 如請求項31至請求項33中任一項所述之系統,其中該資料檔案包含一音訊且該屬性為一音樂屬性且該等可測量訊號性質係顯示為節奏、音調、音色及音樂織體之可測量屬性。
  35. 如請求項31至請求項34中任一項所述之系統,包括一使用者介面,被配置為選擇一使用者優先之搜尋性質。
  36. 一種系統包含: a)  複數人工神經網路輸出,用於為一資料檔案提供複數屬性向量,且其中該屬性向量係自該資料檔案之內容所擷取出之可測量訊號性質; b) 至少一卷積神經網路,用於提供由該複數屬性向量組成之又一向量,以產生多維屬性向量; c)  一處理智慧,用於接收一對資料檔案之第一及第二不同多維屬性向量且該對資料檔案包括該第一資料檔案及另一資料檔案,且該處理智慧因應上述接收以產生在該第一與第二不同多維屬性向量間之距離測度;及 d) 一處理智慧,被配置為辨識屬性空間中之距離測度是否關聯於為該第一及第二向量在語義空間內產生之參考距離,該參考距離是基於該對資料檔案之參考比較性描述內容之語義相異性測量。
  37. 如請求項36所述之系統,其中該處理智慧將該內容在語義空間內語義相異性量化測度關聯於為上述內容所擷取出之可測量屬性在屬性空間內之相關屬性分離距離。
  38. 一種預測性系統,藉由創建多對的獨立向量而受到訓練,該獨立向量代表一電子來源檔案之人類感知性質及可測量性質,其中: 一第一向量係產生於語義空間中且基於成對來源檔案之間的人類產生的描述中所測得的相異性,因而該第一向量提供成對的貼近度之以使用者為中心的感知;且 每對之第二向量係取自同一對的來源檔案之內容之可測量屬性進行成對的比較所得;且 該預測性系統包括一處理智慧,用於適應第二向量之產生程序,因而該第一向量之成對距離接近該第二向量之成對距離。
  39. 如請求項38所述之預測性系統,其中該等電子來源檔案包括以下至少之一: 一數位音訊; 一影像資料;及 一語境文學資料。
  40. 如請求項38或請求項39所述之預測性系統,其中該電子來源檔案包含一音訊且該屬性為一音樂屬性且該等可測量訊號性質係顯示為節奏、音調、音色及音樂織體之可測量屬性。
  41. 一種數位音訊檔案,其中內嵌有一多維屬性向量,該多維屬性向量包含複數被組合而成之屬性向量分量,各該屬性向量分量係關於一音樂屬性,該音樂屬性係取自該數位音訊檔案之訊號性質之複數數值化表述的集。
  42. 如請求項41所述之數位音訊檔案,其中該內嵌多維度向量是一關聯於音樂屬性之向量,該音樂屬性係由代表節奏、音調、音色及音樂織體之可測量訊號性質所定義。
  43. 如請求項41或請求項42所述之數位音訊檔案,其中各該被組合之向量分量反映對於該音樂屬性在向量相異性空間內之一測度 ,相對於在語義距離分離空間內之參考向量進行評估。
  44. 一種數位影像檔案,其中內嵌有一多維屬性向量,該多維屬性向量包含複數組合而成之屬性向量分量,各該屬性向量分量係關於一視覺屬性,該視覺屬性取自該數位影像檔案之訊號性質之複數數值化表述的集。
  45. 一種數位檔案,其中內嵌有一多維屬性向量,該多維屬性向量代表語境屬性中之共通性或相異性,明確表達該數位檔案之性質之感知,該數位檔案係藉由以下程序產生: 在一神經網路中,處理一目標檔案以在屬性空間內產生該多維屬性向量,該多維屬性向量包含複數屬性向量取自選擇性擷取自該目標檔案之可測量訊號性質的複數不同的集,且其中該複數屬性向量經該神經網路加權以與語義相異性之測度調準。
  46. 如請求項45所述之數位檔案,其中該數位檔案為音樂或影像資料。
  47. 如請求項45或請求項46所述之數位檔案,其中一評估相似度或相異性之程序視反映於量化語義相異性距離測度中之語義感知的價值較擷取出之可測量訊號性質之距離測度所反映之屬性評估更為重要。
  48. 一種數位檔案,內嵌有一多維屬性向量,其係代表語境屬性中之共通性或相異性,反映該數位檔案之人類感知性質,該數位檔案產生自一程序,該程序為藉由創建多對的代表人類感知性質的獨立向量,電子來源檔案之人類感知性質及可測量的量,該創建該多對之程序進一步包括: 根據來源檔案對之間的人類產生的描述而測得的相異性在語義空間中產生的第一向量,因此使得該第一向量提供成對貼近度之以使用者為中心的感知;及 取自同一對來源檔案中之內容之可測量屬性之成對的比較以產生第二向量;及 適應一用於產生該第二向量之程序,因此使得該第一向量之成對距離接近該第二向量之成對距離。
  49. 如請求項48所述之數位檔案,其中一受處理而取得該數位檔案之來源檔案包括以下至少之一: 一數位音訊; 一影像資料;及 一語境文學資料。
  50. 如請求項48或請求項49所述之數位檔案,其中該來源檔案包含一音訊,該等屬性為一音樂屬性,且該等可測量訊號性質係顯示為節奏、音調、音色及音樂織體之可測量屬性。
  51. 如請求項48、請求項49或請求項50所述之數位檔案,其中該數位檔案係取自一程序,在該程序中,量化語義相異性距離測度係取自相關描述性內容之自然語言處理。
  52. 一種資料庫,其係包含如請求項41至請求項43及請求項45至請求項51中任一項所述之多種數位音訊檔案,或如請求項44所述之多種數位影像檔案。
TW109111404A 2019-04-03 2020-04-01 訓練神經網路反映情緒感知之方法、用於分類與找尋關聯內容之相關系統及方法及內嵌有多維屬性向量之相關數位媒體檔案 TW202101431A (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
GB1904719.0 2019-04-03
GB1904719.0A GB2584598B (en) 2019-04-03 2019-04-03 Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content
GB1904716.6 2019-04-03
GB1904713.3A GB2583455A (en) 2019-04-03 2019-04-03 Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content
GB1904713.3 2019-04-03
GB1904716.6A GB2583696A (en) 2019-04-03 2019-04-03 System for categoring and finding associated content and embedded vector therefor

Publications (1)

Publication Number Publication Date
TW202101431A true TW202101431A (zh) 2021-01-01

Family

ID=70285718

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109111404A TW202101431A (zh) 2019-04-03 2020-04-01 訓練神經網路反映情緒感知之方法、用於分類與找尋關聯內容之相關系統及方法及內嵌有多維屬性向量之相關數位媒體檔案

Country Status (10)

Country Link
US (6) US11080601B2 (zh)
EP (1) EP3931721A1 (zh)
JP (1) JP2022528564A (zh)
KR (1) KR20220002939A (zh)
AU (1) AU2020251747A1 (zh)
BR (1) BR112021019764A2 (zh)
CA (1) CA3135936A1 (zh)
MX (1) MX2021012091A (zh)
TW (1) TW202101431A (zh)
WO (1) WO2020201746A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI818259B (zh) * 2021-05-19 2023-10-11 國立臺灣大學 基於深度學習方法之推播封鎖意圖預測方法與系統

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2571340A (en) * 2018-02-26 2019-08-28 Ai Music Ltd Method of combining audio signals
US11080601B2 (en) 2019-04-03 2021-08-03 Mashtraxx Limited Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content
US11049481B1 (en) * 2019-11-27 2021-06-29 Amazon Technologies, Inc. Music generation system
US11468294B2 (en) 2020-02-21 2022-10-11 Adobe Inc. Projecting images to a generative model based on gradient-free latent vector determination
US11322133B2 (en) * 2020-07-21 2022-05-03 Adobe Inc. Expressive text-to-speech utilizing contextual word-level style tokens
GB2599441B (en) * 2020-10-02 2024-02-28 Emotional Perception Ai Ltd System and method for recommending semantically relevant content
US11567812B2 (en) 2020-10-07 2023-01-31 Dropbox, Inc. Utilizing a natural language model to determine a predicted activity event based on a series of sequential tokens
CN112446432B (zh) * 2020-11-30 2023-06-30 西安电子科技大学 基于量子自学习自训练网络的手写体图片分类方法
US11315589B1 (en) * 2020-12-07 2022-04-26 Victoria Balthazor Deep-learning spectral analysis system
US11568018B2 (en) 2020-12-22 2023-01-31 Dropbox, Inc. Utilizing machine-learning models to generate identifier embeddings and determine digital connections between digital content items
US20220208217A1 (en) * 2020-12-31 2022-06-30 Gracenote, Inc. Cover song identification method and system
CN112988964B (zh) * 2021-02-20 2024-03-08 平安科技(深圳)有限公司 文本韵律边界预测的方法、装置、设备及存储介质
US20220309578A1 (en) * 2021-03-23 2022-09-29 Zensar Technologies Limited System and method for autonomously generating service proposal response
CN112915525B (zh) * 2021-03-26 2023-06-16 平安科技(深圳)有限公司 游戏音乐生成方法、装置、设备及存储介质
EP4068273A3 (en) 2021-03-31 2022-11-09 DAACI Limited System and methods for automatically generating a musical composition having audibly correct form
US11809521B2 (en) * 2021-06-08 2023-11-07 Fanuc Corporation Network modularization to learn high dimensional robot tasks
US20220388162A1 (en) * 2021-06-08 2022-12-08 Fanuc Corporation Grasp learning using modularized neural networks
CN113628640A (zh) * 2021-07-15 2021-11-09 河南工业大学 一种基于样本均衡和最大均值差异的跨库语音情感识别方法
CN113823250B (zh) * 2021-11-25 2022-02-22 广州酷狗计算机科技有限公司 音频播放方法、装置、终端及存储介质
CN114925742B (zh) * 2022-03-24 2024-05-14 华南理工大学 基于辅助任务的符号音乐情感分类系统及方法

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050038819A1 (en) 2000-04-21 2005-02-17 Hicken Wendell T. Music Recommendation system and method
US20020133499A1 (en) * 2001-03-13 2002-09-19 Sean Ward System and method for acoustic fingerprinting
US7777125B2 (en) 2004-11-19 2010-08-17 Microsoft Corporation Constructing a table of music similarity vectors from a music similarity graph
CA2612404C (en) * 2005-06-17 2014-05-27 National Research Council Of Canada Means and method for adapted language translation
WO2010027509A1 (en) 2008-09-05 2010-03-11 Sourcetone, Llc Music classification system and method
US20100332404A1 (en) 2009-06-29 2010-12-30 David Valin Method and mechanism for protection, sharing, storage, accessing, authentication, certification, attachment and tracking anything in an electronic network
US8712157B2 (en) 2011-04-19 2014-04-29 Xerox Corporation Image quality assessment
US10055493B2 (en) 2011-05-09 2018-08-21 Google Llc Generating a playlist
US9098579B2 (en) 2011-06-07 2015-08-04 Kodak Alaris Inc. Automatically selecting thematically representative music
US9576050B1 (en) * 2011-12-07 2017-02-21 Google Inc. Generating a playlist based on input acoustic information
US8938089B1 (en) 2012-06-26 2015-01-20 Google Inc. Detection of inactive broadcasts during live stream ingestion
US8484022B1 (en) 2012-07-27 2013-07-09 Google Inc. Adaptive auto-encoders
US9509705B2 (en) 2014-08-07 2016-11-29 Wells Fargo Bank, N.A. Automated secondary linking for fraud detection systems
US9836671B2 (en) 2015-08-28 2017-12-05 Microsoft Technology Licensing, Llc Discovery of semantic similarities between images and text
US10635727B2 (en) 2016-08-16 2020-04-28 Ebay Inc. Semantic forward search indexing of publication corpus
EP3336774B1 (en) 2016-12-13 2020-11-25 Axis AB Method, computer program product and device for training a neural network
US20180276540A1 (en) 2017-03-22 2018-09-27 NextEv USA, Inc. Modeling of the latent embedding of music using deep neural network
US11197036B2 (en) 2017-04-26 2021-12-07 Piksel, Inc. Multimedia stream analysis and retrieval
WO2018218034A1 (en) 2017-05-25 2018-11-29 J. W. Pepper & Son, Inc. Sheet music search and discovery system
US10936653B2 (en) 2017-06-02 2021-03-02 Apple Inc. Automatically predicting relevant contexts for media items
CN108334617A (zh) 2018-02-07 2018-07-27 大连大学 基于语义的音乐检索的方法
CN108648767B (zh) 2018-04-08 2021-11-05 中国传媒大学 一种流行歌曲情感综合与分类方法
US11531698B2 (en) 2018-09-06 2022-12-20 Spotify Ab System and method for selecting media content
US11163777B2 (en) 2018-10-18 2021-11-02 Oracle International Corporation Smart content recommendations for content authors
US11080601B2 (en) 2019-04-03 2021-08-03 Mashtraxx Limited Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content
US20210012200A1 (en) 2019-04-03 2021-01-14 Mashtraxx Limited Method of training a neural network and related system and method for categorizing and recommending associated content
US11281734B2 (en) 2019-07-03 2022-03-22 International Business Machines Corporation Personalized recommender with limited data availability
GB2599441B (en) 2020-10-02 2024-02-28 Emotional Perception Ai Ltd System and method for recommending semantically relevant content

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI818259B (zh) * 2021-05-19 2023-10-11 國立臺灣大學 基於深度學習方法之推播封鎖意圖預測方法與系統

Also Published As

Publication number Publication date
KR20220002939A (ko) 2022-01-07
EP3931721A1 (en) 2022-01-05
AU2020251747A1 (en) 2021-11-25
WO2020201746A1 (en) 2020-10-08
US11080601B2 (en) 2021-08-03
US20210326707A1 (en) 2021-10-21
US20200320398A1 (en) 2020-10-08
JP2022528564A (ja) 2022-06-14
MX2021012091A (es) 2022-05-10
US20200320388A1 (en) 2020-10-08
US11494652B2 (en) 2022-11-08
BR112021019764A2 (pt) 2022-01-04
US20230274149A1 (en) 2023-08-31
CA3135936A1 (en) 2020-10-08
US11068782B2 (en) 2021-07-20
US20210383230A1 (en) 2021-12-09
US20220292355A1 (en) 2022-09-15
US11645532B2 (en) 2023-05-09

Similar Documents

Publication Publication Date Title
TW202101431A (zh) 訓練神經網路反映情緒感知之方法、用於分類與找尋關聯內容之相關系統及方法及內嵌有多維屬性向量之相關數位媒體檔案
US20210012200A1 (en) Method of training a neural network and related system and method for categorizing and recommending associated content
US11544565B2 (en) Processing system for generating a playlist from candidate files and method for generating a playlist
GB2584598A (en) Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content
US10623480B2 (en) Music categorization using rhythm, texture and pitch
WO2022043643A1 (en) Method of training a neural network and related system and method for categorizing and recommending associated content
Chen The application of neural network with convolution algorithm in Western music recommendation practice
Farajzadeh et al. PMG-Net: Persian music genre classification using deep neural networks
Jiang et al. Using k-means clustering to classify protest songs based on conceptual and descriptive audio features
GB2583455A (en) Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content
GB2583696A (en) System for categoring and finding associated content and embedded vector therefor
Zhang [Retracted] Research on Music Classification Technology Based on Deep Learning
Yeh et al. Popular music representation: chorus detection & emotion recognition
Maršík et al. Improving music classification using harmonic complexity
Deng Resource Management and Optimization Method of Music Audio‐Visual Archives under the Background of Big Data
Mirza et al. Residual LSTM neural network for time dependent consecutive pitch string recognition from spectrograms: a study on Turkish classical music makams
Brodin Working with emotions: Recommending subjective labels to music tracks using machine learning
Ramires Automatic characterization and generation of music loops and instrument samples for electronic music production
Tang et al. Construction of Music Classification and Detection Model Based on Big Data Analysis and Genetic Algorithm
Xue et al. Effective acoustic parameters for automatic classification of performed and synthesized Guzheng music
Chen et al. A dataset for learning stylistic and cultural correlations between music and videos
Italiano et al. Machine Learning and Music: Predicting the level of energy conveyed by a soundtrack