TW202223684A

TW202223684A - 基於音樂知識圖譜與意圖辨識之音樂生成系統、方法及電腦可讀媒介

Info

Publication number: TW202223684A
Application number: TW109143668A
Authority: TW
Inventors: 王俊煒; 陳冠元; 張國韋
Original assignee: 中華電信股份有限公司
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2022-06-16
Also published as: TWI760004B

Abstract

本發明揭露一種基於音樂知識圖譜與意圖辨識之音樂生成系統及方法，係由音樂潛在特徵抽取單元自音樂資料中抽取出音樂潛在特徵，以由音樂知識圖譜建構模組利用一或多首歌曲的音樂資訊與音樂潛在特徵來建立音樂知識圖譜，俾一併將音樂潛在特徵的產出寫入音樂知識圖譜中。同時，由意圖辨識模組依據使用者的輸入辨識或解析出使用者的意圖，以由音樂資訊查詢模組自音樂知識圖譜中查詢出與使用者的意圖對應的音樂資訊。然後，由音樂生成模組依據自音樂資料中所抽取的音樂潛在特徵的產出進行音樂生成。本發明另提供一種基於音樂知識圖譜與意圖辨識之音樂生成方法的電腦可讀媒介。

Description

基於音樂知識圖譜與意圖辨識之音樂生成系統、方法及電腦可讀媒介

本發明係關於一種音樂生成技術，特別是指一種基於音樂知識圖譜與意圖辨識之音樂生成系統、方法及電腦可讀媒介。

電腦音樂生成起源於1956年，由美國伊利諾大學的二位教授使用電腦來創作弦樂四重奏，此後電腦在音樂的創作領域便不斷擴長。目前的音樂生成方式主要有二種應用情景，包括作曲輔助與配樂創作。作曲輔助係利用電腦協助作曲家處理重複性的工作，以提升作品細緻度。而配樂創作(生成配樂)則是利用較低的成本，為廣告、電影或當下流行的自媒體生成出原創又無版權問題的音樂。在配樂創作(生成配樂)的情景下，創作者會先指定生成條件，例如給定主旋律、曲風、情感標籤、歌詞、影片...等，以產生符合需求的樂曲。

另外，在一現有技術中，提出一種自動詞曲創作系統包括：基於多媒體資料庫的排名順序，透過神經網路分析受歡迎音樂的曲調架構以建構曲調組合模型的曲調分析引擎；基於多媒體資料庫的排名順序及文字資料庫，透過神經網路分析受歡迎音樂的歌詞架構及分析來自文字資料庫的詞句架構以建構歌詞組合模型的曲調分析引擎；提供各種曲風屬性或其預設框架的風格選擇單元；依據歌詞組合模型提供多個填詞欄位的對應歌詞集以供選擇或修改的歌詞選擇單元；以及根據曲調組合模型提供多個填曲欄位的對應曲調集以供選擇或修改的曲調選擇單元。

惟，此現有技術僅採用卷積神經網路(CNN)、遞迴神經網路(RNN)、長短期記憶(LSTM)等神經網路，而未採用意圖辨識模組或潛在變數模型，故無法依據使用者的輸入辨識出使用者的意圖，亦無法透過潛在變數模型以提高音樂生成品質。又，此現有技術僅能做出例如快樂或悲傷之類的風格的音樂，而無法利用音樂知識圖譜以自例如同年代或相似歌手的音樂知識的輔助下做出更為明確的風格(如80年代的搖滾)的音樂。

因此，如何建立一套基於音樂知識圖譜與意圖辨識之音樂生成機制，以解決如上述現有技術之一或多個問題，實已成為本領域技術人員之一大課題。

本發明提供一種創新之基於音樂知識圖譜與意圖辨識之音樂生成系統、方法及電腦可讀媒介，能利用音樂知識圖譜以做出更為明確的風格的音樂或更有效率地生成音樂，或者能採用意圖辨識模組以利辨識出使用者的意圖，抑或者能透過潛在變數模型以提高音樂生成品質。

本發明之基於音樂知識圖譜與意圖辨識之音樂生成系統包括：音樂知識圖譜建構模組，係至少具有音樂潛在特徵抽取單元，音樂潛在特徵抽取單元自音樂資料中抽取出音樂潛在特徵，以由音樂知識圖譜建構模組利用一或多首歌曲的音樂資訊與音樂潛在特徵抽取單元自音樂資料中所抽取的音樂潛在特徵來建立音樂知識圖譜，其中，音樂知識圖譜建構模組在建立音樂知識圖譜時，一併將音樂潛在特徵的產出寫入音樂知識圖譜中；意圖辨識模組，係依據使用者的輸入辨識或解析出使用者的意圖；音樂資訊查詢模組，係自音樂知識圖譜建構模組所建立的音樂知識圖譜中查詢出與意圖辨識模組所辨識或解析出的使用者的意圖對應的音樂資訊；以及音樂生成模組，係依據音樂潛在特徵抽取單元自音樂資料中所抽取的音樂潛在特徵的產出以生成音樂。

本發明之基於音樂知識圖譜與意圖辨識之音樂生成方法包括：提供一至少具有音樂潛在特徵抽取單元的音樂知識圖譜建構模組，以由音樂潛在特徵抽取單元自音樂資料中抽取出音樂潛在特徵，俾由音樂知識圖譜建構模組利用一或多首歌曲的音樂資訊與音樂潛在特徵抽取單元自音樂資料中所抽取的音樂潛在特徵來建立音樂知識圖譜，其中，音樂知識圖譜建構模組在建立音樂知識圖譜時，一併將音樂潛在特徵的產出寫入音樂知識圖譜中；由意圖辨識模組依據使用者的輸入辨識或解析出使用者的意圖，以由音樂資訊查詢模組自音樂知識圖譜建構模組所建立的音樂知識圖譜中查詢出與意圖辨識模組所辨識或解析出的使用者的意圖對應的音樂資訊；以及由音樂生成模組依據音樂潛在特徵抽取單元自音樂資料中所抽取的音樂潛在特徵的產出以生成音樂。

本發明復提供一種電腦可讀媒介，應用於計算裝置或電腦中，係儲存有指令，以執行前述之基於音樂知識圖譜與意圖辨識之音樂生成方法。

為讓本發明之上述特徵與優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明。在以下描述內容中將部分闡述本發明之額外特徵及優點，且此等特徵及優點將部分自所述描述內容可得而知，或可藉由對本發明之實踐習得。應理解，前文一般描述與以下詳細描述二者均為例示性及解釋性，且不欲約束本發明所欲主張之範圍。

1:基於音樂知識圖譜與意圖辨識之音樂生成系統

10:音樂知識圖譜建構模組

11:歌曲資料庫

12:音樂潛在特徵抽取單元

121:長短期記憶編碼技術

122:金字塔雙向長短期記憶編碼技術

123:潛在變數模型

13:音樂知識圖譜

20:意圖辨識模組

30:音樂資訊查詢模組

40:特定音樂生成模組

50:音樂混搭生成模組

60:音樂生成模組

61:長短期記憶解碼技術

A:使用者的輸入

B:音樂潛在特徵

C:音樂資訊或音樂生成

x:音樂資料

圖1為本發明之基於音樂知識圖譜與意圖辨識之音樂生成系統的架構示意圖；

圖2為本發明之基於音樂知識圖譜與意圖辨識之音樂生成方法的流程示意圖；

圖3為本發明之音樂知識圖譜的一實施例示意圖；

圖4為本發明之音樂知識圖譜的另一實施例示意圖；

圖5為本發明之音樂的視覺化圖例的一示意圖；以及

圖6為本發明之音樂的視覺化圖例的另一示意圖。

以下藉由特定的具體實施形態說明本發明之實施方式，熟悉此技術之人士可由本說明書所揭示之內容了解本發明之其它優點與功效，亦可因而藉由其它不同的具體等同實施形態加以施行或運用。

圖1為本發明之基於音樂知識圖譜與意圖辨識之音樂生成系統1的架構示意圖。如圖所示，基於音樂知識圖譜與意圖辨識之音樂生成系統1可包括音樂知識圖譜建構模組10、意圖辨識模組20、音樂資訊查詢模組30、特定音樂生成模組40、音樂混搭生成模組50與音樂生成模組60。

音樂知識圖譜建構模組10可具有歌曲資料庫11(或稱音樂資料庫)、音樂潛在特徵抽取單元12與音樂知識圖譜13。音樂潛在特徵抽取單元12可具有或建立有潛在變數模型123(如階層式潛在變數模型)，亦可具有長短期記憶(Long Short-Term Memory；LSTM)編碼技術121(如長短期記憶編碼器或階層式長短期記憶編碼技術)與金字塔雙向長短期記憶(pyramidal bidirectional LSTM；pBLSTM)編碼技術122(如金字塔雙向長短期記憶編碼器)二者，以由二者組成潛在變數模型123(如階層式潛在變數模型)的編碼技術。

意圖辨識模組20可為意圖辨識器(晶片/電路)、意圖辨識軟體(程式)等，音樂資訊查詢模組30可為音樂資訊查詢器(晶片/電路)、音樂資訊查詢軟體(程式)等，特定音樂生成模組40可為特定音樂生成器(晶片/電路)、特定音樂生成軟體(程式)等，音樂混搭生成模組50可為音樂混搭生成器(晶片/電路)、音樂混搭生成軟體(程式)等。音樂生成模組60可具有長短期記憶解碼技術61(如長短期記憶解碼器或階層式長短期記憶解碼技術)等。但是，本發明並不以此為限。

歌曲資料庫11(音樂資料庫)可具有透過網路、音樂網站、雲端、音樂儲存媒體(如CD或DVD)等管道所取得的至少一或多筆音樂資料 x，且歌曲資料庫11或音樂資料x的主要資訊可為歌曲的音樂數位介面(Musical Instrument Digital Interface；MIDI)及其相關資訊。

音樂潛在特徵抽取單元12可自歌曲資料庫11的音樂資料x中抽取出音樂潛在特徵B，且音樂知識圖譜建構模組10可利用歌曲資料庫11的歌曲的音樂資訊與音樂潛在特徵抽取單元12自歌曲資料庫11的音樂資料x中所抽取的音樂潛在特徵B來建立音樂知識圖譜13(見圖3至圖4)。例如，音樂知識圖譜13的節點(node)可包括歌手節點與歌曲節點，且歌手節點與歌曲節點分別為圖3至圖4中的實線圓圈(如歌手)和虛線圓圈(如歌曲的參數/屬性)。特別的是，音樂知識圖譜建構模組10在建立音樂知識圖譜13的歌曲節點時，也一併將音樂潛在特徵B的產出z寫入音樂知識圖譜13中，且音樂知識圖譜建構模組10可依據多首(如至少二首)歌曲之間的音樂潛在特徵B的特徵相似度(相似度關係)將歌曲節點與歌曲節點之間的關係建立於音樂知識圖譜13中。如此一來，本發明係省去每次要生成音樂時的特徵抽取時間，並透過深度學習抽取的高階特徵來找尋歌曲彼此之間的相似度關係。

意圖辨識模組20可依據使用者的輸入A(如輸入資料)辨識或解析出使用者的意圖(如音樂資訊查詢/音樂生成)，且使用者可輸入曲名、歌手、曲風、年代等資料，以由音樂資訊查詢模組30自音樂知識圖譜建構模組10所建立的音樂知識圖譜13中查詢出與意圖辨識模組20所辨識或解析出的使用者的意圖對應的音樂資訊，或者由特定音樂生成模組40生成近似於使用者的輸入A(如輸入資料)的音樂，抑或者由音樂混搭生成模組50依據使用者的輸入A(如輸入資料)生成指定的二首音樂的混搭。再者，意圖辨識模組20亦可依據使用者的輸入A將所辨識出的意圖(如音樂資訊查詢/音樂生成)與參數(如年代/曲風)一併分配至對應的音樂資訊查詢模組30、特定音樂生成模組40或音樂混搭生成模組50，以依據使用者的意圖或需求輸出相關聯的音樂資訊或音樂生成C。

當意圖辨識模組20辨識或解析出使用者的輸入A或意圖為音樂資訊查詢時，音樂資訊查詢模組30可依據意圖辨識模組20對於使用者的輸入A所得到的參數(如年代/曲風)與實體(entity；如歌手)對音樂知識圖譜13進行查詢，以由音樂資訊查詢模組30依據對音樂知識圖譜13的查詢結果輸出使用者所想要的音樂資訊。透過這樣的方式，除了可讓使用者一步步的查詢到自己想要的音樂資訊外，也可以搭配音樂生成功能產生更符合使用者的需求的音樂。

特定音樂生成模組40亦可依據意圖辨識模組20對於使用者的輸入A所辨識或解析出的意圖與參數(如年代/曲風)進行音樂知識圖譜13的查詢。特別的是，在此並非單純要獲取音樂的資訊，而是音樂知識圖譜建構模組10在建立音樂知識圖譜13時，可一併將音樂潛在特徵B(如階層式音樂潛在特徵)的產出z寫入音樂知識圖譜13中。然而，並不是每個使用者的輸入A都會包括音樂知識圖譜13中相對應的實體(如歌手)。因此，特定音樂生成模組40可依據使用者的輸入A的條件從音樂知識圖譜13中挑選(如隨機挑選)出一首符合此條件的音樂潛在特徵B的歌曲，或者依據多首(如至少二首)符合此條件的歌曲結合用音樂潛在特徵B所建立的多首(如至少二首)歌曲之間的特徵相似度(相似度關係)以計算出坐落於音樂知識圖譜13之中心點(centroid)或中心區域的歌曲，進而使用此歌曲的音樂潛在特徵B於特定音樂生成模組40中。

音樂混搭生成模組50為較特別的部分，由於本發明的音樂生成方式是基於音樂潛在特徵抽取單元12的潛在變數模型123(如階層式潛在變數模型)，故音樂混搭生成模組50可透過音樂潛在特徵抽取單元12的潛在變數模型123對不同的多首(如至少二首)歌曲或音樂之間的音樂潛在特徵B(如階層式音樂潛在特徵)的產出z進行補插(interpolation)，以得到或達到多首(如至少二首)歌曲或音樂之間的曲風混搭生成。

音樂生成模組60可具有長短期記憶解碼技術61(如長短期記憶解碼器或階層式長短期記憶解碼技術)，以依據音樂潛在特徵抽取單元12自歌曲資料庫11的音樂資料x中所抽取的音樂潛在特徵B(如階層式音樂潛在特徵)的產出z進行音樂生成或解碼。亦即，音樂生成模組60可將特定音樂生成模組40與音樂混搭生成模組50二者補插完的產出z進行音樂生成。

本發明的音樂潛在特徵抽取單元12可導入或建立潛在變數模型123(如階層式潛在變數模型)，且使用長短期記憶編碼技術121與金字塔雙向長短期記憶編碼技術122等二個不同架構的編碼技術，以透過長短期記憶編碼技術121與金字塔雙向長短期記憶編碼技術122自歌曲資料庫11的音樂資料x中抽取出二個互補的潛在特徵而組成或合併成(完整的)音樂潛在特徵，且使用一個解碼技術(如長短期記憶解碼技術61)以優化音樂生成的品質，亦能避免例如習知技術的變分遞迴自編碼器在音樂生成遇到的最佳化問題，如KL散度消失(Kullback-Leibler divergence vanishing) 或稱後崩散(posterior collapse)。同時，本發明能依據使用者的輸入A辨識出使用者的意圖，亦能利用預先建立的音樂知識圖譜13查詢音樂資訊及事先求出音樂潛在特徵B，以利於音樂資訊查詢或音樂生成。

圖2為本發明之基於音樂知識圖譜與意圖辨識之音樂生成方法的流程示意圖，並參閱圖1予以說明。同時，此基於音樂知識圖譜與意圖辨識之音樂生成方法的主要內容如下，其餘內容相同於圖1之說明，於此不再重覆敘述。

如圖2所示，基於音樂知識圖譜與意圖辨識之音樂生成方法可包括提供一具有歌曲資料庫11與音樂潛在特徵抽取單元12的音樂知識圖譜建構模組10，以由音樂潛在特徵抽取單元12自歌曲資料庫11的音樂資料x中抽取出音樂潛在特徵B，俾由音樂知識圖譜建構模組12利用歌曲資料庫11的歌曲的音樂資訊與音樂潛在特徵抽取單元12自歌曲資料庫11的音樂資料x中所抽取的音樂潛在特徵B來建立音樂知識圖譜13，其中，音樂知識圖譜建構模組10在建立音樂知識圖譜13時，可一併將音樂潛在特徵B的產出z寫入音樂知識圖譜13中。同時，由意圖辨識模組20依據使用者的輸入A辨識或解析出使用者的意圖，以由音樂資訊查詢模組30自音樂知識圖譜建構模組10所建立的音樂知識圖譜13中查詢出與意圖辨識模組20所辨識或解析出的使用者的意圖對應的音樂資訊。然後，由音樂生成模組60依據音樂潛在特徵抽取單元12自歌曲資料庫11的音樂資料x中所抽取的音樂潛在特徵B的產出以生成音樂。

又，基於音樂知識圖譜與意圖辨識之音樂生成方法亦可進一步包括音樂潛在特徵抽取單元12的長短期記憶編碼技術121(如階層式長短期記憶編碼技術)與金字塔雙向長短期記憶編碼技術122、音樂潛在特徵B(如階層式音樂潛在特徵)、以及音樂生成模組60的長短期記憶解碼技術61(如階層式長短期記憶解碼技術)。

音樂潛在特徵抽取單元12的長短期記憶編碼技術121可使用處理時間序列資料較為普遍的長短期記憶(LSTM)，以透過長短期記憶(LSTM)自歌曲資料庫11的音樂資料x中擷取出音樂時間序列的潛在特徵與得到潛在特徵的表示(representation)，且此長短期記憶(LSTM)能減少傳統的遞迴神經網路(Recurrent Neural Network；RNN)易發生的梯度消失(vanishing gradient)及長期依賴(long-term dependencies)等問題。又，音樂潛在特徵抽取單元12的金字塔雙向長短期記憶編碼技術122可採用金字塔雙向長短期記憶(pBLSTM)，以透過金字塔雙向長短期記憶(pBLSTM)自歌曲資料庫11的音樂資料x中擷取出多個(如至少二個)小節之間的潛在特徵(如複雜的結構特徵或關係特徵)，且此金字塔雙向長短期記憶(pBLSTM)能避免長序列資料往往會遇到收速度緩慢甚至產生的結果不如預期等問題。同時，音樂潛在特徵抽取單元12的長短期記憶編碼技術121與金字塔雙向長短期記憶編碼技術122可將分別抽取出來的二個潛在特徵組成或合併成音樂潛在特徵B(如階層式音樂潛在特徵)以代表整個的音樂潛在特徵。

音樂生成模組60的長短期記憶解碼技術61(如階層式長短期記憶解碼技術)可具有上層LSTM(或稱第一LSTM)與下層LSTM(或稱第二LSTM)，且上層LSTM(長短期記憶)可依據音樂潛在特徵B(如階層式音樂潛在特徵)的產出z(即潛在變數z)產生對應於音樂資料x中的小節(片段)的嵌入向量c。又，長短期記憶解碼技術61的上層LSTM(長短期記憶)產生嵌入向量c時，下層LSTM(長短期記憶)可透過嵌入向量c自迴歸地(autoregressively)生成每個音樂的子序列y_u。

在一實施例中，本發明之基於音樂知識圖譜與意圖辨識之音樂生成方法係採用音樂潛在特徵抽取單元12的潛在變數模型123(如階層式潛在變數模型)，並包括長短期記憶編碼技術121、金字塔雙向長短期記憶編碼技術122與長短期記憶解碼技術61(如階層式長短期記憶解碼技術)等，茲說明如下。

已知音樂知識圖譜建構模組10的歌曲資料庫11具有至少一或多筆為音樂數位介面(MIDI)的音樂資料x={x₁,x₂,...,x_N}，以從歌曲資料庫11的音樂資料x中學習所生成的潛在因子p(z|x)，但此潛在因子p(z|x)的機率分布無法求得，故可使用近似分布(approximate distribution或稱variational distribution)q _Φ(z|x)，即音樂潛在特徵抽取單元12的音樂潛在特徵抽取，以求得潛在因子p(z|x)的機率分布的近似結果。然後，透過長短期記憶解碼技術61(如階層式長短期記憶解碼技術)，以p_θ(x|z)重構回原本的音樂。在此，假設潛在變數z(即產出z)的先驗分布(prior distribution)是簡單的分布，例如高斯分布(Gaussian distribution)。不同於傳統的方法，本發明的音樂潛在特徵抽取單元12可導入潛在變數模型123(如階層式潛在變數模型)，並假設潛在變數模型123的潛在變數z是由二個互補的潛在變數z ₁及潛在變數z ₂組成，故q_Φ(z|x)及p_θ(x|z)可分別如下列公式(1)及公式(2)所示。

q_Φ(z|x)=q_Φ(z₁,z₂|x)=q_Φ(z₂|z₁,x)q_Φ(z₁|x)......(1)

p_θ(x|z)=p_θ(x|z₁,z₂)......(2)

音樂潛在特徵抽取單元12的長短期記憶編碼技術121可使用長短期記憶(LSTM)，以透過長短期記憶(LSTM)自歌曲資料庫11的音樂資料x中擷取出音樂時間序列的潛在特徵與得到潛在特徵的表示(representation)。然而，傳統的遞迴神經網路(RNN)存在許多的問題，如梯度消失及長期依賴等，故本發明採用較為普遍的長短期記憶(LSTM)來減少這些問題的發生。例如，長短期記憶編碼技術121的輸出採用多維(如256維)的潛在變數z₁，如下列公式(3)及公式(4)所示。

上列公式(3)及公式(4)中，q_Φ(z₁|x)代表長短期記憶編碼技術，x代表音樂資料，z ₁代表潛在變數，N代表常態分布(如高斯分布)，μ代表分布平均值(期望值)，diag代表對角矩陣，σ代表標準差，

代表

的輸出，Φ₁代表神經網路(如長短期記憶編碼)的訓練參數，q代表q_Φ(z₁|x)。

代表音樂資料x經過一層多維(如256維)的LSTM(長短期記憶)得到最後隱藏狀態(final hidden state)h_T且經過一前饋神經網路(feed-forward neural network)的函數。

金字塔雙向長短期記憶編碼技術122之金字塔雙向長短期記憶(pBLSTM)可自歌曲資料庫11的音樂資料x中擷取出潛在特徵(如複雜的結構特徵或關係特徵)，例如音樂資料x中的多個(如至少二個)小節之間的潛在特徵(如關係特徵)，且金字塔雙向長短期記憶(pBLSTM)的隱藏狀態

可如下列公式(5)所示。

上列公式(5)中，i及j分別代表第i時刻的輸入及第j層，j=0即為輸入層，且輸入可為原本的音樂資料x與長短期記憶編碼技術121獲得的潛在特徵z₁的串接。

金字塔雙向長短期記憶編碼技術122可輸出多維(如256維)的潛在特徵z₂，如下列公式(6)及公式(7)所示。

上列公式(6)及公式(7)中，q_Φ(z₂|z₁,x)代表金字塔雙向長短期記憶編碼技術122，x代表音樂資料，z、z ₁或z ₂代表潛在變數，N代表常態分布(如高斯分布)，μ代表分布平均值(期望值)，diag代表對角矩陣，σ代表標準差，

代表

輸出，Φ₂代表代表神經網路(如金字塔雙向長短期記憶編碼)的訓練參數，q代表q_Φ(z₂|z₁,x)。

代表多層多維(如三層256維)的金字塔雙向長短期記憶(pBLSTM)的輸出隱藏狀態經過一前饋神經網路的函數。

長短期記憶解碼技術61(如階層式長短期記憶解碼技術)可採用上層LSTM(或稱第一LSTM)與下層LSTM(或稱第二LSTM)。假設音樂資料x可分割成U個具有由i_u個端點組成的非重疊的子序列y_u，如下列公式(8)及公式(9)所示。

x={y₁,y₂,...,y_u}......(9)

上列公式(8)及公式(9)中，y_u代表非重疊的子序列，x代表音樂資料，i_u代表端點，U代表個數。

長短期記憶解碼技術61之上層LSTM(長短期記憶)的初始隱藏狀態為潛在變數z依序經過(如tanh)激活函數(activation function)及全連接層(fully-connected layer)，並產生U個嵌入向量c={c₁,c₂,...,c_U}以對應至每個非重疊的子序列y_u。而且，長短期記憶解碼技術61之上層LSTM(長短期記憶)產生嵌入向量c時，每個嵌入向量c會經過激活函數與共享的全連接層成為下層LSTM(長短期記憶)的初始隱藏狀態與輸入。然後，長短期記憶解碼技術61之下層LSTM(長短期記憶)會透過嵌入向量c自迴歸地生成每個音樂的子序列y_u。

又，若習知技術的變分遞迴自編碼器基於最大化變分推理(variational inference)導出的證據下界(evidence lower bound；ELBO)，如下列公式(10)所示之L(x；θ,Φ)。

上列公式(10)中，L(x；θ,Φ)代表證據下界，x代表音樂資料，θ或Φ代表參數，z代表潛在變數，E代表取期望值，q代表編碼的輸出機率分布，D_KL代表KL散度，p _θ代表解碼的輸出機率分布。

可對神經網路的參數θ與參數Φ進行訓練，且證據下界L(x；θ,Φ)可由重構損失(reconstruction loss)和正規化損失(regularization loss)組成。本發明的音樂潛在特徵抽取單元12的潛在變數模型123(如階層式潛在變數模型)所推導出來的結果，可例如為下列公式(11)所示。

上列公式(11)中，L(x；θ,Φ)代表證據下界，x代表音樂資料，θ或Φ代表參數，z、z ₁或z ₂代表潛在變數，E代表取期望值，q代表編碼(如長短期記憶編碼q_Φ(z₁|x)與金字塔雙向長短期記憶編碼q_Φ(z₂|z₁,x))的輸出機率分布，D_KL代表KL散度，p _θ代表解碼的輸出機率分布。

比較上述習知技術的公式(10)與本發明的公式(11)可知，習知技術的變分遞迴自編碼器的正規化損失僅由D _KL(q _Φ(z|x)∥p _θ(z))一項所構成，而本發明的正規化損失則由

[D_KL(q_Φ(z₂|z₁,x)∥p_θ(z₂))]與D_KL(q_Φ(z₁|x)∥p_θ(z₁))二項所構成。因此，習知技術的變分遞迴自編碼器在訓練過程中普遍會遇到最佳化的問題，即KL散度消失(Kullback-Leibler divergence vanishing)或稱後崩散(posterior collapse)，此問題的發生普遍被歸咎於自迴歸解碼器(autoregressive decoder)的能力太強導致變分遞迴自編碼器學不到真正的特徵，以至於習知技術的變分遞迴自編碼器整個退化成自迴歸解碼器。

本發明的音樂潛在特徵抽取單元12的潛在變數模型123(如階層式潛在變數模型)增強了編碼的能力，因為潛在變數模型123(如階層式潛在變數模型)的編碼技術由二個不同架構的神經網路(即長短期記憶編碼技術121的長短期記憶與金字塔雙向長短期記憶編碼技術122的金字塔雙向長短期記憶)組成，且二個不同架構的神經網路(即長短期記憶與金字塔雙向長短期記憶)分別對應至推導出來的二項不同的正規化損失，如上列公式(11)所示。換言之，本發明之音樂潛在特徵抽取單元12(音樂潛在特徵抽取)中，若二個編碼技術其中一者(如長短期記憶編碼技術121的長短期記憶)發生KL散度消失或後崩散，則二個編碼技術其中另一者(如金字塔雙向長短期記憶編碼技術122的金字塔雙向長短期記憶)亦可發揮功效以達到互補的效果，進而避免發生整個編碼技術發生KL散度消失或後崩散。

在訓練音樂潛在特徵抽取單元12的潛在變數模型123(如階層式潛在變數模型)時，本發明可參考相關的訓練技巧如KL退火(annealing)，將上列公式(11)所推導出來的證據下界L(x；θ,Φ)改寫成β-VAE的公式，如下列公式(12)所示。

在上列公式(12)中，係於公式(11)中之KL項(即正規化損失)乘上一個權重係數β，並讓權重係數β從0開始隨著訓練逐漸慢慢增大至1。亦即，讓音樂潛在特徵抽取單元12的潛在變數模型123(如階層式潛在變數模型)一開始學會編碼更多的資訊至潛在變數z，隨後再讓潛在變數模型123(如階層式潛在變數模型)平滑其編碼。

在一實施例中，本發明之基於音樂知識圖譜與意圖辨識之音樂生成系統1及方法中，音樂知識圖譜建構模組10可具有歌曲資料庫11、音樂潛在特徵抽取單元12與音樂知識圖譜13。歌曲資料庫11可具有透過網路、音樂網站、雲端或音樂儲存媒體所取得的至少一或多筆音樂資料x，且歌曲資料庫11或音樂資料x的主要資訊為歌曲的音樂數位介面(MIDI)及其相關資訊，例如歌手、歌手屬性、相似的歌手、歌曲、曲風、年代(年份)或歌曲熱門程度等相關資訊。

音樂潛在特徵抽取單元12可自歌曲資料庫11的音樂資料x中抽取出音樂潛在特徵B，且音樂知識圖譜建構模組10可利用歌曲資料庫11的歌曲的音樂資訊與音樂潛在特徵抽取單元12對歌曲資料庫11的音樂資料x所抽取的音樂潛在特徵B來建立音樂知識圖譜13(見圖3至圖4)。特別的是，音樂知識圖譜建構模組10在建立音樂知識圖譜13的歌曲節點時，也一併將音樂潛在特徵B的產出z寫入音樂知識圖譜13中，且音樂知識圖譜建構模組10可依據多首(如至少二首)歌曲之間的音樂潛在特徵B的特徵相似度(相似度關係)將歌曲節點與歌曲節點之間的關係建立於音樂知識圖譜13中，此音樂潛在特徵B的特徵相似度可採用例如L2的歐式距離予以計算。

本發明的一實施例中，使用者的輸入A為「請問2000年，較知名的Rap歌曲有哪些？」，意圖辨識模組20將使用者的輸入A進行關鍵詞的規則意圖分析，且將使用者的輸入A的文字中提及(mention)的實體(如歌手)與音樂知識圖譜13進行實體連結(entity linking)，以由意圖辨識模組20依據關鍵詞的規則意圖分析的結果與實體連結的結果產生對應的意圖及相關參數，例如<音樂資訊查詢(意圖)，2000年(年代)，Rap(曲風)>，其中2000年(年代)與Rap(曲風)表示參數。同樣地，如果使用者的輸入A為「我想要聽雷鬼風格的音樂」，則意圖辨識模組20可依據使用者的輸入A產生如<音樂生成(意圖)，雷鬼(曲風)>，其中雷鬼表示參數(如曲風)。不同於上述的案例，當使用者的輸入A為「請問跟Madonna風格較相近的歌手有誰？」時，使用者的輸入A中的Madonna(瑪丹娜)明顯為一實體(如歌手)，而與音樂知識圖譜13做實體連結以產生如<音樂生成(意圖)，Madonna(歌手)>。

當意圖辨識模組20辨識或解析出使用者的輸入A或意圖為音樂資訊查詢時，音樂資訊查詢模組30可依據意圖辨識模組20對於使用者的輸入A所得到的參數(如年代/曲風)與實體(如歌手)對音樂知識圖譜13進行查詢，以由音樂資訊查詢模組30依據對音樂知識圖譜13的查詢結果輸出使用者所想要的音樂資訊。本發明的一實施例中，如同上述使用者的輸入A為「請問2000年，較知名的Rap歌曲有哪些？」，音樂資訊查詢模組30可依據使用者的輸入A提供或輸出對音樂知識圖譜13(見圖3)的查詢結果為例如「有Eminem的”The Real Slim Shady”，以及Afroman的”Because I Got High”等」。再者，使用者還能依據先前或前次的查詢結果對音樂知識圖譜13做進一步的查詢，例如使用者的輸入A為「請問跟Eminem風格較相近的歌手有誰？」，這時音樂資訊查詢模組30可依據意圖辨識模組20對於使用者的輸入A所得到的參數(如年代/曲風)與實體(如歌手)對音樂知識圖譜13進行查詢，以由音樂資訊查詢模組30依據對音樂知識圖譜13的查詢結果進一步輸出例如「與Eminem風格較相近的歌手有Nelly,Cypress Hill,Akon等」，如圖4所示之音樂知識圖譜13的另一實施例示意圖。透過這樣的方式，除了可讓使用者一步步的查詢到自己想要的音樂資訊外，也可以搭配音樂生成功能產生更符合使用者的需求的音樂。

特定音樂生成模組40亦可依據意圖辨識模組20對於使用者的輸入A所辨識或解析出的意圖與參數(如年代/曲風)進行音樂知識圖譜13的查詢。特別的是，在此並非單純要獲取音樂的資訊，而是音樂知識圖譜建構模組10在建立音樂知識圖譜13時，可一併將音樂潛在特徵B(如階層式音樂潛在特徵)的產出z寫入音樂知識圖譜13中。然而，並不是每個使用者的輸入A都會包括音樂知識圖譜13中相對應的實體(如歌手)。本發明的一實施例中，使用者的輸入A為「我想要聽1980年代、Pop Rock風格的音樂」，雖使用者的輸入A或文字中有提到音樂相關的條件或參數/屬性(如1980年代與Pop Rock)，但使用者的輸入A沒有對應至明確的歌曲的實體(如歌手)。因此，特定音樂生成模組40可依據使用者的輸入A的條件從音樂知識圖譜13中挑選(如隨機挑選)出一首符合此條件的音樂潛在特徵B的歌曲，或者依據多首(如至少二首)符合此條件的歌曲結合用音樂潛在特徵B所建立的多首(如至少二首)歌曲之間的特徵相似度(相似度關係)以計算出坐落於音樂知識圖譜13之中心點(centroid)或中心區域的歌曲，進而使用此歌曲的音樂潛在特徵B於特定音樂生成模組40中。

音樂混搭生成模組50為較特別的部分，由於本發明的音樂生成方式是基於音樂潛在特徵抽取單元12的潛在變數模型123(如階層式潛在變數模型)，故音樂混搭生成模組50可透過音樂潛在特徵抽取單元12的潛在變數模型123對不同的多首(如至少二首)歌曲或音樂之間的音樂潛在特徵B(如階層式音樂潛在特徵)的產出z進行補插，以得到或達到多首(如至少二首)歌曲或音樂之間的曲風混搭生成。本發明的一實施例中，使用者的輸入A為「我想要聽結合麥可傑克森的Bad以及瑪丹娜的Hung Up風格的音樂」，意圖辨識模組20依據使用者的輸入A辨識或解析出的結果為例如<音樂混搭(意圖)，麥可傑克森(歌手)，Bad(歌曲)，瑪丹娜(歌手)，Hung Up(歌曲)>，這時音樂混搭生成模組50可從音樂知識圖譜13中找出麥可傑克森的Bad與瑪丹娜的Hung Up這二首歌曲(音樂)的音樂潛在特徵B(如階層式音樂潛在特徵)的產出z _a與產出z _b，並採用下列公式(13)對二首歌曲(音樂)之間的音樂潛在特徵B的產出z進行補插。

上列公式(13)中，z、z _a、z _b代表產出。α屬於0或1，用以控制音樂混搭生成模組50所產生的音樂偏向產出z _a或產出z _b，可參考圖6所示之音樂的視覺化圖例。例如：當α屬於0(偏向產出z _a)時，音樂混搭生成模組50所產生的音樂偏向麥可傑克森的Bad；反之，當α屬於1(偏向產出z _b)時，音樂混搭生成模組50所產生的音樂偏向瑪丹娜的Hung Up。音樂混搭生成模組50所補插出來的產出z(結果)會與特定音樂生成模組40一樣，再經過音樂生成模組60產生實際的音樂。

音樂生成模組60可具有長短期記憶解碼技術61(如階層式長短期記憶解碼技術)，以依據音樂潛在特徵抽取單元12自歌曲資料庫11的音樂資料x中所抽取的音樂潛在特徵B(如階層式音樂潛在特徵)的產出z進行音樂生成或解碼。亦即，音樂生成模組60可將特定音樂生成模組40與音樂混搭生成模組50二者補插完的產出z進行音樂生成。本發明的一實施例中，如上述使用者的輸入A為「我想要聽1980年代、Pop Rock風格的音樂」，音樂生成模組60可依據使用者的輸入A產生如圖5所示之音樂(如鋼琴、貝斯或鼓)的視覺化圖例(視覺化後的結果)。本發明的另一實施例中，若使用者的輸入A為「我想要聽結合麥可傑克森的Bad以及瑪丹娜的Hung Up風格的音樂」，音樂生成模組60可依據使用者的輸入A產生如圖6所示之音樂(如貝斯)的視覺化圖例，且自圖6中能清楚地觀察到在Bad音樂與Hung Up音樂間有關音樂混搭之曲風的演變過程。

另外，本發明還提供一種基於音樂知識圖譜與意圖辨識之音樂生成方法的電腦可讀媒介，係應用於具有處理器(例如，CPU、GPU等)及/或記憶體的計算裝置或電腦中，且儲存有指令，並可利用此計算裝置或電腦透過處理器及/或記憶體執行此電腦可讀媒介，以於執行此電腦可讀媒介時執行上述內容。

綜上，本發明之基於音樂知識圖譜與意圖辨識之音樂生成系統、方法及電腦可讀媒介係至少具有下列特色、優點或技術功效。

一、本發明能透過網路、音樂網站、雲端、音樂儲存媒體等管道取得歌曲資料庫的音樂資料，例如歌手、歌手屬性、相似的歌手、歌曲、曲風、年代(年份)、或歌曲熱門程度等，以利於依據所取得的音樂資料建立音樂知識圖譜。

二、本發明可將多個(如至少二個)音樂潛在特徵之間的特徵相似度(相似度關係)加入音樂知識圖譜的建立，如此能更有效率地生成音樂，讓使用者易於得到或生成相似於歌手、曲風、年代甚至深度學習抽取的高階特徵的音樂，而非只能決定大小調與節奏等低階特徵。

三、本發明能利用意圖辨識模組依據使用者的輸入辨識或解析出使用者的意圖，亦能利用音樂知識圖譜查詢音樂資訊及音樂潛在特徵，以利於音樂資訊查詢或生成音樂。

四、本發明之音樂知識圖譜建構模組在建立音樂知識圖譜的歌曲節點時，可一併將音樂潛在特徵的產出寫入音樂知識圖譜中，或者依據多首(如至少二首)歌曲之間的音樂潛在特徵的特徵相似度(相似度關係)將歌曲節點與歌曲節點之間的關係建立於音樂知識圖譜中，以利於省去每次要生成音樂時的特徵抽取時間，亦能透過深度學習抽取的高階特徵來找尋歌曲彼此之間的相似度關係。

五、本發明之音樂知識圖譜建構模組的音樂潛在特徵抽取單元採用二個不同架構的編碼技術(即長短期記憶編碼技術與金字塔雙向長短期記憶編碼技術)，以分別或依序自歌曲資料庫的音樂資料中抽取出二個互補的潛在特徵而組成或合併成(完整的)音樂潛在特徵，再透過長短期記憶解碼技術(如階層式長短期記憶解碼技術)依據音樂特性生成小節至整個音樂。

六、本發明利用音樂潛在特徵抽取單元的潛在變數模型(如階層式潛在變數模型)以提高音樂生成品質，亦能避免習知技術的變分遞迴自編碼器易發生的最佳化問題，例如KL(Kullback-Leibler)散度消失或稱後崩散(posterior collapse)。

七、本發明之音樂潛在特徵抽取單元的長短期記憶編碼技術可使用處理時間序列資料較為普遍的長短期記憶(LSTM)，以自歌曲資料庫的音樂資料中擷取出音樂時間序列的潛在特徵與得到潛在特徵的表示，且此長短期記憶(LSTM)能減少傳統的遞迴神經網路(RNN)易發生的梯度消失及長期依賴等問題。

八、本發明之音樂潛在特徵抽取單元的金字塔雙向長短期記憶編碼技術可採用金字塔雙向長短期記憶(pBLSTM)，以自歌曲資料庫的音樂資料中擷取出多個(如至少二個)小節之間的潛在特徵(如複雜的結構特徵或關係特徵)，且此金字塔雙向長短期記憶(pBLSTM)能避免長序列資料往往會遇到收速度緩慢甚至產生的結果不如預期等問題。

九，本發明可能應用之產業為例如音樂教學、影片配樂、自媒體、休閒娛樂等，且可能應用之產品為例如智慧音箱、音樂網頁服務、音樂應用程式(App)等，但不以此為限。

上述實施形態為例示性說明本發明之原理、特點及其功效，並非用以限制本發明之可實施範疇，任何熟習此項技藝之人士均能在不違背本發明之精神及範疇下，對上述實施形態進行修飾與改變。任何使用本發明所揭示內容而完成之等效改變及修飾，均仍應為申請專利範圍所涵蓋。因此，本發明之權利保護範圍應如申請專利範圍所列。