TWI713363B

TWI713363B - 資訊影片產生方法與裝置

Info

Publication number: TWI713363B
Application number: TW108146780A
Authority: TW
Inventors: 黃顯詔; 丁羿慈; 陳譽云; 楊崇文
Original assignee: 宏正自動科技股份有限公司
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2020-12-11
Also published as: TW202126056A

Abstract

一種資訊影片產生方法與裝置，係先取得文本；依據文本，透過分頁摘要機器模型產生複數分頁摘要；依據分頁摘要產生複數分頁；依據文本，透過文字稿機器模型產生複數文字稿；依據文字稿，透過文字轉語音機器模型產生複數旁白語音；及將分頁與旁白語音合成資訊影片。

Description

資訊影片產生方法與裝置

本發明是有關於一種資訊處理技術，尤指一種資訊影片產生方法與裝置。

由於資訊科技的發展，促成了許多影音媒體工作者投入影音創作的行列。然而，影音編輯不但需要對影像進行處理，還需要錄下旁白，並且在配合影片調整時間軸，若事先沒規劃好，甚至需要反覆錄音調整，創作者需要付出相較於產出影片時長的好幾倍的時間。

有鑑於此，本發明實施例提出一種資訊影片產生方法與裝置。

在一實施例中，語音貼圖產生方法包括：取得文本；依據文本，透過分頁摘要機器模型產生複數分頁摘要；依據分頁摘要產生複數分頁；依據文本，透過文字稿機器模型產生複數文字稿；依據文字稿，透過文字轉語音機器模型產生複數旁白語音；及將分頁與旁白語音合成資訊影片。

在一實施例中，資訊影片產生裝置包括分頁摘要模組、分頁產生模組、文字稿產生模組、文字轉語音模組及影片合成模組。分頁摘要模組載有分頁摘要機器模型，以依據文本產生複數分頁摘要。分頁產生模組依據分頁摘要產生複數分頁。文字稿產生模組載有文字稿機器模型，以依據文本產生複數文字稿。文字轉語音模組載有文字轉語音機器模型，以依據文字稿產生複數旁白語音。影片合成模組將分頁與旁白語音合成資訊影片。

綜上所述，根據本發明的實施例，可以根據文本產生資訊影片，資訊影片具有文本中重要內容的摘要文字並配合相關說明內容的語音。在一些實施例中，旁白語音可根據使用者的選擇，按照對應人員的聲音來發聲。在一些實施例中，可因應文本的文本類型，選擇相應的摘要模型作為分頁摘要機器模型，來產生分頁摘要，使得獲得的分頁摘要更為精準。

參照圖1，係為本發明一實施例之資訊影片產生裝置100之硬體架構示意圖。資訊影片產生裝置100為一個或多個具有運算能力的電腦系統（在此以一處理裝置120為例），例如個人電腦、筆記型電腦、智慧型手機、平板電腦、伺服器叢集等。資訊影片產生裝置100能夠依據文本自行生成資訊影片。

資訊影片產生裝置100之處理裝置120的硬體具有處理器121、記憶體122、非暫態電腦可讀取記錄媒體123、周邊介面124、及供上述元件彼此通訊的匯流排125。匯流排125包括但不限於系統匯流排、記憶體匯流排、周邊匯流排等一種或多種之組合。處理器121包括但不限於中央處理單元（CPU）1213和神經網路處理器（NPU）1215。記憶體122包括但不限於揮發性記憶體（如隨機存取記憶體（RAM））1224和非揮發性記憶體（如唯讀記憶體（ROM））1226。非暫態電腦可讀取記錄媒體123可例如為硬碟、固態硬碟等，供儲存包括複數指令的電腦程式產品（後稱「軟體」），致使電腦系統的處理器121執行該些指令時，使得電腦系統執行資訊影片產生方法。周邊介面124供連接如鍵盤、麥克風、喇叭、顯示器、網路卡等輸入/輸出裝置。

在一些實施例中，處理裝置120包括二個以上的電腦系統，例如：一個人電腦及一伺服器。伺服器執行資訊影片產生處理。個人電腦將文本經由網路傳送給伺服器，並經由網路接收伺服器回傳的資訊影片。

合併參照圖2、圖3及圖4。圖2為本發明一實施例之資訊影片產生裝置100之軟體架構示意圖。圖3為本發明一實施例之資訊影片產生裝置100之神經模型架構示意圖。圖4為本發明一實施例之資訊影片產生方法流程圖。資訊影片產生裝置100之軟體包括：分頁摘要模組210、分頁產生模組220、文字稿產生模組230、文字轉語音模組240及影片合成模組250。

首先，於步驟S401中，取得一文本300。所述文本300可以是文字檔、文件（如支援文書處理軟體格式的檔案、電子書格式檔案）、網頁等形式，透過網路或其他通訊方式（如透過周邊介面124讀取外部儲存媒體）取得。

接著，在步驟S402中，分頁摘要模組210載入分頁摘要機器模型410，以依據文本300產生複數分頁摘要310。每一分頁摘要310可以提供後續在步驟S403中產生一個分頁320的說明頁面（如同一份簡報中的一張分頁）。分頁摘要模組210會將文本300切分為多個文字段360（如圖5所示），而透過分頁摘要機器模型410分別依據各個文字段360選擇性地萃取出分頁摘要310。亦即，各個分頁摘要310是分別從不同的文字段360萃取出來，而某一或某些文字段360可能沒有萃取出分頁摘要310。

參照圖5，係為本發明一實施例之分頁摘要機器模型410的架構示意圖。分頁摘要機器模型410包括編碼器441、注意力機制（Attention）412、解碼器413及預訓練模型414。在此，預訓練模型414用於理解文本中的詞或句子之間的語意或文義的關聯性。預訓練模型414可以例如是ELMo模型、GPT2模型、BERT模型等。ELMo模型為雙向語言模型（biLM）的多層表示的組合，能將多層雙向語言模型的輸出整合成一個向量（權重）。因此，ELMo模型能參考句子中的詞之上下文關聯性並計算最大可能性來進行詞的預測。GPT2模型採用類似Google公司提出的Transformer模型中的解碼器架構，在經歷大量文本的學習之後，能使用極大量的參數，將文章前沿（如一段句子）輸入至GPT2模型之後，就能夠預測接下來的文字。BERT模型利用類似Google公司提出的Transformer模型中的編碼器架構。BERT模型的訓練主要包括兩個部分：第一，在句子中隨機遮蓋一部分單詞，然後同時利用上下文的信息預測遮蓋的單詞，這樣可以更好地根據全文理解單詞的意思；第二，是對下一句進行預測，給定兩個句子，判斷第二句是否接在原始文章的第一句之後，用以理解兩個句子之間的關聯性。

因此，利用上述預訓練模型414的權重對於編碼器441進行遷移學習（Transfer Learning）。文字段360被輸入到編碼器441中，經過編碼器441編碼之後形成句子向量510，此句子向量可表示句子與其他句子之間的語意或文義關聯性高低（即向量愈靠近表示句子間的語意或文義關聯性愈高）。句子向量510透過注意力機制412形成文字段向量520，此文字段向量可表示文字段與其他文字段之間的語意或文義關聯性高低。文字段向量520再透過解碼器413轉換為分頁摘要310。

復參照圖2、圖3及圖4。在步驟S402之後，分頁產生模組220依據分頁摘要310產生複數分頁320（步驟S403）。具體來說，分頁產生模組220會產生一個分頁畫面，並在分頁畫面上列出分頁摘要310的內容，而形成一個分頁320。參照圖6，係為本發明一實施例之分頁摘要310之示意圖。以輸入的文本300為一有關機器學習神經網路的學術論文為例，如圖6所示的分頁320上呈現有包括標題321、摘要項目322、子摘要項目323等內容，但本發明實施例非以此為限。此些內容是從文本300中的萃取出來的。例如，文本300會包含如標題、作者、文章內容等，文章內容又可區分為摘要、引言等段落。分頁摘要模組210會根據此些不同段落的內容切分為前述多個文字段360，甚者將一個段落的內容進一步切分為更多文字段360。分頁摘要模組210會對於所切分出的每一個文字段360的內容萃取出包括如前述標題321、摘要項目322、子摘要項目323等內容的分頁摘要310。在一些實施例中，分頁摘要310中的內容並不以上述標題321、摘要項目322、子摘要項目323為限，亦即可包含更多的內容，或者是僅包含一部分的內容（如僅有標題321、摘要項目322），或是僅包含上述標題321、摘要項目322、子摘要項目323的一部分以及其他內容。

在一些實施例中，分頁320可以是以靜態方式呈現；在另一些實施例中，分頁320可以是以動態方式呈現（如包括其他動畫內容、分頁摘要310的內容以動態特效方式呈現）。

在一些實施例中，所述文字段360是根據文本300中所記載的符號來切分。符號可例如為換行符號、標點符號等。

在一些實施例中，所述文字段360是根據文本300中所記載的文本標題來切分。所述文本標題可例如為文本名稱、子標題（例如章、節等）等。

在步驟S401之後，還執行步驟S404，係依據文本300，透過文字稿機器模型430產生複數文字稿330。所述文字稿330是分別對應於前述分頁摘要310的內容，提供更詳細的說明內容。承前述圖6之例，文字稿會包括對於如標題321、摘要項目322、子摘要項目323等內容之介紹說明。例如，針對子摘要項目323中的第一點，可以提供何謂梅爾頻譜（Mel-Spectrogram）、將字元序列轉換為梅爾頻譜之原理等說明內容。

接著，進入步驟S405，依據步驟S404產生的文字稿330，透過文字轉語音機器模型440產生複數旁白語音340。換言之，利用文字轉語音機器模型440將文字稿330轉成如同真人發音念出該段文字稿330內容的語音訊號。

上述步驟S402、S403和步驟S404、S405之間沒有必然的執行順序。圖4雖是以兩個執行緒的形態繪示，但不限制在同時間進行。例如，可以先完成步驟S402、S403，再完成步驟S404、S405；反之，以可以是先完成步驟S404、S405，再完成步驟S402、S403。

在步驟S406中，影片合成模組250將分頁320和旁白語音340合成資訊影片350。具體來說，資訊影片350具有多個影格（Frame），影片合成模組250將分頁320依序排列在此些影格中。每個影格具有固定的顯示時間（例如1/24秒）。對應於各分頁320的影格數量不必然相同，亦即，在資訊影片350中，顯示各分頁320的時間區間不必然相同，當視對應的旁白語音340的長度而定。影片合成模組250將此些旁白語音340加入資訊影片350中，並使得各旁白語音340一一對應於各分頁320的時間區間。

在一些實施例中，分頁摘要310及文字稿330是分別根據各文字段360產生。也就是說，分頁摘要模組210會對於所切分出的每一個文字段360一併提供給文字稿產生模組230。同一文字段360將產生對應的分頁摘要310（和對應的分頁320）及文字稿330（和對應的旁白語音340）。資訊影片350是根據分別對應於同一文字段360的分頁320和旁白語音340在時間上彼此對齊的方式形成。

前述分頁摘要機器模型410是經過預先訓練的，可以使用大量的文本300作為訓練資料。此些訓練資料中重要的內容經由人工標註。使得分頁摘要機器模型410能夠收斂出相應的權重參數，並保存在權重資料庫（圖未示）中。據此，在後續使用分頁摘要機器模型410時，可供分頁摘要模組210調用權重資料庫中儲存的對應權重參數，以套用於分頁摘要機器模型410。

相似地，文字稿機器模型430也是經過預先訓練的，可以使用大量的文本300作為訓練資料。此些訓練資料中重要的內容可以經由人工標註，亦可以透過經過學習的電子裝置進行標註。是以，使得分頁摘要機器模型410能夠收斂出相應的權重參數，並保存在權重資料庫（圖未示）中。據此，在後續使用文字稿機器模型430時，可供文字稿產生模組230調用權重資料庫中儲存的對應權重參數，以套用於文字稿機器模型430。

資訊影片產生裝置100還儲存有語料庫200，以對文字轉語音機器模型440進行訓練。語料庫200是用來提供一個人員或多個人員的語料，所述語料是指語音資料，即該人員講話的語音檔。例如，使用者可使用麥克風將自己的聲音錄製成語料。在一些實施例中，語料庫200還儲存對應於各該語料的內容的文字。在訓練時，將屬於一人員的多個語料及相應的文字輸入至文字轉語音機器模型440中，以取得對應此人員的模型權重。按照同樣的方式，可分別形成對應不同人員的模型權重。此些模型權重將被儲存在權重資料庫中，供文字轉語音模組240調用。在此，文字轉語音機器模型440是序列對序列（Sequence to Sequence）模型。在一些實施例中，可對於待輸入的語料進行預處理，例如濾波、調整音量、時域頻域轉換、動態壓縮、去噪音、去雜訊、使音訊格式一致等。

在一些實施例中，資訊影片產生裝置100可以提供使用者選擇欲依據哪一個人員的聲音來產生旁白語音340（例如提供人員選單）。根據使用者的選項，文字轉語音模組240可以依據所選擇的人員，從權重資料庫中選取對應的模型權重。續而，文字轉語音模組240將所選取的模型權重套用至文字轉語音機器模型440中，以從文字轉語音機器模型440的輸出取得具有所選擇的人員的聲音的旁白語音340。

參照圖7，係為本發明一實施例之文字轉語音機器模型440的架構示意圖。文字轉語音機器模型440包括編碼器441、注意力機制（Attention）442、音訊解碼器（AudioDecoder）443、後網路（PostNet）444和聲碼器（Vocoder）445。

編碼器441包括文字編碼器（TextEncoder）446和音訊編碼器（AudioEncoder）447。分別參照圖8及圖9，圖8為本發明一實施例之文字編碼器446之架構示意圖，圖9為本發明一實施例之音訊編碼器447之架構示意圖。於一實施例中，文字編碼器446包括一字符嵌入（Character Embedding）層4461、一非因果卷積（Non-causal Convolution）層4462及四個高速公路卷積（Highway Convolution）層4463。於一實施例中，音訊編碼器447包括三個因果卷積（Causal Convolution）層4471和四個高速公路卷積層4472。然而，本發明實施例之文字編碼器446和音訊編碼器447並非以上述實施例之組成為限。

參照圖10，係為本發明一實施例之解碼器443（或稱音訊解碼器）之架構示意圖。於一實施例中，解碼器443包括一第一因果卷積層4431、四個高速公路卷積層4432、二個第二因果卷積層4433及一邏輯斯諦函數（Sigmoid）層4434。本發明實施例之解碼器443並非以上述組成為限。

於一實施例中，注意力機制442給定一查找（query）和一鍵值（key-value）表，將查找映設到正確輸入的過程，輸出則為加權求和的形式，權重由查找、鍵、值共同決定。參照式1，文字編碼器446的輸出為鍵值。其中，L為輸入的文字，K為鍵，V為值。參照式2，音訊編碼器447的輸出為查找（Q）。其中M _1:F,1:T為輸入的訓練語料音訊的梅爾倒頻，其為 F*T之二維的資訊。F為梅爾濾波器組的數量，T為音訊時間幀（frame）數。文字與語音的匹配程度為𝑄,𝐾 ^𝑇./√𝑑，經過SoftMax函數歸一化處理之後即是注意力權重（Attention），如式3所示。其中，d為維度，𝐾 ^𝑇為K的轉移矩陣，A為注意力權重值。將值與注意力權重內積（如式4所示）後輸入到音訊解碼器443即獲得語音特徵向量，如式5所示。其中，Y _1:F,2:T+1為語音特徵向量，F為梅爾濾波器組的數量，T為音訊時間幀數，R’為注意力機制442之輸出。 (K, V) = TextEncoder (L) （式1） Q = AudioEncoder (M _1:F,1:T) （式2） A = SoftMax (QK ^T/ √d) （式3） R = V*A （式4） Y _{1:F, 2:T+1}= AudioDec (R') （式5）

上述注意力機制442並非以前述實施例為限，於另外一實施例中，注意力機制442給定一查找（query）和一鍵值（key-value）表，將查找映設到正確輸入的過程，輸出則為加權求和的形式，權重由查找、鍵、值共同決定。參照式6，文字編碼器446的輸出為複數個鍵值。其中，L為輸入的文字， K =[K ₁, ..., K _n]為 n 個鍵， V =[V ₁, ..., V _n]為相對應的 n 個值。參照式7，音訊編碼器447的輸出為 n 個查找（ Q =[Q ₁, ..., Q _n]）。其中M _1:F,1:T為輸入的訓練語料音訊的梅爾倒頻，其為 F*T 之二維的資訊。F 為梅爾濾波器組的數量，T 為音訊時間幀（frame）數。對於第 i 組鍵值與查找配對，文字與語音的匹配程度為 Q _iK _i ^T/ √d。經過SoftMax函數歸一化處理之後即是第 i 組之注意力權重（Attention），如式8所示。其中，d為維度，K _i ^T為K _i的轉移矩陣，A _i為第 i 組注意力權重值。將每一組的值與注意力權重值內積（如式9所示）後並相加（Concatenate），輸入到音訊解碼器443即獲得語音特徵向量，如式10所示。其中，Y _1:F,2:T+1為語音特徵向量，F 為梅爾濾波器組的數量，T 為音訊時間幀（frame）數，R 為注意力機制442之輸出。 (K, V) = TextEncoder (L) （式6）其中 K 與 V 為各 n 個鍵與值，n 的數目可以為 10、20，但不以此為限。 Q = AudioEncoder (M _1:F,1:T) （式7）其中 Q 為 n 個查找，n 的數目可以為 10、20，但不以此為限。 A _i= SoftMax (Q _iK _i ^T/ √d) （式8）其中 A _i為利用式 6 的 n 個鍵中的第 i 個鍵，與式 7 的 n 個查找中的第 i 個查找計算而來的。A _i的數目跟 K、V、Q 一樣共有 n 個。 R = Concatenate(V _i*A _i) （式9）其中 A _i為式 8 中的 n 個 A _i中的第i個，V _i為式 6 中的 n 個值中的第i個。把每一對的 Ai 及 Vi 做矩陣乘法後相加（ Concatenate）起來，即得到最後的 R。 Y _{1:F, 2:T+1}= AudioDec (R) （式10）

後網路440是對語音特徵向量進行優化處理，換句話說，後網路440是將經過解碼器443輸出的語音特徵向量進行優化，能藉此減少輸出音訊之雜音、爆音，以提高輸出音訊之品質。

聲碼器445將語音特徵向量轉換為語音輸出。聲碼器445可利用開源軟體「World」或「Straight」來實現，但本發明實施例非以此為限。

在一些實施例中，文字在輸入至文字轉語音機器模型440之前，可先經過預處理，例如：對於中文字轉換成相應於注音符號的編碼字串，對於一段文字進行分詞處理（如透過jieba軟體或中研院 CKIP 中文斷詞系統），對於破音字可透過查表方式找出正確的聲調，或者因應三聲變調規則進行調整。

參照圖11，係為本發明另一實施例之資訊影片產生裝置100之神經模型架構示意圖。與前述圖3所示之實施例的差異在於，資訊影片產生裝置100包括多個摘要模型411，且還包括文本分類機器模型420。分頁摘要模組210會載入文本分類機器模型420，以對文本300的類型進行識別。也就是說，透過文本分類機器模型420將文本300分類至複數文本類型370中的其中之一。所述的文本類型370可以例如為文學類、工程類、故事類等，但本發明實施例非限於此。由於不同文本類型370的文本300通常具有不同的排版和文章架構，因此可以利用此等排版或文章架構的特徵來區分不同的文本類型370。

參照圖12，係為本發明一實施例之文本分類機器模型420之架構示意圖。文本分類機器模型420包括嵌入層421、卷積層422、池化層423、全連接層424及損失層425。嵌入層421接收文本300作為輸入，以將文本300表示為向量。卷積層422對向量進行卷積，以提取特徵。池化層423用以對提取出的特徵進行降維計算，以減少特徵參數數量。經過全連接層424依照輸入的特徵進行分類，最後進入損失層425，來推算分類為各個文本類型370的概率，以決定出該文本300對應的文本類型370。在此，損失層425可例如為softmax函數。

在此，前述文本分類機器模型420也是經過訓練的。在此是使用大量分別屬於不同文本類型370的文本300作為訓練資料。此些訓練資料經由人工分類標註對應的文本類型370。使得文本分類機器模型420能夠收斂出相應的權重參數，並保存在權重資料庫（圖未示）中。據此，在後續使用文本分類機器模型420時，可供分頁摘要模組210調用權重資料庫中儲存的對應權重參數，以套用於文本分類機器模型420。

識別出文本300的文本類型370之後，便可在多個摘要模型411之中選擇與經分類的文本類型370相對應者，作為前述的分頁摘要機器模型410。後續便可如前述的，依據所選到的分頁摘要機器模型410對文本300產生的分頁摘要。由於事先對文本300的類型進行識別，因此，可更加準確的萃取出文本300的重要內容，以產生如前所述的標題321、摘要項目322、子摘要項目323等內容。

每一摘要模型411分別經由某一文本類型370的文本300進行訓練，而分別取得對應不同文本類型370的權重參數，以儲存在權重資料庫中。

綜上所述，根據本發明的實施例，可以根據文本300產生資訊影片350，資訊影片350具有文本300中重要內容的摘要文字並配合相關說明內容的語音。在一些實施例中，旁白語音340可根據使用者的選擇，按照對應人員的聲音來發聲。在一些實施例中，可因應文本300的文本類型370，選擇相應的摘要模型411作為分頁摘要機器模型410，來產生分頁摘要310，使得獲得的分頁摘要310更為精準。

100:資訊影片產生裝置 120:處理裝置 121:處理器 1213:中央處理單元 1215:神經網路處理器 122:記憶體 1224:揮發性記憶體 1226:非揮發性記憶體 123:非暫態電腦可讀取記錄媒體 124:周邊介面 125:匯流排 200:語料庫 210:分頁摘要模組 220:分頁產生模組 230:文字稿產生模組 240:文字轉語音模組 250:影片合成模組 300:文本 310:分頁摘要 320:分頁 321:標題 322:摘要項目 323:子摘要項目 330:文字稿 340:旁白語音 350:資訊影片 360:文字段 370:文本類型 410:分頁摘要機器模型 411:摘要模型 412:注意力機制 413:解碼器 414:預訓練模型 420:文本分類機器模型 421:嵌入層 422:卷積層 423:池化層 424:全連接層 425:損失層 430:文字稿機器模型 440:文字轉語音機器模型 441:編碼器 442:注意力機制 443:音訊解碼器 4431:第一因果卷積層 4432:高速公路卷積層 4433:第二因果卷積層 4434:邏輯斯諦函數層 444:後網路 445:聲碼器 446:文字編碼器 4461:字符嵌入層 4462:非因果卷積層 4463:高速公路卷積層 447:音訊編碼器 4471:因果卷積層 4472:高速公路卷積層 510:句子向量 520:文字段向量 S401～S406:步驟

[圖1]為本發明一實施例之資訊影片產生裝置之硬體架構示意圖。 [圖2]為本發明一實施例之資訊影片產生裝置之軟體架構示意圖。 [圖3]為本發明一實施例之資訊影片產生裝置之神經模型架構示意圖。 [圖4]為本發明一實施例之資訊影片產生方法流程圖。 [圖5]為本發明一實施例之分頁摘要機器模型的架構示意圖。 [圖6]為本發明一實施例之分頁摘要之示意圖。 [圖7]為本發明一實施例之文字轉語音機器模型的架構示意圖。 [圖8]為本發明一實施例之文字編碼器之架構示意圖 [圖9]為本發明一實施例之音訊編碼器之架構示意圖。 [圖10]為本發明一實施例之音訊解碼器之架構示意圖。 [圖11]為本發明另一實施例之資訊影片產生裝置之神經模型架構示意圖。 [圖12]為本發明一實施例之文本分類機器模型之架構示意圖。

S401~S406:步驟

Claims

一種資訊影片產生方法，包括：取得一文本；依據該文本，透過一分頁摘要機器模型產生複數分頁摘要；依據該些分頁摘要產生複數分頁；依據該文本，透過一文字稿機器模型產生複數文字稿；依據該些文字稿，透過一文字轉語音機器模型產生複數旁白語音；及將該些分頁與該些旁白語音合成一資訊影片。
如請求項1所述之資訊影片產生方法，其中所述依據該文本，透過該分頁摘要機器模型產生該複數分頁摘要的步驟，包括：透過一文本分類機器模型將該文本分類至複數文本類型中之一。
如請求項2所述之資訊影片產生方法，其中該分頁摘要機器模型屬於複數摘要模型中的其中之一，所述依據該文本，透過該分頁摘要機器模型產生該複數分頁摘要的步驟，還包括：依據經分類的該文本類型，選擇該些摘要模型的其中之一作為該分頁摘要機器模型；以及依據所選到的該分頁摘要機器模型對該文本產生該些分頁摘要。
如請求項3所述之資訊影片產生方法，更包括：依據分別屬於該些文本類型的訓練資料，訓練該些摘要模型。
如請求項1所述之資訊影片產生方法，更包括：依據複數人員的複數語料訓練該文字轉語音機器模型而獲得分別對應該些人員的複數模型權重；選擇該些人員中的其中之一；依據所選擇的該人員，選取對應的該模型權重；及將所選取的該模型權重套用至該文字轉語音機器模型中，以取得具有所選擇的該人員的聲音的該些旁白語音。
如請求項1所述之資訊影片產生方法，其中在產生該些分頁摘要及該些文字稿的步驟之前，更包括：切分該文本為複數文字段；其中該些分頁摘要及該些文字稿是分別根據各該文字段產生，該資訊影片是根據分別對應於同一該文字段的該些分頁和該些旁白語音在時間上彼此對齊的方式形成。
如請求項6所述之資訊影片產生方法，其中所述切分該文本為該些文字段是根據該文本中記載的符號切分。
如請求項6所述之資訊影片產生方法，其中所述切分該文本為該些文字段是根據該文本中記載的文本標題切分。
一種資訊影片產生裝置，包括：一分頁摘要模組，載有一分頁摘要機器模型，以依據一文本產生複數分頁摘要；一分頁產生模組，依據該些分頁摘要產生複數分頁；一文字稿產生模組，載有一文字稿機器模型，以依據該文本產生複數文字稿；一文字轉語音模組，載有一文字轉語音機器模型，以依據該些文字稿產生複數旁白語音；及一影片合成模組，將該些分頁與該些旁白語音合成一資訊影片。
如請求項9所述之資訊影片產生裝置，其中該分頁摘要模組還載有一文本分類機器模型，以對該文本分類至複數文本類型中之一。
如請求項10所述之資訊影片產生裝置，其中該分頁摘要機器模型屬於複數摘要模型中的其中之一，其中該分頁摘要模組依據經分類的該文本類型選擇該些摘要模型的其中之一作為該分頁摘要機器模型，以依據所選到的該分頁摘要機器模型對該文本產生該些分頁摘要。
如請求項11所述之資訊影片產生裝置，其中該些摘要模型分別經過屬於該些文本類型的訓練資料訓練。
如請求項9所述之資訊影片產生裝置，其中該文字轉語音機器模型經過複數人員的複數語料訓練，以獲得分別對應該些人員的複數模型權重，該資訊影片產生裝置還包括一選擇模組，以供選擇該些人員中的其中之一，該文字轉語音模組依據所選擇的該人員，選取對應的該模型權重，並將所選取的該模型權重套用至該文字轉語音機器模型中，以取得具有所選擇的該人員的聲音的該些旁白語音。
如請求項9所述之資訊影片產生裝置，其中該分頁摘要模組將該文本切分為複數文字段，該些分頁摘要及該些文字稿是分別根據各該文字段產生，該資訊影片是根據分別對應於同一該文字段的該些分頁和該些旁白語音在時間上彼此對齊的方式形成。
如請求項14所述之資訊影片產生裝置，其中所述切分該文本為該些文字段是根據該文本中記載的符號切分。
如請求項15所述之資訊影片產生裝置，其中所述切分該文本為該些文字段是根據該文本中記載的文本標題切分。