TW202041037A

TW202041037A - 影片編輯方法及裝置

Info

Publication number: TW202041037A
Application number: TW108117520A
Authority: TW
Inventors: 楊正大; 張京; 巫宗翰; 張哲豪
Original assignee: 麥奇數位股份有限公司
Priority date: 2019-04-16
Filing date: 2019-05-21
Publication date: 2020-11-01
Also published as: TWI704805B; CN109889920A; CN109889920B

Abstract

一種影片編輯方法，由一影片編輯裝置來實施，該影片編輯裝置儲存有一影片，該影片包括一演講者，該影片編輯方法包含以下步驟：(A)根據該影片的音訊獲得多個目標子影片段落；(B)根據該等目標子影片段落的內容將該等目標子影片段落進行排序；(C)根據該等目標子影片段落的排序，從該等目標子影片中篩選出多個待合成子影片段落；及(D)將該等待合成子影片段落合成，以產生一合成影片。此外，本發明還提供一種影片編輯裝置。

Description

影片編輯方法及裝置

本發明是有關於一種影片編輯方法，特別是指一種用於編輯演講影片或教學影片的影片編輯方法。

隨著數位時代的來臨，影片可以更方便地儲存、傳輸和流通，因此，現有許多影音平台提供演講影片或教學影片，供大眾觀看學習。

然而，一段完整的演講或教學影片的內容會有高低起伏，有時候影片過於冗長，會使觀看者觀看的興致降低，若需要找到影片中演說者的亮點與主要說話的畫面，擷取影片中精華的部分，則通常必須經過影片編輯者通過長時間的篩選出精彩片段，再加以後製成精彩片段影片，非常費時，再者，所篩選出之精彩片段，往往是影片編輯者之單向主觀認定，因此也可能會遺漏其他關鍵精彩片段，而無法客觀地呈現精彩片段影片。

因此，本發明的目的，即在提供一種能提高影片編輯效率且能客觀呈現的影片編輯方法。

於是，本發明影片編輯方法，由一影片編輯裝置來實施，該影片編輯裝置儲存有一影片，該影片包括一演講者，該影片編輯方法，包含一步驟(A)、一步驟(B)、一步驟(C)，及一步驟(D)。

在該步驟(A)中，該影片編輯裝置根據該影片的音訊獲得多個目標子影片段落。

在該步驟(B)中，該影片編輯裝置根據該等目標子影片段落的內容將該等目標子影片段落進行排序。

在該步驟(C)中，該影片編輯裝置根據該等目標子影片段落的排序，從該等目標子影片中篩選出多個待合成子影片段落。

在該步驟(D)中，該影片編輯裝置將該等待合成子影片段落合成，以產生一合成影片。

本發明的目的，即在提供一種能提高影片編輯效率且能客觀呈現的影片編輯裝置。

於是，該影片編輯裝置，包含一儲存單元及一處理單元。

該儲存單元，儲存有一影片，該影片包括一演講者。

該處理單元電連接該儲存單元，該處理單元根據該影片的音訊獲得多個目標子影片段落，再根據該等目標子影片段落的內容將該等目標子影片段落進行排序，接著根據該等目標子影片段落的排序，從該等目標子影片中篩選出多個待合成子影片段落，最後將該等待合成子影片段落合成，以產生一合成影片。

本發明之功效在於：藉由該影片編輯裝置根據該等目標子影片段落的內容將該等目標子影片段落進行排序，並根據該等目標子影片段落的排序，從該等目標子影片中篩選出該等待合成子影片段落，以提高影片編輯效率，並能客觀地呈現精彩片段影片。

在本發明被詳細描述前，應當注意在以下的說明內容中，類似的元件是以相同的編號來表示。

參閱圖1，本發明影片編輯裝置100的一實施例，包含一儲存單元11、及一電連接該儲存單元11的處理單元12。該儲存單元11儲存有一影片，該影片包括一演講者。

參閱圖1與圖2，說明本發明影片編輯裝置100如何執行本發明金流關係圖產生方法之一實施例。

在步驟201中，該處理單元12濾除該影片中一預定頻率區間外的聲音，值得注意的是，在本實施例中，該預定頻率區間例如500Hz到2000Hz的非人聲頻率，以去除背景音及雜音，但不以此為限。

在步驟202中，該處理單元12根據該影片的音訊將該影片分割成多個影片段落，在本實施例中，該處理單元12對音訊進行語音活性檢測(Voice Activity Detection)在不切斷完整語音段落的前提下進行分割，其主要方式係音波間的時間間隔小於一預定時間(例如3秒)時表示同一段話，視為同一個影片段落。

在步驟203中，該處理單元12根據該等影片段落的音訊從該等影片段落篩選出該等感興趣影片段落，其中，篩選出的該等感興趣影片段落的影片長度大於一第一預定時段(例如6秒)。

在步驟204中，對於每一感興趣影片段落，該處理單元12將該感興趣影片段落進行語音辨識，以獲得一文字檔。

在步驟205中，對於每一感興趣影片段落，該處理單元12根據該感興趣影片段落所對應的該文字檔將該感興趣影片段落分割成多個包括完整句子且影片長度小於一第二預定時段(例如30秒)的候選子影片段落，每一候選子影片段落對應一子文字檔。值得注意的是，在本實施例中，該處理單元12係利用自然語言處理（Natural Language Processing）對該文字檔進行分詞，以獲得該等候選子影片段落，在其他實施方式中，亦可利用Bi-LSTM-CRF模型或深度學習模型對該文字檔進行分詞，不以此為限。

搭配參閱圖3，由音波圖可知，該處理單元12根據該影片的音訊將該影片分割成多個影片段落A、B、C，其中該等影片段落A、B、C的音波間的時間間隔大於等於該預定時間，且該等影片段落A、B、C的影片長度皆大於該第一預定時段，故皆為感興趣影片段落，該處理單元12再根據該感興趣影片段落A對應的文字檔，將感興趣影片段落A分割成多個候選子影片段落A1、A2、A3，根據該感興趣影片段落B對應的文字檔，將感興趣影片段落B分割成多個候選子影片段落B1、B2、B3，根據該感興趣影片段落C對應的文字檔，將感興趣影片段落A分割成多個候選子影片段落C1、C2。

在步驟206中，從該等感興趣影片段落所對應的候選子影片段落篩選出該等目標子影片段落。搭配參閱圖4，步驟206包括子步驟61、62，以下說明步驟61、62。

在步驟61中，對於每一候選子影片段落，該處理單元12根據該候選子影片段落所對應的該子文字檔將對應有子文字檔包括連續重複一預定次數(例如3次)之字詞的候選子影片段落刪除。

在步驟62中，對於每一未刪除的候選子影片段落，該處理單元12將對應有響度大於一預定分貝(例如90分貝)的候選子影片段落刪除。

要特別注意的是，在本實施例中步驟61在步驟62之前，在其他實施方式中，步驟62亦可在步驟61之前，不以此為限。

在步驟207中，該處理單元12根據該等目標子影片段落的內容將該等目標子影片段落進行排序。搭配參閱圖5，步驟207包括子步驟71~80，以下說明步驟71~80。

在步驟71中，對於該等目標子影片段落的每一影像，該處理單元12獲得該影像中相關於該演講者的多個第一臉部特徵點（例如眼睛、鼻子、嘴巴、左側鬢角、右側鬢角等），以確定該演講者的臉部在影像中的位置範圍。值得注意的是，在本實施例中，該處理單元12係使用開源的OpenCV作為抓取該等第一臉部特徵點的工具，利用該等第一臉部特徵點算出臉部的角度及範圍，並在使用前提供大量的資料訓練其準確度，但不以此為限。

在步驟72中，對於每一目標子影片段落，該處理單元12根據該目標子影片段落的所有第一臉部特徵點判定出相關於該演講者的臉部處於該目標子影片段落的一臉部位置狀態，其中該臉部位置狀態指示出一置中狀態及一非置中狀態。值得注意的是，在本實施例中，對於每一影像，當該演講者的臉部範圍的長與寬在影像所佔的比例在一預定範圍(例如40%~70%)內，且該演講者的臉部在影像中的位置範圍距離影像的每一邊緣的距離佔影像的比例大於等於一預設值(例如(100%-長寬比平均)*k%)時，其中0＜k＜1，該處理單元12視該影像為臉部置中，而對於每一目標子影片段落，視該為臉部置中的影像幀數大於視該為臉部非置中的影像幀數時，該目標子影片段落的該臉部位置狀態指示出置中狀態，但不以此為限。

搭配參閱圖6，舉例來說，在其中一影像中長為X，寬為Y，該演講者的臉部在影像中的距離影像的左側邊緣為x₁ ，距離影像的右側邊緣為x₃ ，距離影像的上側邊緣為y₁ ，距離影像的下側邊緣為y₃ ，該演講者的臉部在影像中的長度為x₂ ，寬度為y₂ ，則當x₂ /X及y₂ /Y在該預定範圍內，且x₁ /X、x₃ /X、y₁ /Y、y₃ /Y皆大於等於該預設值時，該處理單元12視該影像為臉部置中。

在步驟73中，該處理單元12根據該等目標子影片段落對應的臉部位置狀態排序該等目標子影片段落。值得注意的是，在本實施例中，該處理單元12將該等目標子影片段落分成2群，該臉部位置狀態指示出該置中狀態的目標子影片段落分成一群排序在前，該臉部位置狀態指示出該非置中狀態的目標子影片段落分成另一群排序在後，如下表1。表1

	順序:先--------------------------------------後
臉部位置狀態	置中	非置中

在步驟74中，對於該等目標子影片段落的每一影像，該處理單元12獲得該目標子影片段落中相關於該演講者的多個第二臉部特徵點。值得注意的是，在本實施例中，該處理單元12是利用例如臉部動作編碼系統（Facial Action Coding System，FACS）的概念，利用OpenCV抓取該等第二臉部特徵點，但不以此為限。

在步驟75中，對於每一目標子影片段落，該處理單元12根據該目標子影片段落的所有第二臉部特徵點，判定出相關於該演講者的一表情情緒狀態，其中該表情情緒狀態指示出一正向狀態、一一般狀態，及一負面狀態之其中一者。值得注意的是，在本實施例中，若該處理單元12根據該等第二臉部特徵點辨識出該演講者眼睛皆睜開且嘴角上揚，則判定出該表情情緒狀態指示出該正向狀態；若該處理單元12根據該等第二臉部特徵點辨識出該演講者眼睛皆睜開且嘴角平齊，則判定出該表情情緒狀態指示出該一般狀態；若該處理單元12根據該等第二臉部特徵點辨識出該演講者眼睛閉眼且嘴角向下，則判定出該表情情緒狀態指示出該負面狀態，但不以此為限。

在步驟76中，該處理單元12根據該等目標子影片段落對應的表情情緒狀態排序該等目標子影片段落。值得注意的是，在本實施例中，該處理單元12將該等目標子影片段落分成5群，依序分別為該臉部位置狀態指示出該置中狀態且該表情情緒狀態指示出該正面狀態的目標子影片段落、該臉部位置狀態指示出該置中狀態且該表情情緒狀態指示出該一般狀態的目標子影片段落、該臉部位置狀態指示出該非置中狀態且該表情情緒狀態指示出該正面狀態的目標子影片段落、該臉部位置狀態指示出該非置中狀態且該表情情緒狀態指示出該一般狀態的目標子影片段落、及該表情情緒狀態指示出該負面狀態的目標子影片段落，如下表2。表2

	順序:先--------------------------------------後
臉部位置狀態	置中	非置中	置中/非置中
表情情緒狀態	正面	一般	正面	一般	負面

在步驟77中，對於該等目標子影片段落的每一影像，該處理單元12獲得該影像中相關於該演講者的多個肢體特徵點。

在步驟78中，對於每一目標子影片段落，根據該目標子影片段落的所有肢體特徵點，判定出相關於該演講者的一肢體情緒狀態，其中該肢體情緒狀態指示出一正向狀態、一一般狀態，及一負面狀態之其中一者。值得注意的是，在本實施例中，該處理單元12係先根據每一目標子影片段落所有肢體特徵點判定出該演講者於每一幀影像的肢體位置，再由該等肢體位置判定出該肢體情緒狀態，若該演講者高舉雙手、高舉單手、正常速度移動，則該處理單元12判定出該肢體情緒狀態指示出該正向狀態；若該演講肢體軀幹歪斜、肢體軀幹異常晃動、肢體軀幹移動速度過快，則該處理單元12判定出該肢體情緒狀態指示出該負向狀態；其他情形該處理單元12則判定出該肢體情緒狀態指示出該一般狀態，其中高舉雙手、高舉單手、肢體軀幹歪斜等可以通過識別主要肢體特徵點位置（例如肩部、手肘等）來進行判定，而正常移動速度、移動速度過快、異常晃動等可以通過特定肢體特徵點(例如肢體軀幹)的移動速度來進行判定，但不以此為限。

在步驟79中，該處理單元12根據該等目標子影片段落對應的肢體情緒狀態排序該等目標子影片段落。值得注意的是，在本實施例中，該處理單元12將該等目標子影片段落分成9群，依序分別為該臉部位置狀態指示出該置中狀態且該表情情緒狀態指示出該正面狀態且該肢體情緒狀態指示出該正面狀態的目標子影片段落、該臉部位置狀態指示出該置中狀態且該表情情緒狀態指示出該正面狀態且該肢體情緒狀態指示出該一般狀態的目標子影片段落、該臉部位置狀態指示出該置中狀態且該表情情緒狀態指示出該一般狀態的目標子影片段落且該肢體情緒狀態指示出該正面狀態的目標子影片段落、該臉部位置狀態指示出該置中狀態且該表情情緒狀態指示出該一般狀態的目標子影片段落且該肢體情緒狀態指示出該一般狀態的目標子影片段落、該臉部位置狀態指示出該非置中狀態且該表情情緒狀態指示出該正面狀態且該肢體情緒狀態指示出該正面狀態的目標子影片段落、該臉部位置狀態指示出該非置中狀態且該表情情緒狀態指示出該正面狀態且該肢體情緒狀態指示出該一般狀態的目標子影片段落、該臉部位置狀態指示出該非置中狀態且該表情情緒狀態指示出該一般狀態且該肢體情緒狀態指示出該正面狀態的目標子影片段落、該臉部位置狀態指示出該非置中狀態且該表情情緒狀態指示出該一般狀態且該肢體情緒狀態指示出該一般狀態的目標子影片段落、及該表情情緒狀態指示出該負面狀態或該肢體情緒狀態指示出該負面狀態的目標子影片段落，如下表3。表3

	順序:先--------------------------------------------後
臉部位置狀態	置中	非置中	置中/非置中
表情情緒狀態	正面	一般	正面	一般	正面/一般/負面
肢體情緒狀態	正面	一般	正面	一般	正面	一般	正面	一般	正面/一般/負面

在步驟80中，該處理單元12根據每一目標子影片段落所對應的子文字檔中相關於至少一預定字詞(例如關鍵字詞、同義字詞)的出現次數來排序該等目標子影片段落。值得注意的是，在本實施例中，該處理單元12係分別對9個群組進行排序，對應的子文字檔中該至少一預定字詞的出現次數越多的目標子影片段落順序越前(若出現次數相同則以影片長度越長者越前)，如下表4。表4

	順序:先---------------------------------------------後
臉部位置狀態	置中	非置中	置中/非置中
表情情緒狀態	正面	一般	正面	一般	正面/一般/負面
肢體情緒狀態	正面	一般	正面	一般	正面	一般	正面	一般	正面/一般/負面
預定字詞	多至少	多至少	多至少	多至少	多至少	多至少	多至少	多至少	多至少

要特別注意的是，在其他實施方式中，步驟71~73可在步驟74~76或步驟77~79之後，步驟74~76可在步驟77~79之後，不以此為限，根據執行步驟順序不同，所獲得的排序亦不相同。

在步驟208中，該處理單元12根據該等目標子影片段落的排序，從該等目標子影片中篩選出多個待合成子影片段落，其中，該等待合成子影片段落的影片長度總和低於一第三預定時段(例如60秒)。值得注意的是，在本實施例中，該等待合成子影片段落分別屬於不同的感興趣影片段落，但不以此為限。

在步驟209中，該處理單元12將該等待合成子影片段落合成，以產生一合成影片。

綜上所述，本發明影片編輯方法及裝置，藉由該影片編輯裝置100的該處理單元12根據該等目標子影片段落的內容將該等目標子影片段落進行排序，並根據該等目標子影片段落的排序，從該等目標子影片中篩選出該等待合成子影片段落，以提高影片編輯效率，並能客觀地呈現精彩片段影片，故確實能達成本發明的目的。

惟以上所述者，僅為本發明的實施例而已，當不能以此限定本發明實施的範圍，凡是依本發明申請專利範圍及專利說明書內容所作的簡單的等效變化與修飾，皆仍屬本發明專利涵蓋的範圍內。

100:影片編輯裝置 11:儲存單元 12:處理單元 201~209:步驟 61、62:步驟 71~80:步驟

本發明的其他的特徵及功效，將於參照圖式的實施方式中清楚地呈現，其中：圖1是一方塊圖，說明本發明影片編輯裝置的一實施例；圖2是一流程圖，說明本發明影片編輯方法的一實施例；圖3是一示意圖，說明一影片分割成多個影片段落；圖4是一流程圖，輔助說明圖2的步驟206的子步驟61、62；圖5是一流程圖，輔助說明圖2的步驟207的子步驟71~80；及圖6是一示意圖，說明判定一目標子影片段落的一影像的一臉部位置狀態。

201~209:步驟

Claims

一種影片編輯方法，由一影片編輯裝置來實施，該影片編輯裝置儲存有一影片，該影片包括一演講者，該影片編輯方法包含以下步驟： (A)根據該影片的音訊獲得多個目標子影片段落； (B)根據該等目標子影片段落的內容將該等目標子影片段落進行排序； (C)根據該等目標子影片段落的排序，從該等目標子影片中篩選出多個待合成子影片段落；及 (D)將該等待合成子影片段落合成，以產生一合成影片。
如請求項1所述的影片編輯方法，其中，步驟(A)包括以下子步驟： (A-1)根據該影片的音訊將該影片分割成多個影片段落； (A-2)根據該等影片段落的音訊從該等影片段落篩選出該等感興趣影片段落； (A-3)對於每一感興趣影片段落，根據該感興趣影片段落的音訊，將該感興趣影片段落分割成多個候選子影片段落；及 (A-4)從該等感興趣影片段落所對應的候選子影片段落篩選出該等目標子影片段落。
如請求項2所述的影片編輯方法，其中，在步驟(A-2)中，篩選出的該等感興趣影片段落的影片長度大於一第一預定時段。
如請求項2所述的影片編輯方法，其中，步驟(A-3)包括以下子步驟： (A-3-1)對於每一感興趣影片段落，將該感興趣影片段落進行語音辨識，以獲得一文字檔；及 (A-3-2)對於每一感興趣影片段落，根據其所對應的該文字檔將該感興趣影片段落分割成包括完整句子且影片長度小於一第二預定時段的該等候選子影片段落，每一候選子影片段落對應一子文字檔。
如請求項4所述的影片編輯方法，其中，步驟(A-4)中，對於每一候選子影片段落，根據其所對應的該子文字檔將對應有子文字檔包括連續重複一預定次數之字詞的候選子影片段落刪除，以篩選出該等目標子影片段落。
如請求項4所述的影片編輯方法，其中，在步驟(B)中，根據每一目標子影片段落所對應的子文字檔排序該等目標子影片段落。
如請求項6所述的影片編輯方法，其中，在步驟(B)中，該影片編輯裝置係根據每一目標子影片段落所對應的子文字檔中相關於至少一預定字詞的出現次數來排序該等目標子影片段落。
如請求項4所述的影片編輯方法，其中，在步驟(A-4)中，對於每一候選子影片段落，將對應有響度大於一預定分貝的候選子影片段落刪除，以篩選出該等目標子影片段落。
如請求項1所述的影片編輯方法，在步驟(A)之前，還包含以下步驟： (G)濾除該影片中一預定頻率區間外的聲音。
如請求項1所述的影片編輯方法，其中，在步驟(C)中，該等待合成子影片段落的影片長度總和低於一第三預定時段。
如請求項1所述的影片編輯方法，其中，步驟(B)包括以下子步驟： (B-1)對於該等目標子影片段落的每一影像，獲得該影像中相關於該演講者的多個臉部特徵點； (B-2)對於每一目標子影片段落，根據該目標子影片段落的所有臉部特徵點判定出相關於該演講者的臉部處於該目標子影片段落的一臉部位置狀態，其中該臉部位置狀態指示出一置中狀態及一非置中狀態；及 (B-3)根據該等目標子影片段落對應的臉部位置狀態排序該等目標子影片段落。
如請求項1所述的影片編輯方法，其中，步驟(B)包括以下子步驟： (B-1)對於該等目標子影片段落的每一影像，獲得該影像中相關於該演講者的多個肢體特徵點； (B-2)對於每一目標子影片段落，根據該目標子影片段落的所有肢體特徵點，判定出相關於該演講者的一肢體情緒狀態，其中該肢體情緒狀態指示出一正向狀態、一一般狀態，及一負面狀態之其中一者；及 (B-3)根據該等目標子影片段落對應的肢體情緒狀態排序該等目標子影片段落。
如請求項1所述的影片編輯方法，其中，步驟(B)包括以下子步驟： (B-1)對於該等目標子影片段落的每一影像，獲得該目標子影片段落中相關於該演講者的多個臉部特徵點； (B-2)對於該等目標子影片段落，根據該目標子影片段落的所有臉部特徵點，判定出相關於該演講者的一表情情緒狀態，其中該表情情緒狀態指示出一正向狀態、一一般狀態，及一負面狀態之其中一者；及 (B-3)根據該等目標子影片段落對應的表情情緒狀態排序該等目標子影片段落。
一種影片編輯裝置，包含：一儲存單元，儲存有一影片，該影片包括一演講者；一處理單元，電連接該儲存單元，根據該影片的音訊獲得多個目標子影片段落，再根據該等目標子影片段落的內容將該等目標子影片段落進行排序，接著根據該等目標子影片段落的排序，從該等目標子影片中篩選出多個待合成子影片段落，最後將該等待合成子影片段落合成，以產生一合成影片。