TWI700597B

TWI700597B - 分段方法、分段系統及非暫態電腦可讀取媒體

Info

Publication number: TWI700597B
Application number: TW108104105A
Authority: TW
Inventors: 詹詩涵; 柯兆軒
Original assignee: 台達電子工業股份有限公司
Priority date: 2018-09-07
Filing date: 2019-02-01
Publication date: 2020-08-01
Also published as: CN110891202A; TW202011232A; CN110889034A; CN110888896A; TW202011749A; SG10201906347QA; CN110895654A; JP2020042771A; TWI696386B; JP2020042770A; TW202011222A; SG10201905236WA; JP2020042777A; SG10201905523TA; TWI709905B; CN110888994A; TW202011231A; TW202011221A; TWI725375B; SG10201905532QA

Abstract

本揭示內容係關於一種分段方法、分段系統及非暫態電腦可讀取媒體。分段方法包含下列步驟：接收影片內容；其中，影片內容包含影像訊號以及聲音訊號；針對影像資料進行分段處理，以產生至少一影像段落標記；針對該聲音資料進行分段處理，以產生至少一聲音段落標記；以及比較該至少一影像段落標記的一影像標記時間與該至少一聲音段落標記的一聲音標記時間之間的差異，以產生至少一影片內容標記。

Description

分段方法、分段系統及非暫態電腦可讀取媒體

本揭示內容關於一種分段方法、分段系統及非暫態電腦可讀取媒體，且特別是有關於一種針對視訊源的分段方法、分段系統及非暫態電腦可讀取媒體。

線上學習平台是指一種將眾多學習資料儲存於伺服器中，讓使用者能透過網際網路連線至伺服器，以隨時瀏覽學習資料的網路服務。在現行的各類線上學習平台中，提供的學習資料類型包含影片、音訊、簡報、文件或論壇。

由於線上學習平台中儲存的學習資料數量龐大，為了能夠方便使用者的使用，需要針對學習資料的影音內容進行自動分段。因此，如何根據學習影片的聲音內容以及影像內容之間的關聯性進行處理，達到將學習影片自動分段是本領域待解決的問題。

本揭示內容之第一態樣是在提供一種分段方法。分段方法包含下列步驟：接收影片內容；其中，影片內容包含影像資料以及聲音資料；針對影像資料進行分段處理，以產生至少一影像段落標記；針對該聲音資料進行分段處理，以產生至少一聲音段落標記；以及比較該至少一影像段落標記的一影像標記時間與該至少一聲音段落標記的一聲音標記時間之間的差異，以產生至少一影片內容標記。

本揭示內容之第二態樣是在提供一種分段系統，其包含儲存單元以及處理器。儲存單元用以儲存視訊源以及至少一影片內容標記。處理器與儲存單元電性連接，用以接收影片內容；其中，影片內容包含影像資料以及聲音資料，處理器包含：影像分段單元、聲音分段單元以及段落標記產生單元。影像分段單元用以針對影像資料進行分段處理，以產生至少一影像段落標記。聲音分段單元與影像分段單元電性連接，用以針對聲音資料進行分段處理，以產生至少一聲音段落標記。段落標記產生單元與影像分段單元以及聲音分段單元電性連接，用以比較至少一影像段落標記的影像標記時間與至少一聲音段落標記的聲音標記時間之間的差異，以產生至少一影片內容標記。

本案之第三態樣是在提供一種非暫態電腦可讀取媒體包含至少一指令程序，由處理器執行至少一指令程序以實行分段方法，其包含以下步驟：接收影片內容；其中，影片內容包含影像資料以及聲音資料；針對影像資料進行分段處理，以產生至少一影像段落標記；針對該聲音資料進行分段處理，以產生至少一聲音段落標記；以及比較該至少一影像段落標記的一影像標記時間與該至少一聲音段落標記的一聲音標記時間之間的差異，以產生至少一影片內容標記。

本揭露之分段方法、分段系統及非暫態電腦可讀取媒體，其主要係改進以往係利用人工方式進行影片段落標記，耗費大量人力以及時間的問題。分別針對影像訊號以及聲音訊號進行段落標記，再根據影像訊號的段落標記以及聲音訊號的段落標記產生影片內容標記，達到將學習影片自動分段的功能。

以下將以圖式揭露本案之複數個實施方式，為明確說明起見，許多實務上的細節將在以下敘述中一併說明。然而，應瞭解到，這些實務上的細節不應用以限制本案。也就是說，在本揭示內容部分實施方式中，這些實務上的細節是非必要的。此外，為簡化圖式起見，一些習知慣用的結構與元件在圖式中將以簡單示意的方式繪示之。

於本文中，當一元件被稱為「連接」或「耦接」時，可指「電性連接」或「電性耦接」。「連接」或「耦接」亦可用以表示二或多個元件間相互搭配操作或互動。此外，雖然本文中使用「第一」、「第二」、…等用語描述不同元件，該用語僅是用以區別以相同技術用語描述的元件或操作。除非上下文清楚指明，否則該用語並非特別指稱或暗示次序或順位，亦非用以限定本發明。

請參閱第1圖。第1圖係根據本案之一些實施例所繪示之分段系統100的示意圖。如第1圖所繪示，分段系統100包含儲存單元110以及處理器130。儲存單元110電性連接至處理器130，儲存單元110用以儲存視訊源、至少一影片內容標記以及課程資料庫DB。

承上述，處理器130包含影像分段單元131、聲音分段單元132以及段落標記產生單元133。聲音分段單元132與影像分段單元131以及段落標記產生單元133電性連接。於本發明各實施例中，儲存裝置110可以實施為記憶體、硬碟、隨身碟、記憶卡等。處理器130可以實施為積體電路如微控制單元(microcontroller)、微處理器(microprocessor)、數位訊號處理器(digital signal processor)、特殊應用積體電路(application specific integrated circuit，ASIC)、邏輯電路或其他類似元件或上述元件的組合。

請參閱第2圖。第2圖係根據本案之一些實施例所繪示之分段方法200的流程圖。於一實施例中，第2圖所示之分段方法200可以應用於第1圖的分段系統100上，處理器130用以根據下列分段方法200所描述之步驟，針對影像資料以及聲音訊號進行段落標記以產生影片內容標記。如第2圖所示，分段方法200首先執行步驟S210接收影片內容。於一實施例中，影片內容包含影像資料以及聲音資料。處理器130會分別針對影像資料以及聲音資料進行處理，在接下來的步驟中會先針對影像資料進行計算，再針對聲音資料進行計算，但本揭露不限於此，也可以先針對聲音資料進行計算，再針對影像資料進行計算。

接著，分段方法200執行步驟S220針對影像資料進行分段處理，以產生至少一影像段落標記。於一實施例中，步驟S220更包含步驟S221~S223，請一併參考第3圖，第3圖係根據本案之一些實施例所繪示之步驟S220的流程圖。如第3圖所示，分段方法200進一步執行步驟S221選取M個單位的影像資料，並將被選取的影像資料分為當前影像段落。於一實施例中，M個單位以M秒來說明，M個單位也可以實施為M個幀，本揭露不以此為限。M秒可以根據影片內容的時間長度進行調整，在此M秒以30秒為例，因此在此步驟中將第0秒的影像資料~第30秒的影像資料作為當前影像段落。

接著，分段方法200執行步驟S222針對當前影像段落的內容進行判斷，以產生影像內容結果。其中影像內容結果包含動態內容以及靜態內容。於一實施例中，步驟S222更包含步驟S2221~S2223，請一併參考第4圖，第4圖係根據本案之一些實施例所繪示之步驟S222的流程圖。如第4圖所示，分段方法200進一步執行步驟S2221於當前影像段落中選取T個單位，計算T個單位內的影像的相似度，產生影像差異結果。於一實施例中，T個單位以T秒來說明，T個單位也可以實施為T個幀，本揭露不以此為限。舉例而言，T秒在此以3秒為例，並假設每秒有60幀，差異計算可以是第1秒的第30幀的影像的灰階值與第0秒的第30幀的影像的灰階值相減可以產生第1秒的影像差異值，並可以僅利用第1秒的影像差異值作為影像差異結果以判斷影像的內容。於另一實施例中，除了利用第1秒的影像差異值之外，可以再利用第2秒的影像差異值以及第3秒的影像差異值作為影像差異結果以判斷影像的內容，由上述可知，利用的影像差異值越多可以更精準的判斷影像的內容。

接著，分段方法200執行步驟S2222如果影像差異結果大於第一影像門檻值，將當前影像段落的內容判定為動態內容。接續上方實施例，如果影像差異值大於第一影像門檻值，表示前後兩秒的畫面差異很大，因此當前影像段落的內容有可能是動態內容。接著，分段方法200執行步驟S2223如果影像差異結果不大於該第一影像門檻值，將當前影像段落的內容判定為靜態內容。於一實施例中，如果影像差異值小於或等於第一影像門檻值，表示前後兩秒的畫面是屬於類似的畫面，因此當前影像段落的內容有可能是靜態內容，表示畫面不太有改變。

接著，分段方法200執行步驟S223基於影像內容結果針對影像資料偵測變化內容，並在變化內容的時間位置產生至少一影像段落標記。於一實施例中，步驟S223更包含步驟S2231a~S2233a，請一併參考第5A圖，第5A圖係根據本案之一些實施例所繪示之步驟S223的流程圖。如第5A圖所示，分段方法200進一步執行步驟S2231a如果當前影像段落的內容為動態內容，計算第M個單位的影像與第M+1個單位的影像之間的相似度，以產生影像差異值。接續上述實施例，M秒以30秒為例，當前影像段落是從第0秒的影像資料~第30秒的影像資料，第M秒的影像資料即為第30秒的影像資料，第M+1秒的影像資料即為第31秒的影像資料。在此情況下可以選擇第31秒的第30幀的影像的灰階值與第30秒的第30幀的影像的灰階值相減，以產生影像差異值，也可以選擇其他幀的影像以計算影像差異值。

承上述，分段方法200進一步執行步驟S2232a如果影像差異值大於第二影像門檻值，將第M+1個單位的影像與當前影像段落合併。接續上方實施例，如果前述的影像差異值大於第二影像門檻值，表示當前影像段落的下一秒的影像仍然是屬於動態影像，因此可以將第31秒的影像資料合併進入當前影像段落。接著，分段方法200進一步執行步驟S2233a如果影像差異值不大於第二影像門檻值，在第M+1個單位的影像的時間位置產生至少一影像段落標記，並選取M個單位的該影像資料，將被選取的影像資料分為下一影像段落。承上述，如果前述的影像差異值小於或等於第二影像門檻值，表示當前影像段落的下一秒的影像可能是屬於靜態影像，因此需要在將影像資料第31秒的時間位置，產生影像段落標記，如此一來當前執行段落變成第31秒的影像資料~第60秒的影像資料。

承上述，步驟S223更包含步驟S2231b ~S2233b，請一併參考第5B圖，第5B圖係根據本案之一些實施例所繪示之步驟S223的流程圖。如第5B圖所示，分段方法200進一步執行步驟S2231b如果當前影像段落的內容為靜態內容，計算第M個單位的影像與第M+1個單位的影像之間的相似度，以產生影像差異值。步驟S2231b的操作與步驟S2231a的操作相同，在此不在贅述。

承上述，分段方法200進一步執行步驟S2232b如果影像差異值不大於第二影像門檻值，將第M+1個單位的影像與當前影像段落合併。接續上方實施例，如果前述的影像差異值小於或等於第二影像門檻值，表示當前影像段落的下一秒的影像仍然是屬於靜態影像，因此可以將第31秒的影像資料合併進入當前影像段落。接著，分段方法200進一步執行步驟S2233b如果影像差異值大於第二影像門檻值，在第M+1個單位的影像的時間位置產生至少一影像段落標記，並選取M個單位的該影像資料，將被選取的影像資料分為下一影像段落。承上述，如果前述的影像差異值大於第二影像門檻值，表示當前影像段落的下一秒的影像可能是屬於動態影像，因此需要在將影像資料第31秒的時間位置，產生影像段落標記，如此一來當前執行段落變成第31秒的影像資料~第60秒的影像資料。

於另一實施例中，可以利用峰值信噪比(Peak signal-to-noise ratio，PSNR)、結構相似性指標(Structural similarity index，SSIM)、影像的紋理或色澤、或是特定的形狀(pattern)等方式，來比較影像之間的相似度，本揭露不限於此。

接著，分段方法200進一步執行步驟S230針對聲音資料進行分段處理，以產生至少一聲音段落標記。其中，步驟S230更包含步驟S231~S233，請進一步參考6圖，第6圖係根據本案之一些實施例所繪示之步驟S230的流程圖。如第6圖所示，分段方法200進一步執行步驟S231將聲音資料分別轉換成聲音時域訊號以及聲音頻域訊號。於一實施例中，可以利用傅立葉轉換將聲音資料轉換成頻域訊號，但不限於此。經過傅立葉轉換過的訊號是不連續的訊號，因此可以用來偵測音色與音調的差異，作為判斷聲音段落標記的依據。

承上述，分段方法200進一步執行步驟S232從聲音時域訊號中選取時域區段，並判斷時域區段的振幅是否小於第一門檻值，如果時域區段的振幅小於第一門檻值，產生至少一聲音段落標記。於此實施例中，利用視窗(window)從聲音時域訊號中選取時域區段，舉例而言，可以將視窗的大小設定為5秒鐘，因此時域區段即為5秒鐘的聲音時域訊號。接著，判斷5秒鐘的聲音時域訊號(時域區段)的振幅是否小於第一門檻值，如果小於第一門檻值，表示被視窗框選到的5秒鐘的聲音時域訊號，可能是無聲的區段，表示聲音時域訊號可能有中斷情況發生。因此可以在時域區段的振幅小於門檻值時，產生聲音段落標記。

承上述，分段方法200進一步執行步驟S233從聲音頻域訊號中選取第一頻域區段以及第二頻域區段，計算第一頻域區段與第二頻域區段的頻譜強度差異值(相位大小) 是否大於第二門檻值，若超過第二門檻值，產生至少一聲音段落標記。於此實施例中，利用視窗從聲音頻域訊號中選取頻域區段。舉例而言，可以將視窗的大小設定為m秒鐘，因此第一頻域區段以及第二頻域區段即為m秒鐘的聲音頻域訊號(兩者選取的聲音頻域訊號不同)。聲音時域訊號以及聲音頻域訊號所利用的視窗大小(長度)可以不同，也可以相同，本揭露不限於此。接著，判斷第一頻域區段以及第二頻域區段的頻譜強度差異值是否超過第二門檻值。如果大於第二門檻值，表示被視窗框選到的m秒鐘的聲音頻域訊號，可能有不同的音色或是音高，表示可能有不同人聲出現。因此可以在頻域區段的振幅小於門檻值時，產生聲音段落標記。

接著，分段方法200進一步執行步驟S240比較至少一影像段落標記的影像標記時間與至少一聲音段落標記的聲音標記時間之間的差異，以產生至少一影片內容標記。於一實施例中，步驟S220以及步驟S230分別針對影像資料以及聲音資料進行段落標記，在此步驟中需要將影像段落標記與聲音段落標記整合以產生影片內容標記。舉例而言，如果影像資料總共分成五個段落，並且影像段落標記分別是段落一的(00:45)、段落二的(01:56)、段落三的(03:25)、段落四的(05:10)以及段落五的(05:55)，而聲音資料總共分成四個段落，聲音段落標記分別是段落一的(02:02)、段落二的(03:12)、段落三的(04:30)以及段落四的(05:00)。假設門檻值是為15秒，如此一來，在段落二的影像段落標記01:56與段落一的聲音段落標記02:02之間的差異在門檻值內，可以根據兩者的時間差異的平均值作為影片內容標記，因此視訊源具有段落一的影片內容標記(01:59)。接著可以繼續找到段落三的影像段落標記03:25與段落二的聲音段落標記03:12之間的差異在門檻值內，段落四的影像段落標記05:10與段落四的聲音段落標記05:00之間的差異在門檻值內，因此可以分別產生段落二的影片內容標記(03:18)以及段落三的影片內容標記(05:05)。由上述可知，段落一的影像段落標記00:45、段落五的影像段落標記05:55以及段落三的聲音段落標記04:30與其他標記之間的時間差異大於門檻值，因此是屬於被忽略的段落標記。最後，將分好的影片內容標記儲存至儲存單元110的課程資料庫DB中。

由上述本案之實施方式可知，主要係改進以往係利用工方式進行影片段落標記，耗費大量人力以及時間的問題。分別針對影像資料以及聲音資料進行段落標記，再根據影像資料的段落標記以及聲音資料的段落標記產生影片內容標記，達到將學習影片自動分段的功能。

另外，上述例示包含依序的示範步驟，但該些步驟不必依所顯示的順序被執行。以不同順序執行該些步驟皆在本揭示內容的考量範圍內。在本揭示內容之實施例的精神與範圍內，可視情況增加、取代、變更順序及/或省略該些步驟。

雖然本揭示內容已以實施方式揭露如上，然其並非用以限定本發明內容，任何熟習此技藝者，在不脫離本發明內容之精神和範圍內，當可作各種更動與潤飾，因此本發明內容之保護範圍當視後附之申請專利範圍所界定者為準。

100:分段系統110:儲存單元130:處理器DB:課程資料庫131:影像分段單元132:聲音分段單元133:段落標記產生單元200:分段方法S210～S240、S221~S223、S2221~S2223、S2231a~S2233a、S2231b~S2233b、S231~S233:步驟

為讓本發明之上述和其他目的、特徵、優點與實施例能更明顯易懂，所附圖式之說明如下：第1圖係根據本案之一些實施例所繪示之分段系統的示意圖；第2圖係根據本案之一些實施例所繪示之分段方法的流程圖；第3圖係根據本案之一些實施例所繪示之步驟S220的流程圖；第4圖係根據本案之一些實施例所繪示之步驟S222的流程圖；第5A圖係根據本案之一些實施例所繪示之步驟S223的流程圖；第5B圖係根據本案之一些實施例所繪示之步驟S223的流程圖；以及第6圖係根據本案之一些實施例所繪示之步驟S230的流程圖。

200:分段方法

S210~S240:步驟

Claims

一種分段方法，包含：接收一影片內容；其中，該影片內容包含一影像資料以及一聲音資料；針對該影像資料進行分段處理，以產生至少一影像段落標記；針對該聲音資料進行分段處理，以產生至少一聲音段落標記；以及比較該至少一影像段落標記的一影像標記時間與該至少一聲音段落標記的一聲音標記時間之間的差異，以產生至少一影片內容標記。
如請求項1所述之分段方法，其中，針對該影像資料進行分段處理，以產生該至少一影像段落標記，更包含：選取M個單位的該影像資料，並將被選取的影像資料分為一第一影像段落；針對該第一影像段落的內容進行判斷，以產生一影像內容結果；其中該影像內容結果包含一動態內容以及一靜態內容；以及基於該影像內容結果針對該影像資料偵測一變化內容，並根據該變化內容的時間位置產生該至少一影像段落標記。
如請求項2所述之分段方法，其中，針對該第一影像段落的內容進行判斷，以產生該影像內容結果，更包含：於該第一影像段落中選取T個單位，計算T個單位內的影像的相似度，產生一影像差異結果；如果該影像差異結果大於一第一影像門檻值，將該第一影像段落的內容判定為該動態內容；以及如果該影像差異結果不大於該第一影像門檻值，將該第一影像段落的內容判定為該靜態內容。
如請求項2所述之分段方法，其中，基於該影像內容結果針對該影像資料偵測該變化內容，並根據該變化內容的時間位置產生該至少一影像段落標記，更包含：如果該第一影像段落的內容為該動態內容，計算一第M個單位的影像與一第M+1個單位的影像之間的相似度，以產生一影像差異值；如果該影像差異值大於一第二影像門檻值，將該第M+1個單位的影像與該第一影像段落合併；以及如果該影像差異值不大於該第二影像門檻值，在該第M+1個單位的影像的時間位置產生該至少一影像段落標記，並選取M個單位的該影像資料，將被選取的影像資料分為一第二影像段落。
如請求項2所述之分段方法，其中，基於該影像內容結果針對該影像資料偵測該變化內容，並在該變化內容的時間位置產生該至少一影像段落標記，更包含：如果該第一影像段落的內容為該靜態內容，計算一第M個單位的影像與一第M+1個單位的影像之間的相似度，以產生一影像差異值；如果該影像差異值不大於一第二影像門檻值，將該第M+1個單位的影像與該第一影像段落合併；以及如果該影像差異值大於該第二影像門檻值，在該第M+1個單位的影像的時間位置產生該至少一影像段落標記，並選取M個單位的該影像資料，將被選取的影像資料分為一第二影像段落。
如請求項1所述之分段方法，其中，針對該聲音資料進行分段處理，以產生該至少一聲音段落標記，更包含：將該聲音資料分別轉換成一聲音時域訊號以及一聲音頻域訊號；從該聲音時域訊號中選取一時域區段，並判斷該時域區段的振幅是否小於一第一門檻值，如果該時域區段的振幅小於該第一門檻值，產生該至少一聲音段落標記；以及從該聲音頻域訊號中選取一第一頻域區段以及一第二頻域區段，並判斷該第一頻域區段與該第二頻域區段的頻譜強度差異值是否大於一第二門檻值，如果該第一頻域區段與該第二頻域區段的頻譜強度差異值大於該第二門檻值，產生該至少一聲音段落標記。
一種分段系統，包含：一儲存單元，用以儲存一影片內容以及至少一影片內容標記；以及一處理器，與該儲存單元電性連接，用以接收該影片內容；其中，該影片內容包含一影像資料以及一聲音資料，該處理器包含：一影像分段單元，用以針對該影像資料進行分段處理，以產生至少一影像段落標記；一聲音分段單元，與該影像分段單元電性連接，用以針對該聲音資料資料進行分段處理，以產生至少一聲音段落標記；以及一段落標記產生單元，與該影像分段單元以及該聲音分段單元電性連接，用以比較該至少一影像段落標記的一影像標記時間與該至少一聲音段落標記的一聲音標記時間之間的差異，以產生該至少一影片內容標記。
如請求項7所述之分段系統，其中，該影像分段單元更用以選取M個單位的該影像資料，並將被選取的影像資料分為一第一影像段落，接著針對該第一影像段落的內容進行判斷，以產生一影像內容結果；其中該影像內容結果包含一動態內容以及一靜態內容；以及基於該影像內容結果針對該影像資料偵測一變化內容，並根據該變化資料的時間位置產生該至少一影像段落標記。
如請求項8所述之分段系統，其中，該影像分段單元更用以於該第一影像段落中選取T個單位，計算T個單位內的影像的相似度，產生一影像差異結果；如果該影像差異結果大於一第一影像門檻值，將該第一影像段落的內容判定為該動態內容；以及如果該影像差異結果不大於該第一影像門檻值，將該第一影像段落的內容判定為該靜態內容。
如請求項8所述之分段系統，其中，該影像分段單元更用以如果該第一影像段落的內容為該動態內容，計算一第M個單位的影像與一第M+1個單位之間的相似度，以產生一影像差異值；如果該影像差異值大於一第二影像門檻值，將該第M+1個單位的影像與該第一影像段落合併；以及如果該影像差異值不大於該第二影像門檻值，在該第M+1個單位的影像的時間位置產生該至少一影像段落標記，並選取M秒的該影像資料，將被選取的影像資料分為一第二影像段落。
如請求項8所述之分段系統，其中，該影像分段單元更用以如果該第一影像段落的內容為該靜態內容，計算該第M個單位的影像與該第M+1個單位的影像之間的相似度，以產生一影像差異值；如果該影像差異值不大於該第二影像門檻值，將該第M+1個單位的影像與該第一影像段落合併；以及如果該影像差異值大於該第二影像門檻值，在該第M+1個單位的影像的時間位置產生該至少一影像段落標記，並選取M個單位的該影像資料，將被選取的影像資料分為一第二影像段落。
如請求項7所述之分段系統，其中，該聲音分段單元更用以將該聲音資料分別轉換成一聲音時域訊號以及一聲音頻域訊號，從該聲音時域訊號中選取一時域區段，並判斷該時域區段的振幅是否小於一第一門檻值，如果該時域區段的振幅小於該第一門檻值，產生該至少一聲音段落標記；以及從該聲音頻域訊號中選取一第一頻域區段以及一第二頻域區段，並判斷該第一頻域區段與該第二頻域區段的頻譜強度差異值是否大於一第二門檻值，如果該第一頻域區段與該第二頻域區段的頻譜強度差異值大於該第二門檻值，產生該至少一聲音段落標記。
一種非暫態電腦可讀取媒體，包含至少一指令程序，由一處理器執行該至少一指令程序以實行一分段方法，其包含：接收一影片內容；其中，該影片內容包含一影像資料以及一聲音資料；針對該影像資料進行分段處理，以產生至少一影像段落標記；針對該第一聲音資料進行分段處理，以產生至少一聲音段落標記；以及比較該至少一影像段落標記的一影像標記時間與該至少一聲音段落標記的一聲音標記時間之間的差異，以產生至少一影片內容標記。