TWI711305B

TWI711305B - 視頻摘要生成方法和裝置、電子設備、電腦儲存介質

Info

Publication number: TWI711305B
Application number: TW108130688A
Authority: TW
Inventors: 馮俐銅; 肖達; 曠章輝; 張偉
Original assignee: 大陸商深圳市商湯科技有限公司
Priority date: 2018-10-19
Filing date: 2019-08-27
Publication date: 2020-11-21
Also published as: JP2021503123A; WO2020077999A1; TW202032999A; SG11202003999QA; CN109413510A; JP7150840B2; US20200285859A1; CN109413510B

Abstract

本申請實施例公開了一種視頻摘要生成方法和裝置、電子設備、電腦儲存介質，其中，方法包括：對待處理視頻流的鏡頭序列中的鏡頭進行特徵提取，獲得每個鏡頭的圖像特徵，每個鏡頭包括至少一幀視頻圖像；根據所有鏡頭的圖像特徵，獲取鏡頭的全域特徵；根據鏡頭的圖像特徵和全域特徵確定鏡頭的權重；基於鏡頭的權重獲得待處理視頻流的視頻摘要，結合圖像特徵和全域特徵確定每個鏡頭的權重，實現了從視頻整體的角度來理解視頻，利用了每個鏡頭與視頻全域的關係，基於本實施例的鏡頭的權重確定的視頻摘要，可以在整體上對視頻內容進行表達，避免了視頻摘要較為片面的問題。

Description

視頻摘要生成方法和裝置、電子設備、電腦儲存介質

本申請關於電腦視覺技術，尤其是一種視頻摘要生成方法和裝置、電子設備、電腦儲存介質。

隨著視頻資料的快速增加，為了在短時間內快速流覽這些視頻，視頻摘要開始扮演著越來越重要的角色。視頻摘要是一種新興的視頻理解技術。視頻摘要是從一段較長的視頻中提取一些鏡頭，來合成一段較短的，包含著原視頻中故事線或者精彩鏡頭的新視頻。

人工智慧技術針對許多電腦視覺問題已經得到了很好的解決方案，比如圖像分類，人工智慧的表現甚至已經超越了人類，但是這僅限於一些有著明確目標的方面。相較於其他電腦視覺任務，視頻摘要更加抽象，更加強調對於整個視頻全域的理解。視頻摘要中鏡頭的取捨，不僅依賴於這個鏡頭本身的資訊，更加依賴於視頻整體所表達的資訊。

本申請實施例提供了一種視頻摘要提取技術。

根據本申請實施例的一個方面，提供的一種視頻摘要生成方法，包括：對待處理視頻流的鏡頭序列中的鏡頭進行特徵提取，獲得每個所述鏡頭的圖像特徵，每個所述鏡頭包括至少一幀視頻圖像；根據所有所述鏡頭的圖像特徵，獲取所述鏡頭的全域特徵；根據所述鏡頭的圖像特徵和所述全域特徵確定所述鏡頭的權重；基於所述鏡頭的權重獲得所述待處理視頻流的視頻摘要。

可選地，在本發明上述任一方法實施例中，所述根據所有所述鏡頭的圖像特徵，獲取所述鏡頭的全域特徵，包括：基於記憶神經網路對所有所述鏡頭的圖像特徵進行處理，獲取所述鏡頭的全域特徵。

可選地，在本發明上述任一方法實施例中，所述記憶神經網路對所述所有鏡頭的圖像特徵進行處理，獲取所述鏡頭的全域特徵，包括：將所述所有鏡頭的圖像特徵分別映射到第一嵌入矩陣和第二嵌入矩陣，獲得輸入記憶和輸出記憶；根據所述鏡頭的圖像特徵、所述輸入記憶和所述輸出記憶，獲取所述鏡頭的全域特徵。

可選地，在本發明上述任一方法實施例中，所述根據所述鏡頭的圖像特徵、所述輸入記憶和所述輸出記憶，獲取所述鏡頭的全域特徵，包括：將所述鏡頭的圖像特徵映射到第三嵌入矩陣，得到所述鏡頭的特徵向量；將所述特徵向量與所述輸入記憶進行內積運算，得到所述鏡頭的權值向量；將所述權值向量與所述輸出記憶進行加權疊加運算，得到所述全域向量，將所述全域向量作為所述全域特徵。

可選地，在本發明上述任一方法實施例中，所述根據所述鏡頭的圖像特徵和所述全域特徵確定所述鏡頭的權重，包括：將所述鏡頭的圖像特徵和所述鏡頭的全域特徵進行內積運算，得到權重特徵；將所述權重特徵通過全連接神經網路，得到所述鏡頭的權重。

可選地，在本發明上述任一方法實施例中，所述基於記憶神經網路對所述鏡頭的圖像特徵進行處理，獲取所述鏡頭的全域特徵，包括：基於記憶神經網路對所述鏡頭的圖像特徵進行處理，獲取所述鏡頭的至少兩個全域特徵。

可選地，在本發明上述任一方法實施例中，所述基於記憶神經網路對所述鏡頭的圖像特徵進行處理，獲取所述鏡頭的至少兩個全域特徵，包括：將所述鏡頭的圖像特徵分別映射到至少兩組嵌入矩陣組，獲得至少兩組記憶組，每組所述嵌入矩陣組包括兩個嵌入矩陣，每組所述記憶組包括輸入記憶和輸出記憶；根據至少兩組所述記憶組和所述鏡頭的圖像特徵，獲取所述鏡頭的至少兩個全域特徵。

可選地，在本發明上述任一方法實施例中，所述根據至少兩組所述記憶組和所述鏡頭的圖像特徵，獲取所述鏡頭的至少兩個全域特徵，包括：將所述鏡頭的圖像特徵映射到第三嵌入矩陣，得到所述鏡頭的特徵向量；將所述特徵向量與至少兩個所述輸入記憶進行內積運算，得到所述鏡頭的至少兩個權值向量；將所述權值向量與至少兩個所述輸出記憶進行加權疊加運算，得到至少兩個全域向量，將所述至少兩個全域向量作為所述至少兩個全域特徵。

可選地，在本發明上述任一方法實施例中，所述根據所述鏡頭的圖像特徵和所述全域特徵確定所述鏡頭的權重，包括：將所述鏡頭的圖像特徵和所述鏡頭的至少兩個全域特徵中的第一全域特徵進行內積運算，得到第一權重特徵；將所述第一權重特徵作為所述圖像特徵，所述鏡頭的至少兩個全域特徵中的第二全域特徵作為第一全域特徵，所述第二全域特徵為所述至少兩個全域特徵中除了第一全域特徵之外的全域特徵；將所述鏡頭的圖像特徵和所述鏡頭的至少兩個全域特徵中的第一全域特徵進行內積運算，得到第一權重特徵；直到所述鏡頭的至少兩個全域特徵中不包括第二全域特徵，將所述第一權重特徵作為所述鏡頭的權重特徵；將所述權重特徵通過全連接神經網路，得到所述鏡頭的權重。

可選地，在本發明上述任一方法實施例中，所述對待處理視頻流的鏡頭序列中的鏡頭進行特徵提取，獲得所述鏡頭的圖像特徵之前，還包括：對所述待處理視頻流進行鏡頭分割獲得所述鏡頭序列。

可選地，在本發明上述任一方法實施例中，所述對所述待處理視頻流進行鏡頭分割獲得所述鏡頭序列，包括：基於所述待處理視頻流中至少兩幀視頻圖像之間的相似度進行鏡頭分割，獲得所述鏡頭序列。

可選地，在本發明上述任一方法實施例中，所述基於所述待處理視頻流中至少兩幀視頻圖像之間的相似度進行鏡頭分割，獲得所述鏡頭序列，包括：基於至少兩個大小不同的分割間距對所述視頻流中的視頻圖像進行分割，獲得至少兩組視頻片段組，每組所述視頻片段組包括至少兩個視頻片段，所述分割間距大於等於1幀；基於所述每組視頻片段組中至少兩個斷開幀之間的相似度，確定所述分割是否正確，所述斷開幀為所述視頻片段中的第一幀；回應於所述分割正確，確定所述視頻片段作為所述鏡頭，獲得所述鏡頭序列。

可選地，在本發明上述任一方法實施例中，所述基於所述每組視頻片段組中至少兩個斷開幀之間的相似度，確定所述分割是否正確，包括：回應於所述至少兩個斷開幀之間的相似度小於或等於設定值，確定所述分割正確；回應於所述至少兩個斷開幀之間的相似度大於設定值，確定所述分割不正確。

可選地，在本發明上述任一方法實施例中，所述回應於所述分割正確，確定所述視頻片段作為所述鏡頭，獲得所述鏡頭序列，包括：回應於所述斷開幀對應至少兩個所述分割間距，以大小較小的分割間距獲得的視頻片段作為所述鏡頭，獲得所述鏡頭序列。

可選地，在本發明上述任一方法實施例中，所述對待處理視頻流的鏡頭序列中的鏡頭進行特徵提取，獲得每個所述鏡頭的圖像特徵，包括：對所述鏡頭中的至少一幀視頻圖像進行特徵提取，獲得至少一個圖像特徵；獲取所有所述圖像特徵的均值特徵，並將所述均值特徵作為所述鏡頭的圖像特徵。

可選地，在本發明上述任一方法實施例中，所述基於所述鏡頭的權重獲得所述待處理視頻流的視頻摘要，包括：獲取所述視頻摘要的限定時長；根據所述鏡頭的權重和所述視頻摘要的限定時長，獲得所述待處理視頻流的視頻摘要。

可選地，在本發明上述任一方法實施例中，所述方法基於特徵提取網路和記憶神經網路實現；所述對待處理視頻流的鏡頭序列中的鏡頭進行特徵提取，獲得每個所述鏡頭的圖像特徵之前，還包括：基於樣本視頻流對所述特徵提取網路和記憶神經網路進行聯合訓練，所述樣本視頻流包括至少兩個樣本鏡頭，每個所述樣本鏡頭包括標注權重。

根據本申請實施例的另一個方面，提供的一種視頻摘要生成裝置，包括：特徵提取單元，用於對待處理視頻流的鏡頭序列中的鏡頭進行特徵提取，獲得每個所述鏡頭的圖像特徵，每個所述鏡頭包括至少一幀視頻圖像；全域特徵單元，用於根據所有所述鏡頭的圖像特徵，獲取所述鏡頭的全域特徵；權重獲取單元，用於根據所述鏡頭的圖像特徵和所述全域特徵確定所述鏡頭的權重；摘要生成單元，用於基於所述鏡頭的權重獲得所述待處理視頻流的視頻摘要。

可選地，在本發明上述任一裝置實施例中，所述全域特徵單元，用於基於記憶神經網路對所有所述鏡頭的圖像特徵進行處理，獲取所述鏡頭的全域特徵。

可選地，在本發明上述任一裝置實施例中，所述全域特徵單元，具體用於將所述所有鏡頭的圖像特徵分別映射到第一嵌入矩陣和第二嵌入矩陣，獲得輸入記憶和輸出記憶；根據所述鏡頭的圖像特徵、所述輸入記憶和所述輸出記憶，獲取所述鏡頭的全域特徵。

可選地，在本發明上述任一裝置實施例中，所述全域特徵單元在根據所述鏡頭的圖像特徵、所述輸入記憶和所述輸出記憶，獲取所述鏡頭的全域特徵時，用於將所述鏡頭的圖像特徵映射到第三嵌入矩陣，得到所述鏡頭的特徵向量；將所述特徵向量與所述輸入記憶進行內積運算，得到所述鏡頭的權值向量；將所述權值向量與所述輸出記憶進行加權疊加運算，得到所述全域向量，將所述全域向量作為所述全域特徵。

可選地，在本發明上述任一裝置實施例中，所述權重獲取單元，具體用於將所述鏡頭的圖像特徵和所述鏡頭的全域特徵進行內積運算，得到權重特徵；將所述權重特徵通過全連接神經網路，得到所述鏡頭的權重。

可選地，在本發明上述任一裝置實施例中，所述全域特徵單元，用於基於記憶神經網路對所述鏡頭的圖像特徵進行處理，獲取所述鏡頭的至少兩個全域特徵。

可選地，在本發明上述任一裝置實施例中，所述全域特徵單元，具體用於將所述鏡頭的圖像特徵分別映射到至少兩組嵌入矩陣組，獲得至少兩組記憶組，每組所述嵌入矩陣組包括兩個嵌入矩陣，每組所述記憶組包括輸入記憶和輸出記憶；根據至少兩組所述記憶組和所述鏡頭的圖像特徵，獲取所述鏡頭的至少兩個全域特徵。

可選地，在本發明上述任一裝置實施例中，所述全域特徵單元在根據至少兩組所述記憶組和所述鏡頭的圖像特徵，獲取所述鏡頭的至少兩個全域特徵時，用於將所述鏡頭的圖像特徵映射到第三嵌入矩陣，得到所述鏡頭的特徵向量；將所述特徵向量與至少兩個所述輸入記憶進行內積運算，得到所述鏡頭的至少兩個權值向量；將所述權值向量與至少兩個所述輸出記憶進行加權疊加運算，得到至少兩個全域向量，將所述至少兩個全域向量作為所述至少兩個全域特徵。

可選地，在本發明上述任一裝置實施例中，所述權重獲取單元，具體用於將所述鏡頭的圖像特徵和所述鏡頭的至少兩個全域特徵中的第一全域特徵進行內積運算，得到第一權重特徵；將所述第一權重特徵作為所述圖像特徵，所述鏡頭的至少兩個全域特徵中的第二全域特徵作為第一全域特徵，所述第二全域特徵為所述至少兩個全域特徵中除了第一全域特徵之外的全域特徵；將所述鏡頭的圖像特徵和所述鏡頭的至少兩個全域特徵中的第一全域特徵進行內積運算，得到第一權重特徵；直到所述鏡頭的至少兩個全域特徵中不包括第二全域特徵，將所述第一權重特徵作為所述鏡頭的權重特徵；將所述權重特徵通過全連接神經網路，得到所述鏡頭的權重。

可選地，在本發明上述任一裝置實施例中，所述裝置還包括：鏡頭分割單元，用於對所述待處理視頻流進行鏡頭分割獲得所述鏡頭序列。

可選地，在本發明上述任一裝置實施例中，所述鏡頭分割單元，用於基於所述待處理視頻流中至少兩幀視頻圖像之間的相似度進行鏡頭分割，獲得所述鏡頭序列。

可選地，在本發明上述任一裝置實施例中，所述鏡頭分割單元，具體用於基於至少兩個大小不同的分割間距對所述視頻流中的視頻圖像進行分割，獲得至少兩組視頻片段組，每組所述視頻片段組包括至少兩個視頻片段，所述分割間距大於等於1幀；基於所述每組視頻片段組中至少兩個斷開幀之間的相似度，確定所述分割是否正確，所述斷開幀為所述視頻片段中的第一幀；回應於所述分割正確，確定所述視頻片段作為所述鏡頭，獲得所述鏡頭序列。

可選地，在本發明上述任一裝置實施例中，所述鏡頭分割單元在基於所述每組視頻片段組中至少兩個斷開幀之間的相似度，確定所述分割是否正確時，用於回應於所述至少兩個斷開幀之間的相似度小於或等於設定值，確定所述分割正確；回應於所述至少兩個斷開幀之間的相似度大於設定值，確定所述分割不正確。

可選地，在本發明上述任一裝置實施例中，所述鏡頭分割單元在回應於所述分割正確，確定所述視頻片段作為所述鏡頭，獲得所述鏡頭序列時，用於回應於所述斷開幀對應至少兩個所述分割間距，以大小較小的分割間距獲得的視頻片段作為所述鏡頭，獲得所述鏡頭序列。

可選地，在本發明上述任一裝置實施例中，所述特徵提取單元，具體用於對所述鏡頭中的至少一幀視頻圖像進行特徵提取，獲得至少一個圖像特徵；獲取所有所述圖像特徵的均值特徵，並將所述均值特徵作為所述鏡頭的圖像特徵。

可選地，在本發明上述任一裝置實施例中，所述摘要生成單元，具體用於獲取所述視頻摘要的限定時長；根據所述鏡頭的權重和所述視頻摘要的限定時長，獲得所述待處理視頻流的視頻摘要。

可選地，在本發明上述任一裝置實施例中，所述裝置還包括：聯合訓練單元，用於基於樣本視頻流對所述特徵提取網路和記憶神經網路進行聯合訓練，所述樣本視頻流包括至少兩個樣本鏡頭，每個所述樣本鏡頭包括標注權重。

根據本申請實施例的又一個方面，提供的一種電子設備，包括處理器，所述處理器包括如上任意一項所述的視頻摘要生成裝置。

根據本申請實施例的還一個方面，提供的一種電子設備，包括：記憶體，用於儲存可執行指令；以及處理器，用於與所述記憶體通信以執行所述可執行指令從而完成如上任意一項所述視頻摘要生成方法的操作。

根據本申請實施例的再一個方面，提供的一種電腦儲存介質，用於儲存電腦可讀取的指令，其特徵在於，所述指令被執行時執行如上任意一項所述視頻摘要生成方法的操作。

根據本申請實施例的另一個方面，提供的一種電腦程式產品，包括電腦可讀代碼，其特徵在於，當所述電腦可讀代碼在設備上運行時，所述設備中的處理器執行用於實現如上任意一項所述視頻摘要生成方法的指令。

基於本申請上述實施例提供的一種視頻摘要生成方法和裝置、電子設備、電腦儲存介質，對待處理視頻流的鏡頭序列中的鏡頭進行特徵提取，獲得每個鏡頭的圖像特徵，每個鏡頭包括至少一幀視頻圖像；根據所有鏡頭的圖像特徵，獲取鏡頭的全域特徵；根據鏡頭的圖像特徵和全域特徵確定鏡頭的權重；基於鏡頭的權重獲得待處理視頻流的視頻摘要，結合圖像特徵和全域特徵確定每個鏡頭的權重，實現了從視頻整體的角度來理解視頻，利用了每個鏡頭與視頻全域的關係，基於本實施例的鏡頭的權重確定的視頻摘要，可以在整體上對視頻內容進行表達，避免了視頻摘要較為片面的問題。

下面通過附圖和實施例，對本申請的技術方案做進一步的詳細描述。

91‧‧‧特徵提取單元

92‧‧‧全域特徵單元

93‧‧‧權重獲取單元

94‧‧‧摘要生成單元

1000‧‧‧電子設備

1001‧‧‧中央處理單元(CPU)

1002‧‧‧唯讀記憶體(ROM)

1003‧‧‧隨機存取記憶體(RAM)

1004‧‧‧匯流排

1005‧‧‧輸入/輸出(I/O)介面

1006‧‧‧輸入部分

1007‧‧‧輸出部分

1008‧‧‧儲存部分

1009‧‧‧通信部分

1010‧‧‧驅動器

1011‧‧‧可拆卸介質

1012‧‧‧通信部

1013‧‧‧加速單元

構成說明書的一部分的附圖描述了本申請的實施例，並且連同描述一起用於解釋本申請的原理。

參照附圖，根據下面的詳細描述，可以更加清楚地理解本申請，其中：圖1為本申請實施例提供的視頻摘要生成方法的一個實施例的流程示意圖。

圖2為本申請實施例提供的視頻摘要生成方法的另一個實施例的流程示意圖。

圖3為本申請實施例提供的視頻摘要生成方法的一個可選示例的部分流程示意圖。

圖4為本申請實施例提供的視頻摘要生成方法的另一可選示例的部分流程示意圖。

圖5為本申請實施例提供的視頻摘要生成方法的又一實施例的流程示意圖。

圖6為本申請實施例提供的視頻摘要生成方法的一些可選示例的示意圖。

圖7為本申請實施例提供的視頻摘要生成方法的又一實施例的流程示意圖。

圖8為本申請實施例提供的視頻摘要生成方法的又一可選示例的部分流程示意圖。

圖9為本申請實施例提供的視頻摘要生成裝置的一個實施例的結構示意圖。

圖10為適於用來實現本申請實施例的終端設備或伺服器的電子設備的結構示意圖。

現在將參照附圖來詳細描述本申請的各種示例性實施例。應注意到：除非另外具體說明，否則在這些實施例中闡述的部件和步驟的相對佈置、數位運算式和數值不限制本申請的範圍。

同時，應當明白，為了便於描述，附圖中所示出的各個部分的尺寸並不是按照實際的比例關係繪製的。

以下對至少一個示例性實施例的描述實際上僅僅是說明性的，決不作為對本申請及其應用或使用的任何限制。

對於相關領域普通技術人員已知的技術、方法和設備可能不作詳細討論，但在適當情況下，所述技術、方法和設備應當被視為說明書的一部分。

應注意到：相似的標號和字母在下面的附圖中表示類似項，因此，一旦某一項在一個附圖中被定義，則在隨後的附圖中不需要對其進行進一步討論。

圖1為本申請實施例提供的視頻摘要生成方法的一個實施例的流程示意圖。該方法可以由任意視頻摘要提取設備執行，例如終端設備、伺服器、移動設備等等，如圖1所示，該實施例方法包括：步驟110，對待處理視頻流的鏡頭序列中的鏡頭進行特徵提取，獲得每個鏡頭的圖像特徵。

在本實施例中，待處理視頻流為獲取視頻摘要的視頻流，視頻流包括至少一幀視頻圖像。為了使獲得的視頻摘要具有內容含義，而不僅僅是由不同幀的視頻圖像構成的圖像集合，本申請實施例將鏡頭作為視頻摘要的構成單位，每個鏡頭包括至少一幀視頻圖像。可選地，本申請實施例中的特徵提取可以是基於任一特徵提取網路實現，基於特徵提取網路分別對每個鏡頭進行特徵提取，以獲得至少兩個圖像特徵，本申請不限制具體進行特徵提取的過程。

步驟120，根據所有鏡頭的圖像特徵，獲取鏡頭的全域特徵。

可選地，將視頻流對應的所有圖像特徵經過處理(如：映射或嵌入等)獲得對應整體視頻流的轉換特徵序列，轉換特徵序列再與每個圖像特徵進行計算獲得每個鏡頭對應的全域特徵(全域注意力)，通過全域特徵可以體現每個鏡頭與視頻流中其他鏡頭之間的關聯關係。

步驟130，根據鏡頭的圖像特徵和全域特徵確定鏡頭的權重。

通過鏡頭的圖像特徵及其全域特徵確定該鏡頭的權重，由此得到的權重不僅基於該鏡頭本身，還基於該鏡頭與整個視頻流中其他鏡頭之間的關聯關係，實現了從視頻整體的角度對鏡頭的重要性進行評估。

步驟140，基於鏡頭的權重獲得待處理視頻流的視頻摘要。

本實施例中，通過鏡頭的權重大小確定鏡頭序列中鏡頭的重要性，但確定視頻摘要不僅僅基於鏡頭的重要性，還需要控制視頻摘要的長度，即，需要結合鏡頭的權重和鏡頭的時長(幀數)確定視頻摘要。在本實施例中，可採用背包演算法確定視頻摘要，還可以採用其他演算法確定，這裡不一一列舉。

上述實施例提供的視頻摘要生成方法，對待處理視頻流的鏡頭序列中的鏡頭進行特徵提取，獲得每個鏡頭的圖像特徵，每個鏡頭包括至少一幀視頻圖像；根據所有鏡頭的圖像特徵，獲取鏡頭的全域特徵；根據鏡頭的圖像特徵和全域特徵確定鏡頭的權重；基於鏡頭的權重獲得待處理視頻流的視頻摘要，結合圖像特徵和全域特徵確定每個鏡頭的權重，實現了從視頻整體的角度來理解視頻，利用了每個鏡頭與整個視頻流的全域關聯關係，基於本實施例確定的視頻摘要，可以在整體上對視頻內容進行表達，避免了視頻摘要較為片面的問題。

圖2為本申請實施例提供的視頻摘要生成方法的另一個實施例的流程示意圖。如圖2所示，本實施例方法包括：步驟210，對待處理視頻流的鏡頭序列中的鏡頭進行特徵提取，獲得每個鏡頭的圖像特徵。

本申請實施例中步驟210與上述實施例的步驟110類似，可參照上述實施例對該步驟進行理解，在此不再贅述。

步驟220，基於記憶神經網路對所有鏡頭的圖像特徵進行處理，獲取鏡頭的全域特徵。

可選地，記憶神經網路可以包括至少兩個嵌入矩陣，通過將視頻流的所有鏡頭的圖像特徵分別輸入到至少兩個嵌入矩陣中，通過嵌入矩陣的輸出獲得每個鏡頭的全域特徵，鏡頭的全域特徵可以表達該鏡頭與視頻流中其他鏡頭之間的關聯關係，從鏡頭的權重看，權重越大，表明該鏡頭與其他鏡頭的關聯越大，越有可能被包含在視頻摘要中。

步驟230，根據鏡頭的圖像特徵和全域特徵確定鏡頭的權重。

本申請實施例中步驟230與上述實施例的步驟130類似，可參照上述實施例對該步驟進行理解，在此不再贅述。

步驟240，基於鏡頭的權重獲得待處理視頻流的視頻摘要。

本申請實施例中步驟240與上述實施例的步驟140類似，可參照上述實施例對該步驟進行理解，在此不再贅述。

本申請實施例通過記憶神經網路模仿人類創造視頻摘要時的做法，即從視頻整體的角度來理解視頻，利用記憶神經網路來儲存整個視頻流的資訊，利用每一個鏡頭與視頻全域的關係，來決定其重要性，從而選擇出作為視頻摘要的鏡頭。

圖3為本申請實施例提供的視頻摘要生成方法的一個可選示例的部分流程示意圖。如圖3所示，上述實施例中的步驟220包括：步驟310，將所有鏡頭的圖像特徵分別映射到第一嵌入矩陣和第二嵌入矩陣，獲得輸入記憶和輸出記憶。

本實施例中的輸入記憶和輸出記憶分別對應視頻流的全部鏡頭，每個嵌入矩陣對應一個記憶(輸入記憶或輸出記憶)，通過將所有鏡頭的圖像特徵映射到一個嵌入矩陣中，可獲得一組新的圖像特徵，即一個記憶。

步驟320，根據鏡頭的圖像特徵、輸入記憶和輸出記憶，獲取鏡頭的全域特徵。

基於輸入記憶和輸出記憶結合該鏡頭的圖像特徵，即可獲得該鏡頭的全域特徵，該全域特徵體現了該鏡頭與視頻流中所有鏡頭之間的關聯，使基於全域特徵獲得的鏡頭的權重與視頻流整體相關，進而獲得更全面的視頻摘要。

在一個或多個可選的實施例中，每個鏡頭可以對應至少兩個全域特徵，至少兩個全域特徵的獲取可通過至少兩組嵌入矩陣組獲得，每組嵌入矩陣組的結構與上述實施例中的第一嵌入矩陣和第二嵌入矩陣類似；將鏡頭的圖像特徵分別映射到至少兩組嵌入矩陣組，獲得至少兩組記憶組，每組嵌入矩陣組包括兩個嵌入矩陣，每組記憶組包括輸入記憶和輸出記憶；根據至少兩組記憶組和鏡頭的圖像特徵，獲取鏡頭的至少兩個全域特徵。

本申請實施例中，為了提高鏡頭的權重的全域性，通過至少兩組記憶組獲得至少兩個全域特徵，結合多個全域特徵獲得鏡頭的權重，其中，每組嵌入矩陣組中包括的嵌入矩陣不同或相同，當嵌入矩陣組之間不同時，獲得的全域特徵能更好的體現鏡頭與視頻整體的關聯。

圖4為本申請實施例提供的視頻摘要生成方法的另一可選示例的部分流程示意圖。如圖4所示，上述實施例中的步驟320包括：步驟402，將鏡頭的圖像特徵映射到第三嵌入矩陣，得到鏡頭的特徵向量。

可選地，該第三嵌入矩陣可實現對圖像特徵的轉置，即將該鏡頭的圖像特徵進行轉置，獲得鏡頭的特徵向量，例如：將鏡頭序列中的第i個鏡頭對應的圖像特徵u _i經過轉置獲得特徵向量

。

步驟404，將特徵向量與輸入記憶進行內積運算，得到鏡頭的權值向量。

可選地，輸入記憶對應鏡頭序列，因此，輸入記憶包括至少兩個向量(數量對應鏡頭數量)，將特徵向量與輸入記憶進行內積運算時，可通過Softmax啟動函數將特徵向量與輸入記憶中的多個向量計算內積得到的結果映射到(0,1)區間內，獲得的多個概率形式表達的值，多個概率形式表達的值作為該鏡頭的權值向量，例如：可通過公式(1)獲得權值向量：

其中，u _i表示第i個鏡頭的圖像特徵，即當前需要計算權重的鏡頭對應的圖像特徵；a表示輸入記憶；p _i表示第i個圖像特徵與輸入記憶之間的關聯性的權值向量；Softmax啟動函數用於多分類過程中，將多個神經元的輸出，映射到(0,1)區間內，可以看成概率來理解；其中i的取值為鏡頭序列的鏡頭數量；通過公式(1)即可獲得表達第i個圖像特徵與鏡頭序列的關聯性的權值向量。

步驟406，將權值向量與輸出記憶進行加權疊加運算，得到全域向量，將全域向量作為全域特徵。

可選地，通過以下公式(2)獲得全域向量：o _i=Σ_i p _i b (2)

其中，b表示基於第二嵌入矩陣獲得的輸出記憶；o _i表示第i個圖像特徵與輸出記憶計算獲得的全域向量。

本實施例通過圖像特徵與輸入記憶進行內積運算，獲得該圖像特徵與每個鏡頭之間的關聯性，可選地，在進行內積運算之前，可以對該圖像特徵進行轉置處理，以保證圖像特徵與輸入記憶中的向量可以進行內積運算，此時獲得的權值向量包括多個概率值，每個概率值表示該鏡頭與鏡頭序列中每個鏡頭的關聯性，概率值越大，關聯性越強，分別將每個概率值與輸出記憶中的多個向量進行內積運算，獲得該鏡頭的全域向量作為全域特徵。

在一個實施例中，每個鏡頭對應至少兩個全域特徵時，根據至少兩組記憶組，獲取鏡頭的至少兩個全域特徵，包括：將鏡頭的圖像特徵映射到第三嵌入矩陣，得到鏡頭的特徵向量；將特徵向量與至少兩個輸入記憶進行內積運算，得到鏡頭的至少兩個權值向量；將權值向量與至少兩個輸出記憶進行加權疊加運算，得到至少兩個全域向量，將至少兩個全域向量作為至少兩個全域特徵。

其中，計算每個權值向量和全域向量的過程與上述實施例中類似，可參照理解，在此不再贅述。可選地，獲得權值向量的公式可基於上述公式(1)經過變形獲得公式(5)實現：

其中，u _i表示第i個鏡頭的圖像特徵，即當前需要計算權重的鏡頭對應的圖像特徵，

表示第i個鏡頭的特徵向量；a _k表示第k組記憶組中的輸入記憶；

表示第i個圖像特徵與第k組記憶組中的輸入記憶之間的關聯性的權值向量；Softmax啟動函數用於多分類過程中，將多個神經元的輸出，映射到(0,1)區間內，可以看成概率來理解；其中k的取值為1到N；通過公式(5)即可獲得表達第i個圖像特徵與鏡頭序列的關聯性的至少兩個權值向量。

可選地，通過對上述公式(2)進行變形獲得公式(6)獲得本實施例中的至少兩個全域向量：

其中，b _k表示基於第k組記憶組中的輸出記憶；

表示第i個圖像特徵與第k組記憶組中的輸出記憶計算獲得的全域向量，基於公式(6)即可獲得該鏡頭的至少兩個全域向量。

圖5為本申請實施例提供的視頻摘要生成方法的又一實施例的流程示意圖。如圖5所示：步驟510，對待處理視頻流的鏡頭序列中的鏡頭進行特徵提取，獲得每個鏡頭的圖像特徵。

本申請實施例中步驟510與上述實施例的步驟110類似，可參照上述實施例對該步驟進行理解，在此不再贅述。

步驟520，根據所有鏡頭的圖像特徵，獲取鏡頭的全域特徵。

本申請實施例中步驟520與上述實施例的步驟120類似，可參照上述任一實施例對該步驟進行理解，在此不再贅述。

步驟530，將鏡頭的圖像特徵和鏡頭的全域特徵進行內積運算，得到權重特徵。

可選地，通過鏡頭的圖像特徵與鏡頭的全域特徵進行內積運算，使獲得的權重特徵在體現鏡頭在視頻整體中重要性的同時，還依賴於鏡頭本身的資訊，可選地，可通過以下公式(3)獲得權重特徵：

其中，

表示第i個鏡頭的權重特徵，o _i表示第i個鏡頭的全域向量；⊙表示點乘，即內積運算。

步驟540，將權重特徵通過全連接神經網路，得到鏡頭的權重。

權重用於體現鏡頭的重要性，因此，需要以數值的形式進行體現，可選地，本實施例通過全連接神經網路將權重特徵的維度變換，獲得一維向量表達的鏡頭的權重。

可選地，可基於以下公式(4)獲得鏡頭的權重：

其中，s _i表示第i個鏡頭的權重，W _D和b _D分別表示靶心圖表像特徵經過的全連接網路中的權重和偏移量。

步驟550，基於鏡頭的權重獲得待處理視頻流的視頻摘要。

本實施例結合鏡頭的圖像特徵和鏡頭的全域特徵確定鏡頭的權重，在體現該鏡頭的資訊的同時，結合了鏡頭與視頻整體的關聯，實現了從視頻局部和視頻整體的角度來理解視頻，使獲得的視頻摘要更符合人類習慣。

可選地，根據鏡頭的圖像特徵和全域特徵確定鏡頭的權重，包括：將鏡頭的圖像特徵和鏡頭的至少兩個全域特徵中的第一全域特徵進行內積運算，得到第一權重特徵；將第一權重特徵作為圖像特徵，鏡頭的至少兩個全域特徵中的第二全域特徵作為第一全域特徵，第二全域特徵為至少兩個全域特徵中除了第一全域特徵之外的全域特徵；將鏡頭的圖像特徵和鏡頭的至少兩個全域特徵中的第一全域特徵進行內積運算，得到第一權重特徵；直到鏡頭的至少兩個全域特徵中不包括第二全域特徵，將第一權重特徵作為鏡頭的權重特徵；將權重特徵通過全連接神經網路，得到鏡頭的權重。

本實施例中，由於全域特徵具有多個，每次將圖像特徵與全域特徵內積運算的結果作為下一次運算的圖像特徵，實現循環，每次運算可基於對上述公式(3)變更得到的公式(7)實現：

其中，

表示第i個圖像特徵與第k組記憶組中的輸出記憶計算獲得的全域向量；

表示第一權重特徵，⊙表示點乘，在循環到第k+1組記憶組中的輸出記憶計算獲得的全域向量時；將

替換u _i表示第i個鏡頭的圖像特徵，此時

變換為

，直到完成所有記憶組的運算，將

輸出作為鏡頭的權重特徵，通過權重特徵確定鏡頭的權重與上述實施例類似，在此不再贅述。

圖6為本申請實施例提供的視頻摘要生成方法的一些可選示例的示意圖。如圖6所示，本示例中包括多組記憶組，其中記憶組的數量為n，通過對視頻流分割獲得多個矩陣，通過對圖像特徵結合上述公式(5)、(6)、(7)、(4)計算，可獲得第i個鏡頭的權重s _i，具體獲得權重的過程可參照上述實施例的描述，在此不再贅述。

圖7為本申請實施例提供的視頻摘要生成方法的又一實施例的流程示意圖。如圖7所示，該實施例方法包括：步驟710，對待處理視頻流進行鏡頭分割獲得鏡頭序列。

可選地，基於待處理視頻流中至少兩幀視頻圖像之間的相似度進行鏡頭分割，獲得鏡頭序列。

可選地，可通過兩幀視頻圖像對應的特徵之間的距離(如：歐式距離、余弦距離等)確定兩幀視頻圖像之間的相似度，兩幀視頻圖像之間的相似度越高，說明兩幀視頻圖像屬於同一鏡頭的可能性越大，本實施例通過視頻圖像之間的相似度可將差異較為明顯的視頻圖像分割到不同的鏡頭中，實現準確的鏡頭分割。

步驟720，對待處理視頻流的鏡頭序列中的鏡頭進行特徵提取，獲得每個鏡頭的圖像特徵。

本申請實施例中步驟720與上述實施例的步驟110類似，可參照上述任一實施例對該步驟進行理解，在此不再贅述。

步驟730，根據所有鏡頭的圖像特徵，獲取鏡頭的全域特徵。

本申請實施例中步驟730與上述實施例的步驟120類似，可參照上述任一實施例對該步驟進行理解，在此不再贅述。

步驟740，根據鏡頭的圖像特徵和全域特徵確定鏡頭的權重。

本申請實施例中步驟740與上述實施例的步驟130類似，可參照上述任一實施例對該步驟進行理解，在此不再贅述。

步驟750，基於鏡頭的權重獲得待處理視頻流的視頻摘要。

本申請實施例中步驟750與上述實施例的步驟140類似，可參照上述任一實施例對該步驟進行理解，在此不再贅述。

本申請實施例以鏡頭作為提取摘要的單位，首先，需要基於視頻流獲得至少兩個鏡頭，進行鏡頭分割的方法可以通過神經網路進行分割或通過已知攝影鏡頭或人為判斷等方法實現；本申請實施例不限制分割鏡頭的具體手段。

圖8為本申請實施例提供的視頻摘要生成方法的又一可選示例的部分流程示意圖。如圖8所示，上述實施例中步驟710包括：步驟802，基於至少兩個大小不同的分割間距對視頻流中的視頻圖像進行分割，獲得至少兩組視頻片段組。

其中，每組視頻片段組包括至少兩個視頻片段，分割間距大於等於1幀。

本申請實施例中通過多個大小不同的分割間距對視頻流進行分割，例如：分割間距分別為：1幀、4幀、6幀、8幀等等，通過一個分割間距可將視頻流分割為固定大小(如：6幀)的多個視頻片段。

步驟804，基於每組視頻片段組中至少兩個斷開幀之間的相似度，確定分割是否正確。

其中，斷開幀為視頻片段中的第一幀；可選地，回應於至少兩個斷開幀之間的相似度小於或等於設定值，確定分割正確；回應於至少兩個斷開幀之間的相似度大於設定值，確定分割不正確。

可選地，兩幀視頻圖像之間的關聯可以基於特徵之間的相似度確定，相似度越大，說明是同一鏡頭的可能性越大。從拍攝角度講，場景的切換包括兩種，一種是鏡頭直接切換場景，另一種是通過長鏡頭逐漸變化場景，本申請實施例主要以場景的變化作為鏡頭分割的依據，即，即使是同一長鏡頭中拍攝的視頻片段，當某一幀的圖像與該長鏡頭的第一幀圖像的關聯性小於或等於設定值時，也進行鏡頭分割。

步驟806，回應於分割正確，確定視頻片段作為鏡頭，獲得鏡頭序列。

本申請實施例中通過多個大小不同的分割間距對視頻流進行分割，再判斷連續的兩個視頻片段的斷開幀之間的相似度，以確定該位置的分割是否正確，當兩個連續的斷開幀之間的相似度超過一定值時，說明該位置的分割不正確，即這兩個視頻片段屬於一個鏡頭，通過正確的分割即可獲得鏡頭序列。

可選地，步驟806包括：回應於斷開幀對應至少兩個分割間距，以大小較小的得到分割間距獲得的視頻片段作為所述鏡頭，獲得鏡頭序列。

當一個斷開位置的斷開幀同時是至少兩個分割間距分割的埠，例如：對包括8幀圖像的視頻流分別以2幀和4幀作為第一分割間距和第二分割間距，第一分割間距獲得4個視頻片段，其中第1幀、第3幀、第5幀和第7幀為斷開幀，第二分割間距獲得2個視頻片段，其中第1幀和第5幀為斷開幀；此時，如果確定第5幀和第7幀的斷開幀對應的分割正確，即第5幀即是第一分割間距的斷開幀，也是第二分割間距的斷開幀，此時，以第一分割間距為準，即：對該視頻流分割獲得3個鏡頭：第1幀到第4幀為一個鏡頭，第5幀和第6幀為一個鏡頭，第7幀和第8幀為一個鏡頭；而不是按照第二分割間距將第5幀到第8幀作為一個鏡頭。

在一個或多個可選的實施例中，步驟110包括：對鏡頭中的至少一幀視頻圖像進行特徵提取，獲得至少一個圖像特徵；獲取所有圖像特徵的均值特徵，並將均值特徵作為鏡頭的圖像特徵。

可選地，通過特徵提取網路分別對鏡頭中的每幀視頻圖像進行特徵提取，當一個鏡頭僅包括一幀視頻圖像時，以該圖像特徵作為圖像特徵，當包括多幀視頻圖像時，對多個圖像特徵計算均值，以均值特徵作為該鏡頭的圖像特徵。

在一個或多個可選的實施例中，步驟140包括：

(1)獲取視頻摘要的限定時長。

視頻摘要又稱視頻濃縮，是對視頻內容的一個簡要概括，可實現在相對較短的時間內將視頻表達的主要內容進行體現，需要在實現將視頻主要內容表達的同時，還要對視頻摘要的時長進行限制，否則將達不到簡要的功能，與看完整視頻無異。本申請實施例通過限定時長來限制視頻摘要的時長，即，要求獲得的視頻摘要的時長小於或等於限定時長，限定時長的具體取值可根據實際情況進行設定。

(2)根據鏡頭的權重和視頻摘要的限定時長，獲得待處理視頻流的視頻摘要。

可選地，本申請實施例通過01背包演算法實現視頻摘要的提取，01背包問題解決的問題應用到本實施例中可描述為：鏡頭序列包括多個鏡頭，每個鏡頭具有對應(通常不同)的長度，每個鏡頭具有對應(通常不同)的權重，需要獲得限定時長的視頻摘要，如何保證視頻摘要在限定時長內權重總和最大。因此，本申請實施例通過背包演算法可獲得最佳內容的視頻摘要。此時還存在一種特殊情況，回應于獲得權重最高的至少兩個鏡頭中存在長度大於第二設定幀數的鏡頭，刪除長度大於第二設定幀數的鏡頭，當獲得的某一鏡頭的重要性分數較高，但是它的長度已經大於第二設定幀數(例如：第一設定幀數的一半)，此時如果還將該鏡頭加入視頻摘要，將導致視頻摘要中的內容過少，因此，不將該鏡頭加入到視頻摘要中。

在一個或多個可選的實施例中，本申請實施例方法基於特徵提取網路和記憶神經網路實現；在執行步驟110之前，還包括：基於樣本視頻流對特徵提取網路和記憶神經網路進行聯合訓練，樣本視頻流包括至少兩個樣本鏡頭，每個樣本鏡頭包括標注權重。

為了實現獲得較準確的權重，在獲得權重之前需要對特徵提取網路和記憶神經網路進行訓練，單獨訓練特徵提取網路和記憶神經網路也可以實現本申請實施例的目的，但將特徵提取網路和記憶神經網路聯合訓練得到的參數更適合本申請實施例，能提供更準確的預測權重；該訓練過程假設樣本視頻流已經分割為至少兩個樣本鏡頭，該分割過程可以基於訓練好的分割神經網路或其他手段，本申請實施例不限制。

可選地，聯合訓練的過程可以包括：利用特徵提取網路對樣本視頻流包括的至少兩個樣本鏡頭中的每個樣本鏡頭進行特徵提取，獲得至少兩個樣本圖像特徵；利用記憶神經網路基於樣本鏡頭特徵確定每個樣本鏡頭的預測權重；基於預測權重和標注權重確定損失，基於損失調整對特徵提取網路和記憶神經網路的參數。

本領域普通技術人員可以理解：實現上述方法實施例的全部或部分步驟可以通過程式指令相關的硬體來完成，前述的程式可以儲存於一電腦可讀取儲存介質中，該程式在執行時，執行包括上述方法實施例的步驟；而前述的儲存介質包括：ROM、RAM、磁碟或者光碟等各種可以儲存程式碼的介質。

圖9為本申請實施例提供的視頻摘要生成裝置的一個實施例的結構示意圖。該實施例的裝置可用於實現本申請上述各方法實施例。如圖9所示，該實施例的裝置包括：特徵提取單元91，用於對待處理視頻流的鏡頭序列中的鏡頭進行特徵提取，獲得每個鏡頭的圖像特徵。

全域特徵單元92，用於根據所有鏡頭的圖像特徵，獲取鏡頭的全域特徵。

權重獲取單元93，用於根據鏡頭的圖像特徵和全域特徵確定鏡頭的權重。

摘要生成單元94，用於基於鏡頭的權重獲得待處理視頻流的視頻摘要。

可選地，本申請實施例通過鏡頭的權重體現了每個鏡頭的重要性，可確定鏡頭序列中較為重要的一些鏡頭，但確定視頻摘要不僅僅基於鏡頭的重要性，還需要控制視頻摘要的長度，即，需要結合鏡頭的權重和時長(幀數)確定視頻摘要，可選地，可採用背包演算法獲得視頻摘要。

上述實施例提供的視頻摘要生成裝置，結合圖像特徵和全域特徵確定每個鏡頭的權重，實現了從視頻整體的角度來理解視頻，利用了每個鏡頭與整個視頻流的全域關聯關係，基於本實施例確定的視頻摘要，可以在整體上對視頻內容進行表達，避免了視頻摘要較為片面的問題。

在一個或多個可選的實施例中，全域特徵單元92，用於基於記憶神經網路對所有鏡頭的圖像特徵進行處理，獲取鏡頭的全域特徵。

可選地，全域特徵單元92，具體用於將所有鏡頭的圖像特徵分別映射到第一嵌入矩陣和第二嵌入矩陣，獲得輸入記憶和輸出記憶；根據鏡頭的圖像特徵、輸入記憶和輸出記憶，獲取鏡頭的全域特徵。

可選地，全域特徵單元92在根據鏡頭的圖像特徵、輸入記憶和輸出記憶，獲取鏡頭的全域特徵時，用於將鏡頭的圖像特徵映射到第三嵌入矩陣，得到鏡頭的特徵向量；將特徵向量與輸入記憶進行內積運算，得到鏡頭的權值向量；將權值向量與輸出記憶進行加權疊加運算，得到全域向量，將全域向量作為全域特徵。

在一個或多個可選的實施例中，權重獲取單元93，具體用於將鏡頭的圖像特徵和鏡頭的全域特徵進行內積運算，得到權重特徵；將權重特徵通過全連接神經網路，得到鏡頭的權重。

在一個或多個可選的實施例中，全域特徵單元92，用於基於記憶神經網路對鏡頭的圖像特徵進行處理，獲取鏡頭的至少兩個全域特徵。

可選地，全域特徵單元92，具體用於將所述鏡頭的圖像特徵分別映射到至少兩組嵌入矩陣組，獲得至少兩組記憶組，每組所述嵌入矩陣組包括兩個嵌入矩陣，每組所述記憶組包括輸入記憶和輸出記憶；根據至少兩組所述記憶組和所述鏡頭的圖像特徵，獲取所述鏡頭的至少兩個全域特徵。

可選地，全域特徵單元92在根據至少兩組記憶組和鏡頭的圖像特徵，獲取鏡頭的至少兩個全域特徵時，用於將鏡頭的圖像特徵映射到第三嵌入矩陣，得到鏡頭的特徵向量；將特徵向量與至少兩個輸入記憶進行內積運算，得到鏡頭的至少兩個權值向量；將權值向量與至少兩個輸出記憶進行加權疊加運算，得到至少兩個全域向量，將至少兩個全域向量作為至少兩個全域特徵。

可選地，權重獲取單元93，具體用於將鏡頭的圖像特徵和鏡頭的至少兩個全域特徵中的第一全域特徵進行內積運算，得到第一權重特徵；將第一權重特徵作為圖像特徵，鏡頭的至少兩個全域特徵中的第二全域特徵作為第一全域特徵，第二全域特徵為至少兩個全域特徵中除了第一全域特徵之外的全域特徵；將鏡頭的圖像特徵和鏡頭的至少兩個全域特徵中的第一全域特徵進行內積運算，得到第一權重特徵；直到鏡頭的至少兩個全域特徵中不包括第二全域特徵，將第一權重特徵作為鏡頭的權重特徵；將權重特徵通過全連接神經網路，得到鏡頭的權重。

在一個或多個可選的實施例中，裝置還包括：鏡頭分割單元，用於對待處理視頻流進行鏡頭分割獲得鏡頭序列。

可選地，鏡頭分割單元，用於基於待處理視頻流中至少兩幀視頻圖像之間的相似度進行鏡頭分割，獲得鏡頭序列。

可選地，鏡頭分割單元，具體用於基於至少兩個大小不同的分割間距對視頻流中的視頻圖像進行分割，獲得至少兩組視頻片段組，每組視頻片段組包括至少兩個視頻片段，分割間距大於等於1幀；基於每組視頻片段組中至少兩個斷開幀之間的相似度，確定分割是否正確，斷開幀為視頻片段中的第一幀；回應於分割正確，確定視頻片段作為鏡頭，獲得鏡頭序列。

可選地，鏡頭分割單元在基於每組視頻片段組中至少兩個斷開幀之間的相似度，確定分割是否正確時，用於回應於至少兩個斷開幀之間的相似度小於或等於設定值，確定分割正確；回應於至少兩個斷開幀之間的相似度大於設定值，確定分割不正確。

可選地，鏡頭分割單元在回應於分割正確，確定視頻片段作為鏡頭，獲得鏡頭序列時，用於回應於斷開幀對應至少兩個分割間距，以大小較小的分割間距獲得的視頻片段作為鏡頭，獲得鏡頭序列。

在一個或多個可選的實施例中，特徵提取單元91，具體用於對鏡頭中的至少一幀視頻圖像進行特徵提取，獲得至少一個圖像特徵；獲取所有圖像特徵的均值特徵，並將均值特徵作為鏡頭的圖像特徵。

在一個或多個可選的實施例中，摘要生成單元，具體用於獲取視頻摘要的限定時長；根據鏡頭的權重和視頻摘要的限定時長，獲得待處理視頻流的視頻摘要。

視頻摘要又稱視頻濃縮，是對視頻內容的一個簡要概括，可實現在相對較短的時間內將視頻表達的主要內容進行體現，需要在實現將視頻主要內容表達的同時，還要對視頻摘要的時長進行限制，否則將達不到簡要的功能，與看完整視頻無異，本申請實施例通過限定時長來限制視頻摘要的時長，即，要求獲得的視頻摘要的時長小於或等於限定時長，限定時長的具體取值可根據實際情況進行設定。

在一個或多個可選的實施例中，本申請實施例裝置還包括：聯合訓練單元，用於基於樣本視頻流對特徵提取網路和記憶神經網路進行聯合訓練，樣本視頻流包括至少兩個樣本鏡頭，每個樣本鏡頭包括標注權重。

本申請實施例的另一個方面，還提供了一種電子設備，包括處理器，該處理器包括上述任意一項實施例提供的視頻摘要生成裝置。

本申請實施例的又一個方面，還提供了一種電子設備，包括：記憶體，用於儲存可執行指令；以及處理器，用於與該記憶體通信以執行所述可執行指令從而完成上述任意一項實施例提供的視頻摘要生成方法的操作。

本申請實施例的還一個方面，還提供了一種電腦儲存介質，用於儲存電腦可讀取的指令，該指令被執行時執行上述任意一項實施例提供的視頻摘要生成方法的操作。

本申請實施例的再一個方面，還提供了一種電腦程式產品，包括電腦可讀代碼，當所述電腦可讀代碼在設備上運行時，該設備中的處理器執行用於實現上述任意一項實施例提供的視頻摘要生成方法的指令。

本申請實施例還提供了一種電子設備，例如可以是移動終端、個人電腦(PC)、平板電腦、伺服器等。下面參考圖10，其示出了適於用來實現本申請實施例的終端設備或伺服器的電子設備1000的結構示意圖：如圖10所示，電子設備1000包括一個或多個處理器、通信部等，所述一個或多個處理器例如：一個或多個中央處理單元(CPU)1001，和/或一個或多個專用處理器，專用處理器可作為加速單元1013，可包括但不限於影像處理器(GPU)、FPGA、DSP以及其它的ASIC晶片之類專用處理器等，處理器可以根據儲存在唯讀記憶體(ROM)1002中的可執行指令或者從儲存部分1008載入到隨機存取記憶體(RAM)1003中的可執行指令而執行各種適當的動作和處理。通信部1012可包括但不限於網卡，所述網卡可包括但不限於IB(Infiniband)網卡。

處理器可與唯讀記憶體1002和/或隨機存取記憶體1003中通信以執行可執行指令，通過匯流排1004與通信部1012相連、並經通信部1012與其他目標設備通信，從而完成本申請實施例提供的任一項方法對應的操作，例如，對待處理視頻流的鏡頭序列中的鏡頭進行特徵提取，獲得每個鏡頭的圖像特徵，每個鏡頭包括至少一幀視頻圖像；根據所有鏡頭的圖像特徵，獲取鏡頭的全域特徵；根據鏡頭的圖像特徵和全域特徵確定鏡頭的權重；基於鏡頭的權重獲得待處理視頻流的視頻摘要。

此外，在RAM 1003中，還可儲存有裝置操作所需的各種程式和資料。CPU1001、ROM1002以及RAM1003通過匯流排1004彼此相連。在有RAM1003的情況下，ROM1002為可選模組。RAM1003儲存可執行指令，或在運行時向ROM1002中寫入可執行指令，可執行指令使中央處理單元1001執行上述通信方法對應的操作。輸入/輸出(I/O)介面1005也連接至匯流排1004。通信部1012可以集成設置，也可以設置為具有多個子模組(例如多個IB網卡)，並在匯流排連結上。

以下部件連接至I/O介面1005：包括鍵盤、滑鼠等的輸入部分1006；包括諸如陰極射線管(CRT)、液晶顯示器(LCD)等以及揚聲器等的輸出部分1007；包括硬碟等的儲存部分1008；以及包括諸如LAN卡、數據機等的網路介面卡的通信部分1009。通信部分1009經由諸如網際網路的網路執行通信處理。驅動器1010也根據需要連接至I/O介面1005。可拆卸介質1011，諸如磁片、光碟、磁光碟、半導體記憶體等等，根據需要安裝在驅動器1010上，以便於從其上讀出的電腦程式根據需要被安裝入儲存部分1008。

需要說明的，如圖10所示的架構僅為一種可選實現方式，在具體實踐過程中，可根據實際需要對上述圖10的部件數量和類型進行選擇、刪減、增加或替換；在不同功能部件設置上，也可採用分離設置或集成設置等實現方式，例如加速單元1013和CPU1001可分離設置或者可將加速單元1013集成在CPU1001上，通信部可分離設置，也可集成設置在CPU1001或加速單元1013上，等等。這些可替換的實施方式均落入本申請公開的保護範圍。

特別地，根據本申請的實施例，上文參考流程圖描述的過程可以被實現為電腦軟體程式。例如，本申請的實施例包括一種電腦程式產品，其包括有形地包含在機器可讀介質上的電腦程式，電腦程式包含用於執行流程圖所示的方法的程式碼，程式碼可包括對應執行本申請實施例提供的方法步驟對應的指令，例如，對待處理視頻流的鏡頭序列中的鏡頭進行特徵提取，獲得每個鏡頭的圖像特徵，每個鏡頭包括至少一幀視頻圖像；根據所有鏡頭的圖像特徵，獲取鏡頭的全域特徵；根據鏡頭的圖像特徵和全域特徵確定鏡頭的權重；基於鏡頭的權重獲得待處理視頻流的視頻摘要。在這樣的實施例中，該電腦程式可以通過通信部分1009從網路上被下載和安裝，和/或從可拆卸介質1011被安裝。在該電腦程式被中央處理單元(CPU)1001執行時，執行本申請的方法中限定的上述功能的操作。

可能以許多方式來實現本申請的方法和裝置。例如，可通過軟體、硬體、固件或者軟體、硬體、固件的任何組合來實現本申請的方法和裝置。用於所述方法的步驟的上述順序僅是為了進行說明，本申請的方法的步驟不限於以上具體描述的順序，除非以其它方式特別說明。此外，在一些實施例中，還可將本申請實施為記錄在記錄介質中的程式，這些程式包括用於實現根據本申請的方法的機器可讀指令。因而，本申請還覆蓋儲存用於執行根據本申請的方法的程式的記錄介質。

本申請的描述是為了示例和描述起見而給出的，而並不是無遺漏的或者將本申請限於所公開的形式。很多修改和變化對於本領域的普通技術人員而言是顯然的。選擇和描述實施例是為了更好說明本申請的原理和實際應用，並且使本領域的普通技術人員能夠理解本申請從而設計適於特定用途的帶有各種修改的各種實施例。

圖1代表圖為流程圖，無元件符號說明。

Claims

一種視頻摘要生成方法，包括：對待處理視頻流的鏡頭序列中的鏡頭進行特徵提取，獲得每個所述鏡頭的圖像特徵，每個所述鏡頭包括至少一幀視頻圖像；根據所有所述鏡頭的圖像特徵，獲取每個所述鏡頭的全域特徵，其中，全局特徵體現每個鏡頭與視頻流中其他鏡頭之間的關聯關係；根據所述鏡頭的圖像特徵和所述全域特徵確定所述鏡頭的權重；基於所述鏡頭的權重獲得所述待處理視頻流的視頻摘要。
根據請求項1所述的方法，所述根據所有所述鏡頭的圖像特徵，獲取所述鏡頭的全域特徵，包括：基於記憶神經網路對所有所述鏡頭的圖像特徵進行處理，獲取所述鏡頭的全域特徵。
根據請求項2所述的方法，所述記憶神經網路對所述所有鏡頭的圖像特徵進行處理，獲取所述鏡頭的全域特徵，包括：將所述所有鏡頭的圖像特徵分別映射到第一嵌入矩陣和第二嵌入矩陣，獲得輸入記憶和輸出記憶；根據所述鏡頭的圖像特徵、所述輸入記憶和所述輸出記憶，獲取所述鏡頭的全域特徵。
根據請求項3所述的方法，所述根據所述鏡頭的圖像特徵、所述輸入記憶和所述輸出記憶，獲取所述鏡頭的全域特徵，包括：將所述鏡頭的圖像特徵映射到第三嵌入矩陣，得到所述鏡頭的特徵向量；將所述特徵向量與所述輸入記憶進行內積運算，得到所述鏡頭的權值向量；將所述權值向量與所述輸出記憶進行加權疊加運算，得到所述全域向量，將所述全域向量作為所述全域特徵。
根據請求項1至4任一項所述的方法，所述根據所述鏡頭的圖像特徵和所述全域特徵確定所述鏡頭的權重，包括：將所述鏡頭的圖像特徵和所述鏡頭的全域特徵進行內積運算，得到權重特徵；將所述權重特徵通過全連接神經網路，得到所述鏡頭的權重。
根據請求項2至4任一所述的方法，所述基於記憶神經網路對所述鏡頭的圖像特徵進行處理，獲取所述鏡頭的全域特徵，包括：基於記憶神經網路對所述鏡頭的圖像特徵進行處理，獲取所述鏡頭的至少兩個全域特徵。
根據請求項6所述的方法，所述基於記憶神經網路對所述鏡頭的圖像特徵進行處理，獲取所述鏡頭的至少兩個全域特徵，包括：將所述鏡頭的圖像特徵分別映射到至少兩組嵌入矩陣組，獲得至少兩組記憶組，每組所述嵌入矩陣組包括兩個嵌入矩陣，每組所述記憶組包括輸入記憶和輸出記憶；根據至少兩組所述記憶組和所述鏡頭的圖像特徵，獲取所述鏡頭的至少兩個全域特徵。
根據請求項7所述的方法，所述根據至少兩組所述記憶組和所述鏡頭的圖像特徵，獲取所述鏡頭的至少兩個全域特徵，包括：將所述鏡頭的圖像特徵映射到第三嵌入矩陣，得到所述鏡頭的特徵向量；將所述特徵向量與至少兩個所述輸入記憶進行內積運算，得到所述鏡頭的至少兩個權值向量；將所述權值向量與至少兩個所述輸出記憶進行加權疊加運算，得到至少兩個全域向量，將所述至少兩個全域向量作為所述至少兩個全域特徵。
根據請求項6所述的方法，所述根據所述鏡頭的圖像特徵和所述全域特徵確定所述鏡頭的權重，包括：將所述鏡頭的圖像特徵和所述鏡頭的至少兩個全域特徵中的第一全域特徵進行內積運算，得到第一權重特徵；將所述第一權重特徵作為所述圖像特徵，所述鏡頭的至少兩個全域特徵中的第二全域特徵作為第一全域特徵，所述第二全域特徵為所述至少兩個全域特徵中除了第一全域特徵之外的全域特徵；將所述鏡頭的圖像特徵和所述鏡頭的至少兩個全域特徵中的第一全域特徵進行內積運算，得到第一權重特徵；直到所述鏡頭的至少兩個全域特徵中不包括第二全域特徵，將所述第一權重特徵作為所述鏡頭的權重特徵；將所述權重特徵通過全連接神經網路，得到所述鏡頭的權重。
根據請求項1至4任一所述的方法，所述對待處理視頻流的鏡頭序列中的鏡頭進行特徵提取，獲得所述鏡頭的圖像特徵之前，還包括：對所述待處理視頻流進行鏡頭分割獲得所述鏡頭序列。
根據請求項10所述的方法，所述對所述待處理視頻流進行鏡頭分割獲得所述鏡頭序列，包括：基於所述待處理視頻流中至少兩幀視頻圖像之間的相似度進行鏡頭分割，獲得所述鏡頭序列。
根據請求項11所述的方法，所述基於所述待處理視頻流中至少兩幀視頻圖像之間的相似度進行鏡頭分割，獲得所述鏡頭序列，包括：基於至少兩個大小不同的分割間距對所述視頻流中的視頻圖像進行分割，獲得至少兩組視頻片段組，每組所述視頻片段組包括至少兩個視頻片段，所述分割間距大於等於1幀；基於所述每組視頻片段組中至少兩個斷開幀之間的相似度，確定所述分割是否正確，所述斷開幀為所述視頻片段中的第一幀；回應於所述分割正確，確定所述視頻片段作為所述鏡頭，獲得所述鏡頭序列。
根據請求項12所述的方法，所述基於所述每組視頻片段組中至少兩個斷開幀之間的相似度，確定所述分割是否正確，包括：回應於所述至少兩個斷開幀之間的相似度小於或等於設定值，確定所述分割正確；回應於所述至少兩個斷開幀之間的相似度大於設定值，確定所述分割不正確。
根據請求項12所述的方法，所述回應於所述分割正確，確定所述視頻片段作為所述鏡頭，獲得所述鏡頭序列，包括：回應於所述斷開幀對應至少兩個所述分割間距，以大小較小的分割間距獲得的視頻片段作為所述鏡頭，獲得所述鏡頭序列。
根據請求項1至4任一所述的方法，所述對待處理視頻流的鏡頭序列中的鏡頭進行特徵提取，獲得每個所述鏡頭的圖像特徵，包括：對所述鏡頭中的至少一幀視頻圖像進行特徵提取，獲得至少一個圖像特徵；獲取所有所述圖像特徵的均值特徵，並將所述均值特徵作為所述鏡頭的圖像特徵。
根據請求項1至4任一所述的方法，所述基於所述鏡頭的權重獲得所述待處理視頻流的視頻摘要，包括：獲取所述視頻摘要的限定時長；根據所述鏡頭的權重和所述視頻摘要的限定時長，獲得所述待處理視頻流的視頻摘要。
根據請求項1至4任一所述的方法，所述方法基於特徵提取網路和記憶神經網路實現；所述對待處理視頻流的鏡頭序列中的鏡頭進行特徵提取，獲得每個所述鏡頭的圖像特徵之前，還包括：基於樣本視頻流對所述特徵提取網路和記憶神經網路進行聯合訓練，所述樣本視頻流包括至少兩個樣本鏡頭，每個所述樣本鏡頭包括標注權重。
一種電子設備，包括：記憶體，用於儲存可執行指令；以及處理器，用於與所述記憶體通信以執行所述可執行指令從而完成請求項1至17任意一項所述視頻摘要生成方法的操作。
一種電腦儲存介質，用於儲存電腦可讀取的指令，所述指令被執行時執行請求項1至17任意一項所述視頻摘要生成方法的操作。