TW202207154A

TW202207154A - 視頻匹配方法、基於區塊鏈的侵權存證方法和裝置

Info

Publication number: TW202207154A
Application number: TW110115336A
Authority: TW
Inventors: 蔣晨; 張偉; 王清; 程遠; 徐富榮; 黃凱明; 張曉博; 錢烽; 楊旭東; 潘覃
Original assignee: 大陸商支付寶（杭州）信息技術有限公司
Priority date: 2020-08-14
Filing date: 2021-04-28
Publication date: 2022-02-16
Also published as: WO2022033252A1; CN111737522B; CN111737522A; US11954152B2; US20230177084A1

Abstract

本說明書揭示了一種視頻匹配方法、基於區塊鏈的侵權存證方法和裝置，該基於區塊鏈的侵權存證方法包括：獲取目標視頻的多個特徵向量；基於所述目標視頻的多個特徵向量，從視頻資料庫中檢索與所述目標視頻相似的候選視頻；基於所述目標視頻和所述候選視頻，建構所述目標視頻與所述候選視頻之間的時域相似度矩陣特徵圖；將所述時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出所述候選視頻中與所述目標視頻相匹配的視頻片段和對應的相似度；當相似度大於或等於預設相似度閾值時，將包含有所述目標視頻的摘要、所述候選視頻中與所述目標視頻相匹配的視頻片段和對應的相似度的侵權證據上傳至區塊鏈中。

Description

視頻匹配方法、基於區塊鏈的侵權存證方法和裝置

本發明係有關電腦技術領域，尤其有關一種視頻匹配方法、基於區塊鏈的侵權存證方法和裝置。

目前，在對某個可疑的侵權視頻進行侵權定位時，通常是首先從該視頻中提取多種特徵，再經過搜尋引擎檢索後，得到與該視頻相匹配的多個候選視頻的匹配結果。而對該可疑的侵權視頻進行最終的侵權定位，還需要分別計算多個候選視頻與該可疑的侵權視頻的相似度。這需要一種高健全性的演算法來應對視頻與視頻之間的多種特徵的誤匹配和漏匹配，以及支援多個視頻片段的侵權定位。然而，現有的視頻匹配方法容易受到特徵檢索結果的雜訊影響，且隨著視頻時長的增加，視頻與視頻之間匹配的效率也急劇降低。此外，針對侵權視頻以及其侵權證據的存證，對於業界來說，也是亟需解決的問題。

本說明書實施例提供了一種視頻匹配方法、基於區塊鏈的侵權存證方法和裝置，以應對視頻與視頻之間的多種特徵的誤匹配和漏匹配，以及支援多個視頻片段的侵權定位，提高視頻匹配的效率，從而降低人工審核的成本。為解決上述技術問題，本說明書實施例是這樣實現的：第一態樣，提出了一種視頻匹配方法，包括：基於目標視頻的多個特徵向量，從視頻資料庫中檢索與所述目標視頻相似的候選視頻；基於所述目標視頻和所述候選視頻，建構所述目標視頻與所述候選視頻之間的時域相似度矩陣特徵圖；將所述時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出所述候選視頻中與所述目標視頻相匹配的視頻片段和對應的相似度；當所述候選視頻中與所述目標視頻相匹配的視頻片段對應的相似度大於或等於預設相似度閾值時，將包含有所述目標視頻的摘要、所述候選視頻中與所述目標視頻相匹配的視頻片段和對應的相似度的侵權證據上傳至區塊鏈中。其中，所述深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，其中，樣本視頻包含查詢視頻和所述查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。第二態樣，一種基於區塊鏈的侵權視頻存證方法，包括：獲取目標視頻的多個特徵向量；基於所述目標視頻的多個特徵向量，從視頻資料庫中檢索與所述目標視頻相似的候選視頻；基於所述目標視頻和所述候選視頻，建構所述目標視頻與所述候選視頻之間的時域相似度矩陣特徵圖；將所述時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出所述候選視頻中與所述目標視頻相匹配的視頻片段和對應的相似度；其中，所述深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，其中，樣本視頻包含查詢視頻和所述查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。第三態樣，提出了一種基於區塊鏈的侵權存證裝置，包括：候選視頻檢索模組，基於目標視頻的多個特徵向量，從視頻資料庫中檢索與所述目標視頻相似的候選視頻；特徵圖建構模組，基於所述目標視頻和所述候選視頻，建構所述目標視頻與所述候選視頻之間的時域相似度矩陣特徵圖；模型輸出模組，將所述時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出所述候選視頻中與所述目標視頻相匹配的視頻片段和對應的相似度；證據上傳模組，當所述候選視頻中與所述目標視頻相匹配的視頻片段對應的相似度大於或等於預設相似度閾值時，將包含有所述目標視頻的摘要、所述候選視頻中與所述目標視頻相匹配的視頻片段和對應的相似度的侵權證據上傳至區塊鏈中。其中，所述深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，其中，樣本視頻包含查詢視頻和所述查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。第四態樣，提出了一種視頻匹配裝置，包括：特徵向量獲取模組，獲取目標視頻的多個特徵向量；候選視頻檢索模組，基於所述目標視頻的多個特徵向量，從視頻資料庫中檢索與所述目標視頻相似的候選視頻；特徵圖建構模組，基於所述目標視頻和所述候選視頻，建構所述目標視頻與所述候選視頻之間的時域相似度矩陣特徵圖；模型輸出模組，將所述時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出所述候選視頻中與所述目標視頻相匹配的視頻片段和對應的相似度；其中，所述深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，其中，樣本視頻包含查詢視頻和所述查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。第五態樣，提出了一種電子設備，包括：處理器；以及被配置成儲存電腦可執行指令的記憶體，所述可執行指令在被執行時使所述處理器執行以下操作：基於目標視頻的多個特徵向量，從視頻資料庫中檢索與所述目標視頻相似的候選視頻；基於所述目標視頻和所述候選視頻，建構所述目標視頻與所述候選視頻之間的時域相似度矩陣特徵圖；將所述時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出所述候選視頻中與所述目標視頻相匹配的視頻片段和對應的相似度；當所述候選視頻中與所述目標視頻相匹配的視頻片段對應的相似度大於或等於預設相似度閾值時，將包含有所述目標視頻的摘要、所述候選視頻中與所述目標視頻相匹配的視頻片段和對應的相似度的侵權證據上傳至區塊鏈中。其中，所述深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，其中，樣本視頻包含查詢視頻和所述查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。第六態樣，提出了一種電腦可讀儲存媒體，所述電腦可讀儲存媒體儲存一個或多個程式，所述一個或多個程式當被包括多個應用程式的電子設備執行時，使得所述電子設備執行以下操作：基於目標視頻的多個特徵向量，從視頻資料庫中檢索與所述目標視頻相似的候選視頻；基於所述目標視頻和所述候選視頻，建構所述目標視頻與所述候選視頻之間的時域相似度矩陣特徵圖；將所述時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出所述候選視頻中與所述目標視頻相匹配的視頻片段和對應的相似度；當所述候選視頻中與所述目標視頻相匹配的視頻片段對應的相似度大於或等於預設相似度閾值時，將包含有所述目標視頻的摘要、所述候選視頻中與所述目標視頻相匹配的視頻片段和對應的相似度的侵權證據上傳至區塊鏈中。其中，所述深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，其中，樣本視頻包含查詢視頻和所述查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。第七態樣，提出了一種電子設備，包括：處理器；以及被配置成儲存電腦可執行指令的記憶體，所述可執行指令在被執行時使所述處理器執行以下操作：獲取目標視頻的多個特徵向量；基於所述目標視頻的多個特徵向量，從視頻資料庫中檢索與所述目標視頻相似的候選視頻；基於所述目標視頻和所述候選視頻，建構所述目標視頻與所述候選視頻之間的時域相似度矩陣特徵圖；將所述時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出所述候選視頻中與所述目標視頻相匹配的視頻片段和對應的相似度；其中，所述深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，其中，樣本視頻包含查詢視頻和所述查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。第八態樣，提出了一種電腦可讀儲存媒體，所述電腦可讀儲存媒體儲存一個或多個程式，所述一個或多個程式當被包括多個應用程式的電子設備執行時，使得所述電子設備執行以下操作：獲取目標視頻的多個特徵向量；基於所述目標視頻的多個特徵向量，從視頻資料庫中檢索與所述目標視頻相似的候選視頻；基於所述目標視頻和所述候選視頻，建構所述目標視頻與所述候選視頻之間的時域相似度矩陣特徵圖；將所述時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出所述候選視頻中與所述目標視頻相匹配的視頻片段和對應的相似度；其中，所述深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，其中，樣本視頻包含查詢視頻和所述查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。本說明書實施例採用上述技術方案至少可以達到下述技術效果：在對目標視頻進行侵權定位時，能夠基於該目標視頻的多個特徵向量，從視頻資料庫中檢索與目標視頻相似的候選視頻，再基於目標視頻和候選視頻，建構目標視頻與候選視頻之間的時域相似度矩陣特徵圖，最後，將時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，輸出得到候選視頻中與目標視頻相匹配的視頻片段和對應的相似度；並在候選視頻中與目標視頻相匹配的視頻片段對應的相似度大於或等於預設相似度閾值時，將包含有目標視頻的摘要、候選視頻中與目標視頻相匹配的視頻片段和對應的相似度的侵權證據上傳至區塊鏈中。本說明書實施例提供的方法利用深度學習檢測模型，一方面在侵權定位的效率上，能夠檢測可能的侵權視頻的任意多個侵權片段，同時利用向量檢索結合檢測模型能夠極大地提高侵權視頻的檢測效率；另一方面，也降低了人工審核的成本。此外，還利用區塊鏈不可篡改的特性，將存在侵權的目標視頻的摘要、候選視頻中與目標視頻相匹配的視頻片段和對應的相似度上傳至區塊鏈中，以備侵權指證時從區塊鏈中獲取目標視頻侵權的證據。

為使本發明的目的、技術方案和優點更加清楚，下面將結合本說明書具體實施例及相應的圖式對本說明書技術方案進行清楚、完整地描述。顯然，所描述的實施例僅是本發明的一部分實施例，而不是全部的實施例。基於本說明書中的實施例，本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例，都屬於本發明保護的範圍。以下結合圖式，詳細說明本說明書各實施例提供的技術方案。針對侵權視頻以及其侵權證據的存證，對於業界來說，也是亟需解決的問題。本說明書實施例透過引入區塊鏈，利用區塊鏈的不可篡改的特性，將目標視頻的相關資訊、候選視頻相關資訊及目標視頻是否侵權的資訊寫入到區塊鏈中，從而保證區塊鏈中的侵權資訊的可信性，以用於對目標視頻是否侵權進行快速取證。具體地，圖1是本說明書一個實施例提供的一種基於區塊鏈的侵權視頻存證方法的實現流程示意圖，包括： S110，基於目標視頻的多個特徵向量，從視頻資料庫中檢索與目標視頻相似的候選視頻。 S120，基於目標視頻和所述候選視頻，建構目標視頻與候選視頻之間的時域相似度矩陣特徵圖。 S130，將時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出候選視頻中與目標視頻相匹配的視頻片段和對應的相似度。其中，深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，其中，樣本視頻包含查詢視頻和所述查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。 S140，當候選視頻中與目標視頻相匹配的視頻片段對應的相似度大於或等於預設相似度閾值時，將包含有目標視頻的摘要、候選視頻中與目標視頻相匹配的視頻片段和對應的相似度的侵權證據上傳至區塊鏈中。其中，預設相似度閾值可根據經驗值得到，用於界定目標視頻是否存在侵權，比如可以設定為60%。應理解，由於區塊鏈中的儲存空間有限，本說明書實施例對目標視頻的侵權證據進行存證時，可將目標視頻透過雜湊加密演算法轉化為一串雜湊值，將該目標視頻的雜湊值、以及候選視頻中與目標視頻相匹配的視頻片段和對應的相似度上傳至區塊鏈中，由區塊鏈中具備存證權限的節點對該侵權證據進行共識操作，並在共識之後記錄到新產生的區塊中。當需要獲取該侵權證據時，可基於目標視頻的雜湊值從區塊鏈中下載包含有目標視頻的雜湊值的侵權證據。圖1所示實施例相關步驟的具體實現可參考下文所述的圖2所示實施例中對應的步驟的具體實現，本說明書一個或多個實施例在此不再贅述。在對目標視頻進行侵權定位時，能夠基於該目標視頻的多個特徵向量，從視頻資料庫中檢索與目標視頻相似的候選視頻，再基於目標視頻和候選視頻，建構目標視頻與候選視頻之間的時域相似度矩陣特徵圖，最後，將時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，輸出得到候選視頻中與目標視頻相匹配的視頻片段和對應的相似度；並在候選視頻中與目標視頻相匹配的視頻片段對應的相似度大於或等於預設相似度閾值時，將包含有目標視頻的摘要、候選視頻中與目標視頻相匹配的視頻片段和對應的相似度的侵權證據上傳至區塊鏈中，其中，深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，其中，樣本視頻包含查詢視頻和查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。本說明書實施例提供的方法利用區塊鏈不可篡改的特性，將存在侵權的目標視頻的摘要、候選視頻中與目標視頻相匹配的視頻片段和對應的相似度上傳至區塊鏈中，以備侵權指證時從區塊鏈中獲取目標視頻侵權的證據。如先前技術中所述，在對侵權視頻進行侵權定位時，需要從侵權視頻中提取的多種特徵向量，經過指定搜尋引擎檢索後，得到的向量檢索結果中會包含N個候選視頻的匹配結果。這些結果，需要分別與侵權視頻計算相似度並進行侵權定位。這裡就需要高健全性的演算法來應對特徵向量的誤匹配和漏匹配，同時檢索結果中如果包含的搜尋引擎粗排序的視頻集合大，則要求高效率。此外，該視頻匹配演算法還要支援多個視頻片段的侵權定位，來降低人工審核的成本。然而業界常用的動態規劃演算法，CCF競賽等方案都容易受到特徵向量檢索結果的雜訊影響，不夠健全，而且隨著侵權視頻時長的增加，視頻匹配的效率也急劇降低。本說明書實施例為了解決現有的侵權視頻的檢測效率和準確率較低的問題，還提出一種視頻匹配方法，能夠獲取目標視頻的多個特徵向量，並基於該目標視頻的多個特徵向量，從視頻資料庫中檢索與目標視頻相似的候選視頻，再基於目標視頻和候選視頻，建構目標視頻與候選視頻之間的時域相似度矩陣特徵圖，最後，將時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，輸出得到候選視頻中與目標視頻相匹配的視頻片段和對應的相似度；其中，深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，樣本視頻包含查詢視頻和查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。本說明書實施例提供的方法利用深度學習檢測模型，一方面在侵權定位的效率上，能夠檢測可能的侵權視頻的任意多個侵權片段，同時利用向量檢索結合檢測模型能夠極大地提高侵權視頻的檢測效率；另一方面，也降低了人工審核的成本。本說明書實施例提供的視頻方法，該方法的執行主體，可以但不限於個人電腦、伺服器等能夠被配置為執行本發明實施例提供的該方法的裝置中的至少一種。為便於描述，下文以該方法的執行主體為能夠執行該方法的伺服器為例，對該方法的實施例進行介紹。可以理解，該方法的執行主體為伺服器只是一種示例性的說明，並不應理解為對該方法的限定。具體地，本說明書一個或多個實施例提供的一種視頻匹配方法的實現流程示意圖如圖2所示，包括： S210，獲取目標視頻的多個特徵向量。其中，目標視頻具體可以是可疑的侵權視頻，後續所述的候選視頻即可以作為該可疑的侵權視頻侵權的證據。可選地，獲取目標視頻的多個特徵向量具體可以將目標視頻拆分為多個視頻片段，再針對每個視頻片段抽取一種或多種特徵向量。或者，還可以對目標視頻進行抽框得到多個視頻框，可抽取目標視頻中的關鍵框也可隨機抽取目標視頻中的多個視頻框，還可以每隔預設時間段抽取目標視頻中的一個視頻框得到多個視頻框，再對抽取的視頻框抽取一種或多種特徵向量。其中，一種特徵向量對應於一種特徵提取演算法。因此，目標視頻的多個特徵向量具體可以包括目標視頻的多個視頻片段或視頻框對應的多個特徵向量，一個視頻片段或視頻框對應一個特徵向量；或者，目標視頻的多個特徵向量還可以包括：透過多種特徵提取演算法提取得到的目標視頻的多種特徵向量；或者，目標視頻的多個特徵向量還可以包括：透過多種特徵提取演算法分別對目標視頻的多個視頻片段或視頻框提取得到的多個特徵向量，一個視頻片段或視頻框對應多種特徵向量。 S220，基於目標視頻的多個特徵向量，從視頻資料庫中檢索與目標視頻相似的候選視頻。其中，視頻資料庫中包含了大量的視頻，每個視頻對應一種或多種特徵向量，一種特徵向量對應於一種特徵提取演算法。可選地，可分別基於目標視頻的多個特徵向量中的各特徵向量，從視頻資料庫中檢索與目標視頻的各特徵向量相匹配的特徵向量，再確定這些相匹配的特徵向量對應的視頻即為候選視頻。具體地，基於目標視頻的多個特徵向量，從視頻資料庫中檢索與目標視頻相似的候選視頻，包括：從視頻資料庫中，獲取與目標視頻的多個特徵向量相似的特徵向量檢索結果；基於與目標視頻的多個特徵向量相似的特徵向量檢索結果，從視頻資料庫中獲取與目標視頻相似的候選視頻。其中，與目標視頻的多個特徵向量相似的特徵向量檢索結果具體可包括：與各特徵向量相匹配的前幾個特徵向量，或者與各特徵向量最匹配的一個特徵向量。比如，可以從視頻資料庫中，分別獲取與目標視頻的多個特徵向量中的各視頻向量相匹配的前k個特徵向量，再確定這前k個特徵向量對應的m個候選視頻，其中，m小於或等於k，且m大於或等於1，當m=k時，則表明這k個特徵向量來自k個不同的候選視頻，當m=1時，則表明這k個特徵向量來自同一個候選視頻，或者也可以從視頻資料庫中，分別獲取與目標視頻的多個特徵向量中的各視頻向量最匹配的一個特徵向量，再確定該最匹配的一個特徵向量對應的候選視頻。也就是說，一個特徵向量的檢索結果，可能對應於一個候選視頻的多個匹配特徵向量，也可能是多個候選視頻的不同匹配特徵向量。如圖3所示，為本說明書實施例提供的視頻匹配方法應用於一種實際場景中的示意圖。在圖3中，q1~qn為目標視頻的多個特徵向量，V₃ 和V₁ 為從視頻資料庫中檢索到的與目標視頻相似的兩個候選視頻的向量檢索結果。圖左側中，V₃ _， _q1 為候選視頻V₃ 中與目標視頻的特徵向量q1匹配位置的相似度值，V₃ _， _q2 為候選視頻V₃ 中與目標視頻的特徵向量q2匹配位置的相似度值，V₃ _， _qn 為候選視頻V₃ 中與目標視頻的特徵向量qn匹配位置的相似度值；圖右側中，V₁ _， _q1 為候選視頻V₁ 中與目標視頻的特徵向量q1匹配位置的相似度值，V₁ _， _qn 為候選視頻V₁ 中與目標視頻的特徵向量qn匹配位置的相似度值。 S230，基於目標視頻和候選視頻，建構目標視頻與所述候選視頻之間的時域相似度矩陣特徵圖。應理解，由於上述目標視頻的多個特徵向量、與候選視頻中的多個特徵向量之間的向量檢索結果中會包含有圖3所示的目標視頻的特徵向量與候選視頻的特徵向量之間相匹配的位置(也就是相似的位置)和對應位置的相似度，為了便於深度學習檢測模型能夠準確地學習到目標視頻與候選視頻之間相匹配的視頻片段和對應的相似度，本說明書實施例可基於目標視頻與候選視頻之間的向量檢索結果建構時域相似度矩陣特徵圖。具體地，基於目標視頻和候選視頻，建構目標視頻與候選視頻之間的時域相似度矩陣特徵圖，包括：基於目標視頻的多個特徵向量、與候選視頻中的多個特徵向量之間的向量檢索結果，建構目標視頻的多個特徵向量與候選視頻的多個特徵向量之間的相似度矩陣；基於目標視頻的多個特徵向量與候選視頻中的多個特徵向量之間的相似度矩陣，在時域維度上，建構目標視頻與候選視頻之間的時域相似度矩陣特徵圖。當候選視頻的數量為一個時，可基於目標視頻的與候選視頻中的多個特徵向量之間的相似度矩陣，在同一個時域維度上，將目標視頻的多個特徵向量與候選視頻中的多個特徵向量之間的相似度矩陣的分布繪製在二維特徵圖中。如圖4所示，為本說明書實施例提供的視頻匹配方法中繪製得到的目標視頻與候選視頻之間的時域相似度矩陣特徵圖。在圖4中，橫坐標為目標視頻的時域軸，縱坐標為候選視頻的時域值，三角形狀的圖樣對應於目標視頻和候選視頻的一種特徵向量，方塊形狀的對應於目標視頻和候選視頻的另一種特徵向量，各圖樣的取值為向量檢索結果中的相似度分數。在實際應用中，為提高視頻匹配的效率，可將這不同的特徵向量繪製在同一個時域相似度矩陣特徵圖中。或者，還可將不同的特徵向量繪製在不同的時域相似度矩陣特徵圖中，即如圖3所示的下半部分的左側，可將每一種特徵向量繪製得到的時域相似度矩陣特徵圖作為深度學習檢測模型的一個通道輸入，那麼目標向量的多個特徵向量存在多種特徵向量時，則會存在多個時域相似度矩陣特徵圖作為深度學習檢測模型的多個通道的輸入。可選地，為便於深度學習檢測模型準確高效地確定目標視頻與候選視頻之間的相似視頻片段和對應的相似度，本說明書實施例可根據目標視頻與候選視頻之間的時域對應關係，建構目標視頻與候選視頻之間的時域相似度矩陣特徵圖。具體地，基於目標視頻的多個特徵向量與候選視頻中的多個特徵向量之間的相似度矩陣，在時域維度上，建構目標視頻與候選視頻之間的時域相似度矩陣特徵圖，包括：根據目標視頻與候選視頻之間的時域對應關係，將目標視頻的多個特徵向量與候選視頻中的多個特徵向量之間的相似度矩陣，繪製在二維特徵圖上，得到目標視頻與候選視頻之間的時域相似度矩陣特徵圖。可選地，當候選視頻有多個時，根據目標視頻與候選視頻之間的時域對應關係，將目標視頻的多個特徵向量與候選視頻中的各候選視頻的多個特徵向量之間的相似度矩陣，繪製在二維特徵圖上，得到目標視頻與候選視頻之間的時域相似度矩陣特徵圖，包括：根據目標視頻與多個候選視頻之間的時域對應關係，分別將目標視頻的多個特徵向量與多個候選視頻中的各候選視頻的多個特徵向量之間的相似度矩陣，繪製在多個二維特徵圖上，得到目標視頻與多個候選視頻之間的多個時域相似度矩陣特徵圖；將目標視頻與多個候選視頻之間的多個時域相似度矩陣特徵圖進行拼接，得到目標視頻與多個候選視頻之間的時域相似度矩陣特徵圖。當候選視頻有多個時，則可分別將目標視頻的多個特徵向量與多個候選視頻中的各候選視頻的多個特徵向量之間的相似度矩陣，繪製在多個二維特徵圖上，得到目標視頻與多個候選視頻之間的多個時域相似度矩陣特徵圖。為了提高深度學習檢測模型的學習效率，可將這多個時域相似度矩陣特徵圖進行拼接，得到一個時域相似度矩陣特徵圖。比如，當候選視頻有四個時，則會得到目標視頻與四個候選視頻之間的四個時域相似度矩陣特徵圖，再將這四個時域相似度矩陣特徵圖拼接為2×2的時域相似度矩陣特徵圖作為深度學習檢測模型的輸入。 S240，將時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出候選視頻中與目標視頻相匹配的視頻片段和對應的相似度。其中，深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，其中，樣本視頻包含查詢視頻和查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌，侵權標誌用於標識該相匹配的視頻片段是否存在侵權。應理解，查詢視頻對應的候選視頻可以是一個也可以是多個。當查詢視頻對應的候選視頻為多個時，樣本視頻包含查詢視頻和查詢視頻對應的多個候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的各個候選視頻中所匹配的視頻片段及侵權標誌。具體地，樣本視頻對應的標籤包括視頻片段和對應的label(標籤)，label為侵權或非侵權。應理解，在對深度學習檢測模型進行訓練時，用於訓練深度學習檢測模型的樣本視頻對應的標籤通常為離散化的標籤，即“是”或“否”，對應於本說明書實施例中的標籤即為“侵權”或“非侵權”，而在深度學習檢測模型進行預測時，輸出的則是檢測框位置[x1,y1,x2,y2]，其中，[x1, x2]對應於目標視頻中的匹配時間片段，[y1, y2]對應於候選視頻中的匹配時間片段，以及[x1,y1,x2,y2]對應的置信度，用於表徵匹配時間片段的相似度。其中，每組樣本視頻的時域相似度矩陣特徵圖為該組查詢視頻與其對應的候選視頻之間的時域相似度矩陣特徵圖，該時域相似度矩陣特徵圖的獲取方式與上文所述的時域相似度矩陣特徵圖的獲取方式一致，本文不再贅述。可選地，本說明書實施例中的深度學習檢測模型包括但不限於下述模型：更快速的基於卷積神經網路的候選區域檢測模型Faster-Rcnn；帶遮罩的基於卷積神經網路的候選區域檢測模型Mask-Rcnn；即時物體檢測模型YOLO；單次多框檢測模型SSD。其中，深度學習檢測模型Faster-Rcnn的訓練過程為：輸入測試圖像；將整張圖片輸入卷積神經網路，進行特徵提取；用RPN產生一堆錨框，對其進行裁剪過濾後透過softmax判斷anchors屬於前景(foreground)或者後景(background)，即是物體或者不是物體，即是一個二分類過程；同時，另一分支邊框回歸修正錨框，形成較精確的proposal(注：這裡的較精確是相對於後面全連接層的再一次邊框回歸而言)；把建議視窗映射卷積神經網路的最後一層卷積特徵圖上；透過RoI pooling層使每個RoI產生固定尺寸的特徵圖；利用Softmax Loss(探測分類機率) 和Smooth L1 Loss(探測邊框回歸)對分類機率和邊框回歸聯合訓練。深度學習檢測模型Mask-Rcnn以Faster RCNN原型，增加了一個分支用於分割任務，即對於Faster RCNN的每個Proposal Box都要使用FCN(全卷積神經網路，將傳統卷積神經網路中的全連接層轉化成一個個的卷積層)進行語義分割，分割任務與定位、分類任務是同時進行的。深度學習檢測模型YOLO(英文全稱：You Only Look Once)，是一種對象檢測模型，YOLO有基於CNN和錨框的簡潔架構，並且是一種針對普遍使用問題的即時對象檢測技術。YOLO將圖像分成13×13個儲存格：每個儲存格負責預測5個邊界框。邊界框描述包圍對象的矩形。YOLO還輸出一個置信度(即本說明書實施例中的相似度)，用於指示預測的邊界框實際包含某個對象的程度。先前的檢測系統使用分類器或定位器來進行檢測，將模型應用於圖像的多個位置和尺度，圖像的高得分區域作為檢測目標。YOLO則採取了完全不同的方法。它將單個神經網路應用於整個圖像，該網路將圖像分成區域，預測每個區域的邊界框和機率，並依據機率大小對所有邊框分配權重。與Faster-Rcnn相比，SSD沒有產生proposal的過程，這就極大提高了檢測速度。針對不同大小的目標檢測，傳統的做法是先將圖像轉換成不同大小(圖像金字塔)，然後分別檢測，最後將結果綜合起來(NMS)。而SSD演算法則利用不同卷積層的特徵圖進行綜合也能達到同樣的效果。演算法的主網路結構是VGG16，將最後兩個全連接層改成卷積層，並隨後增加了4個卷積層來構造網路結構。對其中5種不同的卷積層的輸出(特徵圖)分別用兩個不同的3×3的卷積核進行卷積，一個輸出分類用的confidence，每個default box 產生21個類別confidence；一個輸出回歸用的localization，每個default box產生4個座標值(x, y, w, h)。可選地，將時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出候選視頻中與目標視頻相匹配的視頻片段和對應的相似度，包括：將時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出候選視頻中與目標視頻相匹配的視頻片段在時域維度上的區間範圍、以及相匹配的視頻片段之間的相似度。具體地，深度學習檢測模型輸出各個時域相似度矩陣特徵圖上的檢測框位置以及置信度，達到對目標視頻的侵權定位的目的。其中，候選視頻中與目標視頻相匹配的視頻片段在時域維度上的區間範圍，具體可以是檢測框位置：[x1,y1,x2,y2]，其中，[x1, x2]為目標視頻中的時間片段，[y1,y2]為候選視頻中的時間片段，相匹配的視頻片段之間的相似度具體可以用置信度來表徵。如圖3下半部分的右側所示，將時域相似度矩陣特徵圖作為深度學習檢測模型的輸入後，便可輸出候選視頻中與目標視頻相匹配的檢測框、以及相匹配的檢測框之間的相似度。在對目標視頻進行侵權定位時，能夠獲取目標視頻的多個特徵向量，並基於該目標視頻的多個特徵向量，從視頻資料庫中檢索與目標視頻相似的候選視頻，再基於目標視頻和候選視頻，建構目標視頻與候選視頻之間的時域相似度矩陣特徵圖，最後，將時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，輸出得到候選視頻中與目標視頻相匹配的視頻片段和對應的相似度；其中，深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，樣本視頻包含查詢視頻和查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。本說明書實施例提供的方法利用深度學習檢測模型，一方面在侵權定位的效率上，能夠檢測可能的侵權視頻的任意多個侵權片段，同時利用向量檢索結合檢測模型能夠極大地提高侵權視頻的檢測效率；另一方面，也降低了人工審核的成本。圖5是本說明書一個或多個實施例提供的一種基於區塊鏈的侵權存證裝置500的結構示意圖，包括：候選視頻檢索模組510，基於目標視頻的多個特徵向量，從視頻資料庫中檢索與所述目標視頻相似的候選視頻；特徵圖建構模組520，基於所述目標視頻和所述候選視頻，建構所述目標視頻與所述候選視頻之間的時域相似度矩陣特徵圖；模型輸出模組530，將所述時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出所述候選視頻中與所述目標視頻相匹配的視頻片段和對應的相似度；證據上傳模組540，當所述候選視頻中與所述目標視頻相匹配的視頻片段對應的相似度大於或等於預設相似度閾值時，將包含有所述目標視頻的摘要、所述候選視頻中與所述目標視頻相匹配的視頻片段和對應的相似度的侵權證據上傳至區塊鏈中。其中，所述深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，其中，樣本視頻包含查詢視頻和所述查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。視頻匹配裝置500能夠實現圖1和圖2的方法實施例的方法，具體可參考圖1和圖2所示實施例的基於區塊鏈的侵權存證方法和視頻匹配方法，不再贅述。圖6是本說明書一個或多個實施例提供的一種視頻匹配裝置600的結構示意圖，包括：特徵向量獲取模組610，獲取目標視頻的多個特徵向量；候選視頻檢索模組620，基於所述目標視頻的多個特徵向量，從視頻資料庫中檢索與所述目標視頻相似的候選視頻；特徵圖建構模組630，基於所述目標視頻和所述候選視頻，建構所述目標視頻與所述候選視頻之間的時域相似度矩陣特徵圖；模型輸出模組640，將所述時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出所述候選視頻中與所述目標視頻相匹配的視頻片段和對應的相似度；其中，所述深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，其中，樣本視頻包含查詢視頻和所述查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。可選地，在一種實施例，所述候選視頻檢索模組620，用於：從所述視頻資料庫中，獲取與所述目標視頻的多個特徵向量相似的特徵向量檢索結果；基於與所述目標視頻的多個特徵向量相似的特徵向量檢索結果，從視頻資料庫中獲取與所述目標視頻相似的候選視頻。可選地，在一種實施例，所述特徵圖建構模組630，用於：基於所述目標視頻的多個特徵向量、與所述候選視頻中的各候選視頻的多個特徵向量之間的向量檢索結果，建構所述目標視頻的多個特徵向量與所述候選視頻的多個特徵向量之間的相似度矩陣；基於所述目標視頻的多個特徵向量與所述候選視頻中的多個特徵向量之間的相似度矩陣，在時域維度上，建構所述目標視頻與所述候選視頻之間的時域相似度矩陣特徵圖。可選地，在一種實施例，所述特徵圖建構模組630，用於：根據所述目標視頻與所述候選視頻之間的時域對應關係，將所述目標視頻的多個特徵向量與所述候選視頻的多個特徵向量之間的相似度矩陣，繪製在二維特徵圖上，得到所述目標視頻和所述候選視頻之間的時域相似度矩陣特徵圖。可選地，在一種實施例，當所述候選視頻有多個時，所述特徵圖建構模組630，用於：根據所述目標視頻與所述多個候選視頻之間的時域對應關係，分別將所述目標視頻的多個特徵向量與所述多個候選視頻中的各候選視頻的多個特徵向量之間的相似度矩陣，繪製在多個二維特徵圖上，得到所述目標視頻與所述多個候選視頻之間的多個時域相似度矩陣特徵圖；將所述目標視頻與所述多個候選視頻之間的多個時域相似度矩陣特徵圖進行拼接，得到所述目標視頻與所述多個候選視頻之間的時域相似度矩陣特徵圖。可選地，在一種實施例，所述模型輸出模組640，用於：將所述時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出所述候選視頻中與所述目標視頻相匹配的視頻片段在時域維度上的區間範圍、以及所述相匹配的視頻片段之間的相似度。可選地，在一種實施例，所述深度學習檢測模型包括下述至少一種：更快速的基於卷積神經網路的候選區域檢測模型Faster-Rcnn；帶遮罩的基於卷積神經網路的候選區域檢測模型Mask-Rcnn；即時物體檢測模型YOLO；單次多框檢測模型SSD。視頻匹配裝置600能夠實現圖2~圖4的方法實施例的方法，具體可參考圖2~圖4所示實施例的視頻匹配方法，不再贅述。圖7是本說明書的一個實施例提供的電子設備的結構示意圖。請參考圖7，在硬體層面，該電子設備包括處理器，可選地還包括內部匯流排、網路介面、記憶體。其中，記憶體可能包含內部記憶體，例如高速隨機存取記憶體(Random-Access Memory，RAM)，也可能還包括非易失性記憶體(non-volatile memory)，例如至少1個磁碟記憶體等。當然，該電子設備還可能包括其他業務所需要的硬體。處理器、網路介面和記憶體可以透過內部匯流排相互連接，該內部匯流排可以是ISA(Industry Standard Architecture，工業標準架構)匯流排、PCI(Peripheral Component Interconnect，周邊組件互連標準)匯流排或EISA(Extended Industry Standard Architecture，擴充工業標準架構)匯流排等。所述匯流排可以分為位址匯流排、資料匯流排、控制匯流排等。為便於表示，圖7中僅用一個雙向箭頭來表示，但並不表示僅有一根匯流排或一種類型的匯流排。記憶體，用於儲存程式。具體地，程式可以包括程式碼，所述程式碼包括電腦操作指令。記憶體可以包括記憶體和非易失性記憶體，並向處理器提供指令和資料。處理器從非易失性記憶體中讀取對應的電腦程式到內部記憶體中然後運行，在邏輯層面上形成基於區塊鏈的侵權存證裝置。處理器，執行記憶體所儲存的程式，並具體用於執行以下操作：基於目標視頻的多個特徵向量，從視頻資料庫中檢索與所述目標視頻相似的候選視頻；基於所述目標視頻和所述候選視頻，建構所述目標視頻與所述候選視頻之間的時域相似度矩陣特徵圖；將所述時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出所述候選視頻中與所述目標視頻相匹配的視頻片段和對應的相似度；當所述候選視頻中與所述目標視頻相匹配的視頻片段對應的相似度大於或等於預設相似度閾值時，將包含有所述目標視頻的摘要、所述候選視頻中與所述目標視頻相匹配的視頻片段和對應的相似度的侵權證據上傳至區塊鏈中。其中，所述深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，其中，樣本視頻包含查詢視頻和所述查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。上述如本說明書圖1所示實施例揭示的基於區塊鏈的侵權存證方法可以應用於處理器中，或者由處理器來實現。處理器可能是一種積體電路晶片，具有信號的處理能力。在實現過程中，上述方法的各步驟可以透過處理器中的硬體的積體邏輯電路或者軟體形式的指令來完成。上述的處理器可以是通用處理器，包括中央處理器(Central Processing Unit，CPU)、網路處理器(Network Processor，NP)等；還可以是數位訊號處理器(Digital Signal Processor，DSP)、特殊應用積體電路(Application Specific Integrated Circuit，ASIC)、現場可編程閘陣列(Field－Programmable Gate Array，FPGA)或者其他可編程邏輯裝置、分離的閘或者電晶體邏輯裝置、分離的硬體組件。可以實現或者執行本說明書一個或多個實施例中的揭示的各方法、步驟及邏輯方塊圖。通用處理器可以是微處理器或者該處理器也可以是任何習知的處理器等。結合本說明書一個或多個實施例所揭示的方法的步驟可以直接體現為硬體解碼處理器執行完成，或者用解碼處理器中的硬體及軟體模組組合執行完成。軟體模組可以位於隨機記憶體，快閃記憶體、唯讀記憶體，可編程唯讀記憶體或者電可擦寫可編程記憶體、暫存器等本領域成熟的儲存媒體中。該儲存媒體位於記憶體，處理器讀取記憶體中的資訊，結合其硬體完成上述方法的步驟。該電子設備還可執行圖1的基於區塊鏈的侵權存證方法，本說明書在此不再贅述。當然，除了軟體實現方式之外，本說明書的電子設備並不排除其他實現方式，比如邏輯裝置抑或軟硬體結合的方式等等，也就是說以下處理流程的執行主體並不限定於各個邏輯單元，也可以是硬體或邏輯裝置。本說明書實施例還提出了一種電腦可讀儲存媒體，該電腦可讀儲存媒體儲存一個或多個程式，該一個或多個程式包括指令，該指令當被包括多個應用程式的便攜式電子設備執行時，能夠使該便攜式電子設備執行圖4所示實施例的方法，並具體用於執行以下操作：基於目標視頻的多個特徵向量，從視頻資料庫中檢索與所述目標視頻相似的候選視頻；基於所述目標視頻和所述候選視頻，建構所述目標視頻與所述候選視頻之間的時域相似度矩陣特徵圖；將所述時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出所述候選視頻中與所述目標視頻相匹配的視頻片段和對應的相似度；當所述候選視頻中與所述目標視頻相匹配的視頻片段對應的相似度大於或等於預設相似度閾值時，將包含有所述目標視頻的摘要、所述候選視頻中與所述目標視頻相匹配的視頻片段和對應的相似度的侵權證據上傳至區塊鏈中。其中，所述深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，其中，樣本視頻包含查詢視頻和所述查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。圖8是本說明書的一個實施例提供的電子設備的結構示意圖。請參考圖8，在硬體層面，該電子設備包括處理器，可選地還包括內部匯流排、網路介面、記憶體。其中，記憶體可能包含內部記憶體，例如高速隨機存取記憶體(Random-Access Memory，RAM)，也可能還包括非易失性記憶體(non-volatile memory)，例如至少1個磁碟記憶體等。當然，該電子設備還可能包括其他業務所需要的硬體。處理器、網路介面和記憶體可以透過內部匯流排相互連接，該內部匯流排可以是ISA(Industry Standard Architecture，工業標準架構)匯流排、PCI(Peripheral Component Interconnect，周邊組件互連標準)匯流排或EISA(Extended Industry Standard Architecture，擴充工業標準架構)匯流排等。所述匯流排可以分為位址匯流排、資料匯流排、控制匯流排等。為便於表示，圖8中僅用一個雙向箭頭來表示，但並不表示僅有一根匯流排或一種類型的匯流排。記憶體，用於儲存程式。具體地，程式可以包括程式碼，所述程式碼包括電腦操作指令。記憶體可以包括內部記憶體和非易失性記憶體，並向處理器提供指令和資料。處理器從非易失性記憶體中讀取對應的電腦程式到內部記憶體中然後運行，在邏輯層面上形成視頻匹配裝置。處理器，執行記憶體所儲存的程式，並具體用於執行以下操作：獲取目標視頻的多個特徵向量；基於所述目標視頻的多個特徵向量，從視頻資料庫中檢索與所述目標視頻相似的候選視頻；基於所述目標視頻和所述候選視頻，建構所述目標視頻與所述候選視頻之間的時域相似度矩陣特徵圖；將所述時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出所述候選視頻中與所述目標視頻相匹配的視頻片段和對應的相似度；其中，所述深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，其中，樣本視頻包含查詢視頻和所述查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。採用本說明書實施例提供的電子設備可知道：在對目標視頻進行侵權定位時，能夠獲取目標視頻的多個特徵向量，並基於該目標視頻的多個特徵向量，從視頻資料庫中檢索與目標視頻相似的候選視頻，再基於目標視頻和候選視頻，建構目標視頻與候選視頻之間的時域相似度矩陣特徵圖，最後，將時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，輸出得到候選視頻中與目標視頻相匹配的視頻片段和對應的相似度，一方面在侵權定位的效率上，能夠檢測可能的侵權視頻的任意多個侵權片段的多個特徵，同時利用向量檢索結合檢測模型能夠極大地提高侵權視頻的檢測效率；另一方面，也降低了人工審核的成本。上述如本說明書圖2~圖4所示實施例揭示的視頻匹配方法可以應用於處理器中，或者由處理器來實現。處理器可能是一種積體電路晶片，具有信號的處理能力。在實現過程中，上述方法的各步驟可以透過處理器中的硬體的積體邏輯電路或者軟體形式的指令完成。上述的處理器可以是通用處理器，包括中央處理器(Central Processing Unit，CPU)、網路處理器(Network Processor，NP)等；還可以是數位訊號處理器(Digital Signal Processor，DSP)、特殊應用積體電路(Application Specific Integrated Circuit，ASIC)、現場可編程閘陣列(Field－Programmable Gate Array，FPGA)或者其他可編程邏輯裝置、分離的閘或者電晶體邏輯裝置、分離的硬體組件。可以實現或者執行本說明書一個或多個實施例中的揭示的各方法、步驟及邏輯方塊圖。通用處理器可以是微處理器或者該處理器也可以是任何習知的處理器等。結合本說明書一個或多個實施例所揭示的方法的步驟可以直接體現為硬體解碼處理器執行完成，或者用解碼處理器中的硬體及軟體模組組合執行完成。軟體模組可以位於隨機記憶體，快閃記憶體、唯讀記憶體，可編程唯讀記憶體或者電可擦寫可編程記憶體、暫存器等本領域成熟的儲存媒體中。該儲存媒體位於記憶體，處理器讀取記憶體中的資訊，結合其硬體完成上述方法的步驟。該電子設備還可執行圖2~圖4的視頻匹配方法，本說明書在此不再贅述。當然，除了軟體實現方式之外，本說明書的電子設備並不排除其他實現方式，比如邏輯裝置抑或軟硬體結合的方式等等，也就是說以下處理流程的執行主體並不限定於各個邏輯單元，也可以是硬體或邏輯裝置。本說明書實施例還提出了一種電腦可讀儲存媒體，該電腦可讀儲存媒體儲存一個或多個程式，該一個或多個程式包括指令，該指令當被包括多個應用程式的便攜式電子設備執行時，能夠使該便攜式電子設備執行圖2~圖4所示實施例的方法，並具體用於執行以下操作：獲取目標視頻的多個特徵向量；基於所述目標視頻的多個特徵向量，從視頻資料庫中檢索與所述目標視頻相似的候選視頻；基於所述目標視頻和所述候選視頻，建構所述目標視頻與所述候選視頻之間的時域相似度矩陣特徵圖；將所述時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出所述候選視頻中與所述目標視頻相匹配的視頻片段和對應的相似度；其中，所述深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，其中，樣本視頻包含查詢視頻和所述查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。總之，以上所述僅為本說明書的較佳實施例而已，並非用來限定本說明書的保護範圍。凡在本說明書一個或多個實施例的精神和原則之內，所作的任何修改、等同替換、改進等，均應包含在本說明書一個或多個實施例的保護範圍之內。上述實施例闡明的系統、裝置、模組或單元，具體可以由電腦晶片或實體來實現，或者由具有某種功能的產品來實現。一種典型的實現設備為電腦。具體地，電腦例如可以為個人電腦、膝上型電腦、蜂巢式電話、相機電話、智慧型電話、個人數位助理、媒體播放機、導航設備、電子郵件設備、遊戲控制台、平板電腦、可穿戴設備或者這些設備中的任何設備的組合。電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括，但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可編程唯讀記憶體(EEPROM)、快閃記憶體或其他內部記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存器、磁盒式磁帶，磁帶磁片儲存器或其他磁性儲存設備或任何其他非傳輸媒體，可用來儲存可以被計算設備存取的資訊。按照本文中的界定，電腦可讀媒體不包括暫態性電腦可讀媒體(transitory media)，如調變的資料信號和載波。還需要說明的是，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下，由語句“包括一個……”限定的要素，並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。本說明書中的各個實施例均採用漸進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於系統實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。

510:候選視頻檢索模組 520:特徵圖建構模組 530:模型輸出模組 540:證據上傳模組 610:特徵向量獲取模組 620:候選視頻檢索模組 630:特徵圖建構模組 640:模型輸出模組

此處所說明的圖式用來提供對本說明書的進一步理解，構成本說明書的一部分，本說明書的示意性實施例及其說明用來解釋本說明書，並不構成對本說明書的不當限定。在圖式中： [圖1]為本說明書一個實施例提供的基於區塊鏈的侵權存證方法的實現流程示意圖。 [圖2]為本說明書一個實施例提供的一種視頻匹配方法的實現流程示意圖。 [圖3]為本說明書一個實施例提供的視頻匹配方法的應用於一種場景中的流程示意圖。 [圖4]為本說明書一個實施例提供的視頻匹配方法中繪製的時域相似度矩陣特徵圖的示意圖。 [圖5]為本說明書一個實施例提供的基於區塊鏈的侵權存證裝置的結構示意圖。 [圖6]為本說明書一個實施例提供的視頻匹配裝置的結構示意圖。 [圖7]為本說明書一個實施例提供的一種電子設備的結構示意圖。 [圖8]為本說明書一個實施例提供的另一種電子設備的結構示意圖。

Claims

一種基於區塊鏈的侵權存證方法，包括：基於目標視頻的多個特徵向量，從視頻資料庫中檢索與該目標視頻相似的候選視頻；基於該目標視頻和該候選視頻，建構該目標視頻與該候選視頻之間的時域相似度矩陣特徵圖；將該時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出該候選視頻中與該目標視頻相匹配的視頻片段和對應的相似度；以及當該候選視頻中與該目標視頻相匹配的視頻片段對應的相似度大於或等於預設相似度閾值時，將包含有該目標視頻的摘要、該候選視頻中與該目標視頻相匹配的視頻片段和對應的相似度的侵權證據上傳至區塊鏈中；其中，該深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，其中，樣本視頻包含查詢視頻和該查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。
一種視頻匹配方法，包括：獲取目標視頻的多個特徵向量；基於該目標視頻的多個特徵向量，從視頻資料庫中檢索與該目標視頻相似的候選視頻；基於該目標視頻和該候選視頻，建構該目標視頻與該候選視頻之間的時域相似度矩陣特徵圖；以及將該時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出該候選視頻中與該目標視頻相匹配的視頻片段和對應的相似度；其中，該深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，其中，樣本視頻包含查詢視頻和該查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。
如請求項2所述的方法，基於該目標視頻的多個特徵向量，從視頻資料庫中檢索與該目標視頻相似的候選視頻，包括：從該視頻資料庫中，獲取與該目標視頻的多個特徵向量相似的特徵向量檢索結果；以及基於與該目標視頻的多個特徵向量相似的特徵向量檢索結果，從視頻資料庫中獲取與該目標視頻相似的候選視頻。
如請求項3所述的方法，基於該目標視頻和該候選視頻，建構該目標視頻與該候選視頻之間的時域相似度矩陣特徵圖，包括：基於該目標視頻的多個特徵向量、與該候選視頻中的各候選視頻的多個特徵向量之間的向量檢索結果，建構該目標視頻的多個特徵向量與該候選視頻的多個特徵向量之間的相似度矩陣；以及基於該目標視頻的多個特徵向量與該候選視頻中的多個特徵向量之間的相似度矩陣，在時域維度上，建構該目標視頻與該候選視頻之間的時域相似度矩陣特徵圖。
如請求項4所述的方法，基於該目標視頻的多個特徵向量與該候選視頻中的各候選視頻的多個特徵向量之間的相似度矩陣，在時域維度上，建構該目標視頻與該候選視頻之間的時域相似度矩陣特徵圖，包括：根據該目標視頻與該候選視頻之間的時域對應關係，將該目標視頻的多個特徵向量與該候選視頻的多個特徵向量之間的相似度矩陣，繪製在二維特徵圖上，得到該目標視頻與該候選視頻之間的時域相似度矩陣特徵圖。
如請求項5所述的方法，當該候選視頻有多個時，根據該目標視頻與該候選視頻之間的時域對應關係，將該目標視頻的多個特徵向量與該候選視頻中的各候選視頻的多個特徵向量之間的相似度矩陣，繪製在二維特徵圖上，得到該目標視頻與該候選視頻之間的時域相似度矩陣特徵圖，包括：根據該目標視頻與該多個候選視頻之間的時域對應關係，分別將該目標視頻的多個特徵向量與該多個候選視頻中的各候選視頻的多個特徵向量之間的相似度矩陣，繪製在多個二維特徵圖上，得到該目標視頻與該多個候選視頻之間的多個時域相似度矩陣特徵圖；以及將該目標視頻與該多個候選視頻之間的多個時域相似度矩陣特徵圖進行拼接，得到該目標視頻與該多個候選視頻之間的時域相似度矩陣特徵圖。
如請求項2或6所述的方法，將該時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出該候選視頻中與該目標視頻相匹配的視頻片段和對應的相似度，包括：將該時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出該候選視頻中與該目標視頻相匹配的視頻片段在時域維度上的區間範圍、以及該相匹配的視頻片段之間的相似度。
如請求項2所述的方法，該深度學習檢測模型包括下述至少一種：更快速的基於卷積神經網路的候選區域檢測模型Faster-Rcnn；帶遮罩的基於卷積神經網路的候選區域檢測模型Mask-Rcnn；即時物體檢測模型YOLO；以及單次多框檢測模型SSD。
一種基於區塊鏈的侵權存證裝置，包括：候選視頻檢索模組，基於目標視頻的多個特徵向量，從視頻資料庫中檢索與該目標視頻相似的候選視頻；特徵圖建構模組，基於該目標視頻和所述候選視頻，建構該目標視頻與該候選視頻之間的時域相似度矩陣特徵圖；模型輸出模組，將該時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出該候選視頻中與該目標視頻相匹配的視頻片段和對應的相似度；以及證據上傳模組，當該候選視頻中與該目標視頻相匹配的視頻片段對應的相似度大於或等於預設相似度閾值時，將包含有該目標視頻的摘要、該候選視頻中與該目標視頻相匹配的視頻片段和對應的相似度的侵權證據上傳至區塊鏈中；其中，該深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，其中，樣本視頻包含查詢視頻和該查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。
一種視頻匹配裝置，包括：特徵向量獲取模組，獲取目標視頻的多個特徵向量；候選視頻檢索模組，基於該目標視頻的多個特徵向量，從視頻資料庫中檢索與該目標視頻相似的候選視頻；特徵圖建構模組，基於該目標視頻和該候選視頻，建構該目標視頻與該候選視頻之間的時域相似度矩陣特徵圖；以及模型輸出模組，將該時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出該候選視頻中與該目標視頻相匹配的視頻片段和對應的相似度；其中，該深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，其中，樣本視頻包含查詢視頻和該查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。
一種電子設備，包括：處理器；以及被配置成儲存電腦可執行指令的記憶體，該可執行指令在被執行時使該處理器執行以下操作：基於目標視頻的多個特徵向量，從視頻資料庫中檢索與該目標視頻相似的候選視頻；基於該目標視頻和該候選視頻，建構該目標視頻與該候選視頻之間的時域相似度矩陣特徵圖；將該時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出該候選視頻中與該目標視頻相匹配的視頻片段和對應的相似度；以及當該候選視頻中與該目標視頻相匹配的視頻片段對應的相似度大於或等於預設相似度閾值時，將包含有該目標視頻的摘要、該候選視頻中與該目標視頻相匹配的視頻片段和對應的相似度的侵權證據上傳至區塊鏈中；其中，該深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，其中，樣本視頻包含查詢視頻和該查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。
一種電腦可讀儲存媒體，該電腦可讀儲存媒體儲存一個或多個程式，該一個或多個程式當被包括多個應用程式的電子設備執行時，使得該電子設備執行以下操作：基於目標視頻的多個特徵向量，從視頻資料庫中檢索與該目標視頻相似的候選視頻；基於該目標視頻和該候選視頻，建構該目標視頻與該候選視頻之間的時域相似度矩陣特徵圖；將該時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出該候選視頻中與該目標視頻相匹配的視頻片段和對應的相似度；以及當該候選視頻中與該目標視頻相匹配的視頻片段對應的相似度大於或等於預設相似度閾值時，將包含有該目標視頻的摘要、該候選視頻中與該目標視頻相匹配的視頻片段和對應的相似度的侵權證據上傳至區塊鏈中；其中，該深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，其中，樣本視頻包含查詢視頻和該查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。
一種電子設備，包括：處理器；以及被配置成儲存電腦可執行指令的記憶體，該可執行指令在被執行時使該處理器執行以下操作：獲取目標視頻的多個特徵向量；基於該目標視頻的多個特徵向量，從視頻資料庫中檢索與該目標視頻相似的候選視頻；基於該目標視頻和該候選視頻，建構該目標視頻與該候選視頻之間的時域相似度矩陣特徵圖；以及將該時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出該候選視頻中與該目標視頻相匹配的視頻片段和對應的相似度；其中，該深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，其中，樣本視頻包含查詢視頻和該查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。
一種電腦可讀儲存媒體，該電腦可讀儲存媒體儲存一個或多個程式，該一個或多個程式當被包括多個應用程式的電子設備執行時，使得該電子設備執行以下操作：獲取目標視頻的多個特徵向量；基於該目標視頻的多個特徵向量，從視頻資料庫中檢索與該目標視頻相似的候選視頻；基於該目標視頻和該候選視頻，建構該目標視頻與該候選視頻之間的時域相似度矩陣特徵圖；以及將該時域相似度矩陣特徵圖作為深度學習檢測模型的輸入，以輸出該候選視頻中與該目標視頻相匹配的視頻片段和對應的相似度；其中，該深度學習檢測模型為基於多組樣本視頻的時域相似度矩陣特徵圖和對應的標籤訓練得到的，其中，樣本視頻包含查詢視頻和該查詢視頻對應的候選視頻，樣本視頻對應的標籤包括樣本視頻中的查詢視頻在對應的候選視頻中所匹配的視頻片段及侵權標誌。