TWI760381B

TWI760381B - 確定推薦物件的方法、裝置及電腦儲存媒體

Info

Publication number: TWI760381B
Application number: TW106136499A
Authority: TW
Inventors: 程治淇; 劉揚; 華先勝
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2017-02-24
Filing date: 2017-10-24
Publication date: 2022-04-11
Also published as: TW201832158A; CN108509436A; US10671851B2; EP3586243A1; WO2018156911A1; US20180247129A1; EP3586243A4; CN108509436B

Abstract

本發明實施例揭露了一種確定推薦物件的方法、裝置及電腦儲存媒體。所述方法包括：獲取與視頻資料對應的至少一個關鍵訊框，所述關鍵訊框為有效標識訊框內物體的視頻訊框；對所述關鍵訊框中的第一關鍵訊框進行物體檢測操作，確定與所述第一關鍵訊框關聯的物體資訊；所述物體資訊包括：物體語義資訊和物體視覺資訊；根據所述物體語義資訊確定候選物件，根據所述物體視覺資訊從所述候選物件中篩選出與所述第一關鍵訊框關聯的推薦物件。可以為用戶提供與視頻內容精確關聯的產品，提高用戶體驗。

Description

確定推薦物件的方法、裝置及電腦儲存媒體

本發明關於網際網路資訊處理技術領域，特別關於一種確定推薦物件的方法、裝置及電腦儲存媒體。

隨著網際網路消費時代的發展，越來越多的人會在一些電子商務平臺購買適合自己的商品，電子商務平臺往往也會基於電子商務平臺中的交易資料、瀏覽資料等，推斷出用戶可能感興趣的商品，接著，向用戶推薦該商品。

對於現有的視頻電商系統等新的電子商務平臺(以下簡稱目標平臺)，為了提供給用戶以視頻為入口的購物服務，需要一種基於視頻內容的資料處理技術，可以根據視頻中各場景出現的物品，提供給用戶與出現的物品相關的商品。

現有的基於視頻內容的確定推薦物件的方法主要包括：可以首先對用戶觀看的視頻檔的視頻關鍵訊框進行物體檢測和場景分類操作，得到與視頻關鍵訊框對應的物體標籤和場景標籤；接著將得到的物體和場景標籤作為查詢詞在商品庫中進行查詢；接著可以將檢索結果按照相關性進行排序；最後按照一定的規則將多種排序得到的結果進行融合加工得到最終的關聯結果，並將所述關聯結果作為推薦物件推薦給用戶。

在實現本發明過程中，發明人發現現有技術中至少存在如下問題：現有的確定推薦物件的方法中主要依靠文字檢索的方法來得到查詢結果，由於文字內容本身可能含有很多歧義，所以關聯結果可能經常會出現歧義混亂現象。因此，現有的推薦產品確定方法在基於視頻內容向用戶推薦物件時，可能不能為用戶提供與視頻內容精確關聯的物件，用戶體檢較差。

本發明實施例的目的是提供一種確定推薦物件的方法、裝置及電腦儲存媒體，可以為用戶提供與視頻內容精確關聯的物件，以提高用戶體檢。

為解決上述技術問題，本發明實施例提供一種確定推薦物件的方法、裝置及電腦儲存媒體是這樣實現的：一種確定推薦物件的方法，包括：獲取與視頻資料對應的至少一個關鍵訊框，所述關鍵訊框為有效標識訊框內物體的視頻訊框；對所述關鍵訊框中的第一關鍵訊框進行物體檢測操作，確定與所述第一關鍵訊框關聯的物體資訊；所述物體資訊包括：物體語義資訊和物體視覺資訊；根據所述物體語義資訊確定候選物件，根據所述物體視覺資訊從所述候選物件中篩選出與所述第一關鍵訊框關聯的推薦物件。

較佳方案中，所述確定推薦物件的方法還包括：對所述關鍵訊框中的每一關鍵訊框進行場景分類操作，分別確定每一所述關鍵訊框的場景語義資訊；根據所述關鍵訊框的場景語義資訊和物體語義資訊確定所述關鍵訊框的關鍵訊框語義資訊；根據關鍵訊框的顯示內容、所述關鍵訊框的關鍵訊框語義資訊，計算所述關鍵訊框中的任意兩個關鍵訊框之間的相似度；根據所述關鍵訊框之間的相似度以及與所述第一關鍵訊框關聯的推薦物件，確定與所述推薦物件關聯的一個或多個關鍵訊框。

較佳方案中，所述確定推薦物件的方法還包括：獲取平臺物件資訊；所述平臺物件資訊包括：平臺物件的語義資訊和平臺物件的視覺資訊；根據所述平臺物件資訊，計算所述平臺物件的相似度；基於所述平臺物件的相似度以及與所述第一關鍵訊框關聯的推薦物件，確定與所述關鍵訊框中第一關鍵訊框關聯的第二推薦物件。

一種確定推薦物件的裝置，包括：關鍵訊框獲取模組，用於獲取與視頻資料對應的至少一個關鍵訊框；所述關鍵訊框為有效標識訊框內物體的視頻訊框；物體資訊確定模組，用於對所述關鍵訊框中的第一關鍵訊框進行物體檢測操作，確定與所述第一關鍵訊框關聯的物體資訊；所述物體資訊包括：物體語義資訊和物體視覺資訊；所述第一關鍵訊框可以是所述關鍵訊框中的任一關鍵訊框；推薦物件確定模組，用於根據所述物體語義資訊確定候選物件，根據所述物體視覺資訊從所述候選物件中篩選出與所述第一關鍵訊框關聯的推薦物件。

較佳方案中，所述確定推薦物件的裝置還包括：關鍵訊框關聯模組，用於對所述關鍵訊框中的每一關鍵訊框進行場景分類操作，分別確定每一所述關鍵訊框的場景語義資訊；根據所述關鍵訊框的場景語義資訊和物體語義資訊確定所述關鍵訊框的關鍵訊框語義資訊；根據關鍵訊框的顯示內容、所述關鍵訊框的關鍵訊框語義資訊，計算所述關鍵訊框中的任意兩個關鍵訊框之間的相似度；根據所述關鍵訊框之間的相似度以及與所述第一關鍵訊框關聯的推薦物件，確定與所述推薦物件關聯的一個或多個關鍵訊框。

較佳方案中，所述確定推薦物件的裝置還包括：物件關聯模組，用於獲取平臺物件資訊；所述平臺物件資訊包括：平臺物件的語義資訊和平臺物件的視覺資訊；根據所述平臺物件資訊，計算所述平臺物件的相似度；基於所述平臺物件的相似度以及與所述第一關鍵訊框關聯的推薦物件，確定與所述關鍵訊框中第一關鍵訊框關聯的第二推薦物件。

一種電腦儲存媒體，其上儲存有電腦指令，該電腦指令被處理器執行時實現以下步驟：獲取與視頻資料對應的至少一個關鍵訊框，所述關鍵訊框為有效標識訊框內物體的視頻訊框；對所述關鍵訊框中的第一關鍵訊框進行物體檢測操作，確定與所述第一關鍵訊框關聯的物體資訊；所述物體資訊包括：物體語義資訊和物體視覺資訊；根據所述物體語義資訊確定候選物件，根據所述物體視覺資訊從所述候選物件中篩選出與所述第一關鍵訊框關聯的推薦物件。

較佳方案中，所述電腦儲存媒體上儲存的電腦指令被處理器執行時還實現以下步驟：對所述關鍵訊框中的每一關鍵訊框進行場景分類操作，分別確定每一所述關鍵訊框的場景語義資訊；根據所述關鍵訊框的場景語義資訊和物體語義資訊確定所述關鍵訊框的關鍵訊框語義資訊；根據關鍵訊框的顯示內容、所述關鍵訊框的關鍵訊框語義資訊，計算所述關鍵訊框中的任意兩個關鍵訊框之間的相似度；根據所述關鍵訊框之間的相似度以及與所述第一關鍵訊框關聯的推薦物件，確定與所述推薦物件關聯的一個或多個關鍵訊框。

較佳方案中，所述電腦儲存媒體上儲存的電腦指令被處理器執行時還實現以下步驟：獲取平臺物件資訊；所述平臺物件資訊包括：平臺物件的語義資訊和平臺物件的視覺資訊；根據所述平臺物件資訊，計算所述平臺物件的相似度；基於所述平臺物件的相似度以及與所述第一關鍵訊框關聯的推薦物件，確定與所述關鍵訊框中第一關鍵訊框關聯的第二推薦物件。

由以上本發明實施例提供的技術方案可見，本發明實施例提供的確定推薦物件的方法、裝置及電腦儲存媒體，在利用檢測到的訊框內物體查找推薦物件時，同時考慮了物體的語義資訊和視覺資訊，可以保證為用戶提供的物件語義和視覺上與視頻內容都能精確相關。較佳方案中，還可以通過計算關鍵訊框之間的相似度，得到相似度較高的多個關鍵訊框，當將某一物件作為某一關鍵訊框的關聯物件時，可以將該關聯物件同時與相似度較高的多個關鍵訊框進行關聯，使得相似的關鍵訊框具有相同的關聯物件，可以保證每一關鍵訊框為用戶提供的關聯物件更全面，可以提高用戶體檢。較佳方案中，還可以通過計算平臺物件之間的相似度，得到相似度較高的多個平臺物件，當某一平臺物件作為某一關鍵訊框的關聯物件時，可以將與該平臺物件相似度較高的多個平臺物件同時作為該關鍵訊框關聯的物件，可以保證每一關鍵訊框為用戶提供的關聯物件更豐富，可以提高用戶體檢。

800:確定推薦物件的裝置

801:關鍵訊框獲取模組

802:物體資訊確定模組

803:推薦物件確定模組

8031:相似度計算子模組

8032:推薦物件篩選子模組

為了更清楚地說明本發明實施例或現有技術中的技術方案，下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發明中記載的一些實施例，對於本領域普通技術人員來講，在不付出進步性勞動性的前提下，還可以根據這些附圖獲得其他的附圖。

圖1是本發明提供的確定推薦物件的方法的一個實施例的架構示意圖；圖2是本發明實施例提供的對一個關鍵訊框進行物體檢測和場景分類的示意圖；圖3是本發明實施例提供的物體視覺資訊的實例圖；圖4是本發明提供的確定推薦物件的方法的另一個實施例的架構示意圖；圖5是本發明提供的確定推薦物件的方法的另一個實施例的架構示意圖；圖6是本發明提供的確定推薦物件的方法的另一個實施例的架構示意圖；圖7是本發明提供的確定推薦物件的方法的一個實施例的流程示意圖；圖8是本發明提供的一個確定推薦物件的裝置實施例的模組圖；圖9是本發明裝置實施例中推薦物件確定模組的組成示意圖。

本發明實施例提供一種確定推薦物件的方法、裝置及電腦儲存媒體。

為了使本技術領域的人員更好地理解本發明中的技術方案，下面將結合本發明實施例中的附圖，對本發明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發明一部分實施例，而不是全部的實施例。基於本發明中的實施例，本領域普通技術人員在沒有做出進步性勞動前提下所獲得的所有其他實施例，都應當屬於本發明保護的範圍。

在一個確定推薦物件的方法的實施方式中，可以先獲取與視頻資料對應的至少一個關鍵訊框。

通常，關鍵訊框相當於二維動畫中的原畫，可以指角色或者物體運動或變化中的關鍵動作所處的那一訊框。本方案中所述關鍵訊框可以為有效標識訊框內物體視頻訊框。所述關鍵訊框還可以有效標識訊框內場景。

圖1是本發明提供的確定推薦物件的方法的一個實施例的架構示意圖。參照圖1，根據視頻資料可以確定與該視頻資料對應的至少一個關鍵訊框。

在一種實施方式中，獲取與視頻資料對應的至少一個關鍵訊框可以採用下述方法來實現：可以比對所述視頻資料中相鄰的視頻訊框對應的顯示內容，當相鄰兩個視頻訊框所顯示的內容發生變化時，可以將發生變化前的視頻訊框作為候選關鍵訊框，去除所述候選關鍵訊框中顯示內容相同的重複關鍵訊框，可以得到與所述視頻內容對應的關鍵訊框。所述去除所述候選關鍵訊框中顯示內容相同的重複關鍵訊框，具體可以是保留顯示內容相同的多個候選關鍵訊框中的一個關鍵訊框。

對任意一個所述關鍵訊框，例如第一關鍵訊框，可以對所述第一關鍵訊框進行物體檢測操作。

物體檢測操作通常可以利用學習模型的方式來實現。具體地，可以利用圖像識別資料庫建立一個分類器，利用商品圖片樣品進行自我調整大規模檢測(Large Scale Detection through Adaptation，LSDA)訓練；根據LSDA訓練結果檢測所述關鍵訊框的訊框內物體。所述圖像識別資料庫用於識別各個類別的物件圖片。所述圖像識別資料庫可以採用現有的圖像識別資料庫，例如ImageNet，也可以根據實際需要建立新的圖像識別資料庫。

參照圖1，通過物體檢測操作，可以確定與所述第一關鍵訊框關聯的物體資訊。例如，通過物體檢測操作，可以確定第一關鍵訊框的訊框內物體的物體資訊。所述物體資訊包括：物體語義資訊和物體視覺資訊。物體語義資訊可以是物體的文字描述資訊。例如，可以是物體的名稱、型號、產地等資訊。所述物體的視覺資訊可以是物體的圖片。例如，可以是物體的切片圖片等。

參照圖2，在一個實例性場景中，可以對圖2中顯示的關鍵訊框進行物體檢測操作，可以確定該關鍵訊框的訊框內物體包括：燈、電視架、電腦和相框。其中，訊框內物體“燈”的語義資訊可以為“檯燈”，視覺資訊可以為如圖3所示檯燈的圖片。

參照圖1，根據與所述第一關鍵訊框關聯的所述物體語義資訊和物體視覺資訊，可以確定與所述第一關鍵訊框關聯的推薦物件。具體地，可以根據所述物體語義資訊，確定候選物件；獲取所述候選物件的視覺資訊，計算所述候選物件的視覺資訊與所述物體視覺資訊的相似度；根據所述候選物件的視覺資訊與所述物體視覺資訊的相似度，從所述候選物件中篩選出與所述第一關鍵訊框關聯的推薦物件。所述候選物件的視覺資訊可以是所述候選物件的圖片。

所述計算所述候選物件的視覺資訊與所述物體視覺資訊的相似度，可以計算訊框內物體的圖片和候選物件的圖片的相似程度。計算兩個圖片的相似度可以採用現有的計算方法實現，例如可以計算兩幅圖片的歐氏距離或長條圖匹配值等，本發明對此並不作出限定。通常，計算得到的相似度越大，可以表示兩幅圖片的相似程度越高。

根據所述物體語義資訊，可以確定候選物件，具體地，可以是根據所述物體的文字描述資訊在電子商務平臺上進行搜索，可以將搜索得到的物件作為候選物件。

所述根據候選物件的視覺資訊與所述物體視覺資訊的相似度，從所述候選物件中篩選出與所述第一關鍵訊框關聯的推薦物件。具體地，可以選取視覺資訊相似度較高的前N個候選物件作為與所述第一關鍵訊框關聯的推薦物件，例如可以將計算得到的相似度的值最大的前N個候選物件作為與所述第一關鍵訊框關聯的推薦物件。也可以選取視覺資訊相似度大於第一閾值的候選物件作為與所述第一關鍵訊框關聯的推薦物件。

在一個實例性場景中，例如圖2中的關鍵訊框檢測出的物體“燈”，其語義資訊可以為“檯燈”，視覺資訊可以為如圖3所示檯燈的圖片。那麼，可以根據“檯燈”在電子商務平臺上進行搜索，得到候選物件；獲取候選物件的視覺資訊，例如這些候選物件的圖片；計算候選物件的圖片和圖3所示檯燈的圖片的相似度，可以將相似度最高的前10個候選物件作為與圖2中所示的關鍵訊框關聯的推薦物件，或者，可以將相似度大於0.5的候選物件作為與圖2中所示的關鍵訊框關聯的推薦物件。

上述實施例在利用檢測到的訊框內物體查找推薦物件時，同時考慮了物體的語義資訊和視覺資訊，可以保證為用戶提供的物件語義和視覺上與視頻內容都能精確相關。

進一步地，圖4是本發明提供的確定推薦物件的方法的另一個實施例的架構示意圖。參照圖4，在另一個實施方式中，還可以對所述關鍵訊框中的每一關鍵訊框進行場景分類操作，分別確定每一所述關鍵訊框的場景語義資訊；根據所述關鍵訊框的場景語義資訊和物體語義資訊確定所述關鍵訊框的關鍵訊框語義資訊；根據關鍵訊框的顯示內容、所述關鍵訊框的關鍵訊框語義資訊，計算所述關鍵訊框中的任意兩個關鍵訊框之間的相似度；根據所述關鍵訊框之間的相似度以及與所述第一關鍵訊框關聯的推薦物件，確定與所述推薦物件關聯的一個或多個關鍵訊框。所述與第一推薦物件關聯的關鍵訊框可以包括所述第一關鍵訊框。

所述對關鍵訊框進行場景分類操作通常可以通過深度學習模型來實現。例如，可以採用Google Net來實現。通過場景分類操作，可以確定關鍵訊框的場景資訊。所述關鍵訊框的場景資訊可以包括：場景語義資訊。所述場景語義資訊可以包括對所述場景的文字描述。例如，所述場景語義資訊可以是：廚房、酒吧等。例如，對於圖2中的關鍵訊框，通過場景分類操作，可以確定該關鍵訊框的場景語義資訊為“開放辦公室”。

得到每一關鍵訊框的場景語義資訊和物體語義資訊後，可以計算每一關鍵訊框的關鍵訊框語義資訊。所述關鍵訊框的關鍵訊框語義資訊可以用於表徵所述關鍵訊框對應的場景和所述關鍵訊框對應的物體。

所述關鍵訊框的關鍵訊框語義資訊可以用關鍵訊框語義矩陣來表示。所述根據關鍵訊框的場景語義資訊和物體語義資訊計算所述關鍵訊框的關鍵訊框語義資訊具體可以包括：計算所述場景語義資訊和所述物體語義資訊的tf-idf(term frequency-inverse document frequency，詞頻-逆向檔頻率)向量，所述計算得到的向量形成的矩陣可以為所述關鍵訊框的關鍵訊框語義資訊。

根據所述關鍵訊框的關鍵訊框語義資訊和關鍵訊框的顯示內容，可以計算任意兩個關鍵訊框之間的相似度。具體地，可以根據所述兩個關鍵訊框的顯示內容，計算所述兩個關鍵訊框之間的視覺相似度；根據所述兩個關鍵訊框的關鍵訊框語義資訊，計算所述兩個關鍵訊框之間的語義相似度；根據所述視覺相似度和所述語義相似度，計算所述兩個關鍵訊框之間的關鍵訊框相似度。

例如，具體可以採用下述公式來計算兩個關鍵訊框之間的相似度：

上述公式(1)中，S _i,j表示需要計算的關鍵訊框i和關鍵訊框j之間的關鍵訊框相似度；V _i,j可以表示關鍵訊框i和關鍵訊框j之間的視覺相似度；T _i,j可以表示關鍵訊框i和關鍵訊框j之間的語義相似度；α為調節係數，取值範圍可以為0~1。α的取值可以根據實際實驗結果確定。一般α的較佳取值可以為0.5~0.6。

所述計算兩個關鍵訊框之間的視覺相似度，即計算兩個關鍵訊框顯示內容的相似度。例如，可以計算兩個關鍵訊框對應顯示圖片之間的相似度。

所述計算兩個關鍵訊框之間的語義相似度，即計算兩個關鍵訊框的語義矩陣之間的相似度。可以採用任意語義相似度計算方法來實現，例如文字深度表示模型等，本發明對此並不作出限定。

上述步驟中，通過計算關鍵訊框之間的相似度，可以得到相似度較高的多個關鍵訊框，當將某一物件作為某一關鍵訊框的關聯物件時，可以將該關聯物件同時與相似度較高的多個關鍵訊框進行關聯，使得相似的關鍵訊框具有相同的關聯物件，可以保證每一關鍵訊框為用戶提供的關聯物件更全面，可以提高用戶體檢。

進一步地，圖5是本發明提供的確定推薦物件的方法的另一個實施例的架構示意圖。參照圖5，在另一個實施方式中，所述方法還可以包括：獲取平臺物件資訊；所述平臺物件資訊包括：平臺物件的語義資訊和平臺物件的視覺資訊；可以根據所述平臺物件資訊，計算所述平臺物件的相似度；基於所述平臺物件的相似度以及與所述第一關鍵訊框關聯的推薦物件，確定與所述關鍵訊框中第一關鍵訊框關聯的第二推薦物件。

所述平臺產品可以是電子商務平臺上的物件。例如，可以是電子商務平臺上出售的商品。那麼，所述平臺物件的語義資訊可以是根據商品的文字資訊來獲取的。例如，可以是根據商品標題、商品描述等資訊來獲取的。具體地，可以對所述平臺物件在電子商務平臺上的文字資訊進行分詞處理。所述對文字資訊進行分詞處理可以採用基於詞庫匹配的分詞方法，或者可以採用基於詞頻度統計的分詞方法，或者還可以採用基於知識理解的分詞方法等來實現。可以對所述分詞處理得到的分詞詞語根據詞性進行過濾，例如可以保留詞性為名詞的分詞詞語，去除詞性為副詞和動詞的分詞詞語等。可以將所述過濾結果量化為tf-idf向量，所述tf-idf向量構成的矩陣可以作為所述平臺物件的語義資訊。所述平臺物件的視覺資訊可以是商品的圖片。例如，商品的主圖等。

所述根據所述平臺物件資訊，計算所述平臺物件的相似度，可以採用下述公式(2)來實現：

公式(2)中，Q _i,j可以表示需要計算的平臺物件i和平臺物件j之間的平臺物件相似度；A _i,j可以表示平臺物件i和平臺物件j之間的視覺相似度；B _i,j可以表示平臺物件i和平臺物件j之間的語義相似度；β為調節係數，取值範圍可以為0~1。β的取值可以根據實際實驗結果確定。一般β的較佳取值可以為0.5~0.6。

上述步驟中，通過計算平臺物件之間的相似度，可以得到相似度較高的多個平臺物件，當某一平臺物件作為某一關鍵訊框的關聯物件時，可以將與該平臺物件相似度較高的多個平臺物件同時作為該關鍵訊框關聯的物件，可以保證每一關鍵訊框為用戶提供的關聯物件更豐富，可以提高用戶體檢。

進一步地，圖6是本發明提供的確定推薦物件的方法的另一個實施例的架構示意圖。參照圖6，在另一個實施方式中，可以計算所述關鍵訊框中任意兩個關鍵訊框的相似度、平臺物件的相似度，根據所述與關鍵訊框關聯的推薦物件、平臺物件的相似度、以及所述關鍵訊框中任意兩個關鍵訊框的相似度，可以確定與所述關鍵訊框中任一關鍵訊框關聯的第三推薦物件。

上述步驟中，對於某一關鍵訊框關聯了推薦物件後，還考慮與該推薦物件相似度較高的物件、以及與該關鍵訊框相似度較高的其他關鍵訊框，既可以實現將相似度較高的多個平臺物件同時與一個關鍵訊框相關，也可以實現將同一個產品與多個相似度較高的關鍵訊框相關，可以保證每一關鍵訊框為用戶提供的關聯物件更豐富、更全面，可以提高用戶體檢。

圖7是本發明提供的確定推薦物件的方法的一個實施例的流程示意圖，本發明提供了如實施例或流程圖所述的方法操作步驟，但基於常規或者無進步性的勞動可以包括更多或者更少的操作步驟。實施例中列舉的步驟順序僅僅為眾多步驟執行順序中的一種方式，不代表唯一的執行順序。在實際中的系統或用戶端產品執行時，可以按照實施例或者附圖所示的方法循序執行或者並存執行(例如並行處理器或者多執行緒處理的環境)。如圖7所示，所述確定推薦物件的方法可以包括以下步驟。

S701：獲取與視頻資料對應的至少一個關鍵訊框，所述關鍵訊框為有效標識訊框內物體的視頻訊框。

所述關鍵訊框還可以有效標識訊框內場景。

所述獲取與視頻資料對應的關鍵訊框具體可以包括：比對所述視頻資料中相鄰視頻訊框所顯示的視頻內容，當視頻訊框所顯示的視頻內容發生變化時，將發生變化前的視頻內容對應的視頻訊框作為候選關鍵訊框；去除所述候選關鍵訊框中顯示內容相同的重複關鍵訊框，得到與所述視頻內容對應的關鍵訊框。

S702：對所述關鍵訊框中的第一關鍵訊框進行物體檢測操作，確定與所述第一關鍵訊框關聯的物體資訊；所述物體資訊包括：物體語義資訊和物體視覺資訊。

所述物體語義資訊可以是物體的文字描述資訊。所述物體視覺資訊可以是物體的圖片。

S703：根據所述物體語義資訊確定候選物件，根據所述物體視覺資訊從所述候選物件中篩選出與所述第一關鍵訊框關聯的推薦物件。

所述根據所述物體語義資訊確定候選物件，具體可以包括：根據所述物體的文字描述資訊在電子商務平臺上進行搜索，將搜索得到的物件作為候選物件。

所述根據所述物體視覺資訊從所述候選物件中篩選出與所述第一關鍵訊框關聯的推薦物件，具體可以包括：獲取所述候選物件的視覺資訊，計算所述候選物件的視覺資訊與所述物體視覺資訊的相似度；根據所述候選物件的視覺資訊與所述物體視覺資訊的相似度，從所述候選物件中篩選出與所述第一關鍵訊框關聯的推薦物件。

上述實施例提供的確定推薦物件的方法中，在利用檢測到的訊框內物體查找推薦物件時，同時考慮了物體的語義資訊和視覺資訊，可以保證為用戶提供的物件語義和視覺上與視頻內容都能精確相關。

在另一個實施方式中，所述方法還可以包括：對所述關鍵訊框中的每一關鍵訊框進行場景分類操作，分別確定每一所述關鍵訊框的場景語義資訊；根據所述關鍵訊框的場景語義資訊和物體語義資訊確定所述關鍵訊框的關鍵訊框語義資訊；根據關鍵訊框的顯示內容、所述關鍵訊框的關鍵訊框語義資訊，計算所述關鍵訊框中的任意兩個關鍵訊框之間的相似度；根據所述關鍵訊框之間的相似度以及與所述第一關鍵訊框關聯的推薦物件，確定與所述推薦物件關聯的一個或多個關鍵訊框。

所述根據所述關鍵訊框的場景語義資訊和物體語義資訊確定所述關鍵訊框的關鍵訊框語義資訊，可以包括：計算所述場景語義資訊和所述物體語義資訊的tf-idf向量，所述計算得到的向量形成的矩陣為所述關鍵訊框的關鍵訊框語義資訊。

所述根據所述關鍵訊框的關鍵訊框語義資訊和關鍵訊框的顯示內容，計算任意兩個關鍵訊框之間的相似度，可以包括：根據所述兩個關鍵訊框的顯示內容，計算所述兩個關鍵訊框之間的視覺相似度；根據所述兩個關鍵訊框的關鍵訊框語義資訊，計算所述兩個關鍵訊框之間的語義相似度；根據所述視覺相似度和所述語義相似度，計算所述兩個關鍵訊框之間的關鍵訊框相似度。

上述實施例中，通過計算關鍵訊框之間的相似度，可以得到相似度較高的多個關鍵訊框，當將某一物件作為某一關鍵訊框的關聯物件時，可以將該關聯物件同時與相似度較高的多個關鍵訊框進行關聯，使得相似的關鍵訊框具有相同的關聯物件，可以保證每一關鍵訊框為用戶提供的關聯物件更全面，可以提高用戶體檢。

在另一個實施方式中，所述方法還可以包括：獲取平臺物件資訊；所述平臺物件資訊包括：平臺物件的語義資訊和平臺物件的視覺資訊；根據所述平臺物件資訊，計算所述平臺物件的相似度；基於所述平臺物件的相似度以及與所述第一關鍵訊框關聯的推薦物件，確定與所述關鍵訊框中第一關鍵訊框關聯的第二推薦物件。

所述平臺產品可以是電子商務平臺上的商品。所述平臺物件的語義資訊可以根據商品的文字資訊來獲取。所述平臺物件的視覺資訊可以是商品的圖片。所述平臺物件的語義資訊根據商品的文字資訊來獲取具體可以包括：對所述平臺物件在電子商務平臺上的文字資訊進行分詞處理；對所述分詞處理得到的分詞詞語根據詞性進行過濾；將所述過濾結果量化為tf-idf向量，所述tf-idf向量構成的矩陣為所述平臺物件的語義資訊。

上述實施例中，通過計算平臺物件之間的相似度，可以得到相似度較高的多個平臺物件，當某一平臺物件作為某一關鍵訊框的關聯物件時，可以將與該平臺物件相似度較高的多個平臺物件同時作為該關鍵訊框關聯的物件，可以保證每一關鍵訊框為用戶提供的關聯物件更豐富，可以提高用戶體檢。

本發明還提供一種推薦產品確定裝置的實施例，圖8是本發明提供的確定推薦物件的裝置的一個實施例的模組圖。如圖8所示，所述確定推薦物件的裝置800可以包括：關鍵訊框獲取模組801、物體資訊確定模組802和推薦物件確定模組803。其中，所述關鍵訊框獲取模組801，可以用於獲取與視頻資料對應的至少一個關鍵訊框。所述關鍵訊框為有效標識訊框內物體的視頻訊框。

所述物體資訊確定模組802，可以用於對所述關鍵訊框中的第一關鍵訊框進行物體檢測操作，確定與所述第一關鍵訊框關聯的物體資訊。所述物體資訊包括：物體語義資訊和物體視覺資訊。所述第一關鍵訊框可以是所述關鍵訊框中的任一關鍵訊框。

所述推薦物件確定模組803，可以用於根據所述物體語義資訊確定候選物件，根據所述物體視覺資訊從所述候選物件中篩選出與所述第一關鍵訊框關聯的推薦物件。

圖9是本發明裝置實施例中推薦物件確定模組的組成示意圖。如圖9所示，所述推薦物件確定模組803可以包括：相似度計算子模組8031和推薦物件篩選子模組8032。

所述相似度計算子模組8031，可以用於獲取所述候選物件的視覺資訊，計算所述候選物件的視覺資訊與所述物體視覺資訊的相似度。

所述推薦物件篩選子模組8032，可以用於根據所述候選物件的視覺資訊與所述物體視覺資訊的相似度，從所述候選物件中篩選出與所述第一關鍵訊框關聯的推薦物件。

在另一個實施方式中，所述確定推薦物件的裝置800還可以包括：關鍵訊框關聯模組(圖8中未顯示)。所述關鍵訊框關聯模組，可以用於對所述關鍵訊框中的每一關鍵訊框進行場景分類操作，分別確定每一所述關鍵訊框的場景語義資訊；根據所述關鍵訊框的場景語義資訊和物體語義資訊確定所述關鍵訊框的關鍵訊框語義資訊；根據關鍵訊框的顯示內容、所述關鍵訊框的關鍵訊框語義資訊，計算所述關鍵訊框中的任意兩個關鍵訊框之間的相似度；根據所述關鍵訊框之間的相似度以及與所述第一關鍵訊框關聯的推薦物件，確定與所述推薦物件關聯的一個或多個關鍵訊框。

在另一個實施方式中，所述確定推薦物件的裝置800還可以包括：物件關聯模組(圖8中未顯示)。所述物件關聯模組，可以用於獲取平臺物件資訊；所述平臺物件資訊包括：平臺物件的語義資訊和平臺物件的視覺資訊；根據所述平臺物件資訊，計算所述平臺物件的相似度；基於所述平臺物件的相似度以及與所述第一關鍵訊框關聯的推薦物件，確定與所述關鍵訊框中第一關鍵訊框關聯的第二推薦物件。

本發明實施例還提供一種電腦儲存媒體。在本實施例中，該電腦儲存媒體上可以儲有電腦指令，該電腦指令被處理器執行時實現以下步驟：

在另一個實施方式中，所述電腦儲存媒體上儲存的電腦指令被處理器執行時還可以實現以下步驟：對所述關鍵訊框中的每一關鍵訊框進行場景分類操作，分別確定每一所述關鍵訊框的場景語義資訊；根據所述關鍵訊框的場景語義資訊和物體語義資訊確定所述關鍵訊框的關鍵訊框語義資訊；根據關鍵訊框的顯示內容、所述關鍵訊框的關鍵訊框語義資訊，計算所述關鍵訊框中的任意兩個關鍵訊框之間的相似度；根據所述關鍵訊框之間的相似度以及與所述第一關鍵訊框關聯的推薦物件，確定與所述推薦物件關聯的一個或多個關鍵訊框。

在另一個實施方式中，所述電腦儲存媒體上儲存的電腦指令被處理器執行時還可以實現以下步驟：獲取平臺物件資訊；所述平臺物件資訊包括：平臺物件的語義資訊和平臺物件的視覺資訊；根據所述平臺物件資訊，計算所述平臺物件的相似度；基於所述平臺物件的相似度以及與所述第一關鍵訊框關聯的推薦物件，確定與所述關鍵訊框中第一關鍵訊框關聯的第二推薦物件。

本發明提供的推薦產品確定裝置實施例以及電腦儲存媒體實施例與本發明實施例提供的推薦產品確定方法相對應，所述裝置實施例或者執行所述電腦儲存媒體儲存的電腦指令可以實現本發明方法實施例，並取得方法實施例的技術效果。

在20世紀90年代，對於一個技術的改進可以很明顯地區分是硬體上的改進(例如，對二極體、電晶體、開關等電路結構的改進)還是軟體上的改進(對於方法流程的改進)。然而，隨著技術的發展，當今的很多方法流程的改進已經可以視為硬體電路結構的直接改進。設計人員幾乎都通過將改進的方法流程程式設計到硬體電路中來得到相應的硬體電路結構。因此，不能說一個方法流程的改進就不能用硬體實體模組來實現。例如，可程式設計邏輯裝置(Programmable Logic Device,PLD)(例如現場可程式設計閘陣列(Field Programmable Gate Array，FPGA))就是這樣一種積體電路，其邏輯功能由用戶對裝置程式設計來確定。由設計人員自行程式設計來把一個數位系統“整合”在一片PLD上，而不需要請晶片製造廠商來設計和製作專用的積體電路晶片2。而且，如今，取代手工地製作積體電路晶片，這種程式設計也多半改用“邏輯編譯器 (logic compiler)”軟體來實現，它與程式開發撰寫時所用的軟體編譯器相類似，而要編譯之前的原始代碼也得用特定的程式設計語言來撰寫，此稱之為硬體描述語言(Hardware Description Language，HDL)，而HDL也並非僅有一種，而是有許多種，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等，目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)與Verilog2。本領域技術人員也應該清楚，只需要將方法流程用上述幾種硬體描述語言稍作邏輯程式設計並程式設計到積體電路中，就可以很容易得到實現該邏輯方法流程的硬體電路。

控制器可以按任何適當的方式實現，例如，控制器可以採取例如微處理器或處理器以及儲存可由該(微)處理器執行的電腦可讀程式碼(例如軟體或韌體)的電腦可讀媒體、邏輯閘、開關、專用積體電路(Application Specific Integrated Circuit，ASIC)、可程式設計邏輯控制器和嵌入微控制器的形式，控制器的例子包括但不限於以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，記憶體控制器還可以被實現為記憶體的控制邏輯的一部分。

本領域技術人員也知道，除了以純電腦可讀程式碼方式實現控制器以外，完全可以通過將方法步驟進行邏輯程式設計來使得控制器以邏輯閘、開關、專用積體電路、可程式設計邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件，而對其內包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至，可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體部件內的結構。

上述實施例闡明的系統、裝置、模組或單元，具體可以由電腦晶片或實體實現，或者由具有某種功能的產品來實現。

為了描述的方便，描述以上裝置時以功能分為各種單元分別描述。當然，在實施本發明時可以把各單元的功能在同一個或多個軟體和/或硬體中實現。

通過以上的實施方式的描述可知，本領域的技術人員可以清楚地瞭解到本發明可借助軟體加必需的通用硬體平臺的方式來實現。基於這樣的理解，本發明的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來，在一個典型的配置中，計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。該電腦軟體產品可以包括若干指令用以使得一台電腦設備(可以是個人電腦，伺服器，或者網路設備等)執行本發明各個實施例或者實施例的某些部分所述的方法。該電腦軟體產品可以儲存在記憶體中，記憶體可能包括電腦可讀媒體中的非永久性記憶體，隨機存取記憶體(RAM)和/或非揮發性記憶體等形式，如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀媒體的實例。電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括，但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可抹除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶，磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸媒體，可用於儲存可以被計算設備存取的資訊。按照本文中的界定，電腦可讀媒體不包括暫態電腦可讀媒體(transitory media)，如調變的資料訊號和載波。

本說明書中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於系統實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。

本發明可用於眾多通用或專用的電腦系統環境或配置中。例如：個人電腦、伺服器電腦、手持設備或可攜式設備、平板型設備、多處理器系統、基於微處理器的系統、機上盒、可程式設計的消費電子設備、網路PC、小型電腦、大型電腦、包括以上任何系統或設備的分散式運算環境等等。

本發明可以在由電腦執行的電腦可執行指令的一般上下文中描述，例如程式模組。一般地，程式模組包括執行特定任務或實現特定抽象資料類型的常式、程式、物件、元件、資料結構等等。也可以在分散式運算環境中實踐本發明，在這些分散式運算環境中，由通過通訊網路而被連接的遠端處理設備來執行任務。在分散式運算環境中，程式模組可以位於包括存放裝置在內的本地和遠端電腦儲存媒體中。

雖然通過實施例描繪了本發明，本領域普通技術人員知道，本發明有許多變形和變化而不脫離本發明的精神，希望所附的申請專利範圍包括這些變形和變化而不脫離本發明的精神。

Claims

一種確定推薦物件的方法，包括：獲取與視頻資料對應的至少一個關鍵訊框，所述關鍵訊框為有效標識訊框內物體的視頻訊框；對所述關鍵訊框中的第一關鍵訊框進行物體檢測操作，確定與所述第一關鍵訊框關聯的物體資訊；所述物體資訊包括：物體語義資訊和物體視覺資訊；根據所述物體語義資訊確定候選物件，根據所述物體視覺資訊從所述候選物件中篩選出與所述第一關鍵訊框關聯的推薦物件；對所述關鍵訊框中的每一關鍵訊框進行場景分類操作，分別確定每一所述關鍵訊框的場景語義資訊；根據所述關鍵訊框的場景語義資訊和物體語義資訊確定所述關鍵訊框的關鍵訊框語義資訊；根據關鍵訊框的顯示內容、所述關鍵訊框的關鍵訊框語義資訊，計算所述關鍵訊框中的任意兩個關鍵訊框之間的相似度；根據所述關鍵訊框之間的相似度以及與所述第一關鍵訊框關聯的推薦物件，確定與所述推薦物件關聯的一個或多個關鍵訊框。
根據申請專利範圍第1項所述的方法，其中，所述獲取與視頻資料對應的關鍵訊框具體包括：比對所述視頻資料中相鄰視頻訊框所顯示的視頻內容，當視頻訊框所顯示的視頻內容發生變化時，將發生變化前的視頻內容對應的視頻訊框作為候選關鍵訊框；去除所述候選關鍵訊框中顯示內容相同的重複關鍵訊框，得到與所述視頻內容對應的關鍵訊框。
根據申請專利範圍第1項所述的方法，其中，所述根據所述物體視覺資訊從所述候選物件中篩選出與所述第一關鍵訊框關聯的推薦物件，包括：獲取所述候選物件的視覺資訊，計算所述候選物件的視覺資訊與所述物體視覺資訊的相似度；根據所述候選物件的視覺資訊與所述物體視覺資訊的相似度，從所述候選物件中篩選出與所述第一關鍵訊框關聯的推薦物件。
根據申請專利範圍第3項所述的方法，其中，所述物體語義資訊包括：物體的文字描述資訊。
根據申請專利範圍第4項所述的方法，其中，所述根據所述物體語義資訊確定候選物件，包括：根據所述物體的文字描述資訊在電子商務平臺上進行搜索，將搜索得到的物件作為候選物件。
根據申請專利範圍第3項所述的方法，其中，所述物體視覺資訊包括：物體的圖片。
根據申請專利範圍第1項所述的方法，其中，所述根據所述關鍵訊框的場景語義資訊和物體語義資訊確定所述關鍵訊框的關鍵訊框語義資訊，包括：計算所述場景語義資訊和所述物體語義資訊的tf-idf向量，所述計算得到的向量形成的矩陣為所述關鍵訊框的關鍵訊框語義資訊。
根據申請專利範圍第1項所述的方法，其中，所述根據所述關鍵訊框的關鍵訊框語義資訊和關鍵訊框的顯示內容，計算任意兩個關鍵訊框之間的相似度，包括：根據所述兩個關鍵訊框的顯示內容，計算所述兩個關鍵訊框之間的視覺相似度；根據所述兩個關鍵訊框的關鍵訊框語義資訊，計算所述兩個關鍵訊框之間的語義相似度；根據所述視覺相似度和所述語義相似度，計算所述兩個關鍵訊框之間的關鍵訊框相似度。
根據申請專利範圍第1項所述的方法，其中，所述方法還包括：獲取平臺物件資訊；所述平臺物件資訊包括：平臺物件的語義資訊和平臺物件的視覺資訊；根據所述平臺物件資訊，計算所述平臺物件的相似度；基於所述平臺物件的相似度以及與所述第一關鍵訊框關聯的推薦物件，確定與所述關鍵訊框中第一關鍵訊框關聯的第二推薦物件。
根據申請專利範圍第9項所述的方法，其中，所述平臺物件是電子商務平臺上的商品；所述平臺物件的語義資訊根據商品的文字資訊來獲取；所述平臺物件的視覺資訊是商品的圖片。
根據申請專利範圍第10項所述的方法，其中，所述平臺物件的語義資訊根據商品的文字資訊來獲取包括：對所述平臺物件在電子商務平臺上的文字資訊進行分詞處理；對所述分詞處理得到的分詞詞語根據詞性進行過濾；將所述過濾結果量化為tf-idf向量，所述tf-idf向量構成的矩陣為所述平臺物件的語義資訊。
一種確定推薦物件的裝置，包括：關鍵訊框獲取模組，用於獲取與視頻資料對應的至少一個關鍵訊框；所述關鍵訊框為有效標識訊框內物體的視頻訊框；物體資訊確定模組，用於對所述關鍵訊框中的第一關鍵訊框進行物體檢測操作，確定與所述第一關鍵訊框關聯的物體資訊；所述物體資訊包括：物體語義資訊和物體視覺資訊；所述第一關鍵訊框可以是所述關鍵訊框中的任一關鍵訊框；推薦物件確定模組，用於根據所述物體語義資訊確定候選物件，根據所述物體視覺資訊從所述候選物件中篩選出與所述第一關鍵訊框關聯的推薦物件；關鍵訊框關聯模組，用於對所述關鍵訊框中的每一關鍵訊框進行場景分類操作，分別確定每一所述關鍵訊框的場景語義資訊；根據所述關鍵訊框的場景語義資訊和物體語義資訊確定所述關鍵訊框的關鍵訊框語義資訊；根據關鍵訊框的顯示內容、所述關鍵訊框的關鍵訊框語義資訊，計算所述關鍵訊框中的任意兩個關鍵訊框之間的相似度；根據所述關鍵訊框之間的相似度以及與所述第一關鍵訊框關聯的推薦物件，確定與所述推薦物件關聯的一個或多個關鍵訊框。
根據申請專利範圍第12項所述的裝置，其中，所述推薦物件確定模組包括：相似度計算子模組和推薦物件篩選子模組；所述相似度計算子模組，用於獲取所述候選物件的視覺資訊，計算所述候選物件的視覺資訊與所述物體視覺資訊的相似度；所述推薦物件篩選子模組，用於根據所述候選物件的視覺資訊與所述物體視覺資訊的相似度，從所述候選物件中篩選出與所述第一關鍵訊框關聯的推薦物件。
根據申請專利範圍第12項所述的裝置，其中，還包括：物件關聯模組，用於獲取平臺物件資訊；所述平臺物件資訊包括：平臺物件的語義資訊和平臺物件的視覺資訊；根據所述平臺物件資訊，計算所述平臺物件的相似度；基於所述平臺物件的相似度以及與所述第一關鍵訊框關聯的推薦物件，確定與所述關鍵訊框中第一關鍵訊框關聯的第二推薦物件。
一種電腦儲存媒體，其上儲存有電腦指令，該電腦指令被處理器執行時實現以下步驟：獲取與視頻資料對應的至少一個關鍵訊框，所述關鍵訊框為有效標識訊框內物體的視頻訊框；對所述關鍵訊框中的第一關鍵訊框進行物體檢測操作，確定與所述第一關鍵訊框關聯的物體資訊；所述物體資訊包括：物體語義資訊和物體視覺資訊；根據所述物體語義資訊確定候選物件，根據所述物體視覺資訊從所述候選物件中篩選出確定與所述第一關鍵訊框關聯的推薦物件；對所述關鍵訊框中的每一關鍵訊框進行場景分類操作，分別確定每一所述關鍵訊框的場景語義資訊；根據所述關鍵訊框的場景語義資訊和物體語義資訊確定所述關鍵訊框的關鍵訊框語義資訊；根據關鍵訊框的顯示內容、所述關鍵訊框的關鍵訊框語義資訊，計算所述關鍵訊框中的任意兩個關鍵訊框之間的相似度；根據所述關鍵訊框之間的相似度以及與所述第一關鍵訊框關聯的推薦物件，確定與所述推薦物件關聯的一個或多個關鍵訊框。
根據申請專利範圍第15項所述的電腦儲存媒體，其中，所述電腦儲存媒體上儲存的電腦指令被處理器執行時還實現以下步驟：獲取平臺物件資訊；所述平臺物件資訊包括：平臺物件的語義資訊和平臺物件的視覺資訊；根據所述平臺物件資訊，計算所述平臺物件的相似度；基於所述平臺物件的相似度以及與所述第一關鍵訊框關聯的推薦物件，確定與所述關鍵訊框中第一關鍵訊框關聯的第二推薦物件。