TW202113575A - 檢索方法及裝置、儲存介質 - Google Patents
檢索方法及裝置、儲存介質 Download PDFInfo
- Publication number
- TW202113575A TW202113575A TW109100236A TW109100236A TW202113575A TW 202113575 A TW202113575 A TW 202113575A TW 109100236 A TW109100236 A TW 109100236A TW 109100236 A TW109100236 A TW 109100236A TW 202113575 A TW202113575 A TW 202113575A
- Authority
- TW
- Taiwan
- Prior art keywords
- video
- similarity
- character
- text
- retrieval
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/732—Query formulation
- G06F16/7343—Query language or query format
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7837—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
- G06F16/784—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/786—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本公開公開了一種檢索方法及裝置、儲存介質,其中,所述的方法包括:確定文本和至少一個視頻之間的第一相似度,所述文本用於表徵檢索條件;確定所述文本的第一人物互動圖和所述至少一個視頻的第二人物互動圖;確定所述第一人物互動圖和所述第二人物互動圖之間的第二相似度;根據所述第一相似度和所述第二相似度,從所述至少一個視頻中確定出與所述檢索條件相匹配的視頻。
Description
本公開關於電腦視覺技術領域,具體關於一種檢索方法及裝置、儲存介質。
在現實生活中,根據一段文字描述,在視頻資料庫中檢索符合文字描述的視頻這項功能有著廣泛的需求。傳統的檢索方法通常將文字編碼為詞向量,同時將視頻編碼成視頻特徵向量。
本公開提供一種檢索方法的技術方案。
根據本公開的第一方面,提供了一種檢索方法,所述方法包括:確定文本和至少一個視頻之間的第一相似度,所述文本用於表徵檢索條件;確定所述文本的第一人物互動圖和所述至少一個視頻的第二人物互動圖;確定所述第一人物互動圖和所述第二人物互動圖之間的第二相似度;根據所述第一相似度和所述第二相似度,從所述至少一個視頻中確定出與所述檢索條件相匹配的視頻。
如此,相對於傳統的基於特徵的檢索演算法,本公開通過確定文本和至少一個視頻之間的第一相似度,所述文本的第一人物互動圖和所述至少一個視頻的第二人物互動圖之間的第二相似度,可以利用文字本身的語法結構以及視頻本身的事件結構等資訊,進行視頻檢索,從而能提高根據文本描述檢索視頻如電影的準確率。
在一種可能的實現方式中,所述確定文本和至少一個視頻之間的第一相似度,包括:確定所述文本的段落特徵;確定所述至少一個視頻的視頻特徵;根據所述文本的段落特徵和所述至少一個視頻的視頻特徵,確定所述文本和所述至少一個視頻之間的第一相似度。
如此,通過分析文本的段落特徵和視頻的視頻特徵來確定第一相似度,可得到視頻和文本直接匹配的相似度,為後續確定與檢索條件相匹配的視頻提供參考依據。
在一種可能的實現方式中,所述段落特徵包括句子特徵和句子的數量;所述視頻特徵包括鏡頭特徵和鏡頭的數量。
如此,通過將句子特徵和句子的數量作為文本的段落特徵,將鏡頭特徵和鏡頭的數量作為視頻的視頻特徵,對文本和視頻進行了量化,進而能夠為分析文本的段落特徵和視頻的視頻特徵提供分析依據。
在一種可能的實現方式中,所述確定所述文本的第一人物互動圖,包括:檢測所述文本中包含的人名;在資料庫中搜索到所述人名對應的人物的肖像,並提取所述肖
像的圖像特徵,得到所述人物的角色節點;解析確定所述文本的語義樹,基於所述語義樹得到所述人物的運動特徵,得到所述人物的動作節點;將每個所述人物對應的角色節點和動作節點連接;其中,所述人物的角色節點用肖像的圖像特徵表徵;所述人物的動作節點採用語義樹中的運動特徵表徵。
如此,文本中的句子通常遵循與事件中的情景相似的順序,每一段文本都描述了視頻中的一個事件,通過構建文本的人物交互圖來捕捉視頻的敘事結構,為後續確定與檢索條件相匹配的視頻提供參考依據。
在一種可能的實現方式中,所述方法還包括:將連接同一動作節點的角色節點相互連接。
如此,有助於更好地構建文本的人物交互圖,進而更好地捕捉視頻的敘事結構。
在一種可能的實現方式中,所述檢測所述文本中包含的人名,包括:將所述文本中的代詞替換為所述代詞所代表的所述人名。
如此,防止漏掉文本中用非人名表示的人物,能夠對文本中描述的所有人物進行分析,進而提高確定文本的人物互動圖的準確率。
在一種可能的實現方式中,所述確定所述至少一個視頻的第二人物互動圖,包括:檢測出所述至少一個視頻的每個鏡頭中的人物;提取所述人物的人體特徵與運動特徵;將所述人物的人體特徵附加到所述人物的角色節點上,
將所述人物的運動特徵附加到所述人物的動作節點上;將每個人物對應的角色節點和動作節點相連。
如此,由於人物之間的相互作用經常在文本中描述,角色之間的互動在視頻故事中扮演著重要的角色,為了結合這一點,本公開提出了一個基於圖表表示的人物交互圖,通過確定視頻的人物交互圖和文本的人物交互圖之間的相似度,為後續確定與檢索條件相匹配的視頻提供參考依據。
在一種可能的實現方式中,所述確定所述至少一個視頻的第二人物互動圖,還包括:將同時出現在一個鏡頭中的一組人物作為同組人物,將所述同組人物中的人物的角色節點兩兩相連。
如此,有助於更好地構建視頻的人物交互圖,進而更好地捕捉視頻的敘事結構。
在一種可能的實現方式中,所述確定所述至少一個視頻的第二人物互動圖,還包括:將一個鏡頭中的一位人物和其相鄰鏡頭的每個人物的角色節點都相連。
如此,有助於更好地構建視頻的人物交互圖,進而更好地捕捉視頻的敘事結構。
在一種可能的實現方式中,所述根據所述第一相似度和所述第二相似度,從所述至少一個視頻中確定出與所述檢索條件相匹配的視頻,包括:對每個視頻的所述第一相似度和所述第二相似度加權求和,得到每個視頻的相似度
值;將相似度值最高的視頻,確定為與所述檢索條件相匹配的視頻。
如此,結合第一相似度和第二相似度來確定與檢索條件相匹配的視頻,能提高根據文本描述檢索視頻的準確率。
在一種可能的實現方式中,所述檢索方法通過檢索網路實現,所述方法還包括:確定文本和訓練樣本集中的視頻之間的第一相似度預測值,所述文本用於表徵檢索條件;確定所述文本的第一人物互動圖和所述訓練樣本集中的視頻的第二人物互動圖之間的第二相似度;根據所述第一相似度預測值與所述第一相似度真值確定所述第一相似度的損失;根據所述第二相似度預測值與所述第二相似度真值確定所述第二相似度的損失;根據所述第一相似度的損失以及所述第二相似度的損失,結合損失函數確定總損失值;根據所述總損失值調整所述檢索網路的權重參數。
如此,通過檢索網路實現檢索,有助於快速檢索出與文本描述相匹配的視頻。
在一種可能的實現方式中,所述檢索網路包括第一子網路以及第二子網路;所述第一子網路用於確定文本與視頻的第一相似度,所述第二子網路用於確定所述文本的第一人物互動圖和所述視頻的第二人物互動圖之間的相似度;所述根據所述總損失值調整所述檢索網路的權重參數,包括:基於所述總損失值調整所述第一子網路以及所述第二子網路的權重參數。
如此,通過不同的子網路分別確定不同的相似度,有助於快速得到與檢索條件相關的第一相似度和第二相似度,進而能夠快速檢索出與檢索條件相適應的視頻。
根據本公開的第二方面,提供了一種檢索裝置,所述裝置包括:第一確定模組,被配置為確定文本和至少一個視頻之間的第一相似度,所述文本用於表徵檢索條件;第二確定模組,被配置為確定所述文本的第一人物互動圖和所述至少一個視頻的第二人物互動圖;確定所述第一人物互動圖和所述第二人物互動圖之間的第二相似度;處理模組,被配置為根據所述第一相似度和所述第二相似度,從所述至少一個視頻中確定出與所述檢索條件相匹配的視頻。
在一種可能的實現方式中,所述第一確定模組,被配置為:確定所述文本的段落特徵;確定所述至少一個視頻的視頻特徵;根據所述文本的段落特徵和所述至少一個視頻的視頻特徵,確定所述文本和所述至少一個視頻之間的第一相似度。
在一種可能的實現方式中,所述段落特徵包括句子特徵和句子的數量;所述視頻特徵包括鏡頭特徵和鏡頭的數量。
在一種可能的實現方式中,所述第二確定模組,被配置為:檢測所述文本中包含的人名;在資料庫中搜索到所述人名對應的人物的肖像,並提取所述肖像的圖像特徵,得到所述人物的角色節點;解析確定所述文本的語義樹,基於所述語義樹得到所述人物的運動特徵,得到所述人
物的動作節點;將每個所述人物對應的角色節點和動作節點連接;其中,所述人物的角色節點用肖像的圖像特徵表徵;所述人物的動作節點採用語義樹中的運動特徵表徵。
在一種可能的實現方式中,所述第二確定模組,還被配置為:將連接同一動作節點的角色節點相互連接。
在一種可能的實現方式中,所述第二確定模組,被配置為:將所述文本中的代詞替換為所述代詞所代表的所述人名。
在一種可能的實現方式中,所述第二確定模組,被配置為:檢測出所述至少一個視頻的每個鏡頭中的人物;提取所述人物的人體特徵與運動特徵;將所述人物的人體特徵附加到所述人物的角色節點上,將所述人物的運動特徵附加到所述人物的動作節點上;將每個人物對應的角色節點和動作節點相連。
在一種可能的實現方式中,所述第二確定模組,還被配置為:將同時出現在一個鏡頭中的一組人物作為同組人物,將所述同組人物中的人物的角色節點兩兩相連。
在一種可能的實現方式中,所述第二確定模組,還被配置為:將一個鏡頭中的一位人物和其相鄰鏡頭的每個人物的角色節點都相連。
在一種可能的實現方式中,所述處理模組,被配置為:對每個視頻的所述第一相似度和所述第二相似度加權求和,得到每個視頻的相似度值;將相似度值最高的視頻,確定為與所述檢索條件相匹配的視頻。
在一種可能的實現方式中,所述檢索裝置通過檢索網路實現,所述裝置還包括:訓練模組,被配置為:確定文本和訓練樣本集中的視頻之間的第一相似度預測值,所述文本用於表徵檢索條件;確定所述文本的第一人物互動圖和所述訓練樣本集中的視頻的第二人物互動圖之間的第二相似度;根據所述第一相似度預測值與所述第一相似度真值確定所述第一相似度的損失;根據所述第二相似度預測值與所述第二相似度真值確定所述第二相似度的損失;根據所述第一相似度的損失以及所述第二相似度的損失,結合損失函數確定總損失值;根據所述總損失值調整所述檢索網路的權重參數。
在一種可能的實現方式中,所述檢索網路包括第一子網路以及第二子網路;所述第一子網路用於確定文本與視頻的第一相似度,所述第二子網路用於確定文本的第一人物互動圖和所述視頻的第二人物互動圖之間的相似度;所述訓練模組,被配置為:基於所述總損失值調整所述第一子網路以及所述第二子網路的權重參數。
根據本公開的第三方面,提供了一種檢索裝置,所述裝置包括:記憶體、處理器及儲存在記憶體上並可在處理器上運行的電腦程式,所述處理器執行所述程式時實現本公開實施例所述的檢索方法的步驟。
根據本公開的第四方面,提供了一種儲存介質,所述儲存介質儲存有電腦程式,所述電腦程式被處理器
執行時,使得所述處理器執行本公開實施例所述的檢索方法的步驟。
根據本公開的第五方面,提供了一種電腦程式,包括電腦可讀代碼,當所述電腦可讀代碼在電子設備中運行時,所述電子設備中的處理器執行用於實現本公開實施例所述的檢索方法。
本公開提供的技術方案,確定文本和至少一個視頻之間的第一相似度,所述文本用於表徵檢索條件;確定所述文本的第一人物互動圖和所述至少一個視頻的第二人物互動圖;確定所述第一人物互動圖和所述第二人物互動圖之間的第二相似度;根據所述第一相似度和所述第二相似度,從所述至少一個視頻中確定出與所述檢索條件相匹配的視頻。如此,相對於傳統的基於特徵的檢索演算法,本公開通過確定文本和至少一個視頻之間的第一相似度,所述文本的第一人物互動圖和所述至少一個視頻的第二人物互動圖之間的第二相似度,可以利用文字本身的語法結構以及視頻本身的事件結構等資訊,進行視頻檢索,從而能提高根據文本描述檢索視頻如電影的準確率。
10‧‧‧第一確定模組
20‧‧‧第二確定模組
30‧‧‧處理模組
40‧‧‧訓練模組
此處的附圖被併入說明書中並構成本說明書的一部分,這些附圖示出了符合本公開的實施例,並與說明書一起用於說明本公開的技術方案。
圖1是根據一示例性實施例示出的檢索方法概述框架示意圖;
圖2是根據一示例性實施例示出的一種檢索方法的實現流程示意圖;
圖3是根據一示例性實施例示出的一種檢索裝置的組成結構示意圖。
這裡將詳細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式並不代表與本公開實施例相一致的所有實施方式。相反,它們僅是與如所附申請專利範圍中所詳述的、本公開實施例的一些方面相一致的裝置和方法的例子。
在本公開實施例使用的術語是僅僅出於描述特定實施例的目的,而非旨在限制本公開實施例。在本公開實施例和所附請求項書中所使用的單數形式的“一種”、“一個”和“該”也旨在包括多數形式,除非上下文清楚地表示其他含義。還應當理解,本文中使用的術語“和/或”是指並包含一個或多個相關聯的列出專案的任何或所有可能組合。
應當理解,儘管在本公開實施例可能採用術語第一、第二、第三等來描述各種資訊,但這些資訊不應限於
這些術語。這些術語僅用來將同一類型的資訊彼此區分開。例如,在不脫離本公開實施例範圍的情況下,第一資訊也可以被稱為第二資訊,類似地,第二資訊也可以被稱為第一資訊。取決於語境,如在此所使用的詞語“如果”及“若”可以被解釋成為“在……時”或“當……時”或“回應於確定”。
下面結合附圖和具體實施例對本公開的檢索方法進行詳細闡述。
圖1是根據一示例性實施例示出的檢索方法概述框架示意圖,該框架用於匹配視頻和文本,如匹配電影節段和劇情片段。該框架包括兩類別模組:事件流模組(EFM,Event Flow Module)和人物交互模組(CIM,Character Interaction Module);事件流模組被配置為探索事件流的事件結構,以段落特徵和視頻特徵為輸入,輸出視頻和段落直接的相似度;人物交互模組被配置為利用人物交互,分別構建段落中的人物互動圖和視頻中的人物互動圖,再通過圖匹配演算法衡量二圖之間的相似度。
當然,在其他實施例中,總匹配分數也可以是上述兩個模組得分的加權和等運算結果。
本公開實施例提供一種檢索方法,此檢索方法可應用於終端設備、伺服器或其他電子設備。其中,終端設備可以為使用者設備(UE,User Equipment)、移動設備、蜂窩電話、無線電話、個人數位助理(PDA,Personal Digital Assistant)、手持設備、計算設備、車載設備、可穿戴設備等。在一些可能的實現方式中,該處理方法可以通過處理器調用記憶體中儲存的電腦可讀指令的方式來實現。如圖2所示,所述方法主要包括如下。
步驟S101、確定文本和至少一個視頻之間的第一相似度,所述文本用於表徵檢索條件。
這裡,所述文本是用於表徵檢索條件的一段文字描述。本公開實施例對獲取文本的方式不作限定。例如,電子設備可以接收使用者在輸入區輸入的文字描述,或者,接收使用者在語音輸入,然後將語音資料轉換成文字描述。
這裡,所述檢索條件包括人名和至少一個表徵動作的動詞。例如,傑克打了他自己一拳。
這裡,所述至少一個視頻位於可供檢索的本地或第三方視頻資料庫中。
這裡,所述第一相似度是表徵視頻和文本直接匹配的相似度。
在一個例子中,電子設備將文本的段落特徵和視頻的視頻特徵輸入到事件流模組,由事件流模組輸出視頻和文本的相似度,即第一相似度。
在一些可選實現方式中,所述確定文本和至少一個視頻之間的第一相似度,包括:
確定所述文本的段落特徵,所述段落特徵包括句子特徵和句子的數量;
確定所述至少一個視頻的視頻特徵,所述視頻特徵包括鏡頭特徵和鏡頭的數量;
根據所述文本的段落特徵和所述至少一個視頻的視頻特徵,確定所述文本和所述至少一個視頻之間的第一相似度。
在一些例子中,確定文本的段落特徵,包括:可以利用第一神經網路對文本進行處理,得到文本的段落特徵,所述段落特徵包括句子特徵和句子的數量。例如,每個單詞對應一個300維的向量,將句子中每個單詞的特徵加起來就是句子的特徵。句子數量是指文本中的句號的數量,將輸入的文本用句號將句子分割開,得到句子的數量。
在一些例子中,確定視頻的視頻特徵,包括:可以利用第二神經網路對視頻進行處理,具體地,先將視頻解碼成圖片流,然後基於圖片流得到視頻特徵;所述視頻特徵包括鏡頭特徵和鏡頭的數量。例如,鏡頭特徵是將鏡頭的3張關鍵幀的圖片通過神經網路得到3個2348維的向量,再取平均。一個鏡頭是指視頻中同一攝影機在同一機位拍攝的
連續畫面,如果畫面切換則是另一個鏡頭,按照現有的鏡頭切割演算法來得到鏡頭的數量。
如此,通過分析文本的段落特徵和視頻的視頻特徵來確定第一相似度,為後續確定出與檢索條件相匹配的視頻提供依據;利用文字本身的語法結構以及視頻本身的事件結構等資訊,進行視頻檢索,從而能提高根據文本描述檢索視頻的準確率。
上述方案中,可選地,所述第一相似度的計算公式為:
其中,一個段落特徵由M個句子特徵組成,設句子特徵
為,則段落特徵表示為;一個視頻
特徵由N個鏡頭特徵組成,設鏡頭特徵為,則視頻特
徵表示為Ψ=[ψ 1,...,ψ N ] T ;設布林分配矩陣,
用於將每個鏡頭分配給每個句子,其中y ij =Y(i,j)=1代表第i個鏡頭被分配給第j個句子,y ij =Y(i,j)=0代表第i個鏡頭未被分配給第j個句子。
上述方案中,可選地,所述第一相似度的計算公式的約束條件包括:
每個鏡頭最多被分配給1個句子;
序號靠前的鏡頭被分配到的句子,相對於序號在後的鏡頭被分配到的句子,更靠前。
因此,可將計算第一相似度轉化為求解如下公式(3)的優化目標,將優化目標和約束條件聯合起來,可以得到如下優化公式:
max Y tr(ΦΨ T Y) 式(3)
其中,公式(3)是優化目標;s.t.是such that的縮寫,引出表示公式(3)約束條件的公式(4)和(5);y i 表示
Y的第i行向量,表示一個布林向量的第一個非零值的序
號。公式(4)中,Y是一個矩陣,1是一個向量(所有元素都是1的向量),Y1是矩陣Y和向量1的乘積。
在其他實施例中,也可以對段落特徵和視頻特徵進行其他類型的計算,例如多個段落特徵和對應的多個視頻特徵進行加權或比例運算等,得到所述第一相似度。
步驟S102、確定所述文本的第一人物互動圖和所述至少一個視頻的第二人物互動圖。
這裡,人物互動圖是用於表徵人物之間的角色關係和動作關係的圖,包括角色節點和動作節點。
在一些可選實施方式中,一個文本對應一個第一人物互動圖,一個視頻對應一個第二人物互動圖。
在一些可選實施方式中,所述確定所述文本的第一人物互動圖,包括:檢測所述文本中包含的人名;在資料庫中搜索到所述人名對應的人物的肖像,並提取所述肖像的圖像特徵,得到所述人物的角色節點;解析確定所述文本的語義樹,基於所述語義樹得到所述人物的運動特徵,得到所述人物的動作節點;將每個所述人物對應的角色節點和動作節點連接。
其中,資料庫是預先儲存有大量的人名和肖像的對應關係的庫,所述肖像是與該人名對應的人物的肖像。肖像資料可從網路上爬取,如可從imdb網站和tmdb網站上爬取到肖像數據。其中,所述人物的角色節點用肖像的圖像特徵表徵;所述人物的動作節點採用語義樹中的運動特徵表徵。
在一些實施例中,解析確定所述文本的語義樹,包括:通過依存句法演算法解析確定文本的語義樹。例如,利用依存句法演算法將每句話分成一個一個的詞,然後根據語言學的一些規則,把詞作為節點,建一棵語義樹。
先將每個句子得到一個圖,然後每一段有多個句子,就是多個圖。但是,在數學上,我們可以把這幾個圖看成一個圖(一個非連接圖)。也就是說,在數學上圖的定義不一定是要每個節點到另一個節點都有路徑可以達到的,也可以是那種可分割成幾個小圖的圖。
其中,如果多個人名指向同一個動作節點,則將所述多個人名的動作節點兩兩之間用邊連接。
其中,邊連接的兩個節點特徵拼接作為邊的特徵。
示例性地,可將邊連接的兩個節點特徵分別表示為兩個向量,將該兩個向量進行拼接(例如維度相加),則得到邊的特徵。比如一個向量3維,另一個向量4維度,直接拼接成7維的向量。舉例來說,若將[1,3,4]和[2,5,3,6]拼接,則拼接的結果是[1,3,4,2,5,3,6]。
在一些例子中,可以採用Word2Vec詞向量經神經網路處理後的特徵作為動作節點的表徵,即作為人物的運動特徵。
在一些例子中,檢測文本中包含的人名時,將文本中的代詞替換為所述代詞所代表的人名。具體地,通過人名檢測工具(如斯坦福人名檢測工具包)檢測出所有的人名(如“傑克”)。之後通過共指解析工具將代詞替換成該詞所代表的人名(如“傑克打了他自己一拳”中的“他”提取為“傑克”)。
在一些實施例中,基於人名在資料庫中搜索到所述人名對應的人物的肖像,並通過神經網路提取所述肖像的圖像特徵;其中,所述圖像特徵包括人臉和身體特徵。通過神經網路確定所述文本中每個句子的語義樹以及所述語義樹上每個詞的詞性,如名詞、代詞、動詞等,所述語義樹上每個節點是所述句子中的一個詞,將句子中的動詞作為人物的運動特徵,即動作節點,將名詞或代詞對應的人名作為人物角色節點,將人物的肖像的圖像特徵附加到人物角色節
點;根據所述語義樹和所述人名,將每個所述人名對應的角色節點和所述人名的動作節點連接,如果多個人名指向同一個動作節點,則所述多個人名兩兩之間用邊連接。
在一些可選實施方式中,所述確定所述至少一個視頻的第二人物互動圖,包括:
檢測出所述至少一個視頻的每個鏡頭中的人物;
提取所述人物的人體特徵與運動特徵;
將所述人物的人體特徵附加到所述人物的角色節點上,將所述人物的運動特徵附加到所述人物的運動節點上;
將每個人物對應的角色節點和運動節點相連。
這裡,一個鏡頭是指視頻中同一攝影機在同一機位拍攝的連續畫面,如果畫面切換則是另一個鏡頭,按照現有的鏡頭切割演算法來得到鏡頭的數量。
這裡,所述人體特徵是人物的人臉和身體特徵,將鏡頭對應的圖像通過訓練好的模型可以得到圖像中的人物的人體特徵。
這裡,所述運動特徵是將鏡頭對應的圖像輸入訓練好的模型得到的圖像中的人物的運動特徵,例如識別得到的人物在當前圖像中的動作(如喝水)。
進一步地,所述確定所述至少一個視頻的第二人物互動圖時,還包括:如果一組人物同時出現在一個鏡頭中,則將同組人物中的人物的角色節點兩兩相連;將一個鏡頭中的一位人物和其相鄰鏡頭的每個人物的角色節點都相連。
這裡,所述相鄰鏡頭是指當前鏡頭的前一個鏡頭和後一個鏡頭。
其中,如果多個角色節點指向同一個動作節點,則將所述多個角色節點的動作節點兩兩之間用邊連接。
其中,邊連接的兩個節點特徵拼接作為邊的特徵。
上述邊特徵的確定過程可參考第一人物互動圖中邊特徵的確定方法,此處不再贅述。
步驟S103、確定所述第一人物互動圖和所述第二人物互動圖之間的第二相似度。
這裡,所述第二相似度是表徵第一人物互動圖和第二人物互動圖二圖進行匹配計算得到的相似度。
在一個例子中,電子設備將文本和視頻輸入到人物互動模組,由人物互動模組構建文本中的第一人物互動圖和視頻中的第二人物互動圖,再通過圖匹配演算法衡量二圖之間的相似度,輸出該相似度,即第二相似度。
在一些可選實施方式中,所述第二相似度的計算公式為:
其中,u是二值向量(布林向量),u ia =1代表V p 裡第i個節點和V q 裡第a個節點能匹配上,u ia =0代表V p 裡第i個節點和V q 裡第a個節點不能匹配上。同理,u jb =1代表V p 裡第j個節點和V q 裡第b個節點能匹配上,u jb =0代表V p 裡第j個節點和V q 裡第b個節點不能匹配上;i,a,j,b都是索引符號;
k ia;ia 代表V p 裡第i個節點和V q 裡第a個節點的相似度,k ia;jb 代表E p 裡的邊(i,j)和E q 裡的邊(a,b)的相似度。
|V p |=m=m a +m c ,m a 為動作節點數量,m c 為角色節點數量;
|V q |=n=n a +n c ,n a 為動作節點數量,n c 為角色節點數量;
給定布林向量,如果u ia =1,則代表被
匹配到;相似度矩陣,相似度矩陣K對角線
元素為節點的相似度k ia;ia =K(ia,ia),衡量V q 中第i個節點和
V p 中第a個節點的相似度;k ia;jb =K(ia,jb)衡量邊和邊
的相似度,相似度由節點或邊對應的特徵,通過點
積處理可得。
在一些可選實施方式中,所述第二相似度的計算公式的約束條件包括:
一個節點只能被匹配到另一個集合的最多一個節點;
不同類型的節點不能被匹配。
也就是說,匹配必須是一對一匹配,即一個節點之內被匹配到另一個集合的最多一個節點。不同類型的節點不能被匹配,比如角色節點不能被另一集合的動作節點所匹配。
因此,計算上述第二相似度可轉化為求解如下優化公式(7),最終的優化公式和上述約束條件結合起來,可以得到:
max u u T Ku, 式(7)
在解優化的過程中,會得到u,將u帶入公式(7)就能得到相似度。
在其他實施例中,也可以通過其他運算方式,例如對匹配的節點特徵和動作特徵進行加權平均等運算,得到所述第二相似度。
步驟S104、根據所述第一相似度和所述第二相似度,從所述至少一個視頻中確定出與所述檢索條件相匹配的視頻。
在一些可選實施方式中,所述根據所述第一相似度和所述第二相似度,從所述至少一個視頻中確定出與所述檢索條件相匹配的視頻,包括:對每個視頻的所述第一相
似度和所述第二相似度加權求和,得到每個視頻的相似度值;將相似度值最高的視頻,確定為與所述檢索條件相匹配的視頻。
在一些實施例中,權重通過資料庫中的驗證集確定,在驗證集上可以通過調權重方式,根據最終檢索結果回饋得到一組最佳的權重,進而可直接用到測試集上或直接用到實際檢索中。
如此,利用文字本身的語法結構以及視頻本身的事件結構等資訊,進行視頻檢索,將相似度值最高的視頻,確定為與所述檢索條件相匹配的視頻,能提高根據文本描述檢索視頻的準確率。
當然,在其他實施例中,也可以直接將第一相似度和第二相似度相加,得到每個視頻對應的相似度。
上述方案中,所述檢索方法通過檢索網路實現,該檢索網路的訓練方法,包括:確定文本和訓練樣本集中的視頻之間的第一相似度預測值,所述文本用於表徵檢索條件;確定所述文本的第一人物互動圖和所述訓練樣本集中的視頻的第二人物互動圖之間的第二相似度;根據所述第一相似度預測值與所述第一相似度真值確定所述第一相似度的損失;根據所述第二相似度預測值與所述第二相似度真值確定所述第二相似度的損失;根據所述第一相似度的損失以及所述第二相似度的損失,結合損失函數確定總損失值;根據所述總損失值調整所述檢索網路的權重參數。
本公開實施例中,所述檢索網路對應的檢索框架裡有不同的組成模組,每個模組裡可使用不同類型的神經網路。所述檢索框架是事件流模組和人物關係模組共同組成的框架。
在一些可選實施方式中,所述檢索網路包括第一子網路以及第二子網路;所述第一子網路用於確定文本與視頻的第一相似度,所述第二子網路用於確定文本的第一人物互動圖和所述視頻的第二人物互動圖之間的相似度。
具體地,將文本和視頻輸入第一子網路,該第一子網路輸出文本與視頻的第一相似度預測值;將文本和視頻輸入第二子網路,該第二子網路輸出文本的第一人物互動圖和所述視頻的第二人物互動圖之間的相似度預測值;根據標注的真值,能夠得到文本與視頻的第一相似度真值,以及所述文本的第一人物互動圖和所述視頻的第二人物互動圖之間的相似度真值,根據第一相似度預測值和第一相似度真值的差異,可得到第一相似度的損失;根據第二相似度預測值和第二相似度真值得差異,可得到第二相似度的損失;根據第一相似度的損失和第二相似度的損失,再結合損失函數調整第一子網路和第二自網路的網路參數。
在一個例子中,構建了一個資料集,它包含了328部電影的概要,以及概要段落和電影片段之間的注釋關聯。具體地,該資料集不僅為每部電影提供了高品質的詳細概要,而且還通過手動注釋將概要的各個段落與電影片段相關聯;在這裡,每個電影片段可以持續到每個分鐘和捕獲完
整事件。這些電影片段,再加上相關的概要段落,可以讓人在更大的範圍和更高的語義層次上進行分析。在這個資料集的基礎上,本公開利用一個包括事件流模組和人物交互模組的框架來執行電影片段和概要段落之間的匹配。與傳統的基於特徵的匹配方法相比,該框架可顯著提高匹配精度,同時也揭示了敘事結構和人物互動在電影理解中的重要性。
在一些可選實施方式中,所述根據所述總損失值調整所述檢索網路的權重參數,包括:
基於所述總損失值調整所述第一子網路以及所述第二子網路的權重參數。
在一些可選實施方式中,所述損失函數表示為:
L=L(Y,θ efm ,u,θ cim ) 式(12)
其中,θ efm 表示在事件流模組中嵌入網路的模型參數,θ cim 表示在人物交互模組中嵌入網路的模型參數。
其中,L(S;θ)表示為:
其中,Y*是使得公式(3)的值最大的Y,也稱之為最佳解。
其中,u*是使得公式(7)最大的u。
其中,S(Q i ,P j )表示第i個視頻Q i 與第j個段落P j 的相似度;S(Q i ,P i )表示第i個視頻Q i 與第i個段落P i 的相似度,S(Q j ,P i )表示第j個視頻Q j 與第i個段落P i 的相似度;α為損失函數的參數,表示最小相似度差值。
本公開所述技術方案可用於各種檢索任務中,對檢索場景不做限定,比如檢測場景包括電影片段檢索場景、電視劇片段檢索場景、短視頻檢索場景等。
本公開實施例提出的檢索方法,確定文本和至少一個視頻之間的第一相似度,所述文本用於表徵檢索條件;確定所述文本的第一人物互動圖和所述至少一個視頻的第二人物互動圖;確定所述第一人物互動圖和所述第二人物互動圖之間的第二相似度;根據所述第一相似度和所述第二相似度,從所述至少一個視頻中確定出與所述檢索條件相匹配的視頻。如此,相對於傳統的基於特徵的檢索演算法,本公開通過確定文本和至少一個視頻之間的第一相似度,所述文本的第一人物互動圖和所述至少一個視頻的第二人物互動圖之間的第二相似度,解決了傳統的基於特徵的檢索演算法沒有利用文字本身的語法結構以及視頻本身的事件結構等資訊的問題,採用事件流匹配的方法和基於人物互動圖匹配的方法進行視頻檢索,能提高根據文本描述檢索視頻的準確率。
對應上述檢索方法,本公開實施例提供了一種檢索裝置,如圖3所示,所述裝置包括:第一確定模組10,用於被配置為文本和至少一個視頻之間的第一相似度,所述文本用於表徵檢索條件;第二確定模組20,被配置為確定所述文本的第一人物互動圖和所述至少一個視頻的第二人物互動圖;確定所述第一人物互動圖和所述第二人物互動圖之間的第二相似度;處理模組30,被配置為根據所述第一相似度和所述第二相似度,從所述至少一個視頻中確定出與所述檢索條件相匹配的視頻。
在一些實施例中,所述第一確定模組10,被配置為:確定所述文本的段落特徵;確定所述至少一個視頻的視頻特徵;根據所述文本的段落特徵和所述至少一個視頻的視頻特徵,確定所述文本和所述至少一個視頻之間的第一相似度。
在一些實施例中,所述段落特徵包括句子特徵和句子的數量;所述視頻特徵包括鏡頭特徵和鏡頭的數量。
在一些實施例中,所述第二確定模組20,被配置為:檢測所述文本中包含的人名;在資料庫中搜索到所述人名對應的人物的肖像,並提取所述肖像的圖像特徵,得到所述人物的角色節點;解析確定所述文本的語義樹,基於所述語義樹得到所述人物的運動特徵,得到所述人物的動作節點;將每個所述人物對應的角色節點和動作節點連接;其中,所述人物的角色節點用肖像的圖像特徵表徵;所述人物的動作節點採用語義樹中的運動特徵表徵。
在一些實施例中,所述第二確定模組20,還被配置為:將連接同一動作節點的角色節點相互連接。
在一些實施例中,所述第二確定模組20,被配置為:將所述文本中的代詞替換為所述代詞所代表的所述人名。
在一些實施例中,所述第二確定模組20,被配置為:檢測出所述至少一個視頻的每個鏡頭中的人物;提取所述人物的人體特徵與運動特徵;將所述人物的人體特徵附加到所述人物的角色節點上,將所述人物的運動特徵附加到所述人物的動作節點上;將每個人物對應的角色節點和動作節點相連。
在一些實施例中,所述第二確定模組20,還被配置為:將同時出現在一個鏡頭中的一組人物作為同組人物,將所述同組人物中的人物的角色節點兩兩相連。
在一些實施例中,所述第二確定模組20,還被配置為:將一個鏡頭中的一位人物和其相鄰鏡頭的每個人物的角色節點都相連。
在一些實施例中,所述處理模組30,被配置為:對每個視頻的所述第一相似度和所述第二相似度加權求和,得到每個視頻的相似度值;將相似度值最高的視頻,確定為與所述檢索條件相匹配的視頻。
在一些實施例中,所述檢索裝置通過檢索網路實現,所述裝置還包括:訓練模組40,被配置為:確定文本和訓練樣本集中的視頻之間的第一相似度預測值,所述文
本用於表徵檢索條件;確定所述文本的第一人物互動圖和所述訓練樣本集中的視頻的第二人物互動圖之間的第二相似度;根據所述第一相似度預測值與所述第一相似度真值確定所述第一相似度的損失;根據所述第二相似度預測值與所述第二相似度真值確定所述第二相似度的損失;根據所述第一相似度的損失以及所述第二相似度的損失,結合損失函數確定總損失值;根據所述總損失值調整所述檢索網路的權重參數。
在一些實施例中,所述檢索網路包括第一子網路以及第二子網路;所述第一子網路用於確定文本與視頻的第一相似度,所述第二子網路用於確定文本的第一人物互動圖和所述視頻的第二人物互動圖之間的相似度;所述訓練模組40,被配置為:基於所述總損失值調整所述第一子網路以及所述第二子網路的權重參數。
本領域技術人員應當理解,圖3中所示的檢索裝置中的各處理模組的實現功能可參照前述檢索方法的相關描述而理解。本領域技術人員應當理解,圖3所示的檢索裝置中各處理單元的功能可通過運行於處理器上的程式而實現,也可通過具體的邏輯電路而實現。
實際應用中,上述第一確定模組10、第二確定模組20、處理模組30和訓練模組40的具體結構均可對應於處理器。所述處理器具體的結構可以為中央處理器(CPU,Central Processing Unit)、微處理器(MCU,Micro Controller Unit)、數位訊號處理器(DSP,Digital Signal
Processing)或可程式設計邏輯器件(PLC,Programmable Logic Controller)等具有處理功能的電子元器件或電子元器件的集合。其中,所述處理器包括可執行代碼,所述可執行代碼儲存在儲存介質中,所述處理器可以通過匯流排等通信介面與所述儲存介質中相連,在執行具體的各單元的對應功能時,從所述儲存介質中讀取並運行所述可執行代碼。所述儲存介質用於儲存所述可執行代碼的部分較佳為非瞬間儲存介質。
本公開實施例提供的檢索裝置,能提高根據文本檢索視頻的準確率。
本公開實施例還記載了一種檢索裝置,所述裝置包括:記憶體、處理器及儲存在記憶體上並可在處理器上運行的電腦程式,所述處理器執行所述程式時實現前述任意一個技術方案提供的檢索方法。
作為一種實施方式,所述處理器執行所述程式時實現:確定文本和至少一個視頻之間的第一相似度,所述文本用於表徵檢索條件;確定所述文本的第一人物互動圖和所述至少一個視頻的第二人物互動圖;確定所述第一人物互動圖和所述第二人物互動圖之間的第二相似度;根據所述第一相似度和所述第二相似度,從所述至少一個視頻中確定出與所述檢索條件相匹配的視頻。
作為一種實施方式,所述處理器執行所述程式時實現:所述確定文本和至少一個視頻之間的第一相似度,包括:確定所述文本的段落特徵;確定所述至少一個視頻的
視頻特徵;根據所述文本的段落特徵和所述至少一個視頻的視頻特徵,確定所述文本和所述至少一個視頻之間的第一相似度。
作為一種實施方式,所述處理器執行所述程式時實現:檢測所述文本中包含的人名;在資料庫中搜索到所述人名對應的人物的肖像,並提取所述肖像的圖像特徵,得到所述人物的角色節點;解析確定所述文本的語義樹,基於所述語義樹得到所述人物的運動特徵,得到所述人物的動作節點;將每個所述人物對應的角色節點和動作節點連接;其中,所述人物的角色節點用肖像的圖像特徵表徵;所述人物的動作節點採用語義樹中的運動特徵表徵。
作為一種實施方式,所述處理器執行所述程式時實現:將連接同一動作節點的角色節點相互連接。
作為一種實施方式,所述處理器執行所述程式時實現:將所述文本中的代詞替換為所述代詞所代表的所述人名。
作為一種實施方式,所述處理器執行所述程式時實現:檢測出所述至少一個視頻的每個鏡頭中的人物;提取所述人物的人體特徵與運動特徵;將所述人物的人體特徵附加到所述人物的角色節點上,將所述人物的運動特徵附加到所述人物的動作節點上;將每個人物對應的角色節點和動作節點相連。
作為一種實施方式,所述處理器執行所述程式時實現:將同時出現在一個鏡頭中的一組人物作為同組人物,將所述同組人物中的人物的角色節點兩兩相連。
作為一種實施方式,所述處理器執行所述程式時實現:將一個鏡頭中的一位人物和其相鄰鏡頭的每個人物的角色節點都相連。
作為一種實施方式,所述處理器執行所述程式時實現:對每個視頻的所述第一相似度和所述第二相似度加權求和,得到每個視頻的相似度值;將相似度值最高的視頻,確定為與所述檢索條件相匹配的視頻。
作為一種實施方式,所述處理器執行所述程式時實現:確定文本和訓練樣本集中的視頻之間的第一相似度預測值,所述文本用於表徵檢索條件;確定所述文本的第一人物互動圖和所述訓練樣本集中的視頻的第二人物互動圖之間的第二相似度;根據所述第一相似度預測值與所述第一相似度真值確定所述第一相似度的損失;根據所述第二相似度預測值與所述第二相似度真值確定所述第二相似度的損失;根據所述第一相似度的損失以及所述第二相似度的損失,結合損失函數確定總損失值;根據所述總損失值調整檢索網路的權重參數。
作為一種實施方式,所述處理器執行所述程式時實現:基於所述總損失值調整所述第一子網路以及所述第二子網路的權重參數。
本公開實施例提供的檢索裝置,能提高根據文本描述檢索視頻的準確率。
本公開實施例還記載了一種電腦儲存介質,所述電腦儲存介質中儲存有電腦可執行指令,所述電腦可執行指令用於執行前述各個實施例所述的檢索方法。也就是說,所述電腦可執行指令被處理器執行之後,能夠實現前述任意一個技術方案提供的檢索方法。該電腦儲存介質可以是易失性電腦可讀儲存介質或非易失性電腦可讀儲存介質。
本公開實施例還提供了一種電腦程式產品,包括電腦可讀代碼,當電腦可讀代碼在設備上運行時,設備中的處理器執行用於實現如上任一實施例提供的檢索方法。
該上述電腦程式產品可以具體通過硬體、軟體或其結合的方式實現。在一個可選實施例中,所述電腦程式產品具體體現為電腦儲存介質,在另一個可選實施例中,電腦程式產品具體體現為軟體產品,例如軟體發展包(Software Development Kit,SDK)等等。
本領域技術人員應當理解,本實施例的電腦儲存介質中各程式的功能,可參照前述各實施例所述的檢索方法的相關描述而理解。
在本公開所提供的幾個實施例中,應該理解到,所揭露的設備和方法,可以通過其它的方式實現。以上所描述的設備實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,如:多個單元或元件可以結合,或可以集成到另一
個系統,或一些特徵可以忽略,或不執行。另外,所顯示或討論的各組成部分相互之間的耦合、或直接耦合、或通信連接可以是通過一些介面,設備或單元的間接耦合或通信連接,可以是電性的、機械的或其它形式的。
上述作為分離部件說明的單元可以是、或也可以不是物理上分開的,作為單元顯示的部件可以是、或也可以不是物理單元;既可以位於一個地方,也可以分佈到多個網路單元上;可以根據實際的需要選擇其中的部分或全部單元來實現本實施例方案的目的。
另外,在本公開各實施例中的各功能單元可以全部集成在一個處理單元中,也可以是各單元分別單獨作為一個單元,也可以兩個或兩個以上單元集成在一個單元中;上述集成的單元既可以採用硬體的形式實現,也可以採用硬體加軟體功能單元的形式實現。
本領域普通技術人員可以理解:實現上述方法實施例的全部或部分步驟可以通過程式指令相關的硬體來完成,前述的程式可以儲存於電腦可讀取儲存介質中,該程式在執行時,執行包括上述方法實施例的步驟;而前述的儲存介質包括:移動儲存裝置、唯讀記憶體(ROM,Read-Only Memory)、隨機存取記憶體(RAM,Random Access Memory)、磁碟或者光碟等各種可以儲存程式碼的介質。
或者,本公開上述集成的單元如果以軟體功能模組的形式實現並作為獨立的產品銷售或使用時,也可以儲存在一個電腦可讀取儲存介質中。基於這樣的理解,本公開
實施例的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來,該電腦軟體產品儲存在一個儲存介質中,包括若干指令用以使得一台電腦設備(可以是個人電腦、伺服器、或者網路設備等)執行本公開各個實施例所述方法的全部或部分。而前述的儲存介質包括:移動儲存裝置、ROM、RAM、磁碟或者光碟等各種可以儲存程式碼的介質。
以上所述,僅為本公開的具體實施方式,但本公開的保護範圍並不局限於此,任何熟悉本技術領域的技術人員在本公開揭露的技術範圍內,可輕易想到變化或替換,都應涵蓋在本公開的保護範圍之內。因此,本公開的保護範圍應以所述請求項的保護範圍為准。
工業實用性
本公開實施例提供的技術方案,確定文本和至少一個視頻之間的第一相似度,所述文本用於表徵檢索條件;確定所述文本的第一人物互動圖和所述至少一個視頻的第二人物互動圖;確定所述第一人物互動圖和所述第二人物互動圖之間的第二相似度;根據所述第一相似度和所述第二相似度,從所述至少一個視頻中確定出與所述檢索條件相匹配的視頻。如此,相對於傳統的基於特徵的檢索演算法,本公開通過確定文本和至少一個視頻之間的第一相似度,所述文本的第一人物互動圖和所述至少一個視頻的第二人物互動圖之間的第二相似度,可以利用文字本身的語法結構以及視頻本
身的事件結構等資訊,進行視頻檢索,從而能提高根據文本描述檢索視頻如電影的準確率。
圖2代表圖為流程圖,無元件符號說明。
Claims (12)
- 一種檢索方法,所述方法包括:確定文本和至少一個視頻之間的第一相似度,所述文本用於表徵檢索條件;確定所述文本的第一人物互動圖和所述至少一個視頻的第二人物互動圖;確定所述第一人物互動圖和所述第二人物互動圖之間的第二相似度;根據所述第一相似度和所述第二相似度,從所述至少一個視頻中確定出與所述檢索條件相匹配的視頻。
- 根據請求項1所述的檢索方法,其中,所述確定文本和至少一個視頻之間的第一相似度,包括:確定所述文本的段落特徵;確定所述至少一個視頻的視頻特徵;根據所述文本的段落特徵和所述至少一個視頻的視頻特徵,確定所述文本和所述至少一個視頻之間的第一相似度。
- 根據請求項2所述的檢索方法,其中,所述段落特徵包括句子特徵和句子的數量;所述視頻特徵包括鏡頭特徵和鏡頭的數量。
- 根據請求項1至3任一項所述的檢索方法,其中,所述確定所述文本的第一人物互動圖,包括:檢測所述文本中包含的人名;在資料庫中搜索到所述人名對應的人物的肖像,並提取所述肖像的圖像特徵,得到所述人物的角色節點;解析確定所述文本的語義樹,基於所述語義樹得到所述人物的運動特徵,得到所述人物的動作節點;將每個所述人物對應的角色節點和動作節點連接;其中,所述人物的角色節點用肖像的圖像特徵表徵;所述人物的動作節點採用語義樹中的運動特徵表徵。
- 根據請求項4所述的檢索方法,所述方法還包括:將連接同一動作節點的角色節點相互連接;或者,所述檢測所述文本中包含的人名,所述方法還包括:將所述文本中的代詞替換為所述代詞所代表的所述人名。
- 根據請求項1至3任一項所述的檢索方法,其中,所述確定所述至少一個視頻的第二人物互動圖,包括:檢測出所述至少一個視頻的每個鏡頭中的人物;提取所述人物的人體特徵與運動特徵;將所述人物的人體特徵附加到所述人物的角色節點上,將所述人物的運動特徵附加到所述人物的動作節點上;將每個人物對應的角色節點和動作節點相連。
- 根據請求項6所述的檢索方法,其中,所述確定所述至少一個視頻的第二人物互動圖,還包括:將同時出現在一個鏡頭中的一組人物作為同組人物,將所述同組人物中的人物的角色節點兩兩相連;和/或,將一個鏡頭中的一位人物和其相鄰鏡頭的每個人物的角色節點都相連。
- 根據請求項1至3任一項所述的檢索方法,其中,所述根據所述第一相似度和所述第二相似度,從所述至少一個視頻中確定出與所述檢索條件相匹配的視頻,包括:對每個視頻的所述第一相似度和所述第二相似度加權求和,得到每個視頻的相似度值;將相似度值最高的視頻,確定為與所述檢索條件相匹配的視頻。
- 根據請求項1至3任一項所述的檢索方法,其中,所述檢索方法通過檢索網路實現,所述方法還包括:確定文本和訓練樣本集中的視頻之間的第一相似度預測值,所述文本用於表徵檢索條件;確定所述文本的第一人物互動圖和所述訓練樣本集中的視頻的第二人物互動圖之間的第二相似度;根據所述第一相似度預測值與所述第一相似度真值確定所述第一相似度的損失;根據所述第二相似度預測值與所述第二相似度真值確定所述第二相似度的損失;根據所述第一相似度的損失以及所述第二相似度的損失,結合損失函數確定總損失值;根據所述總損失值調整所述檢索網路的權重參數。
- 根據請求項9所述的檢索方法,所述檢索網路包括第一子網路以及第二子網路;所述第一子網路用於確定文本與視頻的第一相似度,所述第二子網路用於確定文本的第一人物互動圖和所述視頻的第二人物互動圖之間的相似度;所述根據所述總損失值調整所述檢索網路的權重參數,包括:基於所述總損失值調整所述第一子網路以及所述第二子網路的權重參數。
- 一種檢索裝置,所述裝置包括:記憶體、處理器及儲存在記憶體上並可在處理器上運行的電腦程式,所述處理器執行所述程式時實現請求項1至10任一項所述的檢索方法。
- 一種儲存介質,所述儲存介質儲存有電腦程式,所述電腦程式被處理器執行時,能夠使得所述處理器執行請求項1至10任一項所述的檢索方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910934892.5 | 2019-09-29 | ||
CN201910934892.5A CN110659392B (zh) | 2019-09-29 | 2019-09-29 | 检索方法及装置、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202113575A true TW202113575A (zh) | 2021-04-01 |
TWI749441B TWI749441B (zh) | 2021-12-11 |
Family
ID=69038407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109100236A TWI749441B (zh) | 2019-09-29 | 2020-01-03 | 檢索方法及裝置、儲存介質 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20210326383A1 (zh) |
JP (1) | JP7181999B2 (zh) |
KR (1) | KR20210060563A (zh) |
CN (1) | CN110659392B (zh) |
SG (1) | SG11202107151TA (zh) |
TW (1) | TWI749441B (zh) |
WO (1) | WO2021056750A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204674A (zh) * | 2021-07-05 | 2021-08-03 | 杭州一知智能科技有限公司 | 基于局部-整体图推理网络的视频-段落检索方法及系统 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259118B (zh) * | 2020-05-06 | 2020-09-01 | 广东电网有限责任公司 | 一种文本数据检索方法及装置 |
CN112256913A (zh) * | 2020-10-19 | 2021-01-22 | 四川长虹电器股份有限公司 | 一种基于图模型比对的视频搜索方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7877774B1 (en) * | 1999-04-19 | 2011-01-25 | At&T Intellectual Property Ii, L.P. | Browsing and retrieval of full broadcast-quality video |
US20060018516A1 (en) * | 2004-07-22 | 2006-01-26 | Masoud Osama T | Monitoring activity using video information |
JP4909200B2 (ja) | 2006-10-06 | 2012-04-04 | 日本放送協会 | 人間関係グラフ生成装置及びコンテンツ検索装置、並びに、人間関係グラフ生成プログラム及びコンテンツ検索プログラム |
US8451292B2 (en) * | 2009-11-23 | 2013-05-28 | National Cheng Kung University | Video summarization method based on mining story structure and semantic relations among concept entities thereof |
JP5591670B2 (ja) | 2010-11-30 | 2014-09-17 | 株式会社東芝 | 電子機器、人物相関図出力方法、人物相関図出力システム |
CN103365854A (zh) * | 2012-03-28 | 2013-10-23 | 鸿富锦精密工业(深圳)有限公司 | 视频文件检索系统及检索方法 |
CN103200463A (zh) * | 2013-03-27 | 2013-07-10 | 天脉聚源(北京)传媒科技有限公司 | 一种视频摘要生成方法和装置 |
CN103440274B (zh) * | 2013-08-07 | 2016-09-28 | 北京航空航天大学 | 一种基于细节描述的视频事件概要图构造和匹配方法 |
CN106462747B (zh) * | 2014-06-17 | 2020-03-17 | 河谷控股Ip有限责任公司 | 活动识别系统和方法 |
JP6446987B2 (ja) | 2014-10-16 | 2019-01-09 | 日本電気株式会社 | 映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム |
CN105279495B (zh) * | 2015-10-23 | 2019-06-04 | 天津大学 | 一种基于深度学习和文本总结的视频描述方法 |
CN106127803A (zh) * | 2016-06-17 | 2016-11-16 | 北京交通大学 | 人体运动捕捉数据行为分割方法及系统 |
JP2019008684A (ja) | 2017-06-28 | 2019-01-17 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理システム、情報処理方法およびプログラム |
CN109783655B (zh) * | 2018-12-07 | 2022-12-30 | 西安电子科技大学 | 一种跨模态检索方法、装置、计算机设备和存储介质 |
-
2019
- 2019-09-29 CN CN201910934892.5A patent/CN110659392B/zh active Active
- 2019-11-13 SG SG11202107151TA patent/SG11202107151TA/en unknown
- 2019-11-13 WO PCT/CN2019/118196 patent/WO2021056750A1/zh active Application Filing
- 2019-11-13 JP JP2021521293A patent/JP7181999B2/ja active Active
- 2019-11-13 KR KR1020217011348A patent/KR20210060563A/ko active Search and Examination
-
2020
- 2020-01-03 TW TW109100236A patent/TWI749441B/zh active
-
2021
- 2021-06-29 US US17/362,803 patent/US20210326383A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204674A (zh) * | 2021-07-05 | 2021-08-03 | 杭州一知智能科技有限公司 | 基于局部-整体图推理网络的视频-段落检索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2021056750A1 (zh) | 2021-04-01 |
US20210326383A1 (en) | 2021-10-21 |
CN110659392B (zh) | 2022-05-06 |
JP2022505320A (ja) | 2022-01-14 |
SG11202107151TA (en) | 2021-07-29 |
CN110659392A (zh) | 2020-01-07 |
TWI749441B (zh) | 2021-12-11 |
KR20210060563A (ko) | 2021-05-26 |
JP7181999B2 (ja) | 2022-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022155994A1 (zh) | 基于注意力的深度跨模态哈希检索方法、装置及相关设备 | |
JP7179183B2 (ja) | ビデオキャプションの生成方法、装置、デバイスおよびコンピュータプログラム | |
TWI749441B (zh) | 檢索方法及裝置、儲存介質 | |
WO2021139191A1 (zh) | 数据标注的方法以及数据标注的装置 | |
CN113627447B (zh) | 标签识别方法、装置、计算机设备、存储介质及程序产品 | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
US20110106805A1 (en) | Method and system for searching multilingual documents | |
CN111597314A (zh) | 推理问答方法、装置以及设备 | |
Nian et al. | Learning explicit video attributes from mid-level representation for video captioning | |
CN112131883B (zh) | 语言模型训练方法、装置、计算机设备和存储介质 | |
Zhang et al. | Relational graph learning for grounded video description generation | |
CN112232024A (zh) | 一种基于多标注数据的依存句法分析模型训练方法及装置 | |
CN114998777B (zh) | 一种针对跨模态视频检索模型的训练方法及装置 | |
WO2022134793A1 (zh) | 视频帧语义信息的提取方法、装置及计算机设备 | |
Altadmri et al. | A framework for automatic semantic video annotation: Utilizing similarity and commonsense knowledge bases | |
TW201931163A (zh) | 影像搜尋方法、系統和索引建構方法和媒體 | |
CN110852066B (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
JP2023002690A (ja) | セマンティックス認識方法、装置、電子機器及び記憶媒体 | |
WO2021012958A1 (zh) | 原创文本甄别方法、装置、设备与计算机可读存储介质 | |
CN114417823A (zh) | 一种基于句法和图卷积网络的方面级情感分析方法及装置 | |
CN112529743B (zh) | 合同要素抽取方法、装置、电子设备及介质 | |
CN116644208A (zh) | 视频检索方法、装置、电子设备及计算机可读存储介质 | |
CN110851629A (zh) | 一种图像检索的方法 | |
CN115017356A (zh) | 图像文本对的判断方法和装置 | |
CN115292533A (zh) | 视觉定位驱动的跨模态行人检索方法 |