TWI784780B - 多模態影片檢測方法、多模態影片檢測系統及非暫態電腦可讀取媒體 - Google Patents
多模態影片檢測方法、多模態影片檢測系統及非暫態電腦可讀取媒體 Download PDFInfo
- Publication number
- TWI784780B TWI784780B TW110141032A TW110141032A TWI784780B TW I784780 B TWI784780 B TW I784780B TW 110141032 A TW110141032 A TW 110141032A TW 110141032 A TW110141032 A TW 110141032A TW I784780 B TWI784780 B TW I784780B
- Authority
- TW
- Taiwan
- Prior art keywords
- video
- multimodal
- modality
- processor
- detected
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/74—Browsing; Visualisation therefor
- G06F16/743—Browsing; Visualisation therefor a collection of video files or sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7837—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/164—Detection; Localisation; Normalisation using holistic features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
一種多模態影片檢測方法包含以下步驟:藉由處理器接收待檢測訊息,以獲得多模態關聯結果,待檢測訊息係對應待檢測影片;藉由處理器根據多模態關聯結果產生檢測條件;藉由處理器根據檢測條件搜尋影片檢測資料庫之複數個影片,以於複數影片中獲得目標影片,每一影片分別具有複數影片段落,每一影片段落分別具有對應多模態關聯資料;且藉由處理器比對複數檢測條件及複數影片段落的多模態關聯資料,獲得相符的影片段落,將相符的影片段落所對應的影片作為目標影片;以及藉由處理器輸出目標影片及待檢測影片至顯示裝置顯示。
Description
本案涉及一種影片檢測方法及系統。詳細而言,本案涉及一種多模態影片檢測方法、多模態影片檢測系統及非暫態電腦可讀取媒體。
以往不實訊息以文字為主。但近年來,不實訊息出現大量的影片及圖片。檢測影片是否為不實訊息主要仰賴人工處理。檢測過程包含由人工檢視可疑影片中挑選有疑慮的影片段落及截圖,再從網路或資料庫中去搜尋及下載可能相似的影片,人工逐一檢視相似的影片之每一個影片段落或影格,以及確認有疑慮的影片是否經過變造。檢測影片過程耗費勞動力及時間等資源。
因此,上述技術尚存諸多缺陷,而有待本領域從業人員研發出其餘適合的影片檢測方法。
本案的一面向涉及一種多模態影片檢測方法。多模態影片檢測方法包含以下步驟:藉由處理器接收待檢測訊息,以獲得多模態關聯結果,待檢測訊息係對應待檢測影片;藉由處理器根據多模態關聯結果產生複數個檢測條件;藉由處理器根據複數個檢測條件搜尋影片檢測資料庫之複數個影片,以於複數個影片中獲得目標影片。複數個影片之每一影片分別具有複數個影片段落,每一影片段落分別具有對應的多模態關聯資料,且藉由處理器係比對複數個檢測條件及複數個影片段落的多模態關聯資料,獲得相符的影片段落,將相符的影片段落所對應的影片作為目標影片;以及藉由處理器將目標影片及待檢測影片輸出至顯示裝置顯示。
本案的另一面向涉及一種多模態影片檢測系統。多模態影片檢測系統包含記憶體及處理器。記憶體用以儲存複數個指令。處理器耦接於記憶體。處理器用以讀取複數個指令,藉以執行以下步驟:接收待檢測訊息,以獲得多模態關聯結果,待檢測訊息係對應待檢測影片;根據多模態關聯結果產生複數個檢測條件;根據複數個檢測條件搜尋一影片檢測資料庫之複數個影片,以於複數個影片中獲得目標影片;複數個影片之每一影片分別具有複數個影片段落,每一影片段落分別具有對應的多模態關聯資料,且係比對複數個檢測條件及複數個影片段落的多模態關聯資料,獲得相符的影片段落,將相符的影片段落所對應的影
片作為目標影片;以及將目標影片及待檢測影片輸出至顯示裝置顯示。
本案的另一面向涉及一種非暫態電腦可讀取媒體。非暫態電腦可讀取媒體包含電腦程式,並用以執行一種多模態影片檢測方法。多模態影片檢測方法包含:藉由處理器接收待檢測訊息,以獲得多模態關聯結果,待檢測訊息係對應待檢測影片;藉由處理器根據多模態關聯結果產生複數個檢測條件;藉由處理器根據複數個檢測條件搜尋影片檢測資料庫之複數個影片,以於複數個影片中獲得目標影片。複數個影片之每一影片分別具有複數個影片段落,每一影片段落分別具有對應的多模態關聯資料,且藉由處理器係比對複數個檢測條件及複數個影片段落的多模態關聯資料,獲得相符的影片段落,將相符的影片段落所對應的影片作為目標影片;以及藉由處理器將目標影片及待檢測影片輸出至顯示裝置顯示。
100:多模態影片檢測系統
110:記憶體
120:處理器
600:顯示器
700:影片檢測資料庫
800:伺服器
910:影片資料庫
930:影片資料庫
200:方法
210~240:步驟
V1,V2:影片
P1~PN:影片段落
L1~LN:標記
T1~TN:時間
P1’~PM:影片段落
L1’~LM:標記
T1’~TM:時間
參照後續段落中的實施方式以及下列圖式,當可更佳地理解本案的內容:第1圖為根據本案一些實施例繪示的多模態影片檢測系統之示意圖;第2圖為根據本案一些實施例繪示的多模態影片檢測方法之步驟流程示意圖;以及第3圖為根據本案一些實施例繪示的影片之影片段落之多
模態關聯資料標記狀態示意圖。
以下將以圖式及詳細敘述清楚說明本案之精神,任何所屬技術領域中具有通常知識者在瞭解本案之實施例後,當可由本案所教示之技術,加以改變及修飾,其並不脫離本案之精神與範圍。
本文之用語只為描述特定實施例,而無意為本案之限制。單數形式如“一”、“這”、“此”、“本”以及“該”,如本文所用,同樣也包含複數形式。
關於本文中所使用之『包含』、『包括』、『具有』、『含有』等等,均為開放性的用語,即意指包含但不限於。
關於本文中所使用之用詞(terms),除有特別註明外,通常具有每個用詞使用在此領域中、在本案之內容中與特殊內容中的平常意義。某些用以描述本案之用詞將於下或在此說明書的別處討論,以提供本領域技術人員在有關本案之描述上額外的引導。
第1圖為根據本案一些實施例繪示的多模態影片檢測系統100之示意圖。在一些實施例中,請參閱第1圖,多模態影片檢測系統100包含記憶體110及處理器120。在一些實施例中,多模態影片檢測系統100耦接於顯示器600及影片檢測資料庫700。影片檢測資料庫700耦接於伺服器800。伺服器800耦接於影片資料庫910及影片資料庫930。在一些實施例中,影片資料庫910可例如為
Google資料庫。影片資料庫930可例如為YouTube資料庫。在一些實施例中,影片資料庫亦可以是個人或公司自行建置的影片資料庫或影片源。
在一些實施例中,記憶體110可包含快閃(Flash)記憶體、硬碟(Hard Disk Drive,HDD)、固態硬碟(Solid State drive,SSD)、動態隨機存取記憶體(Dynamic Random Access Memory,DRAM)或靜態隨機存取記憶體(Static Random Access Memory,SRAM)。記憶體110用以儲存複數個指令。
在一些實施例中,處理器120可包含但不限於單一處理器以及多個微處理器之集成,例如,中央處理器(Central Processing Unit,CPU)或繪圖處理器(Graphic Processing Unit,GPU)等。處理器120用以讀取記憶體110中的複數個指令。
在一些實施例中,為使本案之多模態影片檢測系統100之操作易於理解,請一併參閱第2圖至第3圖。第2圖為根據本案一些實施例繪示的多模態影片檢測方法200之步驟流程示意圖。第3圖為根據本案一些實施例繪示的影片之影片段落之多模態關聯資料標記狀態示意圖。
在一些實施例中,請一併參閱第1圖至第2圖,多模態影片檢測系統100之處理器120如步驟210所示用以接收待檢測訊息,以獲得多模態關聯結果。待檢測訊息係對應待檢測影片。然須說明的是,本案之步驟210不限於以本案第1圖所示之多模態影片檢測系統100所執行,
在一些實施例中,本案之步驟210可以其他合適之系統或裝置來加以執行。
在一些實施例中,上述待檢測影片係指一般民眾於網路上所檢舉有變造疑慮的影片,或是任何有變造疑慮需要進行檢測的影片。上述多模態關聯結果係為處理器120分析待檢測影片中的語言模態及視覺模態後,處理器120學習語言模態及視覺模態的關聯性所產生的結果。進一步說明的是,處理器120所分析及學習的模態種類不以本案實施例為限。
在一些實施例中,上述待檢測訊息更包含對應待檢測影片的自然語言文字段落。多模態影片檢測系統100之處理器120更用以接收待檢測影片及其對應的自然語言文字段落,以獲得多模態關聯結果。須說明的是,此處自然語言文字段落係指查核人員根據待檢測影片所輸入的一段文字敘述。進一步說明的是,處理器120透過同時解析待檢測影片及其對應的自然語言文字段落,來彌補僅解析待檢測影片的不足,或是僅解析對應待檢測影片的自然語言文字段落的不足,並藉以產生更精準的檢測條件。查核人員所輸入的一段文字敘述,可以是檢測影片中人、事、時、地、物之間的相關說明,亦可包含行為、動作或事件。
在一些實施例中,請參閱第1圖至第2圖,多模態影片檢測系統100之處理器120如步驟220所示根據多模態關聯結果產生複數個檢測條件。然須說明的是,本案之步驟220不限於以本案第1圖所示之多模態影片檢測
系統100所執行,在一些實施例中,本案之步驟220可以其他合適之系統或裝置來加以執行。
在一些實施例中,上述複數個檢測條件係為對應該待檢測影片的關聯性敘述資料,例如,在待檢測影片中,對於人、事、時、地、物之間的相關說明,可包含行為、動作或事件。在一些實施例中,上述關聯性敘述資料包含人的行為、動物的行為、人的動作、動物的動作、人的表情、動物的表情、人的情緒、動物的情緒、人與地點/建物的相對位置、動物與地點/建物的相對位置、人和其他人事物的相對關係、以及事件等其中之一,或是二者以上。後文將提供一個例子作為參考。
舉例而言,處理器120分析一個待檢測影片中的語言模態及視覺模態後,所得出的多模態關聯結果為:「某人身穿黑衣服於室內接受訪問」。處理器120根據上述多模態關聯結果設定第一個檢測條件為:「某人接受訪問」。第二個檢測條件為:「某人於室內」。第三個檢測條件:「某人身穿黑衣服」。可更進一步時,處理器120若可以解析出某人為一位男人,可再增加檢測條件包括「男人接受訪問」、「男人於室內」、「男人身穿黑衣服」等。若某人為知名人物,處理器120可更進一步比對判斷出某人為A君時,可再增加檢測條件為「A君接受訪問」、「A君於室內」、「A君身穿黑衣服」。
在一些實施例中,請參閱第1圖至第3圖,多模態影片檢測系統100之處理器120如步驟230所示用以
根據複數個檢測條件搜尋影片檢測資料庫700之複數個影片(例如:影片V1及影片V2),以於複數個影片中獲得目標影片(例如:影片V1)。複數個影片之每一影片(例如:影片V1)分別具有複數個影片段落(例如:影片段落P1至影片段落PN)。每一影片段落(例如:影片段落P1至影片段落PN)分別具有對應的多模態關聯資料。然須說明的是,本案之步驟230不限於以本案第1圖所示之多模態影片檢測系統100所執行,在一些實施例中,本案之步驟230可以其他合適之系統或裝置來加以執行。
須說明的是,上述多模態關聯資料會採用標記形式(例如:標記L1)標記於影片中對應時間(例如:時間T1)的影片段落(例如:影片段落P1)。進一步說明的,上述影片段落P1之時間T1至影片段落PN之時間TN皆為3秒(sec)。上述影片段落之時間可依據實際需求所設計並不以本案實施例為限。再者,上述影片段落P1可由一或多個圖片所組成。同理,影片段落P2至影片段落PN每一者均可由一或多個圖片所組成。
接著,多模態影片檢測系統100之處理器120用以比對複數個檢測條件及複數個影片段落的多模態關聯資料(例如:標記L1至標記LN),獲得相符的影片段落(例如:具有標記L3之影片段落P3),將相符的影片段落所對應的影片作為目標影片。
舉例而言,接續上述例子,處理器120根據上述三個檢索條件搜尋影片檢測資料庫700中的複數個影片,
並根據上述三個檢索條件比對影片V1之影片段落P1之標記L1至影片段落PN之標記LN,以及比對影片V2之影片段落P1’之標記L1’至影片段落PM之標記LM。經過處理器120逐一比對後,處理器120獲得相符的影片段落P3,將相符的影片段落P3所對應的影片V1作為目標影片。
在一些實施例中,處理器120更用以比對多模態關聯結果及目標影片之複數個影片段落其中一者之多模態關聯資料,以獲得目標影片之目標影片段落(例如:影片段落P3)。藉由處理器120將目標影片段落(例如:影片段落P3)和待檢測影片至顯示裝置600上顯示。
在一些實施例中,請參閱第1圖至第3圖,影片檢測資料庫700之複數影片的複數個影片段落之多模態關聯資料是經由本案之建置方法所建立,相關建置方法將說明如後。
建置方法為藉由伺服器800至複數個影片資料庫(例如:影片資料庫910及影片資料庫930)下載複數個影片段落,以儲存於影片檢測資料庫700。接著,藉由伺服器800辨識每一複數影片V1之複數影片段落P1至PN之複數種模態特徵。藉由伺服器800根據複數模態特徵產生對應影片段落的多模態關聯資料L1至LN。再者藉由伺服器800根據多模態關聯資料L1至LN分別標記每一複數影片V1之複數影片段落P1至PN,並儲存於影片檢測資料庫700中。具體來說,處理器120可採用上述分析待
檢測影片中的技術,來解析影片資料庫中的每一影片段落,並建立每一個影片段落的多模態關聯資料,以文字方式作為標記來儲存。解析所得的內容為對應每一影片段落的關聯性敘述資料,例如,在影片段落中對於人、事、時、地、物之間的相關說明,例如人的行為、動作、表情等。
在一些實施例中,上述多模態關聯資料L1至LN係為伺服器800將影片及語音內容之各項物件及各種事件的關聯性進行分析後,產生文字資料,並根據影片段落之時間T1至TN分別標記於複數影片段落P1至PN。
在一些實施例中,上述模態特徵之模態種類包含語意辨識模態、自然語言辨識模態、人臉辨識模態、建物辨識模態、物件辨識模態、行為辨識模態、數字辨識模態及顏色辨識模態的其中至少一者。須說明的是,上述模態特徵為影片及語音內容之各項物件及各種事件的關聯性所解析的各種模態,模態種類可依據實際需求設計,不以本案實施例所列舉為限。
在一些實施例中,處理器120更採用上述建置方法將多模態關聯資料L1至LN分別標記每一複數影片V1之複數影片段落P1至PN。
在一些實施例中,請參閱第1圖至第3圖,多模態影片檢測系統100之處理器120如步驟240所示將目標影片及待檢測影片輸出至顯示裝置600顯示。然須說明的是,本案之步驟240不限於以本案第1圖所示之多模態影片檢測系統100所執行,在一些實施例中,本案之步驟
240可以其他合適之系統或裝置來加以執行。
舉例而言,接續上述例子,處理器120用以將目標影片V1及待檢測影片輸出至顯示裝置600顯示,以供查核人員審閱。
須說明的是,採用本案之多模態影片檢測系統100及多模態影片檢測方法200能準確解析出影片中人物的身分或是人物行為的細節。舉例而言,影片V1透過本案多模態影片檢測系統100之處理器120執行本案多模態影片檢測方法200後,處理器120解析出影片段落P2至影片段落P3之描述內容。描述內容為知名人物B君於白宮前面的廣場進行演講。
舉例而言,影片V2透過本案多模態影片檢測系統100之處理器120執行本案多模態影片檢測方法200後,處理器120解析出影片段落P1’至影片段落P2’之描述內容。描述內容為小孩大叫持續了11秒鐘。
前述多模態影片檢測方法200可實作為一電腦程式,並儲存於一電腦可讀取記錄媒體中,而使電腦讀取此記錄媒體後執行多模態影片檢測方法200。電腦可讀取記錄媒體可為唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之電腦可讀取記錄媒體。
依據前述實施例,本案提供一種多模態影片檢測方法、多模態影片檢測系統及非暫態電腦可讀取媒體,藉以輸入影片及影片相關敘述,以快速搜尋到相關的影片並進
行查核。採用本案多模態影片檢測方法的查核流程將節省許多勞動力及時間等資源。
雖然本案以詳細之實施例揭露如上,然而本案並不排除其他可行之實施態樣。因此,本案之保護範圍當視後附之申請專利範圍所界定者為準,而非受於前述實施例之限制。
對本領域技術人員而言,在不脫離本案之精神和範圍內,當可對本案作各種之更動與潤飾。基於前述實施例,所有對本案所作的更動與潤飾,亦涵蓋於本案之保護範圍內。
200:方法
210~240:步驟
Claims (18)
- 一種多模態影片檢測方法,包含:藉由一處理器接收一待檢測訊息,以獲得一多模態關聯結果,其中該待檢測訊息係對應一待檢測影片,該多模態關聯結果為該處理器分析該待檢測影片中的一語言模態及一視覺模態後,該處理器學習該語言模態及該視覺模態的一關聯性所產生的結果;藉由該處理器根據該多模態關聯結果產生與該多模態關聯結果有關的複數個檢測條件;藉由該處理器根據該些檢測條件搜尋一影片檢測資料庫之複數個影片,以於該些影片中獲得一目標影片,其中,該些影片之每一影片分別具有複數個影片段落,每一影片段落分別具有對應的一多模態關聯資料,且藉由該處理器比對該些檢測條件及該些影片段落的該多模態關聯資料,獲得一相符的影片段落,將該相符的影片段落所對應的一影片作為該目標影片;以及藉由該處理器將該目標影片及該待檢測影片輸出至一顯示裝置顯示。
- 如請求項1所述之多模態影片檢測方法,其中,該些影片段落的該多模態關聯資料是經由以下方法建立:藉由一伺服器至複數個影片資料庫下載該些影片以儲存於該影片檢測資料庫; 藉由該伺服器辨識每一該些影片之該些影片段落之複數種模態特徵;藉由該伺服器根據該些模態特徵產生對應該些影片段落的該多模態關聯資料;以及藉由該伺服器根據該些影片段落的多模態關聯資料分別標記每一該些影片之該些影片段落,並儲存於該影片檢測資料庫中。
- 如請求項2所述之多模態影片檢測方法,其中該些模態特徵之一模態種類包含一語意辨識模態、一自然語言辨識模態、一人臉辨識模態、一建物辨識模態、一物件辨識模態、一行為辨識模態、一數字辨識模態及一顏色辨識模態的其中至少一者。
- 如請求項1所述之多模態影片檢測方法,其中該些檢測條件係為對應該待檢測影片的一關聯性敘述資料,其中該關聯性敘述資料包含人的一行為、動物的一行為、人的一動作、動物的一動作、人的一表情、動物的一表情、人的一情緒、動物的一情緒、人與地點/建物的一相對位置、動物與地點/建物的一相對位置、人和其他人事物的一相對關係、以及一事件其中至少一者。
- 如請求項1所述之多模態影片檢測方法,其中,該待檢測訊息更包含有對應該待檢測影片的一自然語 言文字段落,且藉由該處理器接收該待檢測訊息,以獲得該多模態關聯結果之步驟包含:藉由該處理器接收該待檢測影片及其對應的該自然語言文字段落,以獲得該多模態關聯結果。
- 如請求項5所述之多模態影片檢測方法,其中藉由該處理器接收該待檢測訊息,以獲得該多模態關聯結果之步驟更包含:藉由該處理器接收該待檢測影片;藉由該處理器辨識該待檢測影片之複數個影片段落之複數種模態特徵;以及藉由該處理器根據該些模態特徵及該自然語言文字段落,以獲得該多模態關聯結果。
- 如請求項6所述之多模態影片檢測方法,其中該些模態特徵之一模態種類包含一語意辨識模態、一自然語言辨識模態、一人臉辨識模態、一建物辨識模態、一物件辨識模態、一行為辨識模態、一數字辨識模態及一顏色辨識模態的其中至少一者。
- 如請求項5所述之多模態影片檢測方法,更包含:藉由該處理器比對該多模態關聯結果及該目標影片之該些影片段落其中一者之該多模態關聯資料,以獲得該目標影 片之一目標影片段落;以及藉由該處理器將該目標影片段落和該待檢測影片至該顯示裝置上顯示。
- 一種多模態影片檢測系統,包含:一記憶體,用以儲存複數個指令;以及一處理器,耦接於該記憶體,其中該處理器用以讀取該些指令,藉以執行以下步驟:接收一待檢測訊息,以獲得一多模態關聯結果,其中該待檢測訊息係對應一待檢測影片,該多模態關聯結果為該處理器分析該待檢測影片中的一語言模態及一視覺模態後,該處理器學習該語言模態及該視覺模態的一關聯性所產生的結果;根據該多模態關聯結果產生與該多模態關聯結果有關的複數個檢測條件;根據該些檢測條件搜尋一影片檢測資料庫之複數個影片,以於該些影片中獲得一目標影片,其中,該些影片之每一影片分別具有複數個影片段落,每一影片段落分別具有對應的一多模態關聯資料,且係比對該些檢測條件及該些影片段落的該多模態關聯資料,獲得一相符的影片段落,將該相符的影片段落所對應的一影片作為該目標影片;以及將該目標影片及該待檢測影片輸出至一顯示裝置顯示。
- 如請求項9所述之多模態影片檢測系統,其 中,該些影片段落的該多模態關聯資料是經由以下方法建立:藉由一伺服器至複數個影片資料庫下載該些影片以儲存於該影片檢測資料庫;藉由該伺服器辨識每一該些影片之該些影片段落之複數種模態特徵;藉由該伺服器根據該些模態特徵產生對應該些影片段落的該多模態關聯資料;以及藉由該伺服器根據該些影片段落的多模態關聯資料分別標記每一該些影片之該些影片段落,並儲存於該影片檢測資料庫中。
- 如請求項10所述之多模態影片檢測系統,其中該些模態特徵之一模態種類包含一語意辨識模態、一自然語言辨識模態、一人臉辨識模態、一建物辨識模態、一物件辨識模態、一行為辨識模態、一數字辨識模態及一顏色辨識模態的其中至少一者。
- 如請求項9所述之多模態影片檢測系統,其中該些檢測條件係為對應該待檢測影片的一關聯性敘述資料,其中該關聯性敘述資料包含人的一行為、動物的一行為、人的一動作、動物的一動作、人的一表情、動物的一表情、人的一情緒、動物的一情緒、人與地點/建物的一相對位置、動物與地點/建物的一相對位置、人和其他人事物 的一相對關係、以及一事件其中至少一者。
- 如請求項9所述之多模態影片檢測系統,其中,該待檢測訊息更包含有對應該待檢測影片的一自然語言文字段落,其中該處理器更用以接收該待檢測影片及其對應的該自然語言文字段落,以獲得該多模態關聯結果。
- 如請求項13所述之多模態影片檢測系統,其中該處理器更用以接收該待檢測影片,以辨識該待檢測影片之複數個影片段落之複數種模態特徵,藉以根據該些模態特徵及該自然語言文字段落,以獲得該多模態關聯結果。
- 如請求項14所述之多模態影片檢測系統,其中該些模態特徵之一模態種類包含一語意辨識模態、一自然語言辨識模態、一人臉辨識模態、一建物辨識模態、一物件辨識模態、一行為辨識模態、一數字辨識模態及一顏色辨識模態的其中至少一者。
- 如請求項13所述之多模態影片檢測系統,其中該處理器更用以比對該多模態關聯結果及該目標影片之該些影片段落其中一者之該多模態關聯資料,以獲得該目標影片之一目標影片段落,以及該處理器將該目標影片段落和該待檢測影片至該顯示裝置上顯示。
- 一種非暫態電腦可讀取媒體,包含一電腦程式,並用以執行一種多模態影片檢測方法,其中該多模態影片檢測方法包含:藉由一處理器接收一待檢測訊息,以獲得一多模態關聯結果,其中該待檢測訊息係對應一待檢測影片,該多模態關聯結果為該處理器分析該待檢測影片中的一語言模態及一視覺模態後,該處理器學習該語言模態及該視覺模態的一關聯性所產生的結果;藉由該處理器根據該多模態關聯結果產生與該多模態關聯結果有關的複數個檢測條件;藉由該處理器根據該些檢測條件搜尋一影片檢測資料庫之複數個影片,以於該些影片中獲得一目標影片,其中,該些影片之每一影片分別具有複數個影片段落,每一影片段落分別具有對應的一多模態關聯資料,且藉由該處理器係比對該些檢測條件及該些影片段落的該多模態關聯資料,獲得一相符的影片段落,將該相符的影片段落所對應的一影片作為該目標影片;以及藉由該處理器將該目標影片及該待檢測影片輸出至一顯示裝置顯示。
- 如請求項17所述之非暫態電腦可讀取媒體,其中,該些影片段落的該多模態關聯資料是經由以下方法建立: 藉由一伺服器至複數個影片資料庫下載該些影片以儲存於該影片檢測資料庫;藉由該伺服器辨識每一該些影片之該些影片段落之複數種模態特徵;藉由該伺服器根據該些模態特徵產生對應該些影片段落的該多模態關聯資料;以及藉由該伺服器根據該些影片段落的多模態關聯資料分別標記每一該些影片之該些影片段落,並儲存於該影片檢測資料庫中。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110141032A TWI784780B (zh) | 2021-11-03 | 2021-11-03 | 多模態影片檢測方法、多模態影片檢測系統及非暫態電腦可讀取媒體 |
CN202111327723.9A CN116071675A (zh) | 2021-11-03 | 2021-11-10 | 多模态影片检测方法、多模态影片检测系统及非暂态计算机可读取媒体 |
US17/456,375 US12014546B2 (en) | 2021-11-03 | 2021-11-23 | Multimodal method for detecting video, multimodal video detecting system and non-transitory computer readable medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110141032A TWI784780B (zh) | 2021-11-03 | 2021-11-03 | 多模態影片檢測方法、多模態影片檢測系統及非暫態電腦可讀取媒體 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI784780B true TWI784780B (zh) | 2022-11-21 |
TW202319934A TW202319934A (zh) | 2023-05-16 |
Family
ID=85794646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110141032A TWI784780B (zh) | 2021-11-03 | 2021-11-03 | 多模態影片檢測方法、多模態影片檢測系統及非暫態電腦可讀取媒體 |
Country Status (3)
Country | Link |
---|---|
US (1) | US12014546B2 (zh) |
CN (1) | CN116071675A (zh) |
TW (1) | TWI784780B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201220099A (en) * | 2010-11-05 | 2012-05-16 | Microsoft Corp | Multi-modal approach to search query input |
TW201717062A (zh) * | 2015-11-04 | 2017-05-16 | 創意引晴股份有限公司 | 基於多模態融合之智能高容錯視頻識別系統及其識別方法 |
US20200311123A1 (en) * | 2019-03-28 | 2020-10-01 | Wipro Limited | Method and a system for multimodal search key based multimedia content extraction |
CN113449070A (zh) * | 2021-05-25 | 2021-09-28 | 北京有竹居网络技术有限公司 | 多模态数据检索方法、装置、介质及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5835667A (en) * | 1994-10-14 | 1998-11-10 | Carnegie Mellon University | Method and apparatus for creating a searchable digital video library and a system and method of using such a library |
US20140163957A1 (en) * | 2012-12-10 | 2014-06-12 | Rawllin International Inc. | Multimedia message having portions of media content based on interpretive meaning |
-
2021
- 2021-11-03 TW TW110141032A patent/TWI784780B/zh active
- 2021-11-10 CN CN202111327723.9A patent/CN116071675A/zh active Pending
- 2021-11-23 US US17/456,375 patent/US12014546B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201220099A (en) * | 2010-11-05 | 2012-05-16 | Microsoft Corp | Multi-modal approach to search query input |
TW201717062A (zh) * | 2015-11-04 | 2017-05-16 | 創意引晴股份有限公司 | 基於多模態融合之智能高容錯視頻識別系統及其識別方法 |
US20200311123A1 (en) * | 2019-03-28 | 2020-10-01 | Wipro Limited | Method and a system for multimodal search key based multimedia content extraction |
CN113449070A (zh) * | 2021-05-25 | 2021-09-28 | 北京有竹居网络技术有限公司 | 多模态数据检索方法、装置、介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
US12014546B2 (en) | 2024-06-18 |
TW202319934A (zh) | 2023-05-16 |
CN116071675A (zh) | 2023-05-05 |
US20230135866A1 (en) | 2023-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11409791B2 (en) | Joint heterogeneous language-vision embeddings for video tagging and search | |
WO2021253904A1 (zh) | 测试案例集生成方法、装置、设备及计算机可读存储介质 | |
CN112507140A (zh) | 一种个性化智能学习推荐方法、装置、设备及存储介质 | |
US20210073627A1 (en) | Detection of machine learning model degradation | |
WO2023115761A1 (zh) | 基于时序知识图谱的事件检测方法和装置 | |
CN109471805B (zh) | 资源测试方法及装置、存储介质、电子设备 | |
US10067983B2 (en) | Analyzing tickets using discourse cues in communication logs | |
US11144880B2 (en) | Document analysis using machine learning and neural networks | |
GB2570751A (en) | Predicting style breaches within textual content | |
WO2022156065A1 (zh) | 一种文本情感分析方法、装置、设备及存储介质 | |
US11080406B2 (en) | Detection of vulnerable code | |
US9640084B2 (en) | Computer-based system and method for creating customized medical video information using crowd sourcing | |
US20200026955A1 (en) | Computation of Audience Metrics Focalized on Displayed Content | |
US10956494B2 (en) | Behavioral measurements in a video stream focalized on keywords | |
Lim et al. | Understanding Characteristics of Biased Sentences in News Articles. | |
US9558462B2 (en) | Identifying and amalgamating conditional actions in business processes | |
US20170039225A1 (en) | Establishment anchoring with geolocated imagery | |
Pereira et al. | A chatbot assistant for writing good quality technical reports | |
TWI784780B (zh) | 多模態影片檢測方法、多模態影片檢測系統及非暫態電腦可讀取媒體 | |
US10929685B2 (en) | Analysis of operator behavior focalized on machine events | |
US10949463B2 (en) | Behavioral measurements in a video stream focalized on keywords | |
US20230186212A1 (en) | System, method, electronic device, and storage medium for identifying risk event based on social information | |
US20210019349A1 (en) | Bias reduction in crowdsourced tasks | |
Malaviya et al. | Cascading biases: Investigating the effect of heuristic annotation strategies on data and models | |
US11762939B2 (en) | Measure GUI response time |