TWI784780B - 多模態影片檢測方法、多模態影片檢測系統及非暫態電腦可讀取媒體 - Google Patents

多模態影片檢測方法、多模態影片檢測系統及非暫態電腦可讀取媒體 Download PDF

Info

Publication number
TWI784780B
TWI784780B TW110141032A TW110141032A TWI784780B TW I784780 B TWI784780 B TW I784780B TW 110141032 A TW110141032 A TW 110141032A TW 110141032 A TW110141032 A TW 110141032A TW I784780 B TWI784780 B TW I784780B
Authority
TW
Taiwan
Prior art keywords
video
multimodal
modality
processor
detected
Prior art date
Application number
TW110141032A
Other languages
English (en)
Other versions
TW202319934A (zh
Inventor
黃筑均
曹嬿恆
陳棅易
Original Assignee
財團法人資訊工業策進會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人資訊工業策進會 filed Critical 財團法人資訊工業策進會
Priority to TW110141032A priority Critical patent/TWI784780B/zh
Priority to CN202111327723.9A priority patent/CN116071675A/zh
Priority to US17/456,375 priority patent/US12014546B2/en
Application granted granted Critical
Publication of TWI784780B publication Critical patent/TWI784780B/zh
Publication of TW202319934A publication Critical patent/TW202319934A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/743Browsing; Visualisation therefor a collection of video files or sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/164Detection; Localisation; Normalisation using holistic features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

一種多模態影片檢測方法包含以下步驟:藉由處理器接收待檢測訊息,以獲得多模態關聯結果,待檢測訊息係對應待檢測影片;藉由處理器根據多模態關聯結果產生檢測條件;藉由處理器根據檢測條件搜尋影片檢測資料庫之複數個影片,以於複數影片中獲得目標影片,每一影片分別具有複數影片段落,每一影片段落分別具有對應多模態關聯資料;且藉由處理器比對複數檢測條件及複數影片段落的多模態關聯資料,獲得相符的影片段落,將相符的影片段落所對應的影片作為目標影片;以及藉由處理器輸出目標影片及待檢測影片至顯示裝置顯示。

Description

多模態影片檢測方法、多模態影片檢測系統及非暫態電腦可 讀取媒體
本案涉及一種影片檢測方法及系統。詳細而言,本案涉及一種多模態影片檢測方法、多模態影片檢測系統及非暫態電腦可讀取媒體。
以往不實訊息以文字為主。但近年來,不實訊息出現大量的影片及圖片。檢測影片是否為不實訊息主要仰賴人工處理。檢測過程包含由人工檢視可疑影片中挑選有疑慮的影片段落及截圖,再從網路或資料庫中去搜尋及下載可能相似的影片,人工逐一檢視相似的影片之每一個影片段落或影格,以及確認有疑慮的影片是否經過變造。檢測影片過程耗費勞動力及時間等資源。
因此,上述技術尚存諸多缺陷,而有待本領域從業人員研發出其餘適合的影片檢測方法。
本案的一面向涉及一種多模態影片檢測方法。多模態影片檢測方法包含以下步驟:藉由處理器接收待檢測訊息,以獲得多模態關聯結果,待檢測訊息係對應待檢測影片;藉由處理器根據多模態關聯結果產生複數個檢測條件;藉由處理器根據複數個檢測條件搜尋影片檢測資料庫之複數個影片,以於複數個影片中獲得目標影片。複數個影片之每一影片分別具有複數個影片段落,每一影片段落分別具有對應的多模態關聯資料,且藉由處理器係比對複數個檢測條件及複數個影片段落的多模態關聯資料,獲得相符的影片段落,將相符的影片段落所對應的影片作為目標影片;以及藉由處理器將目標影片及待檢測影片輸出至顯示裝置顯示。
本案的另一面向涉及一種多模態影片檢測系統。多模態影片檢測系統包含記憶體及處理器。記憶體用以儲存複數個指令。處理器耦接於記憶體。處理器用以讀取複數個指令,藉以執行以下步驟:接收待檢測訊息,以獲得多模態關聯結果,待檢測訊息係對應待檢測影片;根據多模態關聯結果產生複數個檢測條件;根據複數個檢測條件搜尋一影片檢測資料庫之複數個影片,以於複數個影片中獲得目標影片;複數個影片之每一影片分別具有複數個影片段落,每一影片段落分別具有對應的多模態關聯資料,且係比對複數個檢測條件及複數個影片段落的多模態關聯資料,獲得相符的影片段落,將相符的影片段落所對應的影 片作為目標影片;以及將目標影片及待檢測影片輸出至顯示裝置顯示。
本案的另一面向涉及一種非暫態電腦可讀取媒體。非暫態電腦可讀取媒體包含電腦程式,並用以執行一種多模態影片檢測方法。多模態影片檢測方法包含:藉由處理器接收待檢測訊息,以獲得多模態關聯結果,待檢測訊息係對應待檢測影片;藉由處理器根據多模態關聯結果產生複數個檢測條件;藉由處理器根據複數個檢測條件搜尋影片檢測資料庫之複數個影片,以於複數個影片中獲得目標影片。複數個影片之每一影片分別具有複數個影片段落,每一影片段落分別具有對應的多模態關聯資料,且藉由處理器係比對複數個檢測條件及複數個影片段落的多模態關聯資料,獲得相符的影片段落,將相符的影片段落所對應的影片作為目標影片;以及藉由處理器將目標影片及待檢測影片輸出至顯示裝置顯示。
100:多模態影片檢測系統
110:記憶體
120:處理器
600:顯示器
700:影片檢測資料庫
800:伺服器
910:影片資料庫
930:影片資料庫
200:方法
210~240:步驟
V1,V2:影片
P1~PN:影片段落
L1~LN:標記
T1~TN:時間
P1’~PM:影片段落
L1’~LM:標記
T1’~TM:時間
參照後續段落中的實施方式以及下列圖式,當可更佳地理解本案的內容:第1圖為根據本案一些實施例繪示的多模態影片檢測系統之示意圖;第2圖為根據本案一些實施例繪示的多模態影片檢測方法之步驟流程示意圖;以及第3圖為根據本案一些實施例繪示的影片之影片段落之多 模態關聯資料標記狀態示意圖。
以下將以圖式及詳細敘述清楚說明本案之精神,任何所屬技術領域中具有通常知識者在瞭解本案之實施例後,當可由本案所教示之技術,加以改變及修飾,其並不脫離本案之精神與範圍。
本文之用語只為描述特定實施例,而無意為本案之限制。單數形式如“一”、“這”、“此”、“本”以及“該”,如本文所用,同樣也包含複數形式。
關於本文中所使用之『包含』、『包括』、『具有』、『含有』等等,均為開放性的用語,即意指包含但不限於。
關於本文中所使用之用詞(terms),除有特別註明外,通常具有每個用詞使用在此領域中、在本案之內容中與特殊內容中的平常意義。某些用以描述本案之用詞將於下或在此說明書的別處討論,以提供本領域技術人員在有關本案之描述上額外的引導。
第1圖為根據本案一些實施例繪示的多模態影片檢測系統100之示意圖。在一些實施例中,請參閱第1圖,多模態影片檢測系統100包含記憶體110及處理器120。在一些實施例中,多模態影片檢測系統100耦接於顯示器600及影片檢測資料庫700。影片檢測資料庫700耦接於伺服器800。伺服器800耦接於影片資料庫910及影片資料庫930。在一些實施例中,影片資料庫910可例如為 Google資料庫。影片資料庫930可例如為YouTube資料庫。在一些實施例中,影片資料庫亦可以是個人或公司自行建置的影片資料庫或影片源。
在一些實施例中,記憶體110可包含快閃(Flash)記憶體、硬碟(Hard Disk Drive,HDD)、固態硬碟(Solid State drive,SSD)、動態隨機存取記憶體(Dynamic Random Access Memory,DRAM)或靜態隨機存取記憶體(Static Random Access Memory,SRAM)。記憶體110用以儲存複數個指令。
在一些實施例中,處理器120可包含但不限於單一處理器以及多個微處理器之集成,例如,中央處理器(Central Processing Unit,CPU)或繪圖處理器(Graphic Processing Unit,GPU)等。處理器120用以讀取記憶體110中的複數個指令。
在一些實施例中,為使本案之多模態影片檢測系統100之操作易於理解,請一併參閱第2圖至第3圖。第2圖為根據本案一些實施例繪示的多模態影片檢測方法200之步驟流程示意圖。第3圖為根據本案一些實施例繪示的影片之影片段落之多模態關聯資料標記狀態示意圖。
在一些實施例中,請一併參閱第1圖至第2圖,多模態影片檢測系統100之處理器120如步驟210所示用以接收待檢測訊息,以獲得多模態關聯結果。待檢測訊息係對應待檢測影片。然須說明的是,本案之步驟210不限於以本案第1圖所示之多模態影片檢測系統100所執行, 在一些實施例中,本案之步驟210可以其他合適之系統或裝置來加以執行。
在一些實施例中,上述待檢測影片係指一般民眾於網路上所檢舉有變造疑慮的影片,或是任何有變造疑慮需要進行檢測的影片。上述多模態關聯結果係為處理器120分析待檢測影片中的語言模態及視覺模態後,處理器120學習語言模態及視覺模態的關聯性所產生的結果。進一步說明的是,處理器120所分析及學習的模態種類不以本案實施例為限。
在一些實施例中,上述待檢測訊息更包含對應待檢測影片的自然語言文字段落。多模態影片檢測系統100之處理器120更用以接收待檢測影片及其對應的自然語言文字段落,以獲得多模態關聯結果。須說明的是,此處自然語言文字段落係指查核人員根據待檢測影片所輸入的一段文字敘述。進一步說明的是,處理器120透過同時解析待檢測影片及其對應的自然語言文字段落,來彌補僅解析待檢測影片的不足,或是僅解析對應待檢測影片的自然語言文字段落的不足,並藉以產生更精準的檢測條件。查核人員所輸入的一段文字敘述,可以是檢測影片中人、事、時、地、物之間的相關說明,亦可包含行為、動作或事件。
在一些實施例中,請參閱第1圖至第2圖,多模態影片檢測系統100之處理器120如步驟220所示根據多模態關聯結果產生複數個檢測條件。然須說明的是,本案之步驟220不限於以本案第1圖所示之多模態影片檢測 系統100所執行,在一些實施例中,本案之步驟220可以其他合適之系統或裝置來加以執行。
在一些實施例中,上述複數個檢測條件係為對應該待檢測影片的關聯性敘述資料,例如,在待檢測影片中,對於人、事、時、地、物之間的相關說明,可包含行為、動作或事件。在一些實施例中,上述關聯性敘述資料包含人的行為、動物的行為、人的動作、動物的動作、人的表情、動物的表情、人的情緒、動物的情緒、人與地點/建物的相對位置、動物與地點/建物的相對位置、人和其他人事物的相對關係、以及事件等其中之一,或是二者以上。後文將提供一個例子作為參考。
舉例而言,處理器120分析一個待檢測影片中的語言模態及視覺模態後,所得出的多模態關聯結果為:「某人身穿黑衣服於室內接受訪問」。處理器120根據上述多模態關聯結果設定第一個檢測條件為:「某人接受訪問」。第二個檢測條件為:「某人於室內」。第三個檢測條件:「某人身穿黑衣服」。可更進一步時,處理器120若可以解析出某人為一位男人,可再增加檢測條件包括「男人接受訪問」、「男人於室內」、「男人身穿黑衣服」等。若某人為知名人物,處理器120可更進一步比對判斷出某人為A君時,可再增加檢測條件為「A君接受訪問」、「A君於室內」、「A君身穿黑衣服」。
在一些實施例中,請參閱第1圖至第3圖,多模態影片檢測系統100之處理器120如步驟230所示用以 根據複數個檢測條件搜尋影片檢測資料庫700之複數個影片(例如:影片V1及影片V2),以於複數個影片中獲得目標影片(例如:影片V1)。複數個影片之每一影片(例如:影片V1)分別具有複數個影片段落(例如:影片段落P1至影片段落PN)。每一影片段落(例如:影片段落P1至影片段落PN)分別具有對應的多模態關聯資料。然須說明的是,本案之步驟230不限於以本案第1圖所示之多模態影片檢測系統100所執行,在一些實施例中,本案之步驟230可以其他合適之系統或裝置來加以執行。
須說明的是,上述多模態關聯資料會採用標記形式(例如:標記L1)標記於影片中對應時間(例如:時間T1)的影片段落(例如:影片段落P1)。進一步說明的,上述影片段落P1之時間T1至影片段落PN之時間TN皆為3秒(sec)。上述影片段落之時間可依據實際需求所設計並不以本案實施例為限。再者,上述影片段落P1可由一或多個圖片所組成。同理,影片段落P2至影片段落PN每一者均可由一或多個圖片所組成。
接著,多模態影片檢測系統100之處理器120用以比對複數個檢測條件及複數個影片段落的多模態關聯資料(例如:標記L1至標記LN),獲得相符的影片段落(例如:具有標記L3之影片段落P3),將相符的影片段落所對應的影片作為目標影片。
舉例而言,接續上述例子,處理器120根據上述三個檢索條件搜尋影片檢測資料庫700中的複數個影片, 並根據上述三個檢索條件比對影片V1之影片段落P1之標記L1至影片段落PN之標記LN,以及比對影片V2之影片段落P1’之標記L1’至影片段落PM之標記LM。經過處理器120逐一比對後,處理器120獲得相符的影片段落P3,將相符的影片段落P3所對應的影片V1作為目標影片。
在一些實施例中,處理器120更用以比對多模態關聯結果及目標影片之複數個影片段落其中一者之多模態關聯資料,以獲得目標影片之目標影片段落(例如:影片段落P3)。藉由處理器120將目標影片段落(例如:影片段落P3)和待檢測影片至顯示裝置600上顯示。
在一些實施例中,請參閱第1圖至第3圖,影片檢測資料庫700之複數影片的複數個影片段落之多模態關聯資料是經由本案之建置方法所建立,相關建置方法將說明如後。
建置方法為藉由伺服器800至複數個影片資料庫(例如:影片資料庫910及影片資料庫930)下載複數個影片段落,以儲存於影片檢測資料庫700。接著,藉由伺服器800辨識每一複數影片V1之複數影片段落P1至PN之複數種模態特徵。藉由伺服器800根據複數模態特徵產生對應影片段落的多模態關聯資料L1至LN。再者藉由伺服器800根據多模態關聯資料L1至LN分別標記每一複數影片V1之複數影片段落P1至PN,並儲存於影片檢測資料庫700中。具體來說,處理器120可採用上述分析待 檢測影片中的技術,來解析影片資料庫中的每一影片段落,並建立每一個影片段落的多模態關聯資料,以文字方式作為標記來儲存。解析所得的內容為對應每一影片段落的關聯性敘述資料,例如,在影片段落中對於人、事、時、地、物之間的相關說明,例如人的行為、動作、表情等。
在一些實施例中,上述多模態關聯資料L1至LN係為伺服器800將影片及語音內容之各項物件及各種事件的關聯性進行分析後,產生文字資料,並根據影片段落之時間T1至TN分別標記於複數影片段落P1至PN。
在一些實施例中,上述模態特徵之模態種類包含語意辨識模態、自然語言辨識模態、人臉辨識模態、建物辨識模態、物件辨識模態、行為辨識模態、數字辨識模態及顏色辨識模態的其中至少一者。須說明的是,上述模態特徵為影片及語音內容之各項物件及各種事件的關聯性所解析的各種模態,模態種類可依據實際需求設計,不以本案實施例所列舉為限。
在一些實施例中,處理器120更採用上述建置方法將多模態關聯資料L1至LN分別標記每一複數影片V1之複數影片段落P1至PN。
在一些實施例中,請參閱第1圖至第3圖,多模態影片檢測系統100之處理器120如步驟240所示將目標影片及待檢測影片輸出至顯示裝置600顯示。然須說明的是,本案之步驟240不限於以本案第1圖所示之多模態影片檢測系統100所執行,在一些實施例中,本案之步驟 240可以其他合適之系統或裝置來加以執行。
舉例而言,接續上述例子,處理器120用以將目標影片V1及待檢測影片輸出至顯示裝置600顯示,以供查核人員審閱。
須說明的是,採用本案之多模態影片檢測系統100及多模態影片檢測方法200能準確解析出影片中人物的身分或是人物行為的細節。舉例而言,影片V1透過本案多模態影片檢測系統100之處理器120執行本案多模態影片檢測方法200後,處理器120解析出影片段落P2至影片段落P3之描述內容。描述內容為知名人物B君於白宮前面的廣場進行演講。
舉例而言,影片V2透過本案多模態影片檢測系統100之處理器120執行本案多模態影片檢測方法200後,處理器120解析出影片段落P1’至影片段落P2’之描述內容。描述內容為小孩大叫持續了11秒鐘。
前述多模態影片檢測方法200可實作為一電腦程式,並儲存於一電腦可讀取記錄媒體中,而使電腦讀取此記錄媒體後執行多模態影片檢測方法200。電腦可讀取記錄媒體可為唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之電腦可讀取記錄媒體。
依據前述實施例,本案提供一種多模態影片檢測方法、多模態影片檢測系統及非暫態電腦可讀取媒體,藉以輸入影片及影片相關敘述,以快速搜尋到相關的影片並進 行查核。採用本案多模態影片檢測方法的查核流程將節省許多勞動力及時間等資源。
雖然本案以詳細之實施例揭露如上,然而本案並不排除其他可行之實施態樣。因此,本案之保護範圍當視後附之申請專利範圍所界定者為準,而非受於前述實施例之限制。
對本領域技術人員而言,在不脫離本案之精神和範圍內,當可對本案作各種之更動與潤飾。基於前述實施例,所有對本案所作的更動與潤飾,亦涵蓋於本案之保護範圍內。
200:方法
210~240:步驟

Claims (18)

  1. 一種多模態影片檢測方法,包含:藉由一處理器接收一待檢測訊息,以獲得一多模態關聯結果,其中該待檢測訊息係對應一待檢測影片,該多模態關聯結果為該處理器分析該待檢測影片中的一語言模態及一視覺模態後,該處理器學習該語言模態及該視覺模態的一關聯性所產生的結果;藉由該處理器根據該多模態關聯結果產生與該多模態關聯結果有關的複數個檢測條件;藉由該處理器根據該些檢測條件搜尋一影片檢測資料庫之複數個影片,以於該些影片中獲得一目標影片,其中,該些影片之每一影片分別具有複數個影片段落,每一影片段落分別具有對應的一多模態關聯資料,且藉由該處理器比對該些檢測條件及該些影片段落的該多模態關聯資料,獲得一相符的影片段落,將該相符的影片段落所對應的一影片作為該目標影片;以及藉由該處理器將該目標影片及該待檢測影片輸出至一顯示裝置顯示。
  2. 如請求項1所述之多模態影片檢測方法,其中,該些影片段落的該多模態關聯資料是經由以下方法建立:藉由一伺服器至複數個影片資料庫下載該些影片以儲存於該影片檢測資料庫; 藉由該伺服器辨識每一該些影片之該些影片段落之複數種模態特徵;藉由該伺服器根據該些模態特徵產生對應該些影片段落的該多模態關聯資料;以及藉由該伺服器根據該些影片段落的多模態關聯資料分別標記每一該些影片之該些影片段落,並儲存於該影片檢測資料庫中。
  3. 如請求項2所述之多模態影片檢測方法,其中該些模態特徵之一模態種類包含一語意辨識模態、一自然語言辨識模態、一人臉辨識模態、一建物辨識模態、一物件辨識模態、一行為辨識模態、一數字辨識模態及一顏色辨識模態的其中至少一者。
  4. 如請求項1所述之多模態影片檢測方法,其中該些檢測條件係為對應該待檢測影片的一關聯性敘述資料,其中該關聯性敘述資料包含人的一行為、動物的一行為、人的一動作、動物的一動作、人的一表情、動物的一表情、人的一情緒、動物的一情緒、人與地點/建物的一相對位置、動物與地點/建物的一相對位置、人和其他人事物的一相對關係、以及一事件其中至少一者。
  5. 如請求項1所述之多模態影片檢測方法,其中,該待檢測訊息更包含有對應該待檢測影片的一自然語 言文字段落,且藉由該處理器接收該待檢測訊息,以獲得該多模態關聯結果之步驟包含:藉由該處理器接收該待檢測影片及其對應的該自然語言文字段落,以獲得該多模態關聯結果。
  6. 如請求項5所述之多模態影片檢測方法,其中藉由該處理器接收該待檢測訊息,以獲得該多模態關聯結果之步驟更包含:藉由該處理器接收該待檢測影片;藉由該處理器辨識該待檢測影片之複數個影片段落之複數種模態特徵;以及藉由該處理器根據該些模態特徵及該自然語言文字段落,以獲得該多模態關聯結果。
  7. 如請求項6所述之多模態影片檢測方法,其中該些模態特徵之一模態種類包含一語意辨識模態、一自然語言辨識模態、一人臉辨識模態、一建物辨識模態、一物件辨識模態、一行為辨識模態、一數字辨識模態及一顏色辨識模態的其中至少一者。
  8. 如請求項5所述之多模態影片檢測方法,更包含:藉由該處理器比對該多模態關聯結果及該目標影片之該些影片段落其中一者之該多模態關聯資料,以獲得該目標影 片之一目標影片段落;以及藉由該處理器將該目標影片段落和該待檢測影片至該顯示裝置上顯示。
  9. 一種多模態影片檢測系統,包含:一記憶體,用以儲存複數個指令;以及一處理器,耦接於該記憶體,其中該處理器用以讀取該些指令,藉以執行以下步驟:接收一待檢測訊息,以獲得一多模態關聯結果,其中該待檢測訊息係對應一待檢測影片,該多模態關聯結果為該處理器分析該待檢測影片中的一語言模態及一視覺模態後,該處理器學習該語言模態及該視覺模態的一關聯性所產生的結果;根據該多模態關聯結果產生與該多模態關聯結果有關的複數個檢測條件;根據該些檢測條件搜尋一影片檢測資料庫之複數個影片,以於該些影片中獲得一目標影片,其中,該些影片之每一影片分別具有複數個影片段落,每一影片段落分別具有對應的一多模態關聯資料,且係比對該些檢測條件及該些影片段落的該多模態關聯資料,獲得一相符的影片段落,將該相符的影片段落所對應的一影片作為該目標影片;以及將該目標影片及該待檢測影片輸出至一顯示裝置顯示。
  10. 如請求項9所述之多模態影片檢測系統,其 中,該些影片段落的該多模態關聯資料是經由以下方法建立:藉由一伺服器至複數個影片資料庫下載該些影片以儲存於該影片檢測資料庫;藉由該伺服器辨識每一該些影片之該些影片段落之複數種模態特徵;藉由該伺服器根據該些模態特徵產生對應該些影片段落的該多模態關聯資料;以及藉由該伺服器根據該些影片段落的多模態關聯資料分別標記每一該些影片之該些影片段落,並儲存於該影片檢測資料庫中。
  11. 如請求項10所述之多模態影片檢測系統,其中該些模態特徵之一模態種類包含一語意辨識模態、一自然語言辨識模態、一人臉辨識模態、一建物辨識模態、一物件辨識模態、一行為辨識模態、一數字辨識模態及一顏色辨識模態的其中至少一者。
  12. 如請求項9所述之多模態影片檢測系統,其中該些檢測條件係為對應該待檢測影片的一關聯性敘述資料,其中該關聯性敘述資料包含人的一行為、動物的一行為、人的一動作、動物的一動作、人的一表情、動物的一表情、人的一情緒、動物的一情緒、人與地點/建物的一相對位置、動物與地點/建物的一相對位置、人和其他人事物 的一相對關係、以及一事件其中至少一者。
  13. 如請求項9所述之多模態影片檢測系統,其中,該待檢測訊息更包含有對應該待檢測影片的一自然語言文字段落,其中該處理器更用以接收該待檢測影片及其對應的該自然語言文字段落,以獲得該多模態關聯結果。
  14. 如請求項13所述之多模態影片檢測系統,其中該處理器更用以接收該待檢測影片,以辨識該待檢測影片之複數個影片段落之複數種模態特徵,藉以根據該些模態特徵及該自然語言文字段落,以獲得該多模態關聯結果。
  15. 如請求項14所述之多模態影片檢測系統,其中該些模態特徵之一模態種類包含一語意辨識模態、一自然語言辨識模態、一人臉辨識模態、一建物辨識模態、一物件辨識模態、一行為辨識模態、一數字辨識模態及一顏色辨識模態的其中至少一者。
  16. 如請求項13所述之多模態影片檢測系統,其中該處理器更用以比對該多模態關聯結果及該目標影片之該些影片段落其中一者之該多模態關聯資料,以獲得該目標影片之一目標影片段落,以及該處理器將該目標影片段落和該待檢測影片至該顯示裝置上顯示。
  17. 一種非暫態電腦可讀取媒體,包含一電腦程式,並用以執行一種多模態影片檢測方法,其中該多模態影片檢測方法包含:藉由一處理器接收一待檢測訊息,以獲得一多模態關聯結果,其中該待檢測訊息係對應一待檢測影片,該多模態關聯結果為該處理器分析該待檢測影片中的一語言模態及一視覺模態後,該處理器學習該語言模態及該視覺模態的一關聯性所產生的結果;藉由該處理器根據該多模態關聯結果產生與該多模態關聯結果有關的複數個檢測條件;藉由該處理器根據該些檢測條件搜尋一影片檢測資料庫之複數個影片,以於該些影片中獲得一目標影片,其中,該些影片之每一影片分別具有複數個影片段落,每一影片段落分別具有對應的一多模態關聯資料,且藉由該處理器係比對該些檢測條件及該些影片段落的該多模態關聯資料,獲得一相符的影片段落,將該相符的影片段落所對應的一影片作為該目標影片;以及藉由該處理器將該目標影片及該待檢測影片輸出至一顯示裝置顯示。
  18. 如請求項17所述之非暫態電腦可讀取媒體,其中,該些影片段落的該多模態關聯資料是經由以下方法建立: 藉由一伺服器至複數個影片資料庫下載該些影片以儲存於該影片檢測資料庫;藉由該伺服器辨識每一該些影片之該些影片段落之複數種模態特徵;藉由該伺服器根據該些模態特徵產生對應該些影片段落的該多模態關聯資料;以及藉由該伺服器根據該些影片段落的多模態關聯資料分別標記每一該些影片之該些影片段落,並儲存於該影片檢測資料庫中。
TW110141032A 2021-11-03 2021-11-03 多模態影片檢測方法、多模態影片檢測系統及非暫態電腦可讀取媒體 TWI784780B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW110141032A TWI784780B (zh) 2021-11-03 2021-11-03 多模態影片檢測方法、多模態影片檢測系統及非暫態電腦可讀取媒體
CN202111327723.9A CN116071675A (zh) 2021-11-03 2021-11-10 多模态影片检测方法、多模态影片检测系统及非暂态计算机可读取媒体
US17/456,375 US12014546B2 (en) 2021-11-03 2021-11-23 Multimodal method for detecting video, multimodal video detecting system and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW110141032A TWI784780B (zh) 2021-11-03 2021-11-03 多模態影片檢測方法、多模態影片檢測系統及非暫態電腦可讀取媒體

Publications (2)

Publication Number Publication Date
TWI784780B true TWI784780B (zh) 2022-11-21
TW202319934A TW202319934A (zh) 2023-05-16

Family

ID=85794646

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110141032A TWI784780B (zh) 2021-11-03 2021-11-03 多模態影片檢測方法、多模態影片檢測系統及非暫態電腦可讀取媒體

Country Status (3)

Country Link
US (1) US12014546B2 (zh)
CN (1) CN116071675A (zh)
TW (1) TWI784780B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201220099A (en) * 2010-11-05 2012-05-16 Microsoft Corp Multi-modal approach to search query input
TW201717062A (zh) * 2015-11-04 2017-05-16 創意引晴股份有限公司 基於多模態融合之智能高容錯視頻識別系統及其識別方法
US20200311123A1 (en) * 2019-03-28 2020-10-01 Wipro Limited Method and a system for multimodal search key based multimedia content extraction
CN113449070A (zh) * 2021-05-25 2021-09-28 北京有竹居网络技术有限公司 多模态数据检索方法、装置、介质及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5835667A (en) * 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
US20140163957A1 (en) * 2012-12-10 2014-06-12 Rawllin International Inc. Multimedia message having portions of media content based on interpretive meaning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201220099A (en) * 2010-11-05 2012-05-16 Microsoft Corp Multi-modal approach to search query input
TW201717062A (zh) * 2015-11-04 2017-05-16 創意引晴股份有限公司 基於多模態融合之智能高容錯視頻識別系統及其識別方法
US20200311123A1 (en) * 2019-03-28 2020-10-01 Wipro Limited Method and a system for multimodal search key based multimedia content extraction
CN113449070A (zh) * 2021-05-25 2021-09-28 北京有竹居网络技术有限公司 多模态数据检索方法、装置、介质及电子设备

Also Published As

Publication number Publication date
US12014546B2 (en) 2024-06-18
TW202319934A (zh) 2023-05-16
CN116071675A (zh) 2023-05-05
US20230135866A1 (en) 2023-05-04

Similar Documents

Publication Publication Date Title
US11409791B2 (en) Joint heterogeneous language-vision embeddings for video tagging and search
WO2021253904A1 (zh) 测试案例集生成方法、装置、设备及计算机可读存储介质
CN112507140A (zh) 一种个性化智能学习推荐方法、装置、设备及存储介质
US20210073627A1 (en) Detection of machine learning model degradation
WO2023115761A1 (zh) 基于时序知识图谱的事件检测方法和装置
CN109471805B (zh) 资源测试方法及装置、存储介质、电子设备
US10067983B2 (en) Analyzing tickets using discourse cues in communication logs
US11144880B2 (en) Document analysis using machine learning and neural networks
GB2570751A (en) Predicting style breaches within textual content
WO2022156065A1 (zh) 一种文本情感分析方法、装置、设备及存储介质
US11080406B2 (en) Detection of vulnerable code
US9640084B2 (en) Computer-based system and method for creating customized medical video information using crowd sourcing
US20200026955A1 (en) Computation of Audience Metrics Focalized on Displayed Content
US10956494B2 (en) Behavioral measurements in a video stream focalized on keywords
Lim et al. Understanding Characteristics of Biased Sentences in News Articles.
US9558462B2 (en) Identifying and amalgamating conditional actions in business processes
US20170039225A1 (en) Establishment anchoring with geolocated imagery
Pereira et al. A chatbot assistant for writing good quality technical reports
TWI784780B (zh) 多模態影片檢測方法、多模態影片檢測系統及非暫態電腦可讀取媒體
US10929685B2 (en) Analysis of operator behavior focalized on machine events
US10949463B2 (en) Behavioral measurements in a video stream focalized on keywords
US20230186212A1 (en) System, method, electronic device, and storage medium for identifying risk event based on social information
US20210019349A1 (en) Bias reduction in crowdsourced tasks
Malaviya et al. Cascading biases: Investigating the effect of heuristic annotation strategies on data and models
US11762939B2 (en) Measure GUI response time