TWI436226B - 視訊串流上即時新事件偵測之裝置及方法 - Google Patents
視訊串流上即時新事件偵測之裝置及方法 Download PDFInfo
- Publication number
- TWI436226B TWI436226B TW097133344A TW97133344A TWI436226B TW I436226 B TWI436226 B TW I436226B TW 097133344 A TW097133344 A TW 097133344A TW 97133344 A TW97133344 A TW 97133344A TW I436226 B TWI436226 B TW I436226B
- Authority
- TW
- Taiwan
- Prior art keywords
- features
- event
- dissimilarity
- given
- new event
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 70
- 238000001514 detection method Methods 0.000 title claims description 34
- 238000012545 processing Methods 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 9
- 238000011045 prefiltration Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims 1
- 239000000047 product Substances 0.000 description 9
- 238000013519 translation Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 230000002441 reversible effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000008140 language development Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 235000020004 porter Nutrition 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/454—Content or additional data filtering, e.g. blocking advertisements
- H04N21/4542—Blocking scenes or portions of the received content, e.g. censoring scenes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/454—Content or additional data filtering, e.g. blocking advertisements
- H04N21/4545—Input to filtering algorithms, e.g. filtering a region of the image
- H04N21/45452—Input to filtering algorithms, e.g. filtering a region of the image applied to an object-based stream, e.g. MPEG-4 streams
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Character Discrimination (AREA)
Description
本發明大體係關於視訊串流處理,且更明確地說,關於用於偵測視訊串流中之新事件之技術。
在由國防部授予之合同號H98230-07-C-0383下,在政府支援下,進行本發明。政府具有本發明中之某些權利。
對於串流視訊,新事件偵測(NED)為捕獲呈現先前未看到的事件之第一視訊片段(clips)之任務。此任務在許多領域中具有實際應用,諸如,智慧搜集(例如,用於反恐目的)、金融市場分析及新聞分析,其中有用資訊通常被埋藏於隨時間而快速增長的大量資料中。由於此等應用通常為時間重要的,且需要快的周轉,故在實務上高度需要開發一種線上新事件偵測(ONED)系統。
大約十年前,在文字處理團體中,在文件串流上之ONED開始得到愈來愈多的興趣。作為其文字對應部分之延伸,藉由作用於文字及視覺資訊兩者,視訊串流上之ONED亦已吸引了在視訊處理團體中之增加的注意力。視訊ONED系統之基本理念為將新片段與過去到達的所有片段比較。若基於文字及視覺特徵之其類似性值皆處於某一臨限值下,則新片段將被預測為呈現新事件。
先前工作已展示,在識別相關視訊片段及達成較佳的主題追蹤結果過程中,額外影像資訊起到重要作用。然而,關於視訊ONED之所有此等努力主要地集中於使偵測準確性而非偵測效率最佳化。實際上,此等方法產生關於片段之數目的二次(quadratic)時間複雜性。因此,其並不有效率地足以偵測即時(real time)環境中之新視訊事件,尤其對於大規模的視訊收集。
舉例而言,在需要同時監視成千上萬的電視頻道之智慧搜集系統中,現有ONED系統很難即時處置此聚集的且極度高頻寬視訊串流。因此,雖然一些現有NED系統被稱作可在線上使用,但其確實對於即時應用不具有足夠效率。
本發明之原理提供產生提高之即時偵測效率的用於偵測一視訊串流中之新事件之技術。
舉例而言,在本發明之一態樣中,一方法判定一給定事件是否為一視訊串流中之一新事件。該視訊串流包括複數個事件。一第一步驟自該給定事件擷取第一組特徵(例如,文字特徵)。與相關聯於該給定事件之第二組特徵(例如,影像特徵)相比較,該第一組特徵計算方面的處理花費較少。當存在一或多個第一不類似性準則時,一第二步驟僅使用該第一組特徵計算該給定事件與該視訊串流中之一或多個先前事件之間的一或多個第一不類似性值。一第三步驟基於該一或多個計算的第一不類似性值判定該給定事件是否為一新事件。
在本發明之另一態樣中,一種用於捕獲一視訊串流環境中之先前未看到的事件之新事件視訊片段之即時新事件偵測方法包括一多階段依次過濾過程。該過程包括:識別相關特徵、基於用以導出或擷取該等特徵之計算努力來排列(rank)該等特徵,及基於該等排列的特徵形成一或多個多階段依次過濾器,其中在較不易於計算之特徵前使用該等較易於計算之特徵。在一特定實施例中,該多階段依次過濾過程之一階段為單獨將文字特徵用作一過濾器來偵測一新事件,同時,一隨後階段為將影像特徵用作一過濾器來補充該偵測過程。
自待結合隨附圖式閱讀的本發明之說明性實施例之以下詳細描述,本發明之此等及其他目的、特徵及優勢將變得顯而易見。
以下將在說明性類型之基於視訊串流的資料之環境中解釋本發明。然而,應理解,本發明不限於任一特定類型之視訊資料串流。相反,本發明更通常可適用於將需要提高視訊資料串流中的新事件之偵測效率之任何視訊資料流。
圖1描繪沿著時間軸的一視訊串流100中之事件(102、104、106、108、110及112)。不同的形狀對應於不同事件。經填充之形狀表示需要加以捕獲之片段(亦即,新片段)。應理解,短語"視訊片段"(或更簡單地"片段")意欲指一視訊串流之至少一部分,及詞語"事件"對應於主題片段在視訊資料串流中之出現或存在。亦應理解,"片段"(或更通常地,視訊串流之主題部分)可包含一或多個影像。如將在以下進一步地加以解釋,"片段"亦可為"快照(shot)"。同樣,應理解,詞語"線上"可與詞語"即時"互換地使用,且通常描述正與視訊串流中之新事件或片段之接收大體上同時執行的步驟/操作。將此與在某些稍後時間執行之步驟/操作的"離線"或"非即時"處理相比較。
根據本發明之原理,提供解決上述效率問題且按數量級提高ONED系統之視訊處理速率而不犧牲實質偵測準確度之技術。由於對影像特徵之計算相當耗時,故藉由儘可能多地延遲影像特徵之處理來使之ONED系統的效率最大化。更具體言之,提議下列若干最佳化步驟。首先,單獨使用文字特徵來過濾出多數非新事件片段,使得放棄此等片段之花費多的影像特徵擷取步驟。接著,當將新片段與舊片段比較時,若其文字足夠地不類似,則首先計算其文字類似性,且跳過代價高的影像類似性計算。最後,使用索引與壓縮方法之組合來加速文字處理。在影像類似性計算期間,亦移除固定影像以提高ONED系統之偵測準確度。
在詳細論述最佳化之技術前,首先描述ONED系統(本文中被稱作"基線系統(baseline system)")之一說明性實施例。假定此基線系統組合在Hsu及Chang中報告之目前技術狀態ONED系統中建議的兩個最有影響的資訊源(W. Hsu及S. Chang"Topic Tracking across Broadcast News Videos with Visual Duplicates and Semantic Concepts",IEEE International Conference on Image Processing(ICP),2006:141-144),包括TF-IDF(Term Frequency-Inverse Document Frequency,詞語頻率-反向文件頻率)文字特徵及二進位影像重複特徵。為了說明本發明之原理,本文中將偵測技術說明性地描述為經建置於此基線系統上。
圖2展示基線ONED系統200之架構,其中視訊串流可來自(例如)一或多個多語言視訊頻道201(C1
、C2
、...、Cn
)。接著將此等串流分割為"快照"。未明確展示分割區塊。每一快照約若干(例如,三)秒長,且被界定為一單一連續的相機操作,而無編輯者之剪切、漸淡(fade)或漸隱(dissolve)。對於每一快照,特徵擷取模組202既自其關鍵圖框(keyframe)擷取影像特徵(204),又藉由使用自動語音辨識(206)(接著為機器轉譯(208))來獲得英文文字特徵,使得不同語言中之原始視訊片段變得可比較。"關鍵圖框"為被用作視訊中之隨後影像之參考的完整(可能經壓縮)影像。接著,ONED組件210使用文字及影像特徵來識別呈現先前未看到的事件之新事件快照,且將此等快照發送至消費者212,其可為人或進行(例如)較深入的分析之電腦程式。注意,雖然在此說明性實施例中將視訊快照用作基本NED單元,但本發明之原理不依此選擇而定,且因此其可普遍地適用於其他單元,諸如,新聞故事等等。
基線系統將習知tf-idf詞語權重(term weight)用作文字特徵。由於每一快照S
太短以致不能含有用於計算有意義的文字類似性(見下文)之足夠文字,故用先前m
=5
個快照之文字及先前m
個快照之文字兩者來延長S
之文字(注意,所有此等快照來自同一頻道)。遵循資訊擷得之慣例,將詞語定義為一唯一字及將詞彙定義為所有唯一字之集合。對於詞彙中之每一詞語t
及快照集合E
中之一快照S
,基線系統使用以下公式來計算詞語權重:
(f1)詞語頻率(tf)權重:w tf
=In(tf
+1),
(f2)反向文件頻率(idf)權重
w idf
=In[(N+1)/(df
+0.5)],
(f3)詞語(tf-idf)權重:w t
=w tf
×w idf
,其中tf
為詞語t
在S
之文字中之頻率(亦即,出現之數目),N
為E
中的快照之總數,且df
為E
中其文字含有t
的快照之數目。
實務上,存在擷取影像特徵之許多不同方式,其(幾乎同等地)適合於偵測近似重複影像。基線系統使用在Campbell等人(M. Campbell、S. Ebadollahi及D. Joshi等人之"IBM Research TRECVID-2006 Video Retrieval System",NIST TRECVID工作室,2006)中描述之顏色矩特徵,其中自關鍵圖框影像之3×3柵格擷取局部化之顏色統計,且Lab顏色空間中的每一柵格之前三個顏色矩用以建構S
之n
=81
個影像特徵f i
(1 i n
)。然而,本發明不限於此特定技術。
藉由另一實例,IBM Corporations之跨語際自動語言開發系統(TALES)(R. Peterson,"IBM Strives for Super Human Speech",http://www.accessible-devices.com/superspeech.html
,2006)可使用電腦叢集與約四分鐘(幾乎即時)之延遲同時地對來自數千個頻道的視訊串流執行影像及文字特徵擷取兩者。
再次地,上述影像及文字特徵擷取技術僅為可使用的習知技術之實例,且因此,應理解,可使用其他合適技術。應理解,本發明之原理的焦點為現有系統之ONED組件(210)不能令人滿意地即時完成。
為了偵測視訊ONED系統中之新事件快照,使用其文字及影像特徵計算兩個快照S 1
與S 2
之間的不類似性。不類似性愈小,則S 1
與S 2
愈可能呈現同一事件。將不類似性計算方法展示如下。首先,使用(f4)及(f5)獲得文字不類似性值:
(f4)正規化之文字點積(text dot product)值
(f5)文字不類似性值
其中w t,j
(j
=1、2)為
S j
之詞語權重。表示法t
□S j
意謂詞語t
出現於S j
之文字中。接下來,使用(f6)及(f7)獲得影像不類似性值:
(f6)正規化之影像不類似性值
(f7)二進位化之影像不類似性值
其中f i,j
(j
=1、2)為S j
之影像特徵,T image
為使影像不類似性二進位化之臨限值,且I
為指示函數。亦即,若正規化之影像不類似性比T image
大,則二進位化之影像不類似性為
一,否則其為零。最後,根據(f8),獲得S 1
及S 2
之總體不類似性值,其作為文字不類似性值與二進位化之影像不類似性值之線性組合:
其中w image
為視覺模態之線性權重。此線性融合模型為在視訊ONED系統中融合視覺及文字模態的最有效方法中之一者。
現在呈現基線系統之細節。遵循對於每一快照之文字之資訊擷得中的典型預處理操作,亦即,(1)使用標準Porter詞幹提取器(stemmer)執行詞幹提取,及(2)藉由使用標準SMART停用字(stopword)清單移除停用字。"詞幹提取"為用於將詞尾變化之(或一些衍生)詞還原至其詞幹、基礎或詞根形式(通常書面詞形式)之過程。"停用字"為給至在文字之處理前或後經過濾出之詞的名稱。
注意,隨著新快照繼續到達視訊串流環境,快照集合E
保持改變。為了ONED目的,tf及idf權重之計算可基於具有類似於E
之特性的靜態快照集合E'
。對於不存在於E'
之文字中的詞語,假定其df
為一。與逐漸增加地更新統計N
及df
之方法相比較,此靜態方法具有低得多之耗用,同時偵測準確度保持粗略地相同。
當一快照S
到達時,S
經首先預處理,且其特徵被保存於記憶體中。接著比較S
與過去到達之所有舊快照,除了在S
前剛自同一頻道到達之L
=50
個快照之外,因為彼等L
個快照有可能處於與S
相同之新故事段中。若處於S
與舊快照之間的所有總體不類似性值皆在臨限值T
上,則將S
預測為新事件快照。否則,若S
與舊快照S old
之間的總體不類似性值在T
下,則預測S
呈現與S old
相同的事件。
可展示,雖然文字特徵為在偵測新事件中之最有效的分量,但視覺近似重複可仍一貫地增強文字基線之偵測準確度。為了更具體,使用文字及影像特徵兩者可將文字基線之偵測準確度提高多達25%。此可由以下實情來解釋:兩個快照中之類似影像常提供其呈現同一事件之證據,即使歸因於釋義或語音辨識/轉譯錯誤,其相關聯之語音轉錄可能不足夠地類似。亦即,文字特徵自身不能正確地偵測此等兩個快照正呈現同一事件。然而,藉由考慮來自影像特徵之額外證據,系統可產生正確的預測。
為了提供對總體不類似性值之更多的洞察力,將原始不類似性式(f8)重寫為不對稱地處理文字及影像特徵之等效形式。進一步分析此替代形式以展示NED過程如何更有效率。首先,將式(f5)及(f7)替換為(f8),且將S 1
及S 2
之總體不類似性重寫為
藉由考慮兩個可能情況來分析(f9),而任一情況具有兩個子情況:
(1)當S 1
及S 2
之關鍵圖框為近似重複影像(亦即,時,具有因此,可預測:
(i)子情況1:若,則S 1
與S 2
表示同一事件,及
(ii)子情況2:若,則S 1
與S 2
表示不同事件。
(2)當S 1
及S 2
之關鍵圖框不為近似重複影像(亦即,)時,具有 w image
。
因此,可預測:
(i)子情況3:若,則S 1
與S 2
表示同一事件,及
(ii)子情況4:若,則S 1
與S
2
表示不同事件。
圖3說明以上四個子情況。
對於任何兩個快照S 1
及S 2
,似乎吾人必須使用其文字/影像特徵兩者,且檢查以上所有四個子情況以判定其是否呈現同一事件。然而,在許多情況下,此結果為不必要的。藉由不對稱地處理文字及影像,可藉由將以上四個子情況重寫為下列等效的三個情況而大大地簡化NED操作,其中僅情況2具有兩個子情況:
(1)情況1:。在此情況下,預測S 1
與S 2
呈現不同事件,其與正規化之影像不類似性無關。
(2)情況2:。在此情況下,存在兩個子情況:
(i)子情況1:若,則預測S 1
與S 2
呈現同一事件。
(ii)子情況2:若,則預測S 1
與S 2
呈現不同事件。
(3)情況3:。在此情況下,預測S 1
與S 2
呈現同一事件,其與正規化之影像不類似性無關。
在以上情況下,情況1及情況3僅需要快照S 1
及S 2
之文字特徵。因此,為了ONED目的,可不對稱地處理文字特徵及影像特徵,亦即,可將文字特徵用作一預過濾器來過濾出關於影像特徵之多數不必要的操作。此可對偵測效率帶來巨大益處,因為多數快照對之文字類似性低,且因此,情況1為最頻繁出現之情況。另一方面,不需要在文字特徵前處理影像特徵,因為單獨使用影像特徵不能判定S 1
及S 2
是否呈現同一事件。
現在基於以上分析描述用於提高ONED系統之效率的說明性技術。首先給出之最佳化的ONED系統之高階概述,且接著詳細闡述個別技術。
圖4展示根據一說明性實施例之最佳化的ONED系統400之架構。將來自一或多個頻道401之視訊串流(C1
、C2
、...、Cn
)劃分為快照(未明確地展示)。對於每一快照S
,藉由使用語音辨識(403)以及機器轉譯(404)技術來擷取(402)文字特徵。文字特徵用以識別及移除非新聞快照(406)。其餘新聞快照被饋入至ONED組件412,其中新事件快照經識別及發送至消費者(414)。在ONED過程期間,僅當必要時擷取S
之影像特徵(408)以判定S
之關鍵圖框是否為固定影像(410)及計算S
與舊快照之間的影像類似性。
圖5展示根據ONED系統400使用的演算法之描述。以下解釋此演算法之細節。一般熟習此項技術者將易於認識到演算法500中的虛擬碼(pseudocode)中之哪些部分係關於由ONED組件執行之步驟。
在廣播視訊中,通常將非新聞視訊段(例如,廣告片、TV展示)與新聞故事混合。為了ONED目的,不應將非新聞快照作為新事件快照,即使先前未顯現類似快照。移除此等快照不僅能減少需要由ONED組件處理的快照之數目,且亦能提高ONED系統之效率及偵測準確度。
為此,一簡單方法在於當廣播新聞視訊時,人工指定規則的時間週期。然而,此方法不可升級至成千上萬個頻道,其為ONED系統需要處置之典型情況。此外,對於移除所有非新聞快照而非僅廣告片之目的,其為較佳的。作為替代,應用簡單的基於文字之方法以移除非新聞快照。其基本理念在於,非新聞快照(例如,廣告片)常具有比新聞快照大的背景雜訊,此使語音辨識器難以辨識非新聞視訊中之文字。同樣,在新聞快照中,主持人傾向於以比非新聞快照(例如,TV展示)快的速度講話。基於此等兩個性質,預測若S
之經辨識文字含有比J
個截然不同的詞語(其中J
為一預定常數)少,則快照S
不為新聞。雖然此方法相當簡單,但其高度準確,且具有幫助提高ONED系統之效率的低耗用(low overhead)。同樣,對於刪掉的非新聞快照,不再需要花費多的影像特徵擷取步驟。
如上提到,需要儘可能多地延遲影像特徵之處理。如圖4及圖5中所示,當處理新快照S
時,首先擷取其文字特徵,而非其影像特徵。當將S
與舊快照S old
比較時,首先計算其正規化之文字點積,而非其影像不類似性。若(以上情況1),則預測S
與S old
呈現不同事件。若(以上情況3),則預測S
與S old
呈現同一事件。在情況1及情況3兩者中,跳過代價高但不必要的影像不類似性計算步驟。僅在情況2(當時,需要計算影像不類似性。由於多數對的快照之文字點積低,故情況2出現頻率通常比情況1及情況3小得多。因此,可避免多數影像不類似性計算。
此外,當進行新快照並非新事件之預測時,若所有比較之舊快照屬於情況1或情況3,則可跳過花費多的影像特徵擷取步驟。換言之,僅當預測S
為新事件快照或具有(對於某一S old
)時,需要擷取新快照S
之影像特徵。實務上,在存在大量頻道之情況下,歸因於在不同頻道上及在同一頻道內的同一事件之重複提到,多數快照將正呈現現有事件。又,情況1及情況3出現頻率比情況2大得多。因此,可跳過用於大部分快照之花費多的影像特徵擷取步驟。
在新聞視訊中,新聞故事通常由固定人員廣播。來自同一頻道的兩個新聞快照常具有具有同一主持人之關鍵圖框,但呈現不同事件。然而,在此情況下,不應將類似關鍵圖框作為此等兩個快照呈現同一事件之暗示來處理。為了考量此因素,使用以下方法。在Campbell等人(M. Campbell、S. Ebadollahi及D. Joshi等人之"IBM Research TRECVID-2006 Video Retrieval System",NIST TRECVID工作室,2006)中描述之固定影像偵測方法用以偵測哪些關鍵圖框為固定影像。在此已知固定影像偵測方法中,基於支援向量機(Support Vector Machines(SVM))及低位準顏色相關圖特徵,進行關於哪些關鍵圖框為固定影像之判定。可使用其他已知固定影像偵測方法。接著,當比較兩個快照時,若任一快照之關鍵圖框為固定影像,則將二進位化之影像不類似性設定為一。亦即,若其中之任一者為一固定快照,則將其關鍵圖框處理為不類似。此可減小固定快照之錯誤證據對ONED系統之偵測準確度之影響。
通常,在新聞視訊中,一事件之論述僅持續有限的時間量,且新的快照不可能呈現與相當舊的快照相同之事件。因此,僅記住處於一滑動窗(諸如,最後W
天)內的彼等舊快照之資訊。因此,W
為一預定常數。保留用於快照S
之資訊包括其文字特徵及其影像特徵(見上),但非其視訊影像,因為僅需要此等特徵來將S
與未來快照比較。一旦一舊快照自滑動窗期滿,則立即丟棄其資訊。如所示,圖6C說明根據本發明之一實施例之一滑動時間窗。
通常,一事件由大量快照呈現。此等快照中之僅一者為新事件快照。呈現同一事件之所有快照傾向於相互類似。因此,將新快照與呈現同一事件之所有舊快照比較為不必要的動作。實情為,僅保留新事件快照之資訊。當一新快照S
到達時,將S
與舊的新事件快照比較。若S
經預測為呈現新事件之新事件快照,則將S
之資訊保存於記憶體中。否則,拋棄S
。
一快照之文字中的所有詞語可按其詞語權重之降序來加以排序。一般而言,彼等具有較大權重之詞語對於NED更重要。因此,對於每一保存之快照,僅保留具有最大權重之前K
個詞語,而非所有詞語。因此,K
為一預定常數。僅前K
個詞語用以計算文字點積。
為了減少計算不類似性值之耗用,開發出藉由使用低耗用方法自新快照快速地過濾出呈現不同事件之多數快照之預過濾技術。以此方式,可大體上減少需要加以計算的不類似性值之數目。考慮兩個快照S 1
及S 2
。若S 1
與S 2
呈現同一事件,則其文字之前幾個詞語傾向於具有一些重疊。亦即,某一(些)詞語有可能出現於S 1
之文字及S 2
之文字兩者的前幾個詞語中。因此,此等前幾個詞語可用以快速過濾出不必要的計算。更具體言之,具有一預定常數M
(M K
)。在計算S 1
與S 2
之文字點積前,首先檢查S 1
與S 2
之前M
個詞語是否交叉。若如此,則繼續計算S 1
與S 2
之文字點積。否則,預測S 1
與S 2
呈現不同的事件,且不計算其文字點積(dot product)。
建置索引以避免已經過濾出的快照之不必要的處理。詞彙中之每一詞語具一詞語id。每一快照具有一對應於其到達時間之快照id。對於所有保存之快照,保留兩個索引:一前向索引及一反向索引。對於每一保存之快照,前向索引具有一項。按快照之到達時間的降序排序此等項。此允許快速地識別及刪掉已自最後W
天之滑動窗期滿的彼等快照之資訊(見上)。對於每一保存之快照,對應的項保持影像特徵及與其詞語權重相關聯之前K
個詞語兩者。按其詞語id之降序排序此等詞語。因此,兩個快照之文字點積可經由其詞語清單之有效的"合併"而計算。
對於每一保存之快照,僅其前M
個詞語由反向索引追蹤。對於詞彙中之每一詞語,反向索引具有一項。詞語t
之項為其前M
個詞語含有t
之所有快照的快照id之置入(鏈接)清單。此等快照id經按降序排序,使得可有效率地進行合併置入清單。當新的快照S
到達時,僅掃描對應於S
之前M
個詞語之M
個置入清單。此等M
個置入清單經合併於在一起以找到可呈現與S
相同之事件的候選快照之快照id。此為上述預過濾技術。接著,對於每一個此候選快照S C
,使用前向索引計算文字點積及S
與S c
之影像不類似性(若需要)。在產生候選快照id的同時執行此計算。以此方式,若S
與舊快照之總體不類似性值比臨限值T
小,則預測S
為非新事件快照,且對S
之處理立即停止。否則,若預測S
為新事件快照,則可易於將S
之資訊添加至反向索引,因為S
之快照id比保存之快照的快照id大。
圖6A說明根據本發明之另一實施例之一線上新事件偵測方法。此方法可實施於ONED系統400中。如所示,方法600判定給定事件是否為視訊串流中之新事件。該視訊串流包括複數個事件。步驟602自該給定事件擷取第一組特徵(例如,文字特徵)。與相關聯於該給定事件之第二組特徵(例如,影像特徵)相比較,該第一組特徵計算方面的處理花費較少。當存在一或多個第一不類似性準則時,步驟604僅使用該第一組特徵計算該給定事件與該視訊串流中之一或多個先前事件之間的一或多個第一不類似性值。步驟606基於該一或多個計算的第一不類似性值判定該給定事件是否為一新事件。
圖6B說明根據本發明之又一實施例之一線上新事件偵測方法。此方法可實施於ONED系統400中。如所示,方法610為用於捕獲呈現視訊串流環境中之先前未看到的事件之新事件視訊片段的即時新事件偵測過程。該方法包括一多階段依次過濾過程。該過程包括:識別相關特徵(步驟612)、基於用以導出或擷取該等特徵之計算努力來排列該等特徵(步驟614),及基於該等排列的特徵形成一或多個多階段依次過濾器(multi-stage sequential filters),其中在較不易於計算之特徵前使用該等較易於計算之特徵(步驟616)。在一特定實施例中,該多階段依次過濾過程之一階段為單獨將文字特徵用作一過濾器來偵測一新事件,同時,一隨後階段為將影像特徵用作一過濾器來補充該偵測過程。
最後參看圖7,說明根據本發明之一實施例之可實施線上新事件偵測之技術的一電腦系統。亦即,圖7說明根據本發明之一實施例之可實施ONED技術之一或多個組件/步驟(例如,以上在圖1至圖6B之上下文中描述之組件及方法)的電腦系統。應理解,可將個別組件/步驟實施於一個此電腦系統上或一個以上此電腦系統上。在於分散式計算系統上實施之情況下,經由一合適網路(例如,網際網路或全球資訊網)連接個別電腦系統及/或器件。然而,可經由私用或區域網路實現該系統。在任一情況下,本發明不限於任一特定網路。
因此,圖7中所示之電腦系統可表示一或多個伺服器或能夠提供本文中描述的功能中之全部或部分之一或多個其他處理器件。舉例而言,圖7表示用於實施圖2或圖4之ONED系統之組件的電腦架構。
如所示,電腦系統700包括經由電腦匯流排710或替代連接配置耦接之處理器702、記憶體704、輸入/輸出(I/O)器件706及網路介面708。
應瞭解,如本文中所使用之詞語"處理器"意欲包括任一處理器件,諸如,包括CPU及/或其他處理電路之器件。亦應理解,詞語"處理器"可指一個以上處理器件,且與一處理器件相關聯之各種元件可由其他處理器件共用。
如本文中所使用之詞語"記憶體"意欲包括與處理器或CPU相關聯之記憶體,諸如,RAM、ROM、固定記憶體器件(例如,硬碟機)、抽取式記憶體器件(例如,磁片)、快閃記憶體等。可將記憶體考慮為一電腦可讀儲存媒體。
此外,舉例而言,如本文中所使用之短語"輸入/輸出器件"或"I/O器件"意欲包括用於將資料輸入至處理單元的一或多個輸入器件(例如,鍵盤、滑鼠等)及/或用於呈現與處理單元相關聯之結果的一或多個輸出器件(例如,顯示器等)。
再另外,舉例而言,如本文中所使用之短語"網路介面"意欲包括准許電腦系統經由一適當通信協定與另一電腦系統通信之一或多個收發器。
因此,包括用於執行本文中描述之方法之指令或程式碼的軟體組件可儲存於一或多個相關聯的記憶體器件(例如ROM、固定或抽取式記憶體)中,且當準備加以利用時,經部分或全部載入(例如,至RAM中)且由一CPU執行。
在任一情況下,應瞭解,本文中描述及在附圖中展示的本文中之技術可以各種形式之硬體、軟體或其組合加以實施,例如,具有相關聯之記憶體、特殊實施積體電路、功能電路等的一或多個經操作性程式化之通用數位電腦。給定本文中提供的本發明之技術,一般熟習此項技術者將能夠設想本發明之技術的其他實施。
儘管本文中已參看隨附圖式描述了本發明之說明性實施例,但應理解,本發明並不限於彼等精確實施例,且熟習此項技術者可在不背離本發明之範疇及精神的前提下進行各種其他改變及修改。
100‧‧‧視訊串流
102‧‧‧事件
104‧‧‧事件
106‧‧‧事件
108‧‧‧事件
110‧‧‧事件
112‧‧‧事件
200...基線ONED系統
201...多語言視訊頻道
202...特徵擷取模組
204...影像特徵擷取
206...自動語音辨識
208...機器轉譯
210...ONED組件
212...消費者
400...ONED系統
401...頻道
402...文字特徵擷取
403...語音辨識
404...機器轉譯
406...非新聞快照移除
408...影像特徵擷取
410...固定影像偵測
412...ONED組件
414...消費者
700...電腦系統
702...處理器
704...記憶體
706...輸入/輸出(I/O)器件
708...網路介面
710...電腦匯流排
圖1說明根據本發明之一實施例之一視訊資料串流中之事件。
圖2說明根據本發明之一實施例之一線上新事件偵測系統。
圖3說明根據本發明之一實施例之各種視訊串流類似性情形。
圖4說明根據本發明之另一實施例之一線上新事件偵測系統。
圖5說明根據本發明之一實施例之一線上新事件演算法。
圖6A說明根據本發明之另一實施例之一線上新事件偵測方法。
圖6B說明根據本發明之又一實施例之一線上新事件偵測方法。
圖6C說明根據本發明之一實施例之一滑動時間窗。
圖7說明根據本發明之一實施例之可實施線上新事件偵測之技術的一電腦系統。
200...基線ONED系統
201...多語言視訊頻道
202...特徵擷取模組
204...影像特徵擷取
206...自動語音辨識
208...機器轉譯
210...ONED組件
212...消費者
Claims (20)
- 一種用於判定一給定事件是否為一包含複數個事件之視訊串流中的一新事件之方法,其包含下列步驟:自該給定事件擷取第一組特徵,其中與相關聯於該給定事件之第二組特徵相比較,該第一組特徵計算方面的處理花費較少;僅使用該第一組特徵計算該給定事件與該視訊串流中之一或多個先前事件之間的一或多個第一不類似性值;及當存在一或多個第一不類似性準則時,基於僅使用該第一組特徵計算的該一或多個第一不類似性值判定該給定事件是否為一新事件,其中該一或多個第一不類似性準則之存在指明該一或多個第一不類似性值足以判定該給定事件是一新事件。
- 如請求項1之方法,其中進一步包含下列步驟:自該給定事件擷取該第二組特徵;當存在一或多個第二不類似性準則時,使用該第二組特徵計算該給定事件與該視訊串流中之該一或多個先前事件之間的一或多個第二不類似性值;及基於該一或多個計算的第一不類似性值及該一或多個計算的第二不類似性值判定該給定事件是否為一新事件。
- 如請求項1之方法,其中該第一組特徵包含一組文字特徵,及該第二組特徵包含一組影像特徵。
- 如請求項1之方法,其進一步包含限制與該給定事件相比較的一或多個先前事件之數目以僅包括一給定時間窗中之先前事件之步驟。
- 如請求項1之方法,在計算該一或多個第一不類似性值前,進一步包含預過濾用以計算該給定事件與該一或多個先前事件之間的該一或多個第一不類似性值之該等先前事件之步驟,其中該預過濾步驟係基於在該給定事件與該一或多個先前事件中之詞語之間的一重疊之一判定。
- 如請求項1之方法,其進一步包含建置一或多個索引以追蹤該複數個事件中之哪些者被用以判定該給定事件是否為一新事件之步驟。
- 如請求項1之方法,其中該一或多個第一不類似性準則包含一小於、大於或等於一給定值之文字不類似性臨限值。
- 如請求項2之方法,其中該一或多個第二不類似性準則包含一小於、大於或等於一給定值之影像不類似性臨限值。
- 一種用於判定一給定事件是否為一包含複數個事件之視訊串流中的一新事件之電腦程式產品,該製品包含一電腦可讀儲存媒體,該電腦可讀儲存媒體包括當由一電腦執行時執行請求項1之方法的一或多個程式。
- 一種用以捕獲呈現一視訊串流環境中之先前未看到的事件之新事件視訊片段之即時新事件偵測方法,該方法包 含提供一多階段依次過濾過程之步驟,該過程包含下列步驟:識別相關特徵;基於用以導出或擷取該等特徵之計算量來排列該等特徵;及基於該等排列的特徵形成一或多個多階段依次過濾器,其中在較不易於計算之特徵前,使用該等較易於計算之特徵,其中該等較易於計算之特徵是文字特徵,而較不易於計算之特徵是影像特徵,且其中該多階段依次過濾過程之一階段為單獨將文字特徵用作一過濾器來偵測一新事件,而一隨後階段為將影像特徵用作一過濾器來補充該偵測。
- 如請求項10之方法,其中對每一快照建置一或多個索引,以避免已經過濾掉的快照之不必要的處理。
- 如請求項10之方法,其中僅將關於在最後W天內的該等經識別之新事件視訊片段之資訊儲存於記憶體中,其中W天為一預定之正整數天數。
- 如請求項10之方法,其中僅將關於每一視訊片段之前K個最大權重的詞語之資訊儲存於記憶體中,其中K為一預定之正整數詞語數。
- 如請求項10之方法,其中使用該等視訊片段中之前M個最大權重的詞語以預過濾出不可能呈現與該新事件視訊片段相同之事件的舊事件視訊片段,其中M為一預定之正整數詞語數。
- 如請求項10之方法,其中單獨地使用文字特徵以過濾掉此等非新事件視訊片段,使得避免此等非新事件視訊片段上之影像特徵擷取。
- 如請求項10之方法,其中當比較該新事件視訊片段與一舊事件視訊片段時,首先計算其文字類似性,且若其文字明顯地不類似,則跳過一影像類似性計算。
- 一種用於判定一給定事件是否為一包含複數個事件之視訊串流中的一新事件之裝置,該裝置包含:一記憶體;及至少一處理器,其耦接至該記憶體,且操作以:(i)自該給定事件擷取第一組特徵,其中與相關聯於該給定事件之第二組特徵相比較,該第一組特徵計算方面的處理花費較少;(ii)僅使用該第一組特徵計算該給定事件與該視訊串流中之一或多個先前事件之間的一或多個第一不類似性值;及(iii)當存在一或多個第一不類似性準則時,基於僅使用該第一組特徵計算的該一或多個第一不類似性值判定該給定事件是否為一新事件,其中該一或多個第一不類似性準則之存在指明該一或多個第一不類似性值足以判定該給定事件是一新事件。
- 如請求項17之裝置,其中該處理器進一步操作以:自該給定事件擷取該第二組特徵;當存在一或多個第二不類似性準則時,使用該第二組特徵計算該給定事件與該視訊串流中之該一或多個先前事件之間的一或多個第二不類似性值;及 基於該一或多個計算的第一不類似性值及該一或多個計算的第二不類似性值判定該給定事件是否為一新事件。
- 如請求項17之裝置,其中該第一組特徵包含一組文字特徵,及該第二組特徵包含一組影像特徵。
- 如請求項17之裝置,其中該處理器進一步操作以限制與該給定事件相比較的一或多個先前事件之數目以僅包括一給定時間窗中之先前事件。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/933,775 US8428360B2 (en) | 2007-11-01 | 2007-11-01 | System and method for real-time new event detection on video streams |
Publications (2)
Publication Number | Publication Date |
---|---|
TW200925895A TW200925895A (en) | 2009-06-16 |
TWI436226B true TWI436226B (zh) | 2014-05-01 |
Family
ID=40615740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW097133344A TWI436226B (zh) | 2007-11-01 | 2008-08-29 | 視訊串流上即時新事件偵測之裝置及方法 |
Country Status (4)
Country | Link |
---|---|
US (2) | US8428360B2 (zh) |
JP (1) | JP5255372B2 (zh) |
CN (1) | CN101425135B (zh) |
TW (1) | TWI436226B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100771244B1 (ko) * | 2006-06-12 | 2007-10-29 | 삼성전자주식회사 | 동영상 데이터 처리 방법 및 장치 |
US9443147B2 (en) * | 2010-04-26 | 2016-09-13 | Microsoft Technology Licensing, Llc | Enriching online videos by content detection, searching, and information aggregation |
WO2013062514A1 (en) * | 2011-10-24 | 2013-05-02 | Intel Corporation | Multiple stream processing for video analytics and encoding |
US9053194B2 (en) * | 2012-02-01 | 2015-06-09 | Sri International | Method and apparatus for correlating and viewing disparate data |
US10469624B2 (en) * | 2013-10-07 | 2019-11-05 | Bose Corporation | User interface control in a networked audio system |
US10505883B1 (en) * | 2014-04-16 | 2019-12-10 | Google Llc | Re-engagement notifications |
JP6707138B2 (ja) * | 2016-01-05 | 2020-06-10 | グレースノート インコーポレイテッド | チャンネル変更に基づいたトリガフィーチャを有するコンピューティングシステム |
US10812495B2 (en) * | 2017-10-06 | 2020-10-20 | Uvic Industry Partnerships Inc. | Secure personalized trust-based messages classification system and method |
KR102504321B1 (ko) * | 2020-08-25 | 2023-02-28 | 한국전자통신연구원 | 온라인 행동 탐지 장치 및 방법 |
CN113792654A (zh) * | 2021-09-14 | 2021-12-14 | 湖南快乐阳光互动娱乐传媒有限公司 | 视频片段的整合方法、装置、电子设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3534368B2 (ja) * | 1996-04-03 | 2004-06-07 | 株式会社東芝 | 動画像処理方法及び動画像処理装置 |
US6492998B1 (en) * | 1998-12-05 | 2002-12-10 | Lg Electronics Inc. | Contents-based video story browsing system |
EP1067800A4 (en) * | 1999-01-29 | 2005-07-27 | Sony Corp | METHOD FOR PROCESSING SIGNALS AND DEVICE FOR PROCESSING VIDEO / VOCAL SIGNALS |
US6646676B1 (en) * | 2000-05-17 | 2003-11-11 | Mitsubishi Electric Research Laboratories, Inc. | Networked surveillance and control system |
US6928407B2 (en) * | 2002-03-29 | 2005-08-09 | International Business Machines Corporation | System and method for the automatic discovery of salient segments in speech transcripts |
JP2005080169A (ja) * | 2003-09-03 | 2005-03-24 | Sony Corp | 監視システム、情報処理装置および方法、記録媒体、並びにプログラム |
WO2007029489A1 (ja) * | 2005-09-07 | 2007-03-15 | Pioneer Corporation | コンテンツリプレイ装置、コンテンツ再生装置、コンテンツリプレイ方法、コンテンツ再生方法、プログラム、および記録媒体 |
KR100799557B1 (ko) * | 2005-10-27 | 2008-01-31 | 한국전자통신연구원 | 동영상의 비주얼 특징을 이용한 유해 동영상 판별함수 생성및 판별 방법 그리고 그 장치 |
-
2007
- 2007-11-01 US US11/933,775 patent/US8428360B2/en active Active
-
2008
- 2008-08-27 JP JP2008218850A patent/JP5255372B2/ja active Active
- 2008-08-29 TW TW097133344A patent/TWI436226B/zh not_active IP Right Cessation
- 2008-08-29 CN CN2008102126901A patent/CN101425135B/zh active Active
-
2013
- 2013-02-05 US US13/759,638 patent/US9215479B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN101425135A (zh) | 2009-05-06 |
US9215479B2 (en) | 2015-12-15 |
JP5255372B2 (ja) | 2013-08-07 |
JP2009118461A (ja) | 2009-05-28 |
US8428360B2 (en) | 2013-04-23 |
CN101425135B (zh) | 2013-08-14 |
US20140344845A1 (en) | 2014-11-20 |
US20100329563A1 (en) | 2010-12-30 |
TW200925895A (en) | 2009-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI436226B (zh) | 視訊串流上即時新事件偵測之裝置及方法 | |
Nguyen et al. | Automatic image filtering on social networks using deep learning and perceptual hashing during crises | |
Jain | Prediction of movie success using sentiment analysis of tweets | |
US7707162B2 (en) | Method and apparatus for classifying multimedia artifacts using ontology selection and semantic classification | |
US20190266206A1 (en) | Data processing method, server, and computer storage medium | |
Le et al. | NII-HITACHI-UIT at TRECVID 2016. | |
CN109635148B (zh) | 人脸图片存储方法及装置 | |
CN109408672B (zh) | 一种文章生成方法、装置、服务器及存储介质 | |
WO2012141655A1 (en) | In-video product annotation with web information mining | |
JP4979070B2 (ja) | 動画像提示システム | |
CN111324797A (zh) | 一种高速精准获取数据的方法和装置 | |
EP3706014A1 (en) | Methods, apparatuses, devices, and storage media for content retrieval | |
CN115098729A (zh) | 视频处理方法、样本生成方法、模型训练方法及装置 | |
CN111949820B (zh) | 视频关联兴趣点的处理方法、装置及电子设备 | |
CN114302227A (zh) | 基于容器采集的网络视频采集与解析的方法和系统 | |
CN111008304B (zh) | 关键词的生成方法和装置、存储介质及电子装置 | |
Nagaraja et al. | Content based video retrieval using support vector machine classification | |
Collyda et al. | Videoanalysis4all: An on-line tool for the automatic fragmentation and concept-based annotation, and the interactive exploration of videos | |
CN111639599A (zh) | 物体图像挖掘方法、装置、设备以及存储介质 | |
Mezaris et al. | Improving interactive video retrieval by exploiting automatically-extracted video structural semantics | |
CN108491522A (zh) | 信息推送方法及装置 | |
Ye et al. | Alertme: Towards natural language-based live video trigger systems at the edge | |
Kashimath et al. | Development of Video Summarization model using machine learning algorithm | |
CN117221669B (zh) | 一种弹幕生成方法及装置 | |
US20230394860A1 (en) | Video-based search results within a communication session |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |