TWI553494B - 基於多模態融合之智能高容錯視頻識別系統及其識別方法 - Google Patents

基於多模態融合之智能高容錯視頻識別系統及其識別方法 Download PDF

Info

Publication number
TWI553494B
TWI553494B TW104136366A TW104136366A TWI553494B TW I553494 B TWI553494 B TW I553494B TW 104136366 A TW104136366 A TW 104136366A TW 104136366 A TW104136366 A TW 104136366A TW I553494 B TWI553494 B TW I553494B
Authority
TW
Taiwan
Prior art keywords
video
elements
recognition
subsystem
modal fusion
Prior art date
Application number
TW104136366A
Other languages
English (en)
Other versions
TW201717062A (zh
Inventor
胥國棟
黃俊傑
陳彥呈
Original Assignee
創意引晴股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 創意引晴股份有限公司 filed Critical 創意引晴股份有限公司
Priority to TW104136366A priority Critical patent/TWI553494B/zh
Priority to US15/007,872 priority patent/US10013487B2/en
Application granted granted Critical
Publication of TWI553494B publication Critical patent/TWI553494B/zh
Publication of TW201717062A publication Critical patent/TW201717062A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

基於多模態融合之智能高容錯視頻識別系統及其識別方 法
本發明涉及一種識別系統與識別方法,尤其涉及一種視頻的識別系統與識別方法。
隨著網路技術的發展以及雲端服務的普及化,許多業者會將視頻並上傳至網路,以令用戶可以得到比文字更為豐富的內容。
一般來說,業者於上傳各類視頻,例如音樂錄音帶、廣告、電影等時,會同時為各該視頻編寫一段文字描述。當用戶要尋找一段視頻時,主要是在網路平台上輸入該視頻的關鍵字,若用戶輸入的關鍵字存在於該視頻的文字描述中,用戶就可以成功搜尋到該視頻。
如上所述,現今業者在上傳視頻時,需以人工方式為每一段視頻分別撰寫對應的文字描述,因此需耗費相當高的成本。再者,上述文字描述通常是依據該視頻的主要劇情或是導演要表達的內容來撰寫,不一定和該視頻中實際出現的元素(例如人物、場景、音樂等)有實際的關聯。因此,即使用戶以該 視頻中出現的人物、場景或音樂的名稱做為關鍵字來進行搜尋,也不見得能成功搜尋到該視頻。
有鑑於此,如何令業者以最節省成本的方式來為視頻產生對應的文字描述,以及令用戶能以視頻中實際出現的元素的名稱做為關鍵字來準確搜尋所需的視頻片段,即為本技術領域的通常知識者所潛心研究的方向。
本發明的主要目的,在於提供一種基於多模態融合之智能高容錯視頻識別系統及其識別方法,可識別出視頻中包含的多個元素的名稱,以及各個元素在視頻中出現的時間,藉此可供用戶以文字進行所需視頻片段的搜尋動作。
本發明的另一主要目的,在於提供一種基於多模態融合之智能高容錯視頻識別系統及其識別方法,可對同一時間出現的多個元素進行多模態融合識別,以提昇各個元素的識別準確率與容錯性。
為了達成上述目的,本發明的識別方法主要是對輸入的視頻進行多模態識別,以取出視頻中的多個元素及各元素出現的時間。接著對多個元素進行分類,並依據不同演算法分別對各個對應類別的元素進行識別。接著,於任一元素的識別準確率不足時,依據同一時間出現的其他元素進行交叉識別,以提升系統的識別準確率及容錯性。此外,同一元素在連續時間段裡面,即使準確率不足,但只要識別其中一幀就可以歸納確定此元素的內容。最後,依據識別完成的多個元素以及各個元素出現的時間進行多模態融合,為視頻產生可供用戶以文字進行搜尋的索引檔。
本發明對照先前技術所能達成的技術功效在於,識別系統會為識別完成的視頻產生專屬的一索引檔,該索引檔中記錄了該視頻中出現的所有元素,以及各個元素於該視頻中出現的時間。如此一來,當一用戶以文字進行所需元素,例如人物、場景、音樂、動作等的搜尋時,可直接得到包含有該些元素的視頻,以及該些元素於該視頻中出現的片段,相當便利。
另外,本發明係對各個元素進行分類後,再依據對應的演算法來分別對各個類別的元素進行識別,如此可以同時對視頻中出現的多個類別的元素進行識別。並且,本發明還可以將同一時間出現的多個元素進行交叉識別,以及對出現在多個不同時間的同一個元素進行交叉比對。如此一來,可以有效提昇各個元素的識別準確率與容錯性。
1‧‧‧基於多模態融合之智能高容錯視頻識別系統
11‧‧‧影片輸入次系統
12‧‧‧元素擷取與分類次系統
121‧‧‧分類資料庫
13‧‧‧元素識別次系統
131‧‧‧第一元素識別次系統
132‧‧‧第二元素識別次系統
13n‧‧‧第n元素識別次系統
14‧‧‧元素資料庫
141‧‧‧第一元素資料庫
142‧‧‧第二元素資料庫
14n‧‧‧第n元素資料庫
15‧‧‧索引檔產生次系統
151‧‧‧語料庫
16‧‧‧影片敘述產生次系統
17‧‧‧主資料庫
2‧‧‧桌上型電腦
3‧‧‧筆記型電腦
4‧‧‧行動裝置
5‧‧‧視頻
61‧‧‧第一元素
62‧‧‧第二元素
63‧‧‧第三元素
64‧‧‧第四元素
65‧‧‧第五元素
S10~S26‧‧‧識別步驟
S30~36‧‧‧搜尋步驟
圖1為本發明的第一具體實施例的視頻識別平台架構圖。
圖2為本發明的第一具體實施例的識別系統方塊圖。
圖3為本發明的第一具體實施例的識別流程圖。
圖4為本發明的第一具體實施例的元素識別示意圖。
圖5為本發明的第一具體實施例的元素出現時間示意圖。
圖6為本發明的第一具體實施例的元素搜尋流程圖。
茲就本發明之一較佳實施例,配合圖式,詳細說明如後。
參閱圖1,為本發明的第一具體實施例的視頻識別平台架構圖。本發明主要揭露一基於多模態融合之智能高容錯視頻識別系統1(下面簡稱為該 系統1),以及該系統1使用的一基於多模態融合之智能高容錯視頻識別方法(下面簡稱為該方法)。
如圖1所示,該系統1主要用於建置一雲端平台。當用戶通過各式用戶終端,例如桌上型電腦2、筆記型電腦3或行動裝置4連接該雲端平台並上傳一視頻時,該系統1可為該視頻進行分析。待分析完成後,該視頻即可被用戶以文字、圖像或影片的方式進行搜尋,如此將有助於該視頻於網路上的流傳,進而能有效提高該視頻的能見度。
更甚者,該系統1可於分析後確認該視頻中包含有哪些元素(components),並且依據該些元素來為該視頻產生具有邏輯性的一段影片敘述。這些元素可例如但不侷限於:人臉、商標、文字、音樂、語音、動作、物件、場景…等,但不以此限定。如此一來,提供該視頻的業者不需要以人工方式為該視頻撰寫影片敘述,因此可有效節省所需耗費的成本。
參閱圖2,為本發明的第一具體實施例的識別系統方塊圖。如圖2所示,該系統1主要包括一影片輸入次系統11、連接該影片輸入次系統11的一元素擷取與分類次系統12、連接該元素擷取與分類次系統12的複數元素識別次系統13及連接該複數元素識別次系統13的一索引檔產生次系統15。
該影片輸入次系統11用以接收一視頻的輸入。本實施例中,該影片輸入次系統11可經由網路接收用戶上傳的該視頻,然而於其他實施例中,該影片輸入次系統11亦可經由有線傳輸方式或無線傳輸方式(例如經由藍牙(Bluetooth)、射頻(RF)或紫蜂(Zigbee)等),由周邊的電子裝置、硬碟或資料庫接收該視頻,不加以限定。
該元素擷取與分類次系統12由該影片輸入次系統11接收該視頻,並且對該視頻進行第一階段分析。具體而言,於該第一階段分析中,該元 素擷取與分類次系統12係可擷取出該視頻中出現的所有元素,以及各該元素於該視頻中出現的時間。
於該視頻中的所有元素皆被擷取出來之後,該元素擷取與分類次系統12進一步對各該元素進行分類,以確認該些元素分別屬於哪一個類別。本實施例中,該元素擷取與分類次系統12主要可依據一演算法將各該元素區分為人臉(Face)、影像(Image)、文字(Text)、聲音(Audio)、動作(Motion)、物件(Object)及場景(Scene)等類別,但不加以限定。
更具體而言,該系統1還包括連接該元素擷取與分類次系統12的一分類資料庫121,該分類資料庫121中儲存該複數類別所對應的多個特徵。具體而言,各個類別的元素都有特定的特徵,因此本實施例中,該元素擷取與分類次系統12主要是將該些元素與該分類資料庫121中的該些特徵進行比對,藉此判斷各該元素分別屬於哪一個類別。
本實施例中,該複數元素識別次系統13係用於對該視頻進行第二階段分析,其中該複數元素識別次系統13的數量係對應至該元素擷取與分類次系統12能夠分析的類別數量。經過該第二階段分析後,該系統可以確定各該元素的實際名稱(label)。
如圖2所示,本實施例中該元素擷取與分類次系統12可以區分n個類別的元素,故該複數元素識別次系統13係以一第一元素識別次系統131、一第二元素識別次系統132、………、至一第n元素識別次系統13n為例,其中,該第一元素識別次系統131用以對一第一類別的一或多個元素進行識別、該第二元素識別次系統132用以對一第二類別的一或多個元素進行識別、……、該第n元素識別次系統13n用以對一第n類別的一或多個元素進行識別,以此類推。
值得一提的是,於一較佳實施例中,該視頻中的該些元素主要可以被區分為上述的人臉(Face)、影像(Image)、文字(Text)、聲音(Audio)、動作 (Motion)、物件(Object)及場景(Scene)等七個類別,因此,相應地,該複數元素識別次系統13的數量較佳為七個,但不加以限定。
如上所述,該複數元素識別次系統13分別對應該複數類別的其中之一,並且採用對應的一演算法對該類別的元素進行識別。舉例來說,該第一元素識別次系統131可採用臉部辨識演算法,對被分類至「人臉」類別的一或多個元素進行識別,以確認該些元素分別對應至哪個人物。再例如,該第二元素識別次系統132可採用物件辨識演算法,對被分類至「物件」類別的一或多個元素進行識別,以確認該些元素分別是什麼物件,例如為汽車、飛機、包包、手錶等等。
該系統1還包括複數元素資料庫14,該複數元素資料庫14的數量對應至該複數元素識別次系統13的數量。各該元素資料庫14分別連接至該複數元素識別次系統13的其中之一,並且與所連接的該元素識別次系統13屬於同一類別。
更具體地,各該元素資料庫14分別儲存有所屬的類別的元素資料。於執行該第二階段分析時,各該元素識別次系統13係將該些元素分別與所屬類別的元素資料進行比對,以確認該些元素的名稱。
值得一提的是,該複數元素識別次系統13還可對不同類別的多個元素進行交叉識別(或稱多模態融合識別),以提昇該些元素的識別準確率以及容錯性。具體來說,該複數元素識別次系統13是在一特定元素的準確率不足(例如低於70%或80%)時,將該特定元素與同一時間出現的其他元素進行交叉比對,藉此提昇該特定元素的識別準確率以及容錯性。
舉例來說,若該第一元素識別次系統131識別一第一元素(人臉)後,判斷該第一元素的名稱為「周杰倫」,但準確率只有70%,則此識別結果可能會因為準確率不足而不被該系統1所採用。然,若該第二元素識別次系統132 於同一時間識別一第二元素(例如聲音)的名稱為「七里香」而準確率為99%,且該第n元素識別次系統13n於同一時間識別一第三元素(例如物件)的名稱為「鋼琴」而準確率為95%,則該複數元素識別次系統13可經由交叉識別演算(周杰倫善於鋼琴,且七里香為周杰倫的創作歌曲),提昇該第一元素的名稱為「周杰倫」的識別結果的準確率(例如提昇為85%)。而當準確率提昇並超過一標準值後,該識別結果即可被該系統1所採用。
於上述實施例中,該系統1係於該特定元素的識別準確率不足時執行上述交叉識別,然而於其他實施例中,該系統1亦可常態地執行上述交叉識別,以進一步確定各該元素的實際態樣。
舉例來說,該第n元素識別次系統13n識別一第四元素(例如物件)後,可能識別出該第四元素的名稱為「汽車」且準確率為99%,但無法確定該汽車的廠牌或款式。此時,若該第二元素識別次系統132於同一時間識別一第五元素(例如聲音)的名稱為「寶馬」且準確率為99%,則該複數元素識別次系統13可經由交叉識別演算後,識別出該第四元素的名稱為「寶馬」且準確率為99%。
如上所述,本發明主要是同時採用多種演算法,分別對視頻中的不同類別的元素同時進行識別,進而可增加識別後可得之結果。同時,本發明還可於必要時由多種演算法對不同類別的元素進行交叉識別,如此一來,只要同一時間出現的多個元素彼此之間具有關聯性,就可以有效提昇各個元素的識別準確率。惟,上述僅為本發明的一具體實施範例,不應以此為限。
值得一提的是,上述的交叉識別亦可運用於同一個元素,具體說明如下。由於同一個元素可能會連續或不連續地出現在同一段視頻的不同時間點中,因此,當各該元素識別次系統13對一特定時間中出現的元素進行識別但識別準確率不足時,可進一步對連續或不連續的多個時間點(或時間段)中出現的同一元素進行交叉識別。在進行了多次識別後,只要其中有任何一幀的識別準 確率足夠,就可以歸納確定這些時間點中出現的該元素的內容為何。藉此,可大幅提昇該元素的識別準確率及容錯性。
該索引檔產生次系統15主要是由該複數元素識別次系統13接收該些元素的識別結果,並且依據識別完成的該些元素進行多模態融合,藉此為該視頻產生可供文字搜尋的一索引檔(index)。更具體而言,該索引檔產生次系統15係依據識別準確率高於該標準值(例如80%)的識別結果產生該索引檔,換句話說,該索引檔中不會包含識別準確率低於該標準值的元素,但不加以限定。
本實施例中,該索引檔主要可包含各該元素的類別、名稱以及於該視頻中出現的時間。舉例來說,該索引檔的內容可例如為{id:1,type:人臉,name:周杰倫,time:00:13~01:28}{id:2,type:物件,name:汽車,time:00:10~01:00}{id:3,type:場景,name:沙灘,time:01:00~01:35}等等。
如上所述,於本發明中,該索引檔主要是用於供用戶以關鍵字進行的搜尋,因此不需要以用戶可以理解的方式來呈現。
於一實施例中,該系統1更包括連接該複數元素識別次系統13的一影片敘述產生次系統16,以及連接該影片敘述產生次系統16的一語料庫161,該語料庫161中儲存有複數語法規則。
本實施例中,該影片敘述產生次系統16係由該複數元素識別次系統13分別取得識別完成的多個元素,並且依據該些識別完成的元素,以及該複數語法規則,為該視頻產生具有邏輯性的一影片敘述。本實施例中,該影片敘述產生次系統16主要是一自然語言處理(Natural Language Processing,NLP)系統,並且採用自然語音處理演算法來對該些識別完成的元素進行邏輯處理,以產生具有邏輯性的該影片敘述。
更甚者,考量到某些視頻的時間長度可能太長(例如微電影約30分鐘,正規電影約2小時),若要以單一句或單一段影片敘述來描述單一視頻實有 困難。因此,該影片敘述產生次系統16還可於必要時產生複數影片敘述來描述單一視頻。
具體而言,於另一實施例中,該影片敘述產生次系統16可依據該視頻的場景切換、分鏡改變或是時間區間經過,將該視頻區分為複數片段。並且,再依據各該片段中出現且已識別完成的複數元素,分別為各該片段產生具有邏輯性的該影片敘述。換句話說,每一片段皆具有一影片敘述,而該視頻具有複數片段以及複數影片敘述。惟,上述僅為本發明的另一實施範例,不應以此為限。
本發明中,該影片敘述主要是用於令用戶可以在短時間內快速瞭解該視頻的內容,因此主要是以具有邏輯性、與該視頻所包含的元素直接相關並且用戶可以瞭解的方式來呈現(容後詳述)。通過本發明的技術方案,業者只需將該視頻上傳至該系統1,即可由該系統1自動為該視頻產生對應的該影片敘述。如此一來,業者可以有效省下人工瀏覽該視頻後再撰寫影片敘述所需耗費的成本。
如圖2所示,該系統1還可包括一主資料庫17,連接該影片輸入次系統11、該索引檔產生次系統15及該影片敘述產生次系統16。該主資料庫17主要用於儲存上述的該視頻、以及該視頻所對應的該索引檔及該影片敘述,但不加以限定。
值得一提的是,上述該該影片輸入次系統11、該元素擷取與分類次系統12、該複數元素識別次系統13、該索引檔產生次系統15與該影片敘述產生次系統16主要可以實體的系統硬件,例如各別的伺服器或電腦主機來實現,或是以該系統1內部執行的一或多套軟體來實現,不加以限定。
請同時參閱圖3,為本發明的第一具體實施例的識別流程圖。圖3揭露了本發明的該方法,並且該方法主要是以圖2所示的該系統1來實現。
首先,由該系統1輸入一視頻(步驟S10),並且,該系統1對輸入的該視頻進行分析(多模態識別),以擷取出該視頻中包含的複數元素,以及各該元素出現的時間(步驟S12)。本實施例中,該系統1可於該視頻輸入後立即開始分析,或是先將該視頻暫存於該主資料庫17中,並依據系統排程進行分析,不加以限定。
該步驟S12後,該系統1對擷取出來的複數元素進行分類(步驟S14),並且通過複數演算法分別對各個類別的該元素進行識別,以確認各該元素的名稱(步驟S16)。其中,該複數演算法係分別對應至該系統1可區分的該複數類別的其中之一。
接著,該系統1判斷是否有識別準確率不足的一特定元素(步驟S18)。若有識別準確率不足的該特定元素,則該系統1對該特定元素要進行交叉識別(步驟S20),藉此提昇該特定元素的識別準確率及容錯性。
較具體地,該步驟S20是將該特定元素與同一時間出現的其他元素進行交叉識別,或是對出現在多個不同的時間點或時間段中的該特定元素進行交叉識別,不加以限定。然而,如前文中所述,該系統1可於該特定元素存在時才執行該交叉識別動作,亦可常態執行該交叉識別動作。換句話說,上述該步驟S18並不必然存在。
於該視頻中的所有元素皆識別完成後,該系統1進一步依據識別完成的該些元素進行多模態融合,藉此為該視頻產生可供文字搜尋的該索引檔(步驟S22),並且如前文所述,該索引檔主要包含了該視頻中出現的所有元素的類別、名稱、以及於該視頻中出現的時間。藉此,只要用戶以該些元素的名稱做為關鍵字進行搜尋,即可順利找到該視頻。更甚者,當用戶以一元素的名稱做為關鍵字進行搜尋時,可直接找到該元素於該視頻中出現的片段並且開始播放。
該步驟S22後,該系統1依據該視頻的場景切換、分鏡改變或者時間區隔經過,將該視頻區分為複數片段(步驟S24),並且再依據各個片段中已識別完成的多個元素,分別為各個片段產生具有邏輯性的一影片敘述(步驟S26)。本實施例中,該系統1主要是通過自然語音處理(Natural Language Processing,NLP)演算法對已識別完成的各該元素進行處理,以產生具有邏輯性的該影片敘述。
然而,如前文中所述,該系統1可依據該視頻的類型(例如廣告、微電影、電影、音樂錄影帶等)或長度(例如30秒、1分鐘、30分鐘、1小時等),選擇性地先將單一頻視區分為多個片段後,再分段產生多個影片敘述(即,執行該步驟S24),或是直接為單一頻視產生單一影片敘述(即,不執行該步驟S24),不應加以限定。
值得一提的是,本實施例中,該系統1會於識別完成後,捨棄識別準確率低於上述該標準值的一或多個該元素,並且不記錄於該索引檔與該影片敘述中。藉此,確保提供給用戶進行搜尋或查看的內容都是相當精準的。
請同時參閱圖4與圖5,分別為本發明的第一具體實施例的元素識別示意圖與元素出現時間示意圖。如圖4所示,當一視頻5輸入該系統1後,該系統1會按照播放時間序列,對該視頻5中出現的多個元素進行擷取、分類與識別。
圖4以該視頻5的其中一幀為例,該系統1從該幀中擷取出一第一元素61、一第二元素62、一第三元素63、一第四元素64及一第五元素65,並且經判斷後確認該第一元素61屬於「場景」類別,該第二元素62屬於「物件」類別,該第三元素63屬於「人臉」類別,該第四元素64屬於「聲音」類別,該第五元素65屬於「動作」類別。並且在分類完成後,以對應型態的演算法分別對該些元素61-65進行識別。
如圖4所示,該第一元素61經過識別後,確認名稱為「沙灘」;該第二元素62經過識別後,確認名稱為「汽車」;該第三元素63經過識別後,確認名稱為「周杰倫」;該第四元素64經過識別後,確認名稱為「七里香」;該第五元素65經過識別後,確認名稱為「唱歌」。
如圖5所示,當該視頻5中的所有元素皆被識別完成後,該系統1除了藉由該索引檔產生次系統15產生可供文字搜尋的該索引檔之外,還可藉由該影片敘述產生次系統16產生能夠代表該視頻5,並且具有邏輯性的該影片敘述,例如「周杰倫坐在沙灘邊的車上,並且唱著七里香」。藉此,用戶可以通過該影片敘述快速得知該視頻的內容為何,以及該視頻中包含了哪些主要的元素。
請參閱圖6,為本發明的第一具體實施例的元素搜尋流程圖。當用戶欲搜尋所需的視頻時,可操作該桌上型電腦2、該筆記型電腦3或該行動裝置4,藉由網路連接至該系統1,並且輸入欲搜尋的元素的關鍵字(步驟S30)。
接著,該系統1以該關鍵字查詢該主資料庫17(步驟S32),並且更具體而言,是以該關鍵字查詢該主資料庫17中儲存的多個索引檔。該步驟S32後,若該系統1查詢到符合的索引檔,則同時取得該索引檔所對應的視頻(步驟34)。並且,該系統1可依據用戶設定,於該視頻識別平台上顯示出包含有該關鍵字所對應的元素的該視頻,或是直接於該元素出現的時間開始播放該視頻(步驟S36)。
於另一實施例中,用戶亦可上傳圖像或影片至該系統1。該系統1可經由相同技術識別出該圖像或該影片中包含的元素的名稱,再自動將該名稱做為關鍵字並查詢該主資料庫17。如此一來,可以實現用戶以圖像或影片來搜尋視頻的技術方案。
通過本發明的技術方案,不但可便於用戶以文字、圖像或影片來搜尋視頻,以提高用戶的搜尋便利性,並且可有效提昇整體系統對於視頻中的元素的識別準確率及容錯性。同時,還可省去業者以人工方式為視頻撰寫相關的影片敘述所需耗費的成本,實相當便利。
以上所述僅為本發明之較佳具體實例,非因此即侷限本發明之專利範圍,故舉凡運用本發明內容所為之等效變化,均同理皆包含於本發明之範圍內,合予陳明。
S10~S26‧‧‧識別步驟

Claims (16)

  1. 一種基於多模態融合之智能高容錯視頻識別方法,包括:a)輸入一視頻;b)對該視頻進行分析,以按照該視頻的播放時間序列擷取該視頻中出現的複數元素,以及各該元素於該視頻中出現的時間;c)對各該元素進行分類;d)通過複數演算法分別對分類後的各該元素進行識別,其中各該演算法分別對應至複數類別的其中之一;e)將該複數元素中的一特定元素與在同一時間出現的其他元素進行交叉識別,或是對出現在多個不同時間點中的同一個該特定元素進行交叉識別,以提昇各該元素的識別準確率與容錯性;及f)依據識別完成的各該元素為該視頻產生可供文字搜尋的一索引檔,其中該索引檔包含各該元素的類別、名稱以及於該視頻中出現的時間。
  2. 如請求項1所述的基於多模態融合之智能高容錯視頻識別方法,其中更包括下列步驟:g)步驟c後,判斷是否有識別準確率不足的該特定元素;及h)於判斷有識別準確率不足的該特定元素時執行該步驟e。
  3. 如請求項1所述的基於多模態融合之智能高容錯視頻識別方法,其中更包括一步驟i:依據識別完成的各該元素為該視頻產生具有邏輯性的一影片敘述。
  4. 如請求項3所述的基於多模態融合之智能高容錯視頻識別方法,其中更包括下列步驟: j)步驟f後,依據場景切換、分鏡改變或時間區間經過將該視頻區分為複數片段;及k)依據各該片段中出現的各該元素,分別為各該片段產生具有邏輯性的該影片敘述。
  5. 如請求項4所述的基於多模態融合之智能高容錯視頻識別方法,其中該步驟i與該步驟k係通過自然語音處理(Natural Language Processing,NLP)演算法對各該元素進行處理,以產生具有邏輯性的該影片敘述。
  6. 如請求項4所述的基於多模態融合之智能高容錯視頻識別方法,其中該索引檔與該影片敘述中不包含識別準確率低於一標準值的一或多個該元素。
  7. 如請求項1-6中任一項所述的基於多模態融合之智能高容錯視頻識別方法,其中該複數類別至少包括人臉(Face)、影像(Image)、文字(Text)、聲音(Audio)、動作(Motion)、物件(Object)及場景(Scene)中的任兩種。
  8. 一種基於多模態融合之智能高容錯視頻識別系統,包括:一影片輸入次系統,接收一視頻的輸入;一元素擷取與分類次系統,連接該影片輸入次系統,對該視頻進行分析,以按照該視頻的播放時間序列擷取該視頻中出現的複數元素以及各該元素於該視頻中出現的時間,並且對擷取出來的該複數元素進行分類;複數元素識別次系統,連接該元素擷取與分類次系統,各該元素識別次系統分別對應至複數類別的其中之一,並且採用對應的一演算法對所屬類別的各該元素進行識別,並且該複數元素識別次系統將該複數元素中的一特定元素與在同一時間出現的其他元素進行交叉識別,或是對出現在多個不同時間點 中的同一個該特定元素進行交叉識別,以提昇各該元素的識別準確率及容錯性;及一索引檔產生次系統,連接該複數元素識別次系統,依據識別完成的各該元素為該視頻產生可供文字搜尋的一索引檔,其中該索引檔包含各該元素的類別、名稱以及於該視頻中出現的時間。
  9. 如請求項8所述的基於多模態融合之智能高容錯視頻識別系統,其中該複數元素識別次系統是於該特定元素的識別準確率不足時,對該特定元素進行所述交叉識別。
  10. 如請求項8所述的基於多模態融合之智能高容錯視頻識別系統,其中更包括一分類資料庫,連接該元素擷取與分類次系統,該分類資料庫儲存複數類別的多個特徵,該元素擷取與分類次系統將各該元素與該些特徵進行比對,以確認各該元素分別屬於哪個類別。
  11. 如請求項8所述的基於多模態融合之智能高容錯視頻識別系統,其中更包括複數元素資料庫,分別連接該複數元素識別次系統的其中之一,與所連接的該元素識別次系統屬於同一類別,並且儲存所屬類別的元素資料。
  12. 如請求項8所述的基於多模態融合之智能高容錯視頻識別系統,其中更包括:一語料庫,儲存複數語法規則;及一影片敘述產生次系統,連接該複數元素識別次系統及該語料庫,依據識別完成的各該元素及該複數語法規則,為該視頻產生具有邏輯性的一影片敘述。
  13. 如請求項12所述的基於多模態融合之智能高容錯視頻識別系統,其中該影片敘述產生次系統依據場景切換、分鏡改變或時間區間經過將該視頻區分為複數片段,再依據各該片段中出現的各該元素,分別為各該片段產生具有邏輯性的該影片敘述。
  14. 如請求項12所述的基於多模態融合之智能高容錯視頻識別系統,其中該影片敘述產生次系統為一自然語言處理系統。
  15. 如請求項14所述的基於多模態融合之智能高容錯視頻識別系統,其中更包括一主資料庫,連接該影片輸入次系統、該索引檔產生次系統及該影片敘述產生次系統,儲存該視頻、該索引檔及該影片敘述。
  16. 如請求項8-15中任一項所述的基於多模態融合之智能高容錯視頻識別系統,其中該複數類別至少包括人臉(Face)、影像(Image)、文字(Text)、聲音(Audio)、動作(Motion)、物件(Object)及場景(Scene)中的任兩種。
TW104136366A 2015-11-04 2015-11-04 基於多模態融合之智能高容錯視頻識別系統及其識別方法 TWI553494B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW104136366A TWI553494B (zh) 2015-11-04 2015-11-04 基於多模態融合之智能高容錯視頻識別系統及其識別方法
US15/007,872 US10013487B2 (en) 2015-11-04 2016-01-27 System and method for multi-modal fusion based fault-tolerant video content recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW104136366A TWI553494B (zh) 2015-11-04 2015-11-04 基於多模態融合之智能高容錯視頻識別系統及其識別方法

Publications (2)

Publication Number Publication Date
TWI553494B true TWI553494B (zh) 2016-10-11
TW201717062A TW201717062A (zh) 2017-05-16

Family

ID=57848262

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104136366A TWI553494B (zh) 2015-11-04 2015-11-04 基於多模態融合之智能高容錯視頻識別系統及其識別方法

Country Status (2)

Country Link
US (1) US10013487B2 (zh)
TW (1) TWI553494B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI785301B (zh) * 2019-01-31 2022-12-01 大陸商深圳市商湯科技有限公司 一種跨模態訊息檢索方法、裝置和儲存介質
US11704534B2 (en) 2018-10-29 2023-07-18 Industrial Technology Research Institute Neural-network-based classification device and classification method

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679669B2 (en) * 2017-01-18 2020-06-09 Microsoft Technology Licensing, Llc Automatic narration of signal segment
EP3646232A4 (en) * 2017-06-29 2020-12-23 INTEL Corporation TECHNIQUES FOR DENSE VIDEO DESCRIPTIONS
US10474991B2 (en) 2017-08-07 2019-11-12 Standard Cognition, Corp. Deep learning-based store realograms
US11200692B2 (en) 2017-08-07 2021-12-14 Standard Cognition, Corp Systems and methods to check-in shoppers in a cashier-less store
US11232687B2 (en) 2017-08-07 2022-01-25 Standard Cognition, Corp Deep learning-based shopper statuses in a cashier-less store
US10474988B2 (en) 2017-08-07 2019-11-12 Standard Cognition, Corp. Predicting inventory events using foreground/background processing
US10853965B2 (en) 2017-08-07 2020-12-01 Standard Cognition, Corp Directional impression analysis using deep learning
US10650545B2 (en) 2017-08-07 2020-05-12 Standard Cognition, Corp. Systems and methods to check-in shoppers in a cashier-less store
US11250376B2 (en) * 2017-08-07 2022-02-15 Standard Cognition, Corp Product correlation analysis using deep learning
CN110019935A (zh) * 2017-10-17 2019-07-16 飞狐信息技术(天津)有限公司 一种基于主题的视频集生成方法及装置
CN109684513B (zh) * 2018-12-14 2021-08-24 北京奇艺世纪科技有限公司 一种低质量视频识别方法及装置
CN109815927B (zh) * 2019-01-30 2021-04-23 杭州一知智能科技有限公司 利用对抗双向交互网络解决视频时间文本定位任务的方法
US11232575B2 (en) 2019-04-18 2022-01-25 Standard Cognition, Corp Systems and methods for deep learning-based subject persistence
US11303853B2 (en) 2020-06-26 2022-04-12 Standard Cognition, Corp. Systems and methods for automated design of camera placement and cameras arrangements for autonomous checkout
US11361468B2 (en) 2020-06-26 2022-06-14 Standard Cognition, Corp. Systems and methods for automated recalibration of sensors for autonomous checkout
CN111988668B (zh) * 2020-08-28 2021-06-08 腾讯科技(深圳)有限公司 一种视频推荐方法、装置、计算机设备及存储介质
US11475668B2 (en) * 2020-10-09 2022-10-18 Bank Of America Corporation System and method for automatic video categorization
CN113792166B (zh) * 2021-08-18 2023-04-07 北京达佳互联信息技术有限公司 信息获取方法、装置、电子设备及存储介质
TWI784780B (zh) 2021-11-03 2022-11-21 財團法人資訊工業策進會 多模態影片檢測方法、多模態影片檢測系統及非暫態電腦可讀取媒體
CN116320622B (zh) * 2023-05-17 2023-08-18 成都索贝数码科技股份有限公司 一种广播电视新闻视频转图文稿制作系统和制作方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100388282C (zh) * 2006-09-14 2008-05-14 浙江大学 基于多模态信息融合分析的跨媒体检索方法
US20140161354A1 (en) * 2012-12-06 2014-06-12 Nokia Corporation Method and apparatus for semantic extraction and video remix creation
CN104199933A (zh) * 2014-09-04 2014-12-10 华中科技大学 一种多模态信息融合的足球视频事件检测与语义标注方法
TW201501521A (zh) * 2013-06-21 2015-01-01 Hon Hai Prec Ind Co Ltd 基於場景偵測的即時影像記錄系統及方法
TW201503673A (zh) * 2013-06-03 2015-01-16 Yahoo Inc 相片及視頻搜尋
CN104484666A (zh) * 2014-12-17 2015-04-01 中山大学 一种基于人机交互的图像高级语义解析的方法
CN105005588A (zh) * 2015-06-26 2015-10-28 深圳市腾讯计算机系统有限公司 一种训练数据的处理方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6614988B1 (en) * 1997-03-28 2003-09-02 Sharp Laboratories Of America, Inc. Natural language labeling of video using multiple words
US8121198B2 (en) * 2006-10-16 2012-02-21 Microsoft Corporation Embedding content-based searchable indexes in multimedia files
US9111146B2 (en) * 2008-02-15 2015-08-18 Tivo Inc. Systems and methods for semantically classifying and normalizing shots in video
US20100131571A1 (en) * 2008-11-25 2010-05-27 Reuveni Yoseph Method application and system for characterizing multimedia content
US8447139B2 (en) * 2010-04-13 2013-05-21 International Business Machines Corporation Object recognition using Haar features and histograms of oriented gradients
KR102161230B1 (ko) * 2013-05-28 2020-09-29 삼성전자주식회사 멀티미디어 콘텐츠 검색을 위한 사용자 인터페이스 방법 및 장치
US9583149B2 (en) * 2014-04-23 2017-02-28 Daniel Stieglitz Automated video logging methods and systems
EP3155542A4 (en) * 2014-06-11 2017-10-18 Hewlett-Packard Development Company, L.P. Functional summarization of non-textual content based on a meta-algorithmic pattern
US9760970B2 (en) * 2015-03-18 2017-09-12 Hitachi, Ltd. Video analysis and post processing of multiple video streams
US10395118B2 (en) * 2015-10-29 2019-08-27 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100388282C (zh) * 2006-09-14 2008-05-14 浙江大学 基于多模态信息融合分析的跨媒体检索方法
US20140161354A1 (en) * 2012-12-06 2014-06-12 Nokia Corporation Method and apparatus for semantic extraction and video remix creation
TW201503673A (zh) * 2013-06-03 2015-01-16 Yahoo Inc 相片及視頻搜尋
TW201501521A (zh) * 2013-06-21 2015-01-01 Hon Hai Prec Ind Co Ltd 基於場景偵測的即時影像記錄系統及方法
CN104199933A (zh) * 2014-09-04 2014-12-10 华中科技大学 一种多模态信息融合的足球视频事件检测与语义标注方法
CN104484666A (zh) * 2014-12-17 2015-04-01 中山大学 一种基于人机交互的图像高级语义解析的方法
CN105005588A (zh) * 2015-06-26 2015-10-28 深圳市腾讯计算机系统有限公司 一种训练数据的处理方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11704534B2 (en) 2018-10-29 2023-07-18 Industrial Technology Research Institute Neural-network-based classification device and classification method
TWI785301B (zh) * 2019-01-31 2022-12-01 大陸商深圳市商湯科技有限公司 一種跨模態訊息檢索方法、裝置和儲存介質

Also Published As

Publication number Publication date
US20170124096A1 (en) 2017-05-04
TW201717062A (zh) 2017-05-16
US10013487B2 (en) 2018-07-03

Similar Documents

Publication Publication Date Title
TWI553494B (zh) 基於多模態融合之智能高容錯視頻識別系統及其識別方法
US10965999B2 (en) Systems and methods for multimodal multilabel tagging of video
US11314370B2 (en) Method for extracting salient dialog usage from live data
CN105653700B (zh) 视频检索方法及系统
US7707162B2 (en) Method and apparatus for classifying multimedia artifacts using ontology selection and semantic classification
WO2018072071A1 (zh) 知识图谱构建系统及方法
US11157542B2 (en) Systems, methods and computer program products for associating media content having different modalities
US10943600B2 (en) Systems and methods for interrelating text transcript information with video and/or audio information
US8521759B2 (en) Text-based fuzzy search
US20160004911A1 (en) Recognizing salient video events through learning-based multimodal analysis of visual features and audio-based analytics
JP6361351B2 (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
CN105956053B (zh) 一种基于网络信息的搜索方法及装置
CN105224581B (zh) 在播放音乐时呈现图片的方法和装置
WO2013185107A1 (en) Systems and methods for recognizing ambiguity in metadata
US20080059522A1 (en) System and method for automatically creating personal profiles for video characters
CN109408672B (zh) 一种文章生成方法、装置、服务器及存储介质
CN107145509B (zh) 一种信息搜索方法及其设备
KR20170136200A (ko) 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템
CN113407775B (zh) 视频搜索方法、装置及电子设备
US11410706B2 (en) Content pushing method for display device, pushing device and display device
KR100916310B1 (ko) 오디오 신호처리 기반의 음악 및 동영상간의 교차 추천 시스템 및 방법
Yang et al. Lecture video browsing using multimodal information resources
CN116343771A (zh) 一种基于知识图谱的音乐点播语音指令识别方法、装置
Stein et al. From raw data to semantically enriched hyperlinking: Recent advances in the LinkedTV analysis workflow
KR102031282B1 (ko) 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees