TWI761813B - 視頻分析方法及其相關的模型訓練方法、電子設備、儲存介質 - Google Patents

視頻分析方法及其相關的模型訓練方法、電子設備、儲存介質 Download PDF

Info

Publication number
TWI761813B
TWI761813B TW109113378A TW109113378A TWI761813B TW I761813 B TWI761813 B TW I761813B TW 109113378 A TW109113378 A TW 109113378A TW 109113378 A TW109113378 A TW 109113378A TW I761813 B TWI761813 B TW I761813B
Authority
TW
Taiwan
Prior art keywords
information
offset
feature
video
feature map
Prior art date
Application number
TW109113378A
Other languages
English (en)
Other versions
TW202129535A (zh
Inventor
邵昊
劉宇
Original Assignee
大陸商北京市商湯科技開發有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商北京市商湯科技開發有限公司 filed Critical 大陸商北京市商湯科技開發有限公司
Publication of TW202129535A publication Critical patent/TW202129535A/zh
Application granted granted Critical
Publication of TWI761813B publication Critical patent/TWI761813B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本申請實施例公開了一種視頻分析方法及相關的模型訓練方法、電子設備、儲存介質;上述視頻分析方法包括:獲取待分析視頻;利用預設網路模型對待分析視頻進行特徵提取,得到第一多維特徵圖,其中,第一多維特徵圖包含與待分析視頻對應的不同時序上的特徵資訊;利用偏移預測網路對第一多維特徵圖進行預測,得到偏移資訊;利用偏移資訊對第一多維特徵圖的至少部分特徵資訊進行時序偏移,並基於偏移後的特徵資訊得到第二多維特徵圖;利用預設網路模型對第二多維特徵圖進行分析,得到待分析視頻的分析結果資訊。

Description

視頻分析方法及其相關的模型訓練方法、電子設備、儲存介 質
本申請關於人工智慧技術領域,特別是關於一種視頻分析方法及相關的模型訓練方法、電子設備、儲存介質。
隨著神經網路、深度學習等人工智慧技術的發展,對神經網路模型進行訓練,並利用訓練後的神經網路模型完成分類、檢測等任務的方式,逐漸受到人們的青睞。
目前,神經網路模型一般是以靜態圖像作為處理物件而進行設計的。
本申請實施例提供一種視頻分析方法及相關的模型訓練方法、電子設備、儲存介質。
第一方面,本申請實施例提供了一種視頻分析方法, 包括:獲取待分析視頻;利用預設網路模型對所述待分析視頻進行特徵提取,得到第一多維特徵圖,其中,所述第一多維特徵圖包含與所述待分析視頻對應的不同時序上的特徵資訊;利用偏移預測網路對所述第一多維特徵圖進行預測,得到偏移資訊;利用所述偏移資訊對所述第一多維特徵圖的至少部分特徵資訊進行時序偏移,並基於偏移後的所述特徵資訊得到第二多維特徵圖;利用所述預設網路模型對所述第二多維特徵圖進行分析,得到所述待分析視頻的分析結果資訊。
本申請實施例通過預設網路模型對待分析視頻進行處理,有利於提高視頻分析的處理速度,且通過時序偏移,能夠使空間資訊和時序資訊聯合交錯,故在此基礎上進行分析處理,有利於提高視頻分析的準確度。
在本申請的一些可選實施例中,在所述利用偏移資訊對所述第一多維特徵圖的至少部分特徵資訊進行時序偏移,並基於偏移後的所述特徵資訊得到第二多維特徵圖之前,所述方法還包括:利用權重預測網路對所述第一多維特徵圖進行預測,得到權重資訊;所述利用所述偏移資訊對所述第一多維特徵圖的至少部分特徵資訊進行時序偏移,並基於偏移後的所述特徵資訊得到第二多維特徵圖,包括:利用所述偏移資訊對所述第一多維特徵圖的至少部分特徵資訊進行時序偏移;利用所述權重資訊對偏移後的所述特徵資訊進行加權處理;基於所述加權處理後的特徵資訊,得到第二多維特徵圖。
本申請實施例的技術方案,通過偏移、加權的處理步驟能夠直接得到空間、時序聯合交錯的特徵資訊,有利於提高視頻分析的處理速度和準確度。
在本申請的一些可選實施例中,所述第一多維特徵圖的維度包括時序維度和預設維度;所述利用偏移資訊對所述第一多維特徵圖的至少部分特徵資訊進行時序偏移,包括:按照預設維度從第一多維特徵圖中選擇至少一組特徵資訊,其中,每組特徵資訊包括同一預設維度上對應不同時序的特徵資訊;利用所述偏移資訊對所述至少一組特徵資訊在時序維度上進行偏移。
本申請實施例的技術方案,按照預設維度從第一多維特徵圖中選擇至少一組特徵資訊,且每組特徵資訊包括同一預設維度上對應不同時序的特徵資訊,並利用偏移資訊對至少一組特徵資訊在時序維度上進行偏移,故能夠降低偏移處理的計算量,進一步有利於提高視頻分析的處理速度。
在本申請的一些可選實施例中,所述預設維度為通道維度;和/或,所述偏移資訊包括第一數量個偏移值,所述至少一組特徵資訊包括第一數量組第一特徵資訊;所述利用偏移資訊對所述至少一組特徵資訊在時序維度上進行偏移包括:利用所述偏移資訊中第i個偏移值對第i組第一特徵資訊在所述時序維度上進行偏移,得到第i組第二特徵資訊,其中,i為小於或等於第一數量的正整數。
本申請實施例的技術方案,通過將與偏移資訊中包 含的偏移值數量相同組數的第一特徵資訊對應進行偏移處理,能夠直接得到空間、時序聯合交錯的特徵資訊,有利於提高視頻分析的處理速度和準確度。
在本申請的一些可選實施例中,所述利用偏移資訊中第i個所述偏移值對第i組所述第一特徵資訊在所述時序維度上進行偏移,得到第i組第二特徵資訊,包括:獲取第i個所述偏移值所屬的數值範圍,且所述數值範圍的上限值與下限值之差為一預設數值,將第i組所述第一特徵資訊沿所述時序維度偏移所述上限值個時序單位,得到第i組第三特徵資訊,並將第i組所述第一特徵資訊沿所述時序維度偏移所述下限值個時序單位,得到第i組第四特徵資訊;以第i個所述偏移值與所述下限值之間的差作為權重對第i組所述第三特徵資訊進行加權處理,得到第i組第一加權結果,並以所述上限值與第i個偏移值之間的差作為權重對第i組所述第四特徵資訊進行加權處理,得到第i組第二加權結果;計算第i組第一加權結果和第i組第二加權結果之間的和,以作為第i組第二特徵資訊。
本申請實施例的技術方案,能夠方便、快速地對第一特徵資訊進行偏移處理,有利於提高視頻分析的處理速度。
在本申請的一些可選實施例中,所述待分析視頻包括第二數量幀圖像,所述權重資訊包括第二數量個權重值;所述利用權重資訊對偏移後的所述特徵資訊進行加權處理,包括:對偏移後的每組特徵資訊,分別利用所述權重 資訊中第j個權重值對當前組特徵資訊中的第j個時序對應的特徵值進行加權處理,得到加權處理後的對應組特徵資訊;其中,j為小於或等於第二數量的正整數。
本申請實施例的技術方案,通過對偏移後的每組特徵資訊,分別利用權重資訊中第j個權重值對當前組特徵資訊的第j個時序對應的特徵值進行加權處理,得到加權處理後的對應組特徵資訊,從而能夠在某些末端的特徵資訊被偏移出去時,對特徵資訊進行重新加權,有利於提高視頻分析的準確性。
在本申請的一些可選實施例中,所述基於加權處理後的所述特徵資訊,得到第二多維特徵圖,包括:利用所述加權處理後的所述特徵資訊以及所述第一多維特徵圖中未被偏移的特徵資訊,組成所述第二多維特徵圖。
本申請實施例的技術方案,通過加權處理後的特徵資訊以及第一多維特徵圖中未被偏移的特徵資訊組合成為第二多維特徵資訊,能夠減少計算負荷,有利於提高視頻分析的處理速度。
在本申請的一些可選實施例中,所述利用權重預測網路對所述第一多維特徵圖進行預測,得到權重資訊,包括:利用所述權重預測網路的第一降採樣層對所述第一多維特徵圖進行降採樣,得到第一降採樣結果;利用所述權重預測網路的第一卷積層對所述第一降採樣結果進行卷積處理,得到第一特徵提取結果;利用所述權重預測網路的第一啟動層對所述第一特徵提取結果進行非線性處理, 得到權重資訊。
本申請實施例的技術方案,通過第一降採樣層、第一卷積層和第一啟動層對第一多維特徵圖進行逐步層層處理,即能夠得到權重資訊,能夠有效簡化權重預測網路的網路結構,減少網路參數,有利於提高用於視頻分析的模型訓練時的收斂速度,並有利於避免過擬合,從而有利於提高視頻分析的準確性。
在本申請的一些可選實施例中,所述利用偏移預測網路對第一多維特徵圖進行預測,得到偏移資訊,包括:利用所述偏移預測網路的第二降採樣層對所述第一多維特徵圖進行降採樣,得到第二降採樣結果;利用所述偏移預測網路的第二卷積層對所述第二降採樣結果進行卷積處理,得到第二特徵提取結果;利用所述偏移預測網路的第一全連接層對所述第二特徵提取結果進行特徵連接,得到第一特徵連接結果;利用所述偏移預測網路的第二啟動層對所述第一特徵連接結果進行非線性處理,得到非線性處理結果;利用所述偏移預測網路的第二全連接層對所述非線性處理結果進行特徵連接,得到第二特徵連接結果;利用所述偏移預測網路的第三啟動層對所述第二特徵連接結果進行非線性處理,得到偏移資訊。
本申請實施例的技術方案,能夠有效簡化偏移預測網路的網路結構,減少網路參數,有利於提高用於視頻分析的模型訓練時的收斂速度,並有利於避免過擬合,從而有利於提高視頻分析的準確性。
在本申請的一些可選實施例中,所述預設網路模型包括至少一個卷積層;所述利用預設網路模型對待分析視頻進行特徵提取,得到第一多維特徵圖,包括:利用預設網路模型的卷積層對所述待分析視頻進行特徵提取,得到第一多維特徵圖;若所述預設網路模型的卷積層的數量多於1,則在所述得到第二多維特徵圖之後,並在利用預設網路模型對所述第二多維特徵圖進行分析,得到所述待分析視頻的分析結果資訊之前,所述方法還包括:利用所述預設網路模型中未執行特徵提取的卷積層對所述第二多維特徵圖進行特徵提取,得到新的第一多維特徵圖;執行所述利用偏移預測網路對所述新的第一多維特徵圖進行預測,得到偏移資訊的步驟以及後續步驟,以得到新的第二多維特徵圖;重複執行上述步驟,直至所述預設網路模型的所有卷積層均完成對新的第二多維特徵圖的特徵提取步驟;利用所述預設網路模型對所述第二多維特徵圖進行分析,得到所述待分析視頻的分析結果資訊,包括:利用所述預設網路模型的全連接層對所述第二多維特徵圖進行分析,得到所述待分析視頻的分析結果資訊。
本申請實施例的技術方案,在預設網路模型包括的卷積層數量多於1個時,利用預設網路模型中未執行特徵提取的卷積層對第二多維特徵圖進行特徵提取,得到新的第一多維特徵圖,並重新執行偏移預測等步驟,直至預設網路模型中所有卷積層均完成對新的第二多維特徵圖進行特徵提取的步驟,從而利用預設網路模型的全連接層對 第二多維特徵圖進行分析,得到待分析視頻的分析結果資訊,進而能夠提高視頻分析的準確性。
在本申請的一些可選實施例中,所述待分析視頻包括若干幀圖像,所述利用預設網路模型對所述待分析視頻進行特徵提取,得到第一多維特徵圖,包括:利用所述預設網路模型分別對所述若干幀圖像進行特徵提取,得到與每一幀圖像對應的特徵圖;將所述若干個特徵圖按照與其對應的圖像在所述待分析視頻中的時序進行拼接,得到所述第一多維特徵圖。
本申請實施例的技術方案,通過預設網路模型分別對待分析視頻的若干幀圖像進行特徵提取,得到與每一幀圖像對應的特徵圖,從而直接將若干個特徵圖按照與其對應的圖像在待分析視頻中的時序進行拼接,得到第一多維特徵圖,能夠降低對待分析視頻進行特徵提取的處理負荷,有利於提高視頻分析的處理速度。
第二方面,本申請實施例提供了一種用於視頻分析的模型訓練方法,包括:獲取樣本視頻,其中,所述樣本視頻包括預設標注資訊;利用預設網路模型對所述樣本視頻進行特徵提取,得到第一樣本多維特徵圖,其中,所述第一樣本多維特徵圖包含與所述樣本視頻對應的不同時序上的特徵資訊;利用偏移預測網路對所述第一樣本多維特徵圖進行預測,得到偏移資訊;利用所述偏移資訊對所述第一樣本多維特徵圖的至少部分特徵資訊進行時序偏移,並基於偏移後的所述特徵資訊得到第二樣本多維特徵 圖;利用所述預設網路模型對所述第二樣本多維特徵圖進行分析,得到所述樣本視頻的分析結果資訊;利用所述預設標注資訊和所述分析結果資訊計算損失值;基於所述損失值,調整所述預設網路模型和所述偏移預測網路的參數。
本申請實施例的技術方案,能夠直接對樣本視頻的時序資訊進行建模,有利於提高模型訓練時的速度,且通過時序偏移,能夠使空間資訊和時序資訊聯合交錯,故在此基礎上進行分析處理,有利於後續提高視頻分析的準確度。
第三方面,本申請實施例提供了一種視頻分析裝置,包括視頻獲取模組、特徵提取模組、偏移預測模組、偏移處理模組和網路分析模組;其中,所述視頻獲取模組,配置為獲取待分析視頻;所述特徵提取模組,配置為利用預設網路模型對待分析視頻進行特徵提取,得到第一多維特徵圖,其中,第一多維特徵圖包含與待分析視頻對應的不同時序上的特徵資訊;所述偏移預測模組,配置為利用偏移預測網路對第一多維特徵圖進行預測,得到偏移資訊;所述偏移處理模組,配置為利用偏移資訊對第一多維特徵圖的至少部分特徵資訊進行時序偏移,並基於偏移後的特徵資訊得到第二多維特徵圖;所述網路分析模組,配置為利用預設網路模型對第二多維特徵圖進行分析,得到待分析視頻的分析結果資訊。
在本申請的一些可選實施例中,所述裝置還包括權 重預測模組,配置為利用權重預測網路對所述第一多維特徵圖進行預測,得到權重資訊;所述偏移處理模組,配置為利用所述偏移資訊對所述第一多維特徵圖的至少部分特徵資訊進行時序偏移;利用所述權重資訊對偏移後的所述特徵資訊進行加權處理;基於所述加權處理後的所述特徵資訊,得到第二多維特徵圖。
在本申請的一些可選實施例中,所述第一多維特徵圖的維度包括時序維度和預設維度;
所述偏移處理模組,配置為按照預設維度從第一多維特徵圖中選擇至少一組特徵資訊,其中,每組特徵資訊包括同一預設維度上對應不同時序的特徵資訊;利用所述偏移資訊對所述至少一組特徵資訊在時序維度上進行偏移。
在本申請的一些可選實施例中,所述預設維度為通道維度;和/或,
所述偏移資訊包括第一數量個偏移值,所述至少一組特徵資訊包括第一數量組第一特徵資訊;
所述偏移處理模組,配置為利用所述偏移資訊中第i個所述偏移值對第i組所述第一特徵資訊在所述時序維度上進行偏移,得到第i組第二特徵資訊,其中,所述i為小於或等於所述第一數量的正整數。
在本申請的一些可選實施例中,所述偏移處理模組,配置為獲取第i個所述偏移值所屬的數值範圍,且所述數值範圍的上限值與下限值之差為一預設數值;將第i組所述第一特徵資訊沿所述時序維度偏移所述上限值個時序 單位,得到第i組第三特徵資訊,並將第i組所述第一特徵資訊沿所述時序維度偏移所述下限值個時序單位,得到第i組第四特徵資訊;以第i個所述偏移值與所述下限值之間的差作為權重對第i組所述第三特徵資訊進行加權處理,得到第i組第一加權結果,並以所述上限值與所述第i個偏移值之間的差作為權重對第i組所述第四特徵資訊進行加權處理,得到第i組第二加權結果;計算所述第i組第一加權結果和第i組第二加權結果之間的和,以作為第i組所述第二特徵資訊。
在本申請的一些可選實施例中,所述待分析視頻包括第二數量幀圖像,所述權重資訊包括所述第二數量個權重值;所述偏移處理模組,配置為對偏移後的每組特徵資訊,分別利用所述權重資訊中第j個權重值對當前組特徵資訊中的第j個時序對應的特徵值進行加權處理,得到加權處理後的對應組特徵資訊;其中,所述j為小於或等於所述第二數量的正整數。
在本申請的一些可選實施例中,所述偏移處理模組,配置為利用所述加權處理後的所述特徵資訊以及所述第一多維特徵圖中未被偏移的特徵資訊,組成所述第二多維特徵圖。
在本申請的一些可選實施例中,所述權重預測模組,配置為利用所述權重預測網路的第一降採樣層對所述第一多維特徵圖進行降採樣,得到第一降採樣結果;利用所述權重預測網路的第一卷積層對所述第一降採樣結果進 行卷積處理,得到第一特徵提取結果;利用所述權重預測網路的第一啟動層對所述第一特徵提取結果進行非線性處理,得到所述權重資訊。
在本申請的一些可選實施例中,所述偏移預測模組,配置為利用所述偏移預測網路的第二降採樣層對所述第一多維特徵圖進行降採樣,得到第二降採樣結果;利用所述偏移預測網路的第二卷積層對所述第二降採樣結果進行卷積處理,得到第二特徵提取結果;利用所述偏移預測網路的第一全連接層對所述第二特徵提取結果進行特徵連接,得到第一特徵連接結果;利用所述偏移預測網路的第二啟動層對所述第一特徵連接結果進行非線性處理,得到非線性處理結果;利用所述偏移預測網路的第二全連接層對所述非線性處理結果進行特徵連接,得到第二特徵連接結果;利用所述偏移預測網路的第三啟動層對所述第二特徵連接結果進行非線性處理,得到所述偏移資訊。
在本申請的一些可選實施例中,所述預設網路模型包括至少一個卷積層;所述特徵提取模組,配置為利用預設網路模型的卷積層對所述待分析視頻進行特徵提取,得到第一多維特徵圖;若所述預設網路模型的卷積層的數量多於1,還配置為利用所述預設網路模型中未執行特徵提取的卷積層對所述第二多維特徵圖進行特徵提取,得到新的第一多維特徵圖;所述偏移預測模組,還配置為利用偏移預測網路對所述新的第一多維特徵圖進行預測,得到新的偏移資訊;所述偏移處理模組,還配置為利用所述新的 偏移資訊對所述第一多維特徵圖的至少部分特徵資訊進行時序偏移,並基於偏移後的所述特徵資訊得到新的第二多維特徵圖;所述網路分析模組,還配置為利用所述預設網路模型的全連接層對所述新的第二多維特徵圖進行分析,得到所述待分析視頻的分析結果資訊。
在本申請的一些可選實施例中,所述待分析視頻包括若干幀圖像;所述特徵提取模組,配置為利用所述預設網路模型分別對所述若干幀圖像進行特徵提取,得到與每一幀圖像對應的特徵圖;將所述若干個所述特徵圖按照與其對應的圖像在所述待分析視頻中的時序進行拼接,得到所述第一多維特徵圖。
第四方面,本申請實施例提供了一種用於視頻分析的模型訓練裝置,包括視頻獲取模組、特徵提取模組、偏移預測模組、偏移處理模組、網路分析模組、損失計算模組和參數調整模組;其中,所述視頻獲取模組,配置為獲取樣本視頻,其中,樣本視頻包括預設標注資訊;所述特徵提取模組,配置為利用預設網路模型對樣本視頻進行特徵提取,得到第一樣本多維特徵圖,其中,第一樣本多維特徵圖包含與樣本視頻對應的不同時序上的特徵資訊;所述偏移預測模組,配置為利用偏移預測網路對第一樣本多維特徵圖進行預測,得到偏移資訊;所述偏移處理模組,配置為利用偏移資訊對第一樣本多維特徵圖的至少部分特徵資訊進行時序偏移,並基於偏移後的特徵資訊得到第二樣本多維特徵圖;所述網路分析模組,配置為利用預設 網路模型對第二樣本多維特徵圖進行分析,得到樣本視頻的分析結果資訊;所述損失計算模組,配置為利用預設標注資訊和分析結果資訊計算損失值;參數調整模組用於基於損失值,調整預設網路模型和偏移預測網路的參數。
第五方面,本申請實施例提供了一種電子設備,包括相互耦接的記憶體和處理器,處理器用於執行記憶體中儲存的程式指令,以實現本申請實施例上述第一方面中的視頻分析方法,或實現本申請實施例上述第二方面中的用於視頻分析的模型訓練方法。
第六方面,本申請實施例提供了一種電腦可讀儲存介質,其上儲存有程式指令,程式指令被處理器執行時實現本申請實施例上述第一方面中的視頻分析方法,或實現本申請實施例上述第二方面中的用於視頻分析的模型訓練方法。
第七方面,本申請實施例提供了一種電腦程式,包括電腦可讀代碼,當所述電腦可讀代碼在電子設備中運行時,所述電子設備中的處理器執行用於實現本申請實施例上述第一方面中的視頻分析方法,或實現本申請實施例上述第二方面中的用於視頻分析的模型訓練方法。
本申請實施例的技術方案,能夠直接對待分析視頻的時序資訊進行建模,有利於提高視頻分析的處理速度,且通過時序偏移,能夠使空間資訊和時序資訊聯合交錯,故在此基礎上進行分析處理,有利於提高視頻分析的準確度。
80:視頻分析裝置
81:視頻獲取模組
82:特徵提取模組
83:偏移預測模組
84:偏移處理模組
85:網路分析模組
90:模型訓練裝置
91:視頻獲取模組
92:特徵提取模組
93:偏移預測模組
94:偏移處理模組
95:網路分析模組
96:損失計算模組
97:參數調整模組
100:電子設備
101:記憶體
102:處理器
110:儲存介質
1101:程式指令
圖1是本申請視頻分析方法一實施例的流程示意圖;
圖2是視頻分析處理過程一實施例的示意圖;
圖3是視頻分析各階段一實施例的示意圖;
圖4是圖1中步驟S14一實施例的流程示意圖;
圖5是本申請視頻分析方法另一實施例的流程示意圖;
圖6是視頻分析處理過程另一實施例的示意圖;
圖7是本申請用於視頻分析的模型訓練方法一實施例的流程示意圖;
圖8本申請視頻分析裝置一實施例的框架示意圖;
圖9是本申請用於視頻分析的模型訓練裝置一實施例的框架示意圖;
圖10是本申請電子設備一實施例的框架示意圖;
圖11是本申請電腦可讀儲存介質一實施例的框架示意圖。
下面結合說明書附圖,對本申請實施例的方案進行詳細說明。
以下描述中,為了說明而不是為了限定,提出了諸如特定系統結構、介面、技術之類的具體細節,以便透徹理解本申請。
本文中術語“系統”和“網路”在本文中常被可互換使用。本文中術語“和/或”,僅僅是一種描述關聯物件的關聯關係,表示可以存在三種關係,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中字元“/”,一般表示前後關聯物件是一種“或”的關係。此外,本文中的“多”表示兩個或者多於兩個。
請參閱圖1,圖1是本申請視頻分析方法一實施例的流程示意圖。本申請視頻分析方法具體可以由微型電腦、伺服器、平板電腦等具有處理功能的電子設備執行,或者由處理器執行程式碼實現。具體而言,可以包括如下步驟。
步驟S11:獲取待分析視頻。
本申請實施例中,待分析視頻可以包括若干幀圖像,例如,待分析視頻包括8幀圖像,或者,待分析視頻包括16幀圖像,或者,待分析視頻包括24幀圖像等等,在此不做具體限定。在一個實施場景中,待分析視頻可以是監控相機拍攝到的監控視頻,以對監控視頻中目標物件進行行為分析,例如,目標物件摔倒、目標物件正常行走等等。在另一個實施場景中,待分析視頻可以是視頻庫中的視頻,以對視頻庫中的視頻進行分類,例如,足球賽事視頻、籃球賽事視頻、滑雪賽事視頻等等。
步驟S12:利用預設網路模型對待分析視頻進行特徵提取,得到第一多維特徵圖。
在一個具體的實施場景中,為了進一步減少網路參數,降低處理負荷,從而提高處理速度,提高訓練時收斂速度,避免過擬合,上述預設網路模型可以是二維神經網路模型,例如,ResNet-50、ResNet-101等等,在此不做具體限定。ResNet網路是由殘差塊(Residual Block)構建的,通過使用多個有參層來學習輸入、輸出之間的殘差表示。
本申請實施例中,第一多維特徵圖包含與待分析視頻對應的不同時序上的特徵資訊。請結合參閱圖2,圖2是視頻分析處理過程一實施例的示意圖。如圖2所示,橫坐標表示時序維度T上的不同時序,不同時序所對應的方格表示不同時序上的特徵資訊。
在一個實施場景中,待分析視頻包括若干幀圖像。為了降低對待分析視頻進行特徵提取的處理負荷,提高視頻分析的處理速度,可以通過預設網路模型分別對待分析視頻的若干幀圖像進行特徵提取,得到每一幀圖像對應的特徵圖,將若干個特徵圖按照與其對應的圖像在待分析視頻中的時序進行拼接,得到第一多維特徵圖。例如,待分析視頻包括8幀圖像,則可以利用預設網路模型分別對這8幀圖像進行特徵提取,得到每一幀圖像的特徵圖,從而直接將8張特徵圖按照與其對應的圖像在待分析視頻中的時序進行拼接,得到第一多維特徵圖。
步驟S13:利用偏移預測網路對第一多維特徵圖進行預測,得到偏移資訊。
不同於常規的靜態圖像,視頻往往更關注於目標物件連續的行為動作,為了更好地獲取視頻的內在時序語義,可以整合視頻中的時間資訊和空間資訊。因此,本申請實施例中,採用偏移預測網路預測得到偏移資訊,以在後續基於該偏移資訊進行時序偏移,從而完成時間資訊和空間的整合。偏移預測網路具體可以是一預設網路模型,從而可以通過該預設網路模型對第一多維特徵圖進行預測,直接得到偏移資訊。
在一個實施場景中,偏移預測網路可以包括順序連接的降採樣層、卷積層、全連接層、啟動層、全連接層和啟動層。因此,預測偏移網路僅包含5層,且其中僅卷積層和全連接層包含網路參數,可以在一定程度上簡化網路結構,並減少網路參數,從而能夠降低網路容量,進而提高收斂速度,避免過擬合,使得訓練得到的模型盡可能地準確,進而能夠提高視頻分析的準確性。
示例性的,可以利用偏移預測網路的降採樣層(記為第二降採樣層)對第一多維特徵圖進行降採樣,得到降採樣結果(記為第二降採樣結果)。在一個具體的實施場景中,降採樣層具體可以是平均池化層,第一多維特徵圖的維度包括時序維度和預設維度(例如,通道維度),則上述對第一多維特徵圖進行降採樣處理,得到降採樣結果可以表示為:
Figure 109113378-A0101-12-0018-2
上式中,c,t分別表示多維中的時序維度和多維中的 預設維度(預設維度例如可以是通道維度),z c,t 表示降採樣結果中第(c,t)個元素,H,W分別表示特徵圖的高度和寬度,U c,t 表示第一多維特徵圖中的第(c,t)個元素。
進一步地,可以利用偏移預測網路的卷積層(記為第二卷積層)對降採樣結果(即第二降採樣結果)進行卷積處理,得到特徵提取結果(記為第二特徵提取結果)。偏移預測網路的卷積層具體可以包含與待分析視頻的幀數相同數量的卷積核,卷積核的尺寸例如可以為3 * 3。
進一步地,利用偏移預測網路的第一個全連接層(記為第一全連接層)對特徵提取結果(即第二特徵提取結果)進行特徵連接,得到特徵連接結果(記為第一特徵連接結果)。其中,偏移預測網路的第一個全連接層可以包含與待分析視頻的幀數相同數量的神經元。
進一步地,利用偏移預測網路的第一個啟動層(可記為第二啟動層)對特徵連接結果(即第一特徵連接結果)進行非線性處理,得到非線性處理結果。其中,偏移預測網路的第一個啟動層可以是線性整流函數(Rectified Linear Unit,ReLU)啟動層。
進一步地,利用偏移預測網路的第二個全連接層(記為第二全連接層)對非線性處理結果進行特徵連接,得到特徵連接結果(記為第二特徵連接結果);再利用偏移預測網路的第二個啟動層(可記為第三啟動層)對特徵連接結果(即第二特徵連接結果)進行非線性處理,得到偏移資訊。其中,偏移預測網路的第二個啟動層可以是 Sigmoid啟動層,從而能夠將偏移資訊中的各個元素約束至0至1之間。
上述處理過程具體可以表示為:
offset raw =σ(W2δ(W1)F 1dconv (z)))) (2)
上式中,z表示降採樣結果,F 1dconv 表示偏移預測網路的卷積層,W1表示偏移預測網路的第一個全連接層,δ表示偏移預測網路的第一個啟動層,W2表示偏移預測網路的第二個全連接層,σ表示偏移預測網路的第二個啟動層,offset raw 表示偏移資訊。
在另一個實施場景中,為了提高模型的穩定性和性能,還可以將上述第二個啟動層處理得到的偏移資訊進行 約束處理,使偏移資訊中的各個元素約束至
Figure 109113378-A0101-12-0020-6
,其中, T表示待分析視頻的幀數。具體地,可以將上述利用偏移預測網路的第二個啟動層對特徵連接結果進行非線性處理得到的偏移資訊中的各個元素分別減去0.5,並將減去0.5後所得到的差值乘以待分析視頻的幀數,從而得到經約束處理後的偏移信息。上述約束處理具體可以表示為:
offset=(offset raw -0.5)×T (3)
上式中,offset raw 表示經第二個啟動層處理得到的偏 移資訊,T表示待分析視頻的幀數,offset表示約束至
Figure 109113378-A0101-12-0020-7
的 偏移信息。
步驟S14:利用偏移資訊對第一多維特徵圖的至少部分特徵資訊進行時序偏移,並基於偏移後的特徵資訊得到第二多維特徵圖。
在一個實施場景中,為了使至少部分特徵資訊中對應于不同時序上的資訊得以偏移,從而整合時間資訊和空間資訊,提高視頻分析的準確性,至少部分具體可以是沿預設維度(例如,通道維度)進行分割而得到的。如圖2所示,為了進一步降低處理負荷,第一多維特徵圖在通道維度的通道數為C,上述至少部分特徵資訊在通道維度的 通道數為
Figure 109113378-A0101-12-0021-4
C。此外,還可以利用偏移資訊對第一多維特徵 圖的全部特徵資訊進行時序偏移,在此不做限定。
在一個實施場景中,為了降低偏移資訊的計算量,提高視頻分析的處理速度,還可以按照預設維度(例如,通道維度)從第一多維特徵圖中選擇至少一組特徵資訊,其中,每組特徵資訊包括同一預設維度(例如,通道維度)上對應不同時序的特徵資訊,利用所述偏移資訊對所述至少一組特徵資訊在時序維度上進行偏移。此時,偏移預測網路第二個全連接層可以包含與所選擇的特徵資訊的組數相同數量的神經元,從而偏移資訊中的元素個數與所選擇的特徵資訊的組數相同,進而可以利用偏移資訊中的各個元素分別對至少一組特徵資訊在時序維度上進行偏移。例如,在時序維度上偏移一個時序單位,或者,在時序維度上偏移兩個時序單位等,在此不做具體限定。
在利用偏移資訊對第一多維特徵圖的至少部分特徵資訊進行時序偏移之後,可以將時序偏移後的至少部分特徵資訊與第一多維特徵圖中未進行時序偏移的部分特徵資訊進行拼接,從而得到第二多維特徵圖。在一個具體 的實施場景中,請結合參閱圖2,可以將通道數為
Figure 109113378-A0101-12-0022-9
C的至 少部分特徵資訊進行時序偏移後得到的特徵資訊與未經 時序偏移的通道數為
Figure 109113378-A0101-12-0022-8
C的部分特徵資訊進行拼接,得到第 二多維特徵圖。
步驟S15:利用預設網路模型對第二多維特徵圖進行分析,得到待分析視頻的分析結果資訊。
在一個實施場景中,可以利用預設網路模型的全連接層對第二多維特徵圖進行特徵連接,利用預設網路模型的softmax層進行回歸,從而得到待分析視頻所屬的類別(如,足球賽事視頻、滑雪賽事視頻等),或者,還可以得到待分析視頻中目標物件的行為類別(例如,正常行走、摔倒、奔跑等),其他應用場景,可以以此類推,在此不再一一舉例。
在一個實施場景中,為了便於處理,上述偏移預測網路可以嵌入在預設網路模型的卷積層之前。例如,預設網路模型為ResNet-50,偏移預測網路可以嵌入在每個殘差塊中的卷積層之前。
在一個實施場景中,預設網路模型可以包括至少一個卷積層,從而在特徵提取過程中,可以利用預設網路模型的一個卷積層對待分析視頻進行特徵提取,得到第一多維特徵圖。
在一個實施場景中,為了提高視頻分析的準確性,預設網路模型的卷積層的數量可以多於1個,例如,預設網路模型的卷積層的數量可以是2個、3個或4個等等。 因此在對第二多維特徵圖進行分析、得到所述待分析視頻的分析結果資訊之前,還可以利用預設網路模型中未執行特徵提取的卷積層對第二多維特徵圖進行特徵提取,得到新的第一多維特徵圖;其中,新的第一多維特徵圖在時序維度上可以保持維數不變;進一步執行利用偏移預測網路對新的第一多維特徵圖進行預測,得到偏移資訊的步驟以及後續步驟,以得到新的第二多維特徵圖,並不斷重複上述步驟,直至預設網路模型的所有卷積層均完成對新的第二多維特徵圖的特徵提取步驟,再利用預設網路模型的全連接層對最後得到的第二多維特徵圖進行分析,得到待分析視頻的分析結果資訊。
請結合參閱圖3,圖3是視頻分析各階段一實施例的示意圖,以預設網路模型包括3個卷積層為例,待分析視頻經過預設網路模型的第一個卷積層進行特徵提取得到第一多維特徵圖之後,通過上述相關步驟進行時序偏移,得到第二多維特徵圖,在利用預設網路模型的全連接層進行分析處理之前,還可以進一步將該第二多維特徵圖輸入第二個卷積層進行特徵提取,得到新的第一多維特徵圖(圖中記為第一多維特徵圖),並通過上述相關步驟對新的第一多維特徵圖進行時序偏移,得到新的第二多維特徵圖(圖中記為第二多維特徵圖),類似地,利用第三個卷積層對該新的第二多維特徵圖進行特徵提取,又得到一個新的第一多維特徵圖(圖中記為第一多維特徵圖),並通過上述相關步驟對新的第一多維特徵圖進行時序偏移,得 到新的第二多維特徵圖(圖中記為第二多維特徵圖),此時預設網路模型的三個卷積層已全部執行完成特徵提取步驟,可以利用預設網路模型的全連接層對最新得到的第二多維特徵圖進行分析,得到待分析視頻的分析結果資訊。當然,在其他實施例中,為了減少計算量,也可以僅在部分卷積層之後增加時序偏移步驟。
上述方案中,通過對待分析視頻進行特徵提取,得到第一多維特徵圖,且第一多維特徵圖包含與待分析視頻對應的不同時序上的特徵資訊,並利用偏移預測網路對第一多維特徵圖進行預測,得到偏移資訊,從而利用偏移資訊對第一多維特徵圖的至少部分特徵資訊進行時序偏移,並基於偏移後的特徵資訊得到第二多維特徵圖,進而能夠直接對待分析視頻的時序資訊進行建模,有利於提高視頻分析的處理速度,且通過時序偏移,能夠使空間資訊和時序資訊聯合交錯,故在此基礎上進行分析處理,有利於提高視頻分析的準確度。
請參閱圖4,圖4是圖1中步驟S14一實施例的流程示意圖。本申請實施例中,偏移資訊包括第一數量個偏移值,還可以將第一多維特徵圖的至少部分沿預設維度(例如,通道維度)劃分為第一數量組第一特徵資訊,即所述至少一組特徵資訊包括第一數量組第一特徵資訊。則所述利用所述偏移資訊對所述至少一組特徵資訊在時序維度上進行偏移可以包括:利用偏移資訊中第i個偏移值對第i組第一特徵資訊在時序維度上進行偏移,得到第i 組第二特徵資訊,其中,i為小於或等於第一數量的正整數。
請結合參閱圖2,第一多維特徵圖的至少部分包括2組第一特徵資訊,則可以利用偏移資訊中的第1個偏移值對第1組第一特徵資訊在時序維度上進行偏移,得到第1組第二特徵資訊,並利用偏移資訊中的第2個偏移值對第2組第一特徵資訊在時序維度上進行偏移,得到第2組第二特徵資訊,當上述第一數量為其他值時,可以以此類推,在此不再一一舉例。
具體地,所述利用所述偏移資訊中第i個所述偏移值對第i組所述第一特徵資訊在所述時序維度上進行偏移,得到第i組第二特徵資訊,可以包括如下步驟。
步驟5141:獲取第i個偏移值所屬的數值範圍,且數值範圍的上限值與下限值之差為一預設數值。
在一個實施場景中,預設數值可以為1,數值範圍的下限值為對第i個偏移值進行下取整得到的數值,數值範圍的上限值為對第i個偏移值進行上取整得到的數值,即對於第i個偏移值O i ,其數值範圍可以表示為(n 0,n 0+1),且n 0
Figure 109113378-A0101-12-0025-35
N。例如,當偏移值為0.8時,其數值範圍為0至1;或者,當偏移值為1.4時,其數值範圍為1至2,當偏移值為其他數值時,可以以此類推,在此不再一一舉例。通過上述方式,在偏移值為小數時,能夠簡化後續時序偏移的處理流程。
步驟S142:將第i組第一特徵資訊沿時序維度偏 移上限值個時序單位,得到第i組第三特徵資訊,並將第i組第一特徵資訊沿時序維度偏移下限值個時序單位,得到第i組第四特徵資訊。
本申請實施例中,第i組第一特徵資訊可以表示為U c,t ,故當第i個偏移值的數值範圍表示為(n 0,n 0+1)時,將第i組第一特徵資訊沿時序維度偏移上限值個時序單位,得到的第i組第三特徵資訊可以表示為
Figure 109113378-A0101-12-0026-22
,將第i組第一特徵資訊沿時序維度偏移下限值個時序單位,得到的第i組第四特徵資訊可以表示為
Figure 109113378-A0101-12-0026-23
在一個具體的實施場景中,每個偏移值可能為小數,例如,每個偏移值的數值範圍為0至1,即上述上限值為1,下限值為0,預設數值為1,故對於第i組第一特徵資訊U c,t 而言,對應的第三特徵資訊可以表示為U c,t+1,對應的第四特徵資訊可以表示為U c,t 。此外,第一特徵資訊在時序維度的範圍為[1,T],其中,T的取值等於待分析視頻的幀數,如第一特徵資訊[1 0 0 0 0 0 0 1]的T為8,第一特徵資訊可能會在時序偏移過程中由於特徵資訊被移出而變成零向量,從而在訓練過程中出現梯度消失的情況,為緩解該問題,可以為時序偏移後處於(0,1)時序區間和(T,T+1)時序區間的特徵資訊設置一緩衝區,從而當特徵資訊在時序上被偏移出T+1時刻,或小於0時刻時,可以將緩衝區固定置為0。例如,以第一特徵資訊U c,t 是[1 0 0 0 0 0 0 1]為例,則當第i個偏移值為0.4時,由於其所屬的數值範圍為0至1,故可以將第一特徵資訊偏移上限值個(即1個)時 序單位,得到對應的第三特徵資訊[0 1 0 0 0 0 0 0],並將上述第一特徵資訊偏移下限值個(即0個)時序單位,得到對應的第四特徵資訊[1 0 0 0 0 0 0 1]。當第一特徵資訊、偏移值為其他數值時,可以以此類推,在此不再一一舉例。
步驟S143:以第i個偏移值與下限值之間的差作為權重對第i組第三特徵資訊進行加權處理,得到第i組第一加權結果,並以上限值與第i個偏移值之間的差作為權重對第i組第四特徵資訊進行加權處理,得到第i組第二加權結果。
以第i個偏移值表示為O i 為例,故當第i個偏移值的數值範圍表示為(n 0,n 0+1)時,以第i個偏移值O i 與下限值(即n 0)之間的差(即O i -n 0)作為權重對第i組第三特徵資訊(即
Figure 109113378-A0101-12-0027-24
)進行加權處理,得到對應的第一加權結果(即(O i -n 0)
Figure 109113378-A0101-12-0027-25
),並以上限值(即n 0+1)與第i個偏移值O i 之間的差(即n 0+1-O i )作為權重對第i組第四特徵資訊(
Figure 109113378-A0101-12-0027-26
)進行加權處理,得到對應的第二加權結果(即(n 0+1-O i )
Figure 109113378-A0101-12-0027-27
)。
在一個具體的實施場景中,每個偏移值可能為小數。例如,每個偏移值的數值範圍為0至1,即上述上限值為1,下限值為0,預設數值為1,故對於第一特徵資訊U c,t 而言,對應的第三特徵資訊可以表示為U c,t+1,對應的第四特徵資訊可以表示為U c,t ,則第一加權結果可以表示為O i U c,t+1,第二加權結果可以表示為(1-O i )U c,t 。仍以第一特徵資訊U c,t 表示 為一維向量[1 0 0 0 0 0 0 1]為例,則當第i個偏移值為0.4時,對應的第三特徵資訊可以表示為[0 1 0 0 0 0 0 0],對應的第四特徵資訊可以表示為[1 0 0 0 0 0 0 1],故第一加權結果可以表示為[0 0.4 0 0 0 0 0 0],故第二加權結果可以表示為[0.6 0 0 0 0 0 0 0.6]。當第一特徵資訊、偏移值為其他數值時,可以以此類推,在此不再一一舉例。
步驟S144:計算第i組第一加權結果和第i組第二加權結果之間的和,以作為第i組第二特徵資訊。
以第i個偏移值表示為O i 為例,第一加權結果可以表示為(O i -n 0)
Figure 109113378-A0101-12-0028-29
,第二加權結果可以表示為(n 0+1-O i )
Figure 109113378-A0101-12-0028-33
,故第i組第二特徵資訊可以表示為(n 0+1-O i )
Figure 109113378-A0101-12-0028-31
+(O i -n 0)
Figure 109113378-A0101-12-0028-32
在一個具體的實施場景中,每個偏移值可能為小數。例如,每個偏移值的數值範圍為0至1,即上述上限值為1,下限值為0,預設數值為1,故對於第一特徵資訊U c,t 而言,第一加權結果可以表示為O i U c,t+1,第二加權結果可以表示為(1-O i )U c,t ,故第i組第二特徵資訊可以表示為(1-O i )U c,t +O i U c,t+1。仍以第一特徵資訊U c,t 表示為一維向量[1 0 0 0 0 0 0 1]為例,則當第i個偏移值為0.4時,對應的第一加權結果可以表示為[0 0.4 0 0 0 0 0 0],對應的第二加權結果可以表示為[0.6 0 0 0 0 0 0 0.6],故第i組第二特徵資訊可以表示為[0.6 0.4 0 0 0 0 0 0.6]。當第一特徵資訊、偏移值為其他數值時,可以以此類推,在此不再一一舉例。
此外,在一個實施場景中,由於以組單位將每組第 一特徵資訊進行時序偏移,故在訓練時,可以採用對稱偏移的策略,即訓練時可以只訓練一半的偏移值,並對其進行轉換計算(例如,顛倒其次序)得到另一半偏移值,從而能夠減輕訓練時的處理負荷。
區別於前述實施例,通過獲取第i個偏移值所屬的數值範圍,且該數值範圍的上限值與下限值之差為一預設數值,將第i組第一特徵資訊沿時序維度偏移上限值個時序單位,得到第i組第三特徵資訊,並將第i組第一特徵資訊沿時序維度偏移下限值個時序單位,得到第i組第四特徵資訊;以第i個偏移值與下限值之間的差作為權重對第i組第一特徵資訊進行加權處理,得到第i組第一加權結果,並以上限值與第i個偏移值之間的差作為權重對第i組第四特徵資訊進行加權處理,得到第i組第二加權結果;計算第i組第一加權結果和第i組第二加權結果之間的和,以作為第i組第二特徵資訊,進而能夠方便、快速地對第一特徵資訊進行偏移處理,有利於提高視頻分析的處理速度。
請參閱圖5,圖5是本申請視頻分析方法另一實施例的流程示意圖。具體而言,可以包括如下步驟。
步驟S51:獲取待分析視頻。
具體可以參閱前述實施例中的相關步驟。
步驟S52:利用預設網路模型對待分析視頻進行特徵提取,得到第一多維特徵圖。
本申請實施例中,第一多維特徵圖包含與待分析視 頻對應的不同時序上的特徵資訊。具體可以參閱前述實施例中的相關步驟。
步驟S53:利用偏移預測網路對第一多維特徵圖進行預測,得到偏移資訊。
請結合參閱圖6,圖6是視頻分析處理過程另一實施例的示意圖,如圖6所示,第一多維特徵圖可以經過偏移預測網路進行預測,具體可以參閱前述實施例中的相關步驟。
步驟S54:利用權重預測網路對第一多維特徵圖進行預測,得到權重資訊。
在時序偏移過程中,第一特徵資訊首末兩端的特徵可能會被移出,因此為了重新衡量經時序偏移後的第一特徵資訊中各特徵的重要程度,以更好地獲取長範圍資訊,可以採用注意力機制對經時序偏移後的第一特徵資訊中各特徵進行重新加權處理,故需要獲取權重資訊。請繼續結合參閱圖6,可以利用權重預測網路對第一多維特徵圖進行預測,得到權重資訊。
在一個實施場景中,權重預測網路可以包括順序連接的降採樣層、卷積層和啟動層。因此,權重預測網路僅包含3層,且其中僅卷積層包含網路參數,可以在一定程度上簡化網路結構,並減少網路參數,從而能夠降低網路容量,提高收斂速度,避免過擬合,使得訓練得到的模型盡可能地準確,進而能夠提高視頻分析的準確性。
在一些可選實施例中,所述利用權重預測網路對所 述第一多維特徵圖進行預測,得到權重資訊,可以包括:利用權重預測網路的降採樣層(記為第一降採樣層)對第一多維特徵圖進行降採樣,得到降採樣結果(記為第一降採樣結果);利用權重預測網路的卷積層(記為第一卷積層)對降採樣結果(即第一降採樣結果)進行卷積處理的,得到特徵提取結果(記為第一特徵提取結果);利用權重預測網路的啟動層對特徵提取結果(即第一特徵提取結果)進行非線性處理,得到權重資訊。在一個具體的實施場景中,降採樣層可以是平均池化層,具體可以參閱前述實施例中的相關步驟。權重預測網路的卷積層中可以包含1個卷積核,權重預測網路的啟動層可以是Sigmoid啟動層,從而能夠將權重資訊中的各個元素約束至0至1之間。
此外,為了便於處理,本申請實施例中的偏移預測網路和權重預測網路可以嵌入在預設網路模型的卷積層之前。例如,預設網路模型為ResNet-50,偏移預測網路和權重預測網路可以嵌入在每個殘差塊的卷積層之前,從而分別利用第一多維特徵圖,預測得到偏移資訊和權重資訊,以便後續偏移與加權處理,從而能夠在ResNet-50已有的網路參數的基礎上,加入少量的網路參數實現時序資訊的建模,有利於降低視頻分析的處理負荷,提高視頻分析的處理速度,且有利於加快模型訓練時的收斂速度,避免過擬合,提高視頻分析的準確度。當預設網路模型為其他模型時,可以以此類推,在此不再一一舉例。
上述步驟S53和步驟S54可以按照先後循序執行, 例如,先執行步驟S53,後執行步驟S54;或者,先執行步驟S54,後執行步驟S53;或者,步驟S53和步驟S54同時執行,在此不做限定。此外,上述步驟S54先於後續的步驟S56執行即可,在此不做限定。
步驟S55:利用偏移資訊對第一多維特徵圖的至少部分特徵資訊進行時序偏移。
具體可以參閱前述實施例中的相關步驟。
步驟S56:利用權重資訊對偏移後的特徵資訊進行加權處理。
在一個實施場景中,待分析視頻具體可以包括第二數量幀圖像,權重資訊可以包括第二數量個權重值,第二數量具體可以是8、16、24等等,在此不做具體限定。在加權處理時,即所述利用所述權重資訊對偏移後的所述特徵資訊進行加權處理,包括:可以對偏移後的每組特徵資訊,分別利用權重資訊中的第j個權重值對當前組特徵資訊中的第j個時序對應的特徵值進行加權處理,得到加權處理後的對應組特徵資訊,其中,j為小於或等於第二數量的正整數。
以上述實施例中偏移處理後的特徵資訊[0.6 0.4 0 0 0 0 0 0.6]為例,權重資訊可以為[0.2 0.1 0.1 0.1 0.1 0.1 0.1 0.2],則分別利用權重資訊中的第j個權重值對上述特徵資訊中的第j個時序對應的特徵值進行加權處理後,得到對應組的特徵資訊為[0.12 0.04 0 0 0 0 0 0.12]。當偏移後的特徵資訊、權重資訊 為其他數值時,可以以此類推,在此不再一一舉例。
步驟S57:基於加權處理後的特徵資訊,得到第二多維特徵圖。
請結合參閱圖6,經過時序偏移和加權處理之後,即可得到與第一多維特徵圖對應的第二多維特徵圖。在一個實施場景中,所述基於所述加權處理後的所述特徵資訊,得到第二多維特徵圖,可以包括:利用加權處理後的特徵資訊以及第一多維特徵圖中未被偏移的特徵資訊,組成第二多維特徵圖。
具體地,請結合參閱圖2,可以將加權處理後的特徵資訊與第一多維特徵圖中未被偏移的特徵資訊進行拼接處理,得到第二多維特徵圖。得到的第二多維特徵圖與第一多維特徵圖具有相同的尺寸。此外,若第一多維特徵圖中的特徵資訊均進行了時序偏移處理,則可以直接將加權處理後的特徵資訊進行組合,作為第二多維特徵圖。
步驟S58:利用預設網路模型對第二多維特徵圖進行分析,得到待分析視頻的分析結果資訊。
具體可以參閱前述實施例中的相關步驟。
區別於前述實施例,利用權重預測網路對第一多維特徵圖進行預測,得到權重資訊,並利用偏移資訊對第一多維特徵圖的至少部分特徵資訊進行時序偏移,且利用權重資訊對偏移後的特徵資訊進行加權處理,並基於加權處理後的特徵資訊,得到第二多維特徵圖,故通過偏移、加權的處理步驟能夠直接得到空間、時序聯合交錯的特徵資 訊,有利於提高視頻分析的處理速度和準確度。
請參閱圖7,圖7是本申請用於視頻分析的模型訓練方法一實施例的流程示意圖。本申請實施例用於視頻分析的模型訓練方法具體可以由微型電腦、伺服器、平板電腦等具有處理功能的電子設備執行,或者由處理器執行程式碼實現。具體而言,可以包括如下步驟。
步驟S71:獲取樣本視頻。
本申請實施例中,樣本視頻包括預設標注資訊。以對視頻進行行為分析為例,樣本視頻的預設標注資訊可以包括但不限於:摔倒、正常行走、奔跑等標注資訊;或者,以對視頻進行分類為例,樣本視頻的預設標注資訊可以包括但不限於:足球賽事視頻、籃球賽事視頻、滑雪賽事視頻等標注資訊。其他應用場景可以以此類推,在此不再一一舉例。
本申請實施例中,樣本視頻可以包括若干幀圖像,例如,可以包括8幀圖像,或者,也可以包括16幀圖像,或者,還可以包括24幀圖像,在此不做具體限定。
步驟S72:利用預設網路模型對樣本視頻進行特徵提取,得到第一樣本多維特徵圖。
在一個具體的實施場景中,為了進一步減少網路參數,降低處理負荷,從而提高處理速度,提高訓練時收斂速度,避免過擬合,上述預設網路模型可以是二維神經網路模型,例如,ResNet-50、ResNet-101等等,在此不做具體限定。ResNet網路是由殘差塊(Residual Block)構建的,通過使用多個有參層來學習輸入、輸出之間的殘差表示。
本申請實施例中,第一樣本多維特徵圖包含與樣本視頻對應的不同時序上的特徵資訊。請結合參閱圖2,圖2是視頻分析處理過程一實施例的示意圖。如圖2所示,橫坐標表示時序維度T上的不同時序,不同時序所對應的方格表示不同時序上的特徵資訊。在一個實施場景中,待分析視頻包括若干幀圖像。為了降低對樣本視頻進行特徵提取的處理負荷,提高視頻分析的處理速度,可以通過預設網路模型分別對樣本視頻的若干幀圖像進行特徵提取,得到每一幀圖像對應的特徵圖,從而直接將若干個特徵圖按照與其對應的圖像在樣本視頻中的時序進行拼接,得到第一樣本多維特徵圖。例如,樣本視頻包括8幀圖像,則可以利用預設網路模型分別對這8幀圖像進行特徵提取,得到每一幀圖像的特徵圖,從而直接將8張特徵圖按照與其對應的圖像在樣本視頻中的時序進行拼接,得到第一樣本多維特徵圖。
步驟S73:利用偏移預測網路對第一樣本多維特徵圖進行預測,得到偏移資訊。
偏移預測網路的網路結構具體可以參考前述實施例中的相關步驟,在此不再贅述。在一個實施場景中,還可以利用權重預測網路對第一樣本多維特徵圖進行預測,得到權重資訊,權重預測網路的網路結構可以參考前述實施例中的相關步驟,在此不再贅述。
步驟S74:利用偏移資訊對第一樣本多維特徵圖的至少部分特徵資訊進行時序偏移,並基於偏移後的特徵資訊得到第二樣本多維特徵圖。
利用偏移資訊對第一樣本多維特徵圖的至少部分特徵資訊進行時序偏移的具體實施步驟,可以參考前述實施例中的相關步驟,在此不再贅述。在一個實施場景中,還可以利用權重資訊對偏移後的特徵資訊進行加權處理,並基於加權處理後的特徵資訊,得到第二樣本多維特徵圖,具體可以參考前述實施例中的相關步驟,在此不再贅述。
在一個實施場景中,預設網路模型可以包括至少一個卷積層,則可以利用預設網路模型的一個卷積層對樣本視頻進行特徵提取,得到第一樣本多維特徵圖。在一個具體的實施場景中,預設網路模型的卷積層的數量可以多於1個,則可以利用預設網路模型中未執行特徵提取的卷積層對第二樣本多維特徵圖進行特徵提取,得到新的第一樣本多維特徵圖,並執行利用偏移預測網路對新的第一樣本多維特徵圖進行預測,得到偏移資訊的步驟以及後續步驟,從而得到新的第二樣本多維特徵圖,進而重複執行上述步驟,直至預設網路模型的所有卷積層均完成對新的第二樣本多維特徵圖的特徵提取步驟。
步驟S75:利用預設網路模型對第二樣本多維特徵圖進行分析,得到樣本視頻的分析結果資訊。
具體地,可以利用預設網路模型的全連接層對第二樣本多維特徵圖進行分析,得到樣本視頻的分析結果資訊。 在一個實施場景中,可以利用預設網路模型的全連接層對第二樣本多維特徵圖進行特徵連接,利用預設網路模型的softmax層進行回歸,從而得到樣本視頻屬於各個類別(如,足球賽事視頻、滑雪賽事視頻等)的概率值,或者得到樣本視頻屬於各種行為(如,摔倒、正常行走、奔跑等)的概率值,其他應用場景中,可以以此類推,在此不再一一舉例。
步驟S76:利用預設標注資訊和分析結果資訊計算損失值。
具體地,可以利用均方誤差(Mean Square Error)損失函數,或者交叉熵損失函數對預設標注資訊和分析結果資訊進行損失值計算,在此不做限定。
步驟S77:基於損失值,調整預設網路模型和偏移預測網路的參數。
在一個實施場景中,如前述步驟,還可以利用權重預測網路對第一樣本多維特徵圖進行預測,得到權重資訊,從而利用權重資訊對偏移後的特徵資訊進行加權處理,並基於加權處理後的特徵資訊,得到第二樣本多維特徵資訊;基於損失值,還可以調整預設網路模型和偏移預測網路、權重預測網路的參數。具體地,可以調整預設網路模型中的卷積層、全連接層的參數,並調整偏移預測網路中的卷積層、全連接層的參數,並調整權重預測網路中的卷積層的參數。具體地,可以採用梯度下降法來調整參數,例如批量梯度下降法、隨機梯度下降法。
在一個實施場景中,在調整參數之後,還可以重新執行上述步驟S72以及後續步驟,直至計算得到的損失值滿足預設訓練結束條件為止。具體地,預設訓練結束條件可以包括:損失值小於一預設損失閾值,且損失值不再減小,或者,預設訓練結束條件還可以包括:參數調整次數達到預設次數閾值,或者,預設訓練結束條件還可以包括:利用測試視頻測試網路性能達到預設要求(如,準確率達到一預設準確率閾值)。
採用本申請實施例的技術方案,通過對樣本視頻進行特徵提取,得到第一樣本多維特徵圖,且第一樣本多維特徵圖包含與樣本視頻對應的不同時序上的特徵資訊,並利用偏移預測網路對第一樣本多維特徵圖進行預測,得到偏移資訊,從而利用偏移資訊對第一樣本多維特徵圖的至少部分特徵資訊進行時序偏移,並基於偏移後的特徵資訊得到第二樣本多維特徵圖,進而能夠直接對樣本視頻的時序資訊進行建模,有利於提高模型訓練時的速度,且通過時序偏移,能夠使空間資訊和時序資訊聯合交錯,故在此基礎上進行分析處理,有利於後續提高視頻分析的準確度。
請結合參閱圖8,圖8是本申請視頻分析裝置80一實施例的框架示意圖。視頻分析裝置80包括視頻獲取模組81、特徵提取模組82、偏移預測模組83、偏移處理模組84和網路分析模組85;其中,
視頻獲取模組81,配置為獲取待分析視頻;
特徵提取模組82,配置為利用預設網路模型對待分析視頻進行特徵提取,得到第一多維特徵圖,其中,第一多維特徵圖包含與待分析視頻對應的不同時序上的特徵資訊;
偏移預測模組83,配置為利用偏移預測網路對第一多維特徵圖進行預測,得到偏移資訊;
偏移處理模組84,配置為利用偏移資訊對第一多維特徵圖的至少部分特徵資訊進行時序偏移,並基於偏移後的特徵資訊得到第二多維特徵圖;
網路分析模組85,配置為利用預設網路模型對第二多維特徵圖進行分析,得到待分析視頻的分析結果資訊。
本申請實施例的技術方案,通過預設網路模型對待分析視頻進行處理,有利於提高視頻分析的處理速度,且通過時序偏移,能夠使空間資訊和時序資訊聯合交錯,故在此基礎上進行分析處理,有利於提高視頻分析的準確度。
在一些實施例中,視頻分析裝置80還包括權重預測模組,配置為利用權重預測網路對第一多維特徵圖進行預測,得到權重資訊;
偏移處理模組84,配置為利用偏移資訊對第一多維特徵圖的至少部分特徵資訊進行時序偏移;利用權重資訊對偏移後的特徵資訊進行加權處理;基於加權處理後的特徵資訊,得到第二多維特徵圖。
在一些實施例中,第一多維特徵圖的維度包括時序 維度和預設維度,偏移處理模組84,配置為按照預設維度從第一多維特徵圖中選擇至少一組特徵資訊,其中,每組特徵資訊包括同一預設維度上對應不同時序的特徵資訊,利用偏移資訊對至少一組特徵資訊在時序維度上進行偏移。
在一些實施例中,預設維度為通道維度;和/或,偏移資訊包括第一數量個偏移值,至少一組特徵資訊包括第一數量組第一特徵資訊,偏移處理模組84,配置為利用偏移資訊中第i個偏移值對第i組第一特徵資訊在時序維度上進行偏移,得第i組第二特徵資訊,其中,i為小於或等於第一數量的正整數。
在一些實施例中,偏移處理模組84,配置為獲取第i個偏移值所屬的數值範圍,且數值範圍的上限值與下限值之差為一預設數值,時序偏移處理單元包括時序偏移處理子單元,用於將第i組第一特徵資訊沿時序維度偏移上限值個時序單位,得到第i組第三特徵資訊,並將第i組第一特徵資訊沿時序維度偏移下限值個時序單位,得到第i組第四特徵資訊;以第i個偏移值與下限值之間的差作為權重對第i組第三特徵資訊進行加權處理,得到第i組第一加權結果,並以上限值與第i個偏移值之間的差作為權重對第i組第四特徵資訊進行加權處理,得到第i組第二加權結果;計算第i組第一加權結果和第i組第二加權結果之間的和,以作為第i組第二特徵資訊。
在一些實施例中,待分析視頻包括第二數量幀圖像, 權重資訊包括第二數量個權重值,偏移處理模組84,配置為對偏移後的每組特徵資訊,分別利用權重資訊中第j個權重值對當前組特徵資訊中的第j個時序對應的特徵值進行加權處理,得到加權處理後的對應組特徵資訊;其中,j為小於或等於第二數量的正整數。
在一些實施例中,偏移處理模組84,配置為利用加權處理後的特徵資訊以及第一多維特徵圖中未被偏移的特徵資訊,組成第二多維特徵圖。
在一些實施例中,權重預測模組,配置為利用權重預測網路的第一降採樣層對第一多維特徵圖進行降採樣,得到第一降採樣結果;利用權重預測網路的第一卷積層對第一降採樣結果進行卷積處理,得到第一特徵提取結果;利用權重預測網路的第一啟動層對第一特徵提取結果進行非線性處理,得到權重資訊。
在一些實施例中,偏移預測模組83,配置為利用偏移預測網路的第二降採樣層對第一多維特徵圖進行降採樣,得到第二降採樣結果;利用偏移預測網路的第二卷積層對第二降採樣結果進行卷積處理,得到第二特徵提取結果;利用偏移預測網路的第一全連接層對第二特徵提取結果進行特徵連接,得到第一特徵連接結果;利用偏移預測網路的第二啟動層對第一特徵連接結果進行非線性處理,得到非線性處理結果,利用偏移預測網路的第二全連接層對非線性處理結果進行特徵連接,得到第二特徵連接結果,利用偏移預測網路的第三啟動層對第二特徵連接結 果進行非線性處理,得到偏移資訊。
在一些實施例中,預設網路模型包括至少一個卷積層,特徵提取模組82,配置為利用預設網路模型的卷積層對待分析視頻進行特徵提取,得到第一多維特徵圖;還配置為若預設網路模型的卷積層的數量多於1,利用預設網路模型中未執行特徵提取的卷積層對第二多維特徵圖進行特徵提取,得到新的第一多維特徵圖;
偏移預測模組83,還配置為利用偏移預測網路對新的第一多維特徵圖進行預測,得到新的偏移資訊;
偏移處理模組84,還配置為利用新的偏移資訊對第一多維特徵圖的至少部分特徵資訊進行時序偏移,並基於偏移後的特徵資訊得到新的第二多維特徵圖;
網路分析模組85,配置為利用預設網路模型的全連接層對新的第二多維特徵圖進行分析,得到待分析視頻的分析結果資訊。
在一些實施例中,待分析視頻包括若干幀圖像,特徵提取模組82,配置為利用預設網路模型分別對若干幀圖像進行特徵提取,得到與每一幀圖像對應的特徵圖;將若干個特徵圖按照與其對應的圖像在待分析視頻中的時序進行拼接,得到第一多維特徵圖。
請參閱圖9,圖7是本申請用於視頻分析的模型訓練裝置90一實施例的框架示意圖。用於視頻分析的模型訓練裝置90包括視頻獲取模組91、特徵提取模組92、偏移預測模組93、偏移處理模組94、網路分析模組95、 損失計算模組96和參數調整模組97;其中,
視頻獲取模組91,配置為獲取樣本視頻,其中,樣本視頻包括預設標注資訊;
特徵提取模組92,配置為利用預設網路模型對樣本視頻進行特徵提取,得到第一樣本多維特徵圖,其中,第一樣本多維特徵圖包含與樣本視頻對應的不同時序上的特徵資訊;
偏移預測模組93,配置為利用偏移預測網路對第一樣本多維特徵圖進行預測,得到偏移資訊;
偏移處理模組94,配置為利用偏移資訊對第一樣本多維特徵圖的至少部分特徵資訊進行時序偏移,並基於偏移後的特徵資訊得到第二樣本多維特徵圖;
網路分析模組95,配置為利用預設網路模型對第二樣本多維特徵圖進行分析,得到樣本視頻的分析結果資訊;
損失計算模組96,配置為利用預設標注資訊和分析結果資訊計算損失值;
參數調整模組97,配置為基於損失值,調整預設網路模型和偏移預測網路的參數。
通過上述方案,能夠直接對樣本視頻的時序資訊進行建模,有利於提高模型訓練時的速度,且通過時序偏移,能夠使空間資訊和時序資訊聯合交錯,故在此基礎上進行分析處理,有利於後續提高視頻分析的準確度。
在一些實施例中,用於視頻分析的模型訓練裝置90還可以進一步包括其他模組,以執行上述用於視頻分析 的模型訓練方法實施例中的相關步驟,具體可以參考上述視頻分析裝置實施例中的相關模組,在此不再贅述。
請參閱圖10,圖10是本申請電子設備100一實施例的框架示意圖。電子設備100包括相互耦接的記憶體101和處理器102,處理器102用於執行記憶體101中儲存的程式指令,以實現上述任一視頻分析方法實施例的步驟,或實現上述任一用於視頻分析的模型訓練方法實施例中的步驟。在一個具體的實施場景中,電子設備100可以包括但不限於:微型電腦、伺服器,此外,電子設備100還可以包括筆記型電腦、平板電腦等移動設備,在此不做限定。
具體而言,處理器102用於控制其自身以及記憶體101以實現上述任一視頻分析方法實施例的步驟,或實現上述任一用於視頻分析的模型訓練方法實施例中的步驟。處理器102還可以稱為中央處理單元(Central Processing Unit,CPU)。處理器102可能是一種積體電路晶片,具有信號的處理能力。處理器102還可以是通用處理器、數位訊號處理器(Digital Signal Processor,DSP)、專用積體電路(Application Specific Integrated Circuit,ASIC)、現場可程式設計閘陣列(Field-Programmable Gate Array,FPGA)或者其他可程式設計邏輯器件、分立門或者電晶體邏輯器件、分立硬體元件。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等。另外,處理 器102可以由積體電路晶片共同實現。
請參閱圖11,圖11為本申請電腦可讀儲存介質110一實施例的框架示意圖。電腦可讀儲存介質110儲存有能夠被處理器運行的程式指令1101,程式指令1101用於實現上述任一視頻分析方法實施例的步驟,或實現上述任一用於視頻分析的模型訓練方法實施例中的步驟。該電腦可讀儲存介質可以是易失性或非易失性儲存介質。
本申請實施例還提供一種電腦程式,包括電腦可讀代碼,當所述電腦可讀代碼在電子設備中運行時,所述電子設備中的處理器執行用於實現上述任一視頻分析方法實施例的步驟,或實現上述任一用於視頻分析的模型訓練方法實施例中的步驟。
在本申請所提供的幾個實施例中,應該理解到,所揭露的方法和裝置,可以通過其它的方式實現。例如,以上所描述的裝置實施方式僅僅是示意性的,例如,模組或單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如單元或元件可以結合或者可以集成到另一個系統,或一些特徵可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些介面,裝置或單元的間接耦合或通信連接,可以是電性、機械或其它的形式。
作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分佈到網 路單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施方式方案的目的。
另外,在本申請各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現,也可以採用軟體功能單元的形式實現。
集成的單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時,可以儲存在一個電腦可讀取儲存介質中。基於這樣的理解,本申請的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟體產品的形式體現出來,該電腦軟體產品儲存在一個儲存介質中,包括若干指令用以使得一台電腦設備(可以是個人電腦,伺服器,或者網路設備等)或處理器(processor)執行本申請各個實施方式方法的全部或部分步驟。而前述的儲存介質包括:U盤、移動硬碟、唯讀記憶體(Read-Only Memory,ROM)、隨機存取記憶體(Random Access Memory,RAM)、磁碟或者光碟等各種可以儲存程式碼的介質。
S11:步驟
S12:步驟
S13:步驟
S14:步驟
S15:步驟

Claims (11)

  1. 一種視頻分析方法,應用於視頻分析裝置,所述方法包括:獲取待分析視頻;所述待分析視頻包含第二數量幀圖像;利用預設網路模型對所述待分析視頻進行特徵提取,得到第一多維特徵圖,其中,所述第一多維特徵圖包含與所述待分析視頻對應的不同時序上的特徵資訊;利用偏移預測網路對所述第一多維特徵圖進行預測,得到偏移資訊;所述第一多維特徵圖的維度包括時序維度和預設維度;按照所述預設維度從所述第一多維特徵圖中選擇至少一組特徵資訊,其中,每組特徵資訊包括同一預設維度上對應不同時序的特徵資訊;利用所述偏移資訊對所述至少一組特徵資訊在時序維度上進行偏移;利用權重預測網路對所述第一多維特徵圖進行預測,得到權重資訊;所述權重資訊包括所述第二數量個權重值;對偏移後的每組特徵資訊,分別利用所述權重資訊中第j個權重值對當前組特徵資訊中的第j個時序對應的特徵值進行加權處理,得到加權處理後的對應組特徵資訊;其中,所述j為小於或等於所述第二數量的正整數;基於所述加權處理後的所述特徵資訊,得到第二多維特徵圖;利用所述預設網路模型對所述第二多維特徵圖進行分析,得到所述待分析視頻的分析結果資訊。
  2. 根據請求項1所述的視頻分析方法,其中, 所述預設維度為通道維度;和/或,所述偏移資訊包括第一數量個偏移值,所述至少一組特徵資訊包括第一數量組第一特徵資訊;所述利用所述偏移資訊對所述至少一組特徵資訊在時序維度上進行偏移包括:利用所述偏移資訊中第i個所述偏移值對第i組所述第一特徵資訊在所述時序維度上進行偏移,得到第i組第二特徵資訊,其中,所述i為小於或等於所述第一數量的正整數。
  3. 根據請求項2所述的視頻分析方法,其中,所述利用所述偏移資訊中第i個所述偏移值對第i組所述第一特徵資訊在所述時序維度上進行偏移,得到第i組第二特徵資訊,包括:獲取第i個所述偏移值所屬的數值範圍,且所述數值範圍的上限值與下限值之差為一預設數值;將第i組所述第一特徵資訊沿所述時序維度偏移所述上限值個時序單位,得到第i組第三特徵資訊,並將第i組所述第一特徵資訊沿所述時序維度偏移所述下限值個時序單位,得到第i組第四特徵資訊;以第i個所述偏移值與所述下限值之間的差作為權重對第i組所述第三特徵資訊進行加權處理,得到第i組第一加權結果,並以所述上限值與所述第i個偏移值之間的差作為權重對第i組所述第四特徵資訊進行加權處理,得到第i組第二加權結果; 計算所述第i組第一加權結果和第i組第二加權結果之間的和,以作為第i組所述第二特徵資訊。
  4. 根據請求項1所述的視頻分析方法,其中,所述加權處理後的所述特徵資訊,得到第二多維特徵圖,包括:利用所述加權處理後的所述特徵資訊以及所述第一多維特徵圖中未被偏移的特徵資訊,組成所述第二多維特徵圖。
  5. 根據請求項1所述的視頻分析方法,其中,所述利用權重預測網路對所述第一多維特徵圖進行預測,得到權重資訊,包括:利用所述權重預測網路的第一降採樣層對所述第一多維特徵圖進行降採樣,得到第一降採樣結果;利用所述權重預測網路的第一卷積層對所述第一降採樣結果進行卷積處理,得到第一特徵提取結果;利用所述權重預測網路的第一啟動層對所述第一特徵提取結果進行非線性處理,得到所述權重資訊。
  6. 根據請求項1所述的視頻分析方法,其中,所述利用偏移預測網路對所述第一多維特徵圖進行預測,得到偏移資訊,包括:利用所述偏移預測網路的第二降採樣層對所述第一多維特徵圖進行降採樣,得到第二降採樣結果;利用所述偏移預測網路的第二卷積層對所述第二降採樣結果進行卷積處理,得到第二特徵提取結果; 利用所述偏移預測網路的第一全連接層對所述第二特徵提取結果進行特徵連接,得到第一特徵連接結果;利用所述偏移預測網路的第二啟動層對所述第一特徵連接結果進行非線性處理,得到非線性處理結果;利用所述偏移預測網路的第二全連接層對所述非線性處理結果進行特徵連接,得到第二特徵連接結果;利用所述偏移預測網路的第三啟動層對所述第二特徵連接結果進行非線性處理,得到所述偏移資訊。
  7. 根據請求項1所述的視頻分析方法,其中,所述預設網路模型包括至少一個卷積層;所述利用預設網路模型對所述待分析視頻進行特徵提取,得到第一多維特徵圖,包括:利用預設網路模型的卷積層對所述待分析視頻進行特徵提取,得到第一多維特徵圖;若所述預設網路模型的卷積層的數量多於1,則在所述得到第二多維特徵圖之後,並在所述利用所述預設網路模型對所述第二多維特徵圖進行分析,得到所述待分析視頻的分析結果資訊之前,所述方法還包括:利用所述預設網路模型中未執行特徵提取的卷積層對所述第二多維特徵圖進行特徵提取,得到新的第一多維特徵圖;執行所述利用偏移預測網路對所述新的第一多維特徵圖進行預測,得到偏移資訊的步驟以及後續步驟,以得到新的第二多維特徵圖; 重複執行上述步驟,直至所述預設網路模型的所有卷積層均完成對新的第二多維特徵圖的特徵提取步驟;所述利用所述預設網路模型對所述第二多維特徵圖進行分析,得到所述待分析視頻的分析結果資訊,包括:利用所述預設網路模型的全連接層對所述第二多維特徵圖進行分析,得到所述待分析視頻的分析結果資訊。
  8. 根據請求項1所述的視頻分析方法,其中,所述待分析視頻包括若干幀圖像,所述利用預設網路模型對所述待分析視頻進行特徵提取,得到第一多維特徵圖,包括:利用所述預設網路模型分別對所述若干幀圖像進行特徵提取,得到與每一幀圖像對應的特徵圖;將所述若干個所述特徵圖按照與其對應的圖像在所述待分析視頻中的時序進行拼接,得到所述第一多維特徵圖。
  9. 一種用於視頻分析的模型訓練方法,包括:獲取樣本視頻,其中,所述樣本視頻包括預設標注資訊;所述待分析視頻包含第二數量幀圖像;利用預設網路模型對所述樣本視頻進行特徵提取,得到第一樣本多維特徵圖,其中,所述第一樣本多維特徵圖包含與所述樣本視頻對應的不同時序上的特徵資訊;利用偏移預測網路對所述第一樣本多維特徵圖進行預測,得到偏移資訊;所述第一多維特徵圖的維度包括時序維度和預設維度;按照所述預設維度從所述第一多維特徵圖中選擇至少一組特徵資訊,其中,每組特徵資訊包括同一預 設維度上對應不同時序的特徵資訊;利用所述偏移資訊對所述至少一組特徵資訊在時序維度上進行偏移;利用權重預測網路對所述第一多維特徵圖進行預測,得到權重資訊;所述權重資訊包括所述第二數量個權重值;對偏移後的每組特徵資訊,分別利用所述權重資訊中第j個權重值對當前組特徵資訊中的第j個時序對應的特徵值進行加權處理,得到加權處理後的對應組特徵資訊;其中,所述j為小於或等於所述第二數量的正整數;基於所述加權處理後的所述特徵資訊,得到第二多維特徵圖;利用所述預設網路模型對所述第二樣本多維特徵圖進行分析,得到所述樣本視頻的分析結果資訊;利用所述預設標注資訊和所述分析結果資訊計算損失值;基於所述損失值,調整所述預設網路模型和所述偏移預測網路的參數。
  10. 一種電子設備,包括相互耦接的記憶體和處理器,所述處理器用於執行所述記憶體中儲存的程式指令,以實現請求項1至8任一項所述的視頻分析方法,或實現請求項9所述的模型訓練方法。
  11. 一種電腦可讀儲存介質,其上儲存有程式指令,所述程式指令被處理器執行時實現請求項1至8任一項所述的視頻分析方法,或實現請求項9所述的模型訓練方法。
TW109113378A 2020-01-17 2020-04-21 視頻分析方法及其相關的模型訓練方法、電子設備、儲存介質 TWI761813B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010053048.4 2020-01-17
CN202010053048.4A CN111291631B (zh) 2020-01-17 2020-01-17 视频分析方法及其相关的模型训练方法、设备、装置

Publications (2)

Publication Number Publication Date
TW202129535A TW202129535A (zh) 2021-08-01
TWI761813B true TWI761813B (zh) 2022-04-21

Family

ID=71025430

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109113378A TWI761813B (zh) 2020-01-17 2020-04-21 視頻分析方法及其相關的模型訓練方法、電子設備、儲存介質

Country Status (5)

Country Link
JP (1) JP7096431B2 (zh)
KR (1) KR20210093875A (zh)
CN (1) CN111291631B (zh)
TW (1) TWI761813B (zh)
WO (1) WO2021142904A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695519B (zh) * 2020-06-12 2023-08-08 北京百度网讯科技有限公司 关键点定位方法、装置、设备以及存储介质
CN112417952B (zh) * 2020-10-10 2022-11-11 北京理工大学 一种车辆碰撞防控系统的环境视频信息可用性测评方法
CN112464898A (zh) * 2020-12-15 2021-03-09 北京市商汤科技开发有限公司 事件检测方法及装置、电子设备和存储介质
CN112949449B (zh) * 2021-02-25 2024-04-19 北京达佳互联信息技术有限公司 交错判断模型训练方法及装置和交错图像确定方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199902A (zh) * 2014-08-27 2014-12-10 中国科学院自动化研究所 一种线性动态系统的相似性度量计算方法
US20170243058A1 (en) * 2014-10-28 2017-08-24 Watrix Technology Gait recognition method based on deep learning
CN108229280A (zh) * 2017-04-20 2018-06-29 北京市商汤科技开发有限公司 时域动作检测方法和系统、电子设备、计算机存储介质
CN108229522A (zh) * 2017-03-07 2018-06-29 北京市商汤科技开发有限公司 神经网络的训练方法、属性检测方法、装置及电子设备
TW201921430A (zh) * 2017-08-16 2019-06-01 美商克萊譚克公司 在計量量測中之機器學習
WO2019204232A1 (en) * 2018-04-20 2019-10-24 Surfline\Wavetrak, Inc. Automated detection of features and/or parameters within an ocean environment using image data

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9626803B2 (en) * 2014-12-12 2017-04-18 Qualcomm Incorporated Method and apparatus for image processing in augmented reality systems
US10707837B2 (en) 2017-07-06 2020-07-07 Analog Photonics LLC Laser frequency chirping structures, methods, and applications
CN109919025A (zh) * 2019-01-30 2019-06-21 华南理工大学 基于深度学习的视频场景文本检测方法、系统、设备及介质
CN110084742B (zh) * 2019-05-08 2024-01-26 北京奇艺世纪科技有限公司 一种视差图预测方法、装置及电子设备
CN110660082B (zh) * 2019-09-25 2022-03-08 西南交通大学 一种基于图卷积与轨迹卷积网络学习的目标跟踪方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199902A (zh) * 2014-08-27 2014-12-10 中国科学院自动化研究所 一种线性动态系统的相似性度量计算方法
US20170243058A1 (en) * 2014-10-28 2017-08-24 Watrix Technology Gait recognition method based on deep learning
CN108229522A (zh) * 2017-03-07 2018-06-29 北京市商汤科技开发有限公司 神经网络的训练方法、属性检测方法、装置及电子设备
CN108229280A (zh) * 2017-04-20 2018-06-29 北京市商汤科技开发有限公司 时域动作检测方法和系统、电子设备、计算机存储介质
TW201921430A (zh) * 2017-08-16 2019-06-01 美商克萊譚克公司 在計量量測中之機器學習
WO2019204232A1 (en) * 2018-04-20 2019-10-24 Surfline\Wavetrak, Inc. Automated detection of features and/or parameters within an ocean environment using image data

Also Published As

Publication number Publication date
TW202129535A (zh) 2021-08-01
CN111291631A (zh) 2020-06-16
CN111291631B (zh) 2023-11-07
KR20210093875A (ko) 2021-07-28
JP2022520511A (ja) 2022-03-31
WO2021142904A1 (zh) 2021-07-22
JP7096431B2 (ja) 2022-07-05

Similar Documents

Publication Publication Date Title
TWI761813B (zh) 視頻分析方法及其相關的模型訓練方法、電子設備、儲存介質
WO2020221278A1 (zh) 视频分类方法及其模型的训练方法、装置和电子设备
US10565518B2 (en) Collaborative feature learning from social media
CN109522450B (zh) 一种视频分类的方法以及服务器
CN112507898A (zh) 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法
Bianco et al. Predicting image aesthetics with deep learning
CN112070044B (zh) 一种视频物体分类方法及装置
CN112884742A (zh) 一种基于多算法融合的多目标实时检测、识别及跟踪方法
WO2021042857A1 (zh) 图像分割模型的处理方法和处理装置
JP2022539423A (ja) 画像特徴抽出及びネットワークの訓練方法、装置並びに機器
WO2022088411A1 (zh) 图像检测及相关模型训练方法、装置、设备、介质及程序
CN116977674A (zh) 图像匹配方法、相关设备、存储介质及程序产品
CN115705706A (zh) 视频处理方法、装置、计算机设备和存储介质
EP3995992A1 (en) Method and system for detecting an action in a video clip
CN117237756A (zh) 一种训练目标分割模型的方法、目标分割方法及相关装置
Li et al. REQA: Coarse-to-fine assessment of image quality to alleviate the range effect
CN116524596A (zh) 一种基于动作粒度分组结构的体育视频动作识别方法
CN114155388B (zh) 一种图像识别方法、装置、计算机设备和存储介质
CN112926517B (zh) 一种人工智能监控方法
CN114648722A (zh) 一种基于视频多路径时空特征网络的动作识别方法
TW202240451A (zh) 用於整體視訊理解的視訊模型的自適應使用
Natephakdee et al. Convolutional neural network and dropout technique for recognition of thai food image
WO2022141092A1 (zh) 模型生成方法、图像处理方法、装置及可读存储介质
CN117530684B (zh) 一种基于健康大数据的血糖异常检测与预警系统及方法
Kaipio No-reference image quality assessment with convolutional neural networks