TW201824085A - 用於識別在動作視訊中之事件的方法 - Google Patents
用於識別在動作視訊中之事件的方法 Download PDFInfo
- Publication number
- TW201824085A TW201824085A TW106136281A TW106136281A TW201824085A TW 201824085 A TW201824085 A TW 201824085A TW 106136281 A TW106136281 A TW 106136281A TW 106136281 A TW106136281 A TW 106136281A TW 201824085 A TW201824085 A TW 201824085A
- Authority
- TW
- Taiwan
- Prior art keywords
- data
- camera
- captured
- recognition
- event
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B13/00—Burglar, theft or intruder alarms
- G08B13/18—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
- G08B13/189—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
- G08B13/194—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
- G08B13/196—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
- G08B13/19602—Image analysis to detect motion of the intruder, e.g. by frame subtraction
- G08B13/19606—Discriminating between target movement or movement in an area of interest and other non-signicative movements, e.g. target movements induced by camera shake or movements of pets, falling leaves, rotating fan
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
- H04N7/181—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/44—Event detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
- H04N7/183—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Studio Devices (AREA)
- Alarm Systems (AREA)
Abstract
本發明係關於一種用於識別在由一動作視訊攝影機擷取之一場景中之事件之方法。該方法包括兩個識別程序,一暫時識別程序及一長期識別程序。該暫時識別程序包含:藉由分析來自所擷取影像圖框之像素資料來識別在該所擷取場景中之事件;登記與經受該事件識別的每一影像圖框有關之攝影機處理資料;及調整屬於經配置以使用經登記攝影機處理資料作為輸入之一事件識別操作之權重,其中該等權重經調整以用於達成來自該事件識別操作之結果與來自基於對來自該所擷取場景之所擷取影像圖框之像素之分析的該識別之結果之間的高度相關性。該長期識別程序包含:藉由將經登記攝影機處理資料輸入至該事件識別操作來識別該所擷取場景中之事件。然後在一預定時間週期期間執行該暫時識別程序,且在預定初始時間已期滿之後執行該長期識別程序。
Description
本發明係關於用於識別在一動作視訊中之事件之一程序及裝置。
當今之監控及/或監測系統多次被配置用於偵測事件,諸如移動、入侵、暴力、遊蕩、遺留物項等。藉由使系統偵測及認出在所監測場景中發生之事件來促進此類型之監控及/或監測系統之操作,此乃因在具有諸多同時被調查場景之一系統中監測將需要較少人力。然而,使系統認出並偵測該等事件需要大量處理能力。此之一個原因係需要大量空間影像資料及時間影像資料兩者以便指示一經偵測及/或被認出事件。
本發明之一個目標係提供需要經減少量之處理能力及其他運算資源之一事件偵測方法。 該目標係藉助於如技術方案1之一方法且藉助於如技術方案12之一系統達成。附屬請求項中呈現本發明之其他實施例。 特定而言,根據本發明之某些實施例,用於識別在由一動作視訊攝影機擷取之一場景中之事件之方法包括兩個識別程序,一暫時識別程序及一長期識別程序。該暫時識別程序包含:藉由分析來自所擷取影像圖框之像素資料來識別在該所擷取場景中之事件;登記與經受該事件識別的每一影像圖框有關之攝影機處理資料;及調整屬於經配置以使用經登記攝影機處理資料作為輸入之一事件識別操作之權重,其中該等權重經調整以用於增加來自該事件識別操作之結果與來自基於對來自該所擷取場景之所擷取影像圖框之像素之分析的該識別之結果之間的相關性。該長期識別程序包含:藉由將經登記攝影機處理資料輸入至該事件識別操作來識別該所擷取場景中之事件。此外,在一預定時間週期期間執行該暫時識別程序且在預定初始時間已期滿之後執行該長期識別程序。使事件識別基於攝影機處理資料之一個優點係事件偵測所需之處理能力減少,此乃因所處理之資料量遠低於針對表示影像之像素資料之情況。此外,由於攝影機處理資料可很大程度上取決於動作視訊攝影機之周圍環境及動作視訊攝影機之安裝方式(例如,自高處往下看、自地面低處往上看、在一人之肩部高度處、沿場景中之移動之行進方向、正交於場景中之移動之行進方向、用於交通監控、用於追蹤人移動、在一廣場中、在一停車場中、在一車庫中、在一店鋪中、在一購物中心中、在道路兩側等),因此來自長期識別程序之結果之品質因經提供用於暫時識別程序中之動作視訊攝影機之獨特訓練而顯著增加。因此,藉助於針對一特定位置處之特定動作視訊攝影機之獨特訓練使得達成經減少資料量之使用。因此,初始及獨特訓練與然後基於訓練及低資料速率攝影機處理資料之事件識別的兩步驟程序組合為以低處理能力要求實現事件偵測之結果。因此,事件識別亦可由具有有限運算資源之一監測攝影機使用。 此外,在某些實施例中,在動作視訊攝影機初始設置時啟動暫時識別程序,且在此等實施例或某些其他實施例中,在請求後旋即啟動該暫時識別程序。因此,使用攝影機處理資料對事件偵測操作進行之訓練可係針對攝影機之環境之獨特訓練且若移動至一不同環境則重新訓練。用於啟動該暫時識別程序之該請求可係由一使用者輸入至該動作視訊攝影機之一指令。 在又進一步實施例中,藉由經由一網路連接至該動作視訊攝影機之一裝置來執行該暫時識別程序。此實施例之優點係可在相對於具有低運算或處理容量之一動作視訊攝影機具有高運算或處理容量之一裝置上執行對暫時識別程序之訓練。 在某些實施例中,在該暫時識別程序期間將屬於該事件識別操作之該等權重儲存於經由一網路連接至該動作視訊攝影機之一裝置中。在此等實施例中之某些實施例中,經由該網路將屬於該事件識別操作之該等權重傳送至該動作視訊攝影機。 在進一步實施例中,在該長期識別程序中在該動作視訊攝影機中執行使用攝影機處理資料作為輸入之該事件識別操作之該等權重及程式碼。此實施例之優點係事件識別程序使得可能僅在一事件被識別時才使動作視訊攝影機成為網路負載。因此,當不存在事件(例如不再需要發送資料)時可減少網路負載,且當偵測到一事件時網路負載亦可減少,此乃因僅需要發送一有限資料量以便識別已發生之彼一事件。 某些實施例進一步包括回應於該長期識別程序中之一失敗事件識別而重新啟動該暫時識別程序。 在某些實施例中,對屬於經配置以使用經登記攝影機處理資料作為輸入之一事件識別操作之該等權重之該調整係一神經網路訓練工作階段之一部分。 在其他實施例中,由一神經網路執行該事件識別操作。 根據本發明之另一態樣,一種包含經配置以經由一通信網路進行通信之一動作視訊攝影機及一處理裝置之系統經配置以執行如上文之實施例中之任何實施例之方法。關於上文之實施例呈現之優點適用於與系統有關之對應實施例。 在某些實施例中,該處理裝置經配置以執行暫時識別程序。在其他實施例中,該動作視訊攝影機經配置以執行該長期識別程序。在又其他實施例中,該處理裝置經配置以執行該長期識別程序。依據下文所給出之詳細說明,本發明之適用性之一進一步範疇將變得顯而易見。然而,應理解,雖然詳細說明及特定實例指示本發明之較佳實施例,但其僅以圖解說明之方式給出,此乃因熟習此項技術者依據此詳細說明將明瞭本發明之範疇內之各種改變及修改。因此,應理解,本發明並不限於所闡述裝置之特定組件部分或所闡述方法之步驟,乃因此裝置及方法可變化。亦應理解,本文中所使用之術語僅係出於闡述特定實施例之目的,且並非意欲係限制性的。必須注意,如說明書及隨附申請專利範圍中所使用,除非內容脈絡另外明確指示,否則冠詞「一(a)」、「一(an)」、「該(the)」及「該(said)」意欲意指存在元件中之一或多者。因此,舉例而言,對「一感測器」或「該感測器」之提及可包含數個感測器及諸如此類。此外,措辭「包括(comprising)」並不排除其他元件或步驟。
本發明係關於在動作視訊中之事件之偵測。根據一項實施例,一事件之偵測及識別係基於攝影機處理資料而非直接影像資料。攝影機處理資料舉例而言可係:指示由一攝影機擷取之一經編碼視訊串流之資料速率之一值;與其餘經登記攝影機處理資料有關之時間點;指示一自動對焦距離之一值;指示一自動白色平衡功能之設定之一值、與例如光圈;快門時間、增益、電子影像穩定化資料等自動曝光設定有關之值;一信號雜訊比值;指示所擷取圖框中之對比度之一值;指示發送至網路之資料速率之一值;指示CPU使用之一值、指示記憶體使用之一值;來自一陀螺儀或一加速度計之資料;來自連接至攝影機之一PTZ頭部之位置資料;來自一雷達感測器之資料;來自一PIR感測器之資料等。另一選擇係或除上文所提及之外,攝影機處理資料可由上文所提及之值之序列(亦即一曝光曲線、表示資料速率在一時間週期內之變化之曲線、表示由自動對焦指示之距離之變化之曲線等)形成。另外,來自實施於攝影機之影像處理中之特定影像編碼方案之各種值(最終值及或中間值兩者)可表示攝影機處理資料。如自上文之攝影機處理資料之實例顯而易見,在使用攝影機處理資料代替表示一整個圖框之影像像素資料之情況下用以處理之資料之量可顯著減少。 為促進用於使用攝影機處理資料來偵測事件之程序之設計,訓練經設計以用於分類之一神經網路以使用攝影機處理資料作為輸入來偵測事件。此等神經網路之實例係經設計以用於分類之神經網路、經設計以用於分類之廻旋神經網路、回歸神經網路、遞歸神經網路、深度信任網路、波茲曼機(Boltzmann machine)等。 訓練待在各種攝影機中用作事件偵測器之一個一般分類神經網路或基於一處理之一個問題係某些資料並非在所有攝影機皆係可用的且某些資料可在不同攝影機之間顯著變化。不同攝影機之間的變化之一個原因在於該等攝影機被安裝於不同環境中、處於不同視同視角、處於不同光條件下等及/或在於該等攝影機係不同攝影機。 根據本發明之一實施例,藉由實施一個兩步驟事件偵測程序來解決此問題。在一初始暫時識別程序期間,使用一眾所周知之事件識別程序來基於所擷取圖框中之像素資訊識別在所擷取影像圖框中之事件,亦即分析在一系列影像圖框中擷取之像素資料以便識別在所擷取場景中發生之事件。同時,在此暫時識別程序中登記各種攝影機處理資料之一集合。使用經登記攝影機處理資料作為輸入來訓練神經網路以達成與在基於像素資料識別事件之程序中所識別相同之經識別事件。當神經網路已達到一可接受置信位準或當一操作者命令程序停止時,此暫時識別程序結束。當暫時識別程序已停止時,在長期識別程序中由接收攝影機處理資料作為輸入之經訓練神經網路進行事件識別。 根據本發明之某些實施例,如圖1之流程圖中所闡述執行事件識別程序。用於識別事件之該方法以暫時識別程序102開始,其中藉由對一所擷取場景之一個影像圖框或一系列所擷取影像圖框之像素資料進行操作來識別在該場景中之一事件(步驟104)。此外,登記攝影機處理資料,該攝影機處理資料與對應於用於識別事件之一或多個所擷取圖框之時間週期有關(步驟106)。然後,將經登記攝影機處理資料用作訓練一基於神經網路之事件識別操作之輸入且將自基於像素之事件識別符操作識別之事件用作對由經登記攝影機處理資料之此輸入導致之一事件之正確分類(步驟108)。訓練操作可包含調整神經網路之節點中之權重。該等權重經調整使得由攝影機處理資料之輸入導致之分類接近於由基於像素之事件識別操作識別之分類。然後程序繼續檢查暫時識別程序之一預定義時間週期是否結束(步驟110)。若暫時識別程序之時間週期未結束,則程序返回至步驟104且在暫時識別程序中繼續。若暫時識別程序之時間週期已結束,則程序藉由擷取下一影像圖框而在長期識別程序中繼續(步驟114),且登記與影像圖框之擷取之時間週期有關之攝影機處理資料(步驟116)。然後將與所擷取影像圖框之時間週期有關之攝影機處理資料作為輸入發送至基於神經網路之事件識別操作(步驟118)。另一選擇係或另外,至基於神經網路之事件識別操作之輸入可包含與比一個影像圖框之時間週期長之一時間週期有關之攝影機處理資料,例如包含在一較長時間週期內擴展之攝影機處理資料之較多樣本。然後程序檢查對新增訓練之一請求是否已被接收(步驟120)。若對新增訓練之一請求還未被接收,則藉由返回程序114而繼續長期識別程序112。若對新增訓練之一請求已被接收,則程序返回至暫時識別程序之步驟104。 舉例而言,所實施神經網路可係一回歸神經網路(RNN)且用於此RNN之學習演算法可係諸如後向傳播或接合體梯度(conjugant gradient)之一學習演算法。攝影機處理資料可被視為一時間序列且最初經訓練且稍後經處理以用於分類事件。RNN之現有實施方案中之諸多實施方案能夠處理單變量時間序列及/或多變量時間序列,亦即RNN能夠處理一系列向量,其中向量含有一個分量及/或多個分量。舉例而言,處理一單變量時間序列可係處理指示一經編碼視訊串流之資料速率之一系列值。處理一多變量時間序列之一實例則可係處理一系列向量,其中每一向量包含指示一經編碼視訊串流之資料速率之一值及指示白色平衡之一值。攝影機處理資料之任何組合皆係可能的且該等組合不應限於組合僅兩個不同資料類型而是可極好地組合複數個資料類型。所闡述之方法亦可用於並非時間序列之資料上且在此等情形中該方法可使用適合於彼特定分類操作之一神經網路。 現在參考圖2,根據本發明之實施例之一系統包括經由一通信網路214 (下文中稱為網路214)彼此連接之一動作視訊攝影機210及一處理裝置212。舉例而言,處理裝置212可係一PC、一工作站、一伺服器或能夠處理資料之任何其他類型之網路可連接裝置。網路214可係任何類型之網路,例如乙太網路、Wi-Fi、LAN、WAN、網際網路、蜂巢式連接、公共交換電話網路等。該兩個識別程序(暫時識別程序102及長期識別程序112)可經配置以在該兩個裝置(亦即動作視訊攝影機210及處理裝置212)中之一者中執行。在動作視訊攝影機具有大量備用處理能力之情形中,該動作視訊攝影機可執行兩個程序。在其中就處理能力而論動作視訊攝影機在其容量上極其受限之實施例中,則可在處理裝置212中執行兩個程序,該處理裝置然後自動作視訊攝影機接收資料以對該動作視訊攝影機進行操作。在此情形中,使用本發明之程序之益處在於,當事件識別程序已切換為暫時識別程序時網路負載可減少,此乃因長期識別程序不需要任何影像資料,因此在彼階段不必由攝影機傳輸此資料。 在另一情景中,暫時識別程序(其係包含神經網路之學習階段及對整個影像圖框之分析之程序)因此係兩個識別程序中最需要處理之識別程序且因此經配置以在處理裝置212中執行。而長期識別程序則係在動作視訊攝影機中執行,此乃因此程序需要更少處理,且則由攝影機傳輸至網路上之資料之量可減少很多,特定而言在長期識別程序中此乃因只要未偵測到事件動作攝影機便可避免發送資料。 總之,動作視訊攝影機包含一透鏡216、一影像感測器218、一影像處理單元220,其以組合形式經配置以在攝影機視場之場景中擷取光且由彼光產生數位影像資料。在諸多動作視訊攝影機中,所擷取數位影像資料之壓縮及編碼係在影像處理裝置中執行。此外,動作視訊攝影機210包含一中央處理單元222,該中央處理單元經配置以執行與動作攝影機裝置之較一般功能有關之程式。中央處理單元222通常不涉及影像處理,此乃因此等操作係由影像處理裝置處理。動作視訊攝影機亦包含一揮發性記憶體224及一非揮發性記憶體226,其中揮發性記憶體224主要用作在由一處理裝置執行期間用於暫時儲存資料及/或程式碼之一工作記憶體且其中非揮發性記憶體226經配置以用於儲存將長期儲存於動作攝影機中之資料及程式碼。此外,動作視訊攝影機210包含一攝影機處理資料登記模組228、一事件識別操作模組230及一網路介面232。攝影機處理資料登記模組228經配置以自動作視訊攝影機中之各種實體及/或邏輯介面檢索或接收攝影機處理資料。舉例而言,可自影像處理器220或自網路介面232檢索所產生影像串流之當前資料速率,可自至攝影機中之一溫度感測器之一介面接收一溫度等。事件識別操作模組230可不存在於動作視訊攝影機210中直至可在處理裝置212上運行之暫時識別程序已完成調整經配置以使用經登記攝影機處理資料之事件識別操作(例如使用攝影機處理資料作為輸入來進行操作之神經網路)為止。網路介面232可係用於將攝影機連接至網路214之任何已知類型之網路介面。 處理裝置212亦包含一網路介面234、一非揮發性記憶體236、一揮發性記憶體238及一中央處理單元240。網路介面234經配置以將處理裝置連接至網路且可以任何已知方式實施以便達成經由網路214至動作視訊攝影機210之網路通信。中央處理單元240、揮發性記憶體238及非揮發性記憶體236經配置以執行程式碼、儲存暫時資料及/或程式碼並且儲存長期資料及/或程式碼。此外,處理裝置212包含一基於像素之事件識別操作模組242及一事件識別操作訓練模組244。基於像素之事件識別操作模組242及事件識別操作訓練模組244可實施為藉由中央處理單元240儲存於處理裝置212且在處理裝置212中執行之程式碼。 基於像素之事件操作可包含一個或複數個眾所周知之事件識別操作,該一個或複數個事件識別操作藉由分析影像圖框中之像素及像素之特性而一次在一個影像圖框上操作或一次在一系列影像圖框上操作。該等影像圖框係由動作視訊攝影機擷取之影像圖框,且在其中暫時程序係在處理裝置212中執行之系統中此等所擷取影像圖框被經由網路發送至處理裝置212。基於像素之事件識別操作之實例係:到達場景中之運載工具、到達場景中之運載工具之類型、到達場景中之運載工具之速度、到達場景中之運載工具之數目等。基於像素之事件識別操作亦可或替代地係關於到達場景中之人、到達一場景中之動物、到達場景中之一特定物件等,亦包含上文之運載工具所呈現之變化形式。此外,基於像素之事件識別操作可包含識別場景中發生之彼動作、遊蕩、大群人聚集、交通堵塞、降雪、降雨、煙霧、由於外殼上之污物而導致之劣化影像,離焦之透鏡、異常情況等。 在圖2中所繪示之系統中,其中暫時程序在處理裝置中執行,攝影機傳輸(至少在暫時程序之執行期間)包含所擷取場景之影像圖框及與動作視訊攝影機及/或設置相關之攝影機處理資料之一視訊串流。選擇對哪種類型之攝影機處理資料進行操作受各種攝影機處理資料在特定攝影機中之可用性限制,參見上文之實例。此外,攝影機處理資料之類型可進一步受限。然而,由於表示一特定攝影機之攝影機處理資料之整個可用資料集可能相對較小,因此可經常使用該整個集合。表示事件識別操作的神經網路之訓練係藉由使用基於像素之事件識別操作作為觸發一訓練輸入而執行,亦即當藉由基於像素之事件識別操作來識別一事件時,訓練神經網路之程序將表示對訓練程序進行識別之前之一時間週期的攝影機處理資料配置為輸入且調整神經網路在訓練程序中之權重以便使神經網路更可能將所輸入攝影機處理資料識別為與由基於像素之事件識別操作所偵測之事件相同之事件。 對系統之額外訓練可如上文所闡述經起始且相應地包含暫時識別程序之一重新啟動。另外或另一選擇係,可回應於分類一事件且導致由事件識別操作針對特定分類而產生之一置信值低於一預定臨限值之事件識別操作而起始對經配置以使用攝影機處理資料作為輸入之事件識別操作的進一步訓練或改良。置信值愈低分類愈不確定。此進一步訓練將藉由檢索像素資料及與包含獲得低置信分類之事件之時間點之一時間週期有關的攝影機處理資料而開始。然後此等資料集將被藉由訓練操作(亦即藉由基於像素之事件識別操作及調整事件識別操作之權重之程序)處理以便改良事件識別操作。然後經改良事件識別操作經配置以替換先前事件識別操作。 如稍前所提及,基於攝影機處理資料來識別事件之優點有諸多。為促進對此等優點之理解,本發明下文將更詳細地闡述使用經時間壓縮視訊之影像串流資料速率作為攝影機處理資料。影像串流資料速率係表示由正擷取其中期望事件偵測之場景之動作視訊之攝影機210之影像處理裝置220中之一時間壓縮視訊編碼器產生之資料量的一量測。由編碼器產生之資料量取決於所連續擷取影像圖框之間的改變量。舉例而言,具有基本上未移動物件之一場景之一影像序列將導致比大量移動之場景之一影像序列少之經編碼資料。因此編碼步驟之後的資料量很大程度上取決於所連續擷取影像中之變化。此亦可闡述為由編碼器產生之經編碼影像資料之量取決於受場景中之移動影響之影像感測器上之像素之數目。舉例而言,與遠離攝影機之物件或一小物件相比,接近於攝影機之一物件或場景中之一大物件將對影像感測器上之更多像素具有一影響。因此,資料量係影像資訊之時間壓縮之一效應。 根據本發明之實施例,複數個資料速率(表示包含所監測場景之動作視訊之一資料串流中之每單位時間之資料量)經量測且循序經登記並且包含於攝影機處理資料中。藉此登記表示資料速率隨時間之變化之一資料集。可自系統中之各種地方量測或檢索資料速率。舉例而言,可在以下各處量測或檢索資料速率:攝影機210之影像處理裝置220中之編碼器處、攝影機之網路介面232處、網路214中之一切換器或一路由器處或連接至網路214之一處理裝置212中之一網路介面234或一解碼器處。可直接針對表示影像串流之一串流量測資料速率,但亦可藉由量測傳輸動作視訊之網路封包之資料速率來量測。熟習此項技術者眾所周知量測一資料串流或任何資料傳輸之資料速率之程序。特定而言與表示一動作視訊串流所需要之資料相比,表示隨時間變化之資料速率之資料集可使用一極低資料量來表示。舉例而言,考量在表示資料速率隨時間之變化之資料集中包含一值或一資料項目,該值或該資料項目表示在表示影像串流中之每一影像時使用之資料量。若攝影機係一個千萬像素攝影機,則使用任何標準編碼器經圖框內編碼(亦即經空間編碼)之一圖框之大小將係約2.5 MB。即使使用一無損編碼方案經編碼之一個千萬像素圖框亦將不具有比10 MB大很多之一大小。為登記表示0 MB至10 MB之間的每個大小之一值或一資料項目,將僅需要三個位元組,此乃因三個位元組將能夠表示超過1600萬個值。在資料速率之解析度並不同樣重要之情形中,甚至可能使用兩個或一個位元組來表示資料速率。無論如何,表示資料集中之資料速率所需之資料可容易地比用於表示一個內圖框之資料小幾乎百萬倍。在串流視訊中,每圖框使用之資料當然將會較小,此乃因圖框間係經時間編碼的。然而,所使用之資料集可不需要包含每個圖框之大小而是可表示在一預定時間週期內之所累積資料量。在一項實施例中,一圖框大小登記為資料速率之一表示。圖框大小指示編碼一圖框所需要之資料量。使用4個位元組(32個位元)登記圖框大小且針對每一圖框登記圖框大小。以每秒30個圖框擷取圖框,且相應地由本發明使用用於偵測事件之資料在此實施例中可係0.12 Kb/s。此比一正常動作視訊串流之資料速率6000 Kb/s低得多。 因此,當根據本發明之一系統已切換成長期識別程序時,為了偵測一事件所需之資料量之急劇減少將顯著影響事件識別操作相對於基於像素之事件偵測操作之處理能力要求。即使事件識別操作經設計具有額外資訊類型作為輸入(如上文所提及),但此等所新增資料集相對於表示一影像圖框或一系列影像圖框所需要之資料量仍將係極小的。
210‧‧‧動作視訊攝影機/攝影機
212‧‧‧處理裝置
214‧‧‧通信網路/網路
216‧‧‧透鏡
218‧‧‧影像感測器
220‧‧‧影像處理單元/影像處理器/影像處理裝置
222‧‧‧中央處理單元
224‧‧‧揮發性記憶體
226‧‧‧非揮發性記憶體
228‧‧‧攝影機處理資料登記模組
230‧‧‧事件識別操作模組
232‧‧‧網路介面
234‧‧‧網路介面
236‧‧‧非揮發性記憶體
238‧‧‧揮發性記憶體
240‧‧‧中央處理單元
242‧‧‧基於像素之事件識別操作模組
244‧‧‧事件識別操作訓練模組
212‧‧‧處理裝置
214‧‧‧通信網路/網路
216‧‧‧透鏡
218‧‧‧影像感測器
220‧‧‧影像處理單元/影像處理器/影像處理裝置
222‧‧‧中央處理單元
224‧‧‧揮發性記憶體
226‧‧‧非揮發性記憶體
228‧‧‧攝影機處理資料登記模組
230‧‧‧事件識別操作模組
232‧‧‧網路介面
234‧‧‧網路介面
236‧‧‧非揮發性記憶體
238‧‧‧揮發性記憶體
240‧‧‧中央處理單元
242‧‧‧基於像素之事件識別操作模組
244‧‧‧事件識別操作訓練模組
參考隨附圖式,依據以下對一當前較佳實施例之詳細說明,本發明之其他特徵及優點將變得顯而易見,在該等隨附圖式中: 圖1係本發明之實施例之一程序之一流程圖。 圖2係實施本發明之實施例之一系統之一示意性方塊圖。 此外,在該等圖中,相同元件符號貫穿數個圖皆標示相同或對應部件。
Claims (13)
- 一種用於識別在由一動作視訊攝影機擷取之一場景中之事件之方法,該方法包括兩個識別程序,一暫時識別程序及一長期識別程序; 該暫時識別程序包含: 藉由分析來自所擷取影像圖框之像素資料來識別在該所擷取場景中之事件; 登記攝影機處理資料,該攝影機處理資料與經受該基於像素資料之事件識別的該等影像圖框之該擷取之時間週期有關,其中該攝影機處理資料包括以下各項中之一或多者:指示由一攝影機擷取之一經編碼視訊串流之資料速率之一值;指示一自動對焦距離之一值;指示一自動白色平衡功能之設定之一值;與例如光圈、快門時間、增益、電子影像穩定化資料等自動曝光設定有關之值;一信號雜訊比值;指示該所擷取圖框之對比度之一值;指示發送至網路之資料速率之一值;指示CPU使用之一值;指示記憶體使用之一值;來自一陀螺儀或一加速度計之資料;來自連接至該攝影機之一PTZ頭部之位置資料;來自一雷達感測器之資料及來自一PIR感測器之資料;及 藉由以下操作來使用該經登記攝影機處理資料訓練一基於神經網路之事件識別操作,該經登記攝影機處理資料與經受對在該所擷取場景中之事件之該識別的該等影像圖框之該擷取之該等時間週期有關:將來自所擷取影像圖框之像素資料作為輸入及將該等經識別事件作為由該基於神經網路之事件識別操作導致之一事件之正確分類來進行分析;且 該長期識別程序包含: 登記攝影機處理資料,該攝影機處理資料與在用於像素資料之該分析之該等影像圖框之後被擷取之影像圖框之擷取時間週期有關;及 藉由將該經登記攝影機處理資料輸入至該經訓練之基於神經網路之事件識別操作來識別在該所擷取場景中之事件,該經登記攝影機處理資料與在用於像素資料之該分析之該等影像圖框之後被擷取之影像圖框之該等擷取時間週期有關; 其中在一預定時間週期期間執行該暫時識別程序,且其中在該預定時間週期已期滿之後執行該長期識別程序。
- 如請求項1之方法,其中對該基於神經網路之事件識別操作之該訓練包括調整屬於該基於神經網路之事件識別操作之節點之權重,其中該基於神經網路之事件識別操作之該等節點之該等權重經調整使得由該基於神經網路之事件識別操作導致之一事件之一分類接近於藉由對來自該等所擷取影像圖框之像素資料進行之該分析而識別之一事件之一分類。
- 如請求項1之方法,其中在請求後旋即啟動該暫時識別程序。
- 如請求項3之方法,其中該請求係由一使用者輸入至該動作視訊攝影機之一指令。
- 如請求項1之方法,其中藉由經由一網路連接至該動作視訊攝影機之一裝置來執行該暫時識別程序。
- 如請求項2之方法,其中在該暫時識別程序期間將該等權重儲存於經由一網路連接至該動作視訊攝影機之一裝置中。
- 如請求項6之方法,其中經由該網路將該等權重傳送至該動作視訊攝影機。
- 如請求項2之方法,其中在該長期識別程序中在該動作視訊攝影機中執行該基於神經網路之事件識別操作之該等權重及程式碼。
- 如請求項1之方法,其進一步包括回應於在該長期識別程序中由該基於神經網路之事件識別產生之一置信值低於一預定臨限值而重新啟動該暫時識別程序。
- 一種包含一動作視訊攝影機及一處理裝置之系統,該動作視訊攝影機及該處理裝置經配置以經由一通信網路進行通信,其中該系統經配置以執行如請求項1之方法。
- 如請求項10之系統,其中該處理裝置經配置以執行暫時識別程序。
- 如請求項10之系統,其中該動作視訊攝影機經配置以執行長期識別程序。
- 如請求項10之系統,其中該處理裝置經配置以執行該長期識別程序。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16205865.5A EP3340103A1 (en) | 2016-12-21 | 2016-12-21 | Method for identifying events in a motion video |
EP16205865.5 | 2016-12-21 | ||
??16205865.5 | 2016-12-21 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201824085A true TW201824085A (zh) | 2018-07-01 |
TWI713794B TWI713794B (zh) | 2020-12-21 |
Family
ID=57755011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106136281A TWI713794B (zh) | 2016-12-21 | 2017-10-23 | 用於識別在動作視訊中之事件的方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10824872B2 (zh) |
EP (1) | EP3340103A1 (zh) |
JP (1) | JP6875262B2 (zh) |
KR (1) | KR102264202B1 (zh) |
CN (1) | CN108229333B (zh) |
TW (1) | TWI713794B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11482256B2 (en) * | 2017-01-16 | 2022-10-25 | Zhejiang Dahua Technology Co., Ltd. | Systems and methods for video replaying |
US10354169B1 (en) * | 2017-12-22 | 2019-07-16 | Motorola Solutions, Inc. | Method, device, and system for adaptive training of machine learning models via detected in-field contextual sensor events and associated located and retrieved digital audio and/or video imaging |
CN110769279B (zh) * | 2018-07-27 | 2023-04-07 | 北京京东尚科信息技术有限公司 | 视频处理方法和装置 |
KR102134902B1 (ko) * | 2018-11-15 | 2020-07-17 | (주)지와이네트웍스 | 딥러닝 기반 음영영상의 시공간적 특성 분석을 활용한 폭력검출 프레임워킹 방법 |
CN109697815A (zh) * | 2019-01-24 | 2019-04-30 | 广州市天河区保安服务公司 | 防盗通讯网络报警方法、装置设备及存储介质 |
CN110274590B (zh) * | 2019-07-08 | 2022-10-28 | 哈尔滨工业大学 | 一种基于决策树的暴力动作检测方法及系统 |
WO2021033251A1 (ja) * | 2019-08-20 | 2021-02-25 | 株式会社ソニー・インタラクティブエンタテインメント | 画像処理装置、画像処理方法およびプログラム |
EP3800581A1 (en) | 2019-10-03 | 2021-04-07 | Axis AB | A method and apparatus for generating an object classification for an object |
CN110749974B (zh) * | 2019-11-04 | 2021-06-01 | 中南大学 | 全载玻片成像扫描仪的自动聚焦方法及其图像获取方法 |
EP3905659B1 (en) * | 2020-04-28 | 2022-06-01 | Axis AB | Statistics-based electronics image stabilization |
CN111757175A (zh) * | 2020-06-08 | 2020-10-09 | 维沃移动通信有限公司 | 视频处理方法及装置 |
US11789542B2 (en) * | 2020-10-21 | 2023-10-17 | International Business Machines Corporation | Sensor agnostic gesture detection |
CN115119044B (zh) * | 2021-03-18 | 2024-01-05 | 阿里巴巴新加坡控股有限公司 | 视频处理方法、设备、系统及计算机存储介质 |
CN113537071B (zh) * | 2021-07-19 | 2023-08-11 | 深圳龙岗智能视听研究院 | 一种基于事件相机的静态和动态目标检测方法及设备 |
CN116402811B (zh) * | 2023-06-05 | 2023-08-18 | 长沙海信智能系统研究院有限公司 | 一种打架斗殴行为识别方法及电子设备 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7481453B2 (en) * | 1991-07-09 | 2009-01-27 | Automotive Technologies International, Inc. | Inflator system |
ITRM20010045A1 (it) * | 2001-01-29 | 2002-07-29 | Consiglio Nazionale Ricerche | Sistema e metodo per la rilevazione della posizione relativa di un oggetto rispetto ad un punto di riferimento. |
US8948468B2 (en) * | 2003-06-26 | 2015-02-03 | Fotonation Limited | Modification of viewing parameters for digital images using face detection information |
CN101551732A (zh) * | 2009-03-24 | 2009-10-07 | 上海水晶石信息技术有限公司 | 带有交互功能的增强现实的方法及其系统 |
EP2407943B1 (en) * | 2010-07-16 | 2016-09-28 | Axis AB | Method for event initiated video capturing and a video camera for capture event initiated video |
US8918344B2 (en) * | 2011-05-11 | 2014-12-23 | Ari M. Frank | Habituation-compensated library of affective response |
GB2493956A (en) * | 2011-08-24 | 2013-02-27 | Inview Technology Ltd | Recommending audio-visual content based on user's personal preerences and the profiles of others |
CN102982336B (zh) * | 2011-09-02 | 2015-11-25 | 株式会社理光 | 识别模型生成方法和系统 |
CN102568026B (zh) * | 2011-12-12 | 2014-01-29 | 浙江大学 | 一种多视点自由立体显示的三维增强现实方法 |
EP2995079A4 (en) * | 2013-05-10 | 2017-08-23 | Robert Bosch GmbH | System and method for object and event identification using multiple cameras |
US9405377B2 (en) * | 2014-03-15 | 2016-08-02 | Microsoft Technology Licensing, Llc | Trainable sensor-based gesture recognition |
JP6471934B2 (ja) * | 2014-06-12 | 2019-02-20 | パナソニックIpマネジメント株式会社 | 画像認識方法、カメラシステム |
US9928708B2 (en) * | 2014-12-12 | 2018-03-27 | Hawxeye, Inc. | Real-time video analysis for security surveillance |
US10846589B2 (en) * | 2015-03-12 | 2020-11-24 | William Marsh Rice University | Automated compilation of probabilistic task description into executable neural network specification |
AU2015207945A1 (en) * | 2015-07-31 | 2017-02-16 | Canon Kabushiki Kaisha | Method for training an artificial neural network |
US20170161555A1 (en) * | 2015-12-04 | 2017-06-08 | Pilot Ai Labs, Inc. | System and method for improved virtual reality user interaction utilizing deep-learning |
US20170161607A1 (en) * | 2015-12-04 | 2017-06-08 | Pilot Ai Labs, Inc. | System and method for improved gesture recognition using neural networks |
US10242266B2 (en) * | 2016-03-02 | 2019-03-26 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for detecting actions in videos |
US20170311095A1 (en) * | 2016-04-20 | 2017-10-26 | Starkey Laboratories, Inc. | Neural network-driven feedback cancellation |
US10019629B2 (en) * | 2016-05-31 | 2018-07-10 | Microsoft Technology Licensing, Llc | Skeleton-based action detection using recurrent neural network |
US10427645B2 (en) * | 2016-10-06 | 2019-10-01 | Ford Global Technologies, Llc | Multi-sensor precipitation-classification apparatus and method |
US10606885B2 (en) * | 2016-11-15 | 2020-03-31 | Evolv Technology Solutions, Inc. | Data object creation and recommendation using machine learning based online evolution |
-
2016
- 2016-12-21 EP EP16205865.5A patent/EP3340103A1/en not_active Ceased
-
2017
- 2017-10-23 TW TW106136281A patent/TWI713794B/zh active
- 2017-12-01 JP JP2017231462A patent/JP6875262B2/ja active Active
- 2017-12-11 CN CN201711306265.4A patent/CN108229333B/zh active Active
- 2017-12-15 KR KR1020170173401A patent/KR102264202B1/ko active IP Right Grant
- 2017-12-21 US US15/851,028 patent/US10824872B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US10824872B2 (en) | 2020-11-03 |
CN108229333B (zh) | 2023-04-07 |
CN108229333A (zh) | 2018-06-29 |
EP3340103A1 (en) | 2018-06-27 |
KR20180072563A (ko) | 2018-06-29 |
TWI713794B (zh) | 2020-12-21 |
JP6875262B2 (ja) | 2021-05-19 |
JP2018142299A (ja) | 2018-09-13 |
KR102264202B1 (ko) | 2021-06-11 |
US20180173956A1 (en) | 2018-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI713794B (zh) | 用於識別在動作視訊中之事件的方法 | |
TWI706377B (zh) | 在視訊序列中的動作辨識 | |
US10986338B2 (en) | Thermal-image based video compression systems and methods | |
CN109922251B (zh) | 快速抓拍的方法、装置及系统 | |
JP4629090B2 (ja) | カメラ・タンパリング検出 | |
JP2018142299A5 (zh) | ||
US9521377B2 (en) | Motion detection method and device using the same | |
CN108337534B (zh) | 视频管理系统和视频管理方法 | |
TWI767950B (zh) | 用於偵測事件之方法及設備 | |
JP6809114B2 (ja) | 情報処理装置、画像処理システム、プログラム | |
KR102183903B1 (ko) | 감시 카메라 및 감시 카메라 제어 방법 | |
JPH09252467A (ja) | 移動体検出装置 | |
Yuwono et al. | Design and implementation of human detection feature on surveillance embedded IP camera | |
KR20200041350A (ko) | 대기 강수가 발생하고 있는 환경의 디지털 이미지를 통한 대기 강수율의 실시간 계산 | |
KR102077632B1 (ko) | 로컬 영상분석과 클라우드 서비스를 활용하는 하이브리드 지능형 침입감시 시스템 | |
WO2022156763A1 (zh) | 目标对象检测方法及其设备 | |
KR102552071B1 (ko) | 감시용 카메라에 의해 촬영되는 영상을 네트워크를 통해 관리자단말에 전송하는 촬영영상 전송장치 및 그 촬영영상 전송방법 | |
US20220239826A1 (en) | Network surveillance camera system and method for operating same | |
JP7085925B2 (ja) | 情報登録装置、情報処理装置、情報登録装置の制御方法、情報処理装置の制御方法、システム、及びプログラム | |
TWI545945B (zh) | Image tampering detection method and system | |
KR20200139612A (ko) | 네트워크 감시 카메라 시스템 및 그 동작 방법 | |
KR20230069735A (ko) | 디지털 이미지 안정화를 위한 이미지 처리 장치 및 방법 | |
Chong et al. | Distributed human detection on mobile platform |