KR20180072563A - 모션 비디오 내의 이벤트들을 식별하기 위한 방법 - Google Patents

모션 비디오 내의 이벤트들을 식별하기 위한 방법 Download PDF

Info

Publication number
KR20180072563A
KR20180072563A KR1020170173401A KR20170173401A KR20180072563A KR 20180072563 A KR20180072563 A KR 20180072563A KR 1020170173401 A KR1020170173401 A KR 1020170173401A KR 20170173401 A KR20170173401 A KR 20170173401A KR 20180072563 A KR20180072563 A KR 20180072563A
Authority
KR
South Korea
Prior art keywords
data
camera
identification process
captured
motion video
Prior art date
Application number
KR1020170173401A
Other languages
English (en)
Other versions
KR102264202B1 (ko
Inventor
빅토르 에드팜
에릭 앤더슨
송 위안
Original Assignee
엑시스 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엑시스 에이비 filed Critical 엑시스 에이비
Publication of KR20180072563A publication Critical patent/KR20180072563A/ko
Application granted granted Critical
Publication of KR102264202B1 publication Critical patent/KR102264202B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • G08B13/196Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
    • G08B13/19602Image analysis to detect motion of the intruder, e.g. by frame subtraction
    • G08B13/19606Discriminating between target movement or movement in an area of interest and other non-signicative movements, e.g. target movements induced by camera shake or movements of pets, falling leaves, rotating fan
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • G06K9/00711
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)
  • Alarm Systems (AREA)

Abstract

본 발명은 모션 비디오 카메라에 의해 캡처된 장면 내에서 이벤트들을 식별하기 위한 방법에 관한 것이다. 이러한 방법은 2개의 식별 프로세스들을 포함하며, 여기서 2개의 식별 프로세스들은 단기간 식별 프로세스 및 장기간 식별 프로세스이다. 단기간 식별 프로세스는: 캡처된 이미지 프레임들로부터의 픽셀 데이터를 분석함으로써, 캡처된 장면 내에서 이벤트들을 식별하는 것; 이벤트들을 식별할 때 사용되는 각각의 이미지 프레임과 관련된 카메라 프로세싱 데이터를 등록하는 것; 그리고 등록된 카메라 프로세싱 데이터를 입력으로서 사용하도록 되어 있는 이벤트 식별 동작에 속하는 가중치들을 조정하는 것을 포함하고, 여기서 가중치들은, 이벤트 식별 동작으로부터의 결과와 캡처된 장면의 캡처된 이미지 프레임들로부터의 픽셀들을 분석하는 것에 근거하는 식별로부터의 결과 간에 높은 상관관계가 달성되도록 조정된다. 장기간 식별 프로세스는: 등록된 카메라 프로세싱 데이터를 이벤트 식별 동작에 입력함으로써, 캡처된 장면 내에서 이벤트들을 식별하는 것을 포함한다. 이 경우 단기간 식별 프로세스는 미리결정된 기간 동안 실행되고, 이러한 미리결정된 초기 시간이 만료된 이후 장기간 식별 프로세스가 실행된다.

Description

모션 비디오 내의 이벤트들을 식별하기 위한 방법{METHOD FOR IDENTIFYING EVENTS IN A MOTION VIDEO}
본 발명은 모션 비디오(motion video) 내에서 이벤트(event)들을 식별하기 위한 프로세스(process) 및 디바이스(device)들에 관한 것이다.
오늘날의 감시 및/또는 모니터링 시스템(surveillance and/or monitoring)들은 움직임(movement), 침입(intrusion), 폭동(violence), 어슬렁 거림(loitering), 남겨진 물품들(left behind items), 등과 같은 이벤트들을 검출하도록 여러 번 정렬된다. 시스템들로 하여금 모니터링되는 장면(scene)들 내에서 일어나는 이벤트들을 검출 및 인식하도록 함으로써, 다수의 동시에 검사되는 장면들을 갖는 시스템 내에서의 모니터링을 위해 더 적은 인력(manpower)이 요구될 것이기 때문에 이러한 타입의 감시 및/또는 모니터링 시스템들의 동작은 도움을 주고 있다. 하지만, 시스템으로 하여금 이벤트들을 인식 및 검출하도록 하는 것은 많은 프로세싱 파워(processing power)를 요구한다. 그 한가지 이유는 검출되는 그리고/또는 인식되는 이벤트를 표시하기 위해 상당한 양(amount)의 공간적 및 시간적 이미지 데이터(image data) 양쪽 모두가 요구되기 때문이다.
본 발명의 목적은 감소된 양(amount)의 프로세싱 파워 및 다른 컴퓨팅 리소스(computing resource)들을 요구하는 이벤트 검출 방법을 제공하는 것이다.
이러한 목적은 청구항 제1항에 따른 방법에 의해서, 그리고 청구항 제12항에 따른 시스템에 의해서 달성된다. 본 발명의 다른 실시예들은 종속 청구항들에서 제시된다.
특히, 본 발명의 일부 실시예들에 따르면, 모션 비디오 카메라(motion video camera)에 의해 캡처(capure)된 장면 내에서 이벤트들을 식별하기 위한 방법은 2개의 식별 프로세스(identification process)들을 포함하고, 이러한 2개의 식별 프로세스들은 단기간 식별 프로세스(temporary identification process) 및 장기간 식별 프로세스(long-term identification process)이다. 단기간 식별 프로세스는: 캡처된 이미지 프레임(image frame)들로부터의 픽셀 데이터(pixel data)를 분석함으로써, 캡처된 장면 내에서 이벤트들을 식별하는 것; 이벤트들을 식별할 때 사용되는 각각의 이미지 프레임과 관련된 카메라 프로세싱 데이터(camera processing data)를 등록(registering)하는 것; 그리고 등록된 카메라 프로세싱 데이터를 입력으로서 사용하도록 되어 있는 이벤트 식별 동작(event identifying operation)에 속하는 가중치(weight)들을 조정하는 것을 포함하고, 여기서 가중치들은, 이벤트 식별 동작으로부터의 결과와 캡처된 장면의 캡처된 이미지 프레임들로부터의 픽셀들을 분석하는 것에 근거하는 식별로부터의 결과 간에 상관관계(correlation)가 증가되도록 조정된다. 장기간 식별 프로세스는: 등록된 카메라 프로세싱 데이터를 이벤트 식별 동작에 입력함으로써, 캡처된 장면 내에서 이벤트들을 식별하는 것을 포함한다. 더욱이, 단기간 식별 프로세스는 미리결정된 기간(time period) 동안 실행되고, 이러한 미리결정된 초기 시간이 만료된 이후 장기간 식별 프로세스가 실행된다. 카메라 프로세싱 데이터에 근거하여 이벤트를 식별하는 것의 한 가지 이점은, 이벤트 검출을 위해 요구되는 프로세싱 파워가 감소된다는 것인데, 왜냐하면 프로세싱되는 데이터의 양이, 이미지들을 나타내는 픽셀 데이터에 대해서보다 훨씬 더 적어지기 때문이다. 더욱이, 카메라 프로세싱 데이터는, 상당한 정도로, 모션 비디오 카메라의 주변환경(surroundings)에 따라 달라질 수 있고, 아울러 모션 비디오 카메라가 어떻게 설치되었는지에 따라 달라질 수 있기 때문에(예를 들어, 아주 높은 곳에서 아래를 내려다 보게 설치된 경우, 높이가 낮은 지표면에서 위를 바라보게 설치된 경우, 인간의 어깨 높이에 설치된 경우, 장면 내에서 움직임의 진행 방향으로 설치된 경우, 장면 내에서 움직임의 진행 방향에 수직으로 설치된 경우, 교통 감시를 위해 설치된 경우, 사람들의 움직임을 추적하기 위해 설치된 경우, 광장(square)에 설치된 경우, 주차장에 설치된 경우, 차고(garage)에 설치된 경우, 상점에 설치된 경우, 쇼핑 몰(shopping mall)에 설치된 경우, 도로를 따라 설치된 경우, 등), 장기간 식별 프로세스로부터 생성되는 결과의 품질은, 단기간 식별 프로세스에서의 모션 비디오 카메라에 대해 제공되는 고유한 훈련(unique training)에 의해, 상당히 증가된다. 따라서, 특정 위치에서의 특정 모션 비디오 카메라에 대한 고유한 훈련에 의해, 감소된 양의 데이터를 사용하는 것이 가능하게 된다. 따라서, 초기 훈련 및 고유한 훈련의 2 단계 프로세스, 그 다음에 이러한 훈련 및 저속의 데이터 전송속도를 갖는 카메라 프로세싱 데이터에 근거하여 이벤트를 식별하는 것이 함께 결합되어 프로세싱 파워 요건들이 적어진 상태로 이벤트를 검출할 수 있게 하는 결과가 만들어진다. 따라서, 이러한 이벤트 식별은 또한, 한정된 컴퓨팅 리소스들을 갖는 모니터링 카메라(monitoring camera)에 의해 사용될 수 있다.
더욱이, 일부 실시예들에서, 단기간 식별 프로세스는 모션 비디오 카메라가 초기에 설정(set up)될 때 시작되고, 그리고 이러한 실시예들에서 혹은 일부 다른 실시예들에서, 단기간 식별 프로세스는 요청(request)이 있는 경우 시작된다. 따라서, 카메라 프로세싱 데이터를 사용하는 이벤트 검출 동작(event detection operation)의 훈련은, 카메라의 환경에 대해 고유하게(uniquely) 훈련될 수 있고, 그리고 만약 다른 환경으로 이동된다면 다시 훈련될 수 있다. 단기간 식별 프로세스를 시작하도록 하는 요청은 사용자에 의해 모션 비디오 카메라에 입력되는 명령(instruction)일 수 있다.
또 하나의 다른 실시예들에서, 단기간 식별 프로세스는 네트워크(network)를 통해 모션 비디오 카메라에 연결된 디바이스에 의해 실행된다. 이것의 한 가지 이점은, 상대적으로 낮은 컴퓨팅 혹은 프로세싱 능력을 갖는 모션 비디오 카메라에 비해 상대적으로 높은 컴퓨팅 혹은 프로세싱 능력을 갖는 디바이스 상에서 단기간 식별 프로세스의 훈련이 실행될 수 있게 하는 그러한 모션 비디오 카메라를 얻을 수 있다는 것이다.
일부 실시예들에서, 단기간 식별 프로세스 동안, 이벤트 식별 동작에 속하는 가중치들은, 네트워크를 통해 모션 비디오 카메라에 연결된 디바이스 내에 저장된다. 이러한 실시예들 중 일부에서, 이벤트 식별 동작에 속하는 가중치들은, 네트워크를 통해 모션 비디오 카메라로 전달된다.
다른 실시예들의 경우, 카메라 프로세싱 데이터를 입력으로서 사용하는 이벤트 식별 동작의 가중치들 및 코드(code)는, 장기간 식별 프로세스에서 모션 비디오 카메라에서 실행된다. 이것의 이점은 이벤트 식별 프로세스가 모션 비디오 카메라로 하여금 오로지 이벤트가 식별될 때에만 네트워크 부하(network load)에 기여하게 하는 것을 가능하게 한다는 것이다. 이에 따라, 어떠한 이벤트들도 존재하지 않는 경우, 네트워크 부하는 감소될 수 있고(예를 들어, 어떠한 데이터도 전혀 전송될 필요가 없음), 그리고 이벤트가 검출되는 경우에도 네트워크 부하가 또한 감소될 수 있는데, 왜냐하면 이벤트가 일어났음을 식별시키기 위해, 오로지 한정된 양의 데이터만이 전송될 것이 요구되기 때문이다.
일부 실시예들은 또한, 장기간 식별 프로세스에서의 실패된 이벤트 식별에 응답하여 단기간 식별 프로세스를 다시 시작((restarting)하는 것을 포함한다.
일부 실시예들의 경우, 등록된 카메라 프로세싱 데이터를 입력으로서 사용하도록 되어 있는 이벤트 식별 동작에 속하는 가중치들을 조정하는 것은, 뉴럴 네트워크 훈련 세션(neural network training session)의 일부이다.
다른 실시예들에서, 이벤트 식별 동작은 뉴럴 네트워크에 의해 수행된다.
본 발명의 또 하나의 다른 실시형태에 따르면, 통신 네트워크를 통해 통신하도록 되어 있는 모션 비디오 카메라 및 프로세싱 디바이스를 포함하는 시스템이 앞서의 실시예들 중 어느 하나의 실시예에 따른 방법을 수행하도록 구성된다. 앞서의 실시예들과 관련하여 제시된 이점들은 시스템에 관한 대응하는 실시예들에 적용가능하다.
일부 실시예들에서, 프로세싱 디바이스는 단기간 식별 프로세스를 수행하도록 구성된다. 다른 실시예들에서, 모션 비디오 카메라는 장기간 식별 프로세스를 수행하도록 구성된다. 또 하나의 다른 실시예들에서, 프로세싱 디바이스는 장기간 식별 프로세스를 수행하도록 구성된다.
본 발명의 응용가능성(applicability)의 추가적 범위는 아래에서 제공되는 상세한 설명으로부터 명백하게 될 것이다. 하지만, 이러한 상세한 설명 및 특정 예들은, 비록 이들이 본 발명의 바람직한 실시예들을 표시하고는 있지만, 단지 예시적 목적으로만 제공되는 것임을 이해해야 하는데, 왜냐하면 본 발명의 범위 내에서 다양한 변경들 및 수정들이 이러한 상세한 설명으로부터 본 발명의 기술분야에서 숙련된 자들에게는 명백하게 될 것이기 때문이다. 따라서, 본 발명은 설명되는 디바이스의 특정 컴포넌트 부분들 혹은 설명되는 방법들의 단계들로만 한정되지 않음을 이해해야 하는데, 왜냐하면 이러한 디바이스 및 방법은 다양하게 변할 수 있기 때문이다. 본 명세서에서 사용되는 용어는 단지 특정 실시예들을 설명할 목적을 가지고 있는 것이지 한정의 의미로 사용되도록 의도된 것이 아님을 또한 이해해야 한다. 본 명세서 및 첨부되는 청구항에서 사용되는 바와 같은 단수적 표현은 문맥이 명확히 다르게 기재하고 있지 않다면 해당 요소가 하나 이상 존재함을 의미하도록 의도된 것임을 유의해야만 한다. 따라서, 예를 들어, "임의의 센서(sensor)" 혹은 "상기 센서"와 같이 언급되는 것은 수 개의 센서들, 등을 포함할 수 있다. 더욱이, 단어 "포함하는"은 다른 요소들 혹은 단계들을 배제하는 것이 아니다.
본 발명의 다른 특징들 및 이점들은 첨부되는 도면들을 참조하는 현재 바람직한 실시예에 관한 다음의 상세한 설명으로부터 명백하게 될 것이다.
도 1은 본 발명의 실시예들의 프로세스의 흐름도이다.
도 2는 본 발명의 시스템 구현 실시예들의 도식적 블록도이다.
더욱이, 도면들에서, 유사한 참조 부호들은 수 개의 도면들에 걸쳐 유사한 혹은 대응하는 부분들을 나타낸다.
본 발명은 모션 비디오 내에서 이벤트들을 검출하는 것에 관한 것이다. 일 실시예에 따르면, 이벤트의 검출 및 식별은 직접적인 이미지 데이터에 근거하는 것 대신에 카메라 프로세싱 데이터에 근거한다. 카메라 프로세싱 데이터는 예컨대, 카메라에 의해 캡처되어 인코딩된 비디오 스트림(encoded video stream)의 데이터 전송속도(data rate)를 표시하는 값; 등록된 카메라 프로세싱 데이터의 다른 것들과 관련된 시점(time point)들; 자동 초점 거리(auto focus distance)를 표시하는 값; 자동 화이트 발란스 기능(auto white balance function)의 설정(setting)을 표시하는 값; 자동 노출 설정(auto exposure setting)들과 관련된 값들, 예를 들어 조리개(aperture), 셔터 시간(shutter time), 이득(gain), 전자 이미지 안정화 데이터(electronic image stabilisation data)와 관련된 값들; 신호 대 잡음 비(signal to noise ratio)의 값; 캡처된 프레임 내의 콘트라스트(contrast)를 표시하는 값; 네트워크로 전송되는 데이터 전송속도를 표시하는 값; CPU 사용을 표시하는 값; 메모리 사용을 표시하는 값; 자이로(gyro) 혹은 가속도계(accelerometer)로부터의 데이터; 카메라에 연결된 PTZ 헤드(head)로부터의 위치 데이터; 레이더 센서(radar sensor)로부터의 데이터; PIR-센서(PIR-sensor)로부터의 데이터, 등일 수 있다. 카메라 프로세싱 데이터는, 앞서-언급된 것에 추가하여, 혹은 대안적으로, 앞서-언급된 값들의 시퀀스(sequence)들로부터 형성될 수 있는바, 즉, 노출 곡선; 일정 기간에 걸친 데이터 전송속도에서의 변동을 나타내는 곡선; 자동초점에 의해 표시되는 거리에서의 변동들을 나타내는 곡선; 등으로부터 형성될 수 있다. 추가적으로, 카메라의 이미지 프로세싱에서 구현되는 특정 이미지 인코딩 방식들로부터의 다양한 값들(최종 값들 및 또는 중간 값들 모두)이 카메라 프로세싱 데이터를 나타내는 것일 수 있다. 앞서의 카메라 프로세싱 데이터의 예들로부터 명백히 알 수 있는 바와 같이, 전체 프레임을 나타내는 이미지 픽셀 데이터를 사용하는 대신 카메라 프로세싱 데이터를 사용하는 경우 프로세싱할 데이터의 양은 상당히 크게 감소될 수 있다.
카메라 프로세싱 데이터를 이용하여 이벤트들을 검출하기 위한 프로세스들의 설계를 용이하게 하기 위해, 분류(classification)를 위해 설계된 뉴럴 네트워크가, 카메라 프로세싱 데이터를 입력들로서 사용하여 이벤트들을 검출하도록 훈련된다. 이러한 뉴럴 네트워크들의 예들은, 분류를 위해 설계된 뉴럴 네트워크들, 분류를 위해 설계된 합성곱 뉴럴 네트워크(convolutional neural network)들, 순환 뉴럴 네트워크(recurrent neural network)들, 순환적 뉴럴 네트워크(recursive neural network)들, 심층 신뢰 네트워크(deep belief network)들, 볼츠만 머신(Boltzmann machine)들, 등이다.
프로세싱에 근거하도록 혹은 다양한 카메라들에서 이벤트 검출기들로서 사용되도록 일반적인 분류 뉴럴 네트워크를 훈련시키는데 있어 한가지 문제는, 데이터 중 일부 데이터가 모든 카메라들에서 이용가능하지 않다는 것, 그리고 데이터 중 일부 데이터는 상이한 카메라들 간에 크게 달라질 수 있다는 것이다. 상이한 카메라들 간에 일어나는 이러한 변동들의 한 가지 이유는, 카메라들이 상이한 환경에서, 상이한 화각(view-angles)에서, 상이한 조명 조건(light conditions)에서, 기타 등등에서 설치되기 때문이며, 그리고/또는 카메라들이 서로 다른 카메라들이기 때문이다.
본 발명의 실시예에 따르면, 이러한 문제는 2-단계 이벤트 검출 프로세스를 구현함으로써 처리된다. 초기 단기간 식별 프로세스 동안, 잘-알려진 이벤트 식별 프로세스가, 캡처된 이미지 프레임들 내에서 그 캡처된 프레임들 내의 픽셀 정보에 근거하여 이벤트들을 식별하기 위해 사용되는데, 즉, 이미지 프레임들의 시퀀스에서 캡처된 픽셀 데이터가, 캡처된 장면 내에서 일어나는 이벤트들을 식별하기 위해 분석된다. 이와 동시에, 이러한 단기간 식별 프로세스에서, 다양한 카메라 프로세싱 데이터의 세트(set)가 등록된다. 등록된 카메라 프로세싱 데이터는, 픽셀 데이터에 근거하여 이벤트들을 식별하는 프로세스에서 식별된 것과 동일한 식별된 이벤트에 도달하도록 뉴럴 네트워크를 훈련시키기 위해 입력으로서 사용된다. 이러한 단기간 식별 프로세스는, 뉴럴 네트워크가, 허용가능한 신뢰도 레벨(confidence level)에 도달한 경우 또는 운용자(operator)가 프로세스의 중지(stop)를 지시한 경우 종료된다. 단기간 식별 프로세스가 중지된 경우, 이벤트 식별은, 카메라 프로세싱 데이터를 입력들로서 수신하는 훈련된 뉴럴 네트워크에 의해 장기간 식별 프로세스에서 수행된다.
본 발명의 일부 실시예들에 따르면, 이벤트 식별 프로세스는 도 1의 흐름도에서 설명되는 바와 같이 수행된다. 이벤트들을 식별하기 위한 방법은 단기간 식별 프로세스(102)로 시작하고, 이러한 단기간 식별 프로세스(102)에서, 캡처된 장면 내의 이벤트는 장면의 하나의 이미지 프레임의 픽셀 데이터에 관해 동작함으로써 식별되거나, 혹은 장면의 캡처된 이미지 프레임들의 시퀀스의 픽셀 데이터에 관해 동작함으로써 식별된다(단계(104)). 더욱이, 이벤트를 식별하는데 사용되는 캡처된 프레임/프레임들에 대응하는 기간과 관련된 카메라 프로세싱 데이터가 등록된다(단계(106)). 그 다음에, 등록된 카메라 프로세싱 데이터는 뉴럴 네트워크 기반 이벤트 식별 동작의 훈련에서 입력으로서 사용되고, 그리고 픽셀 기반 이벤트 식별기 동작으로부터 식별된 이벤트는, 등록된 카메라 프로세싱 데이터의 이러한 입력으로부터 생성되는 이벤트의 올바른 분류로서 사용된다(단계(108)). 훈련 동작은 뉴럴 네트워크의 노드들에서의 가중치들을 조정하는 것을 포함할 수 있다. 가중치들은, 카메라 프로세싱 데이터의 입력으로부터 생성되는 분류가, 픽셀-기반 이벤트 식별 동작에 의해 식별된 분류에 근접하도록 조정된다. 그 다음에, 프로세스는 단기간 식별 프로세스에 대한 미리결정된 기간이 종료되었는지를 점검함으로써 계속된다(단계(110)). 만약 단기간 식별 프로세스에 대한 기간이 종료되지 않았다면, 프로세스는 단계(104)로 되돌아가고, 단기간 식별 프로세스에서 계속된다. 만약 단기간 식별 프로세스에 대한 기간이 종료되었다면, 프로세스는 장기간 식별 프로세스에서 계속되는데, 이것은 다음 이미지 프레임을 캡처하는 것(단계(114)), 그리고 이미지 프레임의 캡처 기간과 관련된 카메라 프로세싱 데이터를 등록하는 것(단계(116))을 수행함으로써 이루어진다. 그 다음에, 캡처된 이미지 프레임의 기간과 관련된 카메라 프로세싱 데이터는 뉴럴 네트워크 기반 이벤트 식별 동작에 입력으로서 전송된다(단계(118)). 뉴럴 네트워크 기반 이벤트 식별 동작에 대한 입력은, 대안적으로 혹은 추가적으로, 하나의 이미지 프레임의 기간보다 더 긴 기간과 관련된 카메라 프로세싱 데이터를 포함할 수 있는데, 예를 들어, 더 긴 기간에 걸쳐 있는 카메라 프로세싱 데이터의 더 많은 샘플(sample)들을 포함하는 카메라 프로세싱 데이터를 포함할 수 있다. 그 다음에, 프로세스는 추가되는 훈련에 대한 요청이 수신되었는지를 점검한다(단계(120)). 만약 추가되는 훈련에 대한 요청이 수신되지 않았다면, 장기간 식별 프로세스(112)는 프로세스(114)로 되돌아감으로써 계속된다. 만약 추가되는 훈련에 대한 요청이 수신되었다면, 프로세스는 단기간 식별 프로세스의 단계(104)로 되돌아간다.
구현되는 뉴럴 네트워크는 예컨대, 순환 뉴럴 네트워크(Recurrent Neural Network, RNN)일 수 있고, 그리고 이러한 RNN을 위해 사용되는 학습 알고리즘(learning algorithm)은 역전파(backpropagation) 혹은 공액 기울기(conjugant gradient)와 같은 학습 알고리즘일 수 있다. 카메라 프로세싱 데이터는 시계열(time series)로서 보여질 수 있으며, 초기에 훈련되고, 이후에 이벤트들의 분류를 위해 프로세싱된다. RNN의 기존의 많은 구현들은 일변수 시계열(univariate time series) 및/또는 다변수 시계열(multivariate time series)을 프로세싱할 수 있는데, 즉, RNN은 벡터(vector)가 하나의 성분(component) 및/또는 복수의 성분들을 포함하는 경우 그러한 벡터들의 시퀀스를 프로세싱할 수 있다. 예를 들어, 일변수 시계열을 프로세싱하는 것은, 인코딩된 비디오 스트림의 데이터 전송속도를 표시하는 값들의 시퀀스를 프로세싱하는 것일 수 있다. 그 다음에, 다변수 시계열을 프로세싱하는 예는, 각각의 벡터가, 인코딩된 비디오 스트림의 데이터 전송속도를 표시하는 값, 그리고 화이트 발란스를 표시하는 값을 포함하는 경우 그러한 벡터들의 시퀀스를 프로세싱하는 것일 수 있다. 카메라 프로세싱 데이터의 임의의 결합이 가능하고, 그리고 이러한 결합들은 단지 두 개의 상이한 데이터 타입들만을 결합하는 것으로 한정돼서는 안 되며, 복수의 데이터 타입들도 매우 잘 결합될 수 있다. 본 명세서에서 설명되는 방법은 또한, 시계열 데이터가 아닌 데이터에 관해서도 사용될 수 있고, 이러한 경우들에서, 본 방법은 해당하는 그 특정 분류 동작에 적합한 뉴럴 네트워크를 사용하여 수행될 수 있다.
이제 도 2를 참조하면, 본 발명의 실시예들에 따른 시스템은, 통신 네트워크(214)(이하에서는 네트워크(214)로 지칭됨)를 통해 서로 연결되는 모션 비디오 카메라(210) 및 프로세싱 디바이스(212)를 포함한다. 프로세싱 디바이스(212)는 예를 들어, PC, 워크스테이션(workstation), 서버(server)일 수 있거나, 혹은 데이터를 프로세싱하기 위해 활성화될 수 있는 임의의 다른 타입의 네트워크 연결가능 디바이스일 수 있다. 네트워크(214)는 임의 타입의 네트워크일 수 있는데, 예를 들어, 이더넷(Ethernet), Wi-Fi, LAN, WAN, 인터넷(Internet), 셀룰러 연결(cellular connection), 공중 전화 교환 네트워크(public switched telephone network), 등일 수 있다. 2개의 식별 프로세스들, 즉 단기간 식별 프로세스(102) 및 장기간 식별 프로세스(112)는 두 개의 디바이스들, 즉 모션 비디오 카메라(210) 및 프로세싱 디바이스(212) 중 어느 하나에서 수행되도록 되어 있을 수 있다. 모션 비디오 카메라가 많은 여분의 프로세싱 파워를 갖고 있는 경우에, 모션 비디오 카메라가 양쪽 프로세스들을 모두 실행할 수 있다. 모션 비디오 카메라가 프로세싱 파워에 관해 그 용량(capacity)에 있어 매우 제한을 받는 실시예들에서, 양쪽 프로세스들은 프로세싱 디바이스(212)에서 실행될 수 있는데, 이 경우 프로세싱 디바이스(212)는 자신이 동작을 수행할 데이터를 모션 비디오 카메라로부터 수신하게 된다. 이러한 경우, 본 발명의 프로세스들을 사용함으로써 얻는 이득은, 단기간 식별 프로세스에서 이벤트 식별 프로세스로 전환된 경우 장기간 식별 프로세스는 어떠한 이미지 데이터도 요구하지 않기 때문에(이러한 데이터는 해당 스테이지(stage)에서 카메라에 의해 전송될 필요가 없음) 네트워크 부하가 감소될 수 있다는 것이다.
또 하나의 다른 상황에서, 단기간 식별 프로세스는 뉴럴 네트워크의 학습 스테이지(learning stage) 및 전체 이미지 프레임들의 분석을 포함하는 프로세스이고, 따라서 두 개의 식별 프로세스들 중 가장 많은 프로세싱 요구하며, 이에 따라 프로세싱 디바이스(212)에서 실행되도록 되어 있다. 반면, 장기간 식별 프로세스는 모션 비디오 카메라에서 실행되는데, 왜냐하면 이러한 프로세스는 훨씬 더 적은 프로세싱을 요구하기 때문이고, 이 경우 카메라에 의해 네트워크로 전송되는 데이터의 양은 매우 크게 감소될 수 있는데, 특히 오랜 기간 동안 그러할 수 있는바, 왜냐하면 모션 카메라는 어떠한 이벤트도 검출되지 않는 동안에 데이터를 전송하는 것을 피할 수 있기 때문이다.
여하튼, 모션 비디오 카메라는 렌즈(lens)(216), 이미지 센서(image sensor)(218), 이미지 프로세싱 유닛(image processing unit)(220)을 포함하고, 이들은 결합되어 카메라 시야(camera view)의 장면 내에서 광(light)을 캡처하고 그 광으로부터 디지털 이미지 데이터(digital image data)를 발생시키도록 구성된다. 다수의 모션 비디오 카메라들에서, 캡처된 디지털 이미지 데이터의 압축 및 인코딩은 이미지 프로세싱 디바이스에서 수행된다. 더욱이, 모션 비디오 카메라(210)는, 모션 카메라 디바이스의 더 일반적인 기능들과 관련된 프로그램(program)들을 실행하도록 구성된 중앙 프로세싱 유닛(central processing unit)(222)을 포함한다. 중앙 프로세싱 유닛(222)은 전형적으로 이미지 프로세싱에는 관여하지 않는데, 왜냐하면 이러한 동작들은 이미지 프로세싱 디바이스에 의해 프로세싱되기 때문이다. 모션 비디오 카메라는 또한 휘발성 메모리(volatile memory)(224) 및 비-휘발성 메모리(non-volatile memory)(226)를 포함하고, 여기서 휘발성 메모리(224)는 프로세싱 디바이스에 의한 실행 동안 데이터 및/또는 프로그램 코드의 단기간 저장을 위한 작업 메모리로서 사용되고, 비-휘발성 메모리(226)는 모션 카메라에 장기간 저장될 데이터 및 코드를 저장하도록 구성된다. 또한, 모션 비디오 카메라(210)는, 카메라 프로세싱 데이터 등록 모듈(camera processing data registration module)(228), 이벤트 식별 동작 모듈(event identifying operation module)(230), 및 네트워크 인터페이스(network interface)(232)를 포함한다. 카메라 프로세싱 데이터 등록 모듈(228)은 모션 비디오 카메라 내의 다양한 물리적 및/또는 논리적 인터페이스들로부터 카메라 프로세싱 데이터를 검색 혹은 수신하도록 구성된다. 예를 들어, 발생되는 이미지 스트림의 현재 데이터 전송속도가 이미지 프로세서(220)로부터 혹은 네트워크 인터페이스(232)로부터 검색될 수 있고, 온도가 카메라 내의 온도 센서에 대한 인터페이스로부터 수신될 수 있고, 기타 등등일 수 있다. 이벤트 식별 동작 모듈(230)은, 등록된 카메라 프로세싱 데이터를 사용하도록 되어 있는 이벤트 식별 동작(예를 들어, 카메라 프로세싱 데이터를 입력으로서 사용하여 동작하는 뉴럴 네트워크)의 조정(adjusting)으로 (프로세싱 디바이스(212) 상에서 실행될 수 있는) 단기간 식별 프로세스가 마무리될 때까지, 모션 비디오 카메라(210) 내에 존재하지 않을 수 있다. 네트워크 인터페이스(232)는 카메라를 네트워크(214)에 연결시키기 위한 임의의 알려진 타입의 네트워크 인터페이스일 수 있다.
프로세싱 디바이스(212)도 또한, 네트워크 인터페이스(234), 비-휘발성 메모리(236), 휘발성 메모리(238), 및 중앙 프로세싱 유닛(240)을 포함한다. 네트워크 인터페이스(234)는 프로세싱 디바이스를 네트워크에 연결하도록 구성되고, 그리고 네트워크(214)를 통해서 모션 비디오 카메라(210)에 대한 네트워크 통신을 달성하기 위해 임의의 알려진 방식으로 구현될 수 있다. 중앙 프로세싱 유닛(240), 휘발성 메모리(238), 및 비-휘발성 메모리(236)는, 프로그램 코드를 실행하는 것, 단기간 데이터 및/또는 프로그램 코드를 저장하는 것, 그리고 장기간 데이터 및/또는 프로그램 코드를 저장하는 것을 수행하도록 구성된다. 또한, 프로세싱 디바이스(212)는 픽셀 기반 이벤트 식별 동작 모듈(pixel based event identifying operation module)(242) 및 이벤트 식별 동작 훈련 모듈(event identifying operation training module)(244)을 포함한다. 픽셀 기반 이벤트 식별 동작 모듈(242) 및 이벤트 식별 동작 훈련 모듈(244)은 프로세싱 디바이스(212)에서 중앙 프로세싱 유닛(240)에 의해 실행되고 저장되는 프로그램 코드로서 구현될 수 있다.
픽셀 기반 이벤트 동작은, 이미지 프레임들 내의 픽셀들 및 픽셀들의 특성들을 분석함으로써, 한번에 하나의 프레임에 관해 동작하는 혹은 한번에 이미지 프레임들의 시퀀스에 관해 동작하는 하나의 혹은 복수의 잘-알려진 이벤트 식별 동작들을 포함할 수 있다. 이미지 프레임들은 모션 비디오 카메라에 의해 캡처되는 이미지 프레임들이고, 그리고 단기간 프로세스가 프로세싱 디바이스(212)에서 수행되는 시스템에서, 이러한 캡처된 이미지 프레임들은 네트워크를 통해 프로세싱 디바이스(212)로 전송된다. 픽셀 기반 이벤트 식별 동작들의 예들은, 장면 내에 들어오는 차량, 장면 내에 들어오는 차량의 타입, 장면 내에 들어오는 차량의 속도, 장면 내에 들어오는 차량들의 수, 등이다. 이벤트 픽셀 기반 식별 동작들은 부가적으로 혹은 대안적으로, 장면 내에 들어오는 사람, 장면 내에 들어오는 동물, 장면 내에 들어오는 특정 물체, 등과 관련될 수 있는데, 여기에는 또한 앞에서 차량에 대해 제시된 변화들이 포함된다. 또한, 픽셀 기반 이벤트 식별 동작들은, 장면 내에서 모션이 일어난 것을 식별하는 것, 어슬렁거림, 대규모 군중 모임(large crowd gathering), 교통 정체(traffic jam), 눈(snow), 비(rain), 스모그(smog), 하우징(housing) 상의 먼지로 인한 악화된 이미지, 초첨을 벗어난 렌즈, 이상현상들(anomalies)을 포함할 수 있다.
도 2에 도시된 시스템에서, 단기간 프로세스가 프로세싱 디바이스에서 수행되는 경우, 적어도 단기간 프로세스의 실행 동안 카메라는 캡처된 장면의 이미지 프레임들을 포함하는 비디오 스트림, 그리고 모션 비디오 카메라 및/또는 설정과 관련된 카메라 프로세싱 데이터를 전송한다. 카메라 프로세싱 데이터 중 어떤 타입들에 관해 동작을 수행할 지에 관한 선택은, 특정 카메라에서의 다양한 카메라 프로세싱 데이터(앞서의 예들을 참조하기 바람)의 이용가능성(availability)에 의해 제한된다. 더욱이, 카메라 프로세싱 데이터의 타입들이 또한 제한될 수 있다. 하지만, 특정 카메라에 대한 카메라 프로세싱 데이터를 나타내는 전체 이용가능한 데이터 세트는 상대적으로 작을 확률이 높기 때문에, 전체 세트가 종종 사용될 수 있다. 이벤트 식별 동작을 나타내는 뉴럴 네트워크의 훈련은, 훈련 입력(training input)을 촉발(triggering)시키는 것으로서, 픽셀 기반 이벤트 식별 동작을 사용함으로써, 실행되는데, 즉, 픽셀 기반 이벤트 식별 동작에 의해 이벤트가 식별되는 경우, 뉴럴 네트워크를 훈련시키는 프로세스는, 훈련 프로세스에 대한 식별 전에 임의의 기간을 나타내는 카메라 프로세싱 데이터를 입력으로서 구성하고, 그리고 뉴럴 네트워크로 하여금 그 입력된 카메라 프로세싱 데이터를 픽셀 기반 이벤트 식별 동작에 의해 검출된 이벤트와 동일한 이벤트로서 식별할 확률이 더 높도록 하기 위해 훈련 프로세스에서의 뉴럴 네트워크의 가중치들을 조정한다.
시스템의 추가적인 훈련은 앞에서 설명된 바와 같이 개시될 수 있고, 이에 따라 단기간 식별 프로세스의 재시작을 포함할 수 있다. 추가적으로 혹은 대안적으로, 카메라 프로세싱 데이터를 입력으로서 사용하도록 구성된 이벤트 식별 동작의 추가적인 훈련 혹은 개선은, 이벤트 식별 동작이 이벤트를 분류하고 그 결과가 특정 분류에 대한 이벤트 식별 동작에 의해 수집된 신뢰도 값이, 미리결정된 임계치보다 더 낮은 그러한 결과에 응답하여 개시될 수 있다. 신뢰도 값이 낮을수록, 분류는 더 불확실해진다. 이러한 추가 훈련은, 신뢰도가 낮은 분류를 얻은 이벤트에 대한 시점(time point)을 포함하는 임의의 기간(time period)과 관련된 카메라 프로세싱 데이터 및 픽셀 데이터를 검색함으로써 시작될 것이다. 이 경우, 이러한 데이터 세트들은, 훈련 동작에 의해 프로세싱될 것인데, 즉, 픽셀 기반 이벤트 식별 동작에 의해 그리고 이벤트 식별 동작을 향상시키기 위해 이벤트 식별 동작의 가중치들을 조정하는 프로세스에 의해, 프로세싱될 것이다. 그 다음에, 향상된 이벤트 식별 동작은 이전의 이벤트 식별 동작을 대체하도록 구성된다.
더 앞에서 언급된 바와 같이, 카메라 프로세싱 데이터에 근거하여 이벤트들을 식별하는 것의 이점들은 많다. 이러한 이점들의 이해를 용이하게 하기 위해, 시간적으로 압축되는 비디오의 이미지 스트림 데이터 전송속도(image stream data rate)를 본 발명에서의 카메라 프로세싱 데이터로서 사용하는 것이 아래에서 약간 더 상세히 설명될 것이다. 이미지 스트림 데이터 전송속도는, 이벤트 검출을 원하는 장면의 모션 비디오를 캡처하는 카메라(210)의 이미지 프로세싱 디바이스(220)에서 시간적으로 압축을 행하는 비디오 인코더(video encoder)에 의해 수집되는 데이터의 양을 나타내는 척도이다. 인코더에 의해 수집되는 데이터의 양은 연속적으로 캡처된 이미지 프레임들 간의 변화(change)의 양에 따라 달라진다. 예를 들어, 본질적으로 어떠한 움직이는 물체들도 갖지 않는 장면의 이미지 시퀀스는 많은 움직임을 갖는 장면의 이미지 시퀀스보다 결과적으로 그 인코딩되는 데이터가 더 적을 것이다. 따라서, 인코딩 단계 이후 데이터의 양은 연속적으로 캡처된 이미지들에서의 변동들에 크게 의존한다. 이것은 또한, 인코더에 의해 발생되는 인코딩된 이미지 데이터의 양이, 장면 내의 움직임들에 의해 영향을 받는 이미지 센서 상의 픽셀들의 수에 의존한다는 것으로서 설명될 수 있다. 예를 들어, 카메라에 근접해 있는 물체 혹은 장면 내에서 큰 물체는, 카메라로부터 멀리 떨어져 있는 물체들 혹은 작은 물체보다 이미지 센서 상의 더 많은 픽셀들에 영향을 미칠 것이다. 따라서, 데이터의 양은 이미지 정보의 시간적 압축의 결과(effect)이다.
본 발명의 실시예들에 따르면, 모니터링되는 장면의 모션 비디오를 포함하는 데이터 스트림에서 단위 시간 당 데이터의 양을 나타내는 복수의 데이터 전송속도들은, 순차적으로 측정되고 등록되며, 카메라 프로세싱 데이터에 포함된다. 그럼으로써, 시간 경과에 따른 데이터 전송속도에서의 변동을 나타내는 데이터세트(dataset)가 등록된다. 데이터 전송속도는 시스템 내의 다양한 위치들로부터 측정될 수 있거나 검색될 수 있다. 예를 들어, 데이터 전송속도는, 카메라(220)의 이미지 프로세싱 디바이스(220) 내의 인코더에서, 또는 카메라의 네트워크 인터페이스(232)에서, 또는 네트워크(214) 내의 스위치(switch) 혹은 라우터(router)에서, 또는 네트워크 인터페이스(234)에서, 또는 네트워크(214)에 연결된 프로세싱 디바이스(212) 내의 디코더(decoder)에서, 측정될 수 있거나 검색될 수 있다. 데이터 전송속도는 이미지 스트림을 나타내는 스트림 상에서 직접적으로 측정될 수 있지만, 모션 비디오를 전송하는 네트워크 패킷(network packet)들의 데이터 전송속도를 측정함으로써 또한 측정될 수 있다. 데이터 스트림의 데이터 전송속도를 측정하는 프로세스 또는 임의의 데이터 전송을 측정하는 프로세스는 본 발명의 기술분야에서 숙련된 사람에게 잘 알려져 있다. 시간 경과에 따른 데이터 전송속도를 나타내는 데이터세트는, 특히 모션 비디오 스트림을 나타내기 위해 요구되는 데이터와 비교하여, 매우 적은 양의 데이터를 사용하여 표현될 수 있다. 예를 들어, 시간 경과에 따른 데이터 전송속도에서의 변동을 나타내는 데이터세트 내에, 이미지 스트림 내의 각각의 이미지를 나타낼 때 사용되는 데이터의 양을 나타내는 값(value) 혹은 데이터 엔트리(entry)를 포함시키는 것을 고려한다. 만약 카메라가 10 메가픽셀 카메라(megapixel camera)라면, 인트라 프레임(intra frame)(즉, 공간적으로 인코딩되는 프레임)의 크기는 표준 인코더들 중 어느 한 인코더를 사용하면 대략 2.5 MB가 되게 된다. 무손실 코딩 방식(lossless coding scheme)을 사용하여 인코딩되는 10 메가픽셀 프레임조차도 10 MB보다 월등히 더 큰 크기를 갖지 않게 된다. 0 MB와 10 MB 사이에 있는 모든 크기를 나타내는 값 혹은 데이터 엔트리를 등록하기 위해, 단지 3 바이트(bytes)만이 필요할 것인데, 왜냐하면 3 바이트는 1600 만개 이상의 값들을 나타낼 수 있기 때문이다. 데이터 전송속도의 분해능(resolution)이 그렇게 중요하지 않은 경우, 심지어 2 바이트 혹은 1 바이트를 사용하여 데이터 전송속도를 나타내는 것도 가능할 수 있다. 어쨌든, 데이터세트 내에서 데이터 전송속도를 나타내기 위해 필요한 데이터는, 하나의 인트라 프레임을 나타내기 위해 사용되는 데이터보다 거의 100만 배 정도 용이하게 더 작아질 수 있다. 비디오를 스트리밍(streaming)하는 경우, 프레임 당 사용되는 데이터는 당연히 더 작아질 것인데, 왜냐하면 인터 프레임(inter frame)들은 시간적으로 인코딩되기 때문이다. 한편, 사용되는 데이터 세트가 모든 프레임의 크기를 포함할 필요는 없을 수 있지만 미리결정된 기간에 걸쳐 그 누적된 데이터 양을 나타낼 수 있다. 일 실시예에서, 프레임 크기는 데이터 전송속도의 표현으로서 등록된다. 프레임 크기는 프레임을 인코딩하기 위해 필요한 데이터의 양을 표시한다. 프레임 크기는 4 바이트(32 비트(bits))를 사용하여 등록되고, 그리고 각각의 프레임에 대해 프레임 크기가 등록된다. 프레임들은 초 당 30개의 프레임들로 캡처되고, 이에 따라 이벤트들의 검출을 위해 본 발명에 의해 사용되는 데이터는 이러한 실시예에서 0.12 Kb/s일 수 있다. 이것은 정상적인 모션 비디오 스트림의 데이터 전송속도인 6000 Kb/s보다 훨씬 더 작다.
이에 따라, 본 발명에 따른 시스템이 장기간 식별 프로세스로 전환된 경우, 이벤트를 검출하기 위해 요구되는 데이터의 양의 급격한 감소는, 픽셀 기반 이벤트 검출 동작과 비교하여, 이벤트 식별 동작의 프로세싱 파워 요건들에 상당히 큰 영향을 미칠 것이다. 비록 본 발명의 이벤트 식별 동작이, 앞서 언급된 바와 같이, 추가적인 정보 타입들을 갖도록 설계되어 있지만, 이러한 추가되는 데이터 세트들은, 이미지 프레임 혹은 이미지 프레임들의 시퀀스를 나타내기 위해 필요한 데이터 양(data amount)과 비교하여, 여전히 매우 작을 것이다.

Claims (13)

  1. 모션 비디오 카메라(motion video camera)에 의해 캡처(capure)된 장면(scene) 내에서 이벤트(event)들을 식별하기 위한 방법으로서, 상기 방법은 2개의 식별 프로세스(identification process)들을 포함하고, 상기 2개의 식별 프로세스들은 단기간 식별 프로세스(temporary identification process) 및 장기간 식별 프로세스(long-term identification process)이며,
    상기 단기간 식별 프로세스는,
    캡처된 이미지 프레임(image frame)들로부터의 픽셀 데이터(pixel data)를 분석함으로써 상기 캡처된 장면 내에서 이벤트들을 식별하는 것과;
    이벤트들을 픽셀 데이터에 근거하여 식별할 때 사용되는 상기 이미지 프레임의 캡처 기간과 관련된 카메라 프로세싱 데이터(camera processing data)를 등록(registering)하는 것과; 그리고
    뉴럴 네트워크 기반 이벤트 식별 동작(neural network based event identifying operation)을 훈련(training)시키는 것을 포함하고,
    여기서, 상기 카메라 프로세싱 데이터는,
    카메라에 의해 캡처되어 인코딩된 비디오 스트림(encoded video stream)의 데이터 전송속도(data rate)를 표시하는 값;
    자동 초점 거리(auto focus distance)를 표시하는 값;
    자동 화이트 발란스 기능(auto white balance function)의 설정(setting)을 표시하는 값;
    자동 노출 설정(auto exposure setting)들과 관련된 값들, 예를 들어 조리개(aperture), 셔터 시간(shutter time), 이득(gain), 전자 이미지 안정화 데이터(electronic image stabilisation data)와 관련된 값들;
    신호 대 잡음 비(signal to noise ratio)의 값;
    캡처된 프레임 내의 콘트라스트(contrast)를 표시하는 값;
    네트워크로 전송되는 데이터 전송속도를 표시하는 값;
    CPU 사용을 표시하는 값;
    메모리 사용을 표시하는 값;
    자이로(gyro) 혹은 가속도계(accelerometer)로부터의 데이터;
    카메라에 연결된 PTZ 헤드(head)로부터의 위치 데이터;
    레이더 센서(radar sensor)로부터의 데이터; 및
    PIR-센서(PIR-sensor)로부터의 데이터 중 하나 이상을 포함하고,
    상기 뉴럴 네트워크 기반 이벤트 식별 동작을 훈련시키는 것은,
    상기 캡처된 이미지 프레임들로부터 픽셀 데이터를 분석함으로써 상기 캡처된 장면 내에서 이벤트들을 식별할 때 사용되는 상기 이미지 프레임들의 캡처 기간과 관련된 상기 등록된 카메라 프로세싱 데이터를 입력으로서 사용함과 아울러
    상기 식별된 이벤트들을 상기 뉴럴 네트워크 기반 이벤트 식별 동작으로부터 생성되는 이벤트의 올바른 분류(classification)로서 사용하여 이루어지며,
    상기 장기간 식별 프로세스는,
    상기 픽셀 데이터를 분석하기 위해 사용된 상기 이미지 프레임들 이후에 캡처되는 이미지 프레임들의 캡처 기간과 관련된 카메라 프로세싱 데이터를 등록하는 것과; 그리고
    상기 픽셀 데이터를 분석하기 위해 사용된 상기 이미지 프레임들 이후에 캡처되는 이미지 프레임들의 캡처 기간과 관련된 상기 등록된 카메라 프로세싱 데이터를 상기 훈련된 뉴럴 네트워크 기반 이벤트 식별 동작에 입력함으로써 상기 캡처된 장면 내에서 이벤트들을 식별하는 것을 포함하고,
    상기 단기간 식별 프로세스는 미리결정된 기간 동안 실행되고,
    상기 장기간 식별 프로세스는 상기 미리결정된 기간이 만료된 이후 실행되는 것을 특징으로 하는 모션 비디오 카메라에 의해 캡처된 장면 내에서 이벤트들을 식별하기 위한 방법.
  2. 제1항에 있어서,
    상기 뉴럴 네트워크 기반 이벤트 식별 동작을 훈련시키는 것은, 상기 뉴럴 네트워크 기반 이벤트 식별 동작의 노드(node)들에 속하는 가중치(weight)들을 조정하는 것을 포함하고,
    상기 뉴럴 네트워크 기반 이벤트 식별 동작의 상기 노드들의 상기 가중치들은, 상기 뉴럴 네트워크 기반 이벤트 식별 동작으로부터 생성되는 이벤트의 분류가, 상기 캡처된 이미지 프레임들로부터의 픽셀 데이터의 분석에 의해 식별되는 이벤트의 분류에 근접하도록 조정되는 것을 특징으로 하는 모션 비디오 카메라에 의해 캡처된 장면 내에서 이벤트들을 식별하기 위한 방법.
  3. 제1항에 있어서,
    상기 단기간 식별 프로세스는 요청(request)이 있는 경우 시작되는 것을 특징으로 하는 모션 비디오 카메라에 의해 캡처된 장면 내에서 이벤트들을 식별하기 위한 방법.
  4. 제3항에 있어서,
    상기 요청은 사용자에 의해 상기 모션 비디오 카메라에 입력되는 명령(instruction)인 것을 특징으로 하는 모션 비디오 카메라에 의해 캡처된 장면 내에서 이벤트들을 식별하기 위한 방법.
  5. 제1항에 있어서,
    상기 단기간 식별 프로세스는 네트워크(network)를 통해 상기 모션 비디오 카메라에 연결된 디바이스에 의해 실행되는 것을 특징으로 하는 모션 비디오 카메라에 의해 캡처된 장면 내에서 이벤트들을 식별하기 위한 방법.
  6. 제2항에 있어서,
    상기 단기간 식별 프로세스 동안 상기 가중치들은 네트워크를 통해 상기 모션 비디오 카메라에 연결된 디바이스 내에 저장되는 것을 특징으로 하는 모션 비디오 카메라에 의해 캡처된 장면 내에서 이벤트들을 식별하기 위한 방법.
  7. 제6항에 있어서,
    상기 가중치들은 상기 네트워크를 통해 상기 모션 비디오 카메라로 전달되는 것을 특징으로 하는 모션 비디오 카메라에 의해 캡처된 장면 내에서 이벤트들을 식별하기 위한 방법.
  8. 제1항에 있어서,
    상기 뉴럴 네트워크 기반 이벤트 식별 동작의 상기 가중치들 및 코드(code)는, 상기 장기간 식별 프로세스에서 상기 모션 비디오 카메라에서 실행되는 것을 특징으로 하는 모션 비디오 카메라에 의해 캡처된 장면 내에서 이벤트들을 식별하기 위한 방법.
  9. 제1항에 있어서,
    상기 방법은 또한, 상기 장기간 식별 프로세스에서 상기 뉴럴 네트워크 기반 이벤트 식별에 의해 발생된 신뢰도 값(confidence value)이, 미리결정된 임계치보다 작은 것에 응답하여, 상기 단기간 식별 프로세스를 다시 시작(restarting)하는 것을 포함하는 것을 특징으로 하는 모션 비디오 카메라에 의해 캡처된 장면 내에서 이벤트들을 식별하기 위한 방법.
  10. 통신 네트워크를 통해 통신하도록 되어 있는 모션 비디오 카메라 및 프로세싱 디바이스를 포함하는 시스템으로서, 상기 시스템은 청구항 제1항에 따른 방법을 수행하도록 되어 있는 것을 특징으로 하는 시스템.
  11. 제10항에 있어서,
    상기 프로세싱 디바이스는 단기간 식별 프로세스를 수행하도록 되어 있는 것을 특징으로 하는 시스템.
  12. 제10항에 있어서,
    상기 모션 비디오 카메라는 장기간 식별 프로세스를 수행하도록 되어 있는 것을 특징으로 하는 시스템.
  13. 제10항에 있어서,
    상기 프로세싱 디바이스는 장기간 식별 프로세스를 수행하도록 되어 있는 것을 특징으로 하는 시스템.
KR1020170173401A 2016-12-21 2017-12-15 모션 비디오 내의 이벤트들을 식별하기 위한 방법 KR102264202B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP16205865.5A EP3340103A1 (en) 2016-12-21 2016-12-21 Method for identifying events in a motion video
EP16205865.5 2016-12-21

Publications (2)

Publication Number Publication Date
KR20180072563A true KR20180072563A (ko) 2018-06-29
KR102264202B1 KR102264202B1 (ko) 2021-06-11

Family

ID=57755011

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170173401A KR102264202B1 (ko) 2016-12-21 2017-12-15 모션 비디오 내의 이벤트들을 식별하기 위한 방법

Country Status (6)

Country Link
US (1) US10824872B2 (ko)
EP (1) EP3340103A1 (ko)
JP (1) JP6875262B2 (ko)
KR (1) KR102264202B1 (ko)
CN (1) CN108229333B (ko)
TW (1) TWI713794B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210133133A (ko) * 2020-04-28 2021-11-05 엑시스 에이비 통계 기반 전자식 이미지 안정화

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11482256B2 (en) * 2017-01-16 2022-10-25 Zhejiang Dahua Technology Co., Ltd. Systems and methods for video replaying
US10354169B1 (en) * 2017-12-22 2019-07-16 Motorola Solutions, Inc. Method, device, and system for adaptive training of machine learning models via detected in-field contextual sensor events and associated located and retrieved digital audio and/or video imaging
CN110769279B (zh) * 2018-07-27 2023-04-07 北京京东尚科信息技术有限公司 视频处理方法和装置
KR102134902B1 (ko) * 2018-11-15 2020-07-17 (주)지와이네트웍스 딥러닝 기반 음영영상의 시공간적 특성 분석을 활용한 폭력검출 프레임워킹 방법
CN109697815A (zh) * 2019-01-24 2019-04-30 广州市天河区保安服务公司 防盗通讯网络报警方法、装置设备及存储介质
CN110274590B (zh) * 2019-07-08 2022-10-28 哈尔滨工业大学 一种基于决策树的暴力动作检测方法及系统
WO2021033251A1 (ja) * 2019-08-20 2021-02-25 株式会社ソニー・インタラクティブエンタテインメント 画像処理装置、画像処理方法およびプログラム
EP3800581A1 (en) 2019-10-03 2021-04-07 Axis AB A method and apparatus for generating an object classification for an object
CN110749974B (zh) * 2019-11-04 2021-06-01 中南大学 全载玻片成像扫描仪的自动聚焦方法及其图像获取方法
CN111757175A (zh) * 2020-06-08 2020-10-09 维沃移动通信有限公司 视频处理方法及装置
US11789542B2 (en) * 2020-10-21 2023-10-17 International Business Machines Corporation Sensor agnostic gesture detection
CN115119044B (zh) * 2021-03-18 2024-01-05 阿里巴巴新加坡控股有限公司 视频处理方法、设备、系统及计算机存储介质
CN113537071B (zh) * 2021-07-19 2023-08-11 深圳龙岗智能视听研究院 一种基于事件相机的静态和动态目标检测方法及设备
CN116402811B (zh) * 2023-06-05 2023-08-18 长沙海信智能系统研究院有限公司 一种打架斗殴行为识别方法及电子设备

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7481453B2 (en) * 1991-07-09 2009-01-27 Automotive Technologies International, Inc. Inflator system
ITRM20010045A1 (it) * 2001-01-29 2002-07-29 Consiglio Nazionale Ricerche Sistema e metodo per la rilevazione della posizione relativa di un oggetto rispetto ad un punto di riferimento.
US8948468B2 (en) * 2003-06-26 2015-02-03 Fotonation Limited Modification of viewing parameters for digital images using face detection information
CN101551732A (zh) * 2009-03-24 2009-10-07 上海水晶石信息技术有限公司 带有交互功能的增强现实的方法及其系统
EP2407943B1 (en) * 2010-07-16 2016-09-28 Axis AB Method for event initiated video capturing and a video camera for capture event initiated video
US8918344B2 (en) * 2011-05-11 2014-12-23 Ari M. Frank Habituation-compensated library of affective response
GB2493956A (en) * 2011-08-24 2013-02-27 Inview Technology Ltd Recommending audio-visual content based on user's personal preerences and the profiles of others
CN102982336B (zh) * 2011-09-02 2015-11-25 株式会社理光 识别模型生成方法和系统
CN102568026B (zh) * 2011-12-12 2014-01-29 浙江大学 一种多视点自由立体显示的三维增强现实方法
EP2995079A4 (en) * 2013-05-10 2017-08-23 Robert Bosch GmbH System and method for object and event identification using multiple cameras
US9405377B2 (en) * 2014-03-15 2016-08-02 Microsoft Technology Licensing, Llc Trainable sensor-based gesture recognition
JP6471934B2 (ja) * 2014-06-12 2019-02-20 パナソニックIpマネジメント株式会社 画像認識方法、カメラシステム
US9928708B2 (en) * 2014-12-12 2018-03-27 Hawxeye, Inc. Real-time video analysis for security surveillance
US10846589B2 (en) * 2015-03-12 2020-11-24 William Marsh Rice University Automated compilation of probabilistic task description into executable neural network specification
AU2015207945A1 (en) * 2015-07-31 2017-02-16 Canon Kabushiki Kaisha Method for training an artificial neural network
US20170161555A1 (en) * 2015-12-04 2017-06-08 Pilot Ai Labs, Inc. System and method for improved virtual reality user interaction utilizing deep-learning
US20170161607A1 (en) * 2015-12-04 2017-06-08 Pilot Ai Labs, Inc. System and method for improved gesture recognition using neural networks
US10242266B2 (en) * 2016-03-02 2019-03-26 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting actions in videos
US20170311095A1 (en) * 2016-04-20 2017-10-26 Starkey Laboratories, Inc. Neural network-driven feedback cancellation
US10019629B2 (en) * 2016-05-31 2018-07-10 Microsoft Technology Licensing, Llc Skeleton-based action detection using recurrent neural network
US10427645B2 (en) * 2016-10-06 2019-10-01 Ford Global Technologies, Llc Multi-sensor precipitation-classification apparatus and method
US10606885B2 (en) * 2016-11-15 2020-03-31 Evolv Technology Solutions, Inc. Data object creation and recommendation using machine learning based online evolution

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210133133A (ko) * 2020-04-28 2021-11-05 엑시스 에이비 통계 기반 전자식 이미지 안정화

Also Published As

Publication number Publication date
US10824872B2 (en) 2020-11-03
CN108229333B (zh) 2023-04-07
CN108229333A (zh) 2018-06-29
EP3340103A1 (en) 2018-06-27
TWI713794B (zh) 2020-12-21
JP6875262B2 (ja) 2021-05-19
TW201824085A (zh) 2018-07-01
JP2018142299A (ja) 2018-09-13
KR102264202B1 (ko) 2021-06-11
US20180173956A1 (en) 2018-06-21

Similar Documents

Publication Publication Date Title
KR102264202B1 (ko) 모션 비디오 내의 이벤트들을 식별하기 위한 방법
TWI706377B (zh) 在視訊序列中的動作辨識
JP4629090B2 (ja) カメラ・タンパリング検出
US10986338B2 (en) Thermal-image based video compression systems and methods
US9521377B2 (en) Motion detection method and device using the same
JP2018142299A5 (ko)
TWI522967B (zh) 基於小腦模型網路的移動物體偵測方法及其裝置
US20010046310A1 (en) Optical monitoring apparatus with image-based distance accommodation
US20100306793A1 (en) Method, system and computer program product for detecting pornographic contents in video sequences
TWI767950B (zh) 用於偵測事件之方法及設備
CN112132863A (zh) 一种高空抛物检测流程及分析方法
JP6809114B2 (ja) 情報処理装置、画像処理システム、プログラム
Yuwono et al. Design and implementation of human detection feature on surveillance embedded IP camera
KR102107137B1 (ko) 팬틸트줌 카메라를 이용한 이벤트 감지방법 및 장치
WO2024013936A1 (ja) 映像処理システム、映像処理装置及び映像処理方法
US20170256285A1 (en) Video processing method and video processing system
KR20230069735A (ko) 디지털 이미지 안정화를 위한 이미지 처리 장치 및 방법
TWI545945B (zh) Image tampering detection method and system
KR20200082959A (ko) 동영상 압축 비트스트림 기반의 움직임 검출 장치 및 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant