KR20180072563A

KR20180072563A - 모션 비디오 내의 이벤트들을 식별하기 위한 방법

Info

Publication number: KR20180072563A
Application number: KR1020170173401A
Authority: KR
Inventors: 빅토르 에드팜; 에릭 앤더슨; 송 위안
Original assignee: 엑시스 에이비
Priority date: 2016-12-21
Filing date: 2017-12-15
Publication date: 2018-06-29
Also published as: US10824872B2; CN108229333B; CN108229333A; EP3340103A1; TWI713794B; JP6875262B2; TW201824085A; JP2018142299A; KR102264202B1; US20180173956A1

Abstract

본 발명은 모션 비디오 카메라에 의해 캡처된 장면 내에서 이벤트들을 식별하기 위한 방법에 관한 것이다. 이러한 방법은 2개의 식별 프로세스들을 포함하며, 여기서 2개의 식별 프로세스들은 단기간 식별 프로세스 및 장기간 식별 프로세스이다. 단기간 식별 프로세스는: 캡처된 이미지 프레임들로부터의 픽셀 데이터를 분석함으로써, 캡처된 장면 내에서 이벤트들을 식별하는 것; 이벤트들을 식별할 때 사용되는 각각의 이미지 프레임과 관련된 카메라 프로세싱 데이터를 등록하는 것; 그리고 등록된 카메라 프로세싱 데이터를 입력으로서 사용하도록 되어 있는 이벤트 식별 동작에 속하는 가중치들을 조정하는 것을 포함하고, 여기서 가중치들은, 이벤트 식별 동작으로부터의 결과와 캡처된 장면의 캡처된 이미지 프레임들로부터의 픽셀들을 분석하는 것에 근거하는 식별로부터의 결과 간에 높은 상관관계가 달성되도록 조정된다. 장기간 식별 프로세스는: 등록된 카메라 프로세싱 데이터를 이벤트 식별 동작에 입력함으로써, 캡처된 장면 내에서 이벤트들을 식별하는 것을 포함한다. 이 경우 단기간 식별 프로세스는 미리결정된 기간 동안 실행되고, 이러한 미리결정된 초기 시간이 만료된 이후 장기간 식별 프로세스가 실행된다.

Description

모션 비디오 내의 이벤트들을 식별하기 위한 방법{METHOD FOR IDENTIFYING EVENTS IN A MOTION VIDEO}

본 발명은 모션 비디오(motion video) 내에서 이벤트(event)들을 식별하기 위한 프로세스(process) 및 디바이스(device)들에 관한 것이다.

오늘날의 감시 및/또는 모니터링 시스템(surveillance and/or monitoring)들은 움직임(movement), 침입(intrusion), 폭동(violence), 어슬렁 거림(loitering), 남겨진 물품들(left behind items), 등과 같은 이벤트들을 검출하도록 여러 번 정렬된다. 시스템들로 하여금 모니터링되는 장면(scene)들 내에서 일어나는 이벤트들을 검출 및 인식하도록 함으로써, 다수의 동시에 검사되는 장면들을 갖는 시스템 내에서의 모니터링을 위해 더 적은 인력(manpower)이 요구될 것이기 때문에 이러한 타입의 감시 및/또는 모니터링 시스템들의 동작은 도움을 주고 있다. 하지만, 시스템으로 하여금 이벤트들을 인식 및 검출하도록 하는 것은 많은 프로세싱 파워(processing power)를 요구한다. 그 한가지 이유는 검출되는 그리고/또는 인식되는 이벤트를 표시하기 위해 상당한 양(amount)의 공간적 및 시간적 이미지 데이터(image data) 양쪽 모두가 요구되기 때문이다.

본 발명의 목적은 감소된 양(amount)의 프로세싱 파워 및 다른 컴퓨팅 리소스(computing resource)들을 요구하는 이벤트 검출 방법을 제공하는 것이다.

이러한 목적은 청구항 제1항에 따른 방법에 의해서, 그리고 청구항 제12항에 따른 시스템에 의해서 달성된다. 본 발명의 다른 실시예들은 종속 청구항들에서 제시된다.

특히, 본 발명의 일부 실시예들에 따르면, 모션 비디오 카메라(motion video camera)에 의해 캡처(capure)된 장면 내에서 이벤트들을 식별하기 위한 방법은 2개의 식별 프로세스(identification process)들을 포함하고, 이러한 2개의 식별 프로세스들은 단기간 식별 프로세스(temporary identification process) 및 장기간 식별 프로세스(long-term identification process)이다. 단기간 식별 프로세스는: 캡처된 이미지 프레임(image frame)들로부터의 픽셀 데이터(pixel data)를 분석함으로써, 캡처된 장면 내에서 이벤트들을 식별하는 것; 이벤트들을 식별할 때 사용되는 각각의 이미지 프레임과 관련된 카메라 프로세싱 데이터(camera processing data)를 등록(registering)하는 것; 그리고 등록된 카메라 프로세싱 데이터를 입력으로서 사용하도록 되어 있는 이벤트 식별 동작(event identifying operation)에 속하는 가중치(weight)들을 조정하는 것을 포함하고, 여기서 가중치들은, 이벤트 식별 동작으로부터의 결과와 캡처된 장면의 캡처된 이미지 프레임들로부터의 픽셀들을 분석하는 것에 근거하는 식별로부터의 결과 간에 상관관계(correlation)가 증가되도록 조정된다. 장기간 식별 프로세스는: 등록된 카메라 프로세싱 데이터를 이벤트 식별 동작에 입력함으로써, 캡처된 장면 내에서 이벤트들을 식별하는 것을 포함한다. 더욱이, 단기간 식별 프로세스는 미리결정된 기간(time period) 동안 실행되고, 이러한 미리결정된 초기 시간이 만료된 이후 장기간 식별 프로세스가 실행된다. 카메라 프로세싱 데이터에 근거하여 이벤트를 식별하는 것의 한 가지 이점은, 이벤트 검출을 위해 요구되는 프로세싱 파워가 감소된다는 것인데, 왜냐하면 프로세싱되는 데이터의 양이, 이미지들을 나타내는 픽셀 데이터에 대해서보다 훨씬 더 적어지기 때문이다. 더욱이, 카메라 프로세싱 데이터는, 상당한 정도로, 모션 비디오 카메라의 주변환경(surroundings)에 따라 달라질 수 있고, 아울러 모션 비디오 카메라가 어떻게 설치되었는지에 따라 달라질 수 있기 때문에(예를 들어, 아주 높은 곳에서 아래를 내려다 보게 설치된 경우, 높이가 낮은 지표면에서 위를 바라보게 설치된 경우, 인간의 어깨 높이에 설치된 경우, 장면 내에서 움직임의 진행 방향으로 설치된 경우, 장면 내에서 움직임의 진행 방향에 수직으로 설치된 경우, 교통 감시를 위해 설치된 경우, 사람들의 움직임을 추적하기 위해 설치된 경우, 광장(square)에 설치된 경우, 주차장에 설치된 경우, 차고(garage)에 설치된 경우, 상점에 설치된 경우, 쇼핑 몰(shopping mall)에 설치된 경우, 도로를 따라 설치된 경우, 등), 장기간 식별 프로세스로부터 생성되는 결과의 품질은, 단기간 식별 프로세스에서의 모션 비디오 카메라에 대해 제공되는 고유한 훈련(unique training)에 의해, 상당히 증가된다. 따라서, 특정 위치에서의 특정 모션 비디오 카메라에 대한 고유한 훈련에 의해, 감소된 양의 데이터를 사용하는 것이 가능하게 된다. 따라서, 초기 훈련 및 고유한 훈련의 2 단계 프로세스, 그 다음에 이러한 훈련 및 저속의 데이터 전송속도를 갖는 카메라 프로세싱 데이터에 근거하여 이벤트를 식별하는 것이 함께 결합되어 프로세싱 파워 요건들이 적어진 상태로 이벤트를 검출할 수 있게 하는 결과가 만들어진다. 따라서, 이러한 이벤트 식별은 또한, 한정된 컴퓨팅 리소스들을 갖는 모니터링 카메라(monitoring camera)에 의해 사용될 수 있다.

더욱이, 일부 실시예들에서, 단기간 식별 프로세스는 모션 비디오 카메라가 초기에 설정(set up)될 때 시작되고, 그리고 이러한 실시예들에서 혹은 일부 다른 실시예들에서, 단기간 식별 프로세스는 요청(request)이 있는 경우 시작된다. 따라서, 카메라 프로세싱 데이터를 사용하는 이벤트 검출 동작(event detection operation)의 훈련은, 카메라의 환경에 대해 고유하게(uniquely) 훈련될 수 있고, 그리고 만약 다른 환경으로 이동된다면 다시 훈련될 수 있다. 단기간 식별 프로세스를 시작하도록 하는 요청은 사용자에 의해 모션 비디오 카메라에 입력되는 명령(instruction)일 수 있다.

또 하나의 다른 실시예들에서, 단기간 식별 프로세스는 네트워크(network)를 통해 모션 비디오 카메라에 연결된 디바이스에 의해 실행된다. 이것의 한 가지 이점은, 상대적으로 낮은 컴퓨팅 혹은 프로세싱 능력을 갖는 모션 비디오 카메라에 비해 상대적으로 높은 컴퓨팅 혹은 프로세싱 능력을 갖는 디바이스 상에서 단기간 식별 프로세스의 훈련이 실행될 수 있게 하는 그러한 모션 비디오 카메라를 얻을 수 있다는 것이다.

일부 실시예들에서, 단기간 식별 프로세스 동안, 이벤트 식별 동작에 속하는 가중치들은, 네트워크를 통해 모션 비디오 카메라에 연결된 디바이스 내에 저장된다. 이러한 실시예들 중 일부에서, 이벤트 식별 동작에 속하는 가중치들은, 네트워크를 통해 모션 비디오 카메라로 전달된다.

다른 실시예들의 경우, 카메라 프로세싱 데이터를 입력으로서 사용하는 이벤트 식별 동작의 가중치들 및 코드(code)는, 장기간 식별 프로세스에서 모션 비디오 카메라에서 실행된다. 이것의 이점은 이벤트 식별 프로세스가 모션 비디오 카메라로 하여금 오로지 이벤트가 식별될 때에만 네트워크 부하(network load)에 기여하게 하는 것을 가능하게 한다는 것이다. 이에 따라, 어떠한 이벤트들도 존재하지 않는 경우, 네트워크 부하는 감소될 수 있고(예를 들어, 어떠한 데이터도 전혀 전송될 필요가 없음), 그리고 이벤트가 검출되는 경우에도 네트워크 부하가 또한 감소될 수 있는데, 왜냐하면 이벤트가 일어났음을 식별시키기 위해, 오로지 한정된 양의 데이터만이 전송될 것이 요구되기 때문이다.

일부 실시예들은 또한, 장기간 식별 프로세스에서의 실패된 이벤트 식별에 응답하여 단기간 식별 프로세스를 다시 시작((restarting)하는 것을 포함한다.

일부 실시예들의 경우, 등록된 카메라 프로세싱 데이터를 입력으로서 사용하도록 되어 있는 이벤트 식별 동작에 속하는 가중치들을 조정하는 것은, 뉴럴 네트워크 훈련 세션(neural network training session)의 일부이다.

다른 실시예들에서, 이벤트 식별 동작은 뉴럴 네트워크에 의해 수행된다.

본 발명의 또 하나의 다른 실시형태에 따르면, 통신 네트워크를 통해 통신하도록 되어 있는 모션 비디오 카메라 및 프로세싱 디바이스를 포함하는 시스템이 앞서의 실시예들 중 어느 하나의 실시예에 따른 방법을 수행하도록 구성된다. 앞서의 실시예들과 관련하여 제시된 이점들은 시스템에 관한 대응하는 실시예들에 적용가능하다.

일부 실시예들에서, 프로세싱 디바이스는 단기간 식별 프로세스를 수행하도록 구성된다. 다른 실시예들에서, 모션 비디오 카메라는 장기간 식별 프로세스를 수행하도록 구성된다. 또 하나의 다른 실시예들에서, 프로세싱 디바이스는 장기간 식별 프로세스를 수행하도록 구성된다.

본 발명의 응용가능성(applicability)의 추가적 범위는 아래에서 제공되는 상세한 설명으로부터 명백하게 될 것이다. 하지만, 이러한 상세한 설명 및 특정 예들은, 비록 이들이 본 발명의 바람직한 실시예들을 표시하고는 있지만, 단지 예시적 목적으로만 제공되는 것임을 이해해야 하는데, 왜냐하면 본 발명의 범위 내에서 다양한 변경들 및 수정들이 이러한 상세한 설명으로부터 본 발명의 기술분야에서 숙련된 자들에게는 명백하게 될 것이기 때문이다. 따라서, 본 발명은 설명되는 디바이스의 특정 컴포넌트 부분들 혹은 설명되는 방법들의 단계들로만 한정되지 않음을 이해해야 하는데, 왜냐하면 이러한 디바이스 및 방법은 다양하게 변할 수 있기 때문이다. 본 명세서에서 사용되는 용어는 단지 특정 실시예들을 설명할 목적을 가지고 있는 것이지 한정의 의미로 사용되도록 의도된 것이 아님을 또한 이해해야 한다. 본 명세서 및 첨부되는 청구항에서 사용되는 바와 같은 단수적 표현은 문맥이 명확히 다르게 기재하고 있지 않다면 해당 요소가 하나 이상 존재함을 의미하도록 의도된 것임을 유의해야만 한다. 따라서, 예를 들어, "임의의 센서(sensor)" 혹은 "상기 센서"와 같이 언급되는 것은 수 개의 센서들, 등을 포함할 수 있다. 더욱이, 단어 "포함하는"은 다른 요소들 혹은 단계들을 배제하는 것이 아니다.

본 발명의 다른 특징들 및 이점들은 첨부되는 도면들을 참조하는 현재 바람직한 실시예에 관한 다음의 상세한 설명으로부터 명백하게 될 것이다.
도 1은 본 발명의 실시예들의 프로세스의 흐름도이다.
도 2는 본 발명의 시스템 구현 실시예들의 도식적 블록도이다.
더욱이, 도면들에서, 유사한 참조 부호들은 수 개의 도면들에 걸쳐 유사한 혹은 대응하는 부분들을 나타낸다.

본 발명은 모션 비디오 내에서 이벤트들을 검출하는 것에 관한 것이다. 일 실시예에 따르면, 이벤트의 검출 및 식별은 직접적인 이미지 데이터에 근거하는 것 대신에 카메라 프로세싱 데이터에 근거한다. 카메라 프로세싱 데이터는 예컨대, 카메라에 의해 캡처되어 인코딩된 비디오 스트림(encoded video stream)의 데이터 전송속도(data rate)를 표시하는 값; 등록된 카메라 프로세싱 데이터의 다른 것들과 관련된 시점(time point)들; 자동 초점 거리(auto focus distance)를 표시하는 값; 자동 화이트 발란스 기능(auto white balance function)의 설정(setting)을 표시하는 값; 자동 노출 설정(auto exposure setting)들과 관련된 값들, 예를 들어 조리개(aperture), 셔터 시간(shutter time), 이득(gain), 전자 이미지 안정화 데이터(electronic image stabilisation data)와 관련된 값들; 신호 대 잡음 비(signal to noise ratio)의 값; 캡처된 프레임 내의 콘트라스트(contrast)를 표시하는 값; 네트워크로 전송되는 데이터 전송속도를 표시하는 값; CPU 사용을 표시하는 값; 메모리 사용을 표시하는 값; 자이로(gyro) 혹은 가속도계(accelerometer)로부터의 데이터; 카메라에 연결된 PTZ 헤드(head)로부터의 위치 데이터; 레이더 센서(radar sensor)로부터의 데이터; PIR-센서(PIR-sensor)로부터의 데이터, 등일 수 있다. 카메라 프로세싱 데이터는, 앞서-언급된 것에 추가하여, 혹은 대안적으로, 앞서-언급된 값들의 시퀀스(sequence)들로부터 형성될 수 있는바, 즉, 노출 곡선; 일정 기간에 걸친 데이터 전송속도에서의 변동을 나타내는 곡선; 자동초점에 의해 표시되는 거리에서의 변동들을 나타내는 곡선; 등으로부터 형성될 수 있다. 추가적으로, 카메라의 이미지 프로세싱에서 구현되는 특정 이미지 인코딩 방식들로부터의 다양한 값들(최종 값들 및 또는 중간 값들 모두)이 카메라 프로세싱 데이터를 나타내는 것일 수 있다. 앞서의 카메라 프로세싱 데이터의 예들로부터 명백히 알 수 있는 바와 같이, 전체 프레임을 나타내는 이미지 픽셀 데이터를 사용하는 대신 카메라 프로세싱 데이터를 사용하는 경우 프로세싱할 데이터의 양은 상당히 크게 감소될 수 있다.

카메라 프로세싱 데이터를 이용하여 이벤트들을 검출하기 위한 프로세스들의 설계를 용이하게 하기 위해, 분류(classification)를 위해 설계된 뉴럴 네트워크가, 카메라 프로세싱 데이터를 입력들로서 사용하여 이벤트들을 검출하도록 훈련된다. 이러한 뉴럴 네트워크들의 예들은, 분류를 위해 설계된 뉴럴 네트워크들, 분류를 위해 설계된 합성곱 뉴럴 네트워크(convolutional neural network)들, 순환 뉴럴 네트워크(recurrent neural network)들, 순환적 뉴럴 네트워크(recursive neural network)들, 심층 신뢰 네트워크(deep belief network)들, 볼츠만 머신(Boltzmann machine)들, 등이다.

프로세싱에 근거하도록 혹은 다양한 카메라들에서 이벤트 검출기들로서 사용되도록 일반적인 분류 뉴럴 네트워크를 훈련시키는데 있어 한가지 문제는, 데이터 중 일부 데이터가 모든 카메라들에서 이용가능하지 않다는 것, 그리고 데이터 중 일부 데이터는 상이한 카메라들 간에 크게 달라질 수 있다는 것이다. 상이한 카메라들 간에 일어나는 이러한 변동들의 한 가지 이유는, 카메라들이 상이한 환경에서, 상이한 화각(view-angles)에서, 상이한 조명 조건(light conditions)에서, 기타 등등에서 설치되기 때문이며, 그리고/또는 카메라들이 서로 다른 카메라들이기 때문이다.

본 발명의 실시예에 따르면, 이러한 문제는 2-단계 이벤트 검출 프로세스를 구현함으로써 처리된다. 초기 단기간 식별 프로세스 동안, 잘-알려진 이벤트 식별 프로세스가, 캡처된 이미지 프레임들 내에서 그 캡처된 프레임들 내의 픽셀 정보에 근거하여 이벤트들을 식별하기 위해 사용되는데, 즉, 이미지 프레임들의 시퀀스에서 캡처된 픽셀 데이터가, 캡처된 장면 내에서 일어나는 이벤트들을 식별하기 위해 분석된다. 이와 동시에, 이러한 단기간 식별 프로세스에서, 다양한 카메라 프로세싱 데이터의 세트(set)가 등록된다. 등록된 카메라 프로세싱 데이터는, 픽셀 데이터에 근거하여 이벤트들을 식별하는 프로세스에서 식별된 것과 동일한 식별된 이벤트에 도달하도록 뉴럴 네트워크를 훈련시키기 위해 입력으로서 사용된다. 이러한 단기간 식별 프로세스는, 뉴럴 네트워크가, 허용가능한 신뢰도 레벨(confidence level)에 도달한 경우 또는 운용자(operator)가 프로세스의 중지(stop)를 지시한 경우 종료된다. 단기간 식별 프로세스가 중지된 경우, 이벤트 식별은, 카메라 프로세싱 데이터를 입력들로서 수신하는 훈련된 뉴럴 네트워크에 의해 장기간 식별 프로세스에서 수행된다.

본 발명의 일부 실시예들에 따르면, 이벤트 식별 프로세스는 도 1의 흐름도에서 설명되는 바와 같이 수행된다. 이벤트들을 식별하기 위한 방법은 단기간 식별 프로세스(102)로 시작하고, 이러한 단기간 식별 프로세스(102)에서, 캡처된 장면 내의 이벤트는 장면의 하나의 이미지 프레임의 픽셀 데이터에 관해 동작함으로써 식별되거나, 혹은 장면의 캡처된 이미지 프레임들의 시퀀스의 픽셀 데이터에 관해 동작함으로써 식별된다(단계(104)). 더욱이, 이벤트를 식별하는데 사용되는 캡처된 프레임/프레임들에 대응하는 기간과 관련된 카메라 프로세싱 데이터가 등록된다(단계(106)). 그 다음에, 등록된 카메라 프로세싱 데이터는 뉴럴 네트워크 기반 이벤트 식별 동작의 훈련에서 입력으로서 사용되고, 그리고 픽셀 기반 이벤트 식별기 동작으로부터 식별된 이벤트는, 등록된 카메라 프로세싱 데이터의 이러한 입력으로부터 생성되는 이벤트의 올바른 분류로서 사용된다(단계(108)). 훈련 동작은 뉴럴 네트워크의 노드들에서의 가중치들을 조정하는 것을 포함할 수 있다. 가중치들은, 카메라 프로세싱 데이터의 입력으로부터 생성되는 분류가, 픽셀-기반 이벤트 식별 동작에 의해 식별된 분류에 근접하도록 조정된다. 그 다음에, 프로세스는 단기간 식별 프로세스에 대한 미리결정된 기간이 종료되었는지를 점검함으로써 계속된다(단계(110)). 만약 단기간 식별 프로세스에 대한 기간이 종료되지 않았다면, 프로세스는 단계(104)로 되돌아가고, 단기간 식별 프로세스에서 계속된다. 만약 단기간 식별 프로세스에 대한 기간이 종료되었다면, 프로세스는 장기간 식별 프로세스에서 계속되는데, 이것은 다음 이미지 프레임을 캡처하는 것(단계(114)), 그리고 이미지 프레임의 캡처 기간과 관련된 카메라 프로세싱 데이터를 등록하는 것(단계(116))을 수행함으로써 이루어진다. 그 다음에, 캡처된 이미지 프레임의 기간과 관련된 카메라 프로세싱 데이터는 뉴럴 네트워크 기반 이벤트 식별 동작에 입력으로서 전송된다(단계(118)). 뉴럴 네트워크 기반 이벤트 식별 동작에 대한 입력은, 대안적으로 혹은 추가적으로, 하나의 이미지 프레임의 기간보다 더 긴 기간과 관련된 카메라 프로세싱 데이터를 포함할 수 있는데, 예를 들어, 더 긴 기간에 걸쳐 있는 카메라 프로세싱 데이터의 더 많은 샘플(sample)들을 포함하는 카메라 프로세싱 데이터를 포함할 수 있다. 그 다음에, 프로세스는 추가되는 훈련에 대한 요청이 수신되었는지를 점검한다(단계(120)). 만약 추가되는 훈련에 대한 요청이 수신되지 않았다면, 장기간 식별 프로세스(112)는 프로세스(114)로 되돌아감으로써 계속된다. 만약 추가되는 훈련에 대한 요청이 수신되었다면, 프로세스는 단기간 식별 프로세스의 단계(104)로 되돌아간다.

구현되는 뉴럴 네트워크는 예컨대, 순환 뉴럴 네트워크(Recurrent Neural Network, RNN)일 수 있고, 그리고 이러한 RNN을 위해 사용되는 학습 알고리즘(learning algorithm)은 역전파(backpropagation) 혹은 공액 기울기(conjugant gradient)와 같은 학습 알고리즘일 수 있다. 카메라 프로세싱 데이터는 시계열(time series)로서 보여질 수 있으며, 초기에 훈련되고, 이후에 이벤트들의 분류를 위해 프로세싱된다. RNN의 기존의 많은 구현들은 일변수 시계열(univariate time series) 및/또는 다변수 시계열(multivariate time series)을 프로세싱할 수 있는데, 즉, RNN은 벡터(vector)가 하나의 성분(component) 및/또는 복수의 성분들을 포함하는 경우 그러한 벡터들의 시퀀스를 프로세싱할 수 있다. 예를 들어, 일변수 시계열을 프로세싱하는 것은, 인코딩된 비디오 스트림의 데이터 전송속도를 표시하는 값들의 시퀀스를 프로세싱하는 것일 수 있다. 그 다음에, 다변수 시계열을 프로세싱하는 예는, 각각의 벡터가, 인코딩된 비디오 스트림의 데이터 전송속도를 표시하는 값, 그리고 화이트 발란스를 표시하는 값을 포함하는 경우 그러한 벡터들의 시퀀스를 프로세싱하는 것일 수 있다. 카메라 프로세싱 데이터의 임의의 결합이 가능하고, 그리고 이러한 결합들은 단지 두 개의 상이한 데이터 타입들만을 결합하는 것으로 한정돼서는 안 되며, 복수의 데이터 타입들도 매우 잘 결합될 수 있다. 본 명세서에서 설명되는 방법은 또한, 시계열 데이터가 아닌 데이터에 관해서도 사용될 수 있고, 이러한 경우들에서, 본 방법은 해당하는 그 특정 분류 동작에 적합한 뉴럴 네트워크를 사용하여 수행될 수 있다.

이제 도 2를 참조하면, 본 발명의 실시예들에 따른 시스템은, 통신 네트워크(214)(이하에서는 네트워크(214)로 지칭됨)를 통해 서로 연결되는 모션 비디오 카메라(210) 및 프로세싱 디바이스(212)를 포함한다. 프로세싱 디바이스(212)는 예를 들어, PC, 워크스테이션(workstation), 서버(server)일 수 있거나, 혹은 데이터를 프로세싱하기 위해 활성화될 수 있는 임의의 다른 타입의 네트워크 연결가능 디바이스일 수 있다. 네트워크(214)는 임의 타입의 네트워크일 수 있는데, 예를 들어, 이더넷(Ethernet), Wi-Fi, LAN, WAN, 인터넷(Internet), 셀룰러 연결(cellular connection), 공중 전화 교환 네트워크(public switched telephone network), 등일 수 있다. 2개의 식별 프로세스들, 즉 단기간 식별 프로세스(102) 및 장기간 식별 프로세스(112)는 두 개의 디바이스들, 즉 모션 비디오 카메라(210) 및 프로세싱 디바이스(212) 중 어느 하나에서 수행되도록 되어 있을 수 있다. 모션 비디오 카메라가 많은 여분의 프로세싱 파워를 갖고 있는 경우에, 모션 비디오 카메라가 양쪽 프로세스들을 모두 실행할 수 있다. 모션 비디오 카메라가 프로세싱 파워에 관해 그 용량(capacity)에 있어 매우 제한을 받는 실시예들에서, 양쪽 프로세스들은 프로세싱 디바이스(212)에서 실행될 수 있는데, 이 경우 프로세싱 디바이스(212)는 자신이 동작을 수행할 데이터를 모션 비디오 카메라로부터 수신하게 된다. 이러한 경우, 본 발명의 프로세스들을 사용함으로써 얻는 이득은, 단기간 식별 프로세스에서 이벤트 식별 프로세스로 전환된 경우 장기간 식별 프로세스는 어떠한 이미지 데이터도 요구하지 않기 때문에(이러한 데이터는 해당 스테이지(stage)에서 카메라에 의해 전송될 필요가 없음) 네트워크 부하가 감소될 수 있다는 것이다.

또 하나의 다른 상황에서, 단기간 식별 프로세스는 뉴럴 네트워크의 학습 스테이지(learning stage) 및 전체 이미지 프레임들의 분석을 포함하는 프로세스이고, 따라서 두 개의 식별 프로세스들 중 가장 많은 프로세싱 요구하며, 이에 따라 프로세싱 디바이스(212)에서 실행되도록 되어 있다. 반면, 장기간 식별 프로세스는 모션 비디오 카메라에서 실행되는데, 왜냐하면 이러한 프로세스는 훨씬 더 적은 프로세싱을 요구하기 때문이고, 이 경우 카메라에 의해 네트워크로 전송되는 데이터의 양은 매우 크게 감소될 수 있는데, 특히 오랜 기간 동안 그러할 수 있는바, 왜냐하면 모션 카메라는 어떠한 이벤트도 검출되지 않는 동안에 데이터를 전송하는 것을 피할 수 있기 때문이다.

여하튼, 모션 비디오 카메라는 렌즈(lens)(216), 이미지 센서(image sensor)(218), 이미지 프로세싱 유닛(image processing unit)(220)을 포함하고, 이들은 결합되어 카메라 시야(camera view)의 장면 내에서 광(light)을 캡처하고 그 광으로부터 디지털 이미지 데이터(digital image data)를 발생시키도록 구성된다. 다수의 모션 비디오 카메라들에서, 캡처된 디지털 이미지 데이터의 압축 및 인코딩은 이미지 프로세싱 디바이스에서 수행된다. 더욱이, 모션 비디오 카메라(210)는, 모션 카메라 디바이스의 더 일반적인 기능들과 관련된 프로그램(program)들을 실행하도록 구성된 중앙 프로세싱 유닛(central processing unit)(222)을 포함한다. 중앙 프로세싱 유닛(222)은 전형적으로 이미지 프로세싱에는 관여하지 않는데, 왜냐하면 이러한 동작들은 이미지 프로세싱 디바이스에 의해 프로세싱되기 때문이다. 모션 비디오 카메라는 또한 휘발성 메모리(volatile memory)(224) 및 비-휘발성 메모리(non-volatile memory)(226)를 포함하고, 여기서 휘발성 메모리(224)는 프로세싱 디바이스에 의한 실행 동안 데이터 및/또는 프로그램 코드의 단기간 저장을 위한 작업 메모리로서 사용되고, 비-휘발성 메모리(226)는 모션 카메라에 장기간 저장될 데이터 및 코드를 저장하도록 구성된다. 또한, 모션 비디오 카메라(210)는, 카메라 프로세싱 데이터 등록 모듈(camera processing data registration module)(228), 이벤트 식별 동작 모듈(event identifying operation module)(230), 및 네트워크 인터페이스(network interface)(232)를 포함한다. 카메라 프로세싱 데이터 등록 모듈(228)은 모션 비디오 카메라 내의 다양한 물리적 및/또는 논리적 인터페이스들로부터 카메라 프로세싱 데이터를 검색 혹은 수신하도록 구성된다. 예를 들어, 발생되는 이미지 스트림의 현재 데이터 전송속도가 이미지 프로세서(220)로부터 혹은 네트워크 인터페이스(232)로부터 검색될 수 있고, 온도가 카메라 내의 온도 센서에 대한 인터페이스로부터 수신될 수 있고, 기타 등등일 수 있다. 이벤트 식별 동작 모듈(230)은, 등록된 카메라 프로세싱 데이터를 사용하도록 되어 있는 이벤트 식별 동작(예를 들어, 카메라 프로세싱 데이터를 입력으로서 사용하여 동작하는 뉴럴 네트워크)의 조정(adjusting)으로 (프로세싱 디바이스(212) 상에서 실행될 수 있는) 단기간 식별 프로세스가 마무리될 때까지, 모션 비디오 카메라(210) 내에 존재하지 않을 수 있다. 네트워크 인터페이스(232)는 카메라를 네트워크(214)에 연결시키기 위한 임의의 알려진 타입의 네트워크 인터페이스일 수 있다.

프로세싱 디바이스(212)도 또한, 네트워크 인터페이스(234), 비-휘발성 메모리(236), 휘발성 메모리(238), 및 중앙 프로세싱 유닛(240)을 포함한다. 네트워크 인터페이스(234)는 프로세싱 디바이스를 네트워크에 연결하도록 구성되고, 그리고 네트워크(214)를 통해서 모션 비디오 카메라(210)에 대한 네트워크 통신을 달성하기 위해 임의의 알려진 방식으로 구현될 수 있다. 중앙 프로세싱 유닛(240), 휘발성 메모리(238), 및 비-휘발성 메모리(236)는, 프로그램 코드를 실행하는 것, 단기간 데이터 및/또는 프로그램 코드를 저장하는 것, 그리고 장기간 데이터 및/또는 프로그램 코드를 저장하는 것을 수행하도록 구성된다. 또한, 프로세싱 디바이스(212)는 픽셀 기반 이벤트 식별 동작 모듈(pixel based event identifying operation module)(242) 및 이벤트 식별 동작 훈련 모듈(event identifying operation training module)(244)을 포함한다. 픽셀 기반 이벤트 식별 동작 모듈(242) 및 이벤트 식별 동작 훈련 모듈(244)은 프로세싱 디바이스(212)에서 중앙 프로세싱 유닛(240)에 의해 실행되고 저장되는 프로그램 코드로서 구현될 수 있다.

픽셀 기반 이벤트 동작은, 이미지 프레임들 내의 픽셀들 및 픽셀들의 특성들을 분석함으로써, 한번에 하나의 프레임에 관해 동작하는 혹은 한번에 이미지 프레임들의 시퀀스에 관해 동작하는 하나의 혹은 복수의 잘-알려진 이벤트 식별 동작들을 포함할 수 있다. 이미지 프레임들은 모션 비디오 카메라에 의해 캡처되는 이미지 프레임들이고, 그리고 단기간 프로세스가 프로세싱 디바이스(212)에서 수행되는 시스템에서, 이러한 캡처된 이미지 프레임들은 네트워크를 통해 프로세싱 디바이스(212)로 전송된다. 픽셀 기반 이벤트 식별 동작들의 예들은, 장면 내에 들어오는 차량, 장면 내에 들어오는 차량의 타입, 장면 내에 들어오는 차량의 속도, 장면 내에 들어오는 차량들의 수, 등이다. 이벤트 픽셀 기반 식별 동작들은 부가적으로 혹은 대안적으로, 장면 내에 들어오는 사람, 장면 내에 들어오는 동물, 장면 내에 들어오는 특정 물체, 등과 관련될 수 있는데, 여기에는 또한 앞에서 차량에 대해 제시된 변화들이 포함된다. 또한, 픽셀 기반 이벤트 식별 동작들은, 장면 내에서 모션이 일어난 것을 식별하는 것, 어슬렁거림, 대규모 군중 모임(large crowd gathering), 교통 정체(traffic jam), 눈(snow), 비(rain), 스모그(smog), 하우징(housing) 상의 먼지로 인한 악화된 이미지, 초첨을 벗어난 렌즈, 이상현상들(anomalies)을 포함할 수 있다.

도 2에 도시된 시스템에서, 단기간 프로세스가 프로세싱 디바이스에서 수행되는 경우, 적어도 단기간 프로세스의 실행 동안 카메라는 캡처된 장면의 이미지 프레임들을 포함하는 비디오 스트림, 그리고 모션 비디오 카메라 및/또는 설정과 관련된 카메라 프로세싱 데이터를 전송한다. 카메라 프로세싱 데이터 중 어떤 타입들에 관해 동작을 수행할 지에 관한 선택은, 특정 카메라에서의 다양한 카메라 프로세싱 데이터(앞서의 예들을 참조하기 바람)의 이용가능성(availability)에 의해 제한된다. 더욱이, 카메라 프로세싱 데이터의 타입들이 또한 제한될 수 있다. 하지만, 특정 카메라에 대한 카메라 프로세싱 데이터를 나타내는 전체 이용가능한 데이터 세트는 상대적으로 작을 확률이 높기 때문에, 전체 세트가 종종 사용될 수 있다. 이벤트 식별 동작을 나타내는 뉴럴 네트워크의 훈련은, 훈련 입력(training input)을 촉발(triggering)시키는 것으로서, 픽셀 기반 이벤트 식별 동작을 사용함으로써, 실행되는데, 즉, 픽셀 기반 이벤트 식별 동작에 의해 이벤트가 식별되는 경우, 뉴럴 네트워크를 훈련시키는 프로세스는, 훈련 프로세스에 대한 식별 전에 임의의 기간을 나타내는 카메라 프로세싱 데이터를 입력으로서 구성하고, 그리고 뉴럴 네트워크로 하여금 그 입력된 카메라 프로세싱 데이터를 픽셀 기반 이벤트 식별 동작에 의해 검출된 이벤트와 동일한 이벤트로서 식별할 확률이 더 높도록 하기 위해 훈련 프로세스에서의 뉴럴 네트워크의 가중치들을 조정한다.

시스템의 추가적인 훈련은 앞에서 설명된 바와 같이 개시될 수 있고, 이에 따라 단기간 식별 프로세스의 재시작을 포함할 수 있다. 추가적으로 혹은 대안적으로, 카메라 프로세싱 데이터를 입력으로서 사용하도록 구성된 이벤트 식별 동작의 추가적인 훈련 혹은 개선은, 이벤트 식별 동작이 이벤트를 분류하고 그 결과가 특정 분류에 대한 이벤트 식별 동작에 의해 수집된 신뢰도 값이, 미리결정된 임계치보다 더 낮은 그러한 결과에 응답하여 개시될 수 있다. 신뢰도 값이 낮을수록, 분류는 더 불확실해진다. 이러한 추가 훈련은, 신뢰도가 낮은 분류를 얻은 이벤트에 대한 시점(time point)을 포함하는 임의의 기간(time period)과 관련된 카메라 프로세싱 데이터 및 픽셀 데이터를 검색함으로써 시작될 것이다. 이 경우, 이러한 데이터 세트들은, 훈련 동작에 의해 프로세싱될 것인데, 즉, 픽셀 기반 이벤트 식별 동작에 의해 그리고 이벤트 식별 동작을 향상시키기 위해 이벤트 식별 동작의 가중치들을 조정하는 프로세스에 의해, 프로세싱될 것이다. 그 다음에, 향상된 이벤트 식별 동작은 이전의 이벤트 식별 동작을 대체하도록 구성된다.

더 앞에서 언급된 바와 같이, 카메라 프로세싱 데이터에 근거하여 이벤트들을 식별하는 것의 이점들은 많다. 이러한 이점들의 이해를 용이하게 하기 위해, 시간적으로 압축되는 비디오의 이미지 스트림 데이터 전송속도(image stream data rate)를 본 발명에서의 카메라 프로세싱 데이터로서 사용하는 것이 아래에서 약간 더 상세히 설명될 것이다. 이미지 스트림 데이터 전송속도는, 이벤트 검출을 원하는 장면의 모션 비디오를 캡처하는 카메라(210)의 이미지 프로세싱 디바이스(220)에서 시간적으로 압축을 행하는 비디오 인코더(video encoder)에 의해 수집되는 데이터의 양을 나타내는 척도이다. 인코더에 의해 수집되는 데이터의 양은 연속적으로 캡처된 이미지 프레임들 간의 변화(change)의 양에 따라 달라진다. 예를 들어, 본질적으로 어떠한 움직이는 물체들도 갖지 않는 장면의 이미지 시퀀스는 많은 움직임을 갖는 장면의 이미지 시퀀스보다 결과적으로 그 인코딩되는 데이터가 더 적을 것이다. 따라서, 인코딩 단계 이후 데이터의 양은 연속적으로 캡처된 이미지들에서의 변동들에 크게 의존한다. 이것은 또한, 인코더에 의해 발생되는 인코딩된 이미지 데이터의 양이, 장면 내의 움직임들에 의해 영향을 받는 이미지 센서 상의 픽셀들의 수에 의존한다는 것으로서 설명될 수 있다. 예를 들어, 카메라에 근접해 있는 물체 혹은 장면 내에서 큰 물체는, 카메라로부터 멀리 떨어져 있는 물체들 혹은 작은 물체보다 이미지 센서 상의 더 많은 픽셀들에 영향을 미칠 것이다. 따라서, 데이터의 양은 이미지 정보의 시간적 압축의 결과(effect)이다.

본 발명의 실시예들에 따르면, 모니터링되는 장면의 모션 비디오를 포함하는 데이터 스트림에서 단위 시간 당 데이터의 양을 나타내는 복수의 데이터 전송속도들은, 순차적으로 측정되고 등록되며, 카메라 프로세싱 데이터에 포함된다. 그럼으로써, 시간 경과에 따른 데이터 전송속도에서의 변동을 나타내는 데이터세트(dataset)가 등록된다. 데이터 전송속도는 시스템 내의 다양한 위치들로부터 측정될 수 있거나 검색될 수 있다. 예를 들어, 데이터 전송속도는, 카메라(220)의 이미지 프로세싱 디바이스(220) 내의 인코더에서, 또는 카메라의 네트워크 인터페이스(232)에서, 또는 네트워크(214) 내의 스위치(switch) 혹은 라우터(router)에서, 또는 네트워크 인터페이스(234)에서, 또는 네트워크(214)에 연결된 프로세싱 디바이스(212) 내의 디코더(decoder)에서, 측정될 수 있거나 검색될 수 있다. 데이터 전송속도는 이미지 스트림을 나타내는 스트림 상에서 직접적으로 측정될 수 있지만, 모션 비디오를 전송하는 네트워크 패킷(network packet)들의 데이터 전송속도를 측정함으로써 또한 측정될 수 있다. 데이터 스트림의 데이터 전송속도를 측정하는 프로세스 또는 임의의 데이터 전송을 측정하는 프로세스는 본 발명의 기술분야에서 숙련된 사람에게 잘 알려져 있다. 시간 경과에 따른 데이터 전송속도를 나타내는 데이터세트는, 특히 모션 비디오 스트림을 나타내기 위해 요구되는 데이터와 비교하여, 매우 적은 양의 데이터를 사용하여 표현될 수 있다. 예를 들어, 시간 경과에 따른 데이터 전송속도에서의 변동을 나타내는 데이터세트 내에, 이미지 스트림 내의 각각의 이미지를 나타낼 때 사용되는 데이터의 양을 나타내는 값(value) 혹은 데이터 엔트리(entry)를 포함시키는 것을 고려한다. 만약 카메라가 10 메가픽셀 카메라(megapixel camera)라면, 인트라 프레임(intra frame)(즉, 공간적으로 인코딩되는 프레임)의 크기는 표준 인코더들 중 어느 한 인코더를 사용하면 대략 2.5 MB가 되게 된다. 무손실 코딩 방식(lossless coding scheme)을 사용하여 인코딩되는 10 메가픽셀 프레임조차도 10 MB보다 월등히 더 큰 크기를 갖지 않게 된다. 0 MB와 10 MB 사이에 있는 모든 크기를 나타내는 값 혹은 데이터 엔트리를 등록하기 위해, 단지 3 바이트(bytes)만이 필요할 것인데, 왜냐하면 3 바이트는 1600 만개 이상의 값들을 나타낼 수 있기 때문이다. 데이터 전송속도의 분해능(resolution)이 그렇게 중요하지 않은 경우, 심지어 2 바이트 혹은 1 바이트를 사용하여 데이터 전송속도를 나타내는 것도 가능할 수 있다. 어쨌든, 데이터세트 내에서 데이터 전송속도를 나타내기 위해 필요한 데이터는, 하나의 인트라 프레임을 나타내기 위해 사용되는 데이터보다 거의 100만 배 정도 용이하게 더 작아질 수 있다. 비디오를 스트리밍(streaming)하는 경우, 프레임 당 사용되는 데이터는 당연히 더 작아질 것인데, 왜냐하면 인터 프레임(inter frame)들은 시간적으로 인코딩되기 때문이다. 한편, 사용되는 데이터 세트가 모든 프레임의 크기를 포함할 필요는 없을 수 있지만 미리결정된 기간에 걸쳐 그 누적된 데이터 양을 나타낼 수 있다. 일 실시예에서, 프레임 크기는 데이터 전송속도의 표현으로서 등록된다. 프레임 크기는 프레임을 인코딩하기 위해 필요한 데이터의 양을 표시한다. 프레임 크기는 4 바이트(32 비트(bits))를 사용하여 등록되고, 그리고 각각의 프레임에 대해 프레임 크기가 등록된다. 프레임들은 초 당 30개의 프레임들로 캡처되고, 이에 따라 이벤트들의 검출을 위해 본 발명에 의해 사용되는 데이터는 이러한 실시예에서 0.12 Kb/s일 수 있다. 이것은 정상적인 모션 비디오 스트림의 데이터 전송속도인 6000 Kb/s보다 훨씬 더 작다.

이에 따라, 본 발명에 따른 시스템이 장기간 식별 프로세스로 전환된 경우, 이벤트를 검출하기 위해 요구되는 데이터의 양의 급격한 감소는, 픽셀 기반 이벤트 검출 동작과 비교하여, 이벤트 식별 동작의 프로세싱 파워 요건들에 상당히 큰 영향을 미칠 것이다. 비록 본 발명의 이벤트 식별 동작이, 앞서 언급된 바와 같이, 추가적인 정보 타입들을 갖도록 설계되어 있지만, 이러한 추가되는 데이터 세트들은, 이미지 프레임 혹은 이미지 프레임들의 시퀀스를 나타내기 위해 필요한 데이터 양(data amount)과 비교하여, 여전히 매우 작을 것이다.

Claims

모션 비디오 카메라(motion video camera)에 의해 캡처(capure)된 장면(scene) 내에서 이벤트(event)들을 식별하기 위한 방법으로서, 상기 방법은 2개의 식별 프로세스(identification process)들을 포함하고, 상기 2개의 식별 프로세스들은 단기간 식별 프로세스(temporary identification process) 및 장기간 식별 프로세스(long-term identification process)이며,
상기 단기간 식별 프로세스는,
캡처된 이미지 프레임(image frame)들로부터의 픽셀 데이터(pixel data)를 분석함으로써 상기 캡처된 장면 내에서 이벤트들을 식별하는 것과;
이벤트들을 픽셀 데이터에 근거하여 식별할 때 사용되는 상기 이미지 프레임의 캡처 기간과 관련된 카메라 프로세싱 데이터(camera processing data)를 등록(registering)하는 것과; 그리고
뉴럴 네트워크 기반 이벤트 식별 동작(neural network based event identifying operation)을 훈련(training)시키는 것을 포함하고,
여기서, 상기 카메라 프로세싱 데이터는,
카메라에 의해 캡처되어 인코딩된 비디오 스트림(encoded video stream)의 데이터 전송속도(data rate)를 표시하는 값;
자동 초점 거리(auto focus distance)를 표시하는 값;
자동 화이트 발란스 기능(auto white balance function)의 설정(setting)을 표시하는 값;
자동 노출 설정(auto exposure setting)들과 관련된 값들, 예를 들어 조리개(aperture), 셔터 시간(shutter time), 이득(gain), 전자 이미지 안정화 데이터(electronic image stabilisation data)와 관련된 값들;
신호 대 잡음 비(signal to noise ratio)의 값;
캡처된 프레임 내의 콘트라스트(contrast)를 표시하는 값;
네트워크로 전송되는 데이터 전송속도를 표시하는 값;
CPU 사용을 표시하는 값;
메모리 사용을 표시하는 값;
자이로(gyro) 혹은 가속도계(accelerometer)로부터의 데이터;
카메라에 연결된 PTZ 헤드(head)로부터의 위치 데이터;
레이더 센서(radar sensor)로부터의 데이터; 및
PIR-센서(PIR-sensor)로부터의 데이터 중 하나 이상을 포함하고,
상기 뉴럴 네트워크 기반 이벤트 식별 동작을 훈련시키는 것은,
상기 캡처된 이미지 프레임들로부터 픽셀 데이터를 분석함으로써 상기 캡처된 장면 내에서 이벤트들을 식별할 때 사용되는 상기 이미지 프레임들의 캡처 기간과 관련된 상기 등록된 카메라 프로세싱 데이터를 입력으로서 사용함과 아울러
상기 식별된 이벤트들을 상기 뉴럴 네트워크 기반 이벤트 식별 동작으로부터 생성되는 이벤트의 올바른 분류(classification)로서 사용하여 이루어지며,
상기 장기간 식별 프로세스는,
상기 픽셀 데이터를 분석하기 위해 사용된 상기 이미지 프레임들 이후에 캡처되는 이미지 프레임들의 캡처 기간과 관련된 카메라 프로세싱 데이터를 등록하는 것과; 그리고
상기 픽셀 데이터를 분석하기 위해 사용된 상기 이미지 프레임들 이후에 캡처되는 이미지 프레임들의 캡처 기간과 관련된 상기 등록된 카메라 프로세싱 데이터를 상기 훈련된 뉴럴 네트워크 기반 이벤트 식별 동작에 입력함으로써 상기 캡처된 장면 내에서 이벤트들을 식별하는 것을 포함하고,
상기 단기간 식별 프로세스는 미리결정된 기간 동안 실행되고,
상기 장기간 식별 프로세스는 상기 미리결정된 기간이 만료된 이후 실행되는 것을 특징으로 하는 모션 비디오 카메라에 의해 캡처된 장면 내에서 이벤트들을 식별하기 위한 방법.
제1항에 있어서,
상기 뉴럴 네트워크 기반 이벤트 식별 동작을 훈련시키는 것은, 상기 뉴럴 네트워크 기반 이벤트 식별 동작의 노드(node)들에 속하는 가중치(weight)들을 조정하는 것을 포함하고,
상기 뉴럴 네트워크 기반 이벤트 식별 동작의 상기 노드들의 상기 가중치들은, 상기 뉴럴 네트워크 기반 이벤트 식별 동작으로부터 생성되는 이벤트의 분류가, 상기 캡처된 이미지 프레임들로부터의 픽셀 데이터의 분석에 의해 식별되는 이벤트의 분류에 근접하도록 조정되는 것을 특징으로 하는 모션 비디오 카메라에 의해 캡처된 장면 내에서 이벤트들을 식별하기 위한 방법.
제1항에 있어서,
상기 단기간 식별 프로세스는 요청(request)이 있는 경우 시작되는 것을 특징으로 하는 모션 비디오 카메라에 의해 캡처된 장면 내에서 이벤트들을 식별하기 위한 방법.
제3항에 있어서,
상기 요청은 사용자에 의해 상기 모션 비디오 카메라에 입력되는 명령(instruction)인 것을 특징으로 하는 모션 비디오 카메라에 의해 캡처된 장면 내에서 이벤트들을 식별하기 위한 방법.
제1항에 있어서,
상기 단기간 식별 프로세스는 네트워크(network)를 통해 상기 모션 비디오 카메라에 연결된 디바이스에 의해 실행되는 것을 특징으로 하는 모션 비디오 카메라에 의해 캡처된 장면 내에서 이벤트들을 식별하기 위한 방법.
제2항에 있어서,
상기 단기간 식별 프로세스 동안 상기 가중치들은 네트워크를 통해 상기 모션 비디오 카메라에 연결된 디바이스 내에 저장되는 것을 특징으로 하는 모션 비디오 카메라에 의해 캡처된 장면 내에서 이벤트들을 식별하기 위한 방법.
제6항에 있어서,
상기 가중치들은 상기 네트워크를 통해 상기 모션 비디오 카메라로 전달되는 것을 특징으로 하는 모션 비디오 카메라에 의해 캡처된 장면 내에서 이벤트들을 식별하기 위한 방법.
제1항에 있어서,
상기 뉴럴 네트워크 기반 이벤트 식별 동작의 상기 가중치들 및 코드(code)는, 상기 장기간 식별 프로세스에서 상기 모션 비디오 카메라에서 실행되는 것을 특징으로 하는 모션 비디오 카메라에 의해 캡처된 장면 내에서 이벤트들을 식별하기 위한 방법.
제1항에 있어서,
상기 방법은 또한, 상기 장기간 식별 프로세스에서 상기 뉴럴 네트워크 기반 이벤트 식별에 의해 발생된 신뢰도 값(confidence value)이, 미리결정된 임계치보다 작은 것에 응답하여, 상기 단기간 식별 프로세스를 다시 시작(restarting)하는 것을 포함하는 것을 특징으로 하는 모션 비디오 카메라에 의해 캡처된 장면 내에서 이벤트들을 식별하기 위한 방법.
통신 네트워크를 통해 통신하도록 되어 있는 모션 비디오 카메라 및 프로세싱 디바이스를 포함하는 시스템으로서, 상기 시스템은 청구항 제1항에 따른 방법을 수행하도록 되어 있는 것을 특징으로 하는 시스템.
제10항에 있어서,
상기 프로세싱 디바이스는 단기간 식별 프로세스를 수행하도록 되어 있는 것을 특징으로 하는 시스템.
제10항에 있어서,
상기 모션 비디오 카메라는 장기간 식별 프로세스를 수행하도록 되어 있는 것을 특징으로 하는 시스템.
제10항에 있어서,
상기 프로세싱 디바이스는 장기간 식별 프로세스를 수행하도록 되어 있는 것을 특징으로 하는 시스템.