KR20150029006A

KR20150029006A - 비디오 감시 시스템을 위한 피처 이례들의 무감독 학습

Info

Publication number: KR20150029006A
Application number: KR20157002597A
Authority: KR
Inventors: 웨슬리 케네스 코브; 밍-중 서우
Original assignee: 비헤이버럴 레코그니션 시스템즈, 인코포레이티드
Priority date: 2012-06-29
Filing date: 2013-06-27
Publication date: 2015-03-17
Also published as: EP2867860A1; EP2867860A4; US20140003710A1; US9111148B2; WO2014004901A1; BR112014032832A2

Abstract

비디오 카메라에 의해 캡처된 비디오 프레임들의 입력 스트림에서 보여진 장면을 분석하기 위한 기법들이 개시된다. 일 실시예에서, 예를 들어, 머신 학습 엔진은 관찰들에 기초하여 위상적 피처 맵들을 생성하기 위한 통계 엔진들 및 피처 이례들을 검출하기 위한 검출 모듈을 포함할 수 있다. 통계 엔진들은 관찰된 포지션-피처 특성들을 클러스터링하는 ART(adaptive resonance theory) 네트워크를 포함할 수 있다. 통계 엔진들은 추가로 클러스터들을 강화, 감쇠, 합병 및 제거할 수 있다. 검출 모듈은 ART 네트워크들에서 되풀이하는 관찰들 및 데이터에 대하여 희소성 값을 계산할 수 있다. 또한, 검출의 감도는 최근에 관찰된 이례들의 상대적 중요도에 따라 조정될 수 있다.

Description

비디오 감시 시스템을 위한 피처 이례들의 무감독 학습{UNSUPERVISED LEARNING OF FEATURE ANOMALIES FOR A VIDEO SURVEILLANCE SYSTEM}

[0001] 본 발명의 실시예들은 비디오 프레임들의 시퀀스를 분석하기 위한 기법들을 제공한다. 보다 구체적으로, 피처 이례들(feature anomalies)의 무감독 학습(unsupervised learning)을 포함한 스트리밍 비디오 데이터에 기초한 분석 및 학습 행동에 관한 것이다.

[0002] 몇몇 현재 이용 가능한 비디오 감시 시스템들은 단순한 객체 인식 능력들을 제공한다. 예를 들어, 비디오 감시 시스템은 주어진 프레임의 픽셀들의 그룹("블랍(blob)"으로서 지칭됨)을 특정한 객체(예를 들어, 인간 또는 운송수단(vehicle))로서 분류하도록 구성될 수 있다. 일단 식별되면, "블랍"은 시간에 걸쳐서 장면을 두루 이동하는 "블랍", 예를 들어, 비디오 감시 카메라의 시계(field of vision)에 걸쳐서 걷고 있는 사람을 따라가기 위해, 프레임마다 트래킹될 수 있다. 또한, 이러한 시스템들은 객체가 특정한 미리 정의된 행동들에 관여할 때를 결정하도록 구성될 수 있다. 예를 들어, 시스템은 다수의 미리-정의된 이벤트들의 발생을 인지하는데 이용되는 정의들을 포함할 수 있는데, 예를 들어, 시스템은 다수의 프레임들에 걸쳐서 자동차(운송수단-출현 이벤트)가 정지하게 되는(운송수단-정지 이벤트) 것을 보여주는 것으로서 분류된 객체의 외형을 평가할 수 있다. 그 후, 새로운 전경 객체가 나타나고 사람으로 분류될 수 있고(사람-출현 이벤트), 이후 사람은 프레임을 퇴장한다(사람-사라짐 이벤트). 또한, 시스템은 최초의 2개의 이벤트들의 결합을 "주차-이벤트(parking-event)"로서 인지할 수도 있다.

[0003] 그러나, 통상적으로 이러한 감시 시스템들은, 시간에 걸쳐서 장면에서 발생하는 것을 관찰함으로써 객체들, 이벤트들, 행동들 또는 패턴들을 식별하거나 업데이트하는 것(또는 이러한 객체들, 이벤트들, 행동들 등을 정상 또는 이례적으로 분류하는 것)을 할 수 없고; 대신, 이러한 시스템들은 미리 정의된 정적인 패턴에 의존한다. 예를 들어, 이러한 감시 시스템들은, 미리-정의된 맵들 또는 패턴들에 의존하지 않으면, 장면에서의 보통의 피처들(예를 들어, 동일한 위치에서 보통의 반짝임)로부터 장면에서의 피처 이례들(예를 들어, 특정한 위치의 비일반적 반짝임)을 구별하고 피처 이례들의 인스턴스들을 사용자에 리포트할 수 없다.

[0004] 일 실시예는 비디오 카메라에 의해 관찰된 장면을 분석하기 위한 방법을 제공한다. 이 방법은 장면에서 객체에 대한 운동학적 및 피처 데이터를 수신하는 단계 및 하나 또는 그 초과의 프로세서들을 통해, 수신된 데이터로부터 포지션-피처 벡터를 결정하는 단계를 포함하고, 포지션-피처 벡터는 위치 및 위치의 하나 또는 그 초과의 피처 값들을 표현한다. 이 방법은 추가로 포지션 피처-벡터에 대응하는 피처 맵을 리트리브하는 단계를 포함하고, 피처 맵은 하나 또는 그 초과의 포지션-피처 클러스터들을 포함한다. 또한, 이 방법은 포지션 피처 벡터 및 피처 맵에 적어도 기초하여 객체에 대한 희소성 값(rareness value)을 결정하는 단계; 및 희소성 값이 주어진 기준들을 충족하는 경우 객체를 이례적(anomalous)으로서 리포팅하는 단계를 포함한다.

[0005] 다른 실시예들은 프로세싱 유닛이 개시된 방법의 하나 또는 그 초과의 실시예들을 구현하는 것을 가능케 하는 명령들을 포함하는 컴퓨터-판독 가능한 매체는 물론, 개시된 방법의 하나 또는 그 초과의 실시예들을 구현하도록 구성된 시스템을 포함한다.

[0006] 앞서 언급된 본 발명의 피처들, 이점들 및 목적들이 달성되고 상세히 이해될 수 있는 방식으로, 위에서 간결히 요약된 본 발명의 보다 구체적인 설명은 첨부 도면에서 예시되는 실시예들을 참조하여 이루어질 수 있다.

[0007] 그러나 첨부 도면들은 본 발명의 통상적인 실시예들을 단지 예시하며, 본 발명은 다른 균등하게 유효한 실시예들을 허용할 수 있으므로, 본 발명의 범위의 제한으로 고려되지 않는다는 것이 주의될 것이다.

도 1은 본 발명의 일 실시예에 따른 비디오 분석 시스템의 컴포넌트들을 예시한다.
도 2는 추가로 본 발명의 일 실시예에 따른 도 1에서 도시된 비디오 분석 시스템의 컴포넌트들을 예시한다.
도 3은 본 발명의 일 실시예에 따라 피처 이례들을 검출하고 리포트하기 위한 방법을 예시한다.
도 4는 본 발명의 일 실시예에 따른 예시적인 피처 맵을 예시한다.

[0013] 본 발명의 실시예들은 비디오 프레임의 획득된 스트림에 기초하여 행동(behavior)을 분석하고 학습하기 위한 방법 및 시스템을 제공한다. 머신-학습 비디오 분석 시스템은 장면을 관찰하고, 관찰된 활동의 정보 스트림들을 생성하고 스트림들을 머신 학습 엔진에 전달하기 위해 컴퓨터 비전 엔진(computer vision engine)을 이용하도록 구성될 수 있다. 결국, 머신 학습 엔진은 그 장면의 객체 행동들에 관한 패턴들을 학습하기 위한 무지시 및 무감독 학습 접근법에 관여할 수 있다. 그 후, 예상되지 않은(즉, 이례적 또는 비일반적) 행동이 관찰될 때, 경고가 생성될 수 있다.

[0014] 일 실시예에서, 예를 들어, 머신 학습 엔진은 위에서 논의된 바와 같이 관찰들에 기초하여 위상적 피처 맵들을 생성하기 위한 통계 엔진들 및 피처 이례들을 검출하기 위한 검출 모듈을 포함할 수 있다. 검출 모듈은 통계 엔진들에 의해 생성된 피처 맵들을 이용하여, 관찰된 전경 객체들에 대한 희소성 값들(rareness values)을 계산하도록 구성될 수 있다. 희소성 값은 예를 들어, 객체의 운동학적 특성들(kinematic properties)에 대조적으로, 전경 객체가 얼마나 이례적 또는 비일반적으로 객체의 피처(들) 및 위치(들)를 제공하는지를 표시할 수 있다. 일 실시예에서, 희소성 값은, 클러스터와 포지션-피처 벡터 간의 최소 평균-제곱 에러와 연관된 클러스터에 대해 전경 객체의 포지션-피처 벡터의 거리의 의사-마하라노비스 측정(pseudo-Mahalanobis measurement) 및 임계치 미만의 평균-제곱 에러들과 연관된 임의의 클러스터들의 통계적 관련성에 적어도 기초하여 결정될 수 있다. 또한, 검출의 감도는 최근에 관찰된 이례들의 상대적 중요도에 따라 조정될 수 있다. 특히, 검출 모듈은 최근에 빈번하게 발생한 이례들에 덜 민감해질 수 있고 그 반대도 가능하다.

[0015] 아래에서, 본 발명의 실시예들에 대한 참조가 이루어진다. 그러나 본 발명은 임의의 구체적으로 설명된 실시예로 제한되지 않는다는 것이 이해되어야 한다. 대신, 상이한 실시예들에 관련되든지 관련되지 않든지 간에, 다음의 피처들 및 엘리먼트들의 임의의 결합은 본 발명을 구현하고 실시하는 것으로 고려된다. 또한, 다양한 실시예들에서, 본 발명은 종래 기술보다 나은 다수의 이점들을 제공한다. 그러나 본 발명의 실시예들이 다른 가능한 해결책들 보다 및/또는 종래 기술보다 나은 이점들을 달성할 수 있지만, 특정한 이점이 주어진 실시예에 의해 달성되는지 여부가 본 발명을 제한하는 것은 아니다. 따라서, 다음의 양상들, 피처들, 실시예들 및 이점들은 단지 예시적이며, 청구항(들)에서 명시적으로 인용되는 경우를 제외하고, 첨부된 청구항들의 제한들 또는 엘리먼트들로 고려되지 않는다. 마찬가지로, "본 발명"에 대한 참조는 본 명세서에서 개시된 임의의 독창적인 청구 대상의 일반화로서 해석되어선 안 되고, 청구항(들)에서 명시적으로 인용되는 경우를 제외하고, 첨부된 청구항들의 엘리먼트 또는 제한으로 고려되어선 안 된다.

[0016] 본 발명의 일 실시예는 컴퓨터 시스템과 함께 이용하기 위한 프로그램 물건으로서 구현된다. 프로그램 물건의 프로그램(들)은 실시예들(본 명세서에서 설명된 방법들을 포함함)의 기능들을 정의하고, 다양한 컴퓨터-판독 가능한 저장 매체들 상에 포함될 수 있다. 컴퓨터-판독 가능한 저장 매체들의 예들은 (i) 정보가 영구적으로 저장되는 비-기록 가능한 저장 매체(예를 들어, 광학 매체 드라이브에 의해 판독 가능한 CD-ROM 또는 DVD-ROM 디스크들과 같은 컴퓨터 내의 판독-전용 메모리 디바이스들); (ii) 변경 가능한 정보가 저장되는 기록 가능한 저장 매체들(예를 들어, 디스켓 드라이브 내의 플로피 디스크들 또는 하드-디스크 드라이브)를 포함한다. 이러한 컴퓨터-판독 가능한 저장 매체는, 본 발명의 기능들을 지시하는 컴퓨터-판독 가능한 명령들을 전달(carry)할 때, 본 발명의 실시예들이다. 다른 예들의 매체들은 통신 매체들을 포함하는데, 이 통신 매체들을 통해, 정보가(예컨데, 무선 통신 네트워크들을 포함하여, 컴퓨터 네트워크 또는 전화 네트워크를 통해) 컴퓨터로 전달된다.

[0017] 일반적으로, 본 발명의 실시예들을 구현하기 위해 실행되는 루틴들은 운영 체제 또는 특정한 애플리케이션, 컴포넌트, 프로그램, 모듈, 객체 또는 명령들의 시퀀스의 부분일 수 있다. 본 발명의 컴퓨터 프로그램은 통상적으로 네이티브 컴퓨터(native computer)에 의해 머신-판독 가능한 포맷 및 이에 따른 실행 가능한 명령들로 변환될 다수의 명령들로 이루어진다. 또한, 프로그램은 프로그램에 국부적으로 상주하거나 메모리 내에서 또는 저장 디바이스들 상에서 발견되는 변수들 및 데이터 구조들로 이루어진다. 또한, 본 명세서에서 설명되는 다양한 프로그램들은 본 발명의 특정한 실시예에서 이들이 구현되는 애플리케이션에 기초하여 식별될 수 있다. 그러나, 이어지는 임의의 특정한 프로그램 명명법은 단지 편의를 위해 이용되며 이에 따라 본 발명은 이러한 명명법에 의해 식별되고 및/또는 암시되는 임의의 특정한 애플리케이션에서만 이용하는 것으로 제한되어선 안 된다는 것이 인지되어야 한다.

[0018] 도 1은 본 발명의 일 실시예에 다른 비디오 분석 및 행동-인식 시스템(100)의 컴포넌트들을 예시한다. 도시된 바와 같이, 행동-인식 시스템(100)은 비디오 입력 소스(105), 네트워크(110), 컴퓨터 시스템(115) 및 입력 및 출력 디바이스들(118)(예를 들어, 모니터, 키보드, 마우스, 프린터 등)을 포함한다. 네트워크(110)는 비디오 입력(105)에 의해 레코딩된 비디오 데이터를 컴퓨터 시스템(115)에 전송할 수 있다. 예시적으로, 컴퓨터 시스템(115)은 CPU(120), 저장소(125)(예를 들어, 디스크 드라이브, 광학 디스크 드라이브, 플로피 디스크 드라이브 등) 및 컴퓨터 비전 엔진(135) 및 머신-학습 엔진(140) 둘 다를 포함하는 메모리(130)를 포함한다. 아래에서 훨씬 상세히 설명되는 바와 같이, 컴퓨터 비전 엔진(135) 및 머신-학습 엔진(140)은 비디오 입력(105)에 의해 제공된 비디오 프레임들의 시퀀 스를 분석하도록 구성된 소프트웨어 애플리케이션들을 제공할 수 있다.

[0019] 네트워크(110)는 비디오 입력 소스(105)로부터 비디오 데이터(예를 들어, 비디오 스트림(들), 비디오 이미지들 등)를 수신한다. 비디오 입력 소스(105)는 비디오 카메라, VCR, DVR, DVD, 컴퓨터, 웹-캠 디바이스 등일 수 있다. 예를 들어, 비디오 입력 소스(105)는, 특정한 영역(예를 들어, 지하철역, 주차 공간, 빌딩 입구/출구 등)에서 발생하는 이벤트들을 레코딩하는, 이 특정 영역에 조준된 정적인 비디오 카메라일 수 있다. 일반적으로 카메라에 가시적인 영역은 "장면"으로서 지칭된다. 비디오 입력 소스(105)는 특정된 프레임-레이트(예를 들어, 초 당 24 프레임들)로 개별 비디오 프레임들의 시퀀스로서 장면을 레코딩하도록 구성될 수 있으며, 여기서 각각의 프레임은 고정된 수의 픽셀들(예를 들어, 320x240)을 포함한다. 각각의 프레임의 각각의 픽셀은 컬러 값(예를 들어, RGB 값) 또는 그레이스케일 값(예를 들어, 0 내지 255의 라디언스 값(radiance value))을 특정할 수 있다. 또한, 비디오 스트림은 MPEG2, MJPEG, MPEG4, H.263, H.264 등을 포함하는 알려진 포맷들을 이용하여 포맷팅될 수 있다.

[0020] 위에서 언급된 바와 같이, 컴퓨터 비전 엔진(135)은 비디오 스트림에서 활성 객체들을 식별하기 위해 이러한 미가공 정보를 분석하고, 객체 분류를 유도하기 위해 머신-학습 엔진(140)에 의해 이용되는 다양한 외형 및 운동학적 피처들을 식별하고, 이러한 객체들의 동작들 및 상호작용에 관한 다양한 메타데이터를 유도하고, 이 정보를 머신-학습 엔진(140)에 공급하도록 구성될 수 있다. 그리고, 결국, 머신-학습 엔진(140)은 시간에 걸쳐 장면 내에서 일어나는 이벤트들에 관한 세부사항들(및 이벤트들의 타입들)을 평가, 관찰, 학습 및 기억하도록 구성될 수 있다.

[0021] 일 실시예에서, 머신-학습 엔진(140)은 컴퓨터 비전 엔진(135)에 의해 생성된 비디오 프레임들 및 데이터를 수신한다. 머신-학습 엔진(140)은 수신된 데이터를 분석하고, 유사한 가시적 및/또는 운동학적 피처들을 갖는 객체들을 클러스터링하고, 비디오 프레임들에서 도시되는 이벤트들의 시멘틱 표현들(semantic representation)을 빌딩(build)하도록 구성될 수 있다. 시간에 걸쳐서, 머신-학습 엔진(140)은 주어진 클러스터에 맵핑하는 객체들에 대한 행동의 예상되는 패턴들을 학습한다. 따라서, 시간에 걸쳐서, 머신-학습 엔진은 정상 및/또는 비정상 이벤트들을 식별하기 위해 이들 관찰된 패턴들을 학습한다. 즉, 미리 정의된 패턴들, 객체들, 객체 타입들 또는 활동들을 갖기 보단 오히려, 머신-학습 엔진(140)은 주어진 객체 타입에 대해 예상되는 행동의 모델은 물론, (예를 들어, 운동학적 및/또는 외형 피처들의 클러스터들에 기초하여) 상이한 객체 타입들이 관찰되었던 것에 대한 그 자신의 모델을 빌딩한다.

[0022] 일반적으로, 컴퓨터 비전 엔진(135) 및 머신-학습 엔진(140) 둘 다는 실시간으로 비디오 데이터를 프로세싱한다. 그러나, 컴퓨터 비전 엔진(135) 및 머신-학습 엔진(140)에 의해 정보를 프로세싱하는 시간 스케일들은 상이할 수 있다. 예를 들어, 일 실시예에서, 컴퓨터 비전 엔진(135)은 수신된 비디오 데이터를 프레임마다 프로세싱하는 반면에, 머신-학습 엔진(140)은 매 N-프레임들 마다 데이터를 프로세싱한다. 즉, 컴퓨터 비전 엔진(135)은 프레임에서 관찰되는 객체들에 관련된 외형 및 운동학적 데이터의 세트를 유도하기 위해 실시간으로 프레임을 각각 분석할 수 있지만, 머신-학습 엔진(140)은 비디오 입력의 실시간 프레임 레이트에 의해 제한되지 않는다.

[0023] 그러나, 도 1은 행동-인식 시스템(100)의 단지 하나의 가능한 어레인지먼트(arrangement)를 예시한다는 것에 주의한다. 예를 들어, 비디오 입력 소스(105)가 네트워크(110)를 통해 컴퓨터 시스템(115)에 연결되게 도시되지만, 네트워크(110)가 항상 제공되거나 요구되는 것은 아니다(예를 들어, 비디오 입력 소스(105)가 컴퓨터 시스템(115)에 직접 연결될 수 있음). 또한, 행동-인식 시스템(100)의 다양한 컴포넌트들 및 모듈들은 다른 시스템들에서 구현될 수 있다. 예를 들어, 일 실시예에서, 컴퓨터 비전 엔진(135)은 비디오 입력 디바이스의 부분(예를 들어, 비디오 카메라로 직접 와이어링되는 펌웨어 컴포넌트로서)으로서 구현될 수 있다. 이러한 경우에, 비디오 카메라의 출력은 분석을 위해 머신-학습 엔진(140)에 제공될 수 있다. 유사하게, 컴퓨터 비전 엔진(135) 및 머신-학습 엔진(140)으로부터의 출력은 컴퓨터 네트워크(110)를 통해 다른 컴퓨터 시스템들에 공급될 수 있다. 예를 들어, 컴퓨터 비전 엔진(135) 및 머신-학습 엔진(140)은 서버 시스템 상에 설치되고 다수의 입력 소스들로부터의(즉, 다수의 카메라들로부터의) 비디오를 프로세싱하도록 구성될 수 있다. 이러한 경우에, 다른 컴퓨터 시스템 상에서 실행되는 클라이언트 애플리케이션(250)은 네트워크(110)를 통해 결과들을 요청(또는 수신)할 수 있다.

[0024] 도 2는 본 발명의 일 실시예에 따라 도 1에서 먼저 예시된 컴퓨터 비전 엔진(135) 및 머신-학습 엔진(140)의 컴포넌트들을 추가로 예시한다. 도시된 바와 같이, 컴퓨터 비전 엔진(135)은 배경/전경(BG/FG) 컴포넌트(205), 트래커 컴포넌트(210), 추정기/식별자 컴포넌트(215) 및 콘택스트 프로세서 컴포넌트(220)를 포함한다. 집합적으로, 컴포넌트들(205, 210, 215 및 220)은 비디오 입력 소스(105)에 의해 공급되는 비디오 프레임들의 인입하는 시퀀스를 프로세싱하기 위한 파이프라인을 제공한다(컴포넌트들을 링크하는 실선 화살표들에 의해 표시됨). 부가적으로, 하나의 컴포넌트의 출력은 머신-학습 엔진(140)은 물론 (점선 화살표들에 의해 표시된 바와 같이) 컴포넌트 파이프라인의 다수의 스테이지들에 제공될 수 있다. 일 실시예에서, 컴포넌트들(205, 210, 215 및 220)은 본 명세서에서 설명된 기능들을 제공하도록 구성된 소프트웨어 모듈을 각각 제공할 수 있다. 물론, 당업자는, 컴포넌트들(205, 210, 215 및 220)이 특정한 경우의 요구들에 적합하도록 결합(또는 추가로 세분)될 수 있고, 추가로 부가적인 컴포넌트들이 부가될 수 있다는 것(또는 몇몇은 제거될 수 있음)을 인지할 것이다.

[0025] 일 실시예에서, BG/FG 컴포넌트(205)는 비디오 입력 소스(105)에 의해 제공된 비디오의 각각의 프레임을, 불완전한(volatile) 부분들(장면 전경)의 모음 및 정적인 부분(장면 배경)으로 분리하도록 구성될 수 있다. 프레임 그 자체는 다수의 채널들(예를 들어, 컬러 비디오에 대한 RGB 채널들 또는 흑색 및 백색 비디오에 대한 그레이스케일 채널 또는 라디언스 채널)에 대한 픽셀 값들의 2차원 어레이를 포함할 수 있다. 일 실시예에서, BG/FG 컴포넌트(205)는 ART(adaptive resonance theory) 네트워크를 이용하여 각각의 픽셀에 대한 배경 상태들을 모델링할 수 있다. 즉, 각각의 픽셀은 주어진 픽셀을 모델링하는 ART 네트워크를 이용하여 장면 전경 또는 장면 배경을 도시하는 것으로 분류될 수 있다. 물론, 장면 전경과 배경 간을 구별하기 위한 다른 접근법들이 이용될 수 있다.

[0026] 부가적으로, BG/FG 컴포넌트(205)는 장면의 어느 픽셀이 전경을 도시하는 것으로서 분류되는지 그리고 역으로 어느 픽셀들이 장면 배경을 도시하는 것으로서 분류되는지를 식별하는데 이용되는 마스크를 생성하도록 구성될 수 있다. BG/FG 컴포넌트(205)는 이어서 장면 전경의 부분(전경 "블랍" 또는 "패치"로서 지칭됨)을 포함하는 장면의 영역들을 식별하고 이 정보를 파이프라인의 후속 스테이지에 공급한다. 부가적으로, 장면 배경을 도시하는 것으로서 분류된 픽셀들은 장면을 모델링하는 배경 이미지를 생성하는데 이용될 수 있다.

[0027] 트래커 컴포넌트(210)는 BG/FG 컴포넌트(205)에 의해 생성된 전경 패치들을 수신하고 패치들에 대한 계산 모델들을 생성할 수 있다. 트래커 컴포넌트(210)는, 객체가 장면 근처에서 이동할 때 주어진 전경 패치에 의해 보여지는 객체의 움직임을 트래킹하도록 시도하기 위해 이 정보 및 미가공-비디오의 각각의 연속적인 프레임을 이용하도록 구성될 수 있다. 즉, 트래커 컴포넌트(210)는 프레임마다 주어진 객체를 트래킹함으로써 시스템의 다른 엘리먼트에 연속성을 제공한다.

[0028] 추정기/식별자 컴포넌트(215)는 트래커 컴포넌트(210)(및 BG/FG 컴포넌트(205))의 출력을 수신하고 전경 객체의 다양한 운동학적 또는 외형 피처들을 식별할 수 있다. 식별된 외형 피처들은, 면적 도함수(즉, 트래킹된 객체의 경계 박스 크기의 변경), 그림자(예를 들어, 그림자 픽셀들에 의해 커버된 전경 객체의 퍼센트), 반짝임(예를 들어, 객체의 거울 반사(specular reflection)에 기초함), 내부 에너지(예를 들어, 병진운동 및/또는 회전들의 결과로서 연속 프레임들에서 각각의 객체들이 얼마나 상이하게 나타나는지에 기초함), 면적(예를 들어, 그의 경계 박스의 면적으로 나뉜, 픽셀들에서의 객체의 면적), 엔트로피(예를 들어, 객체의 채도(colorfulness)에 기초함), 그라디언트 히스토그램(gradient histogram)(예를 들어, 객체 또는 그의 에지들이 얼마나 수평/수직인지에 기초함), 컬러 변동(예를 들어, 객체의 색채 외형(chromatic appearance)에 기초함) 및 객체의 색조를 포함(그러나 이러한 것으로 제한되지 않음)할 수 있다. 일반적으로 이러한 외형 피처들은 그의 운동학들에 대조적으로, 전경 객체의 외형을 특성화할 수 있다. 몇몇 실시예들에서, 다수의 피처들은 다이버시티를 제공하는데 이용될 수 있고, 노이지(noisy)에 대조적으로 신뢰할 수 있는 피처들이 선택될 수 있다. 또한 외형 피처들은 아래에서 훨씬 상세히 논의되는 바와 같이 예를 들어, 장면의 외형 특성들을 학습하고 학습된 외형 특성들을 고려하여 피처 이례들을 식별하는데 이용될 수 있다.

[0029] 콘택스트 프로세서 컴포넌트(220)는 파이프라인(즉, 트래킹된 객체들, 배경 및 전경 모델들 및 추정기/식별자 컴포넌트(215)의 결과들)의 다른 스테이지들로부터 출력을 수신할 수 있다. 이 정보를 이용하여, 콘택스트 프로세서(220)는, (트래커 컴포넌트(210)에 의해) 트래킹되고 (추정기/식별자 컴포넌트(215)에 의해) 평가되는 객체들에 관한 콘택스트 이벤트들의 스트림을 생성하도록 구성될 수 있다. 예를 들어, 콘택스트 프로세서 컴포넌트(220)는 객체의 마이크로-피처 벡터들 및 운동학적 관찰들의 스트림을 패키징하고, 이를 예를 들어, 5Hz의 레이트로 머신-학습 엔진(140)에 출력할 수 있다. 일 실시예에서, 콘택스트 이벤트들은 궤도(trajectory)로서 패키징된다. 본 명세서에서 이용된 바와 같이, 궤도는 일반적으로 연속적인 프레임들 또는 샘플들의 특정한 전경 객체의 운동학적 데이터를 패키징하는 벡터를 지칭한다. 궤도의 각각의 엘리먼트는 특정한 시점에 그 객체에 대해 캡처된 운동학적 데이터를 표현한다. 통상적으로, 완전한 궤도는 객체가 비디오의 프레임에서 처음 관찰될 때부터 객체의 각각의 연속적인 관찰에 따라 객체가 장면을 떠날 때까지(또는 프레임 배경으로 디졸브(dissolving)하는 지점까지 정적이 될 때까지) 획득되는 운동학적 데이터를 포함한다. 이에 따라, 컴퓨터 비전 엔진(135)이 5Hz의 레이트로 동작하는 것을 가정하면, 객체의 궤도는 완료 때까지 매 200밀리초마다 업데이트된다.

[0030] 컴퓨터 비전 엔진(135)은 장면에서 트래킹된 객체들의 움직임 및 동작들을 설명하는 컴포넌트들(205, 210, 215, 및 220)로부터의 출력을 수신하고 이 정보를 머신-학습 엔진(140)에 공급할 수 있다. 예시적으로, 머신-학습 엔진(140)은 장기(long-term) 메모리(225), 지각 메모리(230), 에피소드 메모리(235), 작업공간(240), 코드렛들(245), 마이크로-피처 분류기(255), 클러스터 층(260) 및 시퀀스 층(265)을 포함한다. 부가적으로, 머신-학습 엔진(140)은 사용자가 그래픽 사용자 인터페이스를 이용하여 비디오 감시 시스템(100)과 상호작용하는 것을 허용하도록 클라이언트 애플리케이션(250)을 포함한다. 여전히 추가로, 머신-학습 엔진(140)은 이벤트 버스(222)를 포함한다. 일 실시예에서, 컴퓨터 비전 엔진(135) 및 머신-학습 엔진(140)의 컴포넌트들은 데이터를 이벤트 버스(222)에 출력한다. 동시에, 머신-학습 엔진(140)의 컴포넌트들은 또한 이벤트 버스(222)로부터 상이한 이벤트 스트림들을 수신하도록 지지(subscribe)할 수 있다. 예를 들어, 마이크로-피처 분류기(255)는 컴퓨터 비전 엔진(135)으로부터 출력된 마이크로-피처 벡터들을 수신하도록 지지할 수 있다.

[0031] 일반적으로, 작업공간(240)은 머신-학습 엔진(140)에 대한 계산 엔진을 제공한다. 예를 들어, 작업공간(240)은 지각 메모리(230)로부터 정보를 복사하고, 에피소드 메모리(235) 및 장기 메모리(225)로부터 관련 메모리들을 리트리브(retrieve)하고 어느 코드렛들(245)을 실행하지 선택하도록 구성될 수 있다. 각각의 코드렛(245)은 이벤트들의 상이한 시퀀스를 평가하고, 하나의 시퀀스가 다른 것(예를 들어, 유한 상태 머신)을 어떻게 따르는지(또는 그렇지 않으면 어떻게 관련되는지)를 결정하도록 구성되는 소프트웨어 프로그램일 수 있다. 보다 일반적으로, 각각의 코드렛은 머신-학습 엔진으로부터 공급되는 데이터의 스트림들로부터 관심의 패턴들을 검출하도록 구성된 소프트웨어 모듈을 제공할 수 있다. 결국, 코드렛(245)은 에피소드 메모리(235) 및 장기 메모리(225)의 메모리들을 생성, 리트리브, 강화 또는 수정할 수 있다. 반복적 실행을 위해 코드렛들(245)을 스케줄링하고, 작업공간(240)으로/로부터 메모리들 및 지각들(percepts)을 복사함으로써, 머신-학습 엔진(140)은 장면 내에서 발생하는 행동들의 패턴에 관하여, 관찰하고 학습하는데 이용되는 인식 사이클(cognitive cycle)을 수행한다.

[0032] 일 실시예에서, 지각 메모리(230), 에피소드 메모리(235) 및 장기 메모리(225)는 행동의 패턴들을 식별하고, 장면에서 일어나는 이벤트들을 평가하고, 관찰들을 인코딩 및 저장하는데 이용된다. 일반적으로, 지각 메모리(230)는 컴퓨터 비전 엔진(135)의 출력(예를 들어, 콘택스트 이벤트 스트림)을 수신한다. 에피소드 메모리(235)는 특정한 에피소드에 관련된 세부사항들, 예를 들어, 이벤트에 관련된 시간 및 공간 세부사항들을 설명하는 정보와 더불어, 관찰된 이벤트들을 표현하는 데이터를 저장한다. 즉, 에피소드 메모리(235)는 특정한 이벤트의 특정한 세부사항들, 즉 장면 내에서 "무엇이 그리고 어디서" 무언가가 발생했는지, 이를 테면, 오전 9:43분에 주차장(주차장 5)이라 여겨지는 위치로 이동하는 특정한 운송수단(자동차 A)을 인코딩할 수 있다.

[0033] 대조적으로, 장기 메모리(225)는 장면에서 관찰되는 이벤트들을 일반화하는 데이터를 저장할 수 있다. 운송수단 주차의 예를 계속해서, 장기 메모리(225)는 "장면의 특정한 영역들에서 운송수단들은 움직이게 되는 경향이 있음", "운송수단들은 장면의 특정한 영역들에서 정지하는 경향이 있음" 등과 같이 장면에서 객체의 행동의 분석에 의해 학습되는 관찰들 및 일반화들을 캡처하는 정보를 인코딩할 수 있다. 따라서, 장기 메모리(225)는 특정한 에피소드 세부사항들의 상당부가 제거된(stripped away) 장면 내에서 발생한 것에 관한 관찰들을 저장한다. 이러한 방식으로, 새로운 이벤트가 발생할 때, 에피소드 메모리(235) 및 장기 메모리(225)로부터의 메모리들은 현재 이벤트를 관련시키고 이해하는데 이용될 수 있는데, 즉, 새로운 이벤트는 과거 경험에 비교될 수 있어서, 시간에 걸쳐서 장기 메모리(225)에 저장된 정보에 대해 강화, 감쇠(decay) 및 조정들 모두를 야기한다. 특정한 실시예에서, 장기 메모리(225)는 ART 네트워크 및 축약-분산(sparse-distributed) 메모리 데이터 구조로서 구현될 수 있다.

[0034] 마이크로-피처 분류기(255)는 컴퓨터 비전 엔진(135)에 의해 출력된 마이크로-피처 벡터들을 평가하도록 코드렛(245)을 스케줄링할 수 있다. 언급된 바와 같이, 컴퓨터 비전 엔진(135)은 프레임마다 객체들을 트래킹하고 예를 들어, 5Hz의 레이트로 각각의 전경 객체에 대한 마이크로-피처 벡터들을 생성할 수 있다. 일 실시예에서, 마이크로-피처 분류기(255)는 마이크로-피처 벡터들의 이러한 스트림으로부터 클러스터들을 생성하도록 구성될 수 있다. 예를 들어, 각각의 마이크로-피처 벡터는 ART 네트워크(또는 SOM(self organizing map) 및 SOM에서 노드들을 클러스터링하기 위해 이용되는 ART 네트워크의 결합)의 입력 층에 공급될 수 있다. 이에 응답하여, ART 네트워크는 ART 네트워크에서 클러스터에 마이크로-피처 벡터를 맵핑하고, 그 클러스터를 업데이트한다(또는 입력 마이크로-피처 벡터가 기존의 클러스터와 충분히 다른 경우 새로운 클러스터를 생성함). 각각의 클러스터는 특유의 객체 타입을 표현하는 것으로 가정되고, (ART 네트워크의 선택 및 비저런스(vigilance) 파라미터들을 이용하여 결정된 바와 같이) 유사한 마이크로-피처 벡터들을 공유하는 객체들은 동일한 클러스터에 맵핑할 수 있다.

[0035] 예를 들어, 다수의 상이한 운송수단들의 관찰들과 연관되는 마이크로-피처들은 동일한 클러스터(또는 클러스터들의 그룹)에 맵핑하기에 충분히 유사할 수 있다. 동시에, 다수의 상이한 사람들의 관찰들이 운송수단 클러스터와 상이한 클러스터(또는 클러스터들의 그룹)에 맵핑될 수 있다. 따라서, 당 기술의 네트워크의 각각의 특유의 클러스터는 일반적으로 장면 내에서 동작하는 특유의 타입의 객체를 표현한다. 그리고, 새로운 객체들이 장면에 진입할 때, 새로운 객체 타입들이 ART 네트워크에서 출현할 수 있다.

[0036] 그러나, 중요하게, 이 접근법은 상이한 객체 타입 분류들이 미리 정의되도록 요구하지 않고; 대신, 객체 타입들은 ART 네트워크에서 특유의 클러스터들로서 시간에 걸쳐서 출현한다. 일 실시예에서, 마이크로-피처 분류기(255)는 객체 타입 식별자를 각각의 클러스터에 할당할 수 있어서, ART 네트워크의 각각의 클러스터에 대해 상이한 객체 타입을 제공한다.

[0037] 대안적인 실시예에서, 마이크로-피처 벡터들로부터 직접 클러스터들을 생성하기 보단 오히려, 마이크로-피처 분류기(255)는 마이크로-피처 벡터들을 SOM(self-organizing map structure)에 공급할 수 있다. 이러한 경우에, ART 네트워크는 SOM의 노드들을 클러스터링하고 객체 타입 식별자를 각각의 클러스터에 할당할 수 있다. 이러한 경우에, 동일한 클러스터로의 각각의 SOM 노드 맵핑은 공통 타입의 객체의 인스턴스를 표현하는 것으로 가정된다.

[0038] 도시된 바와 같이, 머신-학습 엔진(140)은 또한 클러스터 층(260) 및 시퀀스 층(265)을 포함한다. 클러스터 층(260)은 공통 객체 타입의 인스턴스인 것으로서 마이크로-피처 분류기(255)에 의해 분류되는 객체의 궤도들로부터 클러스터들을 생성하도록 구성될 수 있다. 일 실시예에서, 클러스터 층(260)은 궤도들에서 운동학적 데이터를 클러스터링하기 위해 SOM(self-organizing map) 및 ART 네트워크의 결합을 이용한다. 궤도들이 클러스터링되면, 시퀀스 층(265)은 궤도들에 의해 표현되는 행동의 관찰된 패턴들을 인코딩하는 시퀀스들을 생성하도록 구성될 수 있다. 그리고, 일단 생성되면, 시퀀스 층은 투표 전문 기법(voting experts technique)을 이용하여 시퀀스 내에서 세그먼트들을 식별할 수 있다. 또한, 시퀀스 층(265)은 이례적 세그먼트들 및 시퀀스들을 식별하도록 구성될 수 있다.

[0039] 도시된 바와 같이, 머신-학습 엔진(140)은 추가로 통계 엔진(270) 및 검출기 모듈(280)을 포함한다. 각각의 통계 엔진은 피처-특정(즉, 주어진 피처에 고유함)일 수 있다. 또한, 각각의 통계 엔진은 관찰들에 기초하여 클러스터들을 생성 및 수정하는 ART 네트워크를 포함할 수 있다. 이러한 ART 네트워크에서, 각각의 클러스터는 클러스터를 표현하는 프로토타입(prototype) 입력으로부터의 변동 및 평균에 의해 특징화될 수 있다. 프로토타입은 처음에 새로운 클러스터를 생성하는데 이용되는 입력 벡터의 복사로서 생성된다. 후속적으로, 새로운 입력 벡터들이 클러스터에 맵핑될 때, 프로토타입 입력(및 클러스터에 대한 평균 및 변동)이 새로운 입력 벡터들을 이용하여 ART 네트워크에 의해 업데이트(즉, 수정)될 수 있다. 초기에, ART 네트워크는 시간의 기간(예를 들어, 며칠)에 걸쳐서 완성(mature)되도록 허용될 수 있고, 이례적으로 ART 네트워크에 관계된 경고들은 이 기간 동안 억제될 수 있다.

[0040] 일 실시예에서, 클러스터들의 평균 및 변동은 클러스터에 맵핑한 입력 벡터들의 실제 평균 및 변량(variance)일 수 있다. 예를 들어, 입력 벡터가 클러스터에 맵핑할 때, 클러스터의 평균은 다음과 같이 업데이트될 수 있다:

여기서, n은 클러스터에 맵핑한 피처 벡터들의 수이고,

는 이전의 평균(주의: 이는 통상적인 ART 네트워크들과 상이하며, 여기서 평균은

로서 업데이트되며, 알파는 [0,1]의 상수임)이다. 또한, 클러스터들의 변량은 다음과 같이 업데이트될 수 있다:

여기서

는 이전의 변량이다.

[0041] 다른 실시예에서, 통계적 엔진은 통계적 관련성에 의해 각각의 클러스터의 중요도를 가중화할 수 있다. 예를 들어, 통계적 엔진은 선택 및 비저런스(vigilance) 테스트에 기초하여 각각의 클러스터에 얼마나 많은 입력 벡터들을 맵핑하는지에 관한 카운트를 유지할 수 있다. 이러한 경우에, 더 높은 카운트들과 연관되는 클러스터들은 더 많이 관련된 것으로 고려될 수 있으며, 그 반대도 가능하다.

[0042] 일반적으로, 각각의 ART 네트워크 클러스터는 아래에서 훨씬 상세히 논의되는 입력 벡터의 타입을 표현할 수 있고, 클러스터에 맵핑하는 입력 벡터들은 피처 및/또는 위치 값(S)에서 다소 변동될 수 있다. 예를 들어, 장면에서 대략적으로 주어진 반짝임 피처 값을 갖고 대략적으로 주어진 위치에 나타나는 자동차 객체들은 동일한 ART 네트워크 클러스터에 맵핑할 수 있다. 그러나, 자동차 객체들은 정확히 동일한 반짝임 및/또는 위치 값을 갖지 않을 수 있다. 이러한 변동들은 클러스터의 평균 및/또는 변량에 영향을 줄 수 있다(예를 들어, 피처 및/또는 위치 값들에서의 더 큰 변동은 더 큰 클러스터 변량을 발생시킬 수 있음).

[0043] 일 실시예에서, 입력 및 프로토타입 입력 벡터들이 형태(x, y, f)로 이루어지며, 여기서 x 및 y는 주어진 객체의 위치(예를 들어, 객체의 중심)를 표시하고, f는 추정기/식별자 컴포넌트(215)에 의해 결정되는 객체의 피처의 값이다. 여기서 위치(x,y)는 전경 객체가 비디오 프레임에서 나타날 때 그것의 중심(즉, 질량 중심)을 표현할 수 있다. 그리고, 값(f)은 객체의 피처의 값일 수 있으며, 이는 일 실시예에서 범위 [0, 1]에 있을 수 있으며, 여기서 0은 일반적으로 피처 또는 피처 특성의 부재(예를 들어, 번쩍임의 부재, 수직 에지의 부재 등)를 표현할 수 있고, 1은 피처의 존재를 표현할 수 있고, 0.5는 피처 존재에 관한 불확실성을 표현할 수 있다.

[0044] 다른 실시예에서, 입력 및 프로토타입 입력 벡터들은 1개 초과의 피처 값을 포함할 수 있고, 형태

로 이루어질 수 있다. 추가의 실시예에서, 시간(들)은 또한 입력 벡터에 포함될 수 있다. 또 다른 실시예에서, 이용되는 피처(들)는 다음, 즉 면적 도함수, 그림자, 반짝임, 내부 에너지, 영역, 엔트로피, 그라디언트 히스토그램, 컬러 변동 및 색조 중 하나 이상을 포함할 수 있다.

[0045] 또한, 각각의 통계 엔진(270)은 학습의 품질 및 강건함(robustness)을 개선하기 위해 ART 네트워크에 의해 생성되는 클러스터들을 강화, 감쇠, 합병 및 제거하도록 구성될 수 있다. 예를 들어, 2개의 클러스터들은, 그의 평균 및 변동에 기초하여, 클러스터들이 3D(즉, (x, y, z)) 또는 더 높은 차원 공간에서 오버랩핑하는 경우 합병될 수 있다. 일 실시예에서 주어진 임계치에 도달하기 위해 오버랩핑이 요구될 수 있으며, 이는 상수 팩터

를 도입하고, 합병될 클러스터들에 대해 하나의 클러스터(

)의 평균이 다른 클러스터(

)의 평균의

내에(즉, 다른 클러스터의 변량의

배 내에) 있게 되도록 요구함으로써 구현될 수 있다. 클러스터들의 강화, 감쇠, 합병 및 제거는 또한 미국 특허 번호 제8,167,430호에서 논의되는 접근법들에 따라 수행될 수 있으며, 이 특허는 그에 의해 그 전체가 인용에 의해 포함된다.

[0046] 일반적으로, 통계 엔진들(270)에 의한 학습은 활동-지향적일 수 있다. 예를 들어, 클러스터 강화, 감쇠 등은, 더 적은 객체들이 시간의 기간에 걸쳐서 관찰되는 경우 덜 빠르게 발생할 수 있고 그 반대도 가능하다. 또한, 통계 엔진들(270)은, 풍부한 활동이 있을 때, 이러한 경우들에서의 더 많은 일반화에 의해 과한 학습을 방지하도록 시도할 수 있다.

[0047] 논의된 바와 같이, 통계 엔진들(270)은 ART 네트워크 클러스터들에 기초하여 위상적 피처 맵들을 생성하기 위해 장면 내의 객체들의 외형 및 위치들의 무감독 학습에 관여한다. 각각의 피처 맵은, 그의 평균들 및 변량들에 의해 설명되고 통계 엔진에 의해 생성되고/수정되는 하나 또는 그 초과의 포지션-피처 클러스터들을 포함할 수 있고, 환경 및 기술적 영향들이 학습되어 반복적 실수들이(이들이 정상이 되기 때문에) 탕감되게 된다는 면에서 편향되지 않는다. 예를 들어, 올바르지 않은 좌표들, 날씨 변화들 등을 생성하는 객체의 잘못된-트래킹은 패턴들 및 맵들이 수동으로 정의되는 종래의 비디오 분석 시스템에서 허위 긍정들(false-positives)을 야기할 수 있다. 대조적으로, 본 명세서에서 논의되는 접근법은, 이러한 객체-트래킹 실수들, 날씨 변화들 등이 비디오 분석 시스템에 영향을 덜 미치도록, 이들을 학습한다.

[0048] 검출기 모듈(280)은 아래에서 훨씬 상세히 논의되는 바와 같이 피처 이례들을 검출 및 리포트하도록 구성될 수 있다. 즉, 검출기 모듈(280)은, 주어진 위치의 하나 또는 그 초과의 피처 특성들이 이전에 관찰된 피처 특성들 및 그의 위치들에 대해 비일반적인지 또는 이례적인지를 결정할 수 있다. 피처 이례가 검출되는 경우, 검출기 모듈은 추가로 예를 들어, GUI/출력 클라이언트 애플리케이션(250)의 사용자 인터페이스에 경고를 발행함으로써 그 이례를 리포트할 수 있다.

머신 -학습 비디오 분석 시스템에서 피처 이례들의 검출 및 리포팅

[0049] 위에서 언급된 바와 같이, 머신-학습 비디오 분석 시스템은 장면을 관찰하고, 관찰된 활동의 정보 스트림들을 생성하고 스트림들을 머신 학습 엔진으로 전달하기 위해 컴퓨터 비전 엔진을 이용하도록 구성될 수 있다. 결국, 머신 학습 엔진은 그 장면에서 객체 행동들에 관한 패턴들을 학습하기 위해 무지시 및 무감독 학습 접근법에 관여할 수 있다. 그 후, 예상되지 않은(즉, 비정상 또는 비일반적) 행동이 관찰될 때, 경고들이 생성될 수 있다.

[0050] 일 실시예에서, 예를 들어, 머신 학습 엔진은 위에서 논의된 바와 같은 관찰들에 기초하여 위상적 피처 맵들을 생성하기 위한 통계 엔진들 및 피처 이례들을 검출하기 위한 검출 모듈을 포함할 수 있다. 검출 모듈은 통계 엔진들에 의해 생성된 피처 맵을 이용하여 관찰된 전경 객체에 대한 희소성 값들을 계산하도록 구성될 수 있다. 희소성 값은 예를 들어, 객체의 운동학적 특성들에 대조적으로, 전경 객체가 얼마나 이례적이거나 비일반적으로 객체의 피처(들) 및 위치(들)를 제공하는지를 표시할 수 있다. 일 실시예에서, 희소성 값은 클러스터와 포지션-피처 벡터 간의 최소 평균-제곱 에러와 연관된 클러스터에 대한 전경 객체의 포지션-피처 백터의 거리의 의사-마하라노비스 측정에 그리고 임계치 미만의 평균-제곱 에러들과 연관되는 임의의 클러스터들의 통계적 관련성에 적어도 기초하여 결정될 수 있다. 또한, 검출의 감도는 최근에 관찰된 이례들의 상대적 중요도에 따라 조정될 수 있다. 특히, 검출 모듈은 최근에 빈번하게 발생한 이례들에 덜 민감하게 될 수 있고 그 반대도 가능하다.

[0051] 도 3은 일 실시예에 따라 피처 이례들을 검출 및 리포팅하기 위한 방법(300)을 예시한다. 도시된 바와 같이, 방법(300)은, 검출 모듈이 비디오 프레임 내의 전경 객체에 대한 운동학적 및 피처 데이터를 수신하는 단계(310)에서 시작한다. 논의된 바와 같이, 컴퓨터 비전 엔진은 비디오 프레임을 분석하여, 프레임에서 전경 객체들을 추출하고 전경 객체에 관련된 피처 및 운동학적 데이터의 세트를 유도할 수 있다. 검출 모듈은 프로세싱을 위해 이러한 데이터를 수신할 수 있다.

[0052] 단계(320)에서, 검출 모듈은 하나 또는 그 초과의 피처들을 통해 루핑(loop)할 수 있다. 일반적으로, 검출 모듈은 데이터가 수신되는 각각의 피처를 프로세싱하지 않을 수 있다. 예를 들어, 특정한 피처들은 장면 내의 이례들을 검출하기 위해 다른 피처들보다 더 관련될 수 있다. 일 실시예에서, 프로세싱된 피처(들)는 다음, 즉, 면적 도함수, 그림자, 반짝임, 내부 에너지, 면적, 엔트로피, 그라디언트 히스토그램, 및 색조 중 하나 이상(또는 결합)을 포함할 수 있다.

[0053] 단계(330)에서, 검출 모듈은 피처에 대한 포지션 및 피처 값들을 결정한다. 일 실시예에서, 검출 모듈은 프로세싱을 위한 위치 및 피처 값들을 표현하는 3-차원 포지션 피처 벡터(x, y, f)를 결정하기 위해 단계(310)에서 수신된 운동학적 및 피처 데이터를 파싱(parse)할 수 있다. 일 실시예에서, 위치(x, y)는 전경 객체가 비디오 프레임에서 나타날 때, 그것의 중심(즉, 질량 중심)을 표현할 수 있는 반면에, f는 객체의 피처의 값일 수 있으며, 이는 예를 들어, 범위 [0, 1]에 있을 수 있고, 0은 일반적으로 피처 또는 피처 특성들의 부재(예를 들어, 반짝임의 부재, 수직 에지들의 부재 등)를 표현하고, 1은 피처의 존재를 표현하고, 0.5는 피처의 존재에 관한 불확실성을 표현할 수 있다.

[0054] 단계(340)에서, 검출 모듈은 피처에 대한 피처 맵을 리트리브(즉, 그의 로컬 복사를 제조)한다. 논의된 바와 같이, 피처 맵은 피처에 특정한 통계 엔진에 의해 생성될 수 있다. 또한, 피처 맵은 그의 평균들 및 변량들에 의해 설명되고 통계 엔진에 의해 생성/수정되는 하나 또는 그 초과의 클러스터들을 포함할 수 있다.

[0055] 단계(350)에서, 검출 모듈은 관찰된 피처 이례들의 빈도에 기초하여 로컬 피처 맵을 수정한다. 일반적으로, 검출 모듈은 최근에 관찰된 이례들의 빈도를 참작하여 로컬 피처 맵을 수정할 수 있다. 예를 들어, "이례"가 더 빈번하게 관찰될 수 있고, 그것이 덜 이례적이 될 것이기 때문에, 보다 빈번하게 관찰되는 이례들은 덜 중요할 수 있고 그 반대도 가능하다. 일 실시예에서, 검출 모듈은 훨씬 많은 수의 최근에 관찰된 이례들에 연관되는 클러스터의 변동을 증가(예를 들어, 상수로 변량을 곱함으로써)시킴으로써 최근에(예를 들어, 지난 10분 내에) 관찰된 이례들의 빈도를 참작하여 피처 맵을 수정할 수 있다. 최근에 더 적게 관찰된 이례들과 연관된 클러스터의 변량이 덜 증가(또는 전혀 증가되지 않음)되도록, 감쇠가 추가로 이 프로세스 내에 내장될 수 있다.

[0056] 단계(360)에서, 검출 모듈은 포지션-피처 벡터와 수정된 피처 맥의 클러스터들 간의 거리들을 결정한다. 일 실시예에서, 검출 모듈은 클러스터들 각각의 평균 값

과 포지션-피처 벡터

간의 평균-제곱 에러들을 계산할 수 있다:

[0057] 단계(365)에서, 검출 모듈은 포지션-피처 벡터 주변의 클러스터(들)를 선택하고, 추가로 포지션-피처 벡터에 최근접한 클러스터를 선택한다. 일 실시예에서, 검출 모듈은 주변 클러스터(들)로서 임계치(들) 미만의 평균-제곱 에러(들)와 연관되는 클러스터(들)를 선택할 수 있다. 여기서 임계치(들)는 클러스터-특정일 수 있고, 예를 들어, 합병되지 않은 클러스터들에 대한 미리 정의된 수 및 합병된 클러스터들에 대한 클러스터 변동의 값일 수 있다. 하나 또는 그 초과의 계산된 거리들(예를 들어, 평균-제곱 에러 값들)이 임계치(들) 미만인 경우, 검출 모듈은 이들 값들과 연관된 클러스터들을 선택할 수 있다. 또한, 임계치(들)에 무관하게, 검출 모듈은 최소 평균-제곱 에러와 연관되는 클러스터("최근접 클러스터"로서 본 명세서에서 지칭됨)를 선택한다. 물론, 당업자는 평균-제곱 에러 이외의 다른 거리 측정들이 최근접 클러스터 및/또는 주변 클러스터(들)를 선택할 목적으로 클러스터(들)를 선택하는데 대신 이용될 수 있다는 것을 인지할 것이다.

[0058] 다른 실시예에서, 검출 모듈은 포지션-피처 벡터를 최근접 클러스터 및/또는 주변 클러스터(들)에 맵핑하는데 있어 미국 특허 번호 제8,167,430호에서 논의된 것과 같은 비저런스 테스트(vigilance test)를 추가로 적용할 수 있다. 비저런스 테스트는 일반적으로 입력 벡터와 클러스터 프로토타입(예를 들어, 최근접 클러스터에 대한 프로토타입 벡터) 간의 유사성을 계산하고, 유사성이 비저런스 파라미터를 초과하는지를 결정할 수 있다. 그와 같은 경우라면, 입력은 그 클러스터에 맵핑될 수 있다. 그러나 입력이 비저런스 테스트 하에서 어떠한 기존의 클러스터에도 매칭하지 않는 경우, 새로운 클러스터가 입력 벡터와 유사한 프로토타입 벡터를 저장함으로써 생성될 수 있다. 비저런스 파라미터는 ART 네트워크에 상당한 영향을 주며; 더 높은 비저런스는 다수의 미세입자 클러스터들을 생성하는 반면에, 더 낮은 비저런스는 보다 일반적인 클러스터를 발생시킨다.

[0059] 단계(370)에서, 검출 모듈은 임계치(들) 미만의 거리(들)를 갖는 선택된 클러스터(들)의 통계적 관련성 및 최근접 클러스터에 대한 거리에 기초하여 희소성 값을 결정한다. 일 실시예에서, 검출 모듈은 다음의 수학식을 이용하여 희소성 값을 결정할 수 있다:

여기서

이고,

는 최근접 클러스터에 대한 포지션-피처 벡터의 의사-마하라노비스 거리이고 α는 상수이다. 여기서 희소성 값은 0 내지 1의 범위에 있고, 0은 정상(즉, 드물지 않음) 관찰이고, 1은 드문 관찰을 표시한다. 논의된 바와 같이, 주어진 클러스터의 통계 관련성은 (예를 들어, 선택 및/또는 비저런스 테스트를 통해) 그 클러스터에 맵핑한 이전의 관찰들의 수의 카운트일 수 있다. 단계(365)에서, 계산된 거리(들) 중 어느 것도 임계치(들) 미만이 아니라는 것을 검출 모듈이 결정하는 경우

는 0일 수 있다는 것에 주의한다. 이러한 경우에, 희소성 값은 그럼에도,

가 최근접 클러스터(이 경우에 실제로 근접 클러스터가 아닐 수 있음)에 기초하여 계산되기 때문에 높을 수 있다.

[0060] 단계(380)에서, 검출 모듈은 리포팅 기준(또는 기준들)이 충족되는지를 결정한다. 예를 들어, 검출 모듈은 희소성 값이 임계치(예를 들어, 99 백분위 임계치)를 초과(또는 구현에 의존하여, 그 미만)인지를 결정할 수 있다. 리포팅 기준/기준들이 충족된다고 검출 모듈이 결정하는 경우, 단계(390)에서, 검출 모듈은 피처 이례를 리포트할 수 있다. 예를 들어, 검출 모듈은 사용자 인터페이스에 경고를 발행할 수 있고, 그에 의해 사용자에 이례를 통지한다. 또한, 검출 모듈은 리포트되는 경고들의 수(또는 각각의 타입의 경고들)를 제한하도록 경고들을 조절(throttle) 또는 정규화(normalize)할 수 있다. 또 추가로, 검출 모듈은 팩터(예를 들어, 곱셈 상수(multiplicative constant))를 수정할 수 있는데, 이 팩터에 의해, 검출 모듈은 현재의 피처 이례를 참작하여, 단계(350)에서, 최근접 클러스터의 변량을 증가시킨다.

[0061] 단계(380)에서, 검출 모듈이 리포팅 기준/기준들이 충족되지 않았다고 결정하는 경우 또는 단계(390)에서 이례적 이벤트를 리포팅한 이후, 방법(300)은, 피처 특정 통계 엔진이 현재 피처 및 위치 데이터에 기초하여 피처 맵을 업데이트하는 단계(392)로 이어진다. 논의된 바와 같이, 통계 엔진은 피처 및 위치 데이터에 기초하여 클러스터들을 생성/수정하는 ART 네트워크를 포함할 수 있다. 또한, 통계 엔진은 피처 및 위치 데이터에 기초하여 ART 네트워크의 클러스터들을 강화, 감쇠, 합병 또는 삭제할 수 있다.

[0062] 단계(395)에서, 검출 모듈은 분석할 추가의 피처들이 있는지를 결정한다. 분석할 추가의 피처들이 있는 경우, 방법(300)은 다른 피처와 연관된 데이터를 프로세싱하도록 단계(320)로 리턴한다. 그렇지 않으면, 이후 방법(300)은 종료된다.

[0063] 도 4는 일 실시예에 따라 피처 이례들을 결정하는데 이용되는 예시적인 피처 맵을 예시한다. 도시된 바와 같이, 피처 맵은 장면(400)과 연관되고, 그의 평균들(

) 및 변동(

)에 의해 설명되는 클러스터들(410_1-3)을 포함한다. 피처 맵은 면적, 면적 도함수, 그림자, 반짝임, 내부 에너지, 면적, 엔트로피, 그라디언트 히스토그램, 컬러 변동 또는 색조와 같은 하나 또는 그 초과의 피처들에 특정한 통계 엔진에 의해 생성될 수 있다. 논의된 바와 같이, 통계 엔진은 ART 네트워크 클러스터들에 기초하여 피처 맵들을 생성하기 위해 장면 내의 객체들의 외형들 및 위치들의 무감독 학습에 관여하도록 구성될 수 있다. 일 실시예에서, 통계 엔진은 ART 네트워크에 의해 생성되는 클러스터들을 강화, 감쇠, 합병, 및 제거할 수 있다. 통계 엔진은 또한 예를 들어, 이러한 클러스터들에 맵핑하는 벡터들의 카운트들에 기초하여 클러스터들의 통계 중요성을 또한 트래킹할 수 있다.

[0064] 입력 포지션-피처 벡터(x, y, z)가 주어지면, 검출 모듈은 수학식(4)에 따라 임계치 미만의 거리(들)를 갖는 선택된 클러스터(들)의 최근접 클러스터에 대한 거리 및 통계 관련성에 기초하여 희소성 값을 결정할 수 있다. 예시적으로, 클러스터(410₂)에 대한 의사-마하라노비스 거리는 물론, 클러스터(410₂)의 통계 관련성(n₂)은, 클러스터(410₂)가 예시적인 입력 벡터(x, y, f)에 대한 최근접 클러스터 및 입력 벡터(x, y, f)에 대한 임계 거리(t) 내의 유일한 클러스터이기 때문에 수학식(4)에서 이용될 수 있다.

[0065] 논의된 바와 같이, 검출 모듈은 수학식(4)을 이용하여 결정된 희소성 값이 임계값을 초과하는(또는 구현에 의존하여, 그 미만인) 경우 (예를 들어, 경고를 사용자 인터페이스에 발행함으로써) 이례적인 이벤트를 리포팅할 수 있다. 또한, 통계 엔진은 위에서 논의된 바와 같이, 입력 포지션-피처 벡터(x, y, f)에 기초하여 클러스터들(410_1-3)을 포함하는 피처 맵을 업데이트할 수 있다.

[0066] 비디오 프레임들에 관해 위에서 논의되었지만, 비-비디오 데이터가 또한 이용될 수 있다. 예를 들어, 맵은 비디오 프레임 대신 이용될 수 있고, 이용된 피처는 GPS(global positioning system) 좌표들, RFID(radio-frequency identification) 태그들 등을 포함할 수 있다.

[0067] 위의 내용은 본 발명의 실시예들에 관한 것이지만, 본 발명의 다른 및 추가의 실시예들이 본 발명의 기본 범위로부터 벗어남 없이 안출될 수 있고 본 발명의 범위는 다음의 청구항들에 의해 결정된다.

Claims

장면을 분석하기 위한 컴퓨터-구현 방법으로서,
상기 장면에서 객체에 대한 운동학적(kinematic) 및 피처 데이터를 수신하는 단계;
하나 또는 그 초과의 프로세서들을 통해, 수신된 데이터로부터 포지션-피처 벡터(position-feature vector)를 결정하는 단계 ― 상기 포지션-피처 벡터는 위치 및 상기 위치의 하나 또는 그 초과의 피처 값들을 표현함 ― ;
상기 포지션 피처-벡터에 대응하는 피처 맵을 리트리브(retrieve)하는 단계 ― 상기 피처 맵은 하나 또는 그 초과의 포지션-피처 클러스터들을 포함함 ― ;
적어도 상기 포지션 피처 벡터 및 상기 피처 맵에 기초하여 상기 객체에 대한 희소성 값(rareness value)을 결정하는 단계; 및
상기 희소성 값이 주어진 기준들을 충족하는 경우 상기 객체를 이례적인 것(anomalous)으로서 리포팅하는 단계를 포함하는,
장면을 분석하기 위한 컴퓨터-구현 방법.
제 1 항에 있어서,
상기 포지션-피처 벡터를 이용하여 상기 피처 맵을 업데이트하는 단계
를 더 포함하는,
장면을 분석하기 위한 컴퓨터-구현 방법.
제 1 항에 있어서,
상기 피처 맵은 하나 또는 그 초과의 ART(adaptive resonance theory) 네트워크 클러스터들을 포함하고,
적어도 상기 희소성 값은 최근접 클러스터에 대한 포지션-피처 벡터의 거리 및 상기 포지션-피처 벡터로부터의 임계 거리 미만의 클러스터들의 통계 관련성에 기초하여 결정되는,
장면을 분석하기 위한 컴퓨터-구현 방법.
제 3 항에 있어서,
상기 최근접 클러스터에 대한 거리는 의사-마하라노비스 거리(pseudo-Mahalanobis distance)이고, 상기 임계 거리 미만의 상기 클러스터들에 대한 거리들은 평균-제곱 에러 거리들(mean-squared error distances)로서 결정되는,
장면을 분석하기 위한 컴퓨터-구현 방법.
제 4 항에 있어서,
상기 희소성 값은,

로서 결정되고,
여기서
이고,
는 상기 최근접 클러스터에 대한 포지션-피처 벡터의 의사-마하라노비스 거리이고, α는 상수인,
장면을 분석하기 위한 컴퓨터-구현 방법.
제 3 항에 있어서,
상기 클러스터들의 평균 및 변량은 상기 클러스터들에 맵핑한 입력 벡터들의 실제 평균 및 변량이고,
각각의 클러스터는 통계 관련성에 의해 가중화되며,
상기 클러스터들은 통계 엔진에 의해 강화, 감쇠, 합병 및 제거되는,
장면을 분석하기 위한 컴퓨터-구현 방법.
제 1 항에 있어서,
상기 희소성 값을 결정하기 이전에, 관찰된 이례들(observed anomalies)의 빈도에 기초하여 상기 피처 맵을 수정하는 단계
를 더 포함하는,
장면을 분석하기 위한 컴퓨터-구현 방법.
제 7 항에 있어서,
상기 피처 맵을 수정하는 단계는,
각각의 클러스터에 연관된 관찰된 이례들의 카운트들에 기초하여 상기 피처 맵에서 클러스터들의 변량들을 증가시키는 단계를 포함하는,
장면을 분석하기 위한 컴퓨터-구현 방법.
제 1 항에 있어서,
상기 하나 또는 그 초과의 외형 피처들은 면적, 면적 도함수(area derivative), 그림자, 번쩍임, 내부 에너지, 면적, 엔트로피, 그라디언트 히스토그램(gradient histogram), 색조, GPS(global positioning system) 좌표들, 및 RFID(radio-frequency identification) 태그들 중 적어도 하나를 포함하는,
장면을 분석하기 위한 컴퓨터-구현 방법.
제 1 항에 있어서,
상기 운동학적 및 피처 데이터는 비디오 카메라에 의해 캡처된 비디오 프레임들로부터 추출되는,
장면을 분석하기 위한 컴퓨터-구현 방법.
시스템으로서,
프로세서; 및
메모리
를 포함하고,
상기 메모리는 장면을 분석하기 위한 동작들을 수행하도록 구성되는 애플리케이션 프로그램을 포함하고,
상기 동작들은,
상기 장면에서 객체에 대한 운동학적 및 피처 데이터를 수신하는 동작;
하나 또는 그 초과의 프로세서들을 통해, 수신된 데이터로부터 포지션-피처 벡터를 결정하는 동작 ― 상기 포지션-피처 벡터는 위치 및 상기 위치의 하나 또는 그 초과의 피처 값들을 표현함 ― ;
상기 포지션 피처-벡터에 대응하는 피처 맵을 리트리브하는 동작 ― 상기 피처 맵은 하나 또는 그 초과의 포지션-피처 클러스터들을 포함함 ― ;
적어도 상기 포지션 피처 벡터 및 상기 피처 맵에 기초하여 상기 객체에 대한 희소성 값(rareness value)을 결정하는 동작; 및
상기 희소성 값이 주어진 기준들을 충족하는 경우 상기 객체를 이례적인 것(anomalous)으로서 리포팅하는 동작
을 포함하는,
시스템.
제 11 항에 있어서,
상기 피처 맵은 하나 또는 그 초과의 ART(adaptive resonance theory) 네트워크 클러스터들을 포함하고,
상기 희소성 값은, 적어도 최근접 클러스터에 대한 포지션-피처 벡터의 거리 및 상기 포지션-피처 벡터로부터의 임계 거리 미만의 클러스터들의 통계 관련성에 기초하여 결정되는,
시스템.
제 12 항에 있어서,
상기 최근접 클러스터에 대한 거리는 의사-마하라노비스 거리(pseudo-Mahalanobis distance)이고, 상기 임계 거리 미만의 상기 클러스터들에 대한 거리들은 평균-제곱 에러 거리들로서 결정되는,
시스템.
제 13 항에 있어서,
상기 희소성 값은,

로서 결정되고,
여기서
이고,
는 상기 최근접 클러스터에 대한 포지션-피처 벡터의 의사-마하라노비스 거리이고, α는 상수인,
시스템.
제 12 항에 있어서,
상기 클러스터들의 평균 및 변량은 상기 클러스터들에 맵핑한 입력 벡터들의 실제 평균 및 변량이고,
각각의 클러스터는 통계 관련성에 의해 가중화되며,
상기 클러스터들은 통계 엔진에 의해 강화, 감쇠, 합병 및 제거되는,
시스템.