KR101522554B1

KR101522554B1 - 비디오 시퀀스의 움직이는 객체들의 중심들을 추정하는 시스템 및 방법

Info

Publication number: KR101522554B1
Application number: KR1020080122056A
Authority: KR
Inventors: 닝 쑤; 김영택
Original assignee: 삼성전자주식회사
Priority date: 2008-05-27
Filing date: 2008-12-03
Publication date: 2015-05-26
Also published as: KR20090123757A; US8483431B2; US20090297052A1

Abstract

비디오 시퀀스의 움직이는 객체들의 중심들을 추정하기 위한 시스템 및 방법이 개시된다. 본 발명의 일 실시예에 따른 비디오 시퀀스의 적어도 하나의 움직임 중심들을 정의하는 방법은 복수의 프레임들을 포함하는 비디오 시퀀스를 수신하는 단계; 상기 비디오 시퀀스에 기초해 복수의 프레임들의 부분집합 각각에 대한 움직임 히스토리 영상을 수신하는 단계; 상기 움직임 히스토리 영상을 이용해 제1 방향(orientation)을 가지는 적어도 하나의 데이터 세그먼트들을 식별하는 단계; 제2 방향을 가지는 적어도 하나의 데이터 세그먼트들을 식별하는 단계; 및 상기 제2 방향을 가지는 적어도 하나의 세그먼트들에 대해 대응되는 움직임 중심을 정의하는 단계를 포함하고, 상기 제1 방향을 가지는 적어도 하나의 데이터 세그먼트들 각각은 시작 위치 및 길이를 가지고, 상기 제2 방향을 가지는 적어도 하나의 데이터 세그먼트들의 각각의 엘리먼트들은 제1 방향을 가지는 데이터 세그먼트와 관련된 것을 특징으로 한다.

움직임 중심, 움직임 히스토리, 이진맵

Description

비디오 시퀀스의 움직이는 객체들의 중심들을 추정하는 시스템 및 방법{Systems and method for estimating the centers of moving objects in a video sequence}

본 발명은 디지털 비디오 처리에 관한 것으로 보다 상세히는 비디오 시퀀스의 움직이는 객체들의 중심 추정에 관한 것이다.

디지털 비디오 처리의 하나의 방법은 비디오 시퀀스의 적어도 하나의 움직이는 객체들의 움직임 중심들을 찾는 것을 시도한다. 움직임 중심들을 찾는 종래의 방법들은 비디오 프레임들의 시퀀스의 복잡한 처리를 포함하고 있다. 이러한 방법들은 영상 데이터의 많은 프레임들을 저장하고, 실시간 추정을 가능하게할만큼 충분히 효율적이지 않다.

본 발명은 영상을 처리하는 방법 및 장치에 관련된 것으로 보다 상세히는 적어도 하나의 객체를 포함하는 영상을 처리하는 방법 및 장치에 관련된 것이다.

본 발명의 일 측면에 따른 비디오 시퀀스의 적어도 하나의 움직임 중심들을 정의하는 방법은 복수의 프레임들을 포함하는 비디오 시퀀스를 수신하는 단계; 상기 비디오 시퀀스에 기초해 복수의 프레임들의 부분집합 각각에 대한 움직임 히스토리 영상을 수신하는 단계; 상기 움직임 히스토리 영상을 이용해 제1 방향(orientation)을 가지는 적어도 하나의 데이터 세그먼트들을 식별하는 단계; 제2 방향을 가지는 적어도 하나의 데이터 세그먼트들을 식별하는 단계; 및 상기 제2 방향을 가지는 적어도 하나의 세그먼트들에 대해 대응되는 움직임 중심을 정의하는 단계를 포함하고, 상기 제1 방향을 가지는 적어도 하나의 데이터 세그먼트들 각각은 시작 위치 및 길이를 가지고, 상기 제2 방향을 가지는 적어도 하나의 데이터 세그먼트들의 각각의 엘리먼트들은 제1 방향을 가지는 데이터 세그먼트와 관련된 것을 특징으로 한다.

본 발명의 또 다른 측면에 따른 비디오 시퀀스의 적어도 하나의 움직임 중심들을 정의하는 시스템은 복수의 프레임들을 포함하는 비디오 시퀀스를 수신하는 입력부; 상기 비디오 시퀀스에 기초해 복수의 프레임들의 부분집합 각각에 대한 움직임 히스토리 영상을 수신하는 움직임 히스토리 영상 모듈; 상기 움직임 히스토리 영상을 이용해 제1 방향(orientation)을 가지는 적어도 하나의 데이터 세그먼트들을 식별하는 제1 세그먼트화 모듈; 제2 방향을 가지는 적어도 하나의 데이터 세그 먼트들을 식별하는 제2 세그먼트화 모듈; 및 상기 제2 방향을 가지는 적어도 하나의 세그먼트들에 대해 대응되는 움직임 중심을 정의하는 움직임 중심 모듈을 포함하고, 상기 제1 방향을 가지는 적어도 하나의 데이터 세그먼트들 각각은 시작 위치 및 길이를 가지고, 상기 제2 방향을 가지는 적어도 하나의 데이터 세그먼트들의 각각의 엘리먼트들은 제1 방향을 가지는 데이터 세그먼트와 관련된 것을 특징으로 한다.

본 발명의 또 다른 측면에 따른 비디오 시퀀스에서 적어도 하나의 움직임 중심들을 정의하기 위한 시스템은 복수의 프레임들을 포함하는 비디오 시퀀스를 수신하기 위한 수단; 상기 비디오 시퀀스에 기초해 복수의 프레임들의 부분집합 각각에 대한 움직임 히스토리 영상을 수신하기 위한 수단;상기 움직임 히스토리 영상을 이용해 제1 방향(orientation)을 가지는 적어도 하나의 데이터 세그먼트들을 식별하기 위한 수단; 제2 방향을 가지는 적어도 하나의 데이터 세그먼트들을 식별하기 위한 수단; 및 상기 제2 방향을 가지는 적어도 하나의 세그먼트들에 대해 대응되는 움직임 중심을 정의하기 위한 수단을 포함하고, 상기 제1 방향을 가지는 적어도 하나의 데이터 세그먼트들 각각은 시작 위치 및 길이를 가지고, 상기 제2 방향을 가지는 적어도 하나의 데이터 세그먼트들의 각각의 엘리먼트들은 제1 방향을 가지는 데이터 세그먼트와 관련된 것을 특징으로 한다.

본 발명의 또 다른 측면은 복수의 프레임들을 포함하는 비디오 시퀀스를 수신하는 단계; 상기 비디오 시퀀스에 기초해 복수의 프레임들의 부분집합 각각에 대한 움직임 히스토리 영상을 수신하는 단계; 상기 움직임 히스토리 영상을 이용해 제1 방향(orientation)을 가지는 적어도 하나의 데이터 세그먼트들을 식별하는 단계; 제2 방향을 가지는 적어도 하나의 데이터 세그먼트들을 식별하는 단계; 및 상기 제2 방향을 가지는 적어도 하나의 세그먼트들에 대해 대응되는 움직임 중심을 정의하는 단계를 포함하고, 상기 제1 방향을 가지는 적어도 하나의 데이터 세그먼트들 각각은 시작 위치 및 길이를 가지고, 상기 제2 방향을 가지는 적어도 하나의 데이터 세그먼트들의 각각의 엘리먼트들은 제1 방향을 가지는 데이터 세그먼트와 관련된 것을 특징으로 하는 비디오 시퀀스에서 적어도 하나의 움직임 중심을 정의하는 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공한다.

이하 상세한 설명은 본 발명의 특정한 예시적인 측면과 관련되어 있다. 그러나 본 발명은 청구항에 의해 정의되고 커버되는 다양한 방법으로 구현될 수 있다. 본 발명의 상세한 설명에서 도면의 부분들은 번호에 의해 참조된다.

컴퓨터 비전(computer vision)은 기계들이 정보의 다양한 부분들을 위해 이미지 데이터를 보고, 분석하게 하는 자동화된 이미지 분석의 과학과 기술이다. 영상 데이터는 단일 영상, 비디오 시퀀스, 다중 카메라들로부터의 시점 또는 의학 스캐너(medical scanner)로부터 수신된 다차원 데이터와 같은 다양한 형식을 가질 수 있다.

광-반응 카메라들의 다양한 유형은 물론, 범위 센서(range sensor), X선 기기(tomography device), 레이더, 초음속 카메라 또는 다른 영상 기기들을 포함하는 하나 또는 몇몇 영상 센서들로부터 디지털 이미지는 생산된다. 센서의 종류에 따라 결과 영상 데이터는 일반적인 2D 영상, 3D 부피 또는 영상 시퀀스이다. 픽셀 값들은 일반적으로 예를 들어, 회색 영상들 또는 컬러 영상들과 같이 일반적으로 하나 또는 몇몇의 스펙트럼 밴드들(spectrum bands)에 대응되지만, 깊이(depth), 음파 또는 전자기파의 반사 또는 흡수, 핵 자기 공명과 같이 다양한 물리적인 수치와 또한 관련될 수 있다. 여기서 사용되는 디지털 영상 데이터(또는 영상 데이터)는 당업자에게 알려진 시각적 영상들 또는 비-시각적(non-visual) 영상들의 모든 형태를 포함한다.

몇몇 실시예들에서, 컴퓨터 비전은 컴퓨터 비전 시스템에서 다양한 임무들을 수행하기 위해 컴퓨터 비전의 이론들 및 모델들을 적용하려한다. 컴퓨터 비전 시스템의 어플리케이션의 예들은 처리 제어(예를 들어, 어셈플리라인 로봇(assembly lien robot)), 이벤트들 또는 사람 또는 물건의 존재의 검출을 위한 시각적 감시, 데이터 베이스들에 포함되어 있는 영상 정보의 식별 및 구성, 사람과 기계 사이의 상호 작용을 포함한다.

일 실시예는 영상 시퀀스의 움직이는 객체들의 적어도 하나의 움직임 중심을 찾으려 시도한다. 일 실시예에서, 디지털 영상 프레임들의 시퀀스가 입력이고 일련의 움직임 중심의 위치가 출력이다. 각각의 움직임 중심 위치는 비디오의 특정 프레임 및 객체와 관련되어 있다. 부착된 카메라를 통해 사용자와 지능적으로 상호작용할 수 있게 하는 새로운 계층의 생산품들을 가능하게 하도록 인간의 손과 같은 객체들의 궤도를 계산하는데 움직임 중심들은 이용될 수 있다.

시스템 개관

도 1은 여기에 개시된 방법들을 구현할 수 있는 시스템의 기능적 블록 다이어그램이다. 시스템(100)은 입력부(104), 출력부(106), 중앙 처리부(102), 캐쉬(108), 메인 메모리(110)를 포함하고, 네트워크(112)에 연결되어 있다. 시스템(100)은 예를 들어, 퍼스널 컴퓨터 또는 영상 분석을 위한 전용 처리부에 구현될 수 있다. 입력(104)은 중앙 처리부(102)에 정보를 제공하기 위해 연결되고 구성되고, 키보드, 마우스, 영상 카메라, 마이크로폰 또는 다른 입력 장치들로 구현될 수 있다. 입력부(104)는 사용자 또는 시스템 외부의 다른 소스(source)로부터 정보를 수신하도록 구성될 수 있다. 마찬가지로, 출력부(106)는 중앙 처리부(102)로부터 정보를 수신하도록 연결되고 구성되고, 모니터, 스피커 또는 경보 시스템(alarm system)으로 구현될 수 있다. 출력부(106)는 사용자 또는 시스템 외부의 다른 소스에게 정보를 제공하도록 구성될 수 있다. 중앙 처리부(102)는 Pentium® processor, Pentium II® processor, Pentium III® processor, Pentium IV® processor, Pentium® Pro processor, 8051 processor, MIPS® processor, Power PC® processor 또는 ALPHA® processor와 같은 종래의 범용 단일 또는 다중 칩 마이크로프로세서일 수 있다. 또한, 처리부(102)는 디지털 신호 프로세서와 같은 종래의 특수 목적 마이크로프로세서일 수 있다. 도 1의 실시예에서 중앙 처리부(102)는 캐시(108) 및 메인 메모리(110) 양쪽에 연결되어 있다. 캐시(108) 및 메모리(110)는 다른 것들 중에서도 명령 모듈들, 비디오 데이터 및 추정된 움직임 중심들을 저장하도록 구성될 수 있다. 캐시(108) 및 메인 메모리(110)는 서로 연결되고, 컴퓨터 데이터와 같은 정보가 저장되고 검색될 수 있도록 허용하는 전자 회로를 구현할 수 있다. 캐시(108) 또는 메인 메모리는 또한 예를 들어 디스크 드라이브들 또는 테이브 드라이브들과 같은 외부의 기기들 또는 시스템들일 수 있다. 캐시(108) 또는 메인 메모리(110)는 또한 예를 들어, 중앙 처리부(102)에 직접 연결된 RAM(Random Access Memory) 또는 다양한 유형의 ROM(Read Only Memory)와 같은 고속 반도체 저장부들(칩들)을 포함할 수 있다. 캐시(108) 또는 메인 메모리(110)를 구성할 수 있는 다른 유형들의 메모리는 버블 메모리(bubble memory) 및 코어 메모리(core memory)를 포함한다. 특정 실시예에서, 캐시(108)는 메인 메모리(110)보다 더 빠르게 액세스되도록 구성된다. 빠른 액세스 속도가 메모리 특성으로 바람직하다고 하여도, 가격과 액세스 속도 사이에는 교환 조건(trade-off)이 있다. 따라서, 많은 경우에 캐시(108)는 저장 단위(예를 들어, 메가바이트)마다 더 비싸서, 저장 단위마다 덜 비싼 메모리의 유형을 포함하는 메인 메모리(110)보다 더 작은 저장 용량을 가지는 메모리의 유형을 포함한다.

여기서 사용된 워드 모듈은 일반적으로 하드웨어 또는 펌웨어에 구현된 논리 또는 소프트웨어 명령의 집합을 뜻하고, 시작점과 끝점을 가질 수 있고 C 또는 C++과 같은 프로그래밍 언어로 쓰여진다. 소프트웨어 모듈은 컴파일되고(compiled) 실행 가능한 프로그램으로 링크될(linked) 수 있고, 동적 링크 라이브러리(dynamic link library)에 설치될 수 있고, 또는 예를 들어 BASIC, Perl 또는 Python과 같은 해석된 프로그래밍 언어(interpreted programming language)로 쓰여질 수 있다. 소프트웨어 모듈들은 다른 모듈들 또는 자신들에 의해 호출될 수 있고, 이벤트의 검출 또는 인터럽트들(interrupts)에 대한 응답으로 호출될 수 있다. 소프트웨어 명령들은 EPROM과 같은 펌웨어에 임베드될(embedded) 수 있다. 일반적으로 여기어 설명된 모듈들은 다른 모듈들과 조합되거나, 그들의 물리적 구성 또는 저장에도 불구하고 하위 모듈들(sub-modules)로 나누어질 수 있는 논리적 모듈들을 의미한다.

시스템(100)은 일반적으로 Windows 95, 98, NT, 2000, XP, Vista, Linux, SunOS, Solaris, PalmOS, Blackberry OS 또는 다른 호환되는 운영체계와 같은 서버 및/또는 데스크톱 컴퓨터 운영 체계 소프트웨어에 의해 제어되고 조정된다. 매킨토시 시스템에서 운영 체계는 MAC OS X와 같은 가능한 모든 운영 체계일 수 있다. 다른 실시예들에서 시스템(100)은 독점 운영 체계에 의해 제어될 수 있다. 종래의 운영 체계들은 실행을 위해 컴퓨터 프로세스를 제어하고 스케쥴하고, 메모리 관리를 수행하며, 파일 시스템, 네트워킹 및 I/O 서비스들을 제공하고, 그래픽 사용자 인터페이스(graphical user interface : GUI) 와 같은 사용자 인터페이스를 제공한다.

도 1의 실시예에서 시스템(100)은 LAN, WAN 또는 유선 연결, 무선 연결 또는 유선 및 무선 연결의 조합을 통한 인터넷 중 적어도 하나의 조합과 같은 네트워크(112)와 통신할 수 있다. 네트워크는 유선 또는 무선 통신 링크들을 통해 다양한 계산 기기들 및/또는 다른 전자 기기들과 통신할 수 있다. 예를 들어, 데이터 스트림은 네트워크로부터 수신될 수 있고, 예를 들어 인터넷을 가로 질러 적어도 하나의 기기로부터 전송되는 웹 또는 이메일 데이터와 같은 데이터를 포함할 수 있 다.

도 2는 본 발명의 일 실시예에 따른 비디오 시퀀스의 객체들(objects)과 관련된 적어도 하나의 움직임 중심들을 결정하는 방법의 흐름도이다. 방법(200)은 블록(210)에서 복수의 프레임들을 포함하는 비디오 시퀀스를 수신함으로써 시작된다. 비디오 시퀀스는 예를 들어 입력(104), 캐시(108), 메인 메모리(110) 또는 네트워크(112)를 통해 수신될 수 있다. 일 실시예에서, 비디오 카메라는 시스템에 비디오 스트림(video stream)을 제공하도록 구성된다. 방법의 몇몇 실시예에서 수신된 비디오 시퀀스는 비디오 카메라에 의해 기록된 것이 아니라 비디오 카메라 데이터가 처리된 버전(version)이다. 예를 들어, 비디오 시퀀스는 비디오 카메라 데이터의 다른 프레임마다 또는 세 번째 프레임마다의 부분집합을 포함할 수 있다. 다른 실시예에서 부분집합은 처리 능력이 허용하는 선택된 프레임들을 포함할 수 있다. 일반적으로 부분집합은 집합의 하나의 엘리먼트(element), 집합의 적어도 두 개의 엘리먼트, 집합의 적어도 세 개의 엘리먼트, 집합의 의미있는 비율의 엘리먼트(예를 들어, 적어도 10%, 20%, 30%), 집합의 대부분의 엘리먼트들, 집합의 거의 모든 엘리먼트들(예를 들어, 적어도 80%, 90%, 95%) 또는 모든 집합의 엘리먼트들을 포함한다. 또한, 비디오 시퀀스는 필터링, 탈채도화(desaturation) 및 기술 분야의 숙련된 사람에게 알려진 다른 영상 처리 기술들과 같은 영상 및/또는 비디오 처리 기술들에 의한 비디오 카메라 데이터를 포함할 수 있다.

다음으로 블록(215)에서 움직임 히스토리 영상(motion history image : MHI)은 각각의 프레임에 대해 획득된다. 몇몇 실시예들에서 MHI는 프레임들의 부분집 합에 대해 획득된다. 움직임 히스토리 영상은 영상 데이터와 유사한 비디오 시쿼스의 이전 프레임들에서 발생한 움직임을 나타내는 행렬이다. 비디오 시퀀스의 최초 프레임에 대해서, 공영상(blank image)이 움직임 히스토리 영상으로 고려된다. 정의에 따라 공영상은 명시적으로 계산되거나 획득되지 않을 수 있다. MHI를 획득하는 단계는 알려진 기술들 또는 새로운 방법들을 이용해 움직임 히스토리 영상을 계산하는 단계를 포함한다. 대체적으로 MHI를 얻는 단계는 비디오 카메라의 처리 모듈과 같은 외부의 소스로부터 움직임 히스토리 영상을 수신하는 단계를 포함하거나, 비디오 시퀀스와 함께 메모리로부터 검색하는 것을 포함한다. 움직임 히스토리 영상을 획득하는 하나의 방법이 도 3과 관련하여 후술될 것이지만 다른 방법들이 사용될 수 있다.

블록(220)에서 적어도 하나의 수평 세그먼트들이 식별된다. 일반적으로 세그먼트들은 반드시 수평일 필요는 없는 제1 방향(orientation)에 있을 수 있다. 일 실시예에서, 적어도 하나의 수평 세그먼트들은 움직임 히스토리 영상으로부터 식별될 것이다. 예를 들어, 수평 세그먼트들은 움직임 히스토리 영상의 임계치 이상의 픽셀들의 시퀀스들을 포함할 수 있다. 수평 세그먼트들은 또한 움직임 히스토리 영상을 분석하는 다른 방법들을 통해 식별될 수 있다. 다음으로, 블록(225)에서 적어도 하나의 수직 세그먼트들이 식별된다. 일반적으로 세그먼트들은 반드시 수직일 필요는 없는 제2 방향에 있을 수 있다. 일 실시예에서 수평 세그먼트들을 식별하고, 그 다음 수직 세그먼트들을 식별한다고 하여도 다른 실시예에서는 수직 세그먼트들을 식별하고, 그 다음 수평 세그먼트들을 식별할 수 있다. 두 방향 들은 수직이거나 또는 다른 실시예들에서는 수직이 아닐 수도 있다. 특정 실시예들에서 방향들은 프레임의 경계들에 따라 정렬되지 않을 수도 있다. 수직 세그먼트들은 예를 들어 각각의 엘리먼트가 특정 길이보다 큰 수평 세그먼트들에 대응되는 벡터들을 포함할 수 있다. 수평 세그먼트들 및 수직 세그먼트들의 특성이 상이할 수 있다는 것을 깨닫는 것은 중요하다. 예를 들어, 일 실시예에서 수직 세그먼트들이 수평 세그먼트들에 대응되는 엘리먼트들을 포함할 때, 수평 세그먼트들은 움직임 히스토리 영상의 픽셀들에 대응되는 엘리먼트들을 포함할 수 있다. 예를 들어, 하나의 열에 두 개의 수평 세그먼트들이 있을 때, 움직임 히스토리 영상의 동일한 열에 대응되는 두 개의 수직 세그먼트들이 있을 수 있고, 두 수직 세그먼트들 각각은 그 열의 서로 다른 수평 세그먼트들과 관련되어 있다.

마지막으로 블록(230)에서 적어도 하나의 수직 세그먼트들에 대해 움직임 중심이 결정된다. 수직 세그먼트들이 적어도 하나의 수평 세그먼트들과 관련되어 있고, 수평 세그먼트들이 적어도 하나의 픽셀들과 관련되어 있기 때문에 각각의 수직 세그먼트는 픽셀들의 집합과 관련되어 있다. 그 자체가 픽셀 위치 또는 픽셀 들 사이의 영상 안의 위치인 움직임 중심을 결정하기 위해 픽셀 위치들이 이용될 수 있다. 일 실시예에서, 움직임 중심은 수직 세그먼트와 관련된 픽셀 위치들의 가중치 평균(weighted average)이다. 픽셀 위치들의 "중심"을 찾는 다른 방법들이 이용될 수 있다. 움직임 중심은 반드시 수직 세그먼트에 의해 식별되는 픽셀 위치에 대응되지 않을 수 있다. 예를 들어, 초등달 모양(crescent-shaped) 픽셀 모음의 중심은 픽셀 모음에 의해 결정되는 경계들의 외부일 수 있다.

결정된 움직임 중심들은 저장되고, 전송되고, 디스플레이되거나 다른 방법으로 시스템으로부터 출력될 수 있다. 움직임 중심들은 추가적인 처리를 위해 시스템의 다른 기능적인 부분들로 전달될 수 있다. 예를 들어, 처리는 사람-기계 상호작용의 부분으로 이용되는 객체들의 궤도들을 계산하는 것을 포함할 수 있다. 움직임 중심들은 캐시(108) 또는 메인 메모리(110)에 저장될 수 있다. 그들은 예를 들어, 네트워크(112)를 통해 전송될 수 있다. 대체적으로 움직임 중심들은 출력부(106)에서 디스플레이될 수 있다.

움직임 히스토리 영상

도 3은 움직임 히스토리 영상(MHI)을 계산할 수 있는 시스템의 기능적인 블록 다이어그램을 도시한다. 두 개의 비디오 프레임들(302a, 302b)은 시스템(300)에 입력된다. 비디오 프레임들(302)은 비디오 시퀀스의 제1 프레임 및 제2 프레임과 관련된 세기 값들일 수 있다. 비디오 프레임들(302)은 특정 컬러 값의 세기일 수 있다. 몇몇 실시예에서 비디오 프레임들(302)은 비디오 시퀀스의 연속된 프레임들이다. 다른 실시예들에서 비디오 프레임들은 보다 빨리 그리고 보다 덜 정확하게 움직임 히스토리 영상 스트림을 계산하기 위해 비연속적이다. 두 비디오 프레임들(302)은 절대 차이 모듈(304)에 의해 처리된다. 절대 차이 모듈(304)은 절대 차이 영상(306)을 생산한다. 절대 차이 영상(306)의 각각의 픽셀은 제1 프레임(302) 및 제2 프레임(302)의 동일한 위치의 픽셀 값 사이의 차이의 절대 값이다. 절대 차이 영상은 임계치(310)을 입력으로 가지는 임계 모듈(thresholding module)(308)에 의해 처리된다.

몇몇 실시예들에서 임계치(310)는 고정된다. 임계 모듈(308)은 절대 차이 영상(106)에 임계치(310)를 적용해 이진 움직임 영상(112)을 생산한다. 이진 움직임 영상은 절대 차이 영상이 임계치(310) 보다 크면, 제1 값으로 설정되고, 절대 차이 영상이 임계치(310)보다 작으면 제2 값으로 결정된다. 몇몇 실시예들에서 이진 움직임 영상의 픽셀 값들은 0 또는 1일 수 있다. 다른 실시예들에서 픽셀 값들은 0 또는 255일 수 있다. 예시적인 비디오 프레임들, 이진 움직임 영상 및 움직임 히스토리 영상들은 도 4에 도시된다.

이진 움직임 영상(312)은 움직임 히스토리 영상을 생산하는 MHI 갱신 모듈(314)에 공급된다. 비디오 시퀀스의 각각의 프레임이 연이어 시스템(300)에 공급되는 경우에 출력은 각각의 프레임에 대한 움직임 히스토리 영상이다. MHI 갱신 모듈(314)은 또한 이전에 계산된 움직임 히스토리 영상을 입력으로 취한다.

일 실시예에서 이진 움직임 영상(312)는 0 또는 1의 값을 취하고, 움직임 히스토리 영상(318)은 0에서 255 사이의 정수 값을 취한다. 이러한 실시예에서 움직임 히스토리 영상(318)을 계산하는 하나의 방법이 후술된다. 만약, 주어진 픽셀 위치에서의 이진 움직임 영상(312)의 값이 1이면, 그 위치에서 움직임 히스토리 영상(318)의 값은 255이다. 만약, 주어진 픽셀 위치에서의 이진 움직임 영상(312)의 값이 0이면, 움직힘 히스토리 영상(318)의 값은 움직임 히스토리 영상(320)의 이전 값에서 델타로 표시될 수 있는 특정 값을 뺀 값이다. 만약 어떤 픽셀에서 계산된 움직임 히스토리 영상(318)의 값이 음이면, 음수 대신에 0으로 설정된다. 이러한 방식으로 먼 과거에 발생한 움직임이 움직임 히스토리 영상(318)에 표현되지만, 더 최근에 발생한 움직임 보다 강하게 표현되지는 않는다. 특정 일 실시예에서 델타는 1이다. 그러나, 이 실시예에서 델타는 다른 정수 값과 동일할 수 있다. 다른 실시예들에서 델타는 비정수값들 또는 음수 일 수 있다. 다른 실시예에서, 주어진 위치에서 이진 움직임 영상(312)의 값이 0이면, 움직임 히스토리 영상(318)의 값은 움직임 히스토리 영상(320)의 이전 값에 알파로 표시될 수 있는 어떤 값을 곱한 값이다. 이러한 방식으로 움직임 히스토리 영상(318)으로부터 움직임의 히스토리는 감소한다. 예를 들어 알파는 1/2일 수 있다. 알파는 또한 9/10 또는 0과 1사이의 모든 값일 수 있다.

움직임 히스토리 영상(318)은 시스템(300)으로부터 출력되나, MHI 갱신(320)에 의해 이용되는 이전에 계산된 움직임 히스토리 영상(320)을 생산하기 위해 지연부(316)로 입력된다.

도 4는 프레임들의 모음, 관련된 이진 움직임 영상들 및 각각의 프레임 움직임 히스토리 영상 비디오 시퀀스의 다이어그램이다. 왼쪽으로부터 오른쪽으로 가로질러 이동하는 객체(402)의 영상 시퀀스를 나타내는 네 개의 데이터 프레임들(450a, 450b, 450c 450d)이 도시된다. 최초의 두 비디오 프레임들(450a 및 450b)은 이진 움직임 영상(460b)을 계산하기 위해 이용된다. 앞에서 설명한 바는 두 개의 비디오 프레임으로부터 이진 움직임 영상(460b) 및 움직임 히스토리 영상(470b)을 생산하는 시스템 및 방법이다. 최초의 이진 움직임 영상(460b)은 움직임의 두 개의 영역들(404, 406)을 도시한다. 각각의 영역들은 객체(402)의 왼쪽 및 오른쪽 측면에 대응된다. 이전에 계산된 움직임 히스토리 영상이 없으므로 계산된 움직임 히스토리 영상(470b)은 이진 움직임 영상(460b)과 동일하다. 대체적으로 이전에 계산된 움직임 히스토리 영상은 모두 0인 것으로 가정될 수 있다. 움직임 히스토리 영상(470b)은 이진 움직임 영상(460b)의 영역들(404, 406)에 대응되는 영역들(416, 418)을 도시한다. 첫 번째 움직임 히스토리 영상(470b)의 계산에 이용되는 두 번째 프레임(450b)은 두 번째 움직임 히스토리 영상(470c)의 계산에 이용되는 최초 프레임이 된다. 두 개의 비디오 프레임들(450b 및 450c)을 이용해 이진 움직임 영상(460c)이 생성된다. 다시, 객체의 왼쪽 및 오른쪽 측면에 대응되는 움직임의 영역(408, 410)이 있다. 움직임 히스토리 영상(470c)은 이전에 계산된 움직임 히스토리 영상(470b)의 "희미한(faded)" 버전에 부가된 이진 움직임 영상(460c)이다. 따라서, 영역들(422 및 426)은 영역들(416 및 418)에 대응된다. 마찬가지로, 이진 움직임 영상(460d) 및 움직임 히스토리 영상(470d)은 비디오 프레임들(450c 및 450d)을 이용해 계산된다. 움직임 히스토리 영상(470d)은 객체들 움직임의 "흔적(trail)"을 도시하는 것과 마찬가지이다.

움직임 중심 결정

도 5는 적어도 하나의 움직임 중심들을 결정하는 시스템의 일 실시예의 기능적 블록 다이어 그램이다. 움직임 히스토리 영상(502)은 시스템(500)에 입력된다. 움직임 히스토리 영상(502)은 이진맵(506)을 생산하기 위해 임계 모듈(504)에 입력된다. 임계 모듈(504)은 각각의 픽셀에서 움직임 히스토리 영상(302)의 값을 임계 치에 비교한다. 만약, 특정 픽셀 위치에서 움직임 히스토리 영상(502)의 값이 임계치보다 크면, 그 픽셀 위치에서의 이진맵(506)의 값은 1로 설정된다. 만약, 특정 픽셀 위치에서의 움직임 히스토리 영상(520)의 값이 임계치보다 작으면, 그 픽셀 위치에서의 이진맵(506)의 값은 0으로 설정된다. 임계치는 예를 들어 100, 128 또는 200과 같은 어떤 값도 될 수 있다. 또한, 임계치는 움직임 히스토리 영상 또는 비디오 시퀀스로부터 유도되는 다른 파라미터들에 따라 다양할 수 있다. 예시적인 이진맵이 도 6에 도시된다.

움직임 세그먼트화는 수평 세그먼트화 및 수직 세그먼트화의 두 단계에서 수행된다. 수평 세그먼트화(508)는 움직임 영역의 라인 세그먼트를 선택한다. 그 라인에서 세그먼트의 시작 위치 및 길이의 두 값들이 출력된다. 또한, 수평 세그먼트화(508)는 시작 위치 및 종료 위치의 두 개의 값들을 출력할 수도 있다. 이진맵(506)의 각각의 열은 수평 세그먼트화 모듈(508)에 의해 분석된다. 일 실시예에서, 이진맵(506)의 각각의 열에 대해 가장 긴 수평 세그먼트의 시작 위치 및 가장 긴 수평 세그먼트의 길이 두 개의 값들이 출력된다. 대체적으로, 두 개의 값들은 가장 긴 수평 세그먼트의 시작 위치 및 가장 긴 수평 세그먼트의 종료 위치일 수 있다. 다른 실시예들에서, 수평 세그먼트 모듈(508)은 적어도 하나의 수평 세그먼트와 관련된 값들을 출력할 수 있다.

일 실시예에서, 수평 세그먼트는 이진맵의 열안의 1들의 연속이다. 이진맵의 열은 수평 세그먼트들이 식별되기 전에 전처리될 수 있다. 예를 들어, 1들의 긴 줄의 중간에서 단일한 0이 발견되면, 0은 떨어뜨려지고 1로 설정될 수 있다. 그러한, "고립된(lone)" 0은 영상에서 다른 0들과 인접할 수 있지만, 영상의 열 안에서는 그러하지 않다. 또한, 하나의 0은 영상의 에지(edge)에 있고, 다른 0들에 선행 또는 후행하지 않으면, 고립된 0으로 고려될 수 있다. 보다 일반적으로, 0들의 연속 양쪽에 더 긴 1들의 연속이 있으면, 0들의 전체 연속은 1로 설정될 수 있다. 다른 실시예들에서 떨어뜨림(flipping)이 발생하기 위해 이웃한 1들의 연속은 0들의 연속보다 두 배 더 길도록 요구될 수 있다. 이러한 전처리 방법과 다른 전처리 방법들이 이진맵에서 노이즈(noise)를 줄인다.

수평 세그먼트화로부터의 두 개의 결과적인 벡터들(510) 예를 들어, 이진맵의 각각의 열에 대한 가장 긴 수평 세그먼트 시작 위치 및 길이는 수직 세그먼트화 모듈(512)에 입력된다. 가장 긴 수평 새그먼트의 길이가 임계치보다 크면, 별도의 모듈 또는 수평 세그먼트화 모듈(508)의 일부인 수직 세그먼트화 모듈(512)에서 이진맵의 각각의 열은 1로 표시되고, 그렇지 않으면 0으로 표시된다. 이 시퀀스의 두 개의 계속된 1들은 두 개의 대응되는 수평 세그먼트들이 어떤 값을 넘어서는 일치(overlap)를 가지고 있으면 연결된 것으로 고려된다. 일 실시예에서 30%의 일치가 계속된 수평 세그먼트들이 연결된 것을 나타내도록 이용될 수 있다. 그러한 연결은 예를 들어, 시퀀스의 세 번째 계속되는 1이 최초 두 개의 1들과 연결될 수 있어 타동적(transitive)이다. 연결된 1들의 각각의 시퀀스는 수직 세그먼트를 결정한다. 하나의 크기가 각각의 수직 세그먼트와 관련된다. 일 실시예에서 크기는 연결된 1들의 개수 예를 들어 수직 세그먼트의 길이일 수 있다. 크기는 또한, 수평 세그먼트의 길이들로부터 계산 가능한 수직 세그먼트와 관련된 픽셀들의 개수일 수 있다. 크기는 또한 피부 색조(tone)와 유사한 색과 같이 사람의 손들의 추적을 가능하게 하는 어떤 특성을 가진 수직 세그먼트와 관련된 픽셀들의 개수일 수 있다.

MHI(520), 수평 세그먼트화 모듈(508)로부터의 벡터들(510)뿐만 아니라, 큰 크기(514)의 수직 세그먼트 또는 세그먼트들은 움직임 중심 계산 모듈(516)로 입력된다. 움직임 중심 계산 모듈(516)의 출력은 각각의 입력 수직 세그먼트와 관련된 위치이다. 위치는 픽셀 위치에 대응될 수 있고, 픽셀들 사이일 수 있다. 일 실시예에서 움직임 중심은 수직 세그먼트들과 관련된 픽셀 위치들의 가중 평균으로 정의될 수 있다. 일 실시예에서 픽셀의 가중치는 움직임 히스토리 영상의 값이 임계치 및 0보다 크면 움직임 히스토리 영상의 값이고 그렇지 않으면 0이다. 다른 실시예들에서 픽셀의 가중치는 각각의 픽셀에 대해 예를 들어 1로 일정하다.

도 6은 여기에 설명된 적어도 하나의 방법들을 수행하기 위해 이용되는 이진맵의 다이어그램이다. 이진맵(600)은 이진맵의 각각의 열의 수평 세그먼트들을 식별하는 수평 세그먼트화 모듈(508)에 처음으로 입력된다. 모듈(508)은 그런 다음 각각의 열에 대한 가장 긴 수평 세그먼트의 시작 위치 및 길이를 정의하는 출력을 생산한다. 도 6의 열 0에 대해 이진맵이 모두 0으로 구성되기 때문에 수평 세그먼트들은 없다. 열 1에는 길이 3의 인덱스 0에서 시작하고, 길이 4에 인덱스 10에서 시작하는 두 개의 수평 세그먼트들이 있다. 몇몇 실시예들에서 수평 세그먼트화 모듈(508)은 이러한 수평 세그먼트들 모두를 출력할 수 있다. 다른 실시예들에서는 단지 가장 긴 수평 세그먼트 예를 들어, 인덱스 10에서 시작하는 세그먼트만이 출력이다. 열 2에는 시스템이 이용되는 실시예에 따라서 하나, 둘 또는 세 개의 수평 세그먼트들이 있다. 일 실시예에서 인덱스 17의 0과 같이 1들에 의해 둘러싸인 고립된 0들은 처리 전에 1로 바뀐다. 또 다른 실시예에서, 인덱스 7 및 8의 두 개의 0들의 시퀀스와 같이 더 긴 1들의 시퀀스들에 의해 둘러싸인 0들의 시퀀스들은 처리 전에 1들로 바뀐다. 그러한 실시예에서는 길이 17의 인덱스 4에서 시작하는 하나의 수평 세그먼트가 식별된다. 본 발명의 일 실시예를 이용해 식별된 수평 세그먼트들은 도 6의 밑줄로 지시되어 있다. 또한, 각각의 열은 만약 가장 긴 수평 세그먼트가 5 또는 그 이상의 길이이면 이진맵의 우측에 1 또는 0으로 표시된다. 다른 실시예들에서 다른 임계치들이 이용될 수 있다. 또한 임계치는 예를 들어 이웃한 열들과 같이 다른 열들의 특성에 따라 바뀔 수 있다.

다중 움직임 중심 결정

본 발명의 다른 측면은 순차적으로 움직임 히스토리 영상의 수평 및 수직 세그먼트화를 수행하고, 관련된 객체들을 식별하고 그러한 오브젝트들 각각을 움직임 중심과 연관시킴으로써 움직임 중심들을 공급된 비디오 스트림의 각각의 프레임 안의 식별된 객체들과 연관시키는 방법이다.

일 실시예에서 세 개의 가장 큰 움직임 객체들이 식별되고 비디오 시퀀스의 각각의 프레임에 대해 움직임 중심들이 그러한 객체들과 연관된다. 발명은 모든 개수의 객체들이 식별될 수 있기 때문에 세 개의 객체들에 한정되지 아니한다. 예를 들어, 단지 두 개의 객체들 또는 세 개의 이상의 객체들이 식별될 수 있다. 몇 몇 실시예들에서 식별되는 객체들의 개수는 비디오 시퀀스 동안 다양하다. 예를 들어, 비디오 시퀀스의 한 부분은 두 개의 객체들이 식별되고, 다른 부분에서는 네 개의 오브젝트들이 식별된다.

도 7은 비디오 시퀀스의 적어도 하나의 움직임 중심들을 결정할 수 있는 시스템을 도시하는 기능적 블록 다이어그램이다. 시스템(700)은 수평 세그먼트화 모듈(704), 수직 세그먼트화 모듈(708), 움직임 중심 계산 모듈(712), 중심 갱신 모듈(716) 및 지연 모듈(720)을 포함한다. 수평 세그먼트화 모듈(704)은 움직임 히스토리 영상(702)을 입력으로서 수신하고, 움직임 히스토리 영상(702)의 각각의 열에 대한 수평 세그먼트들(706)을 출력한다. 일 실시예에서 두 개의 가장 큰 수평 세그먼트들이 출력된다. 다른 실시예들에서, 두 개의 수평 세그먼트들 보다 더 많거나 적은 세그먼트들이 출력될 수 있다. 일 실시예에서 움직임 히스토리 영상(702)의 각각의 열은 다음과 같이 처리된다. 중간값(median) 필터가 적용되고, 단조로운 세그먼트들의 변경이 식별되며, 시작점들 및 길이들이 각각의 세그먼트에 대해 식별되고, 동일한 객체들로부터 온 인접한 세그먼트들은 결합되며, 가장 큰 세그먼트들이 식별되고 출력된다. 이러한 처리는 수평 세그먼트화 모듈(704)에 의해 수행될 수 있다. 도시 또는 미도시된 다른 모듈들은 처리의 단계들을 수행하는데 채용될 수 있다.

수직 세그먼트화 모듈(708)은 수평 세그먼트들(706)을 입력으로서 수신하고, 객체 움직임들(710)을 출력한다. 일 실시예에서 세 개의 가장 큰 객체 움직임들이 출력된다. 다른 실시예들에서 세 개의 객체 움직임들보다 더 많거나 적은 움직임 들이 출력될 수 있다. 일 실시예에서, 가장 큰 객체 움직임만이 출력된다. 객체 움직임들(710)은 객체 움직임들(710) 각각에 대한 움직임 중심들(714)을 출력하는 움직임 중심 결정 모듈(712)로 입력된다. 결정 모듈(712)에서 움직임 중심들을 결정하는 처리는 후술한다. 이전에 결정된 움직임 중심들과 객체의 움직임들(722)을 관련시키는 이전에 결정된 정보와 함께 새로이 결정된 움직임 중심들(714)은 새로이 계산된 움직임 중심(714)을 객체 움직임들과 관련시키기 위해 중심 갱신 모듈(716)에 의해 이용된다.

본 발명의 일 실시예에 따른 수평 세그먼트화는 예시에 의해 가장 잘 이해될 수 있다. 도 8a는 움직임 히스토리 영상의 예시적인 열들을 도시한다. 도 8b는 도 8a의 움직임 히스토리 영상의 열을 단조로운 세그먼트로 나타내는 다이어그램을 도시한다. 도 8c는 도 8a의 움직임 히스토리 영상의 열로부터 유도된 두 개의 세그먼트들을 나타내는 다이어그램이다. 도 8d는 예시적인 움직임 히스토리 영상으로부터 유도된 복수의 세그먼트들을 나타내는 다이어그램이다. 움직임 히스토리 영상의 각각의 열은 도 7에 도시된 수평 세그먼트화 모듈(704)에 의해 처리될 수 있다. 일 실시예에서 중간값 필터가 처리의 일부로서 움직임 히스토리 영상의 열에 적용된다. 중간값 필터는 열을 부드럽게 하고, 노이즈를 제거할 수 있다. 도 8a의 예시적인 열은 도 8b에 도시된 단조로운 세그먼트들의 모음으로 나타날 수 있다. 예시적인 열의 첫 번째 네 개의 엘리먼트들에 대응되는 첫 번째 세그먼트는 단조롭게 증가한다. 예시적인 열의 다음 세 개의 엘리먼트들에 대응되는 즉각적으로 단조롭게 감소하는 세그먼트가 이 세그먼트에 뒤따른다. 또 다른 단조로운 세 그먼트는 열의 후반부에서 식별된다. 인접한 또는 가까이 인접한 동일한 객체로부터 올 확률이 높은 단조로운 세그먼트들은 추가적인 처리의 목적을 위해 단일 세그먼트로 결합될 수 있다. 도 8에 도시된 예에서 두 세그먼트들이 식별된다. 이러한 식별되는 세그먼트들의 시작 위치 및 길이는 메모리에 저장될 수 있다. 세그먼트들에 대한 추가적인 정보는 세그먼트들의 추가적인 분석에 의해 확정될 수 있다. 예를 들어, 특정 특성을 가진 세그먼트의 픽셀들의 개수들이 식별될 수 있다. 일 실시예에서 피부 색조와 같이 하나의 색 특성을 가진 세그먼트의 픽셀의 개수들이 확정되고 저장될 수 있다.

도 8d는 움직임 히스토리 영상의 많은 열들에 적용된 수평 세그먼트의 예시적인 결과를 도시한다. 서로 다른 열의 수평 세그먼트들을 관련시키기 위한 수직 세그먼트화가 수행될 수도 있다. 예를 들어, 도 8d의 두 번째 열(820)에서 두 개의 식별된 세그먼트들(821 및 822)이 있고, 각각의 세그먼트들은 상당한 숫자의 칸에서 상부 열의 다른 세그먼트들(812 및 812)와 일치한다. 서로 다른 열의 두 개의 세그먼트들을 관련시키기 위한 결정은 예를 들어 그들이 서로 얼마나 많이 일치하는지와 같은 세그먼트들의 특성들의 숫자 중 어느 것에나 기초할 수 있다. 도 8d의 예시에 적용되는 이러한 관련 처리 또는 수직 세그먼트화는 움직임 히스토리 영상의 좌측 상부의 움직임에 대응되는 제1 움직임, 우측 상부에 대응되는 제2 움직임 및 하부에 대응되는 제3 움직임의 세 개의 객체 움직임들을 정의하는 결과를 낳는다.

몇몇 실시예들에서 하나의 열의 하나 이상의 세그먼트이 인접한 열에서 단일 세그먼트로 관련될 수 있고, 따라서 수직 세그먼트화 처리는 1:1일 필요가 없다. 다른 실시예에서, 처리를 단순화하기 위해 1:1 매칭을 보장하기 위한 처리 규칙이 있을 수 있다. 객체 움직임 각각은 픽셀 개수 카운트 또는 특정 특성의 픽셀의 개수 카운트와 관련될 수 있다. 방법의 다른 적용들에서 세 개의 객체 움직임들보다 많거나 적은 움직임들이 식별될 수 있다.

각각의 객체 움직임에 대해 움직임 중심이 정의된다. 움직임 중심은 예를 들어 객체 움직임과 관련된 픽셀 위치들의 가중 평균으로서 계산될 수 있다. 가중치는 단일하거나, 픽셀의 특정 특성에 기초할 수 있다. 예를 들어, 사람에 대응되는 피부 색조를 가진 픽셀들에 예를 들어 파란 픽셀 보다 더 큰 가중치가 주어질 수 있다.

움직임 중심들은 각각 비디오 시퀀스에 의해 기록된 객체에 대응되는 객체 움직임과 관련된다. 각각의 영상에서 식별된 움직임 중심들은 그것들이 유도된 객체에 적절히 관련될 수 있다. 예를 들어, 만약 비디오 시퀀스가 서로 반대 방향으로 지나가는 두 개의 자동차라면, 각각의 자동차의 움직임 중심을 추적하는 것이 유리할 수 있다. 이러한 예시에서 두 개의 움직임 중심들은 서로 가로질러 접근할 것이다. 몇몇 실시예들에서 움직임 중심들은 상부에서 하부로 및 좌측에서 우측으로 계산될 수 있고, 따라서 제1 움직임 중심은 시퀀스의 첫 번째 반에서 제1 자동차 및 서로 지나가간 후에 제2 자동차에 대응될 수 있다. 움직임 중심들을 추적함으로써 각각의 객체들의 상대적인 위치에 무관하게 움직임 중심은 객체와 관련될 수 있다.

일 실시예에서 유도된 움직임 중심은 이전에 유도된 움직임 중심으로서 그들 사이의 거리가 임계치보다 작으면 동일한 객체와 관련된다. 다른 실시예에서 유도된 움직임 중심은 가장 가까운 이전에 유도된 움직임 중심으로서 동일한 객체와 관련된다. 또 다른 실시예에서 이전에 유도된 움직임 히스토리에 기초한 객체들의 궤도는 움직임 중심이 어디에 있을지 예상하기 위해 이용될 수 있고, 만약 유도된 움직임 중심이 이 위치에 가까이에 있으면 움직임 중심은 객체와 연관된다. 다른 실시예들이 궤도의 다른 이용들에 채용될 수 있다.

결론

일련의 영상들에서 객체의 움직임을 분석하기 위한 시스템들 및 방법들이 전술되었다. 움직임 중심들은 많은 수의 실용적인 적용을 가지고 있다. 하나의 적용에서 비디오 시퀀스가 손 동작에 대응된다. 사람의 손의 움직임은 사람 기계 상호 작용의 일부로서 작동하기 위해 개시된 방법들을 이용해 추적될 수 있다. 예를 들어, 텍스트 문서 또는 웹 페이지의 스크롤을 위한 명령은 사용자의 손을 위로 또는 아래로 움직임에 의해 사용자에 의해 주어질 수 있다. 사용자 인터페이스의 일부로서 손동작들의 사용에 대한 추가적인 정보는 그 전부를 참조함으로써 여기에 병합되는 2008년 2월 25일 출원된 "System and method for television control using hand gestures"라는 제목의 미국 특허 출원 No. 12/037,033에 개시되어 있다.

또 다른 적용에서 사람의 손 및 머리의 움직임은 복싱 시뮬레이션(boxing simulation)과 같은 컴퓨터 게임에서 컴퓨터 아바타(avatar)의 제어를 위해 분석될 수 있다. 움직임 중심들은 또한, 천문학적인 데이터와 같은 과학적인 데이터를 분석하기 위해 이용될 수 있다. 소행성, 혜성 또는 위성 과 같은 지구 근접 객체들(Near-earth objects : NEOs)의 검출이 다른 방법에 의하면 너무 많은 계삭 처리 능력을 소모하는 많은 양의 데이터의 움직임 중심 분석을 이용해 간단해질 수 있다.

상기 설명은 다양한 실시예들에 적용되는 본 발명의 신규한 특성을 지적하였지만, 본 발명의 범위에서 벗어남이 없이 도시된 기기 또는 처리의 형식 및 상세에서 다양한 생략, 치환 및 변경이 가능함은 숙련된 사람은 이해할 것이다. 따라서, 본 발명의 범위는 앞의 상세한 설명이 아닌 청구항에 의해 정의된다. 청구항들의 의미 및 균등의 범위 안에 포함되는 모든 변형은 본 발명의 범위에 포함된다.

도 1은 본 발명에 따른 적어도 하나의 방법을 수행하기 위한 시스템의 기능적인 블록 다이어그램이다.

도 2는 본 발명의 일 실시예에 따른 비디오 시퀀스의 오브젝트들과 관련된 적어도 하나의 움직임 중심들을 정의하는 방법의 흐름도이다.

도 3은 본 발명의 일 실시예에 따른 움직임 히스토리 영상을 정의하는 시스템의 기능적인 블록 다이어그램이다.

도 4는 본 발명의 일 실시예에 따른 영상 시퀀스의 프레임들의 모음, 관련된 이진 움직임 영상들 및 각각의 프레임의 움직임 히스토리 영상을 도시한다.

도 5는 본 발명의 일 실시예에 따른 적어도 하나의 움직임 중심들을 결정하기 위한 시스템의 기능적인 블록 다이어그램이다.

도 6은 본 발명의 일 실시예에 따른 적어도 하나의 방법을 수행함에 있어 이용될 수 있는 이진맵(binary map)의 다이어그램이다.

도 7은 본 발명의 또 다른 실시예에 따른 적어도 하나의 움직임 중심들을 결정하기 위한 시스템의 기능적인 블록 다이어그램이다.

도 8a는 움직임 히스토리 영상의 예시적인 열을 도시한다.

도 8b는 도 8a의 움직임 히스토리 영상의 열을 단조적인 세그먼트들(monotonic segments)로 표현한 다이어그램이다.

도 8c는 도 8a의 움직임 히스토리 영상의 열로부터 추출된 두 개의 세그먼트들을 도시한다.

도 8d는 예시적인 움직임 히스토리 영상으로부터 추출된 복수의 세그먼트를 도시한다.

Claims

비디오 시퀀스의 적어도 하나의 움직임 중심들을 정의하는 방법에 있어서,

복수의 프레임들을 포함하는 비디오 시퀀스를 수신하는 단계;

상기 비디오 시퀀스에 기초해 복수의 프레임들의 부분집합 각각에 대한 움직임 히스토리 영상을 수신하는 단계;

상기 움직임 히스토리 영상을 이용해 제1 방향(orientation)을 가지는 적어도 하나의 데이터 세그먼트들을 식별하는 단계;

제2 방향을 가지는 적어도 하나의 데이터 세그먼트들을 식별하는 단계; 및

상기 제2 방향을 가지는 적어도 하나의 세그먼트들에 대해 대응되는 움직임 중심을 정의하는 단계를 포함하고,

상기 제1 방향을 가지는 적어도 하나의 데이터 세그먼트들 각각은 시작 위치 및 길이를 가지고, 상기 제2 방향을 가지는 적어도 하나의 데이터 세그먼트들의 각각의 엘리먼트들은 제1 방향을 가지는 데이터 세그먼트와 관련된 것을 특징으로 하는 움직임 중심 정의 방법.
제 1 항에 있어서, 상기 복수의 프레임들의 부분집합은

각각의 프레임들을 포함하는 것을 특징으로 하는 움직임 중심 정의 방법.
제 1 항에 있어서, 하나의 프레임에 대한 움직임 히스토리 영상을 수신하는 단계는

상기 프레임의 픽셀 값들 및 이전 프레임의 픽셀 값들에 기초해 차이 영상을 획득하는 단계;

이진 움직임 영상을 생산하기 위해 상기 차이 영상에 임계치를 적용하는 단계; 및

상기 이진 움직임 영상 및 이전 프레임에 대해 얻어진 움직임 히스토리 영상에 기초해 움직임 히스토리 영상을 획득하는 단계를 포함하는 것을 특징으로 하는 움직임 중심 정의 방법.
제 3 항에 있어서, 상기 차이 영상을 획득하는 단계는

상기 차이 영상의 픽셀 값들을 상기 프레임의 대응되는 픽셀 값 및 상기 이전 프레임의 대응되는 픽셀 값의 차이의 절대 값으로 설정하는 단계를 포함하는 것을 특징으로 하는 움직임 중심 정의 방법.
제 3 항에 있어서, 상기 움직임 히스토리 영상을 획득하는 단계는

이진 움직임 영상의 대응되는 픽셀 값이 제2 값이면 상기 움직임 히스토리 영상의 픽셀 값들을 제1 값으로 설정하는 단계; 및

상기 움직임 히스토리 영상의 픽셀 값들을 상기 이전 프레임에 대해 획득된 움직임 히스토리 영상의 대응되는 픽셀 값에서 소정의 인자(factor)만큼 감소된 값으로 설정하는 단계를 포함하는 것을 특징으로 하는 움직임 중심 정의 방법.
제 5 항에 있어서, 상기 이전 프레임에 대해 획득된, 상기 소정의 인자만큼 감소된, 움직임 히스토리 영상은

상기 이전 프레임에 대해 획득된 움직임 히스토리 영상에서 고정된 값을 뺀 움직임 히스토리 영상인 것을 특징으로 하는 움직임 중심 정의 방법.
제 5 항에 있어서, 상기 이전 프레임에 대해 획득된, 상기 소정의 인자만큼 감소된, 움직임 히스토리 영상은

상기 이전 프레임에 대해 획득된 움직임 히스토리 영상에 고정된 값을 곱한 움직임 히스토리 영상인 것을 특징으로 하는 움직임 중심 정의 방법.
제 1 항에 있어서, 상기 제1 방향을 가지는 적어도 하나의 데이터 세그먼트들을 식별하는 단계는

이진맵을 생산하기 위해 상기 움직임 히스토리 영상에 제1 임계치를 적용하는 단계를 포함하는 것을 특징으로 하는 움직임 중심 정의 방법.
제 8 항에 있어서, 상기 제1 방향을 가지는 데이터 세그먼트 각각은

상기 이진맵의 열의 1들의 연속인 것을 특징으로 하는 움직임 중심 정의 방법.
제 8 항에 있어서, 상기 제1 방향을 가지는 적어도 하나의 데이터 세그먼트들을 식별하는 단계는

상기 이진맵을 전처리하는 단계를 포함하는 것을 특징으로 하는 움직임 중심 정의 방법.
제 10 항에 있어서, 상기 전처리하는 단계는

고립된 0을 1로 변경하는 단계를 포함하는 것을 특징으로 하는 움직임 중심 정의 방법.
제 10 항에 있어서, 상기 전처리하는 단계는

0들의 시퀀스보다 큰 길이의 1들의 시퀀스가 상기 0들의 시퀀스에 선행 및 후행하는 경우 상기 0들의 시퀀스를 1들의 시퀀스로 변경하는 단계를 포함하는 것을 특징으로 하는 움직임 중심 정의 방법.
제 10 항에 있어서, 상기 전처리하는 단계는

0들의 시퀀스의 두배 보다 큰 길이의 1들의 시퀀스가 상기 0들의 시퀀스에 선행 및 후행하는 경우 상기 0들의 시퀀스를 1들의 시퀀스로 변경하는 단계를 포함하는 것을 특징으로 하는 움직임 중심 정의 방법.
제 8 항에 있어서, 상기 제2 방향을 가지는 적어도 하나의 세그먼트의 각각 의 엘리먼트는

상기 제2 방향을 가지는 데이터 세그먼트의 엘리먼트이기도 하는 상기 제1 방향을 가지는 또 다른 데이터 세그먼트에 연결된 상기 제1 방향을 가지는 데이터 세그먼트와 관련된 것을 특징으로 하는 움직임 중심 정의 방법.
제 14 항에 있어서, 상기 제1 방향을 가지는 두 개의 데이터 세그먼트는

상기 제1 방향을 가지는 상기 두 개의 데이터 세그먼트들 사이의 공통의 칸들의 숫자가 제2 임계치보다 크거나 같으면 연결되는 것을 특징으로 하는 움직임 중심 정의 방법.
제 15 항에 있어서, 상기 제2 임계치는

상기 제1 방향을 가지는 적어도 하나의 데이터 세그먼트의 길이에 기초한 것을 특징으로 하는 움직임 중심 정의 방법.
제 16 항에 있어서, 상기 제2 임계치는

상기 제1 방향을 가지는 두 개의 데이터 세그먼트들 중 짧은 것의 길이의 30%인 것을 특징으로 하는 움직임 중심 정의 방법.
제 8 항에 있어서, 상기 제2 방향을 가지는 적어도 하나의 데이터 세그먼트들을 식별하는 단계는

상기 이진맵의 각각의 열을 1 또는 0으로 표시하는 단계를 포함하는 것을 특징으로 하는 움직임 중심 정의 방법.
제 18 항에 있어서,

제1 방향을 가지는 가장 긴 데이터 세그먼트의 길이가 제2 임계치보다 크면 열을 1로 표시하고, 제1 방향을 가지는 가장 긴 데이터 세그먼트의 길이가 제2 임계치보다 크지 않으면 상기 열을 0으로 표시하는 것을 특징으로 하는 움직임 중심 정의 방법.
제 19 항에 있어서, 상기 제2 방향을 가지는 데이터 세그먼트는

1로 표시된 연결된 열들의 시퀀스인 것을 특징으로 하는 움직임 중심 정의 방법.
제 20 항에 있어서,

각각의 열과 관련된 상기 제1 방향을 가지는 가장 긴 데이터 세그먼트들 사이의 공통된 칸의 개수가 제2 임계치보다 크거나 같으면 두 개의 열들이 연결되는 것을 특징으로 하는 움직임 중심 정의 방법.
제 1 항에 있어서, 상기 제1 방향을 가지는 적어도 하나의 데이터 세그먼트들을 식별하는 단계는

상기 움직임 히스토리 영상의 열에 중간값 필터를 적용하는 단계;

상기 열의 단조로운 데이터 세그먼트들을 식별하는 단계; 및

상기 식별된 단조로운 데이터 세그먼트들 중 동일한 객체의 움직임에 대응되는 인접한 데이터 세그먼트들을 결합하는 단계를 포함하는 것을 특징으로 하는 움직임 중심 정의 방법.
제 1 항에 있어서, 상기 움직임 중심을 정의하는 단계는

상기 제2 방향을 가지는 주어진 데이터 세그먼트와 관련된 모든 픽셀들의 위치의 가중치 평균을 취하는 단계를 포함하는 것을 특징으로 하는 움직임 중심 정의 방법.
제 23 항에 있어서, 상기 가중치는

각각의 픽셀에 대해 단일한 것을 특징으로 하는 움직임 중심 정의 방법.
제 23 항에 있어서, 상기 가중치는

움직임 히스토리 영상에 기초하는 것을 특징으로 하는 움직임 중심 정의 방법.
제 1 항에 있어서, 상기 제1 방향은

상기 제2 방향에 수직인 것을 특징으로 하는 움직임 중심 정의 방법.
제 26 항에 있어서,

상기 제1 방향은 수직이고, 상기 제2 방향은 수평인 것을 특징으로 하는 움직임 중심 정의 방법.
제 26 항에 있어서,

상기 제1 방향은 수평이고, 상기 제2 방향은 수직인 것을 특징으로 하는 움직임 중심 정의 방법.
비디오 시퀀스의 적어도 하나의 움직임 중심들을 정의하는 시스템에 있어서,

복수의 프레임들을 포함하는 비디오 시퀀스를 수신하는 입력부;

상기 비디오 시퀀스에 기초해 복수의 프레임들의 부분집합 각각에 대한 움직임 히스토리 영상을 수신하는 움직임 히스토리 영상 모듈;

상기 움직임 히스토리 영상을 이용해 제1 방향(orientation)을 가지는 적어도 하나의 데이터 세그먼트들을 식별하는 제1 세그먼트화 모듈;

제2 방향을 가지는 적어도 하나의 데이터 세그먼트들을 식별하는 제2 세그먼트화 모듈; 및

상기 제2 방향을 가지는 적어도 하나의 세그먼트들에 대해 대응되는 움직임 중심을 정의하는 움직임 중심 모듈을 포함하고,

상기 제1 방향을 가지는 적어도 하나의 데이터 세그먼트들 각각은 시작 위치 및 길이를 가지고, 상기 제2 방향을 가지는 적어도 하나의 데이터 세그먼트들의 각 각의 엘리먼트들은 제1 방향을 가지는 데이터 세그먼트와 관련된 것을 특징으로 하는 움직임 중심 정의 시스템.
제 29 항에 있어서, 상기 입력부는

디지털 비디오 카메라인 것을 특징으로 하는 움직임 중심 정의 시스템.
제 29 항에 있어서, 상기 입력부는

메모리로부터 비디오 시퀀스를 수신하는 메모리 액세스 모듈인 것을 특징으로 하는 움직임 중심 정의 시스템.
제 29 항에 있어서, 상기 움직임 히스토리 영상 모듈은

움직임 히스토리 영상을 결정하기 위해 수신된 비디오 시퀀스를 처리하는 것을 특징으로 하는 움직임 중심 정의 시스템.
제 29 항에 있어서, 상기 움직임 히스토리 영상 모듈은

미리 결정된 움직임 히스토리 영상을 수신하는 것을 특징으로 하는 움직임 중심 정의 시스템.
제 29 항에 있어서,

상기 적어도 하나의 움직임 중심들을 디스플레이하기 위한 출력부를 더 포함 하는 것을 특징으로 하는 움직임 중심 정의 시스템.
제 29 항에 있어서,

상기 적어도 하나의 움직임 중심들을 메모리에 저장하기 위한 저장 모듈을 더 포함하는 것을 특징으로 하는 움직임 중심 정의 시스템.
비디오 시퀀스에서 적어도 하나의 움직임 중심들을 정의하기 위한 시스템에 있어서,

복수의 프레임들을 포함하는 비디오 시퀀스를 수신하기 위한 수단;

상기 비디오 시퀀스에 기초해 복수의 프레임들의 부분집합 각각에 대한 움직임 히스토리 영상을 수신하기 위한 수단;

상기 움직임 히스토리 영상을 이용해 제1 방향(orientation)을 가지는 적어도 하나의 데이터 세그먼트들을 식별하기 위한 수단;

제2 방향을 가지는 적어도 하나의 데이터 세그먼트들을 식별하기 위한 수단; 및

상기 제2 방향을 가지는 적어도 하나의 세그먼트들에 대해 대응되는 움직임 중심을 정의하기 위한 수단을 포함하고,

상기 제1 방향을 가지는 적어도 하나의 데이터 세그먼트들 각각은 시작 위치 및 길이를 가지고, 상기 제2 방향을 가지는 적어도 하나의 데이터 세그먼트들의 각각의 엘리먼트들은 제1 방향을 가지는 데이터 세그먼트와 관련된 것을 특징으로 하 는 움직임 중심 정의 시스템.
복수의 프레임들을 포함하는 비디오 시퀀스를 수신하는 단계;

상기 비디오 시퀀스에 기초해 복수의 프레임들의 부분집합 각각에 대한 움직임 히스토리 영상을 수신하는 단계;

상기 움직임 히스토리 영상을 이용해 제1 방향(orientation)을 가지는 적어도 하나의 데이터 세그먼트들을 식별하는 단계;

제2 방향을 가지는 적어도 하나의 데이터 세그먼트들을 식별하는 단계; 및

상기 제2 방향을 가지는 적어도 하나의 세그먼트들에 대해 대응되는 움직임 중심을 정의하는 단계를 포함하고,

상기 제1 방향을 가지는 적어도 하나의 데이터 세그먼트들 각각은 시작 위치 및 길이를 가지고, 상기 제2 방향을 가지는 적어도 하나의 데이터 세그먼트들의 각각의 엘리먼트들은 제1 방향을 가지는 데이터 세그먼트와 관련된 것을 특징으로 하는 비디오 시퀀스에서 적어도 하나의 움직임 중심을 정의하는 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.