KR20010113661A

KR20010113661A - 비디오 회의 및 다른 응용들에서 움직이는 대상물들을검출하기 위한 방법 및 장치

Info

Publication number: KR20010113661A
Application number: KR1020017009297A
Authority: KR
Inventors: 이미순
Original assignee: 요트.게.아. 롤페즈; 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 1999-11-24
Filing date: 2000-11-06
Publication date: 2001-12-28
Also published as: US7123745B1; EP1151607A1; WO2001039498A3; WO2001039498A2; JP2003515810A

Abstract

영상 프로세싱 시스템은 움직이는 사람 또는 관심있는 다른 대상물을 검출한다. 상기 시스템은 카메라로부터 수신된 비디오 신호 또는 다른 형태의 영상 신호를 프로세싱하여 임계처리된 차이 영상을 발생시킨다. 차이 영상은 그다음에 영상을 통과하는 수직 라인들에 의해 한정되는, 영역들로 분할되고, 실루엣 후보들은 하나이상의 영역들에서 식별된다. 텐서 보우팅은 돌출도 값들과 실루엣 후보들의 각각에 대한 대응하는 탄젠트들을 결정하기 위해 사용되며, 결과적인 값들과 탄젠트들은 관심있는 대상물을 검출하기 위해 사용된다. 관심있는 대상물이 움직이는 사람인 실시예에서, 움직이는 사람의 목 위치는 대응하는 실루엣을 따른 탄젠트들의 x-성분들의 합을 분석하여 검출될 수 있다. 그다음에, 검출된 목 위치는 움직이는 사람의 머리 위치와 머리 크기를 결정하기 위해 사용될 수 있다.

Description

비디오 회의 및 다른 응용들에서 움직이는 대상물들을 검출하기 위한 방법 및 장치{Method and apparatus for detecting moving objects in video conferencing and other applications}

사람 또는 다른 관심있는 대상물의 검출 및 추적(tracking)은 비디오 회의 시스템들, 비디오 감시 및 모니터링 시스템들 및, 인간-기계 인터페이스들과 같은 비디오-카메라에 기초한 시스템들의 중요한 측면이다. 예를들어, 비디오 회의 시스템에서, 특정한 회의 참가자의 머리와 어깨들을 결과적인 출력 비디오 신호에서 프레임 (frame)구성하는 것이 종종 바람직하며, 반면에 비디오 감시 시스템에서는, 예를들어, 시스템에 의해 모니터링되는 제한된 영역에 들어오거나 나가는 사람의 전체 몸을 프레임구성하는 것이 바람직할 수 있다.

상기 언급된 응용들에서 사람들을 검출하기 위한 종래의 기술들은 배경 감산 (subtraction), 얼굴 검출 및, 피부 색조 검출을 포함한다. 이러한 및 다른 종래의 검출 기술들의 중요한 문제점은 그들중 많은 것들이 일반적인 모델들이나 장면에대한 가정들을 이용하도록 전형적인 가정(home)이나 사무실의 장면들에 사용할 수 있도록 그 기술들을 적합하게 하기가 어렵다는 것이다. 예를들어, 그와같은 가정 이나 사무실 장면들에서 움직이는 사람들은 종종 의자들, 소파들 및, 테이블위의 물건들과 같은 대상물들과 상호작용하므로, 배경 감산 기술은 다수의 전경(foreground) 대상물들을 추적하거나 배경 모델을 자주 갱신할 필요가 있을 것이다. 부가하면, 얼굴 검출 및 피부 색조 검출 기술들은 제한된 수의 머리 자세들, 예를들어 카메라에 가까운 얼굴들만을 대개 다룬다. 이러한 기술들의 다른 문제는 사용된 모델들이 변화하는 조명 조건들을 정확하게 고려할 수 없을지 모른다는 것이다. 또한, 전형적인 가정이나 사무실 장면들에서의 클러터(clutter)의 정도가 주어지면, 엣지 검출을 이용하는 이러한 및 다른 종래의 기술들은 일반적으로 실시간 실행에 적당하지 않다.

다른 검출 기술들은 장면 분석을 위해 시각 단서(visual cue)로서 동작 (motion)을 이용한다. 동작에 기초한(motion-based) 검출은, 상기 언급된 통상적 가정이나 사무실 환경들과 같은, 사람들과 대상물들의 잦은 움직임(movement)들이 빈번한, 혼잡한(cluttered) 장면들에 특히 유용하다. 하나의 공지된 동작에 기초한 기술은 광학 플로우 필드(optical flow field)들을 이용하여 유사한 동작을 경험하는, 화소들을 연결된 대상물로서 함께 그룹핑한다. 영상 차이 기술(image differencing technique)들은 장면에서 움직이는 대상물들을 찾아내기 위해 연속하는 프레임들사이의 차이들을 이용한다.

그와같은 기술들은 장면에서의 움직이는 대상물들의 수가 작고 그들사이의상호작용들이 제한된, 응용들에서의 사용을 위해 일반적으로 적합하다. 영상 차이 기술들은 몇몇 경우들에서 동적 환경들에 적응될 수 있지만, 그와같은 기술들은 그럼에도 불구하고 일반적으로 모든 관련된 특징 화소(all relevant feature pixel)들을 훌륭하게 추출해내지 못한다. 영상 차이 및 다른 종래의 동작에 기초한 검출 기술들과의 다른 중요한 문제는 동일한 영상 영역을 점유하는 다수의 움직이는 대상물들을 분리하기가 어려울수 있다는 점이다.

종래의 동작에 기초한 검출 기술의 예는 "영상 시퀀스들에서 사람들을 검출하기 위한 방법 및 수단(Method and Means for Detecting People in Image Sequences.)"이라는 제목의 유럽 특허 출원 제 635983 A2호에 기술되어 있다. 상기 기술은 이전의 프레임으로부터 현재의 프레임을 감산하여 얻어지는, 차이 영상을 분석하는 것으로 시작되고, 영상에 사람들의 머리 위치들을 위치시키려고 한다. 그러나, 상기 기술은 연속적 커브와 곡률 극값들(curvature extrema)의 계산에 의존하며, 그러므로 잡음에 민감하고 계산적으로 값비싸다.

상기 내용로부터 분명한 바와같이, 비디오 회의 시스템들, 비디오 감시 및 모니터링 시스템들 및, 인간-기계 인터페이스들과 같은 영상 프로세싱 시스템들에서 사람들을 검출하기 위한 개선된 기술들에 대한 수요가 존재한다.

본 발명은 일반적으로 영상 신호 프로세싱 분야에 관한 것이며, 특히 비디오 신호 또는 다른 형태의 영상 신호에서 움직이는 사람 또는 다른 관심있는 대상물들을 검출하기 위한 기술들에 관한 것이다.

도 1은 본 발명이 실행될 수 있는 영상 프로세싱 시스템의 블록도.

도 2는 본 발명의 예시적인 실시예에 따른 예시적인 움직이는 대상물 검출 기술의 동작(operation)을 도시한 흐름도.

도 3a 및 도 3b는 본 발명의 검출기술들을 예시하기 위해 사용된 전형적인 혼잡한 사무실 장면(cluttered office scene)의 2개의 연속적인 프레임들의 예를 도시한 도면.

도 4는 도 3a 및 도 3b의 프레임들로부터 발생된 임계처리된 차이 영상 (thresholded difference image)을 도시한 도면.

도 5는 도 4의 차이 영상을 영역들로 분할하는 것을 도시한 도면.

도 6과 도 7은 도 5의 분할된 차이 영상을 위해 계산된 바와같이, 각각 실루엣 후보(silhouette candidate)들과 대응하는 돌출도 값들(saliency values)을 도시한 도면.

도 8은 도 6의 실루엣 후보들로부터 추출된 실루엣들을 도시한 도면.

도 9는 도 8의 추출된 실루엣들에 적용될 수 있는 머리와 어깨 실루엣 분석을 예시한 도면.

도 10은 도4의 차이 영상에 대한 검출된 목과 머리 위치들을 도시한 도면.

본 발명은 비디오 신호 또는 다른 형태의 영상 신호에서 사람들 또는 다른 관심있는 대상물들의 검출을 위한 방법들 및 장치를 제공한다.

본 발명의 예시적인 실시예에 따라, 프로세싱 시스템은, 예를들어, 카메라로부터 수신된 영상 신호를 프로세싱하여 임계처리된 차이 영상(thresholded difference image)을 발생시킨다. 차이 영상은 그다음에 영상을 통과하는 수직 라인들에 의해 한정된, 영역들로 분할되고, 실루엣 후보들은 하나이상의 영역들에서 식별된다. 텐서 보우팅(tensor voting)은 각각의 실루엣 후보들에 대한 돌출도 값들과 대응하는 탄젠트들을 결정하기 위해 사용되고, 결과적인 값들과 탄젠트들은 관심있는 대상물을 검출하기 위해 사용된다. 관심있는 대상물이 움직이는 사람이라면, 움직이는 사람의 목 위치는 대응하는 실루엣들을 따른 탄젠트들의 x-성분들의 합을 분석하여 검출될 수 있다. 검출된 목 위치는, 그다음에, 움직이는 사람의 머리 위치와 머리 크기를 결정하기 위해 이용될 수 있다. 본 발명은 그래서 전형적인 가정이나 사무실 장면, 또는 다른 혼잡한 환경에서 움직이는 사람들 또는 다른 관심있는 대상물들을 검출하는데 특히 적당한, 실시간 프로세싱 시스템을 제공한다.

본 발명의 검출 기술들은 종래의 기술들에 대해 수많은 잇점들을 제공한다. 예를들어, 본 발명에 따른 검출 기술들은 일반적으로 잡음에 더 강하며 종래의 기술들보다 계산적으로 덜 비싸다. 부가하면, 본 발명의 기술들은 움직이는 사람들과 관심있는 다른 대상물들을 실시간으로 검출할 수 있고, 다중의(multiple) 사람들의 존재 및, 변화하는 몸 크기들과 자세들을 다룰 수 있다. 대상물들의 위치들과 실루엣들과 함께, 움직이는 대상물들의 수는 임의의 초기화없이 자동적으로 계산될 수 있다. 또한, 본 발명은 움직이는 사람의 목과 머리와 같은, 특정한 특징(feature)들의 검출의 효율성과 정확도를 크게 향상시킨다. 본 발명의 기술들은, 비디오 회의 시스템들, 비디오 감시 및 모니터링 시스템들 및 인간-기계 인터페이스들과 같은 비디오-카메라에 기초한 시스템들을 포함하는 넓은 종류의 영상 프로세싱 응용들에서 사용될 수 있다. 본 발명의 이러한 및 다른 특징들 및 잇점들이 첨부된 도면들과 다음의 상세한 서술들로부터 더 분명해질 것이다.

도 1은 본 발명에 따른 움직이는 대상물 검출 기술들이 실행될 수 있는 영상 프로세싱 시스템(10)을 도시한다. 시스템(10)은 프로세서(12), 메모리(14), 입력/출력(I/O) 장치(15), 및 제어기(16)를 포함하며, 모두 시스템 버스(17)를 통해 통신하도록 접속되어 있다. 시스템(10)은 도시된 바와같이 제어기(16)에 연결된 카메라(18)를 더 포함한다. 카메라(18)는, 예를들어, 팬-틸트-줌(PTZ) 카메라, 줌 카메라 또는 임의의 다른 적당한 영상 포착(image capture) 장치일 수 있다. 그러므로, 본 명세서에 사용된 용어 "카메라"는 임의 형식의 영상 포착 장치를 포함하도록 의도된다.

시스템(10)은, 예를들어, 비디오 회의(video conferencing), 비디오 감시 (video surveillance), 인간-기계 인터페이스들, 등을 포함하는 다수의 서로 다른 영상 프로세싱 응용들중 어느 응용에서의 사용에 대해서도 적응될 수 있다. 보다 일반적으로, 시스템(10)은 본 발명에 의해 제공된 개선된 검출 능력들로부터 이익을 얻을 수 있는 어떤 응용에서도 사용될 수 있다.

시스템(10)의 소자들 또는 소자들의 그룹들은 이러한 및 다른 프로세싱 장치들의 일부분들 또는 결합들 뿐아니라 다른 종래의 데스크탑 또는 휴대용 컴퓨터의 대응하는 소자들을 나타낼 수 있다. 더욱이, 본 발명의 다른 실시예들에서, 시스템(10)의 프로세서(12), 제어기(16) 또는 다른 소자들의 몇몇 또는 모든 기능들은 단일 장치로 결합될 수 있다. 예를들어, 시스템(10)의 하나 이상의 소자들은 컴퓨터, 텔레비젼, 셋-톱 박스 또는 다른 프로세싱 장치로 통합될 응용 주문형 집적회로(application specific integrated circuit)(ASIC)로서 실행될 수 있다.

본 명세서에 사용된 용어 "프로세서(processor)"는 마이크로프로세서, 중앙 처리 장치, 마이크로제어기(microcontroller), 또는 주어진 데이터 프로세싱 장치에서 사용될 수 있는 임의의 다른 데이터 프로세싱 소자를 포함하는 것으로 의도된다. 부가하면, 메모리(14)는 전자 메모리, 광학 또는 자기 디스크에 기초한 메모리, 테이프에 기초한 메모리뿐 아니라, 이러한 그리고 다른 종류의 저장 장치들의 일부들 또는 결합들을 나타낼수 있다는 것이 유의되어야 한다.

예시적인 실시예에서의 본 발명은 가정이나 사무실 환경들과 같은 혼잡한(cluttered) 실내 장면들에서 이동하는 사람들 또는 관심있는 다른 대상물을 검출하기 위해 시간 차이(temporal differencing)와 지각적 조직(perceptual organization) 원리들을 이용하는 동작에 기초한 검출 기술을 제공한다.

일반적으로, 본 발명의 예시적인 실시예는 임계처리(thresholding)에 의해 2진화된 시간 차이 영상으로부터 동작 실루엣(motion silhouette)들을 추출한다. 장면을 영역들로 분할하기 위해 0이 아닌 화소들의 분포를 우선 분석한다. 각각의 영역에 대해, 영역 경계 박스(a region bounding box)에 가장 가까운 0이 아닌 화소들은 동작 실루엣의 제 1 근사를 형성한다. 잡음과 분리된 물건들(outliers)을 다루기 위해, 실루엣 포인트들의 돌출도(saliency)가 그다음에 텐서 보우팅(tensor voting)을 사용하여 실루엣의 구성을 조사함으로써 평가된다. 실루엣들상의 돌출한(salient) 포인트들이 식별되면, 완전한 실루엣과 함께, 분실된 데이터가 텐서 보우팅을 다시 적용하여 추론될 수 있다. 대안으로, 돌출한 실루엣 포인트들의추론된 기하학적(geometric) 성질들은, 예를들어, 움직이는 대상물이 사람이라는 것을 입증하기 위해서, 머리 위치를 정하는데 사용될 수 있다.

도 2는 예시적인 실시예의 동작에 기초한 검출 기술을 도시하는 흐름도이다. 상기 실시예에 대해서, 관심있는 대상물들은 실내의 가정이나 사무실 장면과 같은 혼잡한 환경에 대응하는 장면에서의 하나이상의 사람들을 포함한다고 가정된다. 도 3a 및 도 3b는 검출될 2명의 움직이는 사람들과 함께, 상기 형식의 혼잡한 사무실 장면의 예에 대해, 각각, 연속 프레임들 t-1과 t를 도시한다. 상기 예에서 검출될 관련된 정보는 사람들 각각의 머리 위치와 머리 크기를 포함한다. 다음의 서술에서, 검출 기술의 개관이 도 2를 참조하여 제공될 것이며, 그다음에 기술의 각각의 단계들이 더 자세히 서술될 것이다.

도 2의 단계 20에서, 임계처리된 차이 영상(thresholded difference image)이 분석될 장면에 대해 발생된다. 이미 언급된 바와같이, 그와같은 차이 영상은 층미있는 장면의 2개의 프레임들간 또는 다른 영상들간의 차이를 취하고, 그다음에 적절한 임계처리(thresholding) 기술을 적용하여 종래의 방식으로 발생될 수 있다. 도 4는 도 3a와 도 3b의 2개의 연속적인 프레임들을 사용하여 혼잡한 사무실 장면에 대해 발생된 임계처리된 차이 영상의 예를 도시한다.

단계 22에서, 관심있는 장면은 아래에서 더 자세히 서술될 수평 투영 단면(horizontal projection profile) HP(x)를 분석하여 영역들로 분할된다. 도 5는 도 4의 차이 영상에 적용된 바와같은 분할 과정을 예시한다. 상기 예에서의 분할 과정은 차이 영상을 4개의 수직 라인들에 의해 분리된 총 5개의 영역들로 분할한다. 상기 영역들은 영역들(50및 52)을 포함하며, 그 각각은 검출될 사람들중 하나에 대응한다.

단계 24에서, 분할된 영상에서의 실루엣 후보들이 식별된다. 그다음에 실루엣 후보들에 대한 돌출도 값들은 아래에서 더 자세히 기술될 텐서 보우팅 기술을 사용하여 단계 26에서 결정된다. 단계 28에서, 주어진 실루엣에 대응하는 사람의 목은 실루엣을 따른 탄젠트들의 x-성분의 합을 분석하여 검출된다. 그다음에 상기 검출된 목 위치는 움직이는 사람의 머리 크기와 머리 위치를 결정하기 위해 단계 30에서 사용된다.

도 2의 검출기술 뒤의 동기들이 이제 더 자세히 기술될 것이며, 과정에서의 특별한 단계들의 특정 서술이 뒤따른다.

이미 공지된 일정한 휘도 제한(brightness constraint)에 따라, 주어진 장면에서의 움직임(movement)들이 작을때, 프레임 차이는 엣지(edge) 검출기에의 통상적 응답과 유사한 효과들을 생산한다. 이것은 일정한 휘도 제한 공식으로부터 뒤따라온다:

I_t(x, y) = -(x_tI_x+ y_tI_y)

여기서 영상 시퀀스 I(x,y,t)가 주어지면,

환언하면, 세기(intensity) 값에서의 낮거나 0인 변화들은 국지적인 주변에서의 낮은 콘트라스트 또는 동작 없음, 또는 둘다에 의해 발생될 수 있다. 그러나, 분할목적들을 위해, 진정한 변화 맵(true change map) C(x,y)을 결정하는 것이 바람직하다.

이로부터, 움직이는 대상물들은 카메라가 정지할 때 쉽게 추출될 수 있다.

도 4의 차이 영상에서의 제한된 양의 정보에도 불구하고, 사람들은 아래에 있는 대상물들을 여전히 분할할 수 있고 어떤 정보도 주어지지 않은 대상물들의 내부에 "채워넣을 수(fill in)" 있는데, 즉, 사람의 시각 시스템은 차이 영상 I_t(x,y)로부터 변화 맵 C(x,y)를 본질적으로 계산할 수 있다. 아래에 서술되는 바와같이, 본 발명은 차이 영상 I_t(x,y)로부터 C(x,y)의 추출을 얻기 위해, 사람의 시각 시스템에서 C(x,y)의 유도에 사용될 수 있었던 지각적 조직 원리들을 이용한다.

본 발명에 의해 이용되는 제 1 그룹핑(grouping) 원리는 사람 모양의 인식의 주의 본성(attentive nature)이다. 주의 과정은 영상에서 대상물을 인식하기 위해 이미 알고있는 지식을 사용하는 것을 필요로 하는 과정이며, 이것은 주의 전(pre-attentive) 과정보다 대개 더 오래 걸린다. 예를들어, 도 4의 것과 같은 차이 영상이 아래위가 바뀌었을 때, 장면에서의 사람 몸들의 인식은, 특히 등쪽의 사람에 대해, 더 약하다. 우리는 대개 직립한 위치에서의 사람과 상호작용하므로 위아래가 바뀐 위치에서의 사람의 몸 부분들의 모양에 덜 친밀하다.

상기 종래의지식(knowledge)을 사용하기 위해서, 예시적인 실시예의 검출기술은 사람들이 영상 시퀀스에서 직립 위치로 나타난다고 가정한다. 결과적으로, 단지 머리와 어깨 실루엣들이 장면에서 사람을 기술하기에 충분한 정보를 포착한다. 상기 예시적인 실시예에서의 검출 기술은 혼잡한 실내 장면에서 움직이는 사람들을 기술하기 위해 얻고자 하는 것은 C(x,y)의 추출이다. 상기 서술은 일반적으로 검출될 사람의 수, 각각의 사람의 영상 좌표들 및, 각각의 사람의 동작 실루엣을 포함해야 한다.

C(x,y)가 주어지면, 동작 실루엣들의 추출은 간단하게 될것이다. 각각의 대상물에 대해, 실루엣은 대상물의 인접한 박스에 가장 가까운 포인트들에 의해 정의된다. 그러나, C(x,y)에의 접근을 우리가 갖지는 않는다. 대신에, 실루엣들이 차이 영상 I_t(x,y)에서 합당하게 보존되며, 이것은 틀림없이 C(x,y)의 퇴화된(degraded) 버젼이다. 그러므로 I_t(x,y)로부터 직접 동작 실루엣들을 추출할 수 있다. I_t(x,y)의 세기 값들은 대부분 국지적 콘트라스트에 의존하므로, 그 값들은 동작 검출에 관련되어 있지않다. 그러므로, C(x,y)의 퇴화된 버젼을 생산하기 위해 센서 잡음을 고려하는 임계처리 기술을 적용할 수 있다. 본 발명과 함께 사용하는데 적당한 임계처리 기술의 예는 P.L.Rosin의 "변화 검출을 위한 임계처리(Thresholding for Change Detection)", Proc.ICCV, Jan 1998, pp.274-279에서 알 수 있다.

본 발명의 예시적인 실시예에 사용된 분할 접근은 주의 전 인식에 대한 그룹핑 원리를 이용한다. 이 원리는 D.Marr의 "Vision: 시각 정보의 인간 표현과 프로세싱으로의 계산적 조사(Vision: A Computational Investigation into the HumanRepresentation and Processing of Visual Information)," W.H. Freeman 및 Co.,San Francisco,1982 에 기술된, "물질은 응집력이 있다(matter is cofesive)"는 원리와 유사하며, 이것은 평탄함(smoothness) 또는 연속성 제한(continuity constraint)로서 흔히 해석된다.

상기 제한은 잡음있는 데이터 세트로부터 커브들 및/또는 영역들의 분할과 그룹핑을 위한 비-매개변수적(non-parametric) 서술을 생산하는 다양한 기술들에 의해 사용되었다. 하나의 그와같은 기술인, 상기 언급된 텐서 보우팅 기술은 데이터 표현을 위한 2차 대칭(second-order symmetric) 텐서들과 데이터 통신을 위한 비선형 보우팅을 사용하며, 분실된 데이터, 분리된 물건들(outliers) 및, 불연속들을 효율적이고 효과적인 방식으로 다룬다. 어떤 초기화도 요구하지 않으며, 유일한 2개의 매개변수들은 스케일(scale) 및 주제 임계값(subject threshold)이다. 이미 언급된 바와같이, 도 2의 과정의 단계 26은 실루엣 후보들을 위한 돌출도를 결정하기 위해 텐서 보우팅을 이용한다.

도 2의 과정의 영역 분할 단계 22는 더 자세히 이제 기술될 것이다. 그와같은 과정을 실시간으로 효과적으로 실행하기 위해서, 본 발명은 사람들은 영상에서 대개 직립된 위치들로 나타난다는, 상기 언급된 관찰을 이용한다. 결과로서, 도 5에 도시된 바와같이 수직 라인들을 사용하여 장면을 영역들로 분할하는 것은 대부분의 응용들에서 충분하다. 예를들면, 장면이 분할되어서(under-segmented) 주어진 영역이 하나 이상의 실루엣을 포함한다면, 분할 단계를 한번 이상 적용하는 것이 필요할 수 있다.

이미 언급된 바와같이, 영역 분할 단계 22는 m×n 2진화된 차이 영상의 수평 투영 단면 HP(x)를 분석하여 장면을 영역들로 분할하며, 여기서 HP(x)의 식은 다음과 같다.

여기에서의 과제는 불연속들이 발생하는 곳에 위치시키는 것이다. M-S. Lee와 G.Medioni의 ".,-,->,O-,를 영역들. 커브들 및, 연결부들로 그룹핑하는것 (Grouping.,-,->,O-,into Regions, Curves, and Junctions)," Computer Vision and Image Understanding, vol 76, No.1, Oct. 1999, pp.54-69에 기술된 바와같은 접근법에 기초하여, 영역 경계 돌출도 RS(x)는 다음식과 같이 정의 된다.

여기서,는 가우시안 감쇠(decay) 함수이다. σ=10는 본 명세서에 도시된 바와같은 예들에서 사용되지만, 다른 값들도 사용될 수 있다. RS(x)는 국지적 주변에서의 데이터 밀도의 수평 차이를 측정한다. 데이터 밀도에서의 최대 변화가 발생하는 위치들에 대응하는, ┃RS(x)┃에서의 최대값들은 영역 경계들에 대한 후보들이다. 식별된 영역 경계들의 라벨(label)들은 대응하는 RS 값들의 부호에 의해 주어지고, 여기서 음의(negative) RS는 왼쪽 경계를 표시하고 양의 RS는 오른쪽 경계를 표시한다. 경계 라벨들의 순서정렬(ordering)과, HP에서의 실제 차이들은, 후보 세트에서 잘못된 영역 경계들을 제거하는데 사용된다.

장면이 영역들로 분할되면, 영역 경계 박스들에 가장 가까운 포인트들은 도 2의 단계 24에서 언급된 바와같이, 실루엣들상의 후보들로서 식별된다. 도 6은 실루엣 후보들을 도시한다. 주어진 실루엣의 바닥부분은 유용하지 않으며 그래서 추출되지 않는다는 것을 유의해야 한다.

분리된 물건들을 제거하고 잡음을 다루기 위해서, 각각의 후보 포인트의 돌출도는 도 2의 단계 26에 표시된 바와같이, 텐서 보우팅 기술을 사용하여 국지적 주변에서 실루엣 구성을 분석하여 평가된다. 본 발명과 함께 사용하는데 적당한 텐서 보우팅 기술은 M-S.Lee와 G.Medioni의 ".,-,->,O-,를 영역들, 커브들 및, 연결부들로 그룹핑하는것(Grouping.,-,->,O-,into Regions, Curves, and Junctions)," Computer Vision and Image Understanding, Vol.76,No.1, Oct.1999, pp.54-69에 기술되어 있다. i번째 후보 포인트(p_i,q_i)에 대해, 돌출도 텐서 S(p_i,q_i)는 다음과 같이 계산된다.

d(i,j)는 i번째 후보와 j번째 후보사이의 거리이고, w(x)는 가우시안 감쇠 함수이다. w(x)는 한정된 범위를 가지고 있고, 현재의 시스템에서 σ=6이므로, S의 계산은 턴서들과의 컨벌루션(covolution)에 의해 효율적으로 실행될 수 있다. 돌출도 텐서 S(p_i,q_i)는 그다음에 그 고유치들(eigenvalues) λ_max, λ_min및 고유벡터들 e_max, e_min으로 분해된다. 실루엣 포인트로서 i번째 후보의 돌출도는 λ_max- λ_min으로 정의되며, 탄젠트는 e_max로 추정된다. 도 7은 도 6의 실루엣 후보 포인트들에 대해 계산된 돌출도 값들을 기술한다.

완전한 실루엣들이 바람직한, 응용들에서, 동일한 실루엣상의 분실된 데이터와 그룹 포인트들을 추론할 수 있다. 이것은 그 돌출도를 실루엣 포인트로서 평가하기 위해 영상내의 모든 점들에 텐서 보우팅을 적용하여 달성될 수 있다. 포인트 (x_i,y_i)에 대해서, 돌출도 텐서 S(x_i,y_i)는 다음과 같이 정의된다.

여기서, [u_ij' v_ij']는 포인트 (x_i, y_i)에 대한 j번째 후보 포인트에 의해 발생된 벡터 보우팅(vector vote)이다. G.Guy와 G.Medioni의 "국지적 모양들로부터 전반적인 지각적 윤곽들을 추론하는것(Inferring Global Perceptual Contours from Local Features)", IJCV,Vol.20,No.1/2,1996,pp.113-133에 기술된 바와같은 σ=10인 보우팅 커널(kernel)인, 보우팅 후보의 위치와 배향(orientation)에 독립적인 보우팅 발생 함수를 사용할 수 있다. 보우팅(vote)들을 발생시키기 위해, 보우팅 커널이 보우팅 후보에 대해 추론된 탄젠트와 함께 정렬되고, 대응하는 위치에 중심을 두게된다. 각각의 보우팅 분포는 보우팅 후보의 돌출도에 의해 더 가중된다. 텐서 보우팅에 관한 부가적인 상세한 설명들은 상기 언급된 M-S. Lee와 G.Medioni의 참조문헌에서 발견될 수 있다.

모든 후보들이 그들의 표를 던진 후에, 그렇게 얻어진 돌출도 텐서는 그 고유시스템으로 분해되고 포인트의 돌출도는 λ_max- λ_min로 결정된다. 도 8은 도 7의 돌출도 값들에 대해 계산된 밀집한 돌출도 맵(map)을 도시한다. 돌출한 실루엣들은 C-K Tang과 G. Medioni의 "집적된 표면, 커브 및, 연결부 서술들을 희박한 3D 데이터로부터 추론하는 것(Inference of Integrated Surface, Curve, and Junction Descriptions From Sparse 3D Data)", IEEE Trans. PAMI, vol.20, 1998,pp.1206-1223에 기술된 바와같은 진행 절차(marching procedure)를 사용하여 최대 커브들을 위치시켜서 도 8의 돌출도 맵으로부터 추출될 수 있다.

예시적인 실시예에서, 실루엣 후보들에 대해 계산된 돌출도 및 배향 정보는 대응하는 움직이는 사람의 머리 위치와 머리 크기를 결정하기 위해 사용된다. 머리와 어깨 실루엣을 따른 배향의 변화는 목이 위치된 근처에서 가장 급격하다. 이것은 도 9에 도시된 간략화된 머리와 어깨 모델에 의해 예시될 수 있다.

주어진 실루엣을 따른 탄젠트들의 x-성분들은 2개의 불연속 클러스터 (cluster)들을 형성하며, 하나는 머리의 꼭대기에 있고, 하나는 목위치에 있다. 이것은 영역 분할을 위한 상술된 최대 검출과 유사하며, 유사한 기술들을 사용하여 해결될 수 있다. 목의 위치는 도 2의 단계 28에 표시된 바와같이 우선 검출된다. 목의 위치가 검출되면, 목위의 후보 포인트들은 도 2의 단계 30에 표시된 바와같이, 목의 위치와 크기를 결정하기 위해 사용된다.

도 10은 도 3a와 도 3b의 본래의 예들에서 움직이는 사람들에 대한 검출된 목 위치들, 머리 위치들 및, 머리 크기들을 도시한다. 실루엣의 모양을 분석하여, 의자, 책상, 컴퓨터등의 것들과 같은, 사람이 아닌것의 모양 실루엣들을 제거할 수 있다. 움직이는 사람이나 다른 대상물이 검출되면, 종래의 추적(tracking) 기술들은 그다음에 대상물의 추가 움직임(movement)을 추적하기 위해 사용될 수 있다. 그와같은 기술들은 기술분야에서 이미 공지되었고 그러므로 본 명세서에 상세히 기술되지 않는다.

본 발명의 상술된 검출 기술들은 종래의 기술들에 대해 수많은 잇점들을 제공한다. 예를들어, 본 발명의 기술들은, 관심있는 움직이는 사람들 및 다른 대상물들을 검출할 수 있고, 다중의 사람들의 존재 및, 변화하는 몸의 크기들 및 자세들을 다룰 수 있다. 움직이는 대상물들은, 대상물들의 위치들 및 실루엣들과 함께, 임의의 초기화없이 자동적으로 계산될 수 있다. 예시적인 실시예에서 사용된 유일한 매개변수들은, 데이터의 돌출도를 설립하는데 사용되는 주변(neighborhood)의 크기를 결정하는, 스케일과, "중요한(significant)" 동작의 최소 돌출도를 정의하는, 주제 임계값(subject threshold)이다.

본 발명은 그래서 혼잡한 실내 환경들에서 움직이는 사람들 또는 관심있는 다른 대상물들을 검출할 수 있는 실시간 영상 프로세싱 시스템을 제공한다. 또한, 추출된 동작 실루엣들은, 컬러, 엣지들 및 세기와 같은 다른 영상 단서들(cues)과 결합될 때, 전형적인 가정이나 사무실 장면, 또는 다른 혼잡한 환경에서 대상물들을 확고하게(robusty) 추적하는데 사용될 수 있는 유용한 모양 정보를 제공한다.

따라서, 본 발명의 상술된 실시예들은 예시적인 것으로만 의도된다. 예를들어, 본 발명은 실시간 검출 및 임의의 요구되는 관심있는 대상물을 추적하는 것을 실행하기 위해 사용될 수 있고, 넓은 범위의 응용들에서, 비디오 회의 시스템들, 비디오 감시 시스템들 및, 다른 카메라에 기초한 시스템들을 포함한다. 본 발명은, 또한. 전자, 자기 또는 광학 매체상에 저장되고, 프로세싱 장치, 예를들어 시스템(10)의 프로세서(12)에 의해 수행되는 하나 이상의 소프트웨어 프로그램들의 형태로 적어도 부분적으로 실행될 수 있다. 다음의 청구항들의 범위내에서 이러한 및 수많은 다른 실시예들은 당업자에게 분명해질 것이다.

Claims

영상 프로세싱 시스템(10)에서 관심있는 대상물을 검출하기 위한 방법에 있어서,

차이 영상(difference image)을 발생시키는 단계;

상기 차이 영상을 다수의 영역들(50, 52)로 분할하는 단계;

적어도 상기 영역들의 서브세트에서 하나 이상의 실루엣 후보(silhouette candidate)들을 식별하는 단계; 및

상기 식별된 실루엣들에 적어도 부분적으로 기초하여 상기 관심있는 대상물을 검출하는 단계를 포함하는, 대상물 검출 방법.
영상 프로세싱 시스템(10)에서 관심있는 대상물을 검출하기 위한 장치에 있어서,

카메라(18); 및

프로세서(12)로서,

(i) 카메라로부터 수신된 신호로부터 차이 영상을 발생시키고;

(ii) 상기 차이 영상을 다수의 영역들(50, 52)로 분할하고;

(iii) 적어도 상기 영역들의 서브세트에서 하나 이상의 실루엣 후보들을 식별하고;

(iv) 상기 식별된 실루엣들에 적어도 부분적으로 기초하여 상기 관심있는대상물을 검출하기 위해, 상기 카메라에 결합되어 동작하는 상기 프로세서(12)를 포함하는, 대상물 검출 장치.
제 2 항에 있어서,

상기 관심있는 대상물은 움직이는 사람을 포함하는, 대상물 검출 장치.
제 2 항에 있어서,

상기 차이 영상은 제 1 영상과 제 2 영상사이의 차이를 취하고 2진 임계처리 (thresholding)를 상기 결과적인 차이에 적용하여 발생된 임계처리된 차이 영상을 포함하는, 대상물 검출 장치.
제 2 항에 있어서,

상기 차이 영상은 다수의 영역들로 분할되어 각각의 영역들은 전체 영상을 통과하는 하나이상의 수직 라인들에 의해 한정되는, 대상물 검출 장치.
제 2 항에 있어서,

실루엣 후보를 포함하는 상기 영상의 각각의 영역들은 단일 실루엣 후보만을 포함하는, 대상물 검출 장치.
제 2 항에 있어서,

상기 프로세서는 텐서 보우팅(tensor voting)를 사용하여 상기 실루엣 후보들의 각각에 대한 돌출도(saliency) 값들을 결정하도록 더 동작하는, 대상물 검출 장치.
제 3 항에 있어서,

상기 프로세서는 대응하는 실루엣을 따른 탄젠트들의 x-성분들의 합을 분석하여 상기 움직이는 사람의 목 위치를 검출하도록 더 동작하는, 대상물 검출 장치.
제 8 항에 있어서,

상기 프로세서는 상기 검출된 목 위치를 이용하여 상기 움직이는 사람의 머리 위치와 머리 크기중 적어도 하나를 결정하도록 더 동작하는, 대상물 검출 장치.
제 2 항에 있어서,

상기 영상 프로세싱 시스템은 비디오 회의 시스템을 포함하는, 대상물 검출 장치.
제 2 항에 있어서,

상기 영상 프로세싱 시스템은 비디오 감시 시스템을 포함하는, 대상물 검출 장치.
제 2 항에 있어서,

상기 영상 프로세싱 시스템은 인간-기계 인터페이스를 포함하는, 대상물 검출 장치.
영상 프로세싱 시스템(10)에서 관심있는 대상물을 검출하기 위한 하나 이상의 프로그램들을 저장하기 위한 저장 매체를 포함하는 제조 물품으로서,

프로세서에 의해 수행될 때 상기 하나이상의 프로그램들은,

차이 영상을 발생시키는 단계;

상기 차이 영상을 다수의 영역들(50, 52)로 분할하는 단계;

적어도 상기 영역들의 서브세트에서 하나이상의 실루엣 후보들을 식별하는 단계; 및

상기 식별된 실루엣들에 적어도 부분적으로 기초하여 상기 관심있는 대상물을 검출하는 단계를 실행하는, 제조 물품.