KR20130069700A

KR20130069700A - 사람 검출을 위한 기법

Info

Publication number: KR20130069700A
Application number: KR1020130061753A
Authority: KR
Inventors: 비버리 해리슨
Original assignee: 인텔 코오퍼레이션
Priority date: 2010-05-11
Filing date: 2013-05-30
Publication date: 2013-06-26
Also published as: JP2011239403A; CN102339380A; EP2387168A2; KR20110124721A; US20110280439A1; CN102339380B; EP2387168A3

Abstract

사람들의 검출을 수반하는 기법들이 개시된다. 예를 들면, 실시예들은, 이미지 센서로부터, 검출 공간의 하나 이상의 이미지(예를 들면, 열 이미지, 적외선 이미지, 가시광 이미지, 3차원 이미지 등)를 수신할 수 있다. 이 하나 이상의 이미지에 기초하여, 실시예들은 검출 공간 내의 사람(들)의 존재를 검출할 수 있다. 또한, 실시예들은 그러한 검출된 사람(들)의 하나 이상의 특징을 결정할 수 있다. 예시적인 특징들은 그러한 사람들의 하나 이상의 인구학적 범주들 및/또는 활동들에의 귀속성을 포함한다(그러나 이에 제한되지 않는다). 또한, 그러한 사람 검출 및 특징 결정에 적어도 기초하여, 실시예들은 출력 디바이스에의 콘텐트의 전달을 제어할 수 있다.

Description

사람 검출을 위한 기법{TECHNIQUES FOR PERSON DETECTION}

현실 세계 환경에서 사람의 존재를 자동으로 검출하는 것은 점점 더 중요해지고 있다. 또한, 검출된 사람들의 특징들을 결정하는 것은 바람직하다. 그러한 특징들은 성별 및 나이를 포함할 수 있다. 또한, 그러한 특징들은 그러한 사람들에 의해 수행되는 활동들(예를 들면, 요리하기, 숙제하기, 방과 방 사이를 걷기 등)을 포함할 수 있다. 그러나, 그러한 작업들의 수행은 어렵다(challenging). 이것은 가족과 같은, 특정한 장소에 다수의 사람들이 있는 경우에 특히 그러하다.

현재, 능동형 및 수동형 사람 검출 기법들이 존재한다. 이러한 기법들은 계획적인(deliberate) 사용자 동작들(예를 들면, 로그인하기, 생체 인식 판독기(biometric reader)에 손가락을 대기(swiping) 등)을 수반한다. 이와 대비하여, 수동형 사람 검출 기법들은 그러한 계획적인 동작들을 수반하지 않는다.

수동형 사람 검출의 현재의 시도들은 전형적으로 고해상도 카메라 시스템을 통한 얼굴 인식 또는 하이파이 오디오(high fidelity audio)를 통한 화자 식별(speaker identification)을 이용한다. 그러나, 그러한 현재의 수동형 검출 기법들은 프라이버시 문제(privacy concerns)를 일으킨다. 이것은 이러한 기법들이 사람들의 존재를 검출할 수 있을 뿐만 아니라, 특정한 사람들의 신원을 드러낼 수도 있는 정보를 수집하기 때문이다.

그러한 현재의 기법들에 관하여 다른 결점들이 있다. 예를 들면, 조명 또는 머리 위치의 변화로 인해 얼굴 인식 오류가 생길 수 있다. 또한, 다자간 대화, 마이크로부터의 거리, 배경 잡음, 및 근처의 미디어 소스들에 의해 생성된 말 또는 소리로 인해 화자 식별 오류가 생길 수 있다. 따라서, 그러한 수동형 사람 검출 기법들은 실패하기 쉬울 수 있다.

도면들에서, 같은 참조 번호들은 일반적으로 동일한, 기능적으로 유사한, 및/또는 구조적으로 유사한 요소들을 지시한다. 한 요소가 처음 나오는 도면은 참조 번호에서 가장 왼쪽 숫자(들)에 의해 지시된다. 본 발명은 첨부 도면들에 관련하여 설명될 것이다.
도 1은 예시적인 운영 환경을 나타내는 도이다.
도 2는 예시적인 구현을 나타내는 도이다.
도 3은 이미지 처리 모듈 내의 예시적인 구현을 나타내는 도이다.
도 4는 논리 흐름도이다.

실시예들은 사람들의 존재를 검출하는 것을 수반하는 기법들을 제공한다. 예를 들면, 실시예들은, 이미지 센서로부터, 검출 공간의 하나 이상의 이미지(예를 들면, 열 이미지, 적외선 이미지, 가시광 이미지, 3차원 이미지 등)를 수신할 수 있다. 이 하나 이상의 이미지에 기초하여, 실시예들은 검출 공간 내의 사람(들)의 존재를 검출할 수 있다. 또한, 실시예들은 그러한 검출된 사람(들)의 하나 이상의 특징을 결정할 수 있다. 예시적인 특징들은 그러한 사람들의 하나 이상의 인구학적 범주들(demographic categories) 및/또는 활동들에의 귀속성(membership)을 포함한다(그러나 이에 제한되지 않는다). 또한, 그러한 사람 검출 및 특징 결정에 적어도 기초하여, 실시예들은 출력 디바이스에의 콘텐트의 전달을 제어할 수 있다.

그러한 기법들은 특정한 프로그램에 대한 시청자들(viewers)을 추정하기 위해 사용되는 전화 또는 우편 조사에 의지하는 시청자 데이터를 수집하는 종래의 접근법들(예를 들면, 닐슨 시청률(Nielsen ratings))보다 유리한 이점들을 제공할 수 있다. 그러한 종래의 접근법들은 대단히 부정확할 수 있다. 더욱이, 그러한 종래의 접근법들은 보다 정확한 시간 기반 시청(time-based viewing)의 지시자들(indicators)(예를 들면, 프로그램 내의 광고들, 및 특정한 세그먼트들의 방송 중에 사람들이 방을 떠나는지 아니면 존재하는지)을 제공하지 않는다.

더욱이, 실시예들에 의해 제공된 사람 검출 기법들은 매우 제한적일 수 있는 종래의 센서 접근법들보다 유리한 이점들을 갖는다. 종래의 접근법들은 무선 라디오 신호를 통해 활발히 추적되는 어떤 형태의 배터리로 작동되는 태그를 사람이 착용하게 하는 것을 수반할 수 있다. 다른 종래의 접근법들은 사람이 통로(path)를 통하여 건너가는 때를 지시하는 운동 센서들을 사용한다.

그러나, 그러한 운동 센서 접근법들은 사람들의 특성들(traits)(예를 들면, 인구학적 범주들에의 귀속성)을 결정하지 않는다. 또한, 그러한 운동 세서 접근법들은 사람이 움직이지 않으면(예를 들면, 앉아 있거나 가만히 서 있다면) 그가 여전히 방 안에 있는지를 검출할 수 없다. 이러한 운동 센서들은 또한 사람들보다는 애완 동물들에 의해 트리거될 수 있다.

또 다른 종래의 접근법들은 휴대폰과 같은 가까운 디바이스들을 검출하기 위해 근거리 무선 기술들(예를 들면, 블루투스)을 사용하고, 이러한 디바이스들은 그것들의 소유자들의 존재의 정확한 대리가 되는 것으로 추정된다(이러한 핸드헬드들이 재충전되는 집에서는 종종 그렇지 않지만).

이 명세서를 통틀어 "하나의 실시예" 또는 "실시예"의 언급은 그 실시예와 관련하여 설명된 특정한 특징, 구조, 또는 특성이 적어도 하나의 실시예에 포함된다는 것을 의미한다. 따라서, 이 명세서를 통틀어 여러 곳에서 "하나의 실시예에서" 또는 "실시예에서"라는 구들의 출현은 반드시 모두가 동일한 실시예를 언급하는 것은 아니다. 더욱이, 특정한 특징들, 구조들, 또는 특성들은 하나 이상의 실시예에서 임의의 적당한 방식으로 조합될 수 있다.

실시예들에 대한 동작들은 다음의 도면들 및 수반하는 예들에 관련하여 더 설명될 수 있다. 도면들 중 일부는 논리 흐름을 포함할 수 있다. 비록 여기에 제시된 그러한 도면들은 특정한 논리 흐름을 포함할 수 있지만, 그 논리 흐름은 단지 여기에 설명된 일반적인 기능이 어떻게 구현될 수 있는지에 대한 예를 제공한다는 것을 알 수 있다. 더욱이, 주어진 논리 흐름은 다르게 진술되지 않는 한 반드시 제시된 순서로 실행되어야 하는 것은 아니다. 또한, 주어진 논리 흐름은 하드웨어 요소, 프로세서에 의해 실행되는 소프트웨어 요소, 또는 이들의 조합에 의해 구현될 수 있다. 실시예들은 이 컨텍스트에 제한되지 않는다.

도 1은 예시적인 운영 환경(100)의 오버헤드 뷰(overhead view)를 나타내는 도이다. 운영 환경(100)은 다양한 위치들에 있을 수 있다. 예시적인 위치들은 집 내의 하나 이상의 방, 회사 또는 공공 시설 내의 공간(들) 등을 포함한다.

도 1에 도시된 바와 같이, 운영 환경(100)은 출력 디바이스(102)를 포함한다. 출력 디바이스(102)는 1명 이상의 사용자에게 시각 및/또는 시청각 출력을 제공하는 다양한 디바이스 유형들일 수 있다. 예를 들면, 실시예들에서, 콘텐트 출력 디바이스(102)는 텔레비전, 퍼스널 컴퓨터, 또는 다른 적당한 디바이스일 수 있다.

도 1은 시청 공간(viewing space, 104)을 나타낸다. 시청 공간(104) 내에서, 1명 이상의 사람이 디바이스(102)에 의해 출력되는 콘텐트를 볼 수 있다. 다양한 정적인 오브젝트들이 시청 공간(104) 내에 존재한다. 특히, 도 1은 소파(106), 의자(108), 및 커피 테이블(110)을 나타낸다. 이 오브젝트들은 제한이 아니라 예시를 위해 도시되어 있다. 사람들이 또한 시청 공간(104) 내에 있을 수 있다. 예를 들면, 어떤 시간 기간 안에, 1명 이상의 사람이 시청 공간(104)에 들어갈 수 있고 및/또는 시청 공간(104)을 떠날 수 있다.

따라서, 어느 주어진 시점에, 시청 공간(104) 내에 임의의 수의 사람(0명 이상의 사람)이 있을 수 있다. 더욱이, 각 사람은 다양한 인구학적 범주들(예를 들면, 아이, 성인, 여성, 남성 등) 내에 적합할 수 있다. 또한, 그러한 사람들 각각은 다양한 활동들에 관여할 수 있다. 예시적인 활동들은 디바이스(102)에 의해 출력된 콘텐트를 시청하기, 시청 공간(104)을 통하여 걷기, 운동하기 등을 포함한다.

실시예들은 시청 공간(104)과 같은 공간들 내의 사람(들)의 존재를 결정할 수 있다. 또한, 실시예들은 그러한 사람(들)의 하나 이상의 특징들을 결정할 수 있다. 그러한 특징(들)은 인구학적 범주들 및/또는 활동들에의 귀속성을 포함할 수 있다.

그러한 결정들로부터, 실시예들은 (출력 디바이스(102)와 같은) 디바이스에 의해 출력되는 콘텐트를 제어할 수 있다. 이것은 출력을 위해 특정한 콘텐트를 커스터마이즈(customize)하는 것 또는 디자인하는 것(여기에서 콘텐트 타겟팅(content targeting)이라고도 불림), 및/또는 특정한 콘텐트의 출력을 차단(blocking)하는 것을 포함할 수 있다.

도 2는 실시예들에서 사용될 수 있는 예시적인 구현(200)을 나타낸 도이다. 구현(200)은 다양한 요소들을 포함할 수 있다. 예를 들면, 도 2는 출력 디바이스(202), 이미지 센서(203), 저장 매체(204), 이미지 처리 모듈(206), 및 애플리케이션 모듈(208)을 포함하는 구현(200)을 나타낸다. 이러한 요소들은 하드웨어 및/또는 소프트웨어의 임의의 조합으로 구현될 수 있다.

출력 디바이스(202)는 시각 및/또는 시청각 콘텐트를 출력한다. 이 콘텐트는 시청 공간(201) 내의 1명 사람들에 의해 시청될 수 있다. 시청 공간(201)은 도 1의 시청 공간(104)과 같거나 유사할 수 있다. 그러나, 실시예들은 이 컨텍스트에 제한되지 않는다. 출력 디바이스(202)에 의해 출력되는 콘텐트의 예들은 비디오 및/또는 그래픽을 포함한다. 따라서, 실시예들에서, 출력 디바이스(202)는 텔레비전, 퍼스널 컴퓨터, 또는 다른 적당한 디바이스일 수 있다.

이미지 센서(203)는 검출 공간(205)의 이미지들을 생성한다. 검출 공간(205)은 시청 공간(201)에 대응할 수 있다. 예를 들면, 검출 공간(205)은 시청 공간(201)의 서브세트(subset) 또는 슈퍼세트(superset)일 수 있다. 예로서, 도 2는 시청 공간(201)을 둘러싸는 검출 공간(205)을 보여준다. 그러나, 실시예들은 이 예에 제한되지 않는다.

이러한 이미지들에 기초하여, 이미지 센서(203)는 대응하는 이미지 데이터(220)를 생성한다. 실시예들에서, 이미지 데이터(220)는 다수의 이미지들을 포함한다. 예를 들면, 이미지 데이터(220)는 주기적인 간격으로 수집된 이미지들의 시퀀스를 포함할 수 있다. 도 2에 도시된 바와 같이, 이미지 데이터(220)는 저장 매체(204)에 송신된다.

이미지 센서(203)는 다양한 방법으로 구현될 수 있다. 예를 들면, 이미지 센서(203)는 열 또는 적외선 카메라일 수 있다. 그러한 카메라는 열 변동들(heat variations)을 컬러 데이터에 인코딩한다. 실시예들에서, 벽을 투과할 정도로 민감한 적외선 카메라가 사용될 수 있다. 그러한 카메라의 사용은 검출 공간(205)이 다수의 방들을 커버하는(따라서 출력 디바이스(202)의 시청 공간을 초과하는) 것을 가능하게 한다. 이 특징은 유리하게 보다 적은 수의 카메라로 멀티룸 사람 위치 측정(multi-room person localization)을 제공할 수 있다. 그 결과, 활동 추론 동작들(activity inference operations)에 대하여 더 많은 컨텍스트 데이터(contextual data)가 수집될 수 있다.

대안적으로, 이미지 센서(203)는 3차원(3D) 이미징 카메라일 수 있다. 그러한 카메라는 모든 픽셀에 대한 깊이 차이들을 인코딩하고 이 깊이 값들을 컬러 데이터로서 시각화한다. 추가의 대안으로서, 이미지 센서(203)는 (종종 RGB - red green blue - 카메라라고 불리는) 2차원(2D) 가시광 카메라일 수 있다. 그러나, 실시예들은 이 예들에 제한되지 않는다. 예를 들면, 실시예들은 다양한 유형의 카메라들 또는 이미지 센서들을 임의의 수 및 조합으로 사용할 수 있다.

저장 매체(204)는 이미지 데이터(220)를 이미지 처리 모듈(206)에 의한 처리를 위한 하나 이상의 이미지로서 저장한다. 저장 매체(204)는 다양한 방법으로 구현될 수 있다. 예를 들면, 저장 매체(204)는, RAM(random access memory), 플래시 메모리, 자기 저장 장치(예를 들면, 디스크 드라이브) 등의 임의의 조합과 같은, 다양한 메모리 유형들을 포함할 수 있다. 그러나, 실시예들은 이러한 예들에 제한되지 않는다.

이미지 처리 모듈(206)은 저장 매체(204)에 저장된 이미지들을 수반하는 다양한 동작들을 수행한다. 예를 들면, 이미지 처리 모듈(206)은 검출 공간(205) 내에 있는 1명 이상의 사람(만약 있다면)의 존재를 검출할 수 있다. 또한, 이미지 처리 모듈(206)은 임의의 그러한 검출된 사람(들)의 특징들을 결정할 수 있다.

실시예들에서, 사람들의 검출은 배경 이미지를 결정하고, 현재의 이미지로부터 배경 이미지를 제거(subtracting)하는 것을 수반할 수 있다. 이러한 제거의 결과로 분석 이미지가 생성된다. 이 분석 이미지에 대하여, 1명 이상의 사람의 존재를 결정하기 위해 다양한 알고리즘들 및/또는 동작들이 수행될 수 있다. 그러한 기법들에 관한 상세 설명은 아래에 제공된다.

실시예들에서, 이미지 처리 모듈(206)은 이미지 데이터(220)에 기초하여 배경 이미지를 결정할 수 있다. 이것은 이미지 데이터(220) 내의 이미지들이 비교적 정적인 시간 기간을 식별하는 것을 수반할 수 있다. 그러한 기간으로부터, 이미지 처리 모듈(206)은 특정한 이미지를 배경 이미지로서 선택할 수 있다. 대안적으로, 이미지 처리 모듈(206)은 그러한 기간 내의 하나 이상의 이미지들에 기초하여 배경 이미지를 생성할 수 있다.

더욱이, 실시예들에서, 시간에 걸쳐 상이한 배경 이미지들이 사용될 수 있다. 예를 들면, 이미지 처리 모듈(206)은 루틴하게 새로운 배경 이미지를 결정할 수 있다. 이것은, 예를 들면, 이미지 데이터(220) 내에 비교적 정적인 이미지들을 갖는 시간 간격이 있을 때마다 일어날 수 있다. 이 특징은 유리하게 검출 공간(205) 내의 오브젝트들(예를 들면, 가구)의 재배열뿐만 아니라, 조명 조건의 변화에 대비한다.

위에 설명된 바와 같이, 이미지 처리 모듈(206)은 그것이 검출하는 임의의 사람(들)의 특징들을 결정할 수 있다. 예를 들면, 이미지 처리 모듈(206)은 검출된 사람(들)(만약 있다면)이 특정한 활동들(예를 들면, 걷기, 운동 등)에 관여하고 있는지를 결정할 수 있다. 그러한 활동 결정들은 이미지 처리 모듈(206)이 시간 간격을 커버하는 다수의 이미지들 내의 대응하는 오브젝트들의 운동 특징들을 결정하는 것을 수반할 수 있다.

추가로 또는 대안적으로, 그러한 특징 결정(들)은 이미지 처리 모듈(206)이 그러한 검출된 사람(들)이 특정한 인구학적 범주들(예를 들면, 성인, 아이, 남성, 여성 등)에 속하는지를 결정하는 것을 수반할 수 있다. 이것은 이미지 처리 모듈(206)이 검출된 사람들의 형상들 및 크기들을 하나 이상의 템플릿들(templates)과 비교하는 것을 수반할 수 있다. 그러나, 실시예들은 그러한 기법들에 제한되지 않는다.

도 2에 도시된 바와 같이, 이미지 처리 모듈(206)은 결론 데이터(222)를 애플리케이션 모듈(208)에 제공한다. 결론 데이터(222)는 이미지 처리 모듈(206)에 의해 수행된 사람 검출 동작들의 결과를 나타낸다. 또한, 결론 데이터(222)는 이미지 처리 모듈(206)에 의해 수행된 특징 결정 동작(들)(만약 있다면)의 결과를 나타낸다.

실시예들에서, 이미지 처리 모듈(206)에 의해 수행된 검출 동작들은 통계적 추론들(결론들)을 수반할 수 있다. 따라서, 우도 확률들(likelihood probabilities)이 사람(들)의 검출(또는 검출의 결여) 및/또는 특징(들)의 결정에 대응할 수 있다. 그러한 추론들 및 우도 확률들은 결론 데이터(222)로서 이미지 처리 모듈(206)로부터 애플리케이션 모듈(208)로 전달될 수 있다.

여기에 설명된 바와 같이, 콘텐트 제공자들은 출력 디바이스(202)에 의해 출력되는 콘텐트를 발신(originate)할 수 있다. 비제한적 예로서, 도 2는 통신 매체(210)를 통하여 콘텐트를 전달하는 콘텐트 제공자(212)를 보여준다.

결론 데이터(222)에 기초하여, 애플리케이션 모듈(208)은 출력 디바이스(202)에의 그러한 콘텐트의 전달에 영향을 미치는 동작들을 수행한다. 예를 들면, 애플리케이션 모듈(208)은 출력 디바이스(202)에 특정한 콘텐트를 타겟팅하는 것 및/또는 출력 디바이스(202)에의 특정한 콘텐트의 전달을 차단하는 것에 대비할 수 있다.

실시예들은 다양한 방법으로 타겟팅 및/또는 차단을 제공할 수 있다. 예를 들면, 업스트림 콘텐트 제어 접근법(upstream content control approach)에서, 애플리케이션 모듈(208)은 하나 이상의 콘텐트 제공자들(예를 들면, 콘텐트 제공자(212))에게 결론 데이터(222)에 관한 정보를 제공할 수 있다. 다음으로, 콘텐트 제공자(들)는 이 정보에 적어도 기초하여 출력 디바이스(202)에 특정한 콘텐트를 전달하거나 또는 특정한 콘텐트를 전달하는 것을 그만둘 수 있다.

추가로 또는 대안적으로, 로컬라이즈드 콘텐트 제어 접근법(localized content control approach)에서, 애플리케이션 모듈(208)은 전달 및/또는 차단을 수행할 수 있다. 그러한 경우에, 애플리케이션 모듈(208)은 하나 이상의 콘텐트 제공자들로부터 콘텐트를 수신하고 그러한 콘텐트를 출력 디바이스(202)에 제공할지를 결정할 수 있다.

그러한 로컬라이즈드 접근법에서, 애플리케이션 모듈(208)은 그러한 콘텐트를 다양한 방법으로 출력 디바이스(202)에 제공할 수 있다. 예를 들면, 애플리케이션 모듈(208)은 콘텐트 제공자(들)로부터 그러한 콘텐트를 수신하고 그것을 "라이브"(live)로 출력 디바이스(202)에 전송할 수 있다. 대안적으로, 애플리케이션 모듈(208)은 콘텐트 제공자(들)로부터 그러한 콘텐트를 수신하고, 그것을 저장할 수 있다(예를 들면, 저장 매체(204) 내에). 다음으로, 애플리케이션 모듈(208)은 그러한 저장된 콘텐트에 액세스하고 그것을 결론 데이터(222)에 적어도 기초하여 출력 디바이스(202)에 전달할 수 있다(예를 들면, 나중 시간에).

그러한 접근법들에 따라, 도 2는 콘텐트 전달 경로들(250a 및 250b)을 보여준다. 콘텐트 전달 경로(250a)는 콘텐트 제공자(212)로부터 출력 디바이스(202)로 직접 콘텐트를 제공한다. 이 경로는 전술한 업스트림 콘텐트 제어 접근법들과 함께 사용될 수 있다. 이와 대비하여, 콘텐트 전달 경로(250b)는 콘텐트 제공자(212)와 출력 디바이스(202) 사이에 매개로서 애플리케이션 모듈(208)을 제공한다. 이 경로는 전술한 로컬라이즈드 콘텐트 제어 접근법과 함께 사용될 수 있다.

통신 매체(210)는 유선 및/또는 무선 리소스들의 임의의 조합을 포함할 수 있다(그러나 이에 제한되지 않는다). 예를 들면, 통신 매체(210)는 케이블 텔레비전 네트워크, 다이렉트 비디오 브로드캐스팅 네트워크, 위성 네트워크, 셀룰러 네트워크, 유선 전화 네트워크, 무선 데이터 네트워크, 인터넷 등의 임의의 조합에 의해 제공된 리소스들을 포함할 수 있다.

콘텐트 제공자(212)는 사용자 디바이스들에 의해 소비되는 콘텐트를 제공할 수 있는 임의의 엔티티들을 포함할 수 있다. 콘텐트 제공자들(212)의 예들은 텔레비전 방송국, 서버, 피어-투-피어 네트워킹 엔티티들(예를 들면, 피어 디바이스들) 등을 포함한다(그러나 이에 제한되지 않는다).

여기에 설명된 바와 같이, 도 2의 구현은 이미지 데이터(220)로부터 결론 데이터(222)를 생성한다. 더 상세하게는, 이미지 처리 모듈(206)은 사람(들)의 존재를 검출할 수 있고 검출된 사람들의 특징들을 결정할 수 있다. 실시예들에서, 이미지 처리 모듈(206)은 애플리케이션 모듈(208)에 결론 데이터(222)를 제공하는 것만으로 그러한 사람들에 관한 정보를 보호한다.

또한, 실시예들에서, 특정한 요소들(예를 들면, 이미지 처리 모듈(206) 및/또는 저장 매체(204))은 원시 데이터(예를 들면, 이미지 데이터(220))뿐만 아니라 그것의 중간 처리 결과들을 다른 처리 엔티티들이 이용할 수 없게 하기 위해 SOC(separate system on a chip)로서 구현될 수 있다. 그러한 다른 처리 엔티티들은, 콘텐트 제공자(212)에 속하는 것들을 포함하여, 애플리케이션 모듈(208)의 특징들을 수행하는 임의의 프로세서(들) 및 저장 매체를 포함할 수 있다(그러나 이에 제한되지 않는다).

도 3은 이미지 처리 모듈(206)의 예시적인 구현(300)을 나타내는 도이다. 도 3에 도시된 바와 같이, 구현(300)은 배경 결정 모듈(302), 배경 비교 모듈(303), 배경 제거(background subtraction) 모듈(304), 오브젝트 추출 모듈(306), 오브젝트 분류 모듈(308), 오브젝트 데이터베이스(309), 특징 결정 모듈(310), 및 출력 인터페이스 모듈(312)을 포함한다. 이 요소들은 하드웨어 및/또는 소프트웨어의 임의의 조합으로 구현될 수 있다.

도 3에 도시된 바와 같이, 구현(300)은 이미지 시퀀스(320)를 수신한다. 이 시퀀스는 (이미지 센서(203)와 같은) 이미지 센서로부터 수신될 수 있다. 대안적으로, 이 시퀀스는 (저장 매체(204)와 같은) 저장 매체로부터 수신될 수 있다. 이미지 시퀀스(320)는 배경 결정 모듈(302)에 제공되는 다수의 이미지들을 포함한다.

이 시퀀스로부터, 배경 결정 모듈(302)은 배경 이미지(322)를 결정한다. 실시예들에서, 배경 결정 모듈(302)은 이미지 시퀀스(320) 내의 이미지들이 비교적 정적인 시간 간격을 식별할 수 있다. 그러한 시간 간격으로부터, 배경 결정 모듈(302)은 특정한 이미지를 배경 이미지(322)로서 선택할 수 있다. 대안적으로, 배경 결정 모듈(302)은 그러한 기간 내의 하나 이상의 이미지들에 기초하여 배경 이미지(322)를 생성할 수 있다.

배경 비교 모듈(303)은 배경 이미지(322)를 수신하고 그것을 이미지 시퀀스(320) 내의 현재의 이미지와 비교한다. 만약 이 비교에 의해 현재의 이미지와 배경 이미지가 실질적으로 유사한 것으로 드러난다면, 현재의 이미지에 사람이 검출되지 않은 것으로 추단된다(concluded). 이 비교는 다양한 방법으로 구현될 수 있다.

그러나, 만약 이 비교에 의해 현재의 이미지와 배경 이미지가 실질적으로 상이한 것으로 드러난다면, (차이 지시자(323)에 의해 나타내어진 바와 같이) 차이가 지시된다. 이로부터, 배경 제거 모듈(304)은 현재의 이미지로부터 배경 이미지(322)를 제거한다. 도 3은 이 제거의 결과로 분석 이미지(324)가 생성되고, 그것은 오브젝트 추출 모듈(306)에 제공되는 것을 보여준다.

오브젝트 추출 모듈(306)은 분석 이미지(324) 내의 패턴들을 강화하는 다양한 동작들을 수행한다. 그러한 동작들은 분석 이미지(324)에 대해 컬러 필터링 및/또는 에지 인핸스먼트(edge enhancement) 동작들을 수행하는 것을 포함할 수 있다(그러나 이에 제한되지 않는다). 이 동작들은 강화된 이미지(enhanced image, 326)를 생성하고, 그것은 오브젝트 분류 모듈(308)에 제공된다.

오브젝트 분류 모듈(308)은 강화된 이미지(326) 내의 오브젝트들을 식별한다. 이것은 사람이 아닌 오브젝트들(예를 들면, 장식용 쿠션(throw pillow) 등)로부터 사람들을 추출하는 형상 정합(shape matching) 동작들의 수행을 수반할 수 있다. 그러한 형상 정합 동작들은 강화된 이미지(326) 내의 오브젝트들과 미리 정해진 오브젝트 템플릿들의 비교를 수반할 수 있다. 실시예들에서, 그러한 오브젝트 템플릿들은 오브젝트 데이터베이스(309)에 저장될 수 있다.

이 동작들의 결과로서, 오브젝트 분류 모듈(308)은 오브젝트 데이터(328)를 생성한다. 오브젝트 데이터(328)는 분석 이미지(324) 내에서 식별된 오브젝트들을 기술한다. 예를 들면, 오브젝트 데이터(328)는 추출된 오브젝트들을 사람(들)인 것으로 나타낼 수 있다. 또한, 오브젝트 데이터(328)는, 형상, 크기, 및/또는 위치를 포함하는(그러나 이에 제한되지 않는), 그러한 오브젝트들에 관한 추가의 데이터를 제공할 수 있다. 게다가, 오브젝트 데이터(328)는 이 결과들의 정확성을 알리는 신뢰 마진(confidence margins)(우도 추정치(likelihood estimates))을 포함할 수 있다. 도 3에 도시된 바와 같이, 오브젝트 데이터(328)는 오브젝트 데이터베이스(309), 특징 결정 모듈(310), 및 출력 인터페이스 모듈(312)에 송신된다.

수신과 동시에, 오브젝트 데이터베이스(309)는 오브젝트 데이터(328)를 저장한다. 이 특징을 통하여, 오브젝트 데이터베이스(309)는 시간에 걸쳐 특정한 오브젝트들에 관한 정보를 제공할 수 있다. 예를 들면, 그러한 정보는 시간에 걸친 오브젝트의 운동을 나타낼 수 있다. 실시예들에서, 오브젝트 데이터베이스(309)는 저장 매체를 포함할 수 있다. 예시적인 저장 매체들은 아래에 설명된다.

특징 결정 모듈(310)은 검출된 사람들의 특징들을 결정한다. 여기에 설명된 바와 같이, 특징들은 하나 이상의 인구학적 범주들에의 사람의 귀속성을 포함할 수 있다. 또한, 그러한 특징들은 그러한 사람들이 관여하는 활동들을 포함할 수 있다. 이러한 특징 결정들은 오브젝트 데이터(328) 및/또는 오브젝트 데이터베이스(309)로부터 액세스되는 저장된 데이터(330)에 기초할 수 있다. 또한, 특징 결정들은 (오브젝트 데이터베이스(309)에 저장될 수 있는) 파라미터(들) 및/또는 템플릿(들)에 기초할 수 있다. 그 결과, 특징 결정 모듈(310)은 특징 데이터(332)를 생성하고, 그것은 출력 인터페이스 모듈(312)에 송신된다.

출력 인터페이스 모듈(312)은 결론 데이터(334)를 생성하고, 그것은 0명 이상의 사람의 검출을 나타낼 수 있다. 또한 결론 데이터(334)는 임의의 검출된 사람들의 특징(들)을 나타낼 수 있다. 더욱이, 결론 데이터(334)는 그러한 검출들 및 특징들과 연관된 우도 확률들을 제공할 수 있다. 따라서, 결론 데이터(334)는 도 2에 관련하여 위에 설명된 결론 데이터(222)와 같을 수 있다.

도 4는 여기에 설명된 하나 이상의 실시예에 의해 실행되는 동작들을 나타낼 수 있는 예시적인 논리 흐름(400)을 도시한다. 따라서, 이 흐름은 도 1-3의 컨텍스트들에서 사용될 수 있다. 그러나, 실시예들은 이 컨텍스트들에 제한되지 않는다. 또한, 비록 도 4는 특정한 시퀀스들을 보여주지만, 다른 시퀀스들이 사용될 수 있다. 더욱이, 도시된 동작들은 다양한 병렬 및/또는 순차적인 조합들로 수행될 수 있다.

블록(402)에서, 이미지 센서가 이미지들의 시퀀스를 생성한다. 이 이미지(들)는 검출 공간의 이미지이다. 실시예들에서, 검출 공간은 출력 디바이스의 시청 공간에 대응할 수 있다. 그러한 대응의 예는 도 2에 도시되어 있다. 그러나, 실시예들은 이 예에 제한되지 않는다.

이 이미지들은 블록(404)에서 저장 매체에 저장될 수 있다. 예를 들면, 도 2의 컨텍스트에서, 이 이미지는 저장 매체(204)에 저장될 수 있다. 그러나, 실시예들은 이 예에 제한되지 않는다.

블록(406)에서, 검출 공간에 사람들이 존재하는지가 검출된다. 이 검출은 하나 이상의 이미지들에 적어도 기초한다. 예를 들면, 여기에 설명된 바와 같이, 블록(406)은 현재의 이미지를 배경 이미지와 비교하는 것을 수반할 수 있다. 배경 이미지는 하나 이상의 이미지들로부터 선택되거나 생성될 수 있다.

이 비교에 의해 생성된 차이들에 기초하여, 블록(406)은 오브젝트(들)를 추출하고 그것들이 사람(들)에 대응하는지를 추단하는 다양한 동작들을 더 수반할 수 있다. 그러한 동작들은 에지 인핸스먼트, 템플릿 정합 등을 포함할 수 있다(그러나 이에 제한되지 않는다).

블록(408)에서, 임의의 검출된 사람들의 하나 이상의 특징들이 결정될 수 있다. 특징들의 예들은 그러한 사람들의 하나 이상의 인구학적 범주들에의 귀속성뿐만 아니라, 그러한 사람들이 관여하는 다양한 활동들을 포함한다.

블록(410)에서, 출력 디바이스에의 콘텐트의 전달이 제어된다. 이 제어는 블록(406)에서 수행된 사람 검출에 적어도 기초한다. 또한, 이 제어는 블록(408)에서 수행된 특징(들) 결정에 기초할 수 있다. 그러한 제어는 로컬 및/또는 업스트림 접근법들에 따라 수행될 수 있다.

여기에 설명된 바와 같이, 다양한 실시예들은 하드웨어 요소들, 소프트웨어 요소들, 또는 이들의 임의의 조합을 이용하여 구현될 수 있다. 하드웨어 요소들의 예들은 프로세서, 마이크로프로세서, 회로 요소(예를 들면, 트랜지스터, 저항기, 커패시터, 인덕터 등), 집적 회로, ASIC(application specific integrated circuit), PLD(programmable logic device), DSP(digital signal processor), FPGA(field programmable gate array), 논리 게이트, 레지스터, 반도체 디바이스, 칩, 마이크로칩, 칩 세트 등을 포함할 수 있다.

소프트웨어의 예들은 소프트웨어 컴포넌트, 프로그램, 애플리케이션, 컴퓨터 프로그램, 애플리케이션 프로그램, 시스템 프로그램, 기계 프로그램, 운영 체제 소프트웨어, 미들웨어, 펌웨어, 소프트웨어 모듈, 루틴, 서브루틴, 함수, 메서드, 프로시저, 소프트웨어 인터페이스, API(application program interface), 명령어 세트, 컴퓨팅 코드, 컴퓨터 코드, 코드 세그먼트, 컴퓨터 코드 세그먼트, 워드, 값, 심벌, 또는 이들의 임의의 조합을 포함할 수 있다.

몇몇 실시예들은, 예를 들면, 기계 판독 가능한 저장 매체 또는 물품을 이용하여 구현될 수 있다. 저장 매체는, 기계에 의해 실행되는 경우, 기계로 하여금 실시예들에 따른 방법 및/또는 동작들을 수행하게 할 수 있는, 명령어 또는 명령어들의 세트를 저장할 수 있다. 그러한 기계는, 예를 들면, 임의의 적당한 처리 플랫폼, 컴퓨팅 플랫폼, 컴퓨팅 디바이스, 처리 디바이스, 컴퓨팅 시스템, 처리 시스템, 컴퓨터, 프로세서 등을 포함할 수 있고, 하드웨어 및/또는 소프트웨어의 임의의 적당한 조합을 이용하여 구현될 수 있다.

여기에 설명된 바와 같이, 실시예들은 저장 매체 또는 기계 판독 가능한 물품을 포함할 수 있다. 이것들은, 예를 들면, 임의의 적당한 유형의 메모리 유닛, 메모리 디바이스, 메모리 물품, 메모리 매체, 저장 디바이스, 저장 물품, 저장 매체 및/또는 저장 유닛, 예를 들면, 이동식 또는 비이동식 매체, 소거 가능한 또는 소거 가능하지 않은 매체, 기입 가능한 또는 기입 가능하지 않은 매체, 디지털 또는 아날로그 매체, 하드 디스크, 플로피 디스크, CD-ROM(Compact Disk Read Only Memory), CD-R(Compact Disk Recordable), CD-RW(Compact Disk Rewritable), 광 디스크, 자기 매체, 광자기 매체, 이동식 메모리 카드 또는 디스크, 다양한 유형의 DVD(Digital Versatile Disk), 테이프, 카세트 등을 포함할 수 있다. 명령어들은 임의의 적당한 고급, 저급, 객체 지향, 비주얼, 컴파일된 및/또는 인터프리트된 프로그래밍 언어를 이용하여 구현된, 소스 코드, 컴파일된 코드, 인터프리트된 코드, 실행 가능 코드, 정적 코드, 동적 코드, 암호화된 코드 등과 같은 임의의 적당한 유형의 코드를 포함할 수 있다.

본 발명의 다양한 실시예들이 위에 설명되었으나, 그것들은 제한으로 제시된 것이 아니라, 단지 예로서 제시되었다는 것을 이해해야 한다.

따라서, 본 발명의 정신 및 범위로부터 일탈하지 않고 형태 및 세부의 다양한 변화들이 이루어질 수 있다는 것은 관련 기술의 숙련자들에게 명백할 것이다. 따라서, 본 발명의 폭 및 범위는 위에 설명된 예시적인 실시예들 중 어떤 실시예에 의해서도 제한되지 않아야 하고, 오직 하기의 청구항들 및 그것들의 동등물들에 따라서만 정의되어야 한다.

100: 운영 환경
102: 출력 디바이스
104: 시청 공간
106: 소파
108: 의자
110: 커피 테이블

Claims

이미지 센서로부터 하나 이상의 이미지를 수신하는 방법