KR20090031512A

KR20090031512A - 여러 종류의 입력을 이용한 사람의 식별 방법 및 시스템

Info

Publication number: KR20090031512A
Application number: KR1020087030540A
Authority: KR
Inventors: 차 장; 폴 에이. 비올라; 페이 인; 로스 지. 커틀러; 신딩 선; 용 루이
Original assignee: 마이크로소프트 코포레이션
Priority date: 2006-06-22
Filing date: 2007-02-13
Publication date: 2009-03-26
Also published as: SI2035799T1; US8234113B2; PT2035799E; EP2035799A2; RU2008150475A; CN101473207A; CA2653278C; KR101323056B1; PL2035799T3; CY1113152T1; WO2008016392A2; CA2653278A1; US8024189B2; ES2390295T3; US20120278077A1; EP2035799B1; WO2008016392A3; CN101473207B; DK2035799T3; US20070297682A1

Abstract

자동화된 방식으로 사람들 또는 화자들을 탐지하는 시스템들 및 방법들이 개시된다. 한 종류 이상의 입력 (오디오 입력 및 비디오 입력같은)을 포함하는 특징 풀은 사람들 또는 화자들을 식별하는 분류기를 생성하기 위해 학습 알고리즘을 이용하여 식별되고 사용될 수 있다. 결과적인 분류기는 사람들 또는 화자들을 탐지하기 위해 평가될 수 있다.

학습 알고리즘, 특징 풀, 화자 탐지용 분류기

Description

여러 종류의 입력을 이용한 사람의 식별 방법 및 시스템{IDENTIFICATION OF PEOPLE USING MULTIPLE TYPES OF INPUT}

적어도 부분적으로 자동화된 시스템을 이용하여, 말하는 사람을 포함하여, 사람들을 식별하는 것이 바람직한 다양한 상황이 있다. 화자(speakers)를 식별하는 일부 기존 시스템은 오디오를 이용하는데, 예컨대, 이 시스템은 말이 시작되는 방향(들)을 식별하기 위해 서로 다른 위치에 있는 다수의 마이크로폰으로부터의 입력을 처리하는 단계를 포함하는 "음원 위치 추적 (sound source localization)"을 이용할 수도 있다. 일부 다른 시스템은 "결정 단계 융합 (decision level fusion)"을 수행함으로써 음원 위치 추적처럼 방법의 정확성을 향상시키려고 하는데, 여기서 다중 입력으로부터의 데이터는 사람 또는 화자 탐지에 대한 결정이 이루어지는 지점에서 조합된다.

다음은 독자에게 기본적인 이해를 제공하기 위하여 본 발명의 간단한 요약을 제공한다. 이 요약은 본 발명의 포괄적인 개관이 아니며 본 발명의 핵심적인/중요한 요소들을 확인하거나 본 발명의 범위를 상술하지 않는다. 이 요약의 유일한 목적은 이하에서 제공되는 상세한 설명에 대한 서두로서 여기 설명된 몇가지 개념을 간단한 형태로 제공하는 것이다.

화자를 포함한 사람의 식별에 대한 다양한 기술이 설명된다. 이러한 기술은, 오디오 및 비디오 입력을 포함하여, 여러 종류의 입력으로부터 식별 "특징들(features)"의 풀(pool) 또는 양상(modalities) (컴퓨팅 시스템이 입력으로 인식할 수 있는 경로)의 식별; 및 상기 특징들의 풀로부터 특징들의 하위집합(subset)을 포함하는 "분류기(classifier)"의 생성을 포함하고, 여기서 상기 특징들의 하위집합은 사람이나 화자가 존재할 수 있는 영역을 상기 분류기가 효율적으로 식별하도록 선택된다.

도 1은 사람 탐지가 이루어질 수 있는 한 시스템을 도시한 바람직한 도면이다.

도 2는 사람 또는 화자를 포함하는 것으로 식별될 수 있는 바람직한 이미지와 바람직한 영역을 그림으로 표시한 도면다.

도 3은 사람을 식별할 때 수행될 수 있는 다양한 동작을 포함한 바람직한 동작 흐름도이다.

도 4는 일부 구현예에서 식별되고 사용될 수 있는 일부 바람직한 특징들을 나타낸 바람직한 도면이다.

도 5는 일부 바람직한 비디오 특징들을 도시한다.

도 6은 일부 바람직한 비디오 특징들을 포함하는 전형적인 바람직한 특징 직사각형을 도시한다.

도 7은 사람 또는 화자 탐지를 위한 분류기의 생성이 달성될 수 있는 한 시 스템을 도시하는 바람직한 도면이다.

도 8은 사람 또는 화자의 탐지가 달성될 수 있는 한 시스템을 도시하는 바람직한 도면이다.

도 9는 사람 또는 화자를 탐지하는 프로세스의 일부로서 사용될 수 있는 탐지 윈도우의 일부 바람직한 표현을 도시한다.

도 10은 여기 설명된 다양한 기술이 구현될 수 있는 바람직한 컴퓨터 장치를 도시한다.

본 발명은 화자(speakers)를 포함한 사람들의 식별에 관한 다양한 기술을 제공한다. 더 구체적으로, 여러 종류의 입력을 이용하여 사람의 식별을 용이하게 하는 방법 및 시스템이 설명되는데, 여기서 상기 여러 종류의 입력은 탐지 프로세스의 종료시에 결합되기 보다는 탐지 프로세스의 시작으로 간주된다.

도 1을 참조하면, 사람 탐지가 이루어질 수 있는 한 시스템(100)을 도시하는 바람직한 도면이 도시된다. 도 1은 도 10을 참조하여 설명한다. 그러나, 도 1을 참조하여 설명된 요소들은 이 다른 도면을 참조하여 설명된 요소들과 함께 사용되는 것으로 한정하려는 것이 아님은 물론이다. 또한, 도 1의 바람직한 도면이 특정 요소들을 나타내지만, 일부 구현예에서는 이 요소들이 모두 존재하지 않을 수 있고, 일부 구현예에서는 추가 요소들이 존재할 수 있다.

도 1은 하나 이상의 비디오 입력 장치(110), 하나 이상의 오디오 입력 장치(120), 하나 이상의 다른 입력 장치(130), 비디오 데이터(140), 오디오 데이 터(150), 다른 데이터(160), 탐지 장치(165)에 구현된 사람 탐지기(170), 보조 장치(175), 및 사람 탐지기의 출력, 즉 임의의 탐지된 사람들 또는 화자들(180)을 포함한다.

탐지기(170)는 입력을 수신하는데, 이것은 말하는 사람들, 즉 "화자들(speakers)"을 포함하여 하나 이상의 사람들(180)을 식별하기 위해 사용할 수 있다. 탐지기는 여기 더 구체적으로 논의된 것을 포함하여 사람들을 식별하기 위해 다양한 메커니즘을 사용할 수 있다. 일부 구현예에서 탐지기는 다른 곳에서 결정된 탐지 메커니즘을 실행할 수 있는 반면, 다른 구현예에서는 탐지기는 탐지 메커니즘을 결정하고 실행할 수 있다. 탐지기는 비디오 데이터(140), 오디오 데이터(150), 및 다른 데이터(160)를 포함한 다양한 입력을 사용할 수 있다.

하나 이상의 비디오 입력 장치(110)는 다양한 카메라 및 일정 범위의 기능을 갖는 카메라 종류를 포함한 다양한 비디오 입력 장치를 포함할 수 있다. 일구현예에서, 비디오 입력 장치(110)는 360°시계를 제공하도록 원형으로 정렬된 다수의 카메라를 포함할 수 있다. 다른 구현예에서, 동일한 360°시계가 하나의 렌즈를 갖는 하나의 카메라에 의해 제공될 수도 있다. 또다른 구현예에서, 하나 이상의 비디오 입력 장치는 360°미만의 범위를 커버하는 시계를 제공할 수 있다.

하나 이상의 비디오 입력 장치(110)의 출력의 적어도 일부는 비디오 데이터(140)이다. 이 데이터는 다수의 단일 프레임의 비디오 데이터를 포함할 수 있는데, 여기서 각 프레임은 다수의 픽셀로 구성된 이미지를 포함한다. 예를 들면, 초당 30개의 비디오 프레임의 속도로 비디오를 생성할 수 있는 카메라는 초당 30개의 출력 이미지를 생성할 수 있다. 일부 구현예에서, 카메라에 의해 생성된 각 이미지는 "기본(base) 이미지"로 알려질 수 있다 (이하에서 설명되는 단기 차이 및 장치 평균 이미지와 같은 다른 계산된 이미지와 구별하기 위함). 하나 이상의 비디오 입력 장치(110)는 각 비디오 프레임의 모든 픽셀이 비디오 입력 장치로부터 명시적으로 전송되지 않는 형태를 포함하여 다양한 형태로 데이터를 제공할 수 있다. 예컨대, 하나 이상의 비디오 입력 장치(110)의 출력은 프레임내 모든 픽셀에 대한 값들이 제공되는 하나의 초기 비디오 프레임을 포함할 수 있고, 적어도 일부 추가적인 다음 프레임들에 대한 출력은 이 초기 프레임으로부터의 변화만을 포함할 수 있다. 이 경우, 임의의 다음 프레임에 대한 픽셀별 표현은 이 변화를 원 프레임에 적용함으로써 결정될 수 있다. 어느 경우든지, 카메라에 의해 생성된 각 기본 이미지는 전체 픽셀별 이미지를 포함하기 위해 고려될 수 있다.

또한, 비디오 데이터(140)는 추가적인 계산된 데이터를 포함할 수 있다. 예컨대, 일부 구현예에서, 다수의 비디오 프레임을 이용하여 "단기 차이 (short term difference)"를 계산하는 것이 유용할 수 있다. 이러한 단기 차이는 예컨대 움직임을 식별하기 위해 유용할 수 있다. 단기 차이가 다양한 방식으로 계산될 수 있지만, 한가지 가능한 방법은 이미지 내의 각 픽셀에 대해 현재 프레임내 픽셀의 값에서 직전 프레임내 픽셀의 값을 빼는 것이다. 동시에, 이 방법은 현재 프레임내 픽셀의 값에서 두번째 직전 프레임내 픽셀의 값을 뺄 수 있다. 그후, 상기 두 뺄셈의 최소가 픽셀에 대한 현재 값으로서 취해질 수 있다. 움직임이 존재하지 않는 픽셀에 대해, 즉, 이미지가 그대로인 구역에 대해, 이 방법은 0에 가까운 값을 생 성하기 쉬울 것이다. 최근 움직임이 있었던 픽셀의 경우, 이 방법은 일부 경우에 0보다 훨씬 더 큰 값들을 생성할 수 있다. 이 특정 방법은 다음 식으로 표현될 수 있는데, 여기서 M_t는 시간 t에서 단기 차이 이미지이고 I_t은 시간 t에서 카메라로부터의 이미지이다.

카메라의 프레임 속도에 따라, 이 계산에 사용된 "이전(preceding)" 프레임들은 2개의 직전 프레임들보다 더 클 수 있다. 예컨대, 초당 30 프레임의 프레임 속도를 갖는 카메라를 사용할 때, 2개의 직전 프레임들보다는 10 프레임 전 및 20 프레임 전의 프레임들을 사용할 수 있다.

동일 또는 다른 구현예에서, 비디오 데이터(140)의 일부일 수 있는 비디오 프레임들의 "장기 평균 (long term average)"을 계산하는 것이 유용할 수 있다. 움직임이 최근에 발생하지 않았더라도, 장기 평균은 움직임이 이전에 존재한 하나 이상의 비디오 입력 장치(110)에 의해 캡처된 영역의 부분들을 식별할 수 있다. 장기 평균이 다양한 방법으로 계산될 수 있지만, 한가지 가능한 방법은 아마도 앞서 설명된 단기 차이 방법에 의해 생성된 것들을 포함하여 단기 차이 이미지들의 이동 평균을 계산하는 것이다. 이러한 방법을 이용하여, 장기 평균 비디오 프레임은 프레임내 각 픽셀이 모든 또는 많은 이전 단기 차이 이미지 프레임으로부터 그 픽셀의 평균 값으로 구성되도록 계속 업데이트될 수 있다. 비디오를 캡처하는 과정 동안에 움직임이 거의 또는 전혀 없는 카메라에 의해 캡처된 영역(region)의 구 역들(areas)에 대해, 이 방법은 0에 가까운 값들을 생성하기 쉬울 수 있다. 이에 반해, 사람들을 포함하는 영역의 구역들을 포함하는 과거 어느 지점에서 움직임이 있는 구역들에 대해, 이 방법은 0이 아닌 값을 생성하기 쉬울 수 있다.

또한, 일부 구현예에서, 비디오 데이터의 최근 프레임으로부터, 단기 차이 및 장치 평균처럼, 계산된 이미지들을 고려하기 보다는, 이들을 적어도 일부 "미래" 데이터를 포함하는 것으로 간주하는 것이 유용할 수 있다. 예컨대, 다음 비디오 프레임이 캡처될 때까지 기다리고 이 3개의 식별된 프레임을 이용하여 단기 차이를 계산함으로써, 단기 차이는 현재 프레임, 최근의 이전 프레임, 및 "다음 프레임"을 입력으로서 사용할 수 있다. 임의의 이런 작업은 사람 탐지 프로세스의 적어도 이 부분의 대기시간을 추가적인 "미래" 데이터를 캡처할 필요가 있는 시간만큼 증가시킬 수 있지만, 일부 경우에 이 증가된 대기시간은 계산된 이미지에 의해 궁극적으로 표현된 데이터에 의해 상쇄될 수 있다.

비디오 데이터(140)는 앞서 논의된 이미지들 중 임의의 것 또는 전부 뿐만 아니라 추가 이미지 또는 비디오 프레임을 포함할 수 있다. 이 이미지들은 하나 이상의 비디오 입력 장치(110), 탐지기(170) 또는 다른 장치를 포함한 다양한 위치로부터 제공되거나, 필요하면, 상기 다양한 위치에서 계산될 수 있다. 또한, 이 논의는 "비디오"에 관한 것이지만, "비디오 카메라"로서 종래 간주되지 않은 카메라를 포함하여, 이미지를 생성할 수 있는 임의의 카메라가 사용될 수 있음을 이해하는 것이 중요하다. 예컨대, 많은 사진을 순서대로 찍을 수 있는 "스틸(still)" 카메라가 일부 구현예에서 사용될 수 있다. 또한, 움직임을 탐지하는 것이 중요한 것으로 간주되지 않으면, 일부 구현예에서 하나의 스틸 이미지가 사용될 수 있다. 또한, 일부 경우에 추가 데이터가 사용될 수 있다. 예컨대, 탐지기는 사람을 포함할 수 있는 영역을 식별하기 위한 추가 수단으로서 피부 색을 이용할 수 있다.

하나 이상의 오디오 입력 장치(120)는 다양한 마이크로폰 및 일정 범위의 기능을 갖는 마이크로폰 종류를 포함한 다양한 오디오 입력 장치를 포함할 수 있다. 일부 구현예에서, 하나 이상의 오디오 장치는 서로 다른 위치에 있는 다수의 마이크로폰으로 구성된 마이크로폰 어레이를 포함할 수 있다. 마이크로폰들의 서로 다른 위치와 이 마이크로폰들에 의해 탐지된 소리들에 대한 크기와 도착시간의 차이에 대한 지식을 포함하여, 이러한 마이크로폰 집합으로부터의 다양한 정보를 이용하여, 하나 이상의 오디오 입력 장치는 소리가 시작된 방향을 포함한 데이터를 제공할 수 있다. 이러한 입력은 때로 "SSL (sound source localization: 음원 위치 파악)"이라고 하는 기술의 일부로서 포함된다. 일부 경우에, 이러한 방향 정보는 화자를 결정할 때 유용할 수 있다.

오디오 데이터(150)는, 일부 구현예에서, 소정의 처리량과 함께, 화자의 목소리를 포함한 소리가 임의의 특정 방향에서 올 확률을 나타내는 우도(likelihood) 값을 제공하는 "확률 분포 함수"를 포함한다. 예를 들면, 하나 이상의 오디오 입력 장치(110)로부터의 정보가 임의의 방향으로부터의 소리를 찾기 위해 사용될 수 있으면, SSL 우도(likelihood) 함수라고도 하는 확률 분포 함수는 서로 다른 방위각, 또는 방향에 대한 확률값을 포함할 수 있다. 소리가 거의 또는 전혀 탐지되지 않는 방향에 대해, 확률값은 낮을 수 있는 반면, 더 많은 소리가 탐지되는 방향에 대해서는 확률값이 높을 수 있다.

일부 구현예에서, 아마도 오디오 입력 장치(120)의 능력에 따라, 오디오 데이터(150)는 추가 정보를 포함할 수 있다. 예컨대, 일부 구현예에서, 오디오 데이터는 음원까지의 범위 또는 거리 및/또는 음원의 고도를 포함할 수 있다. 일부 구현예에서, 음원까지의 범위 및/또는 음원의 고도같은 이 데이터는 확률 분포 함수와 연관될 수 있다.

오디오 데이터(150)는 앞서 논의된 임의의 또는 모든 데이터 뿐만 아니라 추가 데이터를 포함할 수 있다. 이 데이터는 하나 이상의 오디오 입력 장치(120), 탐지기(170), 또는 임의의 다른 장치와 연관된 하드웨어를 포함하여 다양한 위치로부터 제공되거나, 필요하다면, 다양한 위치에서 계산될 수 있다. 예컨대, 일부 구현예에서, 아마도 SSL 우도 함수를 생성하는 음원 위치 파악은 하나 이상의 오디오 입력 장치와 연관된 하드웨어를 이용하여 수행될 수 있고, 탐지기와 연관된 하드웨어를 이용하여 수행될 수 있고, 또는 일부 다른 하드웨어를 이용하여 또는 다른 위치에서 수행될 수 있다.

일부 구현예에서, 비디오 데이터(140) 및 오디오 데이터(150)는 비디오 데이터와 연관된 방향들이 오디오 데이터와 연관된 방향들과 상관될 수 있도록 링크될 수 있다. 예컨대, 이러한 구현예에서, 한 방위각에서 다른 방위각으로 SSL 우도 함수의 영역은 아마도 수평 픽셀 위치들에 의해 식별되는 하나 이상의 비디오 프레임내 특정 영역과 상관될 수 있다. 예컨대, 일 구현예에서, 예컨대 10°내지 20°사이의 범위는 예컨대 수평 픽셀 위치 100에서 200 사이에 위치한 픽셀과 상관될 수 있다. 이러한 상관관계를 이용하여, 하나 이상의 오디오 입력 장치(120)로부터의 정보는 하나 이상의 비디오 장치(110)에 의해 제공된 이미지내 특정 영역들을 식별할 때 또는 그 역에서 사용될 수 있다. 고도(elevation)와 같은 추가 정보를 포함하는 오디오 데이터(150)의 경우, 추가 정보는 이미지 내의 특정 영역과 상관될 수 있다. 예컨대, 고도 정보는 수직 픽셀 위치와 상관될 수 있다. 유사한 유형의 상관관계는 이러한 장치의 성질 및 동작에 따라 하나 이상의 다른 입력 장치(130) 중 임의의 것과 함께 존재할 수 있다.

일부 구현예에서, 추가적인 유형의 입력이 존재할 수 있고 탐지 프로세스의 일부로서 사용될 수 있다. 일부 경우에, 이 추가 유형의 입력은 하나 이상의 다른 입력 장치(130)에서 시작될 수 있고 다른 데이터(160)의 적어도 일부를 생성할 수 있다. 예를 들면, 한가지 가능한 다른 입력 장치는 한 이미지에서 요소들까지의 거리 또는 깊이의 측정을 제공할 수 있는 3차원 카메라를 포함할 수 있다.

탐지기(170)는 도시된 바와 같이 탐지 장치(165)를 포함한 다양한 컴퓨팅 장치에서 구현될 수 있다. 일부 구현예에서, 이 탐지 장치는 사람 탐지를 구현하기 위해 필요한 하드웨어를 포함할 수 있고 예컨대 USB와 같은 다양한 연결 수단, 무선 네트워크를 포함한 임의의 다양한 네트워크 등을 통해 하나 이상의 비디오 입력 장치 및 하나 이상의 오디오 입력 장치에 연결될 수 있는데, 이는 당업자라면 잘 알 수 있을 것이다. 다른 구현예에서, 탐지기는 하나 이상의 비디오 입력 장치(110) 및 하나 이상의 오디오 입력 장치(120)와 같은 하나 이상의 비디오 입력 장치 및 하나 이상의 오디오 입력 장치를 포함하는 탐지 장치에서 구현될 수 있다. 임의의 탐지 장치는 범용 중앙처리장치 (CPU) 및/또는 디지털 신호 프로세서 (DSP) 유닛을 포함한 다양한 처리 요소들을 포함할 수 있다. 탐지기가 구현될 수 있는 한가지 바람직한 컴퓨팅 환경이 도 10을 참조하여 이하에 설명된다.

탐지 장치(165)가 하나 이상의 비디오 입력 장치(110), 하나 이상의 오디오 입력 장치(120) 및 다른 입력 장치(130)와 같은 요소들을 포함하거나 이들에 연결되는지에 상관없이, 탐지 장치는 일부 구현예에서 하나 이상의 보조 장치(175)에 연결될 수 있다. 이 상황에서, 보조 장치는 탐지 장치(165)와 연관되거나 유용할 수 있는 추가 기능을 제공하는 임의의 장치일 수 있다. 예를 들면, 일부 구현예에서, 보조 장치는 탐지 장치가 캡처된 비디오, 가능하다면 오디오 및 사람이나 화자가 탐지된 영역을 저장할 수 있는 하드 드라이브를 포함하는 랩탑 컴퓨터를 포함할 수 있다. 동일 또는 다른 구현예에서, 보조 장치는 예컨대 탐지 장치가 보조 장치로 탐지 처리의 일부 또는 모두를 처분할 수 있도록 컴퓨터 처리 주기를 탐지 장치에 제공할 수 있다. 또다른 구현예에서, 보조 장치는 저장 수단만을 포함할 수 있다. 즉, 예컨대, 이것은 USB 내 하드 드라이브일 수 있다. 일반적으로, 보조 장치는 USB, 임의 형태의 네트워킹 등을 포함한 임의의 연결 수단을 이용하여 탐지 장치에 연결될 수 있다.

일부 구현예에서, 서로 다른 입력 장치들로부터의 데이터가 동기화되는 것이 중요할 수 있다. 예를 들면, 하나 이상의 비디오 입력 장치(110)로부터의 입력은 하나 이상의 오디오 장치(120)로부터의 입력과 동기화될 수 있다.

도 2를 참조하면, 사람 또는 화자를 포함하는 것으로 식별될 수 있는 바람직 한 영역과 함께 바람직한 이미지(200)가 그림으로 도시되어 있다. 제1의 식별된 사람과 연관된 제1 영역(210), 제2의 식별된 사람과 연관된 제2 영역(220), 및 제3 영역(230)이 그림에 포함되어 있다. 도 2는 도 1을 참조하여 설명된다. 그러나, 도 2를 참조하여 설명된 요소들은 이 다른 도면을 참조하여 설명된 요소들과 함께 사용되는 것으로 한정하려는 것이 아님은 물론이다. 또한, 도 2의 바람직한 도면이 특정 요소들을 나타내지만, 일부 구현예에서는 이 요소들이 모두 존재하지 않을 수 있고, 일부 구현예에서는 추가 요소들이 존재할 수 있다.

바람직한 이미지(200)는 도 1을 참조하여 앞서 설명한 하나 이상의 비디오 입력 장치(110)를 포함하여 하나 이상의 비디오 입력 장치에 의해 생성된 한 프레임의 비디오를 나타낼 수 있다.

일부 구현예에서, 아마도 도 1의 탐지기(170)와 같은 탐지기가 직사각형 또는 다른 형태를 나타내는 수평 및 물리적 픽셀 위치들을 이용하여 식별된 사람들이나 화자들을 나타낼 수 있다. 예컨대, 탐지기는 제1 영역(210)이 사람이나 화자와 연관될 확률이 높을 수 있음을 나타낼 수 있다. 마찬가지로, 가능하다면 동시에, 제2 영역(220)이 사람이나 화자와 연관될 확률이 높을 수 있음을 나타낼 수 있다. 도 2의 예에 의해 알 수 있는 바와 같이, 제1 영역(210) 및 제2 영역(220)의 경우, 이러한 탐지기는 각 영역이 사람을 포함한다는 점에서 올바를 것이다. 탐지기는 또한 제3 영역(230)을 사람과 연관될 확률이 높은 것으로 식별할 수 있는데, 이것은 아마도 예컨대 벽이나 다른 표면으로부터의 소리의 반사 때문일 것이다. 탐지기가 특정 영역이 사람과 연관될 확률만을 나타낼 수 있으므로, 일부 경우에 탐지 기에 의해 식별된 영역은 실제로 사람을 포함하지 않을 수 있다. 탐지기가 어떤 영역을 사람을 포함하는 것으로 간주하는 임계값 또는 레벨은 변경될 수 있고 탐지기의 적용이나 사용에 따라 정의될 수 있다. 예를 들면, 일부 구현예에서 이러한 임계값은 비교적 높은 값으로 설정될 수 있고, 이렇게 되면 아마도 사람과 연관될 수 있는 영역의 수가 제한될 것이고 또한 아마도 궁극적으로 잘못 식별되는 영역의 수를 제한할 것이다.

바람직한 이미지(200)는 예시적인 목적이며 본 발명의 범위를 한정하는 것으로 해석되지 않아야 한다. 마찬가지로, 식별된 사람 및 잘못 식별된 영역의 표현은 식별된 그리고 잘못 식별된 영역을 보여주는 한가지 그래픽 수단을 도시할 뿐이다. 영역을 표현하거나 도시하는 어떤 수단이라도 사용될 수 있다.

도 3을 참조하면, 사람을 식별할 때 수행될 수 있는 다양한 동작을 포함하여 바람직한 동작 흐름도(300)가 도시된다. 도 3은 도 1, 도 4, 도 8 및 도 9를 포함한 추가 도면을 참조하여 설명된다. 그러나, 도 3을 참조하여 설명된 동작 흐름도는 상기 다른 도면을 참조하여 설명된 요소들과 함께 사용되는 것으로 한정되는 것이 아니다. 또한, 도 3의 바람직한 동작 흐름도가 특정 실행 순서를 나타내지만, 하나 이상의 다른 실시예에서, 이 동작은 달리 순서가 정해질 수 있다. 또한, 바람직한 동작 흐름도가 다수의 단계를 포함하지만, 일부 구현예에서 이 동작들 중 적어도 일부는 결합하여 또는 동시에 실행될 수 있다.

동작(310)의 일구현예에서, 특징들의 풀(pool)이 식별된다. 이 특징 풀은 분류기 생성 동작(315)을 실행할 때 입력으로서 사용될 수 있다. 이 상황에서, 하 나의 특징은 특정 시간에 입력(들)의 어느 요소를 정량화하도록 역할하는 하나 이상의 종류의 입력과 연관된 엔터티(entity)이다. 오디오 특징, 비디오 특징, 및 다른 종류의 입력과 연관된 다른 특징이 있을 수 있다. 예를 들면, SSL 우도 함수를 포함하는 오디오 입력의 경우, 동일한 SSL 우도 함수의 "전역(global)" 최소값 및 최대값과 비교하면, 한 특징은 적어도 부분적으로 SSL 우도 함수의 "구역(local)" 최소값 및 최대값의 일종의 비교에 의해 정의될 수 있다 (여기서 "구역"은 전체 SSL 우도 함수의 하위집합에 대한 값을 가리킬 수 있고, "전역"은 전체 SSL 우도 함수에 대한 값을 가리킬 수 있다). SSL 우도 함수의 값에 따라, 서로 다른 오디오 특징이 서로 다른 수치 결과를 가져올 것이다. 오디오 및 비디오 입력에 대해 특정한 특징에 대한 더 많은 정보를 포함하여, 사용될 수 있는 특징에 대한 일부 구현예에 적용가능한 일부 특정 세부사항이 예컨대 도 4를 참조하여 이하에서 더 상세히 논의된다.

특징 풀이 식별될 수 있는 수단은 이들이 연관된 입력 및 특징의 성질에 따라 변할 수 있다. 특징이 생성될 수 있는 방식은 물론 특징을 식별하는 것은 특징 풀이 생성될 주제 영역에 적용가능한 도메인 전문지식을 가진 한 사람 이상의 설계자의 태스크이다. 예컨대, 적어도 부분적으로, SSL 우도 함수로부터 값들이 주어질 때 숫자를 생성하는 함수에 의해 정의된 오디오 특징의 생성은 오디오 특징을 고안하는 설계자의 부분에서 생각을 필요로 할 수 있다.

일부 경우, 특징들은 사람이나 화자의 존재에 대한 정보를 제공하는 것으로 생각되기 때문에 선택될 수 있다. 그러나, 하나의 특징은 반드시 특별히 "양호한" 또는 항상 정확한 결과를 제공할 필요가 없음을 유의하는 것이 중요하다. 아래에서 논의되는 분류기 생성 동작(315)은 다른 프로세스를 통해 사람 및 화자 탐지에 가장 적합한 특징들을 선택하도록 사용될 수 있다.

이러한 분류기 생성 동작(315)의 바람직한 일구현예에서, 동작(310)에서 식별된 특징들의 하위집합은 "분류기"를 형성하기 위해 선택될 수 있다. 여기서 사용된 바와 같이, "분류기"라는 용어는, 일부 구현예에서 이 적용에서 다른 곳에서 논의된 것과 같은 오디오 및 비디오 입력을 포함한 입력이 제공될 때 한 이미지 내의 특정 영역이 사람 또는 화자를 포함하는지 여부에 대한 추정을 제공하는 대략적인 결과를 제공할 수 있는 엔터티를 가리킨다.

분류기들은 흔히 자동화된 프로세스를 이용하여 생성된다. 예를 들면, 일부 구현예에서 분류기는 입력을 취하고 특정 질문을 분류하거나 이에 답할 수 있는 출력을 생성하는 프로세스를 포함하는 일종의 "학습 알고리즘 (learning algorithm)"을 이용하여 생성될 수 있다. 생성된 분류기는 일반적으로 동작(310)에서 식별된 특징들의 일부 하위집합으로 구성되고, 여기서 이 하위집합에서의 특징들은 분류기에 연관된 질문에 답하는 학습 알고리즘에 의해 선택되었다. 다양한 필요에 따라, 선택된 특징들은 더 정확하게 더 효율적으로 질문에 답할 수 있다. 일부 구현예에서, 분류기의 일부인 특징들은 탐지를 위해 사용될 때 분류기의 동작을 개선하도록 이러한 방식으로 분류기에 위치할 수 있다. 예를 들면, 바람직한 특징들은, 이들의 평가가 계산적인 자원들을 비교적 덜 필요로 하거나, 이러한 특징들이 다른 특징들보다 사람이나 화자와 더 크게 상관되면, 분류기에서 더 일찍 평가되도록 주문 될 수 있다. 이러한 주문은, 분류기가 생성되는 동안 바람직한 특징들에 가중치를 줌으로써, 분류기가 생성된 후 분류기에서 특징들을 정렬함으로써, 또는 다른 수단을 통해 수행될 수 있다. 학습 알고리즘을 이용한 분류기의 생성에 관한 일부 구현예에 적용가능한 일부 특정 세부사항은 예컨대 도 7을 참조하여 이하에서 더 구체적으로 설명된다.

일단 분류기가 동작(315)에서 생성되면, 동작(320)에서 사람들 또는 화자들을 식별하기 위해 사용될 수 있다. 일반적으로, 동작(320)의 구현은 오디오 및 비디오와 같은 입력을 분류기로 공급하는데, 이것은 사람 또는 화자가 존재하는 확률을 결정하기 위해 이 입력을 이용한다. 일부 구현예에서, 하나 이상의 비디오 프레임은 입력으로서 제공될 수 있고 다양한 크기의 영역으로 논리적으로 분할될 수 있고, 그후 분류기는 이 분할된 영역 각각에 대해 평가될 수 있다. 여기 사용된 바와 같이, 각 분할된 영역은 "탐지 윈도우"로 알려질 수 있다. 각 탐지 윈도우에 대해, 탐지기는 분류기에서 몇개의 특징들을 평가할 수 있고, 궁극적으로 특정 영역이 사람 또는 화자를 포함하는지 여부에 대해 어느 정도의 확신으로 결정한다. 일부 구현예에서, 탐지 윈도우들이 사람들 또는 화자들에 대해 평가된 후, 가장 유망한, 일부 경우에, 가장 있을 법한 영역들이 사람 또는 화자를 포함하는 영역들로 식별되어 출력될 수 있다. 가장 가능성있는 영역들은 부분적으로 비교적 많은 수의 포지티브(positive) 탐지 윈도우를 갖는 영역들을 선택함으로써 식별될 수 있다. 탐지 윈도우를 포함하여, 사람들 또는 화자들을 식별하기 위한 분류기의 사용에 관한 일부 구현예에 적용가능한 일부 특정 세부사항은 예컨대 도 8 및 도 9를 참조하여 이하에서 더 구체적으로 설명된다.

도 3을 참조하여 설명된 동작들은, 동일한 구현예에서 다수의 컴퓨팅 장치의 사용을 포함하여, 다양한 서로 다른 컴퓨팅 장치 또는 플랫폼에서 구현되거나 실행될 수 있다는 것을 유의하는 것이 중요하다. 예를 들면, 특징 식별 동작(310) 및 분류기 생성 동작(315)은 하나 이상의 개인 컴퓨터 장치와 연관하여 실행될 수 있지만, 탐지를 위한 분류기 평가 동작(320)은 예컨대 분류기 생성 동작과 연관된 장치(들)과 별개의 장치에서 실행될 수 있다. 이것은 적어도 일구현예에서 도 1에 도시된 탐지 장치(165)와 같은 장치에서 포함한다. 일부 동작들은 다른 동작들보다 더 적거나 더 여러번 수행될 수 있음을 이해하는 것이 중요하다. 예를 들면, 일부 구현예에서, 적절한 분류기가 발견될 때까지 특징 식별 동작(310) 및 분류기 생성 동작(315)이 소정 횟수 실행되는 것이 보통일 수 있다. 동작(320)에 의해 예시된 바와 같이 분류기를 이용하여 탐지를 구현하는 실행 코드는 예컨대 회의실에서의 사용을 위해 적절한 카메라 장치를 포함한 다른 장치를 이용하여 구현될 수 있고, 그후 화자들에서 사람들을 실제로 탐지하기 위해 반복적으로 실행될 수 있다. 다른 구현예에서, 분류기 생성 동작(315) 및 탐지를 위한 분류기 평가 동작(320)이 동일 장치에서 구현될 수 있다. 이러한 구현예에서, 또는 다른 구현예에서, 분류기 생성 동작은 장치가 사용되는 각 새로운 방이나 영역에 대해 실행될 수 있고, 각 새로운 방이나 영역에 대한 별개의 분류기들을 생성할 수 있다.

도 4를 참조하면, 일부 구현예에서 식별되고 사용될 수 있는 일부 바람직한 특징들을 도시하는 바람직한 도면이 도시된다. 도 4는 도 5 및 도 6을 참조하여 설명된다. 그러나, 도 4를 참조하여 설명된 요소들은 상기 다른 도면을 참조하여 설명된 요소들과 함께 사용되는 것으로 한정하려는 것이 아님은 물론이다. 또한, 도 4의 바람직한 도면이 특정 요소들을 나타내지만, 일부 구현예에서는 이 요소들이 모두 존재하지 않을 수 있고, 일부 구현예에서는 추가 요소들이 존재할 수 있다.

바람직한 도면(400)은 오디오 특징(420), 비디오 특징(430), 및 다른 특징(450)을 포함할 수 있는 특징 풀(410)을 포함한다.

일반적으로, 오디오 특징은 임의 종류의 오디오 입력과 연관된 특징이다. 오디오 특징들은 오디오 신호의 진폭, 오디오 신호의 주파수 등을 포함하여 임의 갯수의 다양한 오디오 파라미터를 반영하도록 생성될 수 있다.

오디오 데이터가 SSL 우도 함수를 포함하는 환경에서, 오디오 특징들은 SSL 우도 함수와 연관된 정보 집합을 사용할 수 있다. 일부 구현예에서, SSL 우도 함수에 기초한 오디오 특징 집합은, 전체 SSL 우도 함수에 대한 전역 값들과 함께, 각 탐지 윈도우와 연관된 SSL 우도 함수로부터의 값들을 사용할 수 있다. 이 값들을 시간에서 별개의 지점에서, 예컨대 현재 시각에 (SSL 데이터가 가장 최근에 이용가능한 시각) 또는 최후의 순간에서 임의의 시각에, 사용할 수 있을 뿐만 아니라 소정의 시간 동안 모을 수 있다.

예컨대, SSL 우도 함수 전역 최대값, 전역 최소값, 및 전역 평균이 다음과 같이 계산된다고 가정하자. 즉, 전역 최대값(L^g _max)은 전체 SSL 우도 함수에 대한 SSL 우도 함수의 최대값이고, 전역 최소값(L^g _min)은 전체 SSL 우도 함수에 대한 SSL 우도 함수의 최소값이고, 전역 평균(L^g _avg)은 전체 SSL 우도 함수에 대한 SSL 우도 함수의 평균값이라고 가정하자.

또한 각 탐지 윈도우에 대해, 일부 구역 값들은 특정 탐지 윈도우에 대응하는 SSL 우도 함수의 영역을 이용하여 다음과 같이 계산된다고 가정하자 (이것은 이미지 및/또는 탐지 윈도우에 의해 사용되는 좌표공간을 SSL 우도 함수에 의해 사용되는 가능하면 도 단위의 (in degrees) 좌표공간으로 변환하는 것을 필요로 할 수 있다). 즉, 구역 최대값(L^l _max)은 탐지 윈도우에서 SSL 우도 함수의 최대값이고, 구역 최소값(L^l _min)은 탐지 윈도우에서 SSL 우도 함수의 최소값이고, 구역 평균(L^l _avg)은 탐지 윈도우에 대해 SSL 우도 함수의 평균값이고, 구역 중간 출력(L^l _mid)은 탐지 윈도우의 중간지점에서 SSL 우도 함수의 값이라고 가정하고, 예컨대, 탐지 윈도우가 10°에서 20°사이의 범위를 포함한다면, 구역 중간 출력은 각도 15°에서 SSL 우도 함수의 값으로서 계산될 수 있다. 또한 특정 탐지 윈도우의 외부의 SSL 우도 함수의 최대값인 "레스트(rest)" 최대값(L_max ^rest)의 존재를 가정하자.

이 값들이 주어지면, 다음 리스트에 있는 것들과 같은 함수들에 의해 적어도 부분적으로 정의된 오디오 특징들(420)을 가산함으로써 특징 풀(410)의 일부를 차 지할 수 있다:

(탐지 윈도우가 SSL 우도 함수의 전역 피크를 포함하는지 테스트하는 이진 특징)

오디오 특징을 생성하는 다른 수단은 이전에 설명된 것과 유사한 방식으로 SSL 우도 함수로부터의 데이터를 사용할 수 있지만, "현재" 시간으로부터 보다는 하나 이상의 "이전" 시간으로부터 이 함수로부터의 데이터를 사용할 수 있다. 예를 들면, 앞서 열거된 함수들에 의해 사용되는 데이터가 SSL 우도 함수에 의해 생성된 가장 최근 데이터인 이 함수들에 의해 부분적으로 정의된 오디오 특징들의 집합을 생성하는 것 이외에, 이 함수들에 의해 사용된 데이터가 하나 이상의 이전 시간으로부터인 추가적인 특징들이 생성될 수 있다. 예를 들면, 두번째로 가장 최근의 SSL 우도 함수값을 이용하여, 다른 때에, 아마도, 이를테면 이전의 1초의 1/60에서, 전역 최대값(L^g _max)은 전체 SSL 우도 함수에 대해 SSL 우도 함수의 최대값을 유지할 수 있다. 유사한 추가 특징이 임의 갯수의 이전 시간에 대해 생성될 수 있다. 예를 들면, 1초의 1/60 마다 새로운 SSL 우도 함수를 제공하는 환경에서, 직전의 60개의 SSL 우도 함수를 이용하는 특징들이 생성될 수 있고, 하나가 16개의 앞서 열거된 함수들 각각에 대한 특징을 생성하면, 이것은 결과적으로 960개의 SSL 오디오 특징들이 될 수 있다.

시간상 별개의 지점들에서 SSL 우도 함수의 값을 이용하는 것 이외에, 다수의 이전 SSL 우도 함수들로부터 유도된 합계값을 이용하는 일부 특징이 생성될 수 있다. 예를 들면, 일부 특징에서, 전역 최대값(L^g _max)은, SSL 우도 함수의 가장 최근 경우에 의해 제공된 SSL 우도 함수의 최대값이라기 보다는, 이를테면 이전 초에 발생한 SSL 우도 함수의 절대 최대값으로서 정의될 수 있다. 마찬가지로, 예컨대, 전역 평균값(L^g _avg)은 이전 시간 동안 모든 SSL 우도 함수에 대해 SSL 우도 함수의 평균값으로서 정의될 수 있다.

이전 SSL 우도 함수로부터의 데이터를 사용하는 것 이외에, "미래" SSL 우도 함수로부터의 데이터를 캡처하기 위해 대기함으로써 야기된 증가된 대기시간이 허용가능하다면, "미래" SSL 우도 함수로부터의 데이터를 사용하는 것이 가능할 수 있다.

이 추가 특징들 중 임의의 것 또는 모든 것은 동일한 특징 풀(410)에 추가될 수 있고 분류기를 생성하는 프로세스에서 사용될 수 있다. 적어도 부분적으로 SSL 우도 함수에 기초한 다른 특징들, 또는 다른 오디오 데이터 또는 다른 입력들로부터의 다른 데이터와 결합된 오디오 데이터에 기초한 다른 특징을 포함할 수 있다.

특징 풀(410)의 일부일 수 있는 다른 특징 집합은 비디오 특징들(420)이다. 일반적으로, 비디오 특징은 임의 종류의 비디오 입력과 연관된 임의의 특징일 수 있다. 비디오 특징은, 예컨대 아마도 계산된 단기 차이 및 장기 평균 이미지들과 같은 다른 이미지는 물론 기본 이미지를 포함하여, 이미지 내의 일부 또는 모든 픽셀들에서 일종의 수학적 연산을 할 수 있다. 비디오 이미지의 정의에 관한 일부 구현예에 적용가능한 일부 특정 세부사항은 예컨대 도 5 및 도 6을 참조하여 더 구체적으로 아래에서 설명된다.

다른 특징들(450)이 특징 풀(410)에 포함될 수 있다. 이러한 다른 특징들(450)은 분류기를 생성할 때 고려를 위해 유용하도록 식별된 임의의 추가 특징들을 포함한다. 일부 구현예에서, 다른 유형의 입력이 있는 환경에서, 이 다른 유형의 입력과 연관된 특징들은 다른 특징들의 일부일 수 있다. 예컨대, 한 이미지에서 요소들의 거리나 깊이의 측정과 같은 3차원 카메라로부터의 입력을 포함하는 환경에서, 다른 특징들은 이 추가 데이터를 다른 입력과 구별하여 또는 아마도 다른 입력과 공동으로 정량화하는 특징들을 포함할 수 있다. 동일한 또는 다른 구현예에서, 다른 특징들은 다른 입력들의 조합을 함께 사용하는 특징들을 포함할 수 있다. 예컨대, 일부 특징들은 동일한 특징(들)에서 오디오 입력 및 비디오 입력을 함께 사용할 수 있다.

입력들이 360°시계를 제공하는 구현예에서, 적어도 일부 특징들은 "감싸도록 (wrap around)", 즉, 일부 특징들이 예컨대 특정 입력들에 의해 제공된 데이터의 "시작"과 "끝"으로부터의 입력을 고려하도록 구현될 수 있다. 예컨대, 360°시계를 제공하는 오디오 입력을 포함하는 환경에서, 적어도 일부 특징들은 이를테면 방위각 355°에서 방위각 5°까지의 입력을 포함할 수 있다. 이러한 특징들은 일부 경우에 입력들에 의해 제공된 데이터의 "시작"과 "끝" 사이의 경계에 위치할 수 있는 사람들이나 화자들을 캡쳐할 수 있다.

도 5를 참조하면, 일부 바람직한 비디오 특징들이 도시된다. 도 5는 비디오 특징들이 사용될 수 있는 방식을 논의하는 도 6을 참조하여 이루어진다. 그러나, 도 5를 참조하여 설명된 요소들은 상기 다른 도면을 참조하여 설명된 요소들과 함께 사용되는 것으로 한정하려는 것이 아님은 물론이다. 또한, 도 5의 바람직한 도면이 특정 요소들을 나타내지만, 일부 구현예에서는 이 요소들이 모두 존재하지 않을 수 있고, 일부 구현예에서는 추가 요소들이 존재할 수 있다.

비디오 특징들이 특정 시간에 비디오 입력의 일부 요소를 정량화할 수 있는 임의의 엔터티를 포함할 수 있지만, 한가지 유용한 종류의 비디오 특징은 부분적으로 하나 이상의 직사각형에 의해 형성되는 것이다. 일반적으로, 하나 이상의 직사각형내의 픽셀들과 연관된 값들은 특정 직사각형 비디오 특징과 연관된 수치값을 결정하기 위해 합해지거나 그렇지 않으면 수학적으로 조작된다. 예를 들면, 각 픽셀이 온 또는 오프인 (즉, 이진수 1 또는 0) 검정 및 백색 이미지에서, 비디오 특징과 연관된 수치값은 예컨대 특정 직사각형에서 온(on) 또는 1의 값을 갖는 픽셀들의 합일 수 있다. 도 5에서, 직사각형(550) 및 직사각형(560)은 2가지 가능한 단일 직사각형 비디오 특징들을 그림으로 도시한다. 회색조(grayscale) 또는 컬러 이미지에서, 특정 픽셀들과 연관된 수치값들은 유사하게 조작될 수 있다. 예컨대, 각 픽셀과 연관된 수치값이 0부터 255까지의 범위인 회색조 이미지에서, 한 특징은 직사각형내 픽셀들에 대한 회색조 값들의 합과 연관될 수 있다. 직사각형들이 여기 도시되고 설명되었지만 비디오 특징과 연관된 영역(들)은 임의의 형태를 가질 수 있고 직사각형에 한정되는 것이 아니다.

다른 종류의 비디오 특징은 모(parent) 직사각형의 내부에 둘 이상의 하위 직사각형들을 사용할 수 있다. 직사각형(510), 직사각형(520), 직사각형(530) 및 직사각형(540)은 모두 하위 직사각형들을 사용하는 비디오 특징들의 그림 예들이다. 이러한 비디오 특징에서, 특징과 연관된 수치값은 예컨대 하위 직사각형들에서 픽셀들의 값들을 합하고 결과 합들 중 하나를 다른 합에서 뺌으로써 계산될 수 있다. 이러한 구현예에서, 하위 직사각형들의 위치 및 방향에 따라, 결과적인 수치값은 특징들이 이미지의 동일 섹션에 적용될 때에도 서로 다를 수 있다. 예를 들면, 모 직사각형(530) 내의 하위 직사각형들은 수평으로 향한 반면 모 직사각형(530)의 하위 직사각형들이 수직으로 향하고, 그리하여 이 직사각형들을 사용하는 비디오 특징들과 연관된 결과적인 수치값은 직사각형들이 한 이미지의 동일부에 적용될 때에도 서로 다를 수 있다. 일부 경우, 이런 종류의 특징은 예컨대 얼굴에서의 눈 (일반적으로 어두움)과 주위의 피부(일반적으로 어둡지 않음) 사이에 존재할 수 있는 콘트라스트를 포함한 높은 상대적 콘트라스트의 영역을 식별할 때 도움이 될 수 있다.

도 5가 2개의 하위 직사각형을 포함하는 비디오 특징들의 그림 표현을 도시하지만, 3개의 직사각형, 4개의 직사각형 등을 포함하는 비디오 특징들을 정의하는 것이 가능하다. 이러한 비디오 특징들과 연관된 수치값은 서로 다른 하위 직사각형들에서의 픽셀 카운트들 사이의 차이를 취하는 것을 포함한 다양한 방법으로 계산될 수 있다.

도 6을 참조하면, 일부 바람직한 비디오 특징들을 포함하는 전형적인 바람직한 특징 직사각형(610)이 도시된다. 도 6은 도 1, 도 4 및 도 5를 참조하여 설명 된다. 그러나, 도 6을 참조하여 설명된 요소들은 상기 다른 도면을 참조하여 설명된 요소들과 함께 사용되는 것으로 한정하려는 것이 아님은 물론이다. 또한, 도 6의 바람직한 도면이 특정 요소들을 나타내지만, 일부 구현예에서는 이 요소들이 모두 존재하지 않을 수 있고, 일부 구현예에서는 추가 요소들이 존재할 수 있다.

도 5의 도시는 일부 바람직한 비디오 특징들과 연관된 직사각형들 (그리고 일부 경우, 하위 직사각형들)을 도시하지만, 도 5의 도시는 어떻게 직사각형들 및 대응하는 비디오 특징들이 분류기를 생성 또는 평가하기 위해 사용될 수 있는지를 명시적으로 보여주지는 않는다. 특징 풀에 포함될 비디오 특징들을 식별하는 한가지 메커니즘은 도 5를 참조하여 이전에 설명된 것과 같은 것을 포함하여 다양한 형태와 연관된 다양한 특징들을 취하고, 전형적인 특징 직사각형(610)에서 이러한 형태들의 위치 및 크기를 변경하는 것이다. 전형적인 특징 직사각형, 및 그 내부의 비디오 특징의 직사각형의 위치는 탐지 프로세스의 일부로서 다양한 시각에 또는 다양한 목적을 위해 한 이미지 내의 특정 영역들에 대해 평가될 수 있다.

전형적인 특징 직사각형(610) 내에서, 비디오 특징들과 연관된 형태들의 위치 및 크기는 가변적일 수 있다. 예컨대, 도시된 대로, 특정 비디오 특징과 연관된 모 직사각형(620)은 전형적인 특징 직사각형의 좌상 코너를 점유한다. 모 직사각형(620)에 의해 도시된 특정 위치 및 크기 이외에, 모 직사각형 (및 그 하위 직사각형들)은 전형적인 특징 직사각형 내에 수평 및 수직으로 이동될 수 있고, 각 시간은 새로운 비디오 특징을 정의한다. 일부 구현예에서, 모 직사각형의 위치는 전체 전형적인 특징 직사각형이 커버되었음을 보장하도록 이러한 방식으로 여러번 변경될 수 있다. 동일한 또는 다른 구현예에서, 모 직사각형의 위치가 변경될 때, 새로운 위치는 이전에 정의된 비디오 특징의 모 직사각형과 중첩하거나 이미 정의되거나 정의될 비디오 특징들의 모 직사각형들과 중첩할 수 있다.

마찬가지로, 모 직사각형의 크기는 새로운 비디오 특징들을 정의하도록 수정될 수 있다. 예를 들면, 모 직사각형(630), 모 직사각형(640), 및 모 직사각형(650)은 모 직사각형(620)과 비교할 때 다른 크기의 사용을 보여준다. 일부 경우, 모 직사각형은 전체 전형적인 특징 직사각형을 점유할 때까지 스케일 업될 수 있다는 것을 생각할 수 있다.

일부 구현예에서, 좌우 대칭을 이용하여 특정 모 직사각형으로 비디오 특징의 존재를 모방하는 것이 유용할 수 있다. 즉, 하나의 비디오 특징이 특정 위치에서 모 직사각형과 함께 존재하는 경우, 제1 비디오 특징의 모 직사각형의 미러 이미지인 모 직사각형으로 다른 비디오 특징을 정의하는 것이 유용할 수 있다. 이것이 일어나는 한가지 바람직한 경우는 모 직사각형(630) 및 모 직사각형(640)으로 도시된다.

일부 구현예에서, 도 1을 참조하여 이전에 설명된 이미지들의 유형을 포함하여, 서로 다른 이미지들에 적용되는 다수의 비디오 특징들이 생성될 수 있다. 예컨대, 일부 비디오 특징들은 기본 이미지에 적용되도록 생성될 수 있는 반면 다른 비디오 특징들은 단기 차이 이미지에 적용되고 또다른 비디오 특징들은 장기 평균 이미지에 적용된다.

비디오 특징들과 연관된 직사각형들의 위치, 비디오 특징들과 연관된 직사각 형들의 크기, 및 비디오 특징들이 적용되는 이미지들을 포함한 다양한 요인들을 변경하고, 이 요인들의 임의의 또는 모든 조합에 대한 별개의 비디오 특징들을 생성한 후에, 도 4를 참조하여 이전에 설명된 특징 풀(410)처럼 특징 풀의 일부일 수 있는 수천개의 비디오 특징들을 가지는 것이 흔한 것일 수 있다. 일부 구현예에서, 비디오 특징들의 일부 집합은 분류기를 생성하는 프로세스 동안에 이 많은 수의 비디오 특징들로부터 선택될 수 있다.

도 5 및 도 6이 모든 가능한 비디오 특징들을 보여주는 것은 아니라는 것을 다시 유의하는 것이 중요하다. 많은 구현예에서, 비디오 특징들은 전체적으로 전체 이미지(들)을 커버할 것이다. 도 5 및 도 6에 도시된 비디오 특징들은 단지 어떻게 일부 비디오 특징들이 정의될 수 있는지 예시하기 위해 도시된다.

도 7을 참조하면, 사람 또는 화자 탐지를 위한 분류기의 생성이 달성될 수 있는 한 시스템(700)을 보여주는 바람직한 도면을 도시한다. 도 7은 도 3, 도 4 및 도 10을 참조하여 설명된다. 그러나, 도 7을 참조하여 설명된 요소들은 상기 다른 도면을 참조하여 설명된 요소들과 함께 사용되는 것으로 한정하려는 것이 아님은 물론이다. 또한, 도 7의 바람직한 도면이 특정 요소들을 나타내지만, 일부 구현예에서는 이 요소들이 모두 존재하지 않을 수 있고, 일부 구현예에서는 추가 요소들이 존재할 수 있다.

시스템(700)은 특징 풀(710), 트레이닝 입력 데이터(720), 입력 데이터용 태그(730), 학습 알고리즘(745)과 연관된 트레이닝 모듈(740), 및 분류기(755)를 포함할 수 있다.

도 3을 참조하여 설명된 동작 흐름도에서 소개된 바와 같이, 특징 풀(710)과 같은 특징 풀이 주어지면, 사람 또는 화자 탐지를 구현하기 위해 사용될 수 있는 분류기를 생성하는 것이 가능할 수 있다. 도 7에 도시된 시스템은 이러한 분류기가 생성될 수 있는 일부 메커니즘을 도시한다.

바람직한 트레이닝 모듈(740)은 분류기(755)와 같은 분류기를 생성하기 위해 특정 입력들을 사용할 수 있다. 트레이닝 모듈은 도 10을 참조하여 이하에 설명되는 바람직한 컴퓨팅 장치를 포함하여 하나 이상의 컴퓨팅 장치에서 구현될 수 있다.

일반적으로, 트레이닝 모듈은 어떤 형태의 학습 알고리즘과 연관될 수 있다. 학습 알고리즘은 분류기를 생성하는 자동화된 프로세스를 포함한다. 일부 학습 알고리즘들은 특징 풀(710), 트레이닝 입력 데이터(720), 및 입력 데이터용 태그(730)를 수용함으로써 분류기를 생성한다. 특징 풀(710)은 트레이닝 입력 데이터(720)를 포함하여 입력 데이터의 일부 요소(들)을 정량화할 수 있는 엔터티 집합일 수 있다. 일부 구현예에서, 특징 풀은 도 4 및 다른 관련 도면들을 참조하여 이전에 논의된 것들과 같은 특징들을 포함할 수 있다. 일단 생성되면, 트레이닝 입력 데이터(720)는 일반적으로 분류기에 주어질 입력 데이터와 같은 입력 데이터로 구성될 수 있다. 일부 구현예에서, 트레이닝 입력 데이터는, SSL 우도 함수가 생성될 수 있는 오디오 정보 뿐만 아니라, 기본 이미지, 단기 차이 이미지 및 장기 평균 이미지와 같은 이미지들이 검색되거나 계산될 수 있는 비디오 프레임 집합을 포함할 수 있다. 입력 데이터용 태그(730)는 일반적으로 트레이닝 입력 데이터가 주어질 때 이상적인 분류기가 생성할 "올바른" 답으로 구성될 수 있다. 예를 들면, 각 비디오 프레임 및 오디오 입력 집합에 대해, 입력 데이터용 태그는 사람들 또는 화자들이 존재하는 비디오 프레임 내의 특정 영역들을 식별할 수 있다.

특징 풀(710), 트레이닝 입력 데이터(720), 및 입력 데이터용 태그(730)가 주어지면, 트레이닝 모듈(740)은 분류기를 생성하기 위해 자신의 연관된 학습 알고리즘을 사용할 수 있다. 학습 알고리즘의 동작은 사용된 특정 학습 알고리즘에 따라 변하고, 당해 기술분야에서 일반적으로 잘 알려지고, 이 애플리케이션에서 상세히 설명될 필요가 없다. 예컨대, 학습 알고리즘이 Adaboost 알고리즘의 형태이면, 학습 알고리즘의 동작은 결과적인 분류기의 정확성이 Adaboost 알고리즘 진행에 따라 향상되도록 일련의 특징들을 선택하는 단계를 포함할 수 있다. 학습 알고리즘이 예컨대 신경망과 같은 Adaboost 알고리즘 이외의 것이라면, 학습 알고리즘의 동작은 다를 수 있다.

트레이닝 모듈(740) 및 학습 알고리즘(745)의 궁극적인 출력은 특정 영역이나 탐지 윈도우에 대해 평가될 때 특정 영역이 사람 또는 화자를 포함할 확률의 추정을 리턴하는 분류기를 포함할 수 있다. 분류기 자체는 일반적으로 트레이닝 모듈에 의해 선택된 특징들의 하위집합으로 구성될 수 있다. 선택된 특징들의 집합은 일반적으로 선택되지 않은 특징들 보다 좀더 정확하게 수행한다. 일부 경우에 특징들의 하위집합을 포함한 분류기의 요소들은 "노드들"이라 하고, 예컨대 각 선택된 특징은 분류기의 단일 노드와 연관된다.

분류기(755) 내의 다른 특징들은 탐지 동안에 평가하거나 계산할 상이한 양 의 계산 시간을 필요로 할 수 있다. 예를 들면, 일부 구현예에서 적어도 오디오 특징들과 같은 일부 특징들은 일부 구현예에서 적어도 일부 비디오 특징들과 같은 다른 특징들보다 더 빨리 평가되거나 계산될 수 있다. 평가 속도에서의 차이 때문에, 일부 구현예에서 평가하는 데 시간이 덜 필요한 특징이 더 많은 시간을 필요로 하는 특징 전에 주문되도록 생성된 분류기에서 특정 특징들을 주문하는 것이 유용할 수 있다.

분류기(755) 내 선택된 특징들 중 일부는 다른 선택된 특징들 보다 탐지 윈도우 내에서 사람 또는 화자를 식별하는 것을 비교적 더 잘할 수 있다. 예컨대, 특정 오디오 또는 비디오 특징은 일부 다른 오디오 또는 비디오 특징 보다 사람 또는 화자의 탐지와 더 크게 상관될 수 있다. 일부 구현예에서, 사람 탐지와 더 크게 상관된 특징이 비교적 덜 정확한 특징 전에 발생하도록 분류기의 특징들을 주문하는 것이 유용할 수 있다.

평가 속도, 정확도, 또는 일부 다른 특성에 관계되는지 여부에 상관없이, 특정 특징들은 다양한 메커니즘을 이용하는 다른 특징들 전에 주문될 수 있다. 일부 구현예에서, 학습 알고리즘 자체는, 특정 특징들이 결과적으로 생성된 분류기에서 더 일찍 발생하게 될 수 있는 특정 또는 바람직한 특징들을 다른 특징들보다 더 가중함으로써, 분류기를 생성할 때 평가의 속도 및 정확도를 포함한 바람직한 특성들을 고려할 수 있다. 동일한 또는 다른 구현예에서, 생성된 분류기에서의 특징들은 학습 알고리즘이 분류기를 생성한 후에 재주문 또는 정렬될 수 있다.

일반적으로, 분류기(755)를 생성하기 위해 사용되는 트레이닝 입력 데이 터(720)가 많을수록, 결과적인 분류기는 더 정확할 것이다. 그러나, 트레이닝 입력 데이터를 생성하는 것은, 예컨대 다른 것들 중에서, 시간과 노력을 필요로 하고, "올바른" 답들은 입력 데이터용 태그(730) 형태로 비디오의 각 프레임에 대해 생성될 필요가 있을 수 있다. 전체적으로 새로운 트레이닝 입력 데이터를 생성하는 것보다 비교적 덜 일을 필요로 할 수 있는 트레이닝 입력 데이터 양을 증가시키는 한가지 방법은 기존의 트레이닝 입력 데이터 및 입력 데이터용 태그의 미러 이미지를 생성하는 것이다. 예를 들면, 비디오 프레임 및 SSL 우도 함수가 주어지면, 원 비디오 프레임의 미러 이미지인 새로운 비디오 프레임을 생성할 수 있고 SSL 우도 함수 및 입력 데이터용 태그를 미러할 수 있다.

적어도 일부 구현예에서, 일부 특징들은 적어도 부분적으로 선택될 수 있어서, 많은 경우에 "잘못된 포지티브"은 다른 사람과 연관되고 사람이 아닌 개체나 엔터티와는 연관되지 않는다. 즉, 원하는 사람 또는 화자가 탐지되지 않는 경우에, 많은 경우 사람이 아닌 개체나 엔터티보다는 다른 사람이 탐지되도록 특징들이 선택될 수 있다. 예를 들면, 많은 경우에, 화자가 탐지되지 않은 경우 비화자가 탐지되도록 비디오 특징들이 선택될 수 있다.

도 8을 참조하면, 사람들이나 화자들의 탐지가 달성될 수 있는 하나의 시스템(800)을 도시하는 바람직한 도면이다. 도 8은 도 1, 도 3, 도 7, 도 9 및 도 10을 참조하여 설명된다. 그러나, 도 8을 참조하여 설명된 요소들은 상기 다른 도면을 참조하여 설명된 요소들과 함께 사용되는 것으로 한정하려는 것이 아님은 물론이다. 또한, 도 8의 바람직한 도면이 특정 요소들을 나타내지만, 일부 구현예에서 는 이 요소들이 모두 존재하지 않을 수 있고, 일부 구현예에서는 추가 요소들이 존재할 수 있다.

시스템(800)은 입력 데이터(810), 분류기(855)와 연관된 탐지 모듈(840), 및 탐지 결과(865)를 포함할 수 있다.

도 3을 참조하여 설명된 동작 흐름도에서 소개된 바와 같이, 도 7의 생성된 분류기(755)와 같은 것을 포함한 분류기(855)가 주어지면, 아마도 탐지 모듈(840)에서 구현되는 탐지기가 입력 데이터(810)를 조사하고 분류기를 이용하여 탐지 결과(865)를 생성할 수 있다. 도 8에 도시된 시스템은 이러한 분류기가 사람들이나 화자들을 탐지하기 위해 사용될 수 있는 일부 메커니즘을 도시한다. 탐지 모듈은 도 1을 참조하여 이전에 설명된 탐지 장치(165)를 포함한 하나 이상의 컴퓨팅 장치, 및 도 10을 참조하여 아래에 설명되는 바람직한 컴퓨팅 장치에서 구현될 수 있다.

입력 데이터(810)는 다양한 입력 데이터를 포함할 수 있다. 일부 구현예에서, 입력 데이터는, 일련의 비디오 프레임들을 포함하여, 일련의 기본 이미지들, 단기 차이 이미지들, 및 장기 평균 이미지들이 결정될 수 있는 예컨대 도 1을 참조하여 이전에 설명된 것과 같은 입력 데이터를 포함할 수 있다. 입력 데이터는 하나 이상의 비디오 프레임과 연관된 일련의 SSL 우도 함수와 같은 오디오 데이터를 포함할 수 있다. 입력 데이터는 예컨대 도 1을 참조하여 이전에 설명된 것을 포함하여 다른 종류의 데이터를 포함할 수 있다.

탐지 모듈(840)은 입력 비디오 데이터의 영역들이 사람이나 화자를 포함할 수 있음을 결정하기 위해 분류기(855)를 사용할 수 있다. 일부 구현예에서, 이것은 탐지 윈도우라고 하는 입력 데이터의 적어도 일부를 일련의 더 작은 영역들로 분할함으로써 달성될 수 있다. 탐지 윈도우는 도 9를 참조하여 이하에서 더 구체적으로 논위되는 일부 방법을 포함하여 다양한 방법으로 정의될 수 있다.

각 탐지 윈도우에 대해, 탐지 모듈(840)은 그 탐지 윈도우에 대한 입력 데이터에 대해 분류기(855)를 평가할 수 있다. 분류기의 평가는 일반적으로 사람 또는 화자가 특정 탐지 윈도우에 존재할 확률의 추정을 생성할 수 있다. 이 확률의 추정은 적어도 일부 구현예에서 탐지 결과들(865)의 일부일 수 있다.

일단 일부 갯수의 또는 모든 탐지 윈도우가 평가되면, 일부 구현예에서 사람들 또는 화자들을 특히 포함할 것 같은 입력 데이터의 특정 영역들을 결정하기 위해 병합 동작이 발생할 수 있다. 이것은 일부 구현예에서 사람들 또는 화자들을 포함할 확률이 높은 비교적 많은 갯수의 탐지 윈도우들을 가지는 영역들을 선택함으로써 달성될 수 있다. 이 식별된 영역들은 적어도 일부 구현예에서 탐지 결과들(865)의 일부일 수 있다.

일부 구현예에서, 분류기의 모든 요소들 또는 노드들은 특정 탐지 윈도우가 사람 또는 화자를 포함할 확률이 충분히 결정되기 전에 평가될 수 있다. 일부 구현예에서, "프루닝(pruning)"이라는 기술을 이용하여 일부 탐지 윈도우들에 대한 분류기를 평가하기 위해 필요한 시간을 줄이는 것이 가능할 수 있다.

프루닝이 사용될 때, 분류기의 평가는 분류기에서 모든 노드가 평가되기 전에 중지될 수 있다. 분류기의 평가는, 예컨대 이미 계산된 결과들이 특정 탐지 윈 도우가 사람 또는 화자를 포함하거나 하지 않음을 어느 정도의 확실성으로 제공한다는 것이 결정될 수 있으면 중지될 수 있다. 예를 들면, 분류기에서 처음 4개의 노드가 특정 결과로 평가되면 탐지 윈도우가 항상 사람을 포함한다는 것이 알려질 수 있다 (적어도 분류기를 트레인하기 위해 사용되는 데이터에 대해). 이 경우, 탐지 프로세스 동안에 분류기의 평가는 모든 노드가 평가되기 전에 중지될 수 있고, 탐지 윈도우는 사람 또는 화자를 포함하는 것으로 결정될 수 있다.

일부 구현예에서, 입력 데이터의 특정 하위영역은 사람 또는 화자 탐지에 대해 고려된 영역으로부터 배제될 수 있다. 예를 들면, 방은 일부 경우에 탐지기에 의해 사람들 또는 화자들로서 식별되지 않아야 하는 사람들 또는 화자들을 디스플레이할 수 있는 텔레비전 또는 프로젝터 스크린을 가질 수 있다. 이 바람직한 경우, 텔레비전 또는 프로젝터 스크린과 연관된 입력 데이터의 하위영역은 사람 또는 화자 탐지를 위해 고려된 영역으로부터 배제될 수 있다. 이것은 예컨대 배제될 하위영역을 포함하는 탐지 윈도우를 정의하지 않는 것을 포함하여 다양한 방식으로 달성될 수 있다.

도 9를 참조하면, 사람들 또는 화자들을 탐지하는 프로세스의 일부로서 사용될 수 있는 탐지 윈도우들의 일부 바람직한 표현들이 도시된다. 도 9는 도 6을 참조하여 설명되고 도 8에 대해 제공된 논의와 관련된다. 그러나, 도 9를 참조하여 설명된 요소들은 상기 다른 도면들을 참조하여 설명된 요소들과 함께 사용되는 것으로 한정하려는 것이 아님은 물론이다. 또한, 도 9의 바람직한 도면이 특정 요소들을 나타내지만, 일부 구현예에서는 이 요소들이 모두 존재하지 않을 수 있고, 일 부 구현예에서는 추가 요소들이 존재할 수 있다.

일부 구현예에서, 비디오 프레임 또는 비디오 프레임으로부터 도출된 이미지(들)과 같은 입력 데이터는 사람들 또는 화자들을 탐지하는 프로세스의 일부로서 사용되는 다수의 탐지 윈도우로 분할될 수 있다.

도 9에 도시된 바와 같이, 바람직한 이미지(905)는 탐지 윈도우(910), 탐지 윈도우(920), 탐지 윈도우(930), 탐지 윈도우(940), 및 탐지 윈도우(950)를 포함하는 다수의 바람직한 탐지 윈도우를 포함할 수 있다. 각 탐지 윈도우는 이미지의 일부를 점유한다. 이미지(905)에 존재할 수 있는 탐지 윈도우가 모두 도시된 것은 아님을 유의하는 것이 중요하다. 많은 구현예에서, 탐지 윈도우들은 전체적으로 전체 이미지를 커버할 것이다. 도 9에 도시된 탐지 윈도우들은 단지 어떻게 탐지 윈도우들이 정의될 수 있는지 설명하기 위해서 제공된다. 또한, 탐지 윈도우들이 직사각형들로 도시되지만, 탐지 윈도우들은 임의의 형태로 정의될 수 있다. 또한, 탐지 윈도우가 "이미지"를 참조하여 설명되지만, 탐지 윈도우들은 이전에 설명된 바와 같이 오디오 입력을 포함하여 비시각적 입력에 적용될 수 있다. 예를 들면, 오디오 입력과 연관된 SSL 우도 함수에 대한 탐지 윈도우는 SSL 우도 함수의 일부 하위집합을 포함할 수 있다.

바람직한 탐지 윈도우(910)는 이미지(905)의 좌상 코너를 점유한다. 바람직한 탐지 윈도우(920) 및 바람직한 탐지 윈도우(930)는 탐지 윈도우들이 이미지의 더 많은 영역들을 커버하도록 연장될 수 있는 한 방식을 도시한다. 도시되지는 않았지만, 화살표(960)로 표시된 방향으로 계속되는 탐지 윈도우들이 정의될 수 있 다. 이러한 탐지 윈도우들은 이미지의 전체 상부를 커버할 수 있다.

마찬가지로, 바람직한 탐지 윈도우(940)는 어떻게 탐지 윈도우들이 이미지의 추가 영역들을 커버하도록 수직으로 연장할 수 있는지 보여준다. 화살표(970)는 이미지의 전체 좌부를 커버하도록 이러한 탐지 윈도우들이 계속할 수 있는 한 방향을 도시한다.

바람직한 탐지 윈도우(920) 및 바람직한 탐지 윈도우(930) 아래에 그리고 화살표(960)로 도시된 방향으로 탐지 윈도우들이 있도록, 바람직한 탐지 윈도우(940)를 우측으로 연장함으로써, 전체 이미지(905)를 커버하도록 탐지 윈도우가 정의될 수 있는 한 방식을 도시한다.

탐지 윈도우들은 임의 각도로 중첩될 수 있다. 예컨대, 도시된 바와 같이, 탐지 윈도우(920)의 절반이 탐지 윈도우(910)와 중첩된다. 도시된 중첩 이외에, 360°시계를 나타내는 파노라마 이미지에서, 탐지 윈도우들은 이미지(905)의 끝에서 중첩될 수 있다. 예컨대, 어느 탐지 윈도우(도시되지 않음)는 이미지의 우측 및 이미지의 좌측을 점유할 수 있다.

일부 구현예에서, 다양한 크기의 탐지 윈도우들이 사용될 수 있다. 예를 들면, 탐지 윈도우(950)는 탐지 윈도우(910)보다 더 크다. 일부 구현예에서, 탐지 윈도우들은 많은 다른 크기로 사용될 수 있다. 예컨대, 일구현예에서, 10개의 서로 다른 크기의 탐지 윈도우들이 사용될 수 있다. 동일 크기의 탐지 윈도우들의 각 집합은 예컨대 탐지 윈도우(910) 및 탐지 윈도우(910)와 동일 크기인 다른 탐지 윈도우들을 참조하여 앞서 설명된 것과 동일한 프로세스를 이용하여 전체 이미 지(905)를 커버하도록 연장될 수 있다.

일부 비디오 특징은 도 6을 참조하여 이전에 논의된 바와 같이 전형적인 특징 직사각형을 사용할 수 있다. 탐지 프로세스 동안에 전형적인 특징 직사각형은 탐지 윈도우에 맞도록 스케일될 수 있고, 전형적인 특징 직사각형과 연관된 임의의 비디오 특징은 동시에 비례하여 스케일될 수 있다. 예컨대, 많은 비디오 특징들 중에서, 폭이 10개의 픽셀이고 높이가 20개의 픽셀인 크기의 직사각형을 갖는 비디오 특징을 포함하는 폭이 50개의 픽셀이고 높이가 50개의 픽셀인 크기의 바람직한 전형적인 특징 직사각형을 가정하자. 이 전형적인 특징 직사각형이 동일 크기의 탐지 윈도우와 함께 사용되면, 비디오 특징의 직사각형은 동일 크기를 유지할 수 있다. 전형적인 특징 직사각형이 4배나 큰 탐지 윈도우, 예컨대 100 픽셀 폭과 100 픽셀 높이인 크기의 탐지 윈도우와 함께 사용되면, 전형적인 특징 직사각형 및 이와 연관된 비디오 특징 직사각형은 더 큰 탐지 윈도우에 맞도록 스케일될 수 있다. 이 예에서, 비디오 특징의 직사각형은 20 픽셀 폭에 40 픽셀 높이의 크기로 스케일될 수 있다.

일부 구현예에서, 탐지기가 사용되는 공간 또는 방의 크기 및/또는 방위는 탐지 프로세스에서 사용되는 탐지 윈도우들의 크기에 영향을 미칠 수 있다. 예를 들면, 작은 방에서, 얼굴이나 상체와 같은 사람 또는 화자와 연관된 물리적 특징들은 하나 이상의 입력 장치의 시점에서 보았을 때 클 수 있고, 또는 큰 방에서 사람 또는 화자와 연관된 물리적 특징들보다 더 작은 정도로 크기가 변할 수 있다. 이것은 작은 방에서는 사람 또는 화자가 하나 이상의 입력 장치로부터 비교적 짧은 거리에 있을 수 있는 반면 (아마도 결과적으로 더 큰 얼굴로 된다), 더 큰 방에서는 사람 또는 화자가 하나 이상의 입력 장치에 가깝거나 멀 수 있기 때문에 발생할 수 있고, 그래서 연관된 물리적 특징들의 크기가 더 큰 정도로 변할 수 있다. 그 결과, 일부 구현예에서, 탐지 윈도우들은 예컨대 작은 방에서 탐지 윈도우들이 더 큰 크기로 한정되도록 그리고 아마도 비교적 작은 양만큼 크기의 범위가 정해지도록 사용될 수 있다. 이와 대조적으로, 더 큰 방에서는, 탐지 윈도우들은 물리적 특징들의 크기에 있어서 더 큰 변화를 캡처하려고 시도하도록 작은 것에서 큰 것까지 범위를 가질 수 있다.

컴퓨팅 환경예

도 10을 참조하면, 이 도면과 관련 논의는 여기 설명된 다양한 기술들이 구현될 수 있는 바람직한 컴퓨팅 환경의 간단하고 일반적인 설명을 제공하기 위한 것이다. 필요하지는 않지만, 이 기술들은 적어도 부분적으로 제어기, 프로세서, 개인 컴퓨터 또는 도 10에 설명된 컴퓨팅 장치(1000)와 같은 다른 컴퓨팅 장치에 의해 실행되는 프로그램 모듈들과 같은 컴퓨터 실행 명령들의 일반적인 컨텍스트로 여기서 설명된다.

일반적으로, 프로그램 모듈들은 특정 태스크를 수행하고 특정 정보를 디스플레이하고 또는 특정 추상 데이터형을 구현하는 루틴, 프로그램, 개체, 구성요소, 사용자 인터페이스, 데이터 구조 등을 포함한다. 이 프로그램 모듈들에 의해 수행되는 동작들은 하나 이상의 블록도 및 동작 흐름도의 도움으로 앞서 설명되었다.

당업자라면 상기 설명, 블록도 및 흐름도를 하나 이상의 컴퓨터 판독 매체의 형태로 실시될 수 있는 컴퓨터 실행 명령 형태로 구현할 수 있을 것이다. 여기 사용된 바와 같이, 컴퓨터 판독 매체는 컴퓨터에 의해 액세스되고 이해될 수 있는 형태로 인코딩된 정보를 저장하거나 실시할 수 있는 임의의 매체일 수 있다. 컴퓨터 판독 매체의 전형적인 형태는, 제한없이, 휘발성 및 비휘발성 메모리, 이동식 및/또는 고정식 매체를 포함하는 데이터 저장 장치, 및 통신 매체를 포함한다.

통신 매체는 캐리어 웨이브 또는 다른 전송 메커니즘과 같은 변조된 데이터 신호로 컴퓨터 판독 정보를 구현하고, 임의의 정보 전달 매체를 포함한다. "변조된 데이터 신호"라는 용어는 신호 내의 정보를 인코딩하는 방식으로 설정되거나 변경된 특성들의 하나 이상을 갖는 신호를 의미한다. 일예로, 이에 한정되지 않고, 통신 매체는 유선 네트워크 또는 직접 유선 접속과 같은 유선 매체, 및 음향, RF, 적외선 및 다른 무선 매체와 같은 무선 매체를 포함한다.

도 10에 도시된 컴퓨팅 장치(1000)는 가장 기본적인 구성에서 적어도 하나의 처리 유닛(1002) 및 메모리(1004)를 포함한다. 일부 구현예에서, 처리 유닛(1002)은 예컨대 데스크탑 및 랩탑 컴퓨터를 포함한 다양한 컴퓨터에 존재하는 범용 중앙처리장치(CPU)일 수 있다. 다른 구현예에서, 처리 유닛은 예컨대 도 1을 참조하여 앞서 설명된 탐지 장치(165) 같은 탐지 장치에 의해 수행되는 것들을 포함하여 디지털 신호 처리 태스크에 특별히 적합할 수 있는 DSP(digital signal processor)일 수 있다. 컴퓨팅 장치의 정확한 구성 및 종류에 따라, 메모리(1004)는 휘발성 (예컨대 RAM), 비휘발성 (예컨대 ROM, 플래시 메모리 등), 또는 이 둘의 조합일 수 있다. 이 가장 기본적인 구성은 점선(1006)으로 도 10에 도시된다. 또한, 컴퓨팅 장치(1000)는 추가적인 특징들 및 기능을 가질 수 있다. 예를 들면, 컴퓨팅 장치(1000)는 자기 또는 광 디스크 또는 테이프를 포함하는 추가 저장 장치 (이동식 및/또는 고정식)를 포함할 수 있다. 이러한 추가 저장장치는 이동식 저장장치(1008) 및 고정식 저장장치(1010)에 의해 도 10에 도시된다.

컴퓨팅 장치(1000)는 컴퓨팅 장치(1000)가 다른 장치들 및 서비스들과 통신할 수 있게 하는 하나 이상의 통신 연결부(1012)를 포함할 수 있다. 예를 들면, 컴퓨팅 장치는 예컨대 도 1을 참조하여 앞서 설명된 보조 장치(175)를 포함한 다른 컴퓨팅 장치들로의 하나 이상의 연결부를 가질 수 있다. 컴퓨팅 장치(1000)는 카메라나 스캐너, 키보드, 마우스, 펜, 마이크로폰 어레이를 포함한 음성 입력 장치, 터치 입력 장치 등과 같은 이미지 입력 장치와 같은 하나 이상의 입력 장치(1014)를 가질 수 있다. 디스플레이, 스피커, 프린터 등과 같은 하나 이상의 출력 장치(1016)는 컴퓨팅 장치(1000)에 포함될 수 있다.

당업자라면 여기 설명된 기술들이 도 10에 도시된 컴퓨팅 장치(1000)가 아닌 다른 컴퓨팅 장치들로 실시할 수 있음을 이해할 것이다. 예를 들면, 이에 한정되는 것은 아니고, 여기 설명된 기술들은 이동 전화 및 PDA와 같은 휴대 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 또는 프로그래머블 컨수머 전자기기, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터 등에서 실시될 수 있다. 이 컴퓨팅 장치 각각은 도 10의 시스템에 의해 어느 정도 구체적으로 또는 이와 달리 설명될 수 있다.

여기 설명된 기술들은 동작들이 통신 네트워크를 통해 링크된 원격 처리 장 치들에 의해 수행되는 분산형 컴퓨팅 환경에서 구현될 수 있다. 분산형 컴퓨팅 환경에서, 프로그램 모듈들은 로컬 및 원격 장치에 위치할 수 있다.

소프트웨어로 구현되는 것으로 여기 설명되었지만, 여기 설명된 기술들은 이와 달리 하드웨어, 펌웨어, 또는 소프트웨어, 하드웨어 및/또는 펌웨어의 다양한 조합으로 모두 또는 부분적으로 구현될 수 있음이 이해될 것이다.

방법들 및 시스템들의 일부 특정 구현예들이 첨부 도면에서 예시되고 상기 텍스트에서 설명되었지만, 도시되고 설명된 이 방법들 및 시스템들은 설명된 특정 구현예들에 한정되는 것이 아니라, 다음 청구범위에 설명되고 정의된 사상에서 벗어남없이 다양한 재구성, 수정 및 대체가 가능함은 물론이다.

Claims

제1 유형의 입력으로부터의 적어도 하나의 특징, 및 상기 제1 유형의 입력과는 다른 제2 유형의 입력으로부터의 적어도 하나의 특징을 포함하는 특징 풀(a pool of features)을 식별하는 단계(310); 및

학습 알고리즘(learning algorithm)을 이용하여 화자(speaker) 탐지용 분류기(classifier)를 생성하는 단계(315)를 포함하고, 상기 분류기의 노드들이 상기 특징 풀을 이용하여 선택되는 방법.
제1항에 있어서,

사람을 탐지하기 위해 상기 분류기를 평가하는 단계(320)를 더 포함하는 방법.
제2항에 있어서,

상기 제1 유형의 입력으로부터의 상기 적어도 하나의 특징 또는 상기 제2 유형의 입력으로부터의 상기 적어도 하나의 특징 중 적어도 하나는 잘못된 포지티브(positive) 결과가 상기 사람과 다른 제2 사람과 연관되도록 동작하는 방법.
제1항에 있어서,

바람직한 특징이 덜 바람직한 특징 전에 상기 분류기에 위치하도록 상기 생 성 단계(315) 후에 상기 분류기의 상기 노드들을 정렬하는 단계를 더 포함하는 방법.
제4항에 있어서,

상기 바람직한 특징은 상기 덜 바람직한 특징보다 계산을 덜 필요로 하는 방법.
제4항에 있어서,

상기 바람직한 특징은 상기 덜 바람직한 특징보다 화자 탐색과 더 크게 상관되는 방법.
제1항에 있어서,

상기 생성 단계(315)는 바람직한 특징을 덜 바람직한 특징보다 더 높게 가중치를 주어서 상기 바람직한 특징이 상기 덜 바람직한 특징 전에 상기 분류기에서 위치하게 하는 단계를 더 포함하는 방법.
제1항에 있어서,

상기 제1 유형의 입력 또는 상기 제2 유형의 입력은 오디오 입력(120)을 포함하고 상기 특징 풀은 음원 위치파악(sound source localization) 입력과 연관된 오디오 특징(420)을 포함하는 방법.
제8항에 있어서,

상기 오디오 특징(420)은 다음 함수들로부터 선택된 한 함수와 연관되는 방법.
제1항에 있어서,

상기 제1 유형의 입력 또는 상기 제2 유형의 입력은 비디오 입력(110)을 포함하고 상기 특징 풀은 직사각형으로 정의된 비디오 특징(430)을 포함하는 방법.
제1항에 있어서,

상기 학습 알고리즘(745)은 AdaBoost 알고리즘을 포함하는 방법.
제1 유형의 입력 데이터 및 상기 제1 유형의 입력 데이터와는 다른 제2 유형 의 입력 데이터를 포함하는 입력 데이터(810)를 수용하는 단계; 및

사람을 탐지하기 위해 사람 탐지 분류기(855)를 평가하는 단계를 포함하고, 상기 분류기는,

상기 제1 유형의 입력 데이터와 연관된 적어도 하나의 특징 및 상기 제2 유형의 입력 데이터와 연관된 적어도 하나의 특징을 포함하는 특징 풀을 식별하는 단계(310); 및

상기 특징 풀을 이용하여 상기 분류기의 노드들을 선택함으로써 학습 알고리즘을 이용하여 상기 분류기를 생성하는 단계에 의해 생성되는 방법.
제12항에 있어서,

상기 사람은 화자인 방법.
제12항에 있어서,

상기 분류기는, 바람직한 특징이 덜 바람직한 특징 전에 상기 분류기에서 위치하도록 상기 생성 단계 후에 상기 분류기의 상기 노드들을 정렬함으로써 더 생성되는 방법.
제14항에 있어서,

상기 바람직한 특징은 상기 덜 바람직한 특징보다 계산을 덜 필요로 하는 방법.
제14항에 있어서,

상기 바람직한 특징은 상기 덜 바람직한 특징보다 사람 탐지와 더 크게 상관되는 방법.
제12항에 있어서,

상기 생성 단계는 바람직한 특징을 덜 바람직한 특징보다 더 높게 가중치를 주어서 상기 바람직한 특징이 상기 덜 바람직한 특징 전에 상기 분류기에서 위치하게 하는 단계를 더 포함하는 방법.
비디오 데이터(140)를 생성하는 비디오 입력 장치(110);

오디오 데이터(150)를 생성하는 오디오 입력 장치(120); 및

상기 비디오 데이터 및 상기 오디오 데이터를 수신하고 사람을 탐지하기 위해 사람 탐지 분류기를 평가하도록 구성된 탐지기(170)를 포함하는 탐지 장치(165)를 포함하는 시스템으로서, 상기 분류기는,

상기 비디오 데이터와 연관된 적어도 하나의 특징 및 상기 오디오 데이터와 연관된 적어도 하나의 특징을 포함하는 특징 풀을 식별하는 단계(310); 및

상기 특징 풀을 이용하여 상기 분류기의 노드들을 선택함으로써 학습 알고리즘을 이용하여 상기 분류기를 생성하는 단계에 의해 생성된 시스템.
제18항에 있어서,

상기 비디오 데이터의 적어도 일부 및 상기 오디오 데이터의 적어도 일부를 위한 저장장치를 제공하는 보조 장치(175)를 더 포함하는 시스템.
제18항에 있어서,

상기 오디오 데이터는 음원 위치파악 데이터를 포함하고 상기 특징 풀은 다음 함수들로부터 선택된 한 함수와 연관된 오디오 특징(420)을 포함하는 시스템.