KR101753894B1

KR101753894B1 - 객체 검출 방법 및 장치

Info

Publication number: KR101753894B1
Application number: KR1020140027388A
Authority: KR
Inventors: 임길택; 정윤수; 한병길; 강현우; 이수인
Original assignee: 한국전자통신연구원
Priority date: 2014-03-07
Filing date: 2014-03-07
Publication date: 2017-07-04
Also published as: KR20150105129A

Abstract

객체 검출 장치는 샘플 학습 영상을 이용하여 학습 과정을 통해서 복수의 부분영역의 방향코드별 분류 결과 정보를 각각 포함한 복수의 룩업 테이블을 생성한다. 다음, 대상 객체의 영상이 입력되면, 대상 객체의 영상으로부터 각 부분영역의 방향코드를 생성하고, 상기 각 부분영역의 방향코드에 해당하는 룩업 테이블의 분류 결과 정보로부터 상기 대상 객체를 검출한다.

Description

객체 검출 방법 및 장치{METHOD AND APPARATUS FOR DETECTING OBJECT}

본 발명은 객체 검출 방법 및 장치에 관한 것으로, 특히 입력되는 영상으로부터 얼굴, 사람, 차량, 자동차 번호판, 문자 등의 관심 객체를 검출하는 방법 및 장치에 관한 것이다.

객체를 검출하고 인식하는 방법은 객체의 색상과 외형적 특성(예를 들면, 얼굴색, 눈/코/입의 위치) 등 객체에 대한 사전 지식을 이용하는 방법과, 객체로부터 추출한 HOG(Histogram of Oriented Gradient) 등의 고차원 특징 벡터에 신경망/SVM (Support Vector Machine)/거리 등의 통계적 특성 기반의 분류기법을 적용하는 방법 등 다양한 방법이 있다.

종래의 방법 중 색상과 외형적 특성을 이용하는 방법은 객체의 색상이나 외형이 주변 환경에 따라 변경될 가능성이 큰 경우 검출률이 매우 낮아지는 등 환경에 민감한 단점이 있다. 신경망 및 통계적 특성 기반의 분류 기법을 이용하는 경우 분류기의 분류 속도에 약점이 있다. 분류 속도 측면에서 가장 실용적으로 사용되는 방법은 하아라이크, EOH(Edge Orientation Histogram) 등의 특징에 부스팅 기법을 적용하는 것이다. 하아라이크 특징과 EOH 특징은 얼굴과 같이 상대적으로 영상 특성이 두드러지는 경우는 검출에 충분한 정보를 제공하지만, 다양한 옷/걸음걸이/시점 등에 따라 현저하게 다르게 나타나는 사람 검출에는 표현력이 충분하지 않는 단점이 있다.

본 발명이 해결하려는 과제는 높은 분류율로 빠르게 객체를 검출할 수 있는 객체 검출 방법 및 장치를 제공하는 것이다.

본 발명의 한 실시 예에 따르면, 객체를 검출하는 장치가 제공된다. 객체 검출 장치는 정보 저장부, 그리고 검출부를 포함한다. 상기 정보 저장부는 샘플 학습 영상을 이용하여 학습 과정을 통해서 복수의 부분영역의 방향코드별 분류 결과 정보를 각각 포함한 복수의 룩업 테이블을 저장하고 있다. 그리고 상기 검출부는 입력되는 대상 객체의 영상으로부터 각 부분영역의 방향코드를 생성하고, 상기 각 부분영역의 방향코드에 해당하는 룩업 테이블의 분류 결과 정보로부터 상기 대상 객체의 검출 여부를 결정한다.

상기 검출부는 상기 각 부분영역을 구성하는 적어도 하나의 픽셀 각각의 기울기 벡터를 생성하는 기울기맵 생성부, 그리고 상기 각 부분영역을 구성하는 적어도 하나의 픽셀 각각의 기울기 벡터를 이용하여 상기 각 부분영역의 방향코드를 생성하는 방향코드 생성부를 포함하며, 상기 기울기 벡터는 크기 성분과 방향 성분을 포함할 수 있다.

상기 방향코드 생성부는 임계값보다 큰 크기 성분을 가지는 픽셀의 방향 코드로 해당 픽셀의 방향 성분을 토대로 0부터 N-1까지 N개의 방향 코드 중 하나의 방향 코드를 생성하고, 상기 임계값 이하의 크기 성분을 가지는 픽셀의 방향코드로 N의 방향 코드를 생성하며, 상기 N은 양의 정수일 수 있다.

상기 방향코드 생성부는 각 픽셀의 크기 성분을 방향코드로 분해하고, 상기 각 부분영역 내의 모든 픽셀에서 크기 성분을 방향코드별로 합산하고, 방향코드별로 합산된 값 중 최대값에 해당하는 방향코드를 해당 부분 영역의 방향코드로 생성할 수 있다.

상기 검출부는 방향코드 LUT 결합부를 포함할 수 있다. 상기 방향코드 LUT 결합부는 상기 각 부분영역의 방향코드에 해당하는 룩업 테이블의 분류 결과 정보에 해당 룩업 테이블의 가중치값을 각각 곱한 후 합산한 값이 0보다 크면 상기 대상 객체가 검출된 것으로 판단하고, 상기 합산한 값이 0보다 작으면 상기 대상 객체가 검출되지 않은 것으로 판단할 수 있다. 이때 상기 룩업 테이블의 가중치값은 상기 학습 과정을 통해서 결정될 수 있다.

상기 객체 검출 장치는 방향코드 LUT 학습부를 더 포함할 수 있다. 상기 방향코드 LUT 학습부는 상기 샘플 학습 영상을 이용하여 학습 과정을 통해서 상기 복수의 룩업 테이블을 생성할 수 있다.

상기 방향코드 LUT 학습부는 상기 샘플 학습 영상 각각에 대해서, 상기 각 부분영역을 구성하는 적어도 하나의 픽셀 각각의 기울기 벡터를 생성하는 기울기맵 생성부, 상기 샘플 학습 영상 각각에 대해서, 상기 각 부분영역을 구성하는 적어도 하나의 픽셀 각각의 기울기 벡터를 이용하여 상기 각 부분영역의 방향코드를 생성하는 방향코드 생성부, 그리고 상기 샘플 학습 영상을 이용하여 각 부분영역에서 방향코드별로 양성이 나타날 확률과 음성이 나타날 확률에 따라서 분류 결과 정보를 결정하는 방향코드 LUT 분류부를 포함할 수 있다.

상기 양성이 나타날 확률과 상기 음성이 나타날 확률은 각각 해당 샘플 학습 영상의 가중치값을 포함할 수 있다.

본 발명의 다른 한 실시 예에 따르면, 객체 검출 장치에서 객체를 검출하는 방법이 제공된다. 객체 검출 방법은 샘플 학습 영상을 이용하여 학습 과정을 통해서 복수의 부분영역의 방향코드별 분류 결과 정보를 각각 포함한 복수의 룩업 테이블을 생성하는 단계, 입력되는 대상 객체의 영상으로부터 각 부분영역의 방향코드를 생성하는 단계, 그리고 상기 각 부분영역의 방향코드에 해당하는 룩업 테이블의 분류 결과 정보로부터 상기 대상 객체를 검출하는 단계를 포함한다.

상기 각 부분영역의 방향코드를 생성하는 단계는 상기 각 부분영역을 구성하는 적어도 하나의 픽셀 각각에 대해 크기 성분과 방향 성분을 포함하는 기울기 벡터를 생성하는 단계, 임계값보다 큰 크기 성분을 가지는 픽셀에 대해, 해당 픽셀의 방향 성분을 토대로 0부터 N-1까지 N개의 방향 코드 중 하나의 방향 코드를 생성하는 단계, 그리고 상기 임계값 이하의 크기 성분을 가지는 픽셀의 방향코드로 N의 방향 코드를 생성하는 단계를 포함하며, 상기 N은 양의 정수일 수 있다.

상기 각 부분영역이 적어도 2개의 픽셀을 포함하며, 상기 각 부분영역의 방향코드를 생성하는 단계는 상기 각 부분영역에 대해, 각 픽셀의 크기 성분을 방향코드로 분해하는 단계, 상기 각 부분영역에 대해, 상기 각 부분영역 내의 모든 픽셀에서 크기 성분을 방향코드별로 합산하는 단계, 그리고 상기 각 부분영역에 대해, 방향코드별로 합산된 값 중 최대값에 해당하는 방향코드를 해당 부분 영역의 방향코드로 생성하는 단계를 더 포함할 수 있다.

상기 대상 객체를 검출하는 단계는 상기 각 부분영역의 방향코드에 해당하는 룩업 테이블의 분류 결과 정보에 해당 룩업 테이블의 가중치값을 각각 곱한 후 합산한 값을 계산하는 단계, 상기 합산한 값이 0보다 크면 상기 대상 객체가 검출된 것으로 판단하는 단계, 그리고상기 합산한 값이 0보다 작으면 상기 대상 객체가 검출되지 않은 것으로 판단하는 단계를 포함할 수 있다.

상기 복수의 룩업 테이블을 생성하는 단계는 상기 샘플 학습 영상 각각에 대해서, 상기 각 부분영역을 구성하는 적어도 하나의 픽셀 각각의 기울기 벡터를 생성하는 단계, 상기 샘플 학습 영상 각각에 대해서, 상기 각 부분영역을 구성하는 적어도 하나의 픽셀 각각의 기울기 벡터를 이용하여 상기 각 부분영역의 방향코드를 생성하는 단계, 그리고 상기 샘플 학습 영상을 이용하여 각 부분영역에서 방향코드별로 양성이 나타날 확률과 음성이 나타날 확률에 따라서 분류 결과 정보를 결정하는 단계를 포함할 수 있다.

본 발명의 실시 예에 의하면, 디지털 영상에 존재하는 관심 객체를 검출하거나 분류하기 위해, 다양한 환경에서 분별력이 높은 부분영역 방향코드와 샘플 가중값 기반의 룩업테이블들을 결합하는 방법을 이용함으로써 빠른 속도와 높은 분류율을 달성하는 효과가 있다.

도 1은 본 발명의 실시 예에 따른 객체 검출 장치를 나타낸 도면이다.
도 2는 도 1에 도시된 방향코드 LUT 학습부를 나타낸 도면이다.
도 3은 수평 마스크와 수직 마스크의 일 예를 나타낸 도면이다.
도 4는 입력 영상의 픽셀별 방향 코드를 생성하는 과정을 나타낸 도면이다.
도 5는 도 4에 도시된 크기 성분을 방향코드로 분해한 결과를 나타낸 도면이다.
도 6은 부분 영역의 방향코드를 생성하는 방법의 일 예를 나타낸 도면이다.
도 7은 도 1에 도시된 검출부를 나타낸 도면이다.
도 8은 본 발명의 실시 예에 따른 객체 검출 방법을 나타낸 흐름도이다.
도 9는 본 발명의 다른 실시 예에 따른 객체 검출 장치의 개략적인 도면이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 및 청구범위 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.

이제 본 발명의 실시 예에 따른 객체 검출 방법 및 장치에 대하여 도면을 참고로 하여 상세하게 설명한다.

도 1은 본 발명의 실시 예에 따른 객체 검출 장치를 나타낸 도면이다.

도 1을 참고하면, 객체 검출 장치(100)는 방향코드 룩업 테이블(Look Up Table, LUT) 학습부(110) 및 검출부(120)를 포함한다.

방향코드 LUT 학습부(110)는 샘플 학습 영상을 이용하여 학습 과정을 통해서 각 픽셀마다 각 픽셀의 방향코드별 분류 결과를 도출하고, 도출된 각 픽셀의 방향코드별 분류 결과를 각 픽셀의 LUT에 저장한다. 방향코드 LUT 학습부(110)는 적어도 하나의 픽셀을 포함하는 부분영역의 방향코드별 분류 결과를 도출할 수 있다.

검출부(120)는 검출하고자 하는 대상 객체의 영상이 입력되면, 대상 객체의 영상으로부터 각 픽셀(또는 영역)의 방향 코드를 생성하고, 각 픽셀(또는 영역)의 방향 코드에 해당하는 LUT의 분류 결과를 토대로 대상 객체를 검출한다. 대상 객체의 검출은 대상 객체의 존재 여부를 판단하는 것을 의미할 수 있다.

도 2는 도 1에 도시된 방향코드 LUT 학습부를 나타낸 도면이다.

도 2를 참고하면, 방향코드 LUT 학습부(110)는 기울기맵 생성부(111), 방향코드 생성부(112), 방향코드 LUT 분류부(114), LUT 선택부(115) 및 정보 저장부(116)를 포함한다.

기울기맵 생성부(111)는 샘플 학습 영상에서 영상을 구성하는 각 픽셀의 기울기 벡터를 생성한다. 기울기 벡터는 각 픽셀 위치에서의 크기 성분과 방향 성분으로 구성된다.

각 픽셀 위치에서의 크기 성분과 방향 성분은 수학식 1 및 수학식 2와 같이 계산될 수 있다.

수학식 1에서 G(x,y)는 픽셀(x,y)의 크기 성분을 나타내고, 수학식 2에서 θ(x,y)는 픽셀(x,y)의 방향 성분을 나타낸다.

수학식 1 및 2에서 G_x(x,y)와 G_y(x,y)는 수학식 3과 같이 픽셀(x,y)의 영상에 각각 수평 마스크와 수직 마스크를 콘볼루션하여 구해질 수 있다.

수학식 3에서 M_x는 수평(x축 방향) 마스크이고, M_y는 수직(y축 방향) 마스크이다. f(x,y)는 픽셀(x,y)의 영상이다.

또한 각 픽셀 위치에서의 기울기 벡터는 도 3의 (a) 및 (b)와 같이 마스크 또는 소벨(Sobel) 또는 로버츠(Roberts) 등의 다른 기울기 연산자를 이용하여 계산될 수도 있다.

방향코드 생성부(112)는 각 픽셀 위치에서의 기울기 벡터를 이용하여 각 픽셀의 방향코드를 생성한다. 각 픽셀의 방향코드는 수학식 4와 같이 생성될 수 있다.

즉 크기 성분이 τ보다 큰 픽셀에는 [0,360] 구간에 존재하는 방향 성분을 수학식 4와 같이 ω로 나누어 0부터 (N-1)까지 N개의 방향 코드 중 하나의 방향 코드가 생성되고, 크기 성분이 τ 이하인 픽셀에는 N의 방향 코드가 생성된다. 예를 들면, ω가 45로 설정되어 있는 경우, 크기 성분이 τ보다 큰 픽셀에는 0, 1, …, 7의 8개의 방향 코드 중 하나의 방향 코드가 생성되고, 크기 성분이 τ 이하인 픽셀에는 8의 방향 코드가 생성될 수 있다.

도 3은 수평 마스크와 수직 마스크의 일 예를 나타낸 도면이고, 도 4는 입력 영상의 픽셀별 방향 코드를 생성하는 과정을 나타낸 도면이다.

도 3의 (a)는 수평 마스크이고, (b)는 수직 마스크이다.

도 4의 (a)는 입력 영상 f(x,y)이다. 도 4의 (b)는 도 3의 (a) 및 (b)의 수평 마스크와 수직 마스크를 이용하여 수학식 1을 토대로 구해진 픽셀(x,y)의 크기 성분을 나타내고, 도 4의 (c)는 수학식 2를 토대로 구해진 픽셀(x,y)의 방향 성분을 나타낸다. 도 4의 (b)와 도 3의 (c)에 도시된 픽셀(x,y)의 크기 성분과 방향 성분을 이용하여 수학식 4를 토대로 각 픽셀의 방향코드를 생성하면 도 4의 (d)와 같이 된다.

부분 영역의 방향코드를 이용하는 경우, 방향코드 생성부(112)는 생성된 픽셀별 방향코드를 이용하여 부분 영역의 방향코드를 추출할 수 있다.

방향코드 생성부(112)는 입력 영상의 한 부분영역의 방향코드를 효율적으로 추출하기 위해서 수학식 5와 같이 기울기 벡터의 크기성분을 방향코드로 분해한다.

수학식 5에서 I()는 인디케이트 함수로서 괄호 내의 논리값이 참이면 1, 아니면 0의 값을 출력한다.

다음, 방향코드 생성부(112)는 수학식 6과 같이 방향코드별로 부분영역 내의 모든 픽셀 위치에서의 크기 성분의 합을 계산한다.

방향코드 생성부(112)는 부분영역 내의 모든 픽셀 위치에서의 크기 성분의 합으로부터 부분영역의 방향코드를 생성한다. 부분영역의 방향코드는 수학식 7과 같이 방향코드별 계산된 합[S_k(R)] 중 가장 큰 값에 해당하는 k로 생성된다.

도 5는 도 4에 도시된 크기 성분을 방향코드로 분해한 결과를 나타낸 도면이고, 도 6은 부분 영역(R)의 방향코드를 생성하는 방법의 일 예를 나타낸 도면이다.

도 5에 도시한 바와 같이, 방향코드(k)가 8인 경우, 방향코드(k=0, …, 8)별 각 픽셀 위치에서의 크기 성분[E_k(x,y)]이 계산된다.

다음 방향코드별로 부분영역(R)내의 모든 픽셀 위치에서의 크기 성분의 합을 계산하면 도 6과 같이 나타날 수 있다. 도 6에 도시한 바와 같이 k=2일 때 부분영역(R)내의 모든 픽셀 위치에서의 기울기 벡터의 크기 성분의 합이 가장 크다면, 부분영역(R)의 방향 코드는 2로 결정된다. 이때 부분영역(R)은 다양한 위치에서 정의될 수 있으며, 그 크기도 1x1, 1x2, …, 2x1, 2x2 등과 같이 다양하게 정의될 수 있다. 1x1 크기의 부분 영역은 한 픽셀을 의미할 수 있다.

방향코드 LUT 분류부(113)는 복수의 LUT를 생성한다. 각 LUT는 각 부분영역에 대응하여 생성되는데, 이때 1x1 크기의 부분영역은 한 픽셀에 대응될 수 있다. 아래에서는 설명의 편의상 픽셀을 기준으로 설명한다. 방향코드 LUT 분류부(113)는 분류 규칙에 따라서 양성(positive)과 음성(negative) 두 종류의 클래스를 구분한다. 분류 규칙은 사전 학습에 의해 파악된 통계특성, 즉 특정 방향코드가 나타났을 때 통계적으로 양성이 나타날 확률과 음성이 나타날 확률 중 어느 것이 높았는가에 따라 분류 결과 클래스를 결정하는 것이다.

방향코드 LUT 분류부(113)의 입력은 각 픽셀에서 0부터 N까지의 방향 코드 중 하나이다. 방향코드 LUT 분류부(113)는 샘플 학습 영상을 이용하여 각 픽셀에서 특정 방향코드가 나타났을 때 양성이 나타날 확률과 음성이 나타날 확률 중 어느 것이 높았는가에 따라 인식 결과 클래스를 결정한다.

각 픽셀의 LUT는 방향코드의 경우의 수(N+1)만큼의 빈으로 구성되어 있으며, 수학식 8과 같은 방법으로 LUT의 값이 결정된다. 즉 샘플 학습 영상을 모두 학습한 결과 해당 픽셀의 LUT에서 각 방향코드에 해당하는 빈의 값은 각 방향코드에서 양성이 나타날 확률이 음성이 나타날 확률보다 크면 +1이 되고, 그렇지 않으면 -1이 된다.

수학식 8에서 h(k)는 방향코드(k)에 해당하는 빈의 분류 결과를 나타낸다. L^pos는 양성 데이터에 대한 누적 빈도 테이블이고, L^neg는 음성 데이터에 대한 누적 빈도 테이블이다.

이때 방향코드는 부분 영역별로 구현될 수 있으므로, 수학식 8은 수학식 9와 같이 나타낼 수 있다.

L^pos와 L^neg는 수학식 10과 같이 구현될 수 있다.

수학식 10에서 k는 LUT에서 빈의 인덱스이며, i는 학습 샘플 데이터의 인덱스이다. N^pos는 양성 샘플 데이터들의 인덱스 집합이고, N_neg는 음성 샘플 데이터들의 인덱스 집합이다. D(i)는 학습 샘플 데이터(i)의 가중 값이다. 만약 학습 샘플 집합에 있는 모든 학습 샘플 데이터들의 가중치가 같다면(예를 들면, 모두 1), 인덱스가 k인 샘플 데이터들의 갯수가 해당 데이터의 누적 빈도 테이블에 저장된다. 이 학습 샘플 데이터의 가중치는 샘플의 중요도에 따라 변경될 수 있다. 아다부스트(AdaBoost)와 같은 부스팅 기법에서 D(i)는 LUT 선택 과정의 매 단계에서 샘플의 인식 결과에 따라 자동으로 변경된다.

방향코드 LUT 분류부(113)는 수학식 8과 같이 동작하여 각 픽셀에서의 LUT를 생성한다.

LUT 선택부(114)는 각 픽셀(또는 각 부분영역)의 LUT 중 최종 분류에 효과적인 복수의 LUT를 선택한다. LUT 선택부(114)에 의해 선택된 LUT는 정보 저장부(115)에 저장된다.

정보 저장부(115)에 저장된 LUT들은 검출부(120)에서 대상 객체의 검출에 사용된다.

정보 저장부(115)에는 학습된 부분영역의 정보, 선택된 LUT들의 가중값, 선택된 LUT의 정보 등이 저장된다. LUT의 가중값은 LUT의 신뢰도에 대응하는 것으로, LUT의 각 빈의 값을 결정할 때 오류 확률에 따라 결정될 수 있다. 예를 들어, 오류 확률이 적으면 LUT는 신뢰도가 높다는 것을 의미하므로, LUT의 가중값은 큰 값을 가질 수 있다. LUT가 4개의 빈으로 이루어지고, 학습에 의해 4개의 빈 값이 모두 +1로 결정되었다고 가정한다. 이때 4개의 빈에서 음성 데이터에 대한 누적 빈도를 합한 값과 전체 학습 데이터의 개수를 토대로 오류 확률이 결정될 수 있다.

도 7은 도 1에 도시된 검출부를 나타낸 도면이고, 도 8은 본 발명의 실시 예에 따른 객체 검출 방법을 나타낸 흐름도이다.

도 7을 참고하면, 검출부(120)는 기울기맵 생성부(121), 방향코드 생성부(122), 방향코드 LUT 결합부(123) 및 정보 저장부(124)를 포함한다.

도 8을 보면, 기울기맵 생성부(121)는 입력되는 대상 객체의 영상으로부터 영상의 각 픽셀의 기울기 벡터를 생성한다(S810).

방향코드 생성부(122)는 각 픽셀에서의 기울기 벡터를 이용하여 각 픽셀의 방향코드를 생성한다(S820). 각 픽셀의 기울기 벡터와 각 픽셀의 방향코드는 도 2를 토대로 설명한 바와 동일한 방법으로 생성되므로, 자세한 설명은 생략한다.

방향코드 LUT 결합부(123)는 정보 저장부(124)에 저장된 각 픽셀에 해당하는 LUT의 정보를 토대로, 각 픽셀의 방향코드에 해당하는 LUT의 분류 결과로부터 수학식 11과 같이 대상 객체를 검출한다(S830).

수학식 11에서, sign()는 괄호 안의 값이 0보다 작으면 -1, 0이면 0, 0보다 크면 1을 반환하는 함수로서, 결과값이 음수인지 양수인지를 판단할 때 사용이 가능하다. 결과값이 양수이면 대상 객체 검출을 나타내고, 결과값이 음수이면 대상 객체 미검출을 나타낸다. T는 대상 객체 검출에 사용되는 LUT의 개수를 나타내고, 대상 객체 검출에 사용되는 LUT는 LUT 선택부(114)에 의해 선택된다. α는 LUT의 가중값을 나타낸다. w는 LUT를 나타낸다. 부스팅 기법에서 일반적으로 사용되는 약분류기(weak classifier) 명칭 관례에 따라 수학식 8 및 수학식 9의 h를 w로 표기한 것이다.

x는 입력 영상이며, w_t(x)는 t번째 LUT로 해당 방향코드에서 +1 또는 -1을 출력한다. α_t는 t번째 LUT의 가중치이다. 이 수학식 11은 LUT들의 가중화된 다수결 규칙을 보여준다. w_t의 선택과 α_t는 방향코드 LUT 분류부(113) 및 LUT 선택부(114)에 의해 결정되며, 예를 들어 아다부스트 방법에 따를 수 있다.

정보 저장부(124)는 정보 저장부(115)에 해당한다. 즉 방향코드 LUT 학습부(110)의 학습을 통해 검출부(120)의 검출 동작에 사용될 정보들이 정보 저장부(124)에 저장된다.

이러한 대상 객체 검출 방법은 두 개의 클래스를 분류하는 문제에서 확장하여 다중 클래스 분류 문제에도 적용 가능하다. 얼굴 검출, 보행자 검출과 같이 관심 객체의 존재 여부를 판단하는 이진 분류뿐만 아니라 문자인식, 얼굴인식 등 다중 클래스 분류에도 확장하여 적용 가능하다.

이상에서 설명한 본 발명의 실시 예에 따른 객체 검출 방법 및 장치 중 적어도 일부 기능은 하드웨어로 구현되거나 하드웨어에 결합된 소프트웨어로 구현될 수 있다. 아래에서는 객체 검출 방법 및 장치가 컴퓨터 시스템에 결합된 실시 예에 대해서 도 9를 참고로 하여 상세하게 설명한다.

도 9는 본 발명의 다른 실시 예에 따른 객체 검출 장치의 개략적인 도면으로, 도 1 및 도 8을 참고하여 설명한 기울기맵 생성부(121), 방향코드 생성부(122), 방향코드 LUT 결합부(123) 및 정보 저장부(124)의 기능 중 적어도 일부를 수행하는 데 사용할 수 있는 시스템을 나타낸다.

도 9를 참고하면, 객체 검출 장치(900)는 프로세서(910), 메모리(920), 적어도 하나의 저장 장치(930), 입출력(input/output, I/O) 인터페이스(940) 및 네트워크 인터페이스(950)를 포함한다.

프로세서(910)는 중앙 처리 유닛(central processing unit, CPU)이나 기타 칩셋, 마이크로프로세서 등으로 구현될 수 있으며, 메모리(920)는 동적 랜덤 액세스 메모리(dynamic random access memory, DRAM), 램버스 DRAM(rambus DRAM, RDRAM), 동기식 DRAM(synchronous DRAM, SDRAM), 정적 RAM(static RAM, SRAM) 등의 RAM과 같은 매체로 구현될 수 있다. 저장 장치(930)는 하드 디스크(hard disk), CD-ROM(compact disk read only memory), CD-RW(CD rewritable), DVD-ROM(digital video disk ROM), DVD-RAM, DVD-RW 디스크, 블루레이(blu-ray) 디스크 등의 광학 디스크, 플래시 메모리, 다양한 형태의 RAM과 같은 영구 또는 휘발성 저장 장치로 구현될 수 있다. 또한 I/O 인터페이스(940)는 프로세서(910) 및/또는 메모리(920)가 저장 장치(930)에 접근할 수 있도록 하며, 네트워크 인터페이스(950)는 프로세서(910) 및/또는 메모리(920)가 네트워크에 접근할 수 있도록 한다.

이 경우, 프로세서(910)는 기울기맵 생성부(121), 방향코드 생성부(122) 및 방향코드 LUT 결합부(123)의 기능의 적어도 일부 기능을 구현하기 위한 프로그램 명령을 메모리(920)에 로드하여, 도 1 및 도 8을 참고로 하여 설명한 동작이 수행되도록 프로그램 명령을 실행할 수 있다. 또한 메모리(920) 또는 저장 장치(930)는 정보 저장부(124)를 저장하고 있을 수 있다. 그리고 프로그램 명령은 저장 장치(930)에 저장되어 있을 수 있으며, 또는 네트워크로 연결되어 있는 다른 시스템에 저장되어 있을 수 있다.

도 9에 도시한 프로세서(910), 메모리(920), 저장 장치(930), I/O 인터페이스(940) 및 네트워크 인터페이스(950)는 하나의 컴퓨터에 구현될 수도 있으며 또는 복수의 컴퓨터에 분산되어 구현될 수도 있다.

본 발명의 실시 예는 이상에서 설명한 장치 및/또는 방법을 통해서만 구현되는 것은 아니며, 본 발명의 실시 예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있으며, 이러한 구현은 앞서 설명한 실시 예의 기재로부터 본 발명이 속하는 기술 분야의 전문가라면 쉽게 구현할 수 있는 것이다.

이상에서 본 발명의 실시 예에 대하여 상세하게 설명하였지만 본 발명의 권리 범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리 범위에 속하는 것이다.

Claims

객체를 검출하는 장치로서,
샘플 학습 영상을 이용하여 학습 과정을 통해서 복수의 부분영역의 방향코드별 분류 결과 정보를 각각 포함한 복수의 룩업 테이블을 저장하고 있는 정보 저장부, 그리고
입력되는 대상 객체의 영상으로부터 각 부분영역의 방향코드를 생성하고, 상기 각 부분영역의 방향코드에 해당하는 룩업 테이블의 분류 결과 정보와 각 부분영역의 방향코드에 해당하는 룩업 테이블의 가중치값을 이용하여 계산된 값을 토대로 상기 대상 객체의 검출 여부를 결정하는 검출부
를 포함하는 객체 검출 장치.
제1항에서,
상기 검출부는
상기 각 부분영역을 구성하는 적어도 하나의 픽셀 각각의 기울기 벡터를 생성하는 기울기맵 생성부, 그리고
상기 각 부분영역을 구성하는 적어도 하나의 픽셀 각각의 기울기 벡터를 이용하여 상기 각 부분영역의 방향코드를 생성하는 방향코드 생성부를 포함하며,
상기 기울기 벡터는 크기 성분과 방향 성분을 포함하는 객체 검출 장치.
제2항에서,
상기 방향코드 생성부는 임계값보다 큰 크기 성분을 가지는 픽셀의 방향 코드로 해당 픽셀의 방향 성분을 토대로 0부터 N-1까지 N개의 방향 코드 중 하나의 방향 코드를 생성하고, 상기 임계값 이하의 크기 성분을 가지는 픽셀의 방향코드로 N의 방향 코드를 생성하며,
상기 N은 양의 정수인 객체 검출 장치.
제3항에서,
상기 방향코드 생성부는 각 픽셀의 크기 성분을 방향코드로 분해하고, 상기 각 부분영역 내의 모든 픽셀에서 크기 성분을 방향코드별로 합산하고, 방향코드별로 합산된 값 중 최대값에 해당하는 방향코드를 해당 부분 영역의 방향코드로 생성하는 객체 검출 장치.
제1항에서,
상기 검출부는 상기 각 부분영역의 방향코드에 해당하는 룩업 테이블의 분류 결과 정보에 해당 룩업 테이블의 가중치값을 각각 곱한 후 합산한 값이 0보다 크면 상기 대상 객체가 검출된 것으로 판단하고, 상기 합산한 값이 0보다 작으면 상기 대상 객체가 검출되지 않은 것으로 판단하는 방향코드 LUT 결합부를 포함하는 객체 검출 장치.
제5항에서,
상기 룩업 테이블의 가중치값은 상기 학습 과정을 통해서 결정되는 객체 검출 장치.
제1항에서,
상기 샘플 학습 영상을 이용하여 학습 과정을 통해서 상기 복수의 룩업 테이블을 생성하는 방향코드 LUT 학습부
를 더 포함하는 객체 검출 장치.
제7항에서,
상기 방향코드 LUT 학습부는
상기 샘플 학습 영상 각각에 대해서, 상기 각 부분영역을 구성하는 적어도 하나의 픽셀 각각의 기울기 벡터를 생성하는 기울기맵 생성부,
상기 샘플 학습 영상 각각에 대해서, 상기 각 부분영역을 구성하는 적어도 하나의 픽셀 각각의 기울기 벡터를 이용하여 상기 각 부분영역의 방향코드를 생성하는 방향코드 생성부, 그리고
상기 샘플 학습 영상을 이용하여 각 부분영역에서 방향코드별로 양성이 나타날 확률과 음성이 나타날 확률에 따라서 분류 결과 정보를 결정하는 방향코드 LUT 분류부를 포함하는 객체 검출 장치.
제8항에서,
상기 양성이 나타날 확률과 상기 음성이 나타날 확률은 각각 해당 샘플 학습 영상의 가중치값을 포함하는 객체 검출 장치.
객체 검출 장치에서 객체를 검출하는 방법으로서,
샘플 학습 영상을 이용하여 학습 과정을 통해서 복수의 부분영역의 방향코드별 분류 결과 정보를 각각 포함한 복수의 룩업 테이블을 생성하는 단계,
입력되는 대상 객체의 영상으로부터 각 부분영역의 방향코드를 생성하는 단계, 그리고
상기 각 부분영역의 방향코드에 해당하는 룩업 테이블의 분류 결과 정보와 상기 각 부분영역의 방향코드에 해당하는 룩업 테이블의 가중치값을 이용하여 계산된 값을 토대로 상기 대상 객체를 검출하는 단계
를 포함하는 객체 검출 방법.
제10항에서,
상기 각 부분영역의 방향코드를 생성하는 단계는
상기 각 부분영역을 구성하는 적어도 하나의 픽셀 각각에 대해 크기 성분과 방향 성분을 포함하는 기울기 벡터를 생성하는 단계,
임계값보다 큰 크기 성분을 가지는 픽셀에 대해, 해당 픽셀의 방향 성분을 토대로 0부터 N-1까지 N개의 방향 코드 중 하나의 방향 코드를 생성하는 단계, 그리고
상기 임계값 이하의 크기 성분을 가지는 픽셀의 방향코드로 N의 방향 코드를 생성하는 단계를 포함하며,
상기 N은 양의 정수인 객체 검출 방법.
제11항에서,
상기 각 부분영역이 적어도 2개의 픽셀을 포함하며,
상기 각 부분영역의 방향코드를 생성하는 단계는
상기 각 부분영역에 대해, 각 픽셀의 크기 성분을 방향코드로 분해하는 단계,
상기 각 부분영역에 대해, 상기 각 부분영역 내의 모든 픽셀에서 크기 성분을 방향코드별로 합산하는 단계, 그리고
상기 각 부분영역에 대해, 방향코드별로 합산된 값 중 최대값에 해당하는 방향코드를 해당 부분 영역의 방향코드로 생성하는 단계를 더 포함하는 객체 검출 방법.
제10항에서,
상기 대상 객체를 검출하는 단계는
상기 각 부분영역의 방향코드에 해당하는 룩업 테이블의 분류 결과 정보에 해당 룩업 테이블의 가중치값을 각각 곱한 후 합산한 값을 계산하는 단계,
상기 합산한 값이 0보다 크면 상기 대상 객체가 검출된 것으로 판단하는 단계, 그리고
상기 합산한 값이 0보다 작으면 상기 대상 객체가 검출되지 않은 것으로 판단하는 단계를 포함하는 객체 검출 방법.
제10항에서,
상기 복수의 룩업 테이블을 생성하는 단계는
상기 샘플 학습 영상 각각에 대해서, 상기 각 부분영역을 구성하는 적어도 하나의 픽셀 각각의 기울기 벡터를 생성하는 단계,
상기 샘플 학습 영상 각각에 대해서, 상기 각 부분영역을 구성하는 적어도 하나의 픽셀 각각의 기울기 벡터를 이용하여 상기 각 부분영역의 방향코드를 생성하는 단계, 그리고
상기 샘플 학습 영상을 이용하여 각 부분영역에서 방향코드별로 양성이 나타날 확률과 음성이 나타날 확률에 따라서 분류 결과 정보를 결정하는 단계를 포함하는 객체 검출 방법.
제14항에서,
상기 양성이 나타날 확률과 상기 음성이 나타날 확률은 각각 해당 샘플 학습 영상의 가중치값을 포함하는 객체 검출 방법.