KR20160142460A

KR20160142460A - 객체 인식 장치 및 방법

Info

Publication number: KR20160142460A
Application number: KR1020150078025A
Authority: KR
Inventors: 고종국; 박경; 박종열; 황중원
Original assignee: 한국전자통신연구원
Priority date: 2015-06-02
Filing date: 2015-06-02
Publication date: 2016-12-13
Also published as: US20160358039A1

Abstract

본 발명의 일 실시예에 따른 객체 인식 장치는 대상 영상을 참조하여 복수의 레벨 영상을 생성하는 레벨 영상 생성부, 각 레벨 영상으로부터 특징 벡터를 추출하는 특징 벡터 추출부, 레벨 영상 별 특징 벡터를 클러스터링하여 코드워드를 생성하는 코드워드 생성부, 코드워드에 상응하는 히스토그램을 생성하는 히스토그램 생성부 및 히스토그램에 따라 대상 영상에 대한 객체 인식 정보를 생성하는 분류기를 포함한다.

Description

객체 인식 장치 및 방법{APPARATUS AND METHOD FOR DETECTING OBJECT}

본 발명은 영상에 포함된 객체를 인식하는 기술에 관한 것으로, 보다 상세하게는 영상으로 추출한 특징 벡터에 따른 코드워드에 따라 객체를 인식하는 기술에 관한 것이다.

객체 인식 기술은 영상에 나타난 객체가 어떤 객체인지 자동으로 인식하는 기술이다. 객체 인식 기술은 영상의 에지(edge) 특성을 분석하는 SIFT(Scale-invariant feature transform), HOG(Histogram of Oriented Gradients)와 같은 형태의 특징추출 및 학습 기술들이 이용된다.

하지만, 객체 인식의 성능이 높지 않기 때문에 영상의 객체를 타 객체로 오인하는 경우가 종종 발생하고 있다.

객체 인식의 성능을 높이기 위해서는 자세한 정보를 포함하는 텍스처 정보기반의 특징추출을 이용한 기술이 주목되고 있다.

본 발명이 해결하고자 하는 과제는 계층적 코드워드를 통해 영상의 객체를 인식하는 객체 인식 장치 및 방법을 제공하는 것이다.

본 발명의 일 측면에 따르면, 대상 영상을 참조하여 복수의 레벨 영상을 생성하는 레벨 영상 생성부; 각 상기 레벨 영상으로부터 특징 벡터를 추출하는 특징 벡터 추출부; 상기 레벨 영상 별 상기 특징 벡터를 클러스터링하여 코드워드를 생성하는 코드워드 생성부; 상기 코드워드에 상응하는 히스토그램을 생성하는 히스토그램 생성부; 및 상기 히스토그램에 따라 상기 대상 영상에 대한 객체 인식 정보를 생성하는 분류기;를 포함하는 객체 인식 장치가 제공된다.

상기 히스토그램 생성부는 상기 레벨 영상별 코드워드에 상응하는 히스토그램을 결합하여 계층 히스토그램을 생성하고, 상기 분류기는 상기 계층 히스토그램에 따라 상기 대상 영상에 대한 객체 인식 정보를 생성할 수 있다.

상기 특징 벡터 추출부는 미리 지정된 크기의 패치를 상기 레벨 영상 상에 나열하는 경우, 각 상기 패치 내에 위치하는 픽셀에 대한 특징 벡터를 추출할 수 있다.

상기 특징 벡터 추출부는 상기 패치를 미리 지정된 크기의 서브패치로 분할하고, 각 서브패치에 대한 ULBP(Uniform Local Binary Pattern)에 따른 특징 벡터를 추출할 수 있다.

상기 코드워드 생성부는 K-means 클러스터링 방식을 통해 상기 특징 벡터를 클러스터링하여 하나 이상의 클러스터로 구분하고, 상기 클러스터 별 코드워드를 생성할 수 있다.

상기 레벨 영상 생성부는 학습 영상을 참조하여 복수의 레벨 영상을 생성하고, 상기 분류기는 상기 학습 영상에 상응하는 계층 히스토그램을 참조하여 학습을 수행할 수 있다.

상기 분류기는 SVM(support vector machine)일 수 있다.

본 발명의 다른 측면에 따르면, 객체 인식 장치가 영상의 객체를 인식하는 방법에 있어서, 대상 영상을 참조하여 복수의 레벨 영상을 생성하는 단계; 각 상기 레벨 영상으로부터 특징 벡터를 추출하는 단계; 상기 레벨 영상 별 상기 특징 벡터를 클러스터링하여 코드워드를 생성하는 단계; 상기 코드워드에 상응하는 히스토그램을 생성하는 단계; 및 분류기를 통해 상기 히스토그램에 따라 상기 대상 영상에 대한 객체 인식 정보를 생성하는 단계;를 포함하는 객체 인식 방법이 제공된다.

상기 코드워드에 상응하는 히스토그램을 생성하는 단계는, 상기 레벨 영상별 코드워드에 상응하는 히스토그램을 결합하여 계층 히스토그램을 생성하는 단계이고, 분류기를 통해 상기 히스토그램에 따라 상기 대상 영상에 대한 객체 인식 정보를 생성하는 단계는 상기 계층 히스토그램에 따라 상기 대상 영상에 대한 객체 인식 정보를 생성하는 단계일 수 있다.

각 상기 레벨 영상으로부터 특징 벡터를 추출하는 단계는, 미리 지정된 크기의 패치를 상기 레벨 영상 상에 나열하는 경우, 각 상기 패치 내에 위치하는 픽셀에 대한 특징 벡터를 추출할 수 있다.

각 상기 레벨 영상으로부터 특징 벡터를 추출하는 단계는 상기 패치를 미리 지정된 크기의 서브패치로 분할하고, 각 서브패치에 대한 ULBP(Uniform Local Binary Pattern)에 따른 특징 벡터를 추출하는 단계일 수 있다.

상기 레벨 영상 별 상기 특징 벡터를 클러스터링하여 코드워드를 생성하는 단계는 K-means 클러스터링 방식을 통해 상기 특징 벡터를 클러스터링하여 하나 이상의 클러스터로 구분하고, 상기 클러스터 별 코드워드를 생성하는 단계일 수 있다.

상기 객체 인식 방법은 학습 영상을 참조하여 복수의 레벨 영상을 생성하는 단계; 및 상기 학습 영상에 상응하는 계층 히스토그램을 참조하여 학습을 수행하는 단계를 더 포함할 수 있다.

상기 분류기는 SVM(support vector machine)일 수 있다.

상술한 바와 같이 본 발명의 일 실시예에 따르면, 영상에 대한 객체 인식의 정확성을 높일 수 있다.

도 1은 본 발명의 일 실시예에 따른 객체 인식 장치를 예시한 블록도.
도 2는 본 발명의 일 실시예에 따른 객체 인식 장치가 레벨 영상 상에 패치를 위치시킨 것을 예시한 도면.
도 3은 본 발명의 일 실시예에 따른 객체 인식 장치가 패치에 상응하는 특징 벡터를 산출하는 과정을 예시한 도면.
도 4는 본 발명의 일 실시예에 따른 객체 인식 장치가 사용하는 ULBP(Uniform Local Binary Pattern)를 설명하기 위한 도면.
도 5는 본 발명의 일 실시예에 따른 객체 인식 장치가 클러스터링을 수행하는 것을 예시한 도면.
도 6은 본 발명의 일 실시예에 따른 객체 인식 장치가 계층 히스토그램을 생성하는 것을 예시한 도면.
도 7은 본 발명의 일 실시예에 따른 객체 인식 장치가 영상의 객체를 인식하는 과정을 예시한 도면.
도 8은 본 발명의 일 실시예에 따른 객체 인식 장치가 구현된 컴퓨터 시스템을 예시한 도면.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

또한, 본 명세서에서, 일 구성요소가 다른 구성요소로 신호를 “전송한다”로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되어 신호를 전송할 수 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 신호를 전송할 수도 있다고 이해되어야 할 것이다.

도 1은 본 발명의 일 실시예에 따른 객체 인식 장치를 예시한 블록도이고, 도 2는 본 발명의 일 실시예에 따른 객체 인식 장치가 레벨 영상 상에 패치를 위치시킨 것을 예시한 도면이고, 도 3은 본 발명의 일 실시예에 따른 객체 인식 장치가 패치에 상응하는 특징 벡터를 산출하는 과정을 예시한 도면이고, 도 4는 본 발명의 일 실시예에 따른 객체 인식 장치가 사용하는 ULBP(Uniform Local Binary Pattern)를 설명하기 위한 도면이고, 도 5는 본 발명의 일 실시예에 따른 객체 인식 장치가 클러스터링을 수행하는 것을 예시한 도면이고, 도 6은 본 발명의 일 실시예에 따른 객체 인식 장치가 계층 히스토그램을 생성하는 것을 예시한 도면이다.

도 1을 참조하면, 객체 인식 장치는 통신 인터페이스(110), 레벨 영상 생성부(120), 특징 벡터 추출부(130), 코드워드 생성부(140), 히스토그램 생성부(150) 및 분류기(160)를 포함한다.

통신 인터페이스(110)는 단말, 카메라, 저장 매체 등의 외부 디바이스로부터 영상을 수신한다. 이 때, 통신 인터페이스(110)는 분류기의 학습을 위한 특정 객체를 포함하는 영상(이하, 학습 영상이라 지칭)이나 객체 인식의 대상이 되는 영상(이하, 대상 영상이라 지칭)을 수신할 수 있다. 통신 인터페이스(110)는 영상을 특징 벡터 추출부(130)로 전송한다.

레벨 영상 생성부(120)는 영상의 넓이 및 높이 중 긴 값을 레벨 별 미리 지정된 길이가 되도록 영상의 크기를 조절한다. 이 때, 레벨 영상 생성부(120)는 영상의 해상도 비율(영상의 넓이 대비 높이)이 유지되도록 영상의 크기를 조절할 수 있다. 즉, 레벨 영상 생성부(120)는 도 2와 같이 영상을 각 레벨에 상응하는 크기로 조절한 복수의 영상(이하, 레벨 영상이라 지칭)을 생성할 수 있다.

특징 벡터 추출부(130)는 미리 지정된 크기(예를 들어, 20x20)인 패치(210)를 레벨별 레벨 영상 상에 나열하여 위치시키는 경우, 각 패치 내에 위치하는 픽셀에 대한 특징 벡터를 생성한다. 이 때, 특징 벡터 추출부(130)는 도 3과 같이 각 패치를 미리 지정된 크기(예를 들어, 10x10)의 서브패치로 분할하고, 각 서브패치에 대한 ULBP(Uniform Local Binary Pattern)에 따른 특징 벡터를 추출한다. 또한, 특징 벡터 추출부(130)는 각 서브패치에 대한 특징 벡터를 결합하여 해당 패치에 대한 특징 벡터를 산출한다. 또한, 특징 벡터 추출부(130)는 각 서브 패치의 중심 픽셀과 해당 중심 픽셀과 접하는 8개의 주변 픽셀을 각각 비교하여 8개의 비트를 포함하는 이진 코드를 도 3과 같이 생성하고, 생성될 수 있는 이진 코드 중 0에서 1 혹은 1에서 0으로의 변화가 2번 이하인 58개의 패턴 중 생성한 이진 코드가 해당하는 패턴을 나타내는 특징 벡터인 ULBP에 따른 특징 벡터를 생성할 수 있다. 따라서, 특징 벡터 추출부(130)는 각 서브 패치에 대한 특징 벡터(58차)를 결합하여 패치에 대한 특징 벡터(232차)를 생성할 수 있다.

코드워드 생성부(140)는 특징 벡터 추출부(130)에서 생성한 특징 벡터를 클러스터링하여 레벨 영상 별 코드워드를 생성한다. 예를 들어, 코드워드 생성부(140)는 도 5와 같이 K-means 클러스터링 방식을 통해 특징 벡터를 K(K는 1 이상의 자연수)개의 클러스터로 클러스터링할 수 있다. 코드워드 생성부(140)는 각 클러스터에 속한 특징 벡터에 상응하는 코드워드를 생성한다. 따라서, 코드워드 생성부(140)는 각 다양한 에지를 나타내는 특징 벡터에 상응하는 코드워드를 생성할 수 있다.

히스토그램 생성부(150)는 도 6과 같이 레벨 별 코드워드의 히스토그램을 결합한 계층 히스토그램을 생성한다. 이 때, 히스토그램은 각 코드워드에 상응하는 클러스터에 속하는 특징 벡터의 수를 나타내거나, 각 코드워드에 상응하는 클러스터에 속하는 특징 벡터와 해당 코드워드의 중심점 간의 거리에 상응하여 미리 설정된 가중치를 합한 값을 나타낼 수 있다.

분류기(160)는 통신 인터페이스(110)를 통해 수신한 영상이 학습 영상인 경우, 해당 계층 히스토그램에 따른 객체의 특징을 학습한다. 예를 들어, 통신 인터페이스(110)는 긍정 영상(positive image) 및 부정 영상(negative)을 포함하는 학습 영상을 수신할 수 있고, 분류기(160)는 긍정 영상 및 부정 영상에 대한 계층 히스토그램을 이용하여 학습을 수행한다.

분류기(160)는 통신 인터페이스(110)를 통해 수신한 영상이 대상 영상인 경우, 코드워드에 상응하는 객체가 이전 학습된 객체인지 여부를 나타내는 객체 인식 정보를 생성한다. 분류기(160)는 객체 인식 정보를 통신 인터페이스(110)를 통해 외부 디바이스로 출력한다.

이 때, 분류기(160)는 SVM(support vector machine) 등의 공지된 분류기일 수 있고, 분류기(160)가 학습하는 과정이나 객체 인식 정보를 생성하는 과정에 대해서는 상세한 설명을 생략하기로 한다.

도 7은 본 발명의 일 실시예에 따른 객체 인식 장치가 영상의 객체를 인식하는 과정을 예시한 도면이다. 이하 설명하는 각 과정은 객체 인식 장치를 구성하는 각 기능부를 통해 수행되는 과정이나, 발명의 간결하고 명확한 설명을 위해 각 단계의 주체를 객체 인식 장치로 통칭하도록 한다.

단계 710에서 객체 인식 장치는 외부 디바이스로부터 영상을 수신한다. 예를 들어, 통신 인터페이스(110)는 분류기의 학습을 위한 학습 영상이나 객체 인식의 대상이 되는 대상 영상을 수신할 수 있다.

단계 720에서 객체 인식 장치는 영상의 넓이 및 높이 중 긴 값을 레벨 별 미리 지정된 길이가 되도록 영상의 크기를 조절하여 복수의 레벨 영상을 생성한다.

단계 730에서 객체 인식 장치는 미리 지정된 크기(예를 들어, 20x20)인 패치를 레벨별 레벨 영상 상에서 위치시키는 경우, 각 패치 내에 위치하는 픽셀에 대한 특징 벡터를 생성한다. 예를 들어, 객체 인식 장치는 각 패치를 미리 지정된 크기(예를 들어, 10x10)의 서브패치로 분할하고, 각 서브패치에 대한 ULBP(Uniform Local Binary Pattern)에 따른 특징 벡터를 추출할 수 있다. 또한 객체 인식 장치는 각 서브 패치에 대한 특징 벡터를 결합하여 패치에 대한 특징 벡터로 결합할 수 있다.

단계 740에서 객체 인식 장치는 특징 벡터를 클러스터링하여 레벨 영상 별 코드워드를 생성한다. 예를 들어, 객체 인식 장치는 K-means 클러스터링 방식을 통해 특징 벡터를 K(K는 1 이상의 자연수)개의 클러스터로 클러스터링하고, 각 클러스터에 속한 특징 벡터에 상응하는 코드워드를 생성할 수 있다.

단계 750에서 객체 인식 장치는 레벨 별 코드워드의 히스토그램을 결합한 계층 히스토그램을 생성한다.

단계 760에서 객체 인식 장치는 단계 710에서 수신한 영상이 학습 영상인지 판단한다.

단계 760에서 영상이 학습 영상이 아닌 경우, 단계 770에서 객체 인식 장치는 학습된 분류기(160)를 통해 계층 히스토그램에 따른 영상의 객체 포함 여부를 나타내는 객체 인식 정보를 생성한다.

단계 760에서 영상이 학습 영상인 경우, 단계 780에서 객체 인식 장치는 계층 히스토그램에 따라 분류기(160)를 학습시킨다.

상술한 본 발명의 일 실시예에 따른 객체 인식 장치는 컴퓨터 시스템으로 구현될 수 있다.

도 8은 본 발명의 일 실시예에 따른 객체 인식 장치가 구현된 컴퓨터 시스템을 예시한 도면이다.

본 발명에 따른 실시예는 컴퓨터 시스템 내에, 예를 들어, 컴퓨터 판독가능 기록매체로 구현될 수 있다. 도 8에 도시된 바와 같이, 컴퓨터 시스템(800)은 하나 이상의 프로세서(810), 메모리(820), 저장부(830), 사용자 인터페이스 입력부(840) 및 사용자 인터페이스 출력부(850) 중 적어도 하나 이상의 요소를 포함할 수 있으며, 이들은 버스(860)를 통해 서로 통신할 수 있다. 또한, 컴퓨터 시스템(800)은 네트워크에 접속하기 위한 네트워크 인터페이스(870)를 또한 포함할 수 있다. 프로세서(810)는 메모리(820) 및/또는 저장소(830)에 저장된 처리 명령어를 실행시키는 CPU 또는 반도체 소자일 수 있다. 메모리(820) 및 저장부(830)는 다양한 유형의 휘발성/비휘발성 기억 매체를 포함할 수 있다. 예를 들어, 메모리는 ROM(824) 및 RAM(825)를 포함할 수 있다.

이제까지 본 발명에 대하여 그 실시 예를 중심으로 살펴보았다. 전술한 실시 예 외의 많은 실시 예들이 본 발명의 특허청구범위 내에 존재한다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예는 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

대상 영상을 참조하여 복수의 레벨 영상을 생성하는 레벨 영상 생성부;
각 상기 레벨 영상으로부터 특징 벡터를 추출하는 특징 벡터 추출부;
상기 레벨 영상 별 상기 특징 벡터를 클러스터링하여 코드워드를 생성하는 코드워드 생성부;
상기 코드워드에 상응하는 히스토그램을 생성하는 히스토그램 생성부; 및
상기 히스토그램에 따라 상기 대상 영상에 대한 객체 인식 정보를 생성하는 분류기;
를 포함하는 객체 인식 장치.
제1 항에 있어서,
상기 히스토그램 생성부는 상기 레벨 영상별 코드워드에 상응하는 히스토그램을 결합하여 계층 히스토그램을 생성하고,
상기 분류기는 상기 계층 히스토그램에 따라 상기 대상 영상에 대한 객체 인식 정보를 생성하는 것을 특징으로 하는 객체 인식 장치.
제1 항에 있어서,
상기 특징 벡터 추출부는 미리 지정된 크기의 패치를 상기 레벨 영상 상에 나열하는 경우, 각 상기 패치 내에 위치하는 픽셀에 대한 특징 벡터를 추출하는 것을 특징으로 하는 객체 인식 장치.
제3 항에 있어서,
상기 특징 벡터 추출부는 상기 패치를 미리 지정된 크기의 서브패치로 분할하고, 각 서브패치에 대한 ULBP(Uniform Local Binary Pattern)에 따른 특징 벡터를 추출하는 것을 특징으로 하는 객체 인식 장치.
제1 항에 있어서,
상기 코드워드 생성부는 K-means 클러스터링 방식을 통해 상기 특징 벡터를 클러스터링하여 하나 이상의 클러스터로 구분하고,
상기 클러스터 별 코드워드를 생성하는 것을 특징으로 하는 객체 인식 장치.
제 1 항에 있어서,
상기 레벨 영상 생성부는 학습 영상을 참조하여 복수의 레벨 영상을 생성하고,
상기 분류기는 상기 학습 영상에 상응하는 계층 히스토그램을 참조하여 학습을 수행하는 것을 특징으로 하는 객체 인식 장치.
제1 항에 있어서,
상기 분류기는 SVM(support vector machine)인 것을 특징으로 하는 객체 인식 장치.
객체 인식 장치가 영상의 객체를 인식하는 방법에 있어서,
대상 영상을 참조하여 복수의 레벨 영상을 생성하는 단계;
각 상기 레벨 영상으로부터 특징 벡터를 추출하는 단계;
상기 레벨 영상 별 상기 특징 벡터를 클러스터링하여 코드워드를 생성하는 단계;
상기 코드워드에 상응하는 히스토그램을 생성하는 단계; 및
분류기를 통해 상기 히스토그램에 따라 상기 대상 영상에 대한 객체 인식 정보를 생성하는 단계;
를 포함하는 객체 인식 방법.
제8 항에 있어서,
상기 코드워드에 상응하는 히스토그램을 생성하는 단계는, 상기 레벨 영상별 코드워드에 상응하는 히스토그램을 결합하여 계층 히스토그램을 생성하는 단계이고,
분류기를 통해 상기 히스토그램에 따라 상기 대상 영상에 대한 객체 인식 정보를 생성하는 단계는 상기 계층 히스토그램에 따라 상기 대상 영상에 대한 객체 인식 정보를 생성하는 단계인 것을 특징으로 하는 객체 인식 방법.
제8 항에 있어서,
각 상기 레벨 영상으로부터 특징 벡터를 추출하는 단계는, 미리 지정된 크기의 패치를 상기 레벨 영상 상에 나열하는 경우, 각 상기 패치 내에 위치하는 픽셀에 대한 특징 벡터를 추출하는 것을 특징으로 하는 객체 인식 방법.
제10 항에 있어서,
각 상기 레벨 영상으로부터 특징 벡터를 추출하는 단계는 상기 패치를 미리 지정된 크기의 서브패치로 분할하고, 각 서브패치에 대한 ULBP(Uniform Local Binary Pattern)에 따른 특징 벡터를 추출하는 단계인 것을 특징으로 하는 객체 인식 방법.
제8 항에 있어서,
상기 레벨 영상 별 상기 특징 벡터를 클러스터링하여 코드워드를 생성하는 단계는 K-means 클러스터링 방식을 통해 상기 특징 벡터를 클러스터링하여 하나 이상의 클러스터로 구분하고, 상기 클러스터 별 코드워드를 생성하는 단계인 것을 특징으로 하는 객체 인식 방법.
제 8 항에 있어서,
학습 영상을 참조하여 복수의 레벨 영상을 생성하는 단계; 및
상기 학습 영상에 상응하는 계층 히스토그램을 참조하여 학습을 수행하는 단계를 더 포함하는 객체 인식 방법.
제8 항에 있어서,
상기 분류기는 SVM(support vector machine)인 것을 특징으로 하는 객체 인식 방법.