WO2015182904A1

WO2015182904A1 - 관심객체 검출을 위한 관심영역 학습장치 및 방법

Info

Publication number: WO2015182904A1
Application number: PCT/KR2015/004808
Authority: WO
Inventors: 이희열; 고병철; 배경훈; 남재열; 곽준영; 정미라; 김봉모
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2014-05-26
Filing date: 2015-05-13
Publication date: 2015-12-03
Also published as: KR20150136225A; KR102199094B1

Abstract

관심객체 검출을 위한 관심영역 학습장치 및 방법을 개시한다. 영상 프레임을 기 설정된 사이즈별로 변환한 리사이징 이미지 각각에 단위 윈도우를 슬라이딩하여 검출된 관심객체에 근거하여 리사이징하는 특정 사이즈 및 관심객체를 검출하는 관심영역에 대한 검출 이벤트룰을 설정하는 관심객체 검출을 위한 관심영역 학습장치 및 방법에 관한 것이다.

Description

관심객체 검출을 위한 관심영역 학습장치 및 방법

본 실시예는 관심객체 검출을 위한 관심영역 학습장치 및 방법에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

일반적인 객체 검출기술은 객체의 전체 영역을 특정 패턴으로 모델링하여 영상으로부터 동일한 패턴을 갖는 영역을 객체영역으로 검출하는 방법이 많이 사용되고 있다. 하지만 이러한 기술은 객체가 영상의 어떠한 부분에 존재하는지 모르기 때문에 영상 전체를 스캐닝해야 한다. 또한, 객체의 크기는 카메라의 위치에 따라 상이하기 때문에 영상의 특정부분을 확인할 때도 다양한 크기의 영역을 체크해야 함으로 계산상의 효율이 떨어지는 문제점이 있다. 이러한 문제점으로 인해 빠른 객체검출 또는 실시간 객체검출에 대한 영상 보안분야에서는 사용할 수 없다.

따라서, 일반적인 객체 검출기술은 계산상의 비효율을 최소화하기 위해 영상 스케일링을 통한 피라미드식 접근 방식을 이용하여 영상을 다양한 크기로 변환하는 방식이 존재하지만, 이러한 방식에서는 정확한 객체의 크기를 검출할 수 없고, 다양한 크기의 영상으로 변환하는 동작에 대해 처리시간이 오래 걸리는 문제점이 있다.

본 실시예는 영상 프레임을 기 설정된 사이즈별로 변환한 리사이징 이미지 각각에 단위 윈도우를 슬라이딩하여 검출된 관심객체에 근거하여 리사이징하는 특정 사이즈 및 관심객체를 검출하는 관심영역에 대한 검출 이벤트룰을 설정하는 관심객체 검출을 위한 관심영역 학습장치 및 방법을 제공하는 데 주된 목적이 있다.

본 실시예의 일 측면에 의하면, 영상 촬영모듈로부터 영상 프레임을 획득하는 획득과정; 상기 영상 프레임을 기 설정된 사이즈별로 변환하여 복수의 리사이징 이미지를 생성하는 변환과정; 상기 복수의 리사이징 이미지 각각에 단위 윈도우를 슬라이딩하여, 상기 단위 윈도우에 해당하는 이미지 영역에서 관심객체를 검출한 검출 결과정보를 생성하는 검출과정; 상기 복수의 리사이징 이미지 각각에 대응하는 윈도우 맵마다 상기 검출 결과정보에 대응하는 영역에 대해 보팅(Voting)하는 보팅과정; 및 상기 보팅에 대한 결과를 기초로 상기 복수의 리사이징 이미지 중 특정 사이즈를 갖는 적어도 하나의 객체검출 이미지를 선별하고, 상기 객체검출 이미지 각각에 관심영역(ROI: Region of Interest)을 설정하는 관심영역 설정과정을 포함하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법을 제공한다.

또한, 본 실시예의 다른 측면에 의하면, 영상 촬영모듈로부터 영상 프레임을 획득하는 영상 획득부; 상기 영상 프레임을 기 설정된 사이즈별로 변환하여 복수의 리사이징 이미지를 생성하는 이미지 변환부; 상기 복수의 리사이징 이미지 각각에 단위 윈도우를 슬라이딩하여, 상기 단위 윈도우에 해당하는 이미지 영역에서 관심객체를 검출한 검출 결과정보를 생성하는 객체 검출부; 상기 복수의 리사이징 이미지 각각에 대응하는 윈도우 맵마다 상기 검출 결과정보에 대응하는 영역에 대해 보팅하고, 상기 보팅에 대한 결과를 기초로 상기 복수의 리사이징 이미지 중 특정 사이즈를 갖는 객체검출 이미지를 선별하고, 상기 객체검출 이미지 각각에 관심영역을 설정하는 이벤트룰 설정부를 포함하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습장치를 제공한다.

이상에서 설명한 바와 같이 본 실시예에 의하면, 관심영역 학습장치는 검출 이벤트룰을 설정함으로써, 객체검출을 위해 리사이징 이미지의 전체 영역을 스캐닝할 필요가 없어 계산상의 효율을 높일 수 있는 효과가 있다.

관심영역 학습장치는 영상을 스캐닝하는 계산상의 과정을 단축할 수 있으므로 실시간과 같이 빠르게 객체 검출을 요하는 작업을 수행할 수 있는 효과가 있다. 다시 말해, 실시간 처리가 중요한 영상 보안 분야에서 이동하는 객체를 검출하는 기술의 효율을 증가시킬 수 있는 효과가 있다.

관심영역 학습장치는 이동하는 객체뿐만 아니라, 기 설정된 특정 객체에 대한 검출에도 적용하여 처리시간의 효율을 증가시킬 수 있는 효과가 있다.

도 1은 본 실시예에 따른 관심객체 검출을 위한 관심객체 검출 시스템을 개략적으로 나타낸 블록 구성도이다.

도 2는 본 실시예에 따른 관심객체 검출을 위한 관심영역을 학습하는 방법을 나타낸 순서도이다.

도 3은 본 실시예에 따른 관심객체 검출을 위한 관심영역을 학습하는 동작을 나타낸 예시도이다.

도 4는 본 실시예에 따른 관심영역 학습장치에서 관심영역을 설정하는 동작을 설명하기 위한 예시도이다.

도 5는 본 실시예에 따른 관심영역 학습장치에서 설정된 관심영역을 나타낸 예시도이다.

이하, 본 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

본 실시예에 따른 관심객체 검출 시스템은 영상 촬영장치(110) 및 관심영역 학습장치(120)를 포함한다. 도 1에 도시된 관심객체 검출 시스템은 일 실시예에 따른 것으로서, 영상 촬영장치(110) 및 관심영역 학습장치(120)는 하나의 장치로 구현될 수 있다.

본 실시예에 따른 관심영역 학습장치(120)는 영상 획득부(130), 이미지 변환부(140), 객체 검출부(150) 및 이벤트룰 설정부(160)를 포함한다. 관심영역 학습장치(120)에 포함된 구성요소는 일 실시예에 따른 것으로서, 모든 블록이 필수 구성요소는 아니며, 다른 실시예에서 관심영역 학습장치(120)에 포함된 일부 블록이 추가, 변경 또는 삭제될 수 있다.

영상 촬영장치(110)는 영상을 촬영할 수 있는 장치를 말하며, 본 실시예에 따른 영상 촬영장치(110)는 촬영된 촬영영상에 대한 영상프레임을 관심영역 학습장치(120)로 전송할 수 있고, 관심 영역, 관심 객체 및 이벤트 등을 검출하기 위한 영상을 촬영할 수 있는 CCTV용 카메라, 감시 카메라 등으로 구현될 수 있다. 이러한 영상 촬영장치(110)는 복수 개의 카메라로 구현될 수도 있다.

관심영역 학습장치(120)는 영상 프레임을 기 설정된 사이즈별로 변환하여 복수의 리사이징 이미지를 생성한다. 관심영역 학습장치(120)는 복수의 리사이징 이미지 각각에 단위 윈도우를 슬라이딩하여, 단위 윈도우에 해당하는 이미지 영역에서 검출된 관심객체에 대해 보팅(Voting)하여 특정 사이즈 및 관심영역에 대한 검출 이벤트룰을 설정한다. 관심영역 학습장치(120)는 검출 이벤트룰이 기 설정되어 있는 경우, 검출 이벤트룰에 근거하여 특정 사이즈로 변환된 리사이징 이미지에 대한 관심영역에서만 관심객체를 검출한다. 이하, 관심영역 학습장치(120)에 포함된 구성요소에 대해 설명하도록 한다.

영상 획득부(130)는 영상 촬영장치(110)로부터 영상 프레임을 획득한다. 본 실시예에 따른 영상 획득부(130)는 획득한 영상 프레임을 이미지 변환부(140)로 전송하여 영상 프레임의 크기가 가변되도록 한다. 여기서, 영상 프레임은 영상 촬영장치(110)에서 촬영된 촬영영상에 대한 프레임을 의미한다.

영상 획득부(130)는 영상 촬영장치(110)로부터 영상 프레임을 실시간으로 수신할 수 있으나 반드시 이에 한정되는 것은 아니며, 영상 촬영장치(110)에서 기 촬영되어 저장된 영상에 대한 영상 프레임을 획득할 수도 있다.

이미지 변환부(140)는 영상 프레임을 기 설정된 사이즈별로 변환하여 복수의 리사이징 이미지를 생성한다.

이하, 기 설정된 검출 이벤트룰이 존재하지 않는 경우, 이미지 변환부(140)의 동작을 설명하도록 한다.

이미지 변환부(140)는 영상 프레임을 원본 사이즈를 기준으로 확대 또는 축소하여 복수의 리사이징 이미지를 생성한다. 이미지 변환부(140)는 일정한 영상크기의 차이를 갖도록 영상 프레임의 사이즈를 리사이징(Resizing)하여 복수의 리사이징 이미지를 생성한다. 이미지 변환부(140)는 일정한 영상크기의 차이가 작을수록 객체 검출부(150)에서 정확하게 관심객체가 검출되도록 한다.

예를 들어, 이미지 변환부(140)는 영상 프레임을 0.3 배 내지 2.0 배로 리사이징하여 복수의 리사이징 이미지를 생성한다. 다시 말해, 이미지 변환부(140)는 0.3 배로 축소한 최소 리사이징 이미지와 2.0 배로 확대한 최대 리사이징 이미지 사이에 0.1 배의 영상크기 차이마다 리사이징하여 총 18 장의 리사이징 이미지를 생성한다.

이하, 기 설정된 검출 이벤트룰이 존재하는 경우, 이미지 변환부(140)의 동작을 설명하도록 한다.

이미지 변환부(140)는 영상 프레임을 기 설정된 검출 이벤트룰에 대응하는 특정 사이즈별로 변환한 리사이징 이미지를 생성한다. 여기서, 검출 이벤트룰은 이벤트룰 설정부(160)에서 설정된 규칙정보로서, 관심객체를 검출하기 위한 특정 사이즈에 대한 정보 및 특정 사이즈에 대응하는 관심영역에 대한 정보를 포함한다. 이미지 변환부(140)는 기 설정된 특정 사이즈의 개수에 대응하는 개수로 리사이징 이미지를 생성한다.

이미지 변환부(140)는 검출 이벤트룰에 포함된 특정 사이즈 각각에 대해 리사이징한 리사이징 이미지를 생성하여 객체 검출부(150)로 전송한다. 예컨대, 0.4 배, 0.6 배, 1.0 배, 1.4 배 및 1.8 배의 특정 사이즈 정보를 포함하는 검출 이벤트룰이 존재하는 경우, 이미지 변환부(140)는 0.2 배, 0.6 배, 1.0 배, 1.4 배 및 1.8 배 각각의 사이즈로 리사이징한 총 5 장의 리사이징 이미지를 생성하여 객체 검출부(150)로 전송한다.

객체 검출부(150)는 리사이징 이미지의 전체 또는 일부 영역에 기 설정된 단위 윈도우를 슬라이딩하여, 단위 윈도우에 해당하는 이미지 영역에서 관심객체를 검출한 검출 결과정보를 생성한다. 여기서, 검출 결과정보는 검출된 관심객체에 대한 정보로서, 관심객체가 표시된 영상 프레임의 형태일 수 있으나 반드시 이에 한정되는 것은 아니며, 관심객체에 대한 좌표정보와 같은 형태로 생성될 수도 있다.

이하, 기 설정된 검출 이벤트룰이 존재하지 않는 경우, 객체 검출부(150)의 동작을 설명하도록 한다.

객체 검출부(150)는 복수의 리사이징 이미지 각각에 단위 윈도우를 슬라이딩하여, 단위 윈도우에 해당하는 이미지 영역에서 관심객체를 검출한 검출 결과정보를 생성한다.

객체 검출부(150)는 리사이징 이미지 전체영역에 단위 윈도우를 기 설정된 경로(예: 일측에서 타측)에 따라 슬라이딩하는 슬라이딩 윈도우(Sliding Window) 방식을 이용하여, 단위 윈도우에 해당하는 이미지 영역에서 관심객체를 검출한다. 객체 검출부(150)는 검출된 관심객체에 대한 검출 결과정보를 이벤트룰 설정부(160)로 전송하여 검출 이벤트룰이 설정되도록 한다.

객체 검출부(150)는 리사이징 이미지에 슬라이딩된 단위 윈도우에 해당하는 이미지 영역에 대한 밝기 차이를 이용하여 특징벡터 화소값을 산출하고, 특징벡터 화소값과 기 설정된 기준 화소값을 비교하여 검출 결과정보를 생성한다. 여기서, 단위 윈도우는 Haar-Like Feature 방식에서 관심객체를 산출하기 위해 기 설정된 복수 개의 필터와 동일한 크기로 구현될 수 있으나 반드시 이에 한정되는 것은 아니다.

객체 검출부(150)는 원본 크기의 원본 프레임을 기준으로 축소된 리사이징 이미지에서는 주로 아래쪽 영역에서 관심객체가 많이 검출되고, 원본 크기의 원본 프레임을 기준으로 확대된 리사이징 이미지에서는 주로 위쪽 영역에서 관심객체가 많이 검출된다. 그 이유는 관심객체의 검출을 위한 단위 윈도우가 고정이기 때문이다. 다시 말해, 영상 프레임의 위쪽 영역에는 원근법으로 인해 사람이 작게 표시되기 때문에 확대된 리사이징 이미지에서는 단위 윈도우에 해당하는 이미지 영역에서 객체가 검출될 확률이 높다. 반대로, 영상 프레임의 아래쪽 영역에는 원근법으로 인해 사람이 크게 표시되기 때문에 축소된 리사이징 이미지에서는 단위 윈도우에 해당하는 이미지 영역에서 객체가 검출될 확률이 높다.

객체 검출부(150)는 단위 윈도우에 해당하는 이미지 영역에서 관심객체를 검출하는데 있어서, Haar-Like Feature 방식을 이용하는 것이 바람직하나 반드시 이에 한정되는 것은 아니며, 관심객체의 검출 정확도보다는 검출 속도를 빠르게 할 수 있는 방식이라면, HOG(Histogram of oriented Gradient), CS-LBP(Center-Symmetric Local Binary Pattern) 및 Gabor Filter Response 등과 같은 그 어떤 방식이라도 적용 가능하다.

이하, 기 설정된 검출 이벤트룰이 존재하는 경우, 객체 검출부(150)의 동작을 설명하도록 한다.

객체 검출부(150)는 특정 사이즈별로 변환된 리사이징 이미지를 획득하고, 검출 이벤트룰에 근거하여 각각의 리사이징 이미지에 기 설정된 관심영역 내에서 단위 윈도우를 슬라이딩하여 단위 윈도우에 해당하는 이미지 영역에서 관심객체를 검출한 검출 결과정보를 생성한다. 여기서, 검출 이벤트룰은 이벤트룰 설정부(160)에서 설정된 규칙정보로서, 관심객체를 검출하기 위한 특정 사이즈에 대한 정보 및 특정 사이즈에 대응하는 관심영역에 대한 정보를 포함한다.

객체 검출부(150)는 기 설정된 검출 이벤트룰에 근거하여 관심영역 내에서만 단위 윈도우를 슬라이딩하여 단위 윈도우에 해당하는 이미지 영역에서 관심객체를 생성함으로써, 관심객체의 검색 속도를 증가시킬 수 있다. 객체 검출부(150)는 관심영역 내에서 검출된 관심객체에 대한 검출 결과정보를 구비된 디스플레이부(미도시)를 이용하여 출력하거나 외부 장치로 전송한다. 객체 검출부(150)는 외부 장치로 검출 결과정보를 전송하여 출력되도록 하거나, 검출 결과정보를 기초로 추가 검출이 수행되도록 할 수 있다.

이벤트룰 설정부(160)는 검출 이벤트룰을 설정하며, 보팅부(162) 및 관심영역 설정부(164)를 포함한다.

보팅부(162)는 리사이징 이미지 각각에 대응하는 윈도우 맵마다 검출 결과정보에 대응하는 영역에 대해 보팅(Voting)한다.

본 실시예에 따른 보팅부(162)는 리사이징 이미지 각각에 대응하는 윈도우 맵을 생성하고, 검출 결과정보에 대응하는 영역에 대해 생성된 윈도우 맵에 보팅(Voting)한다.

보팅부(162)는 검출 결과정보를 기초로 관심객체가 검출된 위치값을 확인하고, 위치값에 대응하는 윈도우 맵의 함수값에 소정의 가중치값을 증가시켜 보팅한다. 여기서, 보팅부(162)는 관심객체가 검출된 단위 윈도우에 해당하는 이미지 영역의 중심 위치값에 대응하는 윈도우 맵에 보팅할 수 있으나 반드시 이에 한정되는 것은 아니며, 관심객체가 검출된 단위 윈도우에 해당하는 이미지 영역의 전체영역에 대응하는 윈도우 맵에 보팅할 수도 있다.

보팅부(162)는 보팅 결과에 대한 정확도를 높이기 위해 기 설정된 영상 프레임의 개수에 도달할 때까지 윈도우 맵에 보팅하는 동작을 반복한다. 다시 말해, 보팅부(160)는 기 설정된 개수의 영상 프레임 각각에 대해 변환된 리사이징 이미지에서 검출된 관심객체에 대해 보팅한다. 예를 들어, 보팅부(162)는 관심객체가 검출된 위치값에 대응하는 윈도우 맵의 함수값을 '1' 씩 증가시킨다. 기 설정된 영상 프레임의 개수가 30 장인 경우, 보팅부(162)는 30 장의 영상 프레임을 획득할 때까지 각각의 영상 프레임마다 변환된 리사이징 이미지에 대해 보팅을 수행함으로써, 보팅 결과에 따라 관심객체가 검출되는 위치를 판단할 수 있다.

보팅부(162)에서 보팅 결과를 분석해 보면, 원본 크기의 원본 프레임을 기준으로 축소된 리사이징 이미지에서는 주로 아래쪽 영역에 보팅이 많이 되고, 원본 크기의 원본 프레임을 기준으로 확대된 리사이징 이미지에서는 주로 위쪽 영역에 보팅이 많이 된다. 그 이유는 관심객체의 검출을 위한 단위 윈도우가 고정이기 때문이다. 즉, 영상 프레임의 위쪽 영역에는 원근법으로 인해 사람이 작게 표시되기 때문에 확대된 리사이징 이미지에서는 단위 윈도우에 해당하는 이미지 영역에서 객체가 검출될 확률이 높다. 반대로, 영상 프레임의 아래쪽 영역에는 원근법으로 인해 사람이 크게 표시되기 때문에 축소된 리사이징 이미지에서는 단위 윈도우에 해당하는 이미지 영역에서 객체가 검출될 확률이 높다.

관심영역 설정부(164)는 보팅부(162)의 보팅 결과를 기초로 복수의 리사이징 이미지 중 특정 사이즈를 갖는 적어도 하나의 객체검출 이미지를 선별하고, 선별된 객체검출 이미지 각각에 관심영역을 설정한다.

관심영역 설정부(164)는 복수의 리사이징 이미지를 연속되는 사이즈별로 구분한 그룹을 형성하고, 형성된 그룹에서 최고 보팅 결과를 갖는 윈도우 맵에 대응하는 리사이징 이미지를 특정 사이즈를 갖는 적어도 하나의 객체검출 이미지로 선별한다. 관심영역 설정부(164)는 객체검출 이미지에서 보팅 결과에 근거하여 관심객체가 검출된 영역을 포함하는 전체 화소행을 관심영역으로 설정한다.

관심영역 설정부(164)는 복수의 리사이징 이미지에 각각 설정된 관심영역을 영상 프레임(원본 크기)에 대응하는 크기로 변환하는 경우, 복수의 리사이징 이미지에 각각 설정된 관심영역의 합이 영상 프레임의 전체영역을 커버한다. 여기서, 관심영역 설정부(164)는 관심영역들이 서로 중첩되어 영상 프레임의 전체영역을 커버할 수도 있다.

관심영역 설정부(164)는 관심객체를 검출하기 위한 특정 사이즈에 대한 정보 및 특정 사이즈에 대응하는 관심영역에 대한 정보를 포함하는 검출 이벤트룰을 생성한다. 여기서, 검출 이벤트룰은 관심객체를 검출하기 위한 특정 사이즈에 대한 정보 및 특정 사이즈에 대응하는 관심영역에 대한 정보를 포함한다.

관심영역 설정부(164)는 검출 이벤트룰을 설정함으로써, 이미지 변환부(140)에서 기 설정된 특정 사이즈에 대한 리사이징 이미지를 생성하도록 하고, 특정 사이즈에 대한 리사이징 이미지에 대응하는 관심영역 내에서만 관심객체를 검출하도록 한다.

관심영역 학습장치(120)는 영상 촬영모듈로부터 영상 프레임을 획득한다(S210). 관심영역 학습장치(120)는 검출 이벤트룰의 설정 여부를 확인한다(S220).

단계 S220의 확인 결과, 검출 이벤트룰이 기 설정되어 있는 경우, 관심영역 학습장치(120)는 검출 이벤트 룰에 근거하여 리사이징 이미지를 생성한다(S222). 여기서, 검출 이벤트룰은 관심객체의 검출을 위해 기 설정된 규칙정보로서, 관심객체를 검출하기 위한 특정 사이즈에 대한 정보 및 특정 사이즈에 대응하는 관심영역에 대한 정보를 포함한다.

관심영역 학습장치(120)는 검출 이벤트 룰에 근거하여 즉, 특정 사이즈로 변환한 리사이징 이미지에 기 설정된 관심영역 내에서 단위 윈도우를 슬라이딩하여, 단위 윈도우에 해당하는 이미지 영역에서 관심객체를 검출하여(S224), 검출된 관심객체에 대한 검출 결과정보를 생성한다(S226). 관심영역 학습장치(120)는 기 설정된 검출 이벤트룰에 근거하여 관심영역 내의 단위 윈도우에 해당하는 이미지 영역에서만 관심객체를 검출함으로써, 관심객체의 검색 속도를 증가시킬 수 있다.

한편, 단계 S220의 확인 결과, 검출 이벤트룰이 기 설정되지 않은 경우, 관심영역 학습장치(120)는 영상 프레임을 기 설정된 사이즈별로 변환하여 복수의 리사이징 이미지를 생성한다(S230). 관심영역 학습장치(120)는 영상 프레임의 원본 사이즈를 기준으로 일정한 영상크기의 차이를 갖는 사이즈별로 변환하여 복수의 리사이징 이미지를 생성한다.

관심영역 학습장치(120)는 복수의 리사이징 이미지 각각에 기 설정된 단위 윈도우를 슬라이딩하여 단위 윈도우에 해당하는 이미지 영역에서 관심객체를 검출한다(S240). 관심영역 학습장치(120)는 리사이징 이미지에 단위 윈도우가 슬라이딩된 이미지 영역의 밝기 차이를 이용하여 특징벡터 화소값을 산출하고, 특징벡터 화소값과 기 설정된 기준 화소값을 비교하여 검출 결과정보를 생성한다.

관심영역 학습장치(120)는 관심객체가 검출된 영역을 기초로 복수의 리사이징 이미지 각각에 대응하는 윈도우 맵에 보팅한다(S250). 관심영역 학습장치(120)는 검출 결과정보를 기초로 관심객체가 검출된 위치값을 확인하고, 위치값에 대응하는 윈도우 맵의 함수값에 소정의 가중치값을 증가시켜 보팅한다.

관심영역 학습장치(120)는 기 설정된 영상 프레임의 개수에 도달하는지 여부를 확인하고(S260), 기 설정된 영상 프레임의 개수에 대한 보팅 결과에 근거하여 특정 사이즈를 갖는 리사이징 이미지를 객체검출 이미지로 선별한다(S270). 관심영역 학습장치(120)는 복수의 리사이징 이미지를 연속되는 사이즈별로 구분한 그룹을 형성하고, 형성된 그룹에서 최고 보팅 결과를 갖는 윈도우 맵에 대응하는 리사이징 이미지를 특정 사이즈를 갖는 객체검출 이미지로 선별한다.

관심영역 학습장치(120)는 선별된 객체검출 이미지에 관심영역을 설정한다(S280). 관심영역 학습장치(120)는 객체검출 이미지에서 보팅 결과에 근거하여 관심객체가 검출된 영역을 포함하는 전체 화소행을 관심영역으로 설정한다.

도 3의 (a)는 영상 프레임의 원본 크기를 기준으로 기 설정된 사이즈별로 변환한 복수의 리사이징 이미지를 나타낸다. 예컨대, 관심영역 학습장치(120)는 원본 크기(예: x 1.0)의 영상 프레임을 획득하는 경우, 영상 프레임의 사이즈를 축소 또는 확대하여 최소 리사이징 이미지(예: x 0.3) 내지 최대 리사이징 이미지(x 2.0)를 생성한다. 여기서, 최소 리사이징 이미지(예: x 0.3) 내지 최대 리사이징 이미지(x 2.0)는 소정의 영상크기를 갖는 12 장(예: 레벨 1 내지 레벨 12)의 리사이징 이미지를 포함할 수 있다.

도 3의 (b)는 복수의 리사이징 이미지 각각에 대해 관심객체를 검출하고, 복수의 리사이징 이미지 각각에 대응하여 생성된 윈도우 맵에 검출된 관심객체에 대한 영역을 보팅한 결과를 나타낸다. 예컨대, 도 3의 (a)에 도시된 바와 같이, 관심영역 학습장치(120)는 최소 리사이징 이미지(예: x 0.3) 내지 최대 리사이징 이미지(x 2.0) 각각에 대해 기 설정된 단위 윈도우를 슬라이딩하여, 단위 윈도우에 해당하는 이미지 영역에서 검출된 관심객체에 대한 검출 결과정보를 생성하고, 검출 결과정보에 근거하여 각각의 리사이징 이미지에 대응하는 윈도우 맵의 함수값을 증가시키는 보팅을 수행한다. 다시 말해, 관심영역 학습장치(120)는 검출 결과정보에 근거하여 관심결과가 검출된 위치값에 대한 윈도우 맵의 함수값을 1 씩 증가하는 보팅을 수행한다.

도 3의 (b)에 도시된 바와 같이, 원본 크기의 원본 프레임을 기준으로 축소된 리사이징 이미지에서는 주로 아래쪽 영역에 보팅이 많이 되고, 원본 크기의 원본 프레임을 기준으로 확대된 리사이징 이미지에서는 주로 위쪽 영역에 보팅이 많이 된다. 그 이유는 관심객체의 검출을 위한 단위 윈도우가 고정이기 때문이다. 즉, 영상 프레임의 위쪽 영역에는 원근법으로 인해 사람이 작게 표시되기 때문에 확대된 리사이징 이미지에서는 단위 윈도우에 해당하는 이미지 영역에서 객체가 검출될 확률이 높다. 반대로, 영상 프레임의 아래쪽 영역에는 원근법으로 인해 사람이 크게 표시되기 때문에 축소된 리사이징 이미지에서는 단위 윈도우에 해당하는 이미지 영역에서 객체가 검출될 확률이 높다.

도 3의 (c)는 보팅 결과에 근거하여 복수의 리사이징 이미지 중 특정 사이즈에 대한 객체검출 이미지를 선별하고, 선별된 객체검출 이미지 각각에 설정된 관심영역을 나타낸다. 예컨대, 관심영역 학습장치(120)는 복수의 리사이징 이미지 중 보팅된 함수값이 가장 높은 소정의 개수의 윈도우 맵에 대응하는 특정 사이즈에 대한 객체검출 이미지를 선별하고, 객체검출 이미지에서 보팅이 많이 된 영역을 포함하는 모든 행(가로 화소영역)을 관심영역으로 설정한다. 여기서, 관심영역은 각각의 객체검출 이미지 내에서 직사각형 형태로 설정되는 것이 바람직하나 반드시 이에 한정되는 것은 아니다.

도 4는 도 3의 (b) 및 도 3의 (c)에 기재된 내용을 더 자세히 설명하기 위한 예시도이며, 도 3에 기재된 내용과 동일한 설명은 생략하도록 한다.

관심영역 학습장치(120)는 검출된 관심객체의 영역에 대해 보팅된 윈도우 맵에 대한 복수의 리사이징 이미지를 연속되는 사이즈별로 구분하여 그룹(410, 412 및 414)을 형성한다. 예컨대, 관심영역 학습장치(120)는 9 장의 리사이징 이미지를 기 설정된 기준에 근거하여 3 장씩 구분하여 제1 그룹(410), 제2 그룹(412) 및 제3 그룹(414)을 형성한다.

관심영역 학습장치(120)는 각각의 그룹에서 최고 보팅 결과를 갖는 윈도우 맵에 대응하는 리사이징 이미지를 특정 사이즈를 갖는 객체검출 이미지로 선별한다. 예컨대, 관심영역 학습장치(120)는 제1 그룹(410), 제2 그룹(412) 및 제3 그룹(414) 각각에서 최고 보팅 결과를 갖는 제1 윈도우 맵(420), 제2 리사이징 윈도우 맵(422) 및 제3 윈도우 맵(424)에 대응하는 제1 리사이징 이미지(430), 제2 리사이징 이미지(432) 및 제3 리사이징 이미지(434)를 객체검출 이미지로 선별한다.

관심영역 학습장치(120)는 제1 리사이징 이미지(430), 제2 리사이징 이미지(432) 및 제3 리사이징 이미지(434) 각각에 관심객체가 많이 검출된 즉, 기 설정된 횟수 이상 보팅된 영역을 포함하는 모든 화소행을 제1 관심영역(431), 제2 관심영역(433) 및 제3 관심영역(435)으로 설정한다.

관심영역 학습장치(120)는 객체검출 이미지를 선별하는 특정 사이즈에 대한 정보 및 관심영역에 대한 정보를 객체 이벤트룰로 설정하여 저장하고, 이후 영상 프레임이 입력되는 경우, 관심영역 학습장치(120)는 기 저장된 객체 이벤트룰을 기반으로 관심영역만을 윈도우 슬라이딩하여 관심객체를 빠르게 검출할 수 있다.

도 5의 (a)에 도시된 바와 같이, 본 실시예에 따른 각각의 객체검출 이미지에 설정된 관심영역을 원본 크기의 영상 프레임에 모두 결합하여 적용하는 경우, 관심영역들이 결합된 크기가 전체영역을 커버한다. 예컨대, 제1 관심영역(431), 제2 관심영역(433) 및 제3 관심영역(435)을 원본 크기의 영상 프레임에 적용하는 경우, 그 결합된 관심영역들의 크기가 영상 프레임의 전체영역과 동일하다.

한편, 도 5의 (a)에 도시된 바와 같이, 각각의 관심영역들은 서로 중첩되는 영역이 존재하는 형태로 영상 프레임의 전체영역을 커버할 수 있다. 예컨대, 제1 관심영역(431), 제2 관심영역(433) 및 제3 관심영역(435)을 원본 크기의 영상 프레임에 적용하는 경우, 제1 관심영역(431)과 제2 관심영역(433) 간에 제1 중첩영역(520)이 형성될 수 있고, 제2 관심영역(433)과 제3 관심영역(435) 간에 제2 중첩영역(510)이 형성될 수 있다.

관심영역 학습장치(120)는 전술한 중첩영역이 다수 존재하는 것이 관심객체를 중복하여 검출함으로써, 검출 정확도를 높일 수 있다. 하지만, 그에 따른 연산량이 늘어남으로 검출 속도는 저하될 수 있다.

이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

이상에서 설명한 바와 같이 본 실시예는 객체 검출분야에 적용되어, 영상 프레임을 리사이징하는 계산상의 효율을 높일 수 있고, 실시간과 같이 빠르게 객체 검출을 요하는 작업을 수행하여 객체를 검출하는 기술의 효율을 증가시킬 수 있는 효과를 발생하는 유용한 발명이다.

110: 영상 촬영장치 120: 관심영상 학습장치

130: 영상 획득부 140: 이미지 변환부

150: 객체 검출부 160: 이벤트룰 설정부

162: 보팅부 164: 관심영역 설정부

CROSS-REFERENCE TO RELATED APPLICATION

본 특허출원은 2014년 05월 26일 한국에 출원한 특허출원번호 제 10-2014-0063319 호에 대해 미국 특허법 119(a)조(35 U.S.C 119(a))에 따라 우선권을 주장하면, 그 모든 내용은 참고문헌으로 본 특허출원에 병합된다. 아울러, 본 특허출원은 미국 이외에 국가에 대해서도 위와 동일한 이유로 우선권을 주장하면 그 모든 내용은 참고문헌으로 본 특허출원에 병합된다.

Claims

영상 촬영모듈로부터 영상 프레임을 획득하는 획득과정;

상기 영상 프레임을 기 설정된 사이즈별로 변환하여 복수의 리사이징 이미지를 생성하는 변환과정;

상기 복수의 리사이징 이미지 각각에 단위 윈도우를 슬라이딩하여, 상기 단위 윈도우에 해당하는 이미지 영역에서 관심객체를 검출한 검출 결과정보를 생성하는 검출과정;

상기 복수의 리사이징 이미지 각각에 대응하는 윈도우 맵마다 상기 검출 결과정보에 대응하는 영역에 대해 보팅(Voting)하는 보팅과정; 및

상기 보팅에 대한 결과를 기초로 상기 복수의 리사이징 이미지 중 특정 사이즈를 갖는 적어도 하나의 객체검출 이미지를 선별하고, 상기 객체검출 이미지 각각에 관심영역(ROI: Region of Interest)을 설정하는 관심영역 설정과정

을 포함하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
제 1 항에 있어서,

상기 관심영역 설정과정은,

상기 복수의 리사이징 이미지를 연속되는 사이즈별로 구분하여 그룹을 형성하는 과정;

상기 그룹 각각에서 최고 보팅 결과를 갖는 윈도우 맵에 대응하는 리사이징 이미지를 상기 객체검출 이미지로 선별하는 과정; 및

상기 최고 보팅 결과에 근거하여 상기 객체검출 이미지에 상기 관심영역을 설정하는 과정

을 포함하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
제 2 항에 있어서,

상기 관심영역 설정과정은,

상기 최고 보팅 결과를 갖는 영역을 포함하는 화소행을 모두 상기 관심영역으로 설정하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
제 2 항에 있어서,

상기 관심영역 설정과정은,

상기 복수의 리사이징 이미지에 각각 설정된 상기 관심영역의 합을 상기 영상 프레임의 전체영역이 커버되는 영역으로 설정하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
제 4 항에 있어서,

상기 관심영역 설정과정은,

상기 복수의 리사이징 이미지에 각각 설정된 상기 관심영역이 서로 중첩되는 영역을 갖도록 하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
제 1 항에 있어서,

상기 보팅과정은,

상기 복수의 리사이징 이미지 각각에 대응하는 상기 윈도우 맵을 생성하는 과정; 및

상기 검출 결과정보에 근거하여 검출된 상기 관심객체에 대응하는 상기 윈도우 맵의 함수값을 증가시켜 보팅하는 과정

을 포함하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
제 6 항에 있어서,

상기 보팅과정은,

상기 검출 결과정보에 대응하는 영역의 위치값을 확인하고, 상기 위치값에 대응하는 상기 윈도우 맵의 함수값에 소정의 가중치값을 증가시켜 보팅하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
제 6 항에 있어서,

상기 보팅과정은,

상기 관심객체가 검출된 상기 단위 윈도우의 중심영역에 대응하는 상기 윈도우 맵의 함수값에 보팅하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
제 6 항에 있어서,

상기 보팅과정은,

상기 관심객체가 검출된 상기 단위 윈도우의 전체영역에 대응하는 상기 윈도우 맵의 함수값에 보팅하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
제 1 항에 있어서,

상기 검출과정은,

상기 복수의 리사이징 이미지의 전체영역에 상기 단위 윈도우를 기 설정된 경로로 슬라이딩하여 상기 관심객체를 검출하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
제 10 항에 있어서,

상기 검출과정은,

상기 단위 윈도우를 상기 전체영역의 일측에서 타측 방향으로 슬라이딩하는 이동과정; 및

상기 단위 윈도우에 대한 특징벡터 화소값을 산출하고, 상기 특징벡터 화소값과 기 설정된 기준 화소값을 비교하여 상기 검출 결과정보를 생성하는 결과정보 생성과정

을 포함하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
제 11 항에 있어서,

상기 검출과정은,

HOG(Histogram of oriented Gradient), Haar-Like Feature, CS-LBP(Center-Symmetric Local Binary Pattern) 및 Gabor Filter Response 중 적어도 하나의 방식을 이용하여 상기 특징벡터 화소값과 상기 기준 화소값을 비교하여 상기 검출 결과정보를 생성하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
제 1 항에 있어서,

상기 변환과정은,

상기 영상 프레임을 일정한 영상크기의 차이를 갖는 사이즈별로 변환하여 상기 복수의 리사이징 이미지를 생성하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
제 1 항에 있어서,

상기 변환과정은,

상기 관심영역이 설정된 후 신규 영상 프레임이 획득되면, 상기 신규 영상 프레임을 상기 특정 사이즈로만 변환한 리사이징 이미지를 생성하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
제 14 항에 있어서,

상기 검출과정은,

상기 특정 사이즈로만 변환한 리사이징 이미지에 대해 설정된 상기 관심영역 내에서만 상기 단위 윈도우를 슬라이딩하여, 상기 단위 윈도우에 해당하는 상기 관심영역 내의 이미지 영역에서 검출된 관심객체에 대응하는 상기 검출 결과정보를 생성하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
영상 촬영모듈로부터 영상 프레임을 획득하는 영상 획득부;

상기 영상 프레임을 기 설정된 사이즈별로 변환하여 복수의 리사이징 이미지를 생성하는 이미지 변환부;

상기 복수의 리사이징 이미지 각각에 단위 윈도우를 슬라이딩하여, 상기 단위 윈도우에 해당하는 이미지 영역에서 관심객체를 검출한 검출 결과정보를 생성하는 객체 검출부;

상기 복수의 리사이징 이미지 각각에 대응하는 윈도우 맵마다 상기 검출 결과정보에 대응하는 영역에 대해 보팅하고, 상기 보팅에 대한 결과를 기초로 상기 복수의 리사이징 이미지 중 특정 사이즈를 갖는 객체검출 이미지를 선별하고, 상기 객체검출 이미지 각각에 관심영역을 설정하는 이벤트룰 설정부

를 포함하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습장치.
제 16 항에 있어서,

상기 이벤트룰 설정부는,

상기 복수의 리사이징 이미지를 연속되는 사이즈별로 구분하여 그룹을 형성하고, 상기 그룹 각각에서 최고 보팅 결과를 갖는 윈도우 맵에 대응하는 리사이징 이미지를 상기 객체검출 이미지로 선별하며, 상기 최고 보팅 결과를 갖는 영역을 포함하는 화소행을 모두 상기 관심영역으로 설정하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습장치.
제 16 항에 있어서,

상기 이벤트룰 설정부는,

상기 복수의 리사이징 이미지에 각각 설정된 상기 관심영역의 합을 상기 영상 프레임의 전체영역이 커버되는 영역으로 설정하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습장치.