KR102112840B1

KR102112840B1 - 대화형 객체 인식 장치

Info

Publication number: KR102112840B1
Application number: KR1020140134832A
Authority: KR
Inventors: 이군섭
Original assignee: 에스케이 텔레콤주식회사
Priority date: 2014-10-07
Filing date: 2014-10-07
Publication date: 2020-05-19
Also published as: KR20160041250A

Abstract

대화형 객체 인식 장치를 개시한다.
본 실시예의 일 측면에 의하면, 영상을 분석하여 객체를 인식하는 장치에 있어서, 연속된 영상 프레임을 입력받는 영상 입력부; 사용자로부터 인식 대상 객체의 정보를 입력받는 정보 입력부; 및 상기 정보 입력부에 입력된 인식 대상 객체의 정보를 이용하여 상기 인식 대상 객체의 특징을 분석한 후 객체 인식 알고리즘에 반영함으로써 영상 프레임 내에 있는 상기 인식 대상 객체를 인식하는 객체 인식부를 포함하는 것을 특징으로 하는 객체 인식 장치를 제공한다.

Description

대화형 객체 인식 장치{Apparatus for Recognizing Object in Video by Using User Interaction}

본 실시예는 대화형 객체 인식 장치에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

객체 인식 기술은 특정 객체의 계수 또는 동선 추적 등에 널리 활용되는 기술이다. 객체를 인식하는 전통적인 방법은 사람이 직접 눈으로 확인하고 인식하는 것이다. 객체 인식 알고리즘의 한계로 인하여 컴퓨터로는 완벽한 객체 인식이 어려우므로 인식할 객체의 수가 적은 경우에는 사람이 직접 객체를 인식하는 것이 바람직하다.

사람이 직접 객체를 인식하게 되면 인식할 객체의 수가 늘어날수록 집중력이 떨어져서 정확도가 낮아지는 단점이 있다. 예컨대 장시간 객체를 인식하고 추적하여야 하거나 수백개에서 수천개에 이르는 객체를 한번에 인식할 필요가 있는 경우에는 사람이 직접 객체를 인식하기보다 컴퓨터를 이용하여 객체를 인식하는 것이 바람직하다.

컴퓨터는 카메라로부터 취득한 영상을 객체 인식 알고리즘으로 분석하여 객체를 인식한다. 그러나 컴퓨터의 객체 인식 알고리즘에만 의존하게 되면 인식하고자 하는 객체의 특성을 완전히 반영하지 못함으로 인해 객체를 올바로 인식하지 못하는 문제가 생길 수 있다.

본 실시예는 컴퓨터를 이용한 객체 인식에 있어서, 사용자대화(User Interaction)를 이용하여 주위 환경의 변화 또는 객체의 움직임에 의해 발생하는 객체 인식의 오차를 실시간으로 수정할 수 있는 대화형 객체 인식 장치를 제공하는 데 그 목적이 있다.

본 실시예의 일 측면에 의하면, 영상을 분석하여 객체를 인식하는 장치에 있어서, 연속된 영상 프레임을 입력받는 영상 입력부; 사용자로부터 인식 대상 객체의 정보를 입력받는 정보 입력부; 및 상기 정보 입력부에 입력된 인식 대상 객체의 정보를 이용하여 상기 인식 대상 객체의 특징을 분석한 후 객체 인식 알고리즘에 반영함으로써 영상 프레임 내에 있는 상기 인식 대상 객체를 인식하는 객체 인식부를 포함하는 것을 특징으로 하는 객체 인식 장치를 제공한다.

본 실시예에 의하면 컴퓨터를 이용한 객체 인식에 있어서, 사용자대화(User Interaction)를 이용하여 주위 환경의 변화 또는 객체의 움직임에 의해 발생하는 객체 인식의 오차를 실시간으로 수정함으로써 정확한 객체 인식이 가능해진다.

도 1은 본 실시예에 따른 대화형 객체 인식 장치의 구조를 나타낸 블록도이다.
도 2는 여행객이 여행용 캐리어를 들고 이동하는 장면을 촬영한 탑 뷰 영상에서, 본 실시예에 의한 사용자대화를 수행하는 과정을 예시한 도면이다.
도 3은 본 실시예에 따른 대화형 객체 인식 장치의 훈련모드를 간략하게 예시한 순서도이다.
도 4는 본 실시예에 따른 대화형 객체 인식 장치의 인식모드를 간략하게 예시한 순서도이다.

이하 본 발명의 일부 실시예를 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한 본 실시예를 설명함에 있어서 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 실시예의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

본 실시예의 구성요소를 설명하는 데 있어서 제1, 제2, ?), ?), a), b) 등의 부호를 사용할 수 있다. 이러한 부호는 그 구성요소를 다른 구성요소와 구별하기 위한 것일 뿐, 그 부호에 의해 해당 구성요소의 본질 또는 차례 또는 순서 등이 한정되지 않는다. 또한 명세서에서 어떤 부분이 어떤 구성요소를 '포함' 또는 '구비'한다고 할 때, 이는 명시적으로 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한 명세서에 기재된 '~부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 '하드웨어' 또는 '소프트웨어' 또는 '하드웨어 및 소프트웨어의 결합'으로 구현될 수 있다.

영상에서 객체를 인식하는 방법은 영상에서 배경을 제거하여 객체를 분리해낸 후, 인식하고자 하는 객체의 특정한 특징 또는 형태가 검출되면 해당 객체를 인식하는 원리를 이용하게 된다.

한국 특허공개공보 제2003-0018487호는 촬영된 영상을 메모리에 저장되어 있는 레퍼런스 영상과 비교함으로써 객체의 출현을 감지하고 추적하는 발명을 개시하고 있다. 해당 발명은 연속된 영상 프레임에서 현재 영상과 메모리에 저장되어 있는 이전 영상을 서로 비교함으로써 객체의 출입여부 및 객체의 움직임을 추적한다.

한국 특허등록공보 제10-0885418호는 인식하고자 하는 객체의 형태가 가지는 특징을 이용하여 객체를 인식하는 발명을 개시하고 있다. 해당 발명은 방문자 계수에 있어서, 객체의 에지(Edge)를 검출한 후, 에지가 사람의 머리의 형태와 유사한 타원형이면 해당 객체를 사람으로 인식하고 계수를 진행한다. 다만, 해당 발명은 객체의 다양한 외형에서 비롯되는 비선형성에 대응하기 어렵다는 문제가 있다. 예컨대 사람이 아닌 타원형의 객체를 사람으로 인식한다거나, 특이한 형태의 모자를 착용하고 있는 사람을 사람으로 인식하지 못하는 등의 문제가 발생할 수 있다.

한국 특허등록공보 제10-1064927호는 인식하고자 하는 객체의 색깔이 가진 특징을 이용하여 객체를 인식하는 발명을 개시하고 있다. 해당 발명은 영상 프레임에서 배경을 제거한 후, 유사한 색상값을 가지는 픽셀에 대해 하나의 색상값을 부여함으로써 객체의 색상정보를 줄이는 단계(슈퍼 픽셀 처리 단계), 슈퍼 픽셀 처리를 거친 영상에서 객체의 중심의 밝기와 유사한 밝기 범위에 있는 픽셀들만 남기고 비유사 범위의 픽셀들을 제거하는 단계(1차 필터링 단계), 일정 크기 이하인 객체를 노이즈(Noise)로 간주하여 제거하는 단계(2차 필터링 단계)를 거쳐 객체를 인식한다. 해당 발명은 촬영 장소의 밝기 변화, 물체의 반사광, 조명 등에 의해 객체 인식의 오류가 발생할 수 있다.

컴퓨터의 객체 인식 알고리즘은 인간의 판단과정에 비할 바가 아니어서 발생가능한 모든 경우의 수를 고려하지 못한다. 특히 카메라와 객체와의 상대적 위치에 따라 객체의 크기가 달라지기도 하고, 시야각이 넓은 렌즈를 사용함으로써 영상이 왜곡되기도 한다. 컴퓨터에 의한 알고리즘만으로는 객체 인식 중에 나타나는 예외적인 상황을 객체 인식에 반영하기 어려우며, 이러한 경우에 있어서 인간의 판단과정의 도움을 받을 필요가 있다.

기존 특허나 상용제품은 카메라를 설치하기 전에 미리 카메라의 높이, 카메라의 각도, 객체 인식을 할 위치, 인식할 객체의 특징, 객체 인식 알고리즘의 민감도 등을 설정한다. 이하, 객체 인식을 위해 필요한 정보를 '인식 대상 객체의 정보'라고 하고, 복수의 인식 대상 객체의 정보가 저장된 데이터를 '기준데이터'라고 한다.

기존 특허나 상용제품은 카메라를 설치하기 전에 미리 설정된 기준데이터를 이용하여 객체를 인식한다. 즉, 기존의 객체 인식 알고리즘에서는 카메라 설치 전에 인식하고자 하는 객체의 기준데이터가 설정된다. 인식하고자 하는 객체의 기준데이터가 카메라 설치 전에 미리 설정됨으로 인해, 사용자가 영상을 보고 직접 객체 인식의 오류를 수정할 수 없다. 영상에서 나타난 객체의 특징을 객체 인식에 반영할 수 없음으로 인해 사용자가 인식하고자 하는 객체를 정확히 인식하지 못할 수가 있다.

본 실시예에 따른 사용자대화를 이용한 객체 인식 장치(이하, '대화형 객체 인식 장치'라고 한다) 또는 사용자대화를 이용한 객체 인식 방법(이하, '대화형 객체 인식 방법'이라고 한다)은 영상을 분석하여 객체를 인식함에 있어서, 영상분석 중에 사용자가 기준데이터를 입력, 수정 또는 삭제(이하, '기준데이터 업데이트'라고 한다)할 수 있는 기능을 포함한다.

사용자대화(User Interaction)란 컴퓨터와 사용자 사이에 서로 대화 형식으로 데이터를 주고받거나 통신하는 방식을 의미하는데, 대화형 객체 인식 장치에 의하면 사용자가 직접 영상을 보고 인식하고자 하는 사람 또는 물체(이하, '인식 대상 객체'라고 한다)에 대한 기준데이터를 업데이트할 수 있음으로 인해 객체 인식 알고리즘을 최적화시킬 수 있을 뿐만 아니라, 실 영상에 근거한 정확한 객체 인식이 가능해진다. 기준데이터의 업데이트는 사용자대화를 통해 이루어지며, 컴퓨터에 의한 알고리즘에 인간의 판단과정을 더함으로써 객체 인식의 정확도가 높아지게 된다.

도 1은 본 실시예에 따른 대화형 객체 인식 장치의 구조를 나타낸 블록도이다.

본 실시예에 따른 대화형 객체 인식 장치는 연속된 영상 프레임을 입력받는 영상 입력부(110), 사용자대화를 이용하여 인식 대상 객체의 정보를 입력받는 정보 입력부(120), 인식 대상 객체의 정보를 이용하여 영상 프레임 내에 있는 인식 대상 객체를 인식하는 객체 인식부(130) 및 객체 인식 결과를 표시하는 표시부(140)을 포함한다.

영상 입력부(110)에서 취득하는 영상은 탑 뷰(Top View) 영상인 것이 바람직하다. 탑 뷰 영상이 아닌 경우 영상 내에서 객체가 겹쳐서 표현되어 정확한 객체 인식이 어렵기 때문이다.

정보 입력부(120)는 제1 입력부(121) 및 제2 입력부(122)를 포함한다.

제1 입력부는 사용자로부터 객체를 포함하는 특정 영역을 입력받는다. 사용자는 마우스, 키보드, 스타일러스펜, 터치스크린 등의 입력도구를 이용하여 영상 프레임 내에서 객체를 포함하는 특정 영역을 선택할 수 있다.

제2 입력부는 사용자로부터 인식 대상 객체에 대한 정보를 입력받는다. 사용자는 마우스, 키보드, 스타일러스펜, 터치스크린 등의 입력도구를 이용하여 인식하고자 하는 객체에 대한 정보를 입력할 수 있다.

정보 입력부(120)는 제3 입력부(123)를 더 포함할 수 있다. 제3 입력부는 사용자로부터 인식 대상 객체의 계수값을 입력받는다. 사용자는 마우스, 키보드, 스타일러스펜, 터치스크린 등의 입력도구를 이용하여 인식하고자 하는 객체의 계수값을 입력할 수 있다.

객체 인식부(130)는 정보 입력부(131)에 입력된 인식 대상 객체의 정보를 이용하여 인식 대상 객체의 특징을 분석한 후, 분석된 인식 대상 객체의 특징을 객체 인식 알고리즘에 반영함으로써 영상 프레임에서 인식하고자 하는 객체를 인식한다.

객체 인식부(130)는 연산부(131) 및 오차 수정부(132)를 포함한다.

연산부(131)는 배경 제거부(131a), 객체 탐색부(131b) 및 객체 추적부(131c)를 포함한다.

배경 제거부(131a)는 영상 입력부(110)으로부터 입력받은 연속된 영상 프레임에서 프레임 차이(Frame Difference)를 찾아내어 지속적인 변화가 없는 부분을 배경으로 간주하여 제거한다.

객체 탐색부(131b)는 배경이 제거된 영상 프레임에서 인식 대상 객체를 탐색한다. 객체 탐색부(131b)는 인식 대상 객체의 모양, 색깔 및 유형 중 어느 하나에 의해 정해지는 정보를 이용하여 인식 대상 객체를 탐색하는 1차 탐색부(미도시) 및 인식 대상 객체의 크기를 이용하여 인식 대상 객체를 탐색하는 2차 탐색부(미도시)를 포함할 수 있다.

객체 추적부(131c)는 인식 대상 객체의 이동을 추적한다.

오차 수정부(132)는 사용자가 제3 입력부(122)에 입력한 계수값과, 인식 대상 객체의 정보 및 객체 인식 알고리즘을 이용하여 계수된 계수값을 비교하여, 두 값이 일치하도록 인식 대상 객체의 정보의 오차를 수정한다.

표시부(140)는 객체 인식의 결과를 CCTV, 컴퓨터 모니터, 스마트폰 화면 등의 디스플레이에 표시한다.

도 2는 여행객(220)이 여행용 캐리어(230)를 들고 이동하는 장면을 촬영한 탑 뷰 영상에서, 본 실시예에 의한 사용자대화를 수행하는 과정을 예시한 도면이다.

대화형 객체 인식 장치는 카메라에 의해 촬영된 연속된 영상 프레임에서 지속적인 변화가 없는 부분을 배경으로 간주하여 제거한다. 도 2는 배경제거 결과 사람(220) 및 여행용 캐리어(230)만이 객체로 추출되었음을 나타내고 있다.

도 2에서 사용자는 사람(220)을 나타내는 영역을 원(221)으로 지정함으로써 사람(220)에 대한 기준데이터를 업데이트하였다. 또한 도 2에서 사용자는 여행용 캐리어(230)를 나타내는 영역을 사각형(231)으로 지정함으로써 여행용 캐리어(230)에 대한 기준데이터를 업데이트하였다.

대화형 객체 인식 장치에서 사용자는 기준선(210)을 설정할 수 있다. 기준선(210)은 사용자대화의 편의를 위해 사용될 수도 있고, 객체의 계수를 위한 카운팅 라인(Counting Line)으로 사용될 수도 있다.

기준선(210)이 사용자대화의 편의를 위해 사용되는 경우, 객체가 기준선(210)을 지나는 순간 영상이 정지되도록 함으로써, 사용자가 인식하고자 하는 객체의 영역 또는 정보를 용이하게 입력할 수 있다.

기준선(210)이 객체의 계수를 위해 사용되는 경우, 객체가 기준선(210)을 지날 때마다 계수하도록 할 수 있다. 기준선(210)을 설정하면 출입구로 들어간 방문자의 수, 출입구에서 나온 방문자의 수 등을 계수하기 편리하다.

대화형 객체 인식 장치는 훈련모드 및 인식모드를 포함한다.

도 3은 본 실시예에 따른 대화형 객체 인식 장치의 훈련모드를 간략하게 예시한 순서도이고, 도 4는 본 실시예에 따른 대화형 객체 인식 장치의 인식모드를 간략하게 예시한 순서도이다.

훈련모드(Training Mode)는 컴퓨터의 객체 인식 중에 사용자가 사용자대화를 통해 기준데이터를 업데이트하고, 업데이트된 기준데이터를 이용하여 다시 객체 인식을 수행하는 모드이다. 인식모드(Recognizing Mode)는 컴퓨터가 기존에 저장된 기준데이터를 이용하여 객체 인식을 수행하는 모드이다.

훈련모드와 인식모드에 공통적인 사항으로서, 대화형 객체 인식 장치의 객체 인식은 다음과 같은 과정을 거쳐 이루어진다.

대화형 객체 인식 장치는 카메라로부터 특정 공간의 영상을 실시간으로 입력받는다(S110, S210). 이 때 사용되는 카메라는 오버헤드 카메라(Overhead Camera)인 것이 바람직하고, 이 때 입력받는 영상은 탑 뷰(Top View) 영상인 것이 바람직하다. 오버헤드 카메라는 천정에 부착되어 지면을 향해 설치되어 있는 카메라로서, 객체 인식 장치에서 오버헤드 카메라가 바람직한 이유는 탑 뷰(Top View)에서 물체 간의 겹침 현상이 최소화되므로 객체의 인식 및 추적이 용이하기 때문이다.

대화형 객체 인식 장치는 카메라에 의해 촬영된 연속된 영상 프레임에서 프레임 차이(Frame Difference)를 찾아내어 지속적인 변화가 없는 부분을 배경으로 간주하여 제거한다(S121, S221). 인식하고자 하는 객체는 한 자리에 고정되어 있지 않고 이동하는 경우가 대부분이므로, 연속된 영상 프레임에서 변화가 없는 부분은 인식하고자 하는 객체와 무관한 것으로 보고 판단에서 제외시킴으로써 인식 성능을 향상시킬 수 있다.

대화형 객체 인식 장치는 배경을 제거한 영역에서 객체를 추출한 후(S122, S222) 추출한 객체의 특징을 분석한다(S123, S223). 영상 내에서 객체는 픽셀들이 뭉쳐진 형태로 표현되며, 픽셀들의 위치, 구조, 색깔 등을 분석함으로써 객체의 특징을 파악할 수 있게 된다.

대화형 객체 인식 장치는 1차적으로 인식 대상 객체의 특징 정보를 이용하여 추출한 객체 중에서 인식 대상 객체로 추정되는 객체를 선별한다(S124, S224)(이하, '1차 분류'). 1차 분류 과정에서는 객체의 픽셀에서 유사한 색상을 단일한 색상으로 간주하여 처리속도를 높이는 방법, 객체의 픽셀에서 중심 픽셀의 밝기와 유사한 밝기의 픽셀만 남기는 방법, 객체의 에지(Edge)를 검출한 후 에지의 형태가 인식하고자 하는 대상의 특징적인 모양을 가지고 있는지 판단하는 방법 등을 사용한다. 예컨대 인식하고자 하는 대상이 사람인 경우, 탑 뷰 영상에서 사람의 머리 모양에 해당하는 타원형 모양만을 나누어 분류할 수 있다.

대화형 객체 인식 장치는 1차 분류를 거친 객체를 크기를 기준으로 다시 분류한다(S125, S225)(이하, '2차 분류'). 2차 분류 과정에서는 특정 크기 이상의 물체를 제거할 수도 있고, 특정 크기 이하의 물체를 제거할 수도 있으며, 특정 범위 내의 물체만을 남겨놓을 수도 있다. 예컨대 인식하고자 하는 객체가 사람이고, 검은 타원형의 형태를 특징으로 1차 분류가 수행된 경우, 사람이 신고 있는 구두는 사람의 머리와 마찬가지로 검은 타원형의 형태를 하고 있으므로, 1차 분류를 거친 후에도 그대로 남아 있을 수 있다. 이 경우 구두는 사람의 머리 부분과 떨어져서 움직이므로, 머리, 왼쪽 구두 및 오른쪽 구두가 각자 사람으로 인식됨으로 인해, 한 명의 사람이 세 명의 사람으로 인식될 수 있다. 따라서 1차 분류를 거친 객체 중에서 일정 크기 이하인 객체를 제거하여야 정확한 객체 인식이 가능해진다.

대화형 객체 인식 장치는 1차 분류 및 2차 분류를 거친 객체를 인식 대상 객체로 확정하고 ID를 부여한 후 객체 추적을 시작할 수 있다(S126, S226). 부여하는 ID에 사람, 차, 카트 등 인식 대상 객체의 유형에 대한 정보를 삽입할 수 있으며, 이를 통해 각 객체에 대한 개별적인 추적 또는 계수가 가능해진다.

대화형 객체 인식 장치를 이용하여 객체를 계수하고자 하는 경우, ID가 부여된 객체가 특정 공간 내에 몇 개 있는지 확인하는 방식으로 계수할 수도 있고, ID가 부여된 객체가 임의의 기준선을 지나가는 경우에 한해 계수할 수도 있다. 예컨대 출입구를 통과하는 방문자의 수를 계수하는 경우, 출입구를 나타내는 기준선을 설정하고 '사람' 유형의 ID를 가진 객체가 기준선을 지나갈 때마다 계수할 수 있다. 이 때 '사람' 유형의 ID를 가진 객체가 기준선을 지나가는 방향에 따라 방문자가 입장한 것인지 퇴장한 것인지를 알 수 있다.

도 3은 본 실시예에 따른 대화형 객체 인식 장치의 훈련모드를 간략하게 예시한 순서도이다.

인식모드에서는 인식 대상 객체의 특징에 대한 기준데이터 업데이트 없이 저장되어 있는 데이터를 그대로 이용하나(S227), 훈련모드에서는 인식 대상 객체의 특징에 대한 기준데이터가 사용자대화를 통해 실시간으로 업데이트되어 사용자의 의도 및 판단이 객체 인식에 반영된다(S127).

또한 인식모드에서는 인식 대상 객체의 크기에 대한 기준데이터 업데이트 없이 저장되어 있는 데이터를 그대로 이용하나(S228), 훈련모드에서는 인식 대상 객체의 크기에 대한 기준데이터가 사용자대화를 통해 실시간으로 업데이트되어 사용자의 의도 및 판단이 객체 인식에 반영된다(S128).

카메라와 인식 대상 객체 사이의 거리에 따라 인식 대상 객체의 크기가 달라질 수 있는데, 이러한 경우 기준데이터를 업데이트하지 않으면 객체 인식의 오류가 발생할 수 있다. 대화형 객체 인식 장치를 이용하면 카메라와 인식 대상 객체 사이의 거리의 변화에 따른 객체 인식의 오류를 방지할 수 있다.

두 사람의 머리 크기가 동일하더라도 오버헤드 카메라에 의해 촬영된 영상에서는 키가 큰 사람의 머리 크기가 키가 작은 사람의 머리 크기보다 크게 나타난다. 또한 같은 사람이라도 서 있을 때와 의자에 앉아 있을 때와 바닥에 앉아 있을 때 오버헤드 카메라에 의해 촬영된 영상에서 나타나는 머리 크기는 모두 다르다.

대화형 객체 인식 장치를 이용하면 인식 대상 객체의 크기에 대한 기준데이터를 실시간으로 업데이트할 수 있음으로 인해 인식 대상 객체를 정확하게 인식할 수 있다는 장점이 있다.

예컨대 행사장에 온 참가자의 수를 계수하고자 할 때, 참가자들이 서 있으면 참가자들이 의자에 앉아 있는 경우에 비해 인식 대상 객체의 크기를 더 크게 설정하여야 한다. 반면 참가자들이 의자에 앉아 있으면 참가자들이 서 있는 경우에 비해 인식 대상 객체의 크기를 더 작게 설정하여야 한다.

행사장에 서 있는 사람, 의자에 앉아 있는 사람이 함께 있을 수도 있으며, 이 경우에는 인식 대상 객체의 크기 범위를 넓게 설정하거나 객체 인식 알고리즘의 민감도를 낮추어야 정확한 계수가 가능해진다.

기존의 객체 인식 알고리즘은 이러한 구체적인 상황을 모두 고려하지 못하므로 객체 인식에 오차가 발생할 수 있으나, 대화형 객체 인식 장치는 사용자대화를 통해 현장의 변수를 객체 인식에 반영함으로써 정확한 객체 인식이 이루어지도록 할 수 있다.

대화형 객체 인식 장치는 훈련모드에서 사용자대화를 시작하기 전에 영상에서 배경을 제거하여 영상에서 객체를 추출해낸다(S122, S222). 사용자는 대화형 객체 인식 장치가 추출해낸 객체 중에서 인식 대상 객체의 영역을 지정한 후 해당 객체의 특징 정보를 입력한다.

도 2의 210 및 도 3의 S131에 나타난 것과 같이, 사용자는 마우스, 키보드, 스타일러스펜, 터치스크린 등의 입력도구를 이용하여 영상 위 임의의 위치에 기준선(210)을 그릴 수 있다. 기준선(210)은 대화형 객체 인식 장치에서 사용자대화의 편의를 위해 사용되거나 계수의 기준선으로 사용된다.

기준선(210)이 사용자대화의 편의를 위해 사용되는 경우, 기준선(210)은 영상을 정지시키는 기능을 수행한다. 대화형 객체 인식 장치는 사용자의 정확한 입력을 보조하기 위하여 영상을 일시적으로 정지시키는 기능을 포함하는데, 이 때 사용자가 수동으로 영상을 정지시킬 수도 있지만, 대화형 객체 인식 장치가 추출해낸 객체가 사용자가 설정한 기준선을 지나가면 자동으로 영상이 정지되도록 할 수도 있다.

기준선(210)이 계수의 기준선으로 사용되는 경우, 객체가 기준선(210)을 지날 때마다 계수를 수행한다. 특히 기준선(210)에 입장 방향과 퇴장 방향을 정함으로써, 특정 객체가 들어온 것인지 나간 것인지를 판단할 수도 있다.

도 2의 221, 231 및 도 3의 S132에 나타난 것과 같이, 사용자는 실시간 영상화면 또는 정지된 영상화면에서 마우스, 키보드, 스타일러스펜, 터치스크린 등의 입력도구를 이용하여 인식 대상 객체의 유형, 위치, 크기 등의 특징을 입력함으로써 인식 대상 객체의 정보를 업데이트할 수 있다.

사용자는 마우스를 드래그(Drag)하여 인식 대상 객체를 둘러싸는 크기의 원, 사각형 등의 도형을 그림으로써 영상에 나타난 인식 대상 객체의 영역을 지정할 수 있다. 사용자는 인식 대상 객체를 둘러싸는 영역을 지정한 후, '사람', '카트', '자동차' 등의 텍스트를 입력함으로써 인식 대상 객체의 유형을 지정할 수 있다.

대화형 객체 인식 장치는 사용자가 입력한 유형에 따라, 사용자가 지정한 영역 내에 있는 객체의 크기, 색깔, 형태 등을 분석함으로써, 해당 유형과 관련된 기준데이터를 업데이트한다.

카메라의 위치, 카메라의 각도, 카메라의 해상도, 조명의 세기 등에 따라 영상에 나타나는 인식 대상 객체의 모양, 색깔 등의 특징이 달라질 수 있다. 대화형 객체 인식 장치를 이용하면, 이러한 주위 환경의 변화를 반영한 정확한 객체 인식이 가능해진다. 즉, 사용자대화를 통해 카메라의 위치, 카메라의 각도, 카메라의 해상도, 조명의 세기 등에 따라 달라지는 인식 대상 객체의 특징에 대한 기준데이터를 실시간으로 업데이트함으로써 인식 대상 객체에 대한 정확한 인식이 가능해진다.

도 3의 S125, S126에 나타난 것과 같이, 사용자대화를 통해 인식 대상 객체에 대한 기준데이터가 업데이트되면 대화형 객체 인식 장치는 업데이트된 기준데이터를 이용하여 다시 객체 인식을 수행한다.

도 3의 S129에 나타난 것과 같이, 대화형 객체 인식 장치는 객체 인식 알고리즘을 이용하여 구한 인식 대상 객체의 계수값과, 사용자가 직접 입력한 인식 대상 객체의 비교값을 비교하여, 기준데이터의 오차를 수정한다.

예를 들어 대화형 객체 인식 장치가 5명의 '사람'과 5개의 '여행용 캐리어'가 출입구를 통과한 것으로 판단하였으나, 사용자가 확인한 바로는 7명의 '사람'과 3개의 '여행용 캐리어'가 출입구를 통과하였다면, 사용자는 대화형 객체 인식 장치에 7명의 '사람'과 3개의 '여행용 캐리어'를 입력할 수 있다.

사용자의 입력에 따르면 '사람'이 아닌 2개의 객체가 '사람'으로 잘못 인식된 것이므로, 대화형 계수장치는 '사람'에 대한 객체 인식 알고리즘의 민감도를 높이거나, '사람'의 크기에 대한 기준데이터를 수정하는 등의 방식으로 '사람'에 대한 기준데이터의 오차를 수정한다.

또한 사용자의 입력에 따르면 '여행용 캐리어'에 해당하는 2개의 객체가 '여행용 캐리어'로 인식되지 못한 것이므로, 대화형 계수장치는 '여행용 캐리어'에 대한 객체 인식 알고리즘의 민감도를 낮추거나 '여행용 캐리어'의 크기에 대한 기준데이터를 수정하는 등의 방식으로 '여행용 캐리어'에 대한 기준데이터의 오차를 수정한다.

인식 대상 객체에 대하여, 사용자가 직접 입력한 계수값과 사용자대화를 거쳐 수정된 기준데이터로 구한 계수값이 일치하면 훈련모드가 종료되게 할 수 있다. 다만 이 경우에도 사용자가 원하는 경우 훈련모드를 다시 시작할 수 있으며, 사용자가 종료 명령을 내릴 때까지 훈련모드가 계속 반복되도록 할 수도 있다.

도 4는 본 실시예에 따른 대화형 객체 인식 장치의 인식모드를 간략하게 예시한 순서도이다.

대화형 객체 인식 장치의 인식모드에서는 인식 대상 객체에 대한 기준데이터 업데이트 없이 기존에 저장된 기준데이터를 이용하여 객체 인식을 수행한다. 인식모드에서의 객체 인식 과정은 기준데이터의 업데이트가 없다는 점만 제외하면 훈련모드에서의 객체 인식 과정과 동일하다.

본 실시예는 본 발명의 기술 사상을 예시적으로 설명한 것에 불과하고, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 본 실시예의 다양한 수정 및 변형이 가능할 것이다.

본 실시예는 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 따라서 본 실시예에 의하여 본 발명의 권리범위가 한정되는 것은 아니다. 본 발명의 보호범위는 청구범위에 의하여 해석되어야 하며, 그와 동등하거나 균등하다고 인정되는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 한다.

110: 영상 입력부 120: 정보 입력부
121: 제1 입력부 122: 제2 입력부
123: 제3 입력부 130: 객체 인식부
131: 연산부 131a: 배경 제거부
131b: 객체 탐색부 131c: 객체 추적부
132: 오차 수정부 140: 표시부
210: 기준선 220: 사람
221: 사람에 대한 지정 영역 230: 여행용 캐리어
231: 여행용 캐리어에 대한 지정 영역

Claims

영상을 분석하여 객체를 인식하는 장치에 있어서,
연속된 영상 프레임을 입력받는 영상 입력부;
사용자로부터 인식 대상 객체의 모양, 색깔 및 유형 중 어느 하나의 특징에 의해 정해지는 정보를 입력받는 정보 입력부; 및
상기 정보 입력부에 입력된 인식 대상 객체의 정보를 이용하여 상기 인식 대상 객체의 특징을 분석한 후 객체 인식 알고리즘에 반영함으로써 영상 프레임 내에 있는 상기 인식 대상 객체를 인식하는 객체 인식부
를 포함하는 것을 특징으로 하는 객체 인식 장치.
제1항에 있어서,
상기 정보 입력부는
상기 사용자로부터 상기 영상 프레임 내의 특정 영역의 선택을 입력받는 제1 입력부; 및
상기 사용자로부터 상기 특정 영역에 포함된 상기 인식 대상 객체의 정보를 입력받는 제2 입력부
를 포함하는 것을 특징으로 하는 객체 인식 장치.
제2항에 있어서,
상기 객체 인식부는 상기 특정 영역에 포함된 상기 인식 대상 객체의 특징을 분석하여 상기 객체 인식 알고리즘에 반영함으로써 상기 영상 프레임에서 상기 인식 대상 객체를 인식하는 것을 특징으로 하는 객체 인식 장치.
◈청구항 4은(는) 설정등록료 납부시 포기되었습니다.◈

제2항에 있어서,
상기 정보 입력부는
상기 사용자로부터 상기 영상 프레임 내에 있는 상기 인식 대상 객체의 계수값을 입력받는 제3 입력부를 더 포함하는 것을 특징으로 하는 객체 인식 장치.
◈청구항 5은(는) 설정등록료 납부시 포기되었습니다.◈

제4항에 있어서,
상기 객체 인식부는 오차 수정부를 포함하되,
상기 오차 수정부는 상기 객체 인식 알고리즘을 이용하여 계수된 제1 계수값과 상기 제3 입력부에서 입력된 제2 계수값을 비교하여 상기 제2 계수값을 기준으로 상기 제1 계수값이 일치되도록 상기 인식 대상 객체의 정보의 오차를 수정하는 것을 특징으로 하는 객체 인식 장치.
◈청구항 6은(는) 설정등록료 납부시 포기되었습니다.◈

제1항에 있어서,
상기 객체 인식부는 연산부를 포함하되,
상기 연산부는
상기 영상 프레임에서 배경을 제거하는 배경 제거부;
배경이 제거된 영상 프레임에서 상기 인식 대상 객체를 탐색하는 객체 탐색부; 및
탐색된 인식 대상 객체의 이동을 추적하는 객체 추적부
를 포함하는 것을 특징으로 하는 객체 인식 장치.
◈청구항 7은(는) 설정등록료 납부시 포기되었습니다.◈

제6항에 있어서,
상기 객체 탐색부는
상기 인식 대상 객체의 모양, 색깔 및 유형 중 어느 하나의 특징에 의해 정해지는 정보를 이용하여 상기 인식 대상 객체를 탐색하는 1차 탐색부; 및
상기 인식 대상 객체의 크기를 이용하여 상기 인식 대상 객체를 탐색하는 2차 탐색부
를 포함하는 것을 특징으로 하는 객체 인식 장치.