KR102140936B1

KR102140936B1 - 객체인식장치 및 그 동작 방법

Info

Publication number: KR102140936B1
Application number: KR1020180095082A
Authority: KR
Inventors: 손근영; 박승현
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2018-08-14
Filing date: 2018-08-14
Publication date: 2020-08-04
Also published as: KR20200019493A

Abstract

본 발명은, 객체 인식 기술에 관련된 것으로서, 기 학습된 객체 클래스에 없는 신규 객체 클래스의 이미지를 분석하는 경우에 발생될 수 있는 긍정 오류(false positive)를 최소화하기 위한 기술에 관한 것이다.

Description

객체인식장치 및 그 동작 방법{OBJECT RECOGNITION APPARATUS AND CONTROL METHOD THEREOF}

객체 인식(Object recognition)은 이미지 또는 비디오 상의 객체를 식별하는 컴퓨터 비전 기술로서, 이미지에 포함된 사항을 이해하는 수준의 능력과 같이 사람이라면 당연히 할 수 있는 일을 컴퓨터도 할 수 있도록 학습시키는 것을 기술의 목표로 한다.

이러한 객체 인식 기술에서는 이미지에서 객체를 식별할 뿐만 아니라 위치까지 파악할 수 있는데, 이를 통해 하나의 이미지에서 여러 객체를 식별하고 각 위치를 파악할 수 있다.

이를 위해서, 객체 인식 기술에서는, 객체를 인식하기 위한 인식 모델로서 예컨대, 컨벌루션 뉴럴 네트워크(CNN, Convolutional Neural Network)와 같은 딥러닝 모델을 적용하여 객체를 인식하기 위해 해당 객체(이하, '객체 클래스'라 칭함) 고유의 특징을 자동으로 학습한다.

예를 들어 컨벌루션 뉴럴 네트워크에서는 각 객체 클래스로서 고양이와 개를 구분하기 위해 수천 장의 훈련용 이미지를 분석하고 고양이와 개를 구분하는 고유 패턴을 학습하여 고양이와 개의 차이점을 식별하는 방법을 학습할 수 있는 것이다.

한편, 이와 관련하여 객체 인식 기술에서는, 객체 클래스의 고유 패턴을 학습하기 위해 데이터베이스를 자체적으로 구축하고, 해당 데이터베이스를 구성하는 훈련용 이미지로부터 객체 클래스의 고유 패턴을 학습하는 것이 일반적이다.

헌데, 이처럼 자체적으로 구축된 데이터베이스는 지정된 대상 즉 객체 클래스 위주로 훈련용 이미지가 구성되는 관계로, 데이터베이스 내 훈련용 이미지로부터의 객체 인식에 있어서는 높은 성능을 보일 수 있는 반면, 데이터베이스 내 훈련용 이미지와는 별도의 신규 이미지로부터의 객체 인식에 대해서는 높은 성능을 기대하기가 어렵다.

다시 말해, 객체 인식 기술에서 객체 클래스 위주의 훈련용 이미지로 학습데이터를 구성하는 경우, 학습데이터에 없는 신규 이미지를 분석 시 긍정 오류(false positive)가 발생할 수 있으며, 이는 객체 인식 기술이 활용될 수 있는 다양한 서비스 환경에서 사용자의 룩앤필(look and feel)을 저해하는 결과를 초래할 수 있다.

이에, 본 발명에서는 객체 인식 기술에서 새로운 이미지 분석 시 발생할 수 있는 전술의 문제점을 최소화할 수 있는 새로운 기술을 제안하고자 한다.

본 발명은 상기한 사정을 감안하여 창출된 것으로서, 본 발명에서 도달하고자 하는 목적은, 기 학습된 객체 클래스에 없는 신규 객체 클래스의 이미지를 분석하는 경우에 발생될 수 있는 긍정 오류(false positive)를 최소화하는데 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 이미지에 포함된 객체의 특징을 학습하여 N개의 객체 클래스로 분류하는 객체인식장치는, 이미지에 포함된 인식대상객체를 확인하는 확인부; 및 상기 인식대상객체가 특정 객체 클래스로 분류되는지 여부를 상기 N개의 객체 클래스 각각에 대하여 반복하여 판단하는 판단부를 포함하는 것을 특징으로 한다.

구체적으로, 상기 객체인식장치는, 상기 인식대상객체에 대한 판단 결과의 진위를 검증한 검증정보를 상기 N개의 객체 클래스 각각에 대해서 획득하는 획득부를 더 포함할 수 있다.

구체적으로, 상기 객체인식장치는, 상기 N개의 객체 클래스 각각에 대해서 획득되는 검증정보를 상기 N개의 객체 클래스 각각을 학습하기 위한 학습데이터로 생성하는 생성부를 더 포함할 수 있다.

구체적으로, 상기 판단부는, 상기 인식대상객체와 상기 N개의 객체 클래스 각각을 상호 비교하여, 비교 결과 상기 인식대상객체와의 유사도가 임계치(Threshold) 이상인 특정 객체 클래스가 존재하는지를 판단할 수 있다.

구체적으로, 상기 임계치는, 상기 N개의 객체 클래스 각각에 대해 판단된 판단 결과에서 오 판단 결과가 차지하는 비율에 따라 상기 N개의 객체 클래스 각각에 대해서 결정될 수 있다.

구체적으로, 상기 판단부는, 상기 인식대상객체가 2 이상인 경우, 상기 2 이상의 인식대상객체 각각에 대해서 특정 객체 클래스로 분류되는지 여부를 상기 N개의 객체 클래스 각각에 대해서 반복하여 판단할 수 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 이미지에 포함된 객체의 특징을 학습하여 N개의 객체 클래스로 분류하는 객체인식장치의 동작 방법은, 이미지에 포함된 인식대상객체를 확인하는 확인단계; 및 상기 인식대상객체가 특정 객체 클래스로 분류되는지 여부를 상기 N개의 객체 클래스 각각에 대하여 반복하여 판단하는 판단단계를 포함하는 것을 특징으로 한다.

구체적으로, 상기 방법은, 상기 인식대상객체에 대한 판단 결과의 진위를 검증한 검증정보를 상기 N개의 객체 클래스 각각에 대해서 획득하는 획득단계를 더 포함할 수 있다.

구체적으로, 상기 방법은, 상기 N개의 객체 클래스 각각에 대해서 획득되는 검증정보를 상기 N개의 객체 클래스 각각을 학습하기 위한 학습데이터로 생성하는 생성단계를 더 포함할 수 있다.

구체적으로, 상기 판단단계는, 상기 인식대상객체와 상기 N개의 객체 클래스 각각을 상호 비교하여, 비교 결과 상기 인식대상객체와의 유사도가 임계치(Threshold) 이상인 특정 객체 클래스가 존재하는지를 판단할 수 있다.

구체적으로, 상기 판단단계는, 상기 인식대상객체가 2 이상인 경우, 상기 2 이상의 인식대상객체 각각에 대해서 특정 객체 클래스로 분류되는지 여부를 상기 N개의 객체 클래스 각각에 대해서 반복하여 판단할 수 있다.

이에, 본 발명의 객체인식장치 및 그 동작 방법에 따르면, 이미지 내 인식대상객체가 특정 객체 클래스에 해당되는지 여부에 대한 단순한 판단 동작이, 기 학습된 객체 클래스 각각에 대해서 반복하여 이루어지므로, 기존 객체 인식 기술에서 신규 이미지 내 객체를 기 학습된 객체 클래스 중 하나와 일치시키는 동작에 따라 유발될 수 있는 긍정 오류(false positive)의 문제를 최소화할 수 있다.

도 1은 본 발명의 일 실시예에 따른 객체 인식 환경을 보여주는 예시도이다.
도 2 및 도 3은 본 발명의 일 실시예에 따른 긍정 오류(false positive)를 설명하기 위한 예시도이다.
도 4는 본 발명의 일 실시예에 따른 객체인식장치의 구성을 보여주는 블록도이다.
도 5 및 도 6은 본 발명의 일 실시예에 따른 판단 동작을 설명하기 위한 예시도이다.
도 7은 본 발명의 일 실시예에 따른 객체 인식의 정확도 차이를 설명하기 위한 예시도이다.
도 8은 본 발명의 일 실시예에 따른 검증정보를 설명하기 위한 예시도이다.
도 9는 기존 객체 인식 기술에서 학습데이터 생성 과정을 설명하기 위한 예시도이다.
도 10은 본 발명의 일 실시예에 따른 객체인식장치의 동작 방법을 설명하기 위한 흐름도이다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 설명한다.

도 1은 본 발명의 일 실시예에 따른 객체 인식 환경을 보여주고 있다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 객체 인식 환경은, 이미지로부터 객체를 인식하는 객체인식장치(100)를 포함하는 구성을 가질 수 있다.

이러한, 객체인식장치(100)는 이미지로부터 객체를 인식하기 위한 인식 모델을 탑재한 장치를 일컫는 것으로서, 여기서의 인식 모델에는 예컨대, 컨벌루션 뉴럴 네트워크(CNN, Convolutional Neural Network)와 같이 객체 클래스의 고유 특징을 자동으로 학습하는 딥러닝 모델이 적용될 수 있다.

한편, 이러한 딥러닝 모델을 적용한 객체 인식 기술에서는, 객체 클래스의 고유 패턴을 학습하기 위해 데이터베이스를 자체적으로 구축하고, 해당 데이터베이스를 구성하는 훈련용 이미지로부터 객체 클래스의 고유 패턴을 학습하는 것이 일반적이다.

이와 관련하여, 도 2에는 객체 클래스(Class)로서 고양이와 개를 지정하는 경우를 예시적으로 보여주고 있다.

즉, 도 2에 도시된 바와 같이, 객체 클래스(Class)로 고양이와 개를 지정하는 경우, 고양이와 개에 해당하는 훈련용 이미지로 데이터베이스를 구축하게 되며, 해당 데이터베이스 내 훈련용 이미지를 분석하는 과정을 통해서 각각의 객체 클래스로서 고양이와 개를 구분할 수 있는 각각의 고유 패턴을 학습할 수 있는 것이다.

그러나, 이처럼 자체적으로 구축되는 데이터베이스의 경우 지정된 대상 즉 객체 클래스 위주로 훈련용 이미지가 구성되는 관계로, 데이터베이스 내 훈련용 이미지로부터의 객체 인식에 있어서는 높은 성능을 보일 수 있는 반면, 데이터베이스 내 훈련용 이미지와는 별도의 신규 이미지로부터의 객체 인식에 대해서는 높은 성능을 기대하기가 어렵다.

다시 말해, 기존 객체 인식 기술에서 객체 클래스 위주의 훈련용 이미지로 학습데이터를 구성하는 경우, 객체 클래스에 없는 신규 이미지를 분석 시 긍정 오류(false positive)가 발생할 수 있으며, 이는 객체 인식 기술이 활용될 수 있는 다양한 서비스에서 사용자의 룩앤필(look and feel)을 저해하게 되는 결과를 초래할 수 있다.

이와 관련하여, 도 3 (a)에는 데이터베이스에 지정된 객체 클래스인 고양이와 개 이외에, 신규 이미지에 해당하는 객체 클래스인 하이에나를 분석하는 경우를 예시적으로 보여주고 이다.

이 경우, 기존 객체 인식 기술에서는 기존 객체 클래스 위주의 훈련용 이미지 이외에 신규 객체 클래스인 하이에나 이미지가 입력됨에 따라, 해당 이미지 내 객체를 하이에나와 유사한 고유 특징이 관찰되는 개로 인식하게 되는 긍정 오류(false positive)가 발생할 수 있는 것이다.

또한, 도 3 (b)에는 데이터베이스에 지정된 객체 클래스인 고양이와 개 이외에, 신규 이미지에 해당하는 객체 클래스인 호랑이 이미지를 분석하는 경우를 예시적으로 보여주고 이다.

이 경우도 마찬가지로, 기존의 객체 인식 기술에서는 기존 객체 클래스 위주의 훈련용 이미지 이외에 신규 객체 클래스에 해당하는 호랑이 이미지가 입력됨에 따라, 해당 이미지 내 객체를 호랑이와 유사한 고유 특징이 관찰되는 고양이로 인식하게 되는 긍정 오류(false positive)가 발생할 수 있다.

물론, 신규 이미지를 새로운 객체 클래스로 학습하는 방식을 통해 전술의 긍정 오류의 문제점을 극복할 수 있겠으나, 실제 모든 객체의 이미지를 객체 클래스로서 학습하는 것은 불가능한 것이 현실이다.

이에, 본 발명의 일 실시예에서는 기 학습된 객체 클래스에 없는 신규 객체 클래스의 이미지를 분석하는 경우에 발생될 수 있는 긍정 오류(false positive)를 최소화할 수 있는 새로운 방안을 제안하고자 하며, 이하에서는 이를 실현하기 위한 객체인식장치(100)의 구성에 대해 구체적으로 설명하기로 한다.

도 4는 본 발명의 일 실시예에 따른 객체인식장치(100)의 구성을 보여주고 있다.

도 4에 도시된 바와 같이, 본 발명의 일 실시예에 따른 객체인식장치(100)는 인식대상객체를 확인하는 확인부(10), 및 인식대상객체가 어떠한 객체 클래스로 분류되는지를 판단하는 판단부(20)를 포함하는 구성을 가질 수 있다.

또한, 본 발명의 일 실시예에 따른 객체인식장치(100)는 전술한 구성 이외에, 판단 결과에 대한 검증정보를 획득하는 획득부(30), 및 학습데이터를 생성하는 생성부(40)를 더 포함할 수 있다.

이러한, 객체인식장치(100)의 구성 전체 내지는 적어도 일부는 하드웨어 모듈 형태 또는 소프트웨어 모듈 형태로 구현되거나, 하드웨어 모듈과 소프트웨어 모듈이 조합된 형태로도 구현될 수 있다.

특히, 객체인식장치(100) 내 확인부(10) 및 판단부(20)의 구성의 경우, 본 발명의 일 실시예에 따라 정의되는 각각의 객체 클래스를 학습하기 위한 인식 모델(예: 딥러닝 모델)인 것으로 이해될 수 있다.

여기서, 객체 클래스의 경우, 15~25개의 중분류 규모로 소정의 주기마다 다르게 정의될 수 있으며, 이와 관련하여 아래 [표 1]에는 이처럼 정의되는 객체 클래스를 예시적으로 확인할 수 있다.

객체 클래스	설명
인물	Baby, Woman 등
Food(식품)	김치, 피자, 치킨 등
Food(디저트)	Bread, Coffee 등
스포츠	Baseball 등
문서/텍스트	Chatting, doc 등
자연/경치	Mounting 등
이벤트	회식, 술자리, 생일파티 등
강아지	Dog
고양이	Cat
동물	Dog, Cat을 제외한 동물
자동차	Car
건물	타워, 빌딩 등
이동수단	자동차 외 이동수단
기타	기타 항목들

참고로, 본 발명의 일 실시예에 따른 객체 클래스의 경우, 아래 [표 2]에서와 같이 예컨대, 70개의 소분류 규모로 소정의 주기마다 다르게 정의될 수 있음은 물론이다.

번호	객체 클래스
1	Airplane
2	Baby
3	Baseball
4	BaseballStadium
5	Basketball
6	Beach
7	BeerBottle
8	BeerCup
9	Bicycle
10	Book
11	Bread
12	Cake
13	Car
14	Cat
15	Chatting
16	Coffee
17	Document
18	Dog
19	Drink
20	Flower
...	...
...	...
...	...
67	Tree
68	Valley
69	Whiteboard
70	Woman

한편, 본 발명의 일 실시예에 따른 객체인식장치(100)는 전술한 구성 이외에, 이미지 획득을 위해 타 장치(또는 도메인)와의 통신 기능이 요구되는 경우, 해당 기능을 담당하는 RF 모듈인 통신부(50)를 더 포함할 수 있다.여기서, 통신부(50)는 예컨대, 안테나 시스템, RF 송수신기, 하나 이상의 증폭기, 튜너, 하나 이상의 발진기, 디지털 신호 처리기, 코덱(CODEC) 칩셋, 및 메모리 등을 포함하지만 이에 제한되지는 않으며, 이 기능을 수행하는 공지의 회로는 모두 포함할 수 있다.

결국, 본 발명의 일 실시예에 따른 객체인식장치(100)는 전술한 구성을 통해서 기 학습된 객체 클래스에 없는 신규 객체 클래스의 이미지를 분석하는 경우에 발생될 수 있는 긍정 오류(false positive)를 최소화할 수 있는데, 이하에서는 이를 실현하기 위한 객체인식장치(100) 내 각 구성에 대해 보다 구체적으로 설명하기로 한다.

확인부(10)는 인식대상객체를 확인하는 기능을 수행한다.

보다 구체적으로, 확인부(10)는 이미지로부터 인식대상객체를 확인하게 된다.

여기서, 인식대상객체는 이미지에 포함된 객체를 의미하며, 이처럼 객체가 포함된 이미지는, 예컨대, 객체인식장치(100)와는 별도의 장치 또는 도메인 상에 사용자의 계정으로 등록된 이미지이거나, 내지는 객체인식장치(100)에 자체 구축된 데이터베이스 내 훈련 이미지일 수 있다.

판단부(20)는 인식대상객체가 어떠한 객체 클래스로 분류되는지를 판단하는 기능을 수행한다.

보다 구체적으로, 판단부(20)는 이미지로부터 인식대상객체가 확인되면, 확인된 인식대상객체가 기 학습된 객체 클래스 중 어떠한 객체 클래스로 분류되는지를 판단하게 된다.

이때, 판단부(20)는 인식대상객체가 특정 객체 클래스로 분류되는지 여부를 기 정의된 객체 클래스 각각에 대해서 반복하여 판단함으로써, 인식대상객체가 어떠한 객체 클래스로 분류되는지를 판단할 수 있다.

다시 말해, 하나의 인식대상객체가 특정 객체 클래스로 분류되는지 여부를 기 학습된 객체 클래스의 개수만큼 반복하여 판단하는 동작을 통해서 인식대상객체가 어떠한 객체 클래스로 분류되는지를 판단할 수 있는 것이다.

이와 관련하여, 도 5에는 인식대상객체로서 호랑이가 확인되는 경우를 예시적으로 보여주고 있다.

이 경우, 기존 객체 인식 기술(a)에서는 인식대상객체를 기 학습된 다수 개(N개)의 객체 클래스 중 하나에 일치시키는 동작(1번의 N개 예측)을 수행하는 반면, 본 발명의 일 실시예에 따른 객체 인식 기술(b)에서는, 기 학습된 다수 개(N개)의 객체 클래스 각각에 대해서 하나의 인식대상객체가 분류되는지 여부를 반복하여 판단하는 동작(N번의 1개 예측)을 수행한다는 점에서 그 차이를 가짐을 알 수 있다.

이를 좀 더 살펴보면, 도 6 (a)에는 기존 객체 인식 모델(예: Multi classifier 모델)에서의 인식 동작을 예시적으로 보여주고 있다.

도 6 (a)에 도시된 바와 같이, 기존 객체 인식 모델에서는 다수의 레이어(Layer)를 마련하고, 각각의 레이어마다의 인식대상객체에 대한 인식 동작이 이루어지게 되며, 최종 레이어에서는 인식대상객체를 기 학습된 다수 개(N개)의 객체 클래스 중 하나에 일치시키는 동작(1번의 N개 예측)이 처리될 수 있다.

그러나, 이러한 기존 객체 인식 모델에서는 최종 레이어에서 기 학습된 객체 클래스 중 인식대상객체와 일치되는 특정 객체 클래스를 최대한 찾아내려고 하며, 이에 따라 약간의 특징만 일치하더라도 이로 분류해버리는 경향성이 존재하게 되어 객체 인식의 신뢰도를 장담할 수 있다.

반면, 도 6 (b)에는 본 발명의 일 실시예에 따른 객체 인식 모델에서의 인식 동작을 예시적으로 보여주고 있다.

도 6 (b)에 도시된 바와 같이, 본 발명의 일 실시예에 따른 객체 인식 모델에서는 기존 객체 인식 모델과 마찬가지로 다수의 레이어(Layer)를 마련하고, 각각의 레이어마다의 인식대상객체에 대한 인식 동작이 이루어지는 반면, 최종 레이어에서 기 학습된 다수 개(N개)의 객체 클래스 각각에 대해서 하나의 인식대상객체가 분류되는지 여부를 반복하여 판단하는 동작(N번의 1개 예측)을 수행한다.

즉, 기존 객체 인식 모델서는 인식대상객체를 기 학습된 다수 개(N개)의 객체 클래스 중 하나에 일치시키는 동작(1번의 N개 예측)을 수행하는 반면, 본 발명의 일 실시예에 따른 객체 인식 모델에서는, 기 학습된 다수 개(N개)의 객체 클래스 각각에 대해서 하나의 인식대상객체가 분류되는지 여부를 반복하여 판단하는 동작(N번의 1개 예측)을 수행한다는 점에서 그 차이를 갖는다는 것을 다시금 알 수 있다.

이처럼, 본 발명의 일 실시예에서 기 학습된 다수 개(N개)의 객체 클래스 각각에 대해서 하나의 인식대상객체가 분류되는지 여부를 반복하여 판단하는 동작은, 신규 이미지를 분석 시 발생할 수 있는 긍정 오류(false positive)의 문제를 기 학습된 객체 클래스에 대한 인식 성능의 문제로 치환할 수 있는 것이다.

정리하자면, 본 발명의 일 실시예에서는 신규 이미지 내 객체가 기 학습된 객체 클래스로 분류될 수 있는지 여부에 대한 단순 판단만이 이루어지므로, 기존 객체 인식 기술에서 신규 이미지 내 객체를 기 학습된 객체 클래스 중 하나와 일치시키는 동작에 따라 유발될 수 있는 긍정 오류(false positive)의 문제를 최소화할 수 있는 것이다.

그리고, 판단부(20)는 이처럼 인식대상객체에 대해서 기 학습된 객체 클래스 각각으로 분류될 수 있는지 여부를 판단함에 있어서, 인식대상객체와 객체 클래스 간 유사도와 관련하여 정의되는 임계치(Threshold)를 반영할 수 있다.

즉, 판단부(20)는 인식대상객체와 각 객체 클래스를 상호 비교하고, 비교 결과 인식대상객체와의 유사도가 임계치(Threshold) 이상인 특정 객체 클래스가 존재하는 경우 해당 객체 클래스로 인식대상객체가 분류되는 것으로 판단할 수 있는 것이다.

여기서, 임계치(Threshold)는, 본 발명의 일 실시예에 따른 인식 모델에서 어느 정도로 엄격한 기준에 맞는 결과를 리턴할 것인지를 결정하는 기준으로 이해될 수 있다.

일반적으로, 임계치(Threshold)가 높으면, 이미지로부터 정확히 객체를 인식할 수 있는 대신 해당 객체를 인식할 수 있는 이미지의 개수가 상대적으로 줄어들게 되는 반면, 임계치(Threshold)가 낮은 경우에는 많은 이미지로부터 객체를 인식할 수 있으나 인식된 객체의 정확도는 그만큼 낮아지게 된다.

이와 관련하여, 도 7에는 이미지로부터 비행기를 인식하는 경우 임계치(Threshold) 조정에 따른 객체 인식의 정확도 차이를 예시적으로 보여주고 있다.

이를 살펴보면, 임계치(Threshold)를 0.5로 결정한 경우(a)에는, 비행기가 아닌 객체를 포함한 이미지의 개수가 5개인 반면, 임계치(Threshold) 0.9를 결정한 경우(b)에는 비행기가 아닌 객체를 포함한 이미지의 개수가 2개로서 임계치(Threshold)가 높을수록 객체 인식의 정확도가 그 만큼 높아진 것을 확인할 수 있다.

또한 이처럼 객체 인식의 정확도와 직결되는 임계치(Threshold)는, 기 정의된 객체 클래스 각각에 대해 개별적으로 결정될 수 있으며, 이때의 임계치(Threshold) 값은, 각 객체 클래스에 대해 인식대상객체가 해당되는지 여부를 판단한 판단 결과에서 오 판단이 차지하는 비율에 따라 결정될 수 있다.

즉, 각 객체 클래스에 대해 인식대상객체가 해당되는지 여부를 판단한 판단 결과에서 오 판단이 차지하는 비율이 높은 경우, 임계치(Threshold)를 상대적으로 높은 값으로 결정할 수 있는 것이며, 반대의 경우에는 임계치(Threshold)를 상대적으로 낮은 값으로 결정하거나 혹은 이전의 값을 그대로 유지할 수 있는 것이다.

참고로, 기존 객체 인식 기술에서도, 각 객체 클래스 별 임계치(Threshold)가 적용되고 있다.

그러나, 본 발명의 일 실시예에서는 신규 이미지 내 객체가 기 학습된 객체 클래스로 분류되는지 여부에 대한 단순 판단하는 방식을 통해 기존 객체 인식 기술이 안고 있는 긍정 오류(false positive)의 문제점을 최소화하고 있으므로, 객체 클래스 별 임계치를 기존과 동일하게 적용한다 하더라도, 기존 객체 인식 기술보다 높은 인식 성능을 기대할 수 있다.

한편, 본 발명의 일 실시예에서는 이미지로부터 확인되는 인식대상객체가 하나가 아닌 다수인 경우를 가정할 수 있다.

이 경우, 판단부(20)는 이미지로부터 확인되는 다수의 인식대상객체에 대해 개별적으로

각 객체 클래스로 분류되는지 여부를 판단하는 전술의 동작을 수행하게 된다.

이는, 다수의 인식대상객체 각각에 대해 고유의 인식 모델이 개별적으로 할당되는 것으로 이해될 수 있으며, 이러한 인식 모델의 개별적인 할당은, 하나의 인식 모델이 이미지 내 모든 객체를 인식해야 하는 기존 객체 인식 기술과는 차별을 둘 수 있다.

획득부(30)는 인식대상객체에 대해 판단한 판단 결과에 대해서 검증정보를 획득하는 기능을 수행한다.

보다 구체적으로, 획득부(30)는 각 객체 클래스에 대해 인식대상객체가 해당되는지 여부에 대한 판단이 완료되면, 해당 판단 결과에 대한 검증정보를 각 객체 클래스에 대해서 획득하게 된다.

여기서, 검증정보는, 판단 결과의 진위를 검증한 정보로서, 이는 도 8에 도시된 바와 같이 각 객체 클래스 별로 분류된 판단 결과에 대해 인력이 참여하여 직접 참(0) 또는 거짓(X)을 채점하는 방식을 통해서 생성될 수 있다.

생성부(40)는 학습데이터를 생성하는 기능을 수행한다.

보다 구체적으로, 생성부(40)는 객체 클래스 각각에 대해서 검증정보가 획득되면, 이처럼 획득된 객체 클래스 별 검증정보를 객체 클래스 각각을 학습하기 위한 객체 클래스 별 학습데이터로 생성하게 된다.

여기서, 학습데이터는 인식 모델에서의 긍정 오류의 문제를 개선하기 위한 데이터로서, 검증정보 내 검증 결과가 거짓인 경우만이 포함될 수 있으며, 이에 제한되는 것이 아닌, 검증정보 내 검증 결과가 참인 경우도 함께 포함될 수 있음은 물론이다.

한편, 객체 클래스 각각에 대해서 획득되는 검증정보의 경우, 이처럼 객체 클래스 각각을 학습하기 위한 객체 클래스 별 학습데이터를 생성하는데 이용될 뿐만 아니라, 각 객체 클래스에 대해 인식대상객체가 분류되는지 여부를 판단함에 있어서 유사도 임계치(Threshold)를 결정하는데 반영될 수 있음은 물론이다.

참고로, 검증정보의 생성으로부터 학습데이터 생성으로까지 이어지는 본 발명의 일 실시예에서의 전술한 동작은, 인력 참여가 요구된다는 점에서 기존 객체 인식 기술과는 공통될 수 있다.

다만, 본 발명의 일 실시예에서는 도 9에 도시된 바와 같이 학습데이터 생성에 있어서 각 이미지 별로 모든 객체 클래스의 위치를 박스 표기하는 레이블링(Labeling) 동작을 인력에 의존해야 하는 기존 객체 인식 기술에 비해, 학습데이터를 생성하기까지의 일련의 과정에서, 판단 결과의 진위를 채점하는 단순한 동작에 대해서만 인력의 참여가 요구되므로, 인력의 개입 정도가 효과적으로 개선되고 있음을 알 수 있다.

이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 객체인식장치(100)의 구성에 따르면, 이미지 내 인식대상객체가 특정 객체 클래스에 해당되는지 여부에 대한 단순한 판단 동작이, 기 학습된 객체 클래스 각각에 대해서 반복하여 이루어지므로, 기존 객체 인식 기술에서 신규 이미지 내 객체를 기 학습된 객체 클래스 중 하나와 일치시키는 동작에 따라 유발될 수 있는 긍정 오류(false positive)의 문제를 최소화할 수 있다.

이하에서는, 도 10을 참조하여 본 발명의 일 실시예에 따른 객체인식장치(100)의 동작 방법을 설명하기로 한다.

먼저, 확인부(10)는 이미지로부터 인식대상객체를 확인한다(S10).

그리고 나서, 판단부(20)는 이미지로부터 인식대상객체가 확인되면, 확인된 인식대상객체가 기 학습된 객체 클래스 중 어떠한 객체 클래스로 분류되는지를 판단한다(S20).

이때, 판단부(20)는 기 학습된 객체 클래스 각각에 대해서 인식대상객체가 분류되는지 여부에 대한 판단을 반복함으로써, 인식대상객체가 어떠한 객체 클래스로 분류되는지를 판단할 수 있다.

이와 관련하여, 앞서 예시한 도 5에는 인식대상객체로서 호랑이가 확인되는 경우를 예시적으로 보여주고 있다.

이와 관련하여, 앞서 예시한 도 7에는 이미지로부터 비행기를 인식하는 경우 임계치(Threshold) 조정에 따른 객체 인식의 정확도 차이를 예시적으로 보여주고 있다.

이 경우, 판단부(20)는 이미지로부터 확인되는 다수의 인식대상객체에 대해 개별적으로 각 객체 클래스로 분류되는지 여부를 판단하는 전술의 동작을 수행하게 된다.

나아가 획득부(30)는 각 객체 클래스에 대해 인식대상객체가 해당되는지 여부에 대한 판단이 완료되면, 해당 판단 결과에 대한 검증정보를 각 객체 클래스에 대해서 획득한다(S30).

이후, 생성부(40)는 객체 클래스 각각에 대해서 검증정보가 획득되면, 이처럼 획득된 객체 클래스 별 검증정보를 객체 클래스 각각을 학습하기 위한 객체 클래스 별 학습데이터로 생성한다(S40).

다만, 본 발명의 일 실시예에서는 앞서 예시한 도 9에 도시된 바와 같이 학습데이터 생성에 있어서 각 이미지 별로 모든 객체 클래스의 위치를 박스 표기하는 레이블링(Labeling) 동작을 인력에 의존해야 하는 기존 객체 인식 기술에 비해, 학습데이터를 생성하기까지의 일련의 과정에서, 판단 결과의 진위를 채점하는 단순한 동작에 대해서만 인력의 참여가 요구되므로, 인력의 개입 정도가 효과적으로 개선되고 있음을 알 수 있다.

이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 객체인식장치(100)의 동작 방법에 따르면, 이미지 내 인식대상객체가 특정 객체 클래스에 해당되는지 여부에 대한 단순한 판단 동작이, 기 학습된 객체 클래스 각각에 대해서 반복하여 이루어지므로, 기존 객체 인식 기술에서 신규 이미지 내 객체를 기 학습된 객체 클래스 중 하나와 일치시키는 동작에 따라 유발될 수 있는 긍정 오류(false positive)의 문제를 최소화할 수 있다.

한편, 본 발명의 일 실시예에 따른 객체인식장치의 동작 방법은, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

지금까지 본 발명을 바람직한 실시 예를 참조하여 상세히 설명하였지만, 본 발명이 상기한 실시 예에 한정되는 것은 아니며, 이하의 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 또는 수정이 가능한 범위까지 본 발명의 기술적 사상이 미친다 할 것이다.

본 발명의 객체인식장치 및 그 동작 방법에 따르면, 기 학습된 객체 클래스에 없는 신규 객체 클래스의 이미지를 분석하는 경우에 발생될 수 있는 긍정 오류(false positive)를 최소화할 수 있다는 점에서, 기존 기술의 한계를 뛰어 넘음에 따라 관련 기술에 대한 이용만이 아닌 적용되는 장치의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.

100: 객체인식장치
10: 확인부 20: 판단부
30: 획득부 40: 생성부

Claims

복수 개의 레이어로 구성된 딥러닝 모델을 기반으로, 이미지에 포함된 객체를 N개(N은 복수임)의 객체 클래스로 분류하는 객체인식장치로서,
이미지에 포함된 인식대상객체를 확인하는 확인부; 및
상기 딥러닝 모델의 최종 레이어에서, 상기 인식대상객체가 특정 객체 클래스로 분류되는지 여부를 상기 N개의 객체 클래스 각각에 대하여 개별적으로 판단하는 판단부를 포함하며,
상기 N개의 객체 클래스 각각에 대해서 판단 결과의 진위를 검증한 검증정보를 획득하는 획득부를 더 포함하며,
상기 N개의 객체 클래스 각각에 대한 검증정보는,
상기 N개의 객체 클래스 각각을 학습하기 위한 학습데이터로 이용되거나 상기 N개의 객체 클래스 각각의 유사도 임계치(Threshold) 결정에 이용되는 것을 특징으로 하는 객체인식장치.
삭제
삭제
제 1 항에 있어서,
상기 판단부는,
상기 인식대상객체와 상기 N개의 객체 클래스 각각을 상호 비교하여, 비교 결과 상기 인식대상객체와의 유사도가 임계치(Threshold) 이상인 특정 객체 클래스가 존재하는지를 판단하는 것을 특징으로 하는 객체인식장치.
제 4 항에 있어서,
상기 임계치는,
상기 N개의 객체 클래스 각각에 대해 판단된 판단 결과에서 오 판단 결과가 차지하는 비율에 따라 상기 N개의 객체 클래스 각각에 대해서 결정되는 것을 특징으로 하는 객체인식장치.
제 1 항에 있어서,
상기 판단부는,
상기 인식대상객체가 2 이상인 경우, 상기 2 이상의 인식대상객체 각각에 대해서 특정 객체 클래스로 분류되는지 여부를 상기 N개의 객체 클래스 각각에 대해서 반복하여 판단하는 것을 특징으로 하는 객체인식장치.
복수 개의 레이어로 구성된 딥러닝 모델을 기반으로, 이미지에 포함된 객체를 N개(N은 복수임)의 객체 클래스로 분류하는 객체인식장치의 동작 방법에 있어서,
이미지에 포함된 인식대상객체를 확인하는 확인단계; 및
상기 딥러닝 모델의 최종 레이어에서, 상기 인식대상객체가 특정 객체 클래스로 분류되는지 여부를 상기 N개의 객체 클래스 각각에 대하여 개별적으로 판단하는 판단단계를 포함하며,
상기 N개의 객체 클래스 각각에 대해서 판단 결과의 진위를 검증한 검증정보를 획득하는 획득단계를 더 포함하며,
상기 N개의 객체 클래스 각각에 대한 검증정보는,
상기 N개의 객체 클래스 각각을 학습하기 위한 학습데이터로 이용되거나 상기 N개의 객체 클래스 각각의 유사도 임계치(Threshold) 결정에 이용되는 것을 특징으로 하는 객체인식장치의 동작 방법.
삭제
삭제
제 7 항에 있어서,
상기 판단단계는,
상기 인식대상객체와 상기 N개의 객체 클래스 각각을 상호 비교하여, 비교 결과 상기 인식대상객체와의 유사도가 임계치(Threshold) 이상인 특정 객체 클래스가 존재하는지를 판단하는 것을 특징으로 하는 객체인식장치의 동작 방법.
제 10 항에 있어서,
상기 임계치는,
상기 N개의 객체 클래스 각각에 대해 판단된 판단 결과에서 오 판단 결과가 차지하는 비율에 따라 상기 N개의 객체 클래스 각각에 대해서 결정되는 것을 특징으로 하는 객체인식장치의 동작 방법.
제 7 항에 있어서,
상기 판단단계는,
상기 인식대상객체가 2 이상인 경우, 상기 2 이상의 인식대상객체 각각에 대해서 특정 객체 클래스로 분류되는지 여부를 상기 N개의 객체 클래스 각각에 대해서 반복하여 판단하는 것을 특징으로 하는 객체인식장치의 동작 방법.