KR20200002770A

KR20200002770A - 객체 인식을 위한 자가 학습 장치 및 방법

Info

Publication number: KR20200002770A
Application number: KR1020190179335A
Authority: KR
Inventors: 이철희
Original assignee: 연세대학교 산학협력단
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-01-08
Also published as: KR102157007B1

Abstract

객체 인식을 위한 자가 학습 장치 및 방법이 개시된다. 개시된 장치는, 학습할 객체에 상응하는 키워드에 기초하여 범용 검색 엔진을 통해 학습 영상을 획득하는 학습 영상 획득부; 상기 학습 영상 획득부에서 획득한 학습 영상을 학습을 위해 입력하는 영상 입력부; 상기 영상 입력부로부터 입력되는 영상에 대한 객체 인식을 학습하는 학습 네트워크; 상기 학습 네트워크의 인식 성능을 평가하는 학습 평가부; 및 상기 학습 평가부의 평가 결과에 기초하여 상기 학습 네트워크의 학습 방향을 설정하는 학습 방향 설정부를 포함한다. 개시된 장치 및 방법에 의하면, 학습 데이터가 충분히 확보되지 않은 상태에서도 적절한 학습이 가능하고, 자동적으로 학습 영상을 확보하면서 학습의 적절성을 진단할 수 있는 장점이 있다.

Description

객체 인식을 위한 자가 학습 장치 및 방법{Self-Learning Device and Device for Object Detection}

본 발명은 자가 학습 장치 및 방법에 관한 것으로서, 더욱 상세하게는 객체 인식을 위한 자가 학습 장치 및 방법에 관한 것이다.

근래에 들어 딥러닝은 얼굴 인식, 전신 인식, 자세 인식, 음성 인식, 객체 인식, 데이터 마이닝 등 다양한 인식에 적용되고 있다. 특히, 영상으로부터 특정 객체를 인식하는 객체 인식과 딥러닝 학습 네트워크를 접목시키는 연구는 다양한 방식으로 활발히 이루어지고 있다.

딥러닝에 의한 객체 인식의 가장 큰 장점은 기존에는 연구자들이 인식을 위해 구축한 최적의 특징(SIFT, LBP, HOG 등) 설계에 많은 노력이 필요했지만 딥러닝은 데이터로부터 자연스러운 특징을 스스로 학습할 수 있어 해당 분야 전문가의 지식이나 응용 분야의 제한을 적게 받는다는 점이다.

이러한 장점에도 불구하고, 딥러닝을 이용한 객체 인식은 여전히 초기 단계여서 인식률이 높지 않다.

딥러닝과 같이 학습에 의해 객체 인식이 이루어지려면 충분한 학습 데이터가 확보된 상태에서 학습이 이루어져야 제기능이 발휘될 수 있다. 그러나, 객체 인식 학습을 위한 신뢰성 있는 영상의 수는 극히 적은 편이어서 트레이닝을 위한 학습 영상을 확보하는 데에는 상당한 어려움이 있다.

또한, 기존의 객체 인식을 위한 학습은 입력 영상에 대해 참값(Ground Truth)을 제시하면서 참값과 학습 네트워크의 출력값과의 에러값을 역전파(Propagation)하는 방식으로 이루어지는 지도형 학습인데, 이러한 지도형 학습은 강화 학습과는 달리 참값과 입력 영상이 관리자에 의해 관리되어야 하므로 완전히 자동적인 학습이 이루어지기 어려운 문제점이 있었다.

본 발명은 학습 데이터가 충분히 확보되지 않은 상태에서도 적절한 학습이 가능한 객체 인식을 위한 자가 학습 장치 및 방법을 제안한다.

또한, 본 발명은 자동적으로 학습 영상을 확보하면서 학습의 적절성을 진단할 수 있는 자가 학습 장치 및 방법을 제안한다.

상기한 목적을 달성하기 위해 본 발명의 일 실시예에 따르면, 학습할 객체에 상응하는 키워드에 기초하여 범용 검색 엔진을 통해 학습 영상을 획득하는 학습 영상 획득부; 상기 학습 영상 획득부에서 획득한 학습 영상을 학습을 위해 입력하는 영상 입력부; 상기 영상 입력부로부터 입력되는 영상에 대한 객체 인식을 학습하는 학습 네트워크; 상기 학습 네트워크의 인식 성능을 평가하는 학습 평가부; 및 상기 학습 평가부의 평가 결과에 기초하여 상기 학습 네트워크의 학습 방향을 설정하는 학습 방향 설정부를 포함하는 객체 인식을 위한 자가 학습 장치가 제공된다.

상기 학습 평가부는 미리 설정된 수의 학습 영상 또는 미리 설정된 시간에 대해 학습이 이루어진 후 인식 성능을 평가한다.

상기 영상 입력부는 상기 학습 영상에서 배경 영역을 제거하는 배경 제거부를 포함하며 배경 영역이 제거된 영상을 상기 학습 네트워크에 입력한다.

상기 영상 입력부는 상기 학습 영상의 객체의 형태를 변형시키는 객체 형태 변형부를 포함하며, 객체의 형태가 변형된 영상을 상기 학습 네트워크에 입력한다.

상기 학습 네트워크는 다양한 가로:세로 비율을 갖는 필터들을 저장하는 필터 뱅크부; 상기 필터 뱅크부에 저장된 필터들 중 선택된 필터를 이용하여 컨볼루션 연산을 수행하는 컨볼루션 연산부; 및 샘플링을 적용하여 영상의 사이즈를 축소하는 풀링부를 포함한다.

상기 컨볼루션 연산부는 각 레이어별로 필터를 선택하여 컨볼루션 연산을 수행한다.

상기 컨볼루션 연산부는 객체의 사이즈 및 객체의 특성 정보를 이용하여 필터를 선택하고 상기 객체의 특성 정보는 객체의 컬러 및 형태를 포함한다.

상기 학습 방향 설정부는 상기 학습 평가부에서 출력하는 평가 점수가 미리 설정된 제1 경계값 이하일 경우 학습을 중지하도록 제어한다.

상기 학습 방향 설정부는 상기 학습 평가부에서 출력하는 평가 점수가 상기 제1 경계값 이상이고 미리 설정된 제2 경게값 이하일 경우 상기 학습 네트워크의 파라미터를 변경한다.

상기 네트워크 파라미터는 필터의 사이즈 및 필터의 가로:세로 비율을 포함하고, 상기 학습 방향 설정부는 각 레이어별로 필터의 가로:세로 비율 및 필터의 사이즈 중 적어도 하나를 변경한다.

본 발명의 다른 측면에 따르면, 다양한 가로:세로 비율을 갖는 필터들을 저장하는 필터 뱅크부; 상기 필터 뱅크부에 저장된 필터들 중 선택된 필터를 이용하여 컨볼루션 연산을 수행하는 컨볼루션 연산부; 및 샘플링을 적용하여 입력 영상의 사이즈를 축소하는 풀링부를 포함하는 객체 인식을 위한 학습 네트워크 장치가 제공된다.

본 발명의 또 다른 측면에 따르면, 학습할 객체에 상응하는 키워드에 기초하여 범용 검색 엔진을 통해 학습 영상을 획득하는 단계(a); 상기 단계(a)에서 획득한 학습 영상을 학습을 위해 입력하는 단계(b); 상기 단계(b)에서 입력되는 영상에 대한 객체 인식을 학습하는 단계(c); 상기 단계(c)의 학습에 따른 인식 성능을 평가하는 단계(d); 및 상기 단계(d)의 평가 결과에 기초하여 상기 단계(c)의 학습 방향을 설정하는 단계(e)를 포함하는 객체 인식을 위한 자가 학습 방법이 제공된다.

본 발명에 의하면, 학습 데이터가 충분히 확보되지 않은 상태에서도 적절한 학습이 가능한 장점이 있다.

또한 본 발명에 의하면, 자동적으로 학습 영상을 확보하면서 학습의 적절성을 진단할 수 있는 장점이 있다.

도 1은 본 발명의 일 실시예에 따른 객체 인식을 위한 자가 학습 장치의 구성을 도시한 블록도.
도 2는 본 발명의 일 실시예에 따른 학습 영상 획득부의 구조를 도시한 블록도.
도 3은 본 발명의 일 실시예에 따른 영상 입력부의 구성을 도시한 블록도.
도 4는 본 발명의 일 실시예에 따른 학습 네트워크의 모듈 구성을 도시한 블록도.
도 5는 본 발명의 일 실시예에 따른 학습 네트워크의 신경망 구조를 나타낸 도면.
도 6은 본 발명의 일 실시예에 따른 학습 평가부의 동작 구조를 나타낸 도면.
도 7은 본 발명의 일 실시예에 따른 객체 인식을 위한 자가 학습 방법의 전체적인 흐름을 도시한 순서도.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

이하에서, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 객체 인식을 위한 자가 학습 장치의 구성을 도시한 블록도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 객체 인식을 위한 자가 학습 장치는 학습 영상 획득부(100), 영상 입력부(110), 학습 네트워크(120), 학습 평가부(130) 및 학습 방향 설정부(140)를 포함할 수 있다.

학습 영상 획득부(100)는 학습을 위한 영상을 범용 검색 엔진을 이용하여 인터넷 공간으로부터 획득하는 기능을 한다.

학습을 통해 객체를 인식하는 네트워크는 충분한 학습 데이터를 이용하여 학습을 할 때 적절한 성능을 낼 수 있다. 그런데, 객체 인식을 위한 학습 데이터는 매우 한정적이다. 상용의 데이터베이스를 통해 학습 영상을 제공받을 수 있으나 이러한 상용의 데이터베이스로부터 획득할 수 있는 학습 가능한 영상의 수는 매우 제한적이기 때문에 상용의 데이터베이스에서 확보할 수 있는 데이터만으로는 적절한 성능을 위한 학습이 이루어지기 어렵다. 특히, 특정 객체에 대해서는 극히 적은 수의 학습 영상만을 확보할 수 있어 학습이 매우 어려운 문제점이 있다.

이와 같은 문제점을 해결하기 위해, 학습 영상 획득부(100)는 학습 영상을 인터넷 공간에서 획득하도록 동작한다.

도 2는 본 발명의 일 실시예에 따른 학습 영상 획득부의 구조를 도시한 블록도이다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 학습 영상 획득부는 키워드 입력부(200), 검색부(210) 및 학습 영상 선택부(220)를 포함한다.

키워드 입력부(200)는 인터넷의 범용 검색 엔진을 이용한 검색을 위해 학습 대상 객체의 객체명에 상응하는 키워드를 입력받는다. 예를 들어, 학습하려는 객체가 '고양이'일 경우, '고양이'라는 키워드를 입력받는다. 입력받는 키워드는 대표 키워드뿐만 아니라 함께 유사어도 포함할 수 있다. 예를 들어, '고양이'와 관련하여 'cat', '야옹이'와 같은 유사어를 함께 입력받을 수도 있을 것이다.

또한, 키워드 입력부(200)는 학습 대상 객체의 동작, 장소 등을 제한하는 한정 키워드를 추가적으로 입력받을 수 있을 것이다. 예를 들어, '달리는' 또는 'running'과 같이 동작을 한정하는 한정 키워드가 함께 입력될 수 있다. 또한, "in the park"와 같이 장소를 한정하는 키워드가 함께 입력될 수도 있을 것이다.

검색부(210)는 키워드 입력부(200)를 통해 입력된 키워드를 이용하여 영상 검색을 수행한다. 검색부(210)는 다양한 범용 검색 엔진을 이용하여 키워드에 상응하는 영상을 검색할 수 있다. 예를 들어, 검색부(210)는 구글(Google) 검색 엔진을 이용하여 인터넷을 통해 액세스 가능한 영상들을 검색할 수 있을 것이다.

학습 영상 선택부(220)는 검색부(210)가 검색한 영상들로부터 학습에 이용할 학습 영상을 선택한다. 학습 영상 선택부(220) 다양한 선택 기준에 의해 학습 영상을 선택할 수 있다. 예를 들어, 검색 엔진에서 제공하는 유사도 정보를 이용하여 학습 영상을 선택할 수도 있으며, 별도의 유사도 판단 알고리즘을 적용하여 학습 영상을 선택할 수도 있을 것이다.

다시 도 1을 참조하면, 영상 입력부(110)는 학습 영상 획득부(100)에서 획득하는 학습 영상을 학습 네트워크(120)에 입력하는 기능을 한다. 영상 입력부(110)는 학습 영상 획득부(100)에서 획득한 영상을 그대로 입력할 수도 있으며, 영상에 변형을 가한 후 학습 네트워크(120)에 입력할 수도 있다.

영상 입력부(110)는 학습 영상과 함께 학습 영상의 객체명을 함께 제공한다.

도 3은 본 발명의 일 실시예에 따른 영상 입력부의 구성을 도시한 블록도이다.

도 3을 참조하면, 본 발명의 일 실시예에 따른 영상 입력부는 배경 제거부(300), 객체 형태 변형부(310) 및 입력부(320)를 포함할 수 있다.

배경 제거부(300)는 학습 영상 획득부(100)에서 획득한 학습 영상에 대해 배경 영역을 제거하고 객체만이 영상에 존재하도록 학습 영상을 변형시킨다. 영상에서 객체 영역과 배경 영역을 분리하는 다양한 방법이 알려져 있으며, 알려진 방법 중 어느 하나를 이용하여 배경 영역을 제거하고 객체만이 존재하도록 영상 변형이 가능하다.

일례로, 배경 제거부(300)는 배경 영역을 모두 널(nul) 값으로 변경하는 변형을 수행할 수 있을 것이다.

객체 형태 변형부(310)는 특정 상태의 객체를 인식하고자 하는 경우 해당 상태에 상응하도록 객체 변형을 수행한다. 예를 들어, "달리는 고양이(running cat)", "먹는 고양이(eating cat)"과 같이 특정 동작을 수행하는 고양이에 대한 인식을 학습하고자 하는 경우가 발생한다. 이러한 상태에 맞는 영상은 인터넷으로부터도 수집 및 학습에는 많은 자원이 소요됨으로 효율적이지 못하다.

객체 형태 변형부(310)는 이러한 동작에 상응하도록 학습 영상을 변형시키며, 이러한 변형은 미리 설정된 알고리즘 또는 머신 러닝 기술에 의해 이루어질 수 있다.

물론 배경 제거부(300) 및 객체 형태 변형부(310)에서의 영상 변형이 필수적인 것은 아니며 필요에 따라 선택적으로 수행될 수 있을 것이다.

입력부(320)는 학습 영상 획득부(100)에서 획득한 영상을 별다른 변형 없이 학습 네트워크(120)에 입력하거나 객체 영역 추출부(300) 또는 객체 형태 변형부(310)를 통해 변환된 변환 영상을 학습 네트워크(120)에 입력한다. 즉 본 발명에서는 입력된 개체에 다양한 형태 변형을 통하여 한정된 수의 학습데이터를 가지고 효율적인 학습이 이루어 지도록한다. 또한 형태 변형 알고리즘의 성능 평가를 위하여 정지 상태의 물체에 움직임을 적용하는 경우 이에 해당하는 영상을 검색하여 성능 검증 및 개선을 도모할 수 있다.

학습 네트워크(120)는 영상 입력부(110)를 통해 입력되는 영상을 이용하여 학습을 수행한다. 학습 네트워크(120)는 객체명을 레퍼런스로 하여 입력 영상에 대해 학습을 수행한다.

학습 네트워크(120)는 영상에 대해 필터를 이용하여 컨볼루션(Convolution) 연산을 수행하는 다수의 컨볼루션 레이어와 영상의 사이즈를 축소하는 풀링(Pooling) 레이어를 포함할 수 있다. 학습 네트워크는 컨볼루션 레이어에 적용되는 다수의 필터들의 계수를 변경하면서 학습을 수행하게 된다.

도 4는 본 발명의 일 실시예에 따른 학습 네트워크의 모듈 구성을 도시한 블록도이다.

도 4를 참조하면, 본 발명의 일 실시예에 따른 학습 네트워크는 필터 뱅크부(400), 컨볼루션 연산부(410) 및 풀링부(420)를 포함한다.

필터 뱅크부(400)는 컨볼루션 연산에 적용될 다수의 필터를 저장한다. 대표적인 신경망 네트워크인 CNN(Convolutional Neural Netwrk) 등은 고정된 사이즈이고 가로:세로 비율이 동일한 필터를 이용한다. 예를 들어, 15 X 15 사이즈의 필터를 이용하여 컨볼루션 연산을 수행한다.

본 발명의 필터 뱅크부(400)는 가로:세로 비율이 동일한 필터뿐만 아니라 가로:세로 비율이 상이한 다양한 종류의 필터를 저장한다. 예를 들어, 가로:세로 비율이 5:3, 7:4 등과 같이 다양한 종류의 필터를 저장하여 동시에 사용하는 것이다. 또한 중간 레이어의 결과 값에 따라 필터의 종류를 선택하여 사용할 수도 있다.

컨볼루션 연산부(410)는 필터 뱅크부(400)에 저장된 다양한 종류의 필터 중 하나를 선택하여 컨볼루션 연산을 수행한다. 컨볼루션 연산부(410)는 각 컨볼루션 레이어별로 서로 상이한 가로:세로 비율을 가지는 필터를 이용하여 컨볼루션 연산을 수행할 수도 있다. 컨볼루션 연산에 적합한 필터는 객체의 사이즈와 객체의 다양한 특성 정보 및 현재 레이어 스테이지 넘버를 이용하여 적절히 결정될 수 있다. 예를 들어, 객체의 컬러, 객체의 형태 정보 등이 객체의 특성 정보에 포함될 수 있을 것이다.

이와 같이 다양한 가로:세로 비율의 필터를 적절히 선택하여 컨볼루션 연산을 수행함으로써 입력 영상의 특징 정보를 더욱 효율적으로 추출하는 것이 가능하다.

풀링부(420)는 샘플링을 적용하여 영상의 크기를 축소하는 기능을 한다. 객체 인식을 위한 학습 네트워크(420)는 입력 영상으로부터 적절한 특징 정보를 추출하기 위해 적어도 한번의 풀링을 수행할 수 있다.

도 5는 본 발명의 일 실시예에 따른 학습 네트워크의 신경망 구조를 나타낸 도면이다.

도 5를 참조하면, 본 발명의 일 실시예에 따른 학습 네트워크는 다수의 컨볼루션 레이어(500) 및 풀링 레이어(510)를 포함한다. 도 5에는 개념적 도식화를 위해 컨볼루션 레이어(500) 및 풀링 레이어(510)가 단일 라인으로 구성되어 있으나 실질적으로는 복수의 컨볼루션 레이어(500) 및 풀링 레이어(510)가 병렬적으로 형성되며, 각 레이어별로 서로 다른 필터가 적용될 수 있다.

컨볼루션 및 풀링을 통해 추출되는 특징 정보(530)는 덴스(Dense) 연산 레이어(540)로 입력되고, 덴스 연산 레이어는 입력과 출력을 모두 연결해주는 레이어이다.

도 5에 도시된 바와 같이, 특징 정보의 필터링 및 컨볼루션 연산 시에 적용되는 필터는 서로 다른 가로:세로 비율을 가질 수 있으며, 동시에 모든 필터가 사용될 수 있고, 필요에 따라서는 적절한 필터가 선택되어 필터링이 이루어질 수 있다.

결정부(550)는 덴스(Dense) 연산 레이어에서의 출력 정보를 이용하여 출력 정보가 어떠한 객체에 해당되는지를 판단한다. 예를 들어, 출력 정보가 고양이에 해당되는지 아니면 강아지에 해당되는지 여부를 판단하는 것이다. 결정부(550)는 출력 정보와 레퍼런스 데이터와의 유사도 연산을 통해 객체를 판단할 수 있을 것이다.

다시 도 1을 참조하면, 학습 평가부(130)는 학습 네트워크에서의 학습이 적절한지 여부에 대해 평가하는 기능을 한다. 본 발명의 자가 학습 장치는 웹 검색에 의해 획득하는 영상을 이용하여 학습을 수행하므로 영상의 신뢰성이 충분히 담보되지 않은 상태에서 학습이 이루어질 수도 있다. 따라서, 적절한 학습이 이루어지는지 여부를 판단하기 위해 학습 평가부(130)에서 인식 성능을 평가한다.

본 발명은 크게 두 가지 동작 모드로 이루어지며, 제1 모드는 학습 모드이고, 제2 모드는 평가 모드이며, 학습 평가부(130)는 평가 모드에서 활성화되며, 학습 영상 획득부(100)는 학습 모드에서 활성화된다.

미리 설정된 수의 학습 데이터를 통해 학습이 이루어지거나 미리 설정된 시간 동안 학습이 이루어질 경우 본 발명의 자가 학습 장치는 학습 모드에서 평가 모드로 천이한다.

학습 평가부(130)는 어느 정도 학습이 이루어진 학습 네트워크(120)에 평가 영상을 영상 입력부(110)를 통해 입력시키고 학습 네트워크(120)의 출력을 평가한다. 여기서, 평가는 평가 영상에 포함된 객체를 학습 네트워크(120)가 적절히 인식하는지 여부를 평가하는 것을 의미한다.

도 6은 본 발명의 일 실시예에 따른 학습 평가부의 동작 구조를 나타낸 도면이다.

도 6을 참조하면, 학습 평가부(130)는 영상 입력부(110)에 평가 영상을 입력시킨다. 평가 영상은 신뢰성이 있는 레퍼런스 영상일 수도 있으며, 평가 영상 역시 인터넷으로부터 검색된 영상일 수도 있다.

학습 네트워크(120)는 입력된 평가 영상에 대해 학습된 필터 계수를 적용하여 객체 인식을 수행한다.

평가 영상은 복수개가 입력될 수 있으며, 복수개의 평가 영상에 대한 학습 네트워크(120)의 인식 결과에 기초하여 평가를 수행한다. 예를 들어, 학습 평가부는 복수 평가 영상에 대한 인식률을 비례하는 평가 점수를 출력할 수 있을 것이다. 평가 점수는 중간 레이어 출력 값의 함수로 계산될 수 있다. 평가 함수는 선형 함수, 비선형 함수, 별도의 신경망 등이 사용될 수 있다.

학습 방향 설정부(140)는 학습 평가부(130)의 평가 점수에 기초하여 학습 방향을 설정한다. 학습 평가부(130)의 평가 점수가 미리 설정된 제1 경계값 이하일 경우 학습 방향 설정부(140)는 현재 학습중인 객체에 대한 학습을 중지시킬 수 있다.

학습 평가부(140)의 평가 점수가 제1 경계값보다 큰 제2 경계값 이하일 경우 학습 방향 설정부(140)는 학습 방향에 대한 변경을 시도한다. 일례로, 학습 방향 설정부(140)는 학습 네트워크의 파라미터를 변경하여 학습 방향을 변경할 수 있다.

학습 방향 설정부(140)는 학습 네트워크의 설정된 필터의 수, 필터 사이즈, 필터의 가로:세로 비율, 레이어 수 등과 같은 다양한 파라미터를 변경할 수 있다. 특히, 본 발명의 학습 네트워크는 다양한 종류의 가로:세로 비를 가진 필터를 구비하고 있으므로, 기존에 학습된 필터와 다른 가로:세로 비율을 가지는 필터로 필터 사이즈 변경을 수행할 수 있을 것이다.

학습 방향 설정부(140)는 학습 평가부(140)의 평가 점수가 미리 설정된 제2 경계값 이상일 경우에는 현재의 학습이 적절하다고 판단하고 기존의 학습이 계속적으로 이루어질 수 있도록 한다.

학습 방향 설정부(140)에서의 방향 설정에 따라 본 발명의 객체 인식을 위한 자가 학습 장치의 다음 동작이 결정된다. 학습 방향 설정부(140)에서 학습을 중지하도록 판단한 경우, 현재 학습 개체에 대한 학습이 중지되고 다른 객체에 대한 학습이 이루어질 수 있다.

학습 방향 설정부(140)에서 학습 네트워크의 파라미터를 변경한 경우, 변경된 파라미터를 적용하여 현재 학습 객체 대한 학습이 계속적으로 이루어진다.

도 7은 본 발명의 일 실시예에 따른 객체 인식을 위한 자가 학습 방법의 전체적인 흐름을 도시한 순서도이다.

도 7을 참조하면, 학습 대상 객체에 대한 영상을 범용 검색 엔진을 이용하여 인터넷으로부터 수집한다(단계 700). 학습 대상 객체명 및 해당 객체명과의 유사어를 키워드로 하여 검색을 수행할 수 있다. 또한, 해당 객체의 동작 또는 장소 등을 추가적으로 한정하는 한정 키워드가 함께 입력되어 검색이 이루어질 수도 있다.

학습 대상 객체에 대한 영상이 인터넷으로부터 수집되면, 수집된 영상들 중 학습 영상을 선택한다(단계 710).

선택된 학습 영상에 대해 배경을 제거하는 영상 변형을 수행한다(단계 720). 앞서 설명한 바와 같이, 특정 동작을 수행하는 객체만을 학습하고자 할 경우 해당 동작이 반영되도록 객체 변형이 이루어질 수도 있을 것이다. 물론, 선택된 학습 영상에 대한 별다른 변형이 이루어지지 않아도 무방하다.

변형 또는 변형되지 않은 학습 영상을 학습 네트워크에 입력하여 학습을 수행한다(단계 730).

단계 700 내지 단계 730은 미리 설정된 수의 학습 영상에 대한 학습이 이루어지거나 미리 설정된 시간동안 학습이 이루어질 때가지 반복된다.

미리 설정된 수의 학습 영상에 대한 학습이 완료되거나 미리 설정된 시간 동안 학습이 이루어졌을 경우, 평가 모드로 천이하며 평가 영상을 이용한 학습 평가를 수행한다(단계 740). 앞서 설명한 바와 같이, 평가 영상은 미리 준비된 레퍼런스 영상일 수도 있으며 평가 영상 역시 인터넷으로부터 수집될 수도 있다.

단계 740에서의 평가 결과에 따른 평가 점수에 기초하여 학습 방향을 설정한다(단계 750). 학습 방향의 설정은 학습 중지, 학습 네트워크 파라미터 변경 및 기존 학습 방향 유지 중 어느 하나가 선택되는 방향으로 이루어질 수 있을 것이다.

학습 방향이 설정되면, 설정된 학습 방향에 기초하여 단계 700 내지 단계 730의 학습이 계속적으로 이루어질 수 있다.

상술한 바와 같은 본 발명의 자가 학습 방법 및 장치는 학습 데이터가 충분하지 않은 상태에서도 운영자의 개입 없이 스스로 학습이 가능한 장점이 있다. 또한, 본 발명의 자가 학습 방법 및 장치는 지속적인 평가와 방향 설정을 통해 스스로 학습을 수행하므로 기존의 지도형 학습과 같이 운영자가 학습 데이터를 직접 입력하는 과정 없이 적절한 학습이 가능하도록 한다.

앞서 설명한 기술적 내용들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예들을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 하드웨어 장치는 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims

다양한 가로:세로 비율을 갖는 필터들을 저장하는 필터 뱅크부;
상기 필터 뱅크부에 저장된 필터들 중 선택된 필터를 이용하여 컨볼루션 연산을 수행하는 컨볼루션 연산부; 및
샘플링을 적용하여 입력 영상의 사이즈를 축소하는 풀링부를 포함하는 것을 특징으로 하는 객체 인식을 위한 학습 네트워크 장치.
제1항에 있어서,
상기 컨볼루션 연산부는 각 레이어별로 필터를 선택하여 컨볼루션 연산을 수행하는 것을 특징으로 하는 객체 인식을 위한 학습 네트워크 장치.
제2항에 있어서,
상기 컨볼루션 연산부는 상기 입력 영상에 포함된 객체의 사이즈 및 객체의 특성 정보를 이용하여 필터를 선택하고 상기 객체의 특성 정보는 객체의 컬러 및 형태를 포함하는 것을 특징으로 하는 객체 인식을 위한 학습 네트워크 장치.