KR101982231B1

KR101982231B1 - 객체 인식 장치 및 그 제어 방법

Info

Publication number: KR101982231B1
Application number: KR1020170111365A
Authority: KR
Inventors: 박혜영; 서정인; 최인재
Original assignee: 경북대학교 산학협력단
Priority date: 2017-08-31
Filing date: 2017-08-31
Publication date: 2019-05-24
Also published as: KR20190024400A

Abstract

객체 인식 장치 및 그 제어 방법이 개시된다. 본 발명의 객체 인식 장치의 제어방법은 원본 영상을 다운-샘플링하여 저해상도 영상을 생성하는 단계, 생성된 저해상도 영상의 클래스 정보를 포함하는 영상 레이블(label)을 획득하는 단계, 생성된 저해상도 영상으로부터 복원 영상을 생성하는 단계, 복원 영상의 영상 레이블과 관련된 데이터를 획득하는 단계, 생성된 복원 영상과 원본 영상 간의 복원오차를 산출하는 단계, 획득된 저해상도 영상의 영상 레이블과 획득된 복원 영상의 영상 레이블과 관련된 데이터 간의 분류오차를 산출하는 단계, 및 산출된 복원오차와 산출된 분류오차를 피드백하여 영상 복원 신경망부를 학습시키는 단계를 포함한다.

Description

객체 인식 장치 및 그 제어 방법{OBJECT RECOGNITION APPARATUS AND CONTROLLING METHOD THEREOF}

본 발명은 객체 인식 장치 및 그 제어 방법에 관한 것이다. 보다 상세하게는, 본 발명은 저해상도 영상에서 객체의 인식 성능을 향상시키기 위한 객체 인식 장치 및 그 제어 방법에 관한 것이다.

주어진 영상에 대한 객체 인식 과정에서 가장 큰 어려움은 일루미네이션(illumination), 모양, 배경, 위치 및 해상도와 같은 객체 클래스의 다양한 변화를 처리하는 것이다.

최근에, 다양한 변화를 가진 많은 수의 영상 샘플이 훈련됨으로써 객체 인식 과정에 사용된 심층학습법은 객체 인식 성능을 향상시켰다.

그러나 ImageNet과 같은 벤치 마크(benchmark) 데이터를 사용하는 기존의 연구에서는 인식할 대상이 적당한 크기와 해상도의 이미지 가운데서 나타나기 때문에 여러 변화 요인 중 해상도는 크게 고려되지 않았다. 그러나 현실에 있는 감시 카메라 영상과 같은 데이터에서는 작은 물체가 전체 영상에 포함될 뿐만 아니라 객체를 인식하기 어려울 정도의 저해상도 영상도 포함된다. 따라서 저해상도 영상에서 객체를 인식하는 것은 중요한 주제이다.

한편, 저해상도 영상의 화질 개선에 관한 연구는 초해상도(super-resolution)라고 불리는 영상 처리 분야에서 수행되어 왔다. 초해상도 영상(super-resolution imaging)은 영상 시스템의 해상도를 향상시키는 기술 클래스를 의미한다. 최근에는 초해상도 문제를 해결하기 위해 심층 학습법이 적용되고 있다.

그러나 초해상도 문제를 해결하기 위한 작업은 신호 대 노이즈 비율(SNR)의 관점에서의 영상품질을 향상시키는데 중점을 두고 있을 뿐, 객체 인식과 장면 이해와 같이 영상의 궁극적인 용도에 더 중요할 수 있는 영상의 내용에 대해서는 고려되지 않았다.

이에 따라, 저해상도 영상에서 객체의 인식 성능 문제를 해결하기 위한 기술의 필요성이 대두되고 있다.

본 발명이 해결하려는 과제는, 저해상도 영상보다 해상도가 높은 영상을 생성하기 위한 새로운 네트워크 구조를 제안하고, 원래 해상도 영상의 객체 인식 성능을 유지함과 동시에 저해상도 영상의 객체 인식 성능을 향상시키도록 하는 객체 인식 장치를 제공함에 있다.

상술한 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 객체 인식 장치의 제어 방법은 원본 영상을 다운-샘플링하여 저해상도 영상을 생성하는 단계; 상기 생성된 저해상도 영상의 클래스 정보를 포함하는 영상 레이블(label)을 획득하는 단계; 상기 생성된 저해상도 영상으로부터 복원 영상을 생성하는 단계; 상기 복원 영상의 영상 레이블과 관련된 데이터를 획득하는 단계; 상기 생성된 복원 영상과 상기 원본 영상 간의 복원오차를 산출하는 단계; 상기 획득된 저해상도 영상의 영상 레이블과 상기 획득된 복원 영상의 영상 레이블과 관련된 데이터 간의 분류오차를 산출하는 단계; 및 상기 산출된 복원오차와 상기 산출된 분류오차를 피드백하여 영상 복원 신경망부를 학습시키는 단계;를 포함할 수 있다.

상기 원본 영상, 상기 생성된 저해상도 영상 및 상기 생성된 복원 영상을 객체 인식 신경망부에 입력시켜 상기 객체 인식 신경망부의 객체 인식 기능을 학습시키는 단계;를 더 포함할 수 있다.

상기 영상 복원 신경망부는, 복수 개의 인코더와 복수 개의 디코더를 포함하고, 상기 복원 영상을 생성하는 단계는, 상기 복수 개의 인코더를 통해 상기 저해상도 영상을 인코딩하여 압축된 데이터를 생성하고, 상기 복수 개의 디코더를 통해 상기 압축된 데이터를 디코딩한 출력 값과 상기 저해상도 영상을 합산하여 상기 복원 영상을 생성할 수 있다.

상기 복원 영상의 영상 레이블과 관련된 데이터를 획득하는 단계는, 상기 압축된 데이터에 기초하여 상기 복원 영상의 영상 레이블과 관련된 데이터를 획득할 수 있다.

상기 압축된 데이터에 기초하여 상기 획득된 복원 영상의 영상 레이블과 관련된 데이터는, 상기 저해상도 영상의 영상 레이블에 포함된 클래스 정보 각각에 대응하는 확률값일 수 있다.

상기 분류오차를 산출하는 단계는, 상기 저해상도 영상의 클래스 정보와 상기 저해상도 영상의 클래스 정보에 대응되는 확률값의 차이에 기초하여 상기 분류오차를 산출할 수 있다.

상기 영상 복원 신경망부를 학습시키는 단계는, 상기 복원오차를 상기 복수 개의 디코더의 마지막 층에 입력시킬 수 있다.

상기 영상 복원 신경망부를 학습시키는 단계는, 상기 분류오차를 상기 복수 개의 인코더의 마지막 층에 입력시킬 수 있다.

상술한 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 객체 인식 장치는 영상 복원 신경망부; 및 객체 인식 신경망부;를 포함하고, 상기 영상 복원 신경망부는, 원본 영상을 다운-샘플링하여 생성된 저해상도 영상으로부터 복원 영상을 생성하는 이미지 처리부; 상기 생성된 저해상도 영상의 클래스 정보를 포함하는 영상 레이블(label)을 획득하고, 상기 복원 영상의 영상 레이블과 관련된 데이터를 획득하는 프로세서; 및 상기 획득된 저해상도 영상의 영상 레이블과 상기 획득된 복원 영상의 영상 레이블과 관련된 데이터 간의 분류오차를 산출하는 분류기;를 포함하고, 상기 프로세서는, 상기 생성된 복원 영상과 상기 원본 영상 간의 복원오차를 산출하고, 상기 산출된 복원오차와 상기 산출된 분류오차를 피드백하여 상기 영상 복원 신경망부를 학습시킬 수 있다.

이상과 같은 본 발명의 실시 예에 따라 새로운 구조의 네트워크에 의해 저해상도 영상보다 해상도가 높은 영상이 생성될 수 있고, 생성된 영상을 이용하여 원래 해상도 영상에 대한 객체 인식 성능을 유지할 뿐만 아니라 저해상도 영상에 대해서도 경쟁력 있는 객체 인식 정확도를 얻을 수 있다.

본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해 될 수 있을 것이다.

도 1a 및 도 1b는 본 발명의 일 실시 예에 따른, 객체 인식 장치 및 영상 복원 신경망부의 구성을 나타내는 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 객체 인식 장치의 전체적인 구조를 나타낸 것이다.
도 3a는 복원 영상을 생성하는 과정을 나타낸 것이다.
도 3b는 객체 인식 신경망부를 학습시키는 과정을 나타낸 것이다.
도 3c는 학습된 영상 복원 신경망부 및 학습된 객체 인식 신경망부를 통해 저해상도 영상의 객체를 인식하는 과정을 나타낸 것이다.
도 4는 본 발명의 일 실시 예에 따른 영상 복원 신경망부의 구조를 나타낸 도면이다.
도 5는 본 발명의 일 실시 예에 따른 분류 오차를 산출하는 방법을 나타내는 것이다.
도 6은 본 발명의 일 실시 예에 따른 객체 인식 성능의 결과를 나타낸 것이다.
도 7는 본 발명의 일 실시 예에 따른 객체 인식 장치의 제어 방법을 설명하기 위한 흐름도이다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

본 명세서에서, “가진다”, “가질 수 있다”, “포함한다” 또는 “포함할 수 있다”등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

본 명세서에서 객체는 인물, 동물, 식물, 사물, 옷, 음식 등과 같이 사람이 영상 속에서 인지할 수 있는 대상뿐만 아니라 글자와 숫자 같은 대상도 포함될 수 있다.

본 명세서에서 영상(image)는 디지털화된 영상 데이터의 2차원 배열(array)을 의미한다. 단, 상술한 의미는 본 명세서에서 예시로 제시하는 것일 뿐 한정되는 것은 아니다.

영상(image)의 해상도는 PPI(pixels per inch)를 의미한다. 픽셀은 영상을 이루는 가장 작은 단위인 네모 모양의 작은 점들을 의미한다. 본 발명에서 고해상도는 최소 640 x 480의 픽셀을 갖고, 저해상도는 320 x 200 이하의 픽셀을 갖는 것으로 정의될 수 있다. 또한, 원본 영상의 해상도는 저해상도 보다 높은 픽셀을 갖는 것으로 정의될 수 있다.

도 1a 및 도 1b는 본 발명의 일 실시 예에 따른, 객체 인식 장치(100) 및 영상 복원 신경망부(110)의 구성을 나타내는 블록도이다. 본 발명의 일 실시 예에 따른 객체 인식 장치(100)는 학습을 통해 저해상도 영상에서도 객체를 인식할 수 있다.

도 1a를 참조하면, 본 발명의 일 실시 예에 따라 객체 인식 장치(100)는 영상 복원 신경망부(110)와 객체 인식 신경망부(120)를 포함할 수 있다.

인간의 뇌의 기본 구조 조직은 뉴런(neuron)이고, 뉴런과 뉴런이 연결되어 있어 인간의 뇌는 일을 처리할 수 있다. 신경망은 수학적 모델로서의 뉴런이 상호 연결되어 네트워크를 형성하는 것을 의미한다.

생물의 신경 네트워크 구조와 기능을 모방하는 인공 신경망(Neural Network)은 기계학습 기법 중 하나다.

기계학습(machine learning)은 방대한 양의 데이터 가운데 비슷한 것끼리 묶어내고 서로 관계있는 것들의 상하구조를 인식하여 앞으로의 행동을 예측하는 기술이다.

신경망은 각 뉴런이 독립적으로 동작하는 처리기의 역할을 하기 때문에 병렬성(parallellism)이 뛰어나다. 또한, 많은 연결선에 정보가 분산되어 있기 때문에 몇몇 뉴런에 문제가 발생 되어도 전체 시스템은 큰 영향을 받지 않는다. 따라서, 신경망은 결함 허용(fault tolerance) 능력이 있으며, 주어진 환경에 대한 학습능력이 있다.

생물학적인 신경망과 구별되는 인공 신경망(artificial neural network) 모델은 계층 수에 따라 ‘단층 신경망’과 ‘다층 신경망’으로 구분된다. 단층 신경망은 입력층(input layer)과 출력층(output layer)으로 구성된다. 다층 신경망은 입력층, 은닉층(hidden layer) 및 출력층으로 구성된다. 은닉층이 2개 이상인 다층 신경망은 심층 신경망(deep neural network)이라고 불린다.

입력층은 외부의 자료들을 받아들이는 층으로서, 입력층의 뉴런 수는 입력되는 변수의 수와 동일하다. 은닉층(hidden layer)은 입력층과 출력층 사이에 위치된다. 은닉층의 역할은 입력층으로부터 신호를 받아 특성을 추출하고 추출된 특성을 출력층으로 전달하는 것이다. 출력층은 은닉층으로부터 신호를 받아 외부로 출력한다. 출력층에서의 출력은 최종 결과값을 의미한다. 각 층에는 유닛(unit, node)들이 포함된다. 각 층은 서로 교차되는 가중치(weight) 값으로 연결되어 있다. 가중치는 연결 강도라고도 불린다.

각 층의 유닛은 해당 가중치가 곱해져서 다음 층에 포함된 유닛에게 전달된다. 전달받은 유닛은 가중치가 곱해진 유닛들의 값을 모두 합산한다. 합산된 값이 임계치보다 크면 활성화 함수를 통하여 출력 값이 구현된다.

심층 신경망이란 심층학습(deep learning) 기법이 신경망에 적용된 것이다.

심층학습은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화(abstractions)를 시도하는 기계학습 알고리즘의 집합을 의미한다. 추상화는 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 요약하는 작업을 의미한다.

인공신경망을 이용하는 심층학습의 핵심은 분류를 통한 예측이다. 분류방식은 지도학습(supervised learning)과 비지도학습(unsupervised learning)으로 나뉜다.

지도학습 방법은 컴퓨터에 먼저 정보를 가르치는 방법이다. 컴퓨터는 미리 학습된 결과를 바탕으로 출력을 구분하게 된다. 비지도 학습은 미리 정보를 가르치는 과정 없이 스스로 학습시키는 방법이다. 따라서, 비지도 학습은 컴퓨터의 높은 연산능력이 요구된다.

심층 신경망은 인공신경망과 마찬가지로 복잡한 비선형 관계(non-linear relationship)들을 모델링 할 수 있다. 예를 들어, 사물 식별 모델을 위한 심층 신경망 구조에서는 각 객체가 이미지 기본 요소들의 계층적 구성으로 표현될 수 있다. 이때, 추가 계층들은 점진적으로 모여진 하위 계층들의 특징들을 규합시킬 수 있다.

영상 복원 신경망부(110)와 객체 인식 신경망부(120)에는 심층 신경망이 포함될 수 있다.

영상 복원 신경망부(110)에서는 저해상도 영상에서 원본 영상으로의 매핑(mapping)을 찾는 방법이 학습 될 수 있다. 저해상도 영상에서 원본 영상으로의 매핑을 찾는 방법이 학습 되는 것은 저해상도 영상의 해상도보다 높은 해상도를 갖도록 영상을 복원시키는 것을 의미한다. 본 발명에서 영상 복원 신경망부(110)를 통해 저해상도 영상이 복원된 영상은 복원 영상으로 정의될 수 있다. 또한, 본 발명에서는 저해상도 영상의 클래스 정보를 포함하는 영상 레이블(label)이 획득될 수 있다. 영상 복원 신경망부(110)는 획득된 저해상도 영상의 영상 레이블을 이용하여 저해상도 영상의 해상도 향상뿐만 아니라 객체 인식에 유용한 정보가 포함된 복원 영상을 생성하도록 학습될 수 있다.

원본 영상, 저해상도 영상 및 영상 복원 신경망부(110)에서 생성된 복원 영상이 객체 인식 신경망부(120)에 입력되면, 객체 인식 신경망부(120)는 다양한 해상도 영상에 대하여 학습될 수 있다. 따라서, 객체 인식 신경망부(120)는 다양한 해상도 영상에 대한 객체 인식 기능을 향상시킬 수 있다.

저해상도 영상은 원본 영상이 다운-샘플링(down-sampling) 되면서 생성될 수 있다.

샘플링(sampling)은 어떤 자료에서 일부 값을 추출하는 것을 의미한다. 샘플링 레이트(rate)는 1초 단위 샘플링 횟수를 비율에 따라 표시된 것을 의미한다. 디지털 카메라의 화소는 샘플링 레이트를 나타낸다. 샘플링 레이트가 변화되면 영상의 해상도가 변화된다. 영상에서 다운-샘플링은 픽셀의 일부분을 제거하는 것을 의미한다. 즉, 다운-샘플링은 샘플링 레이트를 줄이는 과정을 의미한다. 원본 영상이 다운-샘플링 되면 원본 영상보다 낮은 해상도의 영상이 생성될 수 있다.

도 1b를 참조하면, 영상 복원 신경망부(100)는 이미지 처리부(111), 프로세서(112), 및 분류기(113)를 포함할 수 있다.

구체적으로, 이미지 처리부(111)는 원본 영상이 다운-샘플링 되면서 생성된 저해상도 영상으로부터 복원 영상을 생성할 수 있다.

이미지 처리부(111)는 복수 개의 인코더와 복수 개의 디코더를 포함할 수 있다.

이미지 처리부(111)에 포함된 복수 개의 인코더를 통해 저해상도 영상은 인코딩 될 수 있다. 저해상도 영상이 인코딩 되면서 압축된 데이터가 생성될 수 있다. 복수 개의 디코더를 통해 압축된 데이터가 디코딩 된 출력값과 저해상도 영상이 합산되어 복원 영상이 생성될 수 있다.

본 발명의 일 실시 예에 따른 영상 복원 신경망(110)의 이미지 처리부(111)에는 오토인코더(auto-encoder)가 포함될 수 있다.

오토인코더는 심층 신경망 중 비지도 학습에 해당되는 방법이다. 오토인코더는 입력 값과 출력 값이 최대한 비슷하게 되도록 학습하는 것을 의미한다. 오토인코더에서 입력층의 유닛 개수와 출력층의 유닛 개수 동일하고, 은닉층의 유닛 개수가 입력층, 출력층의 유닛 개수보다 적을 수 있다. 은닉층의 유닛 개수가 입력층의 유닛 개수보다 적어서 입력된 데이터의 손실이 일어날 수 있다. 한 층의 은닉층이 아닌 다수의 은닉층을 포함하는 오토인코더는 적층 오토인코더(stacked autoencoder)라 불리며, 이때 다수의 은닉층은 좌우대칭일 수 있다.

오토인코더는 입력층-은닉층 영역인 인코더와 은닉층-출력층 영역인 디코더로 나뉘어질 수 있다. 인코더와 디코더는 복수 개 일 수 있다. 입력층에서 입력된 데이터의 손실이 최소가 될 수 있도록 인코더를 통해 데이터가 압축될 수 있다. 또한, 압축된 데이터들은 분류될 수 있다. 디코더를 통해 압축된 데이터가 복원될 수 있다. 입력층에서 은닉층으로 특징(feacture)이 압축될 때 사용되었던 가중치의 값과 같은 가중치 값이 은닉층에서 출력층으로 데이터가 복원될 때 사용될 수 있다. 따라서, 상술한 방법에 의해 압축된 데이터가 복원될 수 있다.

따라서, 이미지 처리부(111)는 오토인코더를 통해 저해상도 영상으로부터 복원 영상을 생성할 수 있다. 적층 오토인코더인 경우, 이미지 처리부(111)는 복수 개의 디코더 중 마지막 디코더 층에서 압축된 데이터가 디코딩 되어 산출된 출력값을 이용하여 복원 영상을 생성할 수 있다.

프로세서(112)는 원본 영상이 다운-샘플링 되면서 생성된 저해상도 영상의 클래스 정보를 포함하는 영상 레이블(label)을 획득할 수 있다. 또한, 프로세서(112)는 복원 영상의 영상 레이블과 관련된 데이터를 획득할 수 있다.

프로세서(112)는 이미지 처리부(111)에서 저해상도 영상이 인코딩 되면서 생성된 압축된 데이터에 기초하여 복원 영상의 영상 레이블과 관련된 데이터를 획득할 수 있다. 압축된 데이터에 기초하여 획득된 복원 영상의 영상 레이블과 관련된 데이터는 저해상도 영상의 영상 레이블에 포함된 클래스 정보 각각에 대응하는 확률값일 수 있다.

분류기(113)는 원본 영상이 다운-샘플링 되면서 생성된 저해상도 영상의 영상 레이블과 복원 영상의 영상 레이블과 관련된 데이터 간의 분류오차를 산출할 수 있다.

분류기(113)는 저해상도 영상의 클래스 정보와 저해상도 영상의 클래스 정보에 대응되는 확률값의 차이에 기초하여 분류오차를 산출할 수 있다.

프로세서(112)는 이미지 처리부(111)에서 생성된 복원 영상과 원본 영상 간의 복원 오차를 산출할 수 있다. 프로세서(112)는 산출된 복원 오차와 분류기(113)에서 산출된 분류 오차를 피드백하여 영상 복원 신경망부(110)를 학습시킬 수 있다.

프로세서(112)는 복원 오차를 이미지 처리부(111)의 복수 개의 디코더의 마지막 층에 입력시켜 영상 복원 신경망부를 학습시킬 수 있다.

또한, 프로세서(112)는 분류 오차를 이미지 처리부(111)의 복수 개의 인코더의 마지막 층에 입력시켜 영상 복원 신경망부(110)를 학습시킬 수 있다.

도 2는 본 발명의 일 실시 예에 따른 객체 인식 장치의 전체적인 구조를 나타낸 것이다.

도 2를 참조하면, 두 개의 네트워크로 영상 복원 신경망부(110)와 객체 인식 신경망부(120)가 개시되어 있다.

본 발명의 일 실시 예에 따라 원본 영상이 다운-샘플링 되면서 저해상도 영상이 생성될 수 있다. 생성된 저해상도 영상과 원본 영상은 영상 복원 신경망부(110)에 입력될 수 있다. 영상 복원 신경망부(110)는 학습을 통해 저해상도 영상 보다 해상도가 높은 복원 영상을 생성할 수 있다. 또한, 객체 인식 기능의 향상을 위해 영상 복원 신경망부(110)가 학습되는 과정에는 영상 레이블을 이용하여 학습되는 과정이 포함될 수 있다.

원본 영상, 저해상도 영상 및 복원 영상은 객체 인식 신경망부(120)에 입력될 수 있다. 따라서, 객체 인식 신경망부(120)는 다양한 해상도를 가지는 영상들에 대한 객체 인식 성능이 향상되도록 학습될 수 있다.

객체 인식 신경망부(120)에서 신경망은 합성곱 층을 사용하여 이미지 향상 네트워크의 구조를 변경할 수 있는 합성곱 신경망(Convolutional Neural Network, CNN) 일 수 있다. CNN은 2차원 구조의 입력 데이터를 활용할 수 있고, 다른 피드 포워드(feed forward) 인공신경망 기법들보다 적은 수의 매개변수를 사용할 수 있다.

합성곱(convolution)은 하나의 함수와 또 다른 함수를 반전 이동한 값을 곱한 다음, 구간에 대해 적분하여 새로운 함수를 구하는 수학 연산자이다.

CNN은 합성곱의 연산을 이용한 하나 또는 여러 개의 합성곱 계층(convolutional layer)과 합성곱 계층 위에 올려진 일반적인 인공 신경망 계층들로 이루어져 있다. 또한, 가중치와 통합 계층(pooling layer)들이 CNN에 추가될 수 있다.

합성곱 계층은 합성곱 연산을 사용하여 특징을 추출할 수 있다. 합성곱 계층에는 합성곱 연산을 위해 커널(kernel)이 포함될 수 있다. 커널은 이미지 전체 영역을 이동하면서 겹치는 부분에 대해 합성곱 연산이 적용된 결과를 얻기 위해 사용될 수 있다. 합성곱이 적용되는 커널 값은 인공 신경망에서 학습된 가중치를 의미한다. 통합 계층은 합성곱 계층에서 얻은 결과(데이터)의 크기를 줄일 수 있다.

통합 계층은 합성곱 연산의 방법처럼 필터를 이동하면서 연산을 수행할 수 있지만, 통합 계층은 합성곱 계층에서와 달리 필터의 크기와 필터를 적용하는 간격을 동일하게 유지할 수 있다. 따라서, 통합 계층에서는 모든 원소가 한번씩만 참여되도록 연산될 수 있다.

통합 계층은 최대 통합(max pooling) 또는 평균 통합(average pooling)일 수 있다. 최대 통합은 특정 영역에서의 최대값을 출력할 수 있고, 평균 통합은 평균값을 계산하여 출력할 수 있다.

CNN은 합성곱 계층과 통합 계층을 반복하여 특징 부분을 추출할 수 있다. 추출된 값이 완전 연결 계층(fully-connected layer)의 입력층에 연결되어서 영상이 인지될 수 있다.

또한, 객체 인식 신경망은 합성곱 심층 신뢰 신경망(Convolutional Deep Belief Network, CDBN)일 수 있다. CDBN은 그림의 2차원 구조를 이용할 수 있으면서 동시에 심층 신뢰신경망(Deep Belief Network, DBN)에서의 선훈련에 의한 장점도 취할 수 있다.

계층 간에는 연결이 있지만 계층 내의 유닛 간에 연결이 없는 DBN은 잠재변수(latent variable)의 다중계층으로 이루어진 심층 신경망을 의미한다.

도 3a는 복원 영상을 생성하는 과정을 나타낸 것이다. 원본 영상과 저해상도 영상은 영상 복원 신경망부(110)에 입력될 수 있고, 입력된 원본 영상 및 저해상도 영상과 저해상도 영상의 클래스 정보를 포함하는 영상 레이블이 이용되어 영상 복원 신경망부(110)가 학습될 수 있다. 저해상도 영상보다 해상도가 향상될 뿐만 아니라 객체 인식에 유용한 정보를 포함하는 복원 영상은 영상 복원 신경망부(110)에서 생성될 수 있다.

도 3b는 객체 인식 신경망부(120)를 학습시키는 과정을 나타낸 것이다. 원본 영상, 저해상도 영상 및 영상 복원 신경망부(110)로부터 생성된 복원 영상은 객체 인식 신경망부(120)에 입력될 수 있다. 따라서, 객체 인식 신경망부(120)는 한 가지 객체에 대한 다양한 해상도를 가지는 영상에 의해 학습될 수 있다.

도 3c는 학습된 영상 복원 신경망부 및 학습된 객체 인식 신경망부를 통해 저해상도 영상의 객체를 인식하는 과정을 나타낸 것이다. 객체를 인식하고자 하는 저해상도 영상이 학습된 영상 복원 신경망부에 입력되면 복원 영상이 생성될 수 있다. 생성된 복원 영상은 학습된 객체 인식 신경망부에 입력될 수 있다. 학습된 객체 인식 신경망부는 입력된 복원 영상에 대한 객체를 인식할 수 있다.

도 4는 본 발명의 일 실시 예에 따른 영상 복원 신경망부(110)의 구조를 나타낸 도면이다.

도 4를 참조하면, 원본 영상을 다운-샘플링하여 생성된 저해상도 영상이 이미지 처리부(111)에 입력된다. 이미지 처리부(111)는 저해상도 영상으로부터 복원 영상을 생성할 수 있다.

이미지 처리부(111)는 인코더와 디코더를 포함하는 오토인코더일 수 있다. 인코더와 디코더는 복수 개 일 수 있다. 또한, 이미지 처리부(111)는 2차원 배열의 영상을 1차원 배열의 영상으로 바꾸어주는 플래튼 계층(flatten layer)을 포함할 수 있다.

본 발명의 일 실시 예는 4개의 인코더와 4개의 디코더를 포함한다. 단, 인코더와 디코더의 개수는 상술한 개수로 한정되지 않는다. 또한, 이미지 처리부(111)에는 복수 개뿐만 아니라 한 개의 인코더와 한 개의 디코더가 포함될 수 있다.

저해상도 영상은 4개의 인코더를 통해 인코딩 될 수 있고, 저해상도 영상이 인코딩 되면서 압축된 데이터가 생성될 수 있다. 압축된 데이터는 4개의 디코더를 통해 디코딩 될 수 있고, 압축된 데이터가 디코딩 되면서 출력값이 생성될 수 있다. 생성된 출력값과 저해상도 영상이 합산되어 복원 영상이 생성될 수 있다. 또한 이미지 처리부(111)에는 잔여 학습(Residual Learning) 기법이 사용될 수 있다.

프로세서(도면에 도시되지 않음)는 이미지 처리부(111)에 의해 생성된 복원 영상과 원본 영상 간의 복원오차를 산출할 수 있다. 프로세서는 산출된 복원오차를 피드백하여 영상 복원 신경망부(110)를 학습시킬 수 있다.

프로세서는 오류 역전파 알고리즘을 이용하여 복원오차를 피드백 할 수 있다. 즉, 프로세서는 오류 역전파 알고리즘을 이용하여 가중치를 업데이트 할 수 있다.

인공신경망에서 학습이란 실제로 출력된 값과 출력층에서 계산되어 산출된 출력 값과의 차이가 최소화되는 가중치를 찾는 과정이다. 심층 신경망은 오류역전파 알고리즘(error backpropagation)으로 학습될 수 있다. 오류역전파 알고리즘은 다층 신경망 학습에 사용되는 통계적 기법을 의미한다. 오류역전파 알고리즘은 다층 신경망의 출력층에서 제시한 값에 대해 실제 원하는 값을 학습하는 방법으로, 통계적 방법에 의한 오차역전법이 사용된다.

오차역전법은 동일 입력층에 대해 원하는 값이 출력되도록 개개의 가중치를 조정하는 방법이다. 오차역전법은 속도는 느리지만 안정적인 결과를 얻을 수 있는 방법이다.

오류 역전파 알고리즘으로 영상 복원 신경망부(110)가 학습될 때, 가중치들은 확률적 경사 하강법(stochastic gradient descent)을 통해 갱신될 수 있다. 확률적 경사 하강법은 함수의 기울기(경사)를 구하여 기울기가 낮은 쪽으로 계속 이동시켜서 극값에 이를 때까지 반복시키는 경사 하강법을 이용해 확률을 구하는 것이다.

프로세서는 복원오차를 4개의 디코더의 마지막 층인 디코더1에 입력시켜 영상 복원 신경망부(110)를 학습시킬 수 있다. 디코더1의 함수에 포함된 가중치가 수정되면서 영상 복원 신경망부(110)는 학습될 수 있다. 또한 디코더1의 함수에서 수정된 가중치에 기초하여 디코더2의 함수에 포함된 가중치가 수정될 수 있다. 상술한 방법은 디코더3, 디코더4, 인코더4, 인코더3, 인코더2 및 인코더1의 순서로 동일하게 적용될 수 있다.

프로세서는 저해상도 영상의 클래스 정보를 포함하는 영상 레이블(label)을 획득할 수 있다. 또한, 프로세서는 복원 영상의 영상 레이블과 관련된 데이터를 획득할 수 있다. 분류기(113)는 획득된 저해상도 영상의 영상 레이블과 획득된 복원 영상의 영상 레이블과 관련된 데이터 간의 분류오차를 산출할 수 있다.

프로세서는 이미지 처리부(111)에서 저해상도 영상이 인코딩 되어 생성된 압축된 데이터에 기초하여 복원 영상의 영상 레이블과 관련된 데이터를 획득할 수 있다. 압축된 데이터에 기초하여 획득된 복원 영상의 영상 레이블과 관련된 데이터는 저해상도 영상의 영상 레이블에 포함된 클래스 정보 각각에 대응하는 확률값일 수 있다. 분류기(113)는 저해상도 영상의 클래스 정보와 저해상도 영상의 클래스 정보에 대응되는 확률값의 차이에 기초하여 분류오차를 산출할 수 있다.

본 발명의 일 실시 예에 따르면, 4개의 인코더의 마지막 층인 인코더4의 출력값에 대한 확률값이 산출될 수 있다 인코더4의 출력값에 대한 확률값은 레이블 추출함수로부터 산출될 수 있다. 레이블 추출함수는 소프트맥스(softmax) 함수일 수 있다. 소프트맥스 함수는 출력 값 각각이 0에서 1사이의 값으로 출력 값의 총 합은 항상 1인 확률벡터를 의미한다. 즉, 가장 큰 출력 값이 가장 높은 확률로 나타난다.

프로세서는 산출된 분류오차를 피드백하여 영상 복원 신경망부(110)를 학습시킬 수 있다.

프로세서는 오류 역전파 알고리즘을 이용하여 복원오차를 피드백 할 수 있다.

프로세서는 분류오차를 4개의 인코더의 마지막 층인 인코더4에 입력시켜 영상 복원 신경망부(110)를 학습시킬 수 있다. 인코더4의 함수에 포함된 가중치가 수정되면서 영상 복원 신경망부(110)는 학습될 수 있다. 또한 인코더4의 함수에서 수정된 가중치에 기초하여 인코더3의 함수에 포함된 가중치가 수정될 수 있다. 상술한 방법은 인코더2 및 인코더1의 순서로 동일하게 적용될 수 있다.

상술한 과정에 의해 영상 복원 신경망부(110)가 학습되면 저해상도 영상보다 해상도가 높을 뿐만 아니라 객체 인식에 유용한 정보를 포함하는 복원 영상이 생성될 수 있다.

도 5는 본 발명의 일 실시 예에 따른 분류 오차를 산출하는 방법을 나타내는 것이다.

도 5를 참조하면, 본 발명의 일 실시 예에 따른 객체의 클래스는 자동차, 고양이, 개, 개구리, 배, 비행기, 사슴, 트럭, 말 및 새로 구분될 수 있다. 단, 객체의 클래스는 상술한 종류로 한정되지 않고 다양한 객체가 포함될 수 있다.

본 발명의 일 실시 예에 따르면, 인식하려는 객체(본 발명에서는 비행기)에 대한 확률값이 1인 저해상도 영상의 영상 레이블이 획득될 수 있다. 단, 영상 레이블을 설정하는 방법은 상술한 방법으로 한정되지 않는다.

분류오차는 획득된 저해상도 영상의 영상 레이블과 복원 영상의 영상 레이블과 관련된 데이터 간의 차이에 의해 산출될 수 있다. 복원 영상의 영상 레이블과 관련된 데이터는 확률값으로 획득될 수 있다. 산출된 분류오차가 피드백 되면서 영상 복원 신경망부는 반복 학습될 수 있다.

본 발명의 일 실시 예에 따르면, 복원 영상의 영상 레이블과 관련된 데이터의 확률값은 객체가 자동차일 때 0.15, 고양이일 때 0, 개일 때 0.05, 개구리일 때 0, 배일 때 0.2, 비행기일 때 0.57, 사슴일 때 0, 트럭일 때 0, 말일 때 0 및 새일 때 0.03 일 수 있다. 상술한 저해상도 영상의 클래스 정보에 대응되는 확률값은 저해상도 영상의 클래스 정보와 대응될 수 있다. 복원 영상의 영상 레이블과 관련된 데이터의 확률값이 제일 높은 값은 0.57이다. 따라서, 본 발명에서 인식하려는 객체는 57%의 확률로 비행기가 될 수 있다.

본 발명의 일 실시 예에 따른 복원 영상의 영상 레이블과 관련된 데이터는 상술한 값에 한정되지 않고 다양한 값이 제시될 수 있다.

저해상도 영상의 영상 레이블에서 획득된 확률값(=1)과 복원 영상의 영상 레이블과 관련된 데이터의 확률값(=0.57)과의 차이인 분류오차는 0.43이다. 분류오차가 0에 가깝게 되도록 영상 복원 신경망부는 반복 학습될 수 있다. 산출된 분류오차가 0.3 이하가 되는 경우, 영상 복원 신경망부에 대한 학습은 중지될 수 있다. 즉, 본 발명의 일 실시 예에 따라 인식하려는 객체가 70% 이상의 확률로 비행기가 되면 영상 복원 신경망부에 대한 학습은 중지될 수 있다.

본 발명의 일 실시 예에 따른 분류오차는 상술한 값에 한정되지 않고 다양한 값일 수 있다.

도 6은 본 발명의 일 실시 예에 따른 객체 인식 성능의 결과를 나타낸 것이다.

CIFAR-10 데이터베이스는 객체 인식 장치의 인식 성능의 효과를 제시하기 위해 이용되었다. CIFAR-10은 물체 인식에 사용되는 확립 된 컴퓨터 비전 데이터 세트이다. CIFAR-10 데이터베이스의 목표는 10 개의 카테고리로 분류하는 것이다. 10개의 카테고리는 비행기, 자동차, 새, 고양이, 사슴, 개, 개구리, 말, 배, 트럭일 수 있다. 카테고리에 대해 각각 50,000 개의 학습 이미지와 10,000 개의 테스트 이미지가 있을 수 있으며, 각 이미지의 크기는 32 × 32 픽셀일 수 있다.

본 발명의 일 실시 예에 따라 데이터베이스에 있는 훈련 영상은 원본 영상일 수 있다. 훈련 영상이 다운-샘플링 되어 저해상도 영상이 생성될 수 있다. 생성된 전체 저해상도 영상 및 전체 원본 영상으로 영상 복원 신경망부가 학습되었고, 학습된 복원 영상 신경망부로부터 각각의 저해상도 영상에 대한 복원 영상이 생성되었다. 생성된 복원 영상, 저해상도 영상 및 원본 영상을 포함하는 ImageNet은 사전 학습된 객체 인식 신경망부에서 미세조정 되었다.

ImageNet은 시각적 객체 인식 소프트웨어 연구에 사용하도록 설계된 대형 시각적 데이터베이스이다.

도 6을 참조하면, 본 발명에서는 원본 테스트 영상에 대한 정확도, 저해상도 테스트 영상에 대한 정확도 및 평균값을 개시하고 있다.

원본 영상에 의해 학습된 기존 신경망이 이용된 경우 원본 테스트 영상에 대한 정확도는 약 94.95%로 높은 편이었다. 하지만, 저해상도 테스트 영상에 대한 정확도는 약 19.53%로 정확도가 상당히 낮은 편이었다.

저해상도 영상에 의해 학습된 기존 신경망이 이용된 경우 저해상도 테스트 영상에 대한 정확도는 약 75.6%로 높은 편이었지만, 원본테스트 영상에 대한 정확도는 약 65.09%로 원본 영상에 의해 학습된 기존 신경망을 이용된 경우보다 정확도가 많이 낮아졌음을 보여준다.

본 발명의 일 실시 예에 따라 학습된 신경망이 이용된 경우 원본 테스트 영상에 대한 정확도는 약 92.25%이고, 저해상도 테스트 영상에 대한 정확도는 약 76.28%이다. 따라서, 본 발명의 일 실시 예에 따라 학습된 신경망이 이용되는 경우 원래 해상도 영상에 대한 객체 인식 성능이 유지되면서 저해상도 영상에 대한 객체 인식의 성능이 향상되었음을 보여준다.

도 7은 본 발명의 일 실시 예에 따른 객체 인식 장치의 제어 방법을 설명하기 위한 흐름도이다.

도 7을 참조하면, 원본 영상이 다운-샘플링 되어 저해상도 영상이 생성된다(S710).

생성된 저해상도 영상의 클래스 정보를 포함하는 영상 레이블(label)이 획득된다(S720). 저해상도 영상의 영상 레이블은 인식하려는 객체에 대한 확률값이 1로 설정되면서 획득될 수 있다.

생성된 저해상도 영상으로부터 복원 영상이 생성된다(S730). 저해상도 영상은 복수개의 인코더를 통해 인코딩 되면서 압축된 데이터가 생성될 수 있다. 복수 개의 디코더를 통해 압축된 데이터가 디코딩 될 수 있고, 디코딩 된 출력값과 저해상도 영상이 합산되어 복원 영상이 생성될 수 있다.

복원 영상의 영상 레이블과 관련된 데이터가 획득된다(S740). 복원 영상의 영상 레이블과 관련된 데이터는 저해상도 영상이 인코딩 되면서 생성된 압축된 데이터에 기초하여 획득될 수 있다. 압축된 데이터에 기초하여 획득된 복원 영상의 영상 레이블과 관련된 데이터는 저해상도 영상의 영상 레이블에 포함된 클래스 정보 각각에 대응하는 확률값일 수 있다.

생성된 복원 영상과 원본 영상 간의 복원오차가 산출된다(S750).

획득된 저해상도 영상의 영상 레이블과 획득된 복원 영상의 영상 레이블과 관련된 데이터 간의 분류오차가 산출된다(S760). 분류오차는 저해상도 영상의 클래스 정보와 저해상도 영상의 클래스 정보에 대응되는 확률값의 차이에 기초하여 산출될 수 있다.

산출된 복원오차와 산출된 분류오차가 피드백되어 영상 복원 신경망부가 학습된다(S770). 복원 오차가 복수 개의 디코더의 마지막 층에 입력되면서 영상 복원 신경망부가 학습될 수 있다. 또한, 분류 오차가 복수 개의 인코더의 마지막 층에 입력되면서 영상 복원 신경망부가 학습될 수 있다.

원본 영상, 저해상도 영상 및 학습된 영상 복원 신경망부에 의해 생성된 복원 영상이 객체 인식 신경망부에 입력되면서 객체 인식 신경망부의 객체 인식 기능이 학습될 수 있다. 또한, 미세조정을 통해 객체 인식 신경망부는 학습될 수 있다.

테스트 단계에서, 객체를 인식하기 위한 저해상도 영상은 학습된 영상 복원 신경망부에 입력될 수 있다. 학습된 영상 복원 신경망부에서 생성된 복원 영상은 학습된 객체 인식 신경망부에 입력될 수 있다. 학습된 객체 인식 신경망부는 복원 영상에 대한 객체를 인식할 수 있다.

본 발명에 따른 일 실시 예에 따른 객체 인식 장치는 카메라, 캠코더, 감시 카메라, 스마트폰, PC(Personal computer), 태블릿(Tablet) 등의 전자 장치로 구현될 수 있고, 사물 인터넷 홈 스마트기기 등 같이 카메라가 포함되어 있는 장치에 탑재될 수 있다.

한편, 이러한 다양한 실시 예에 따른 방법들은 프로그래밍 되어 각종 저장 매체에 저장될 수 있다. 이에 따라, 저장 매체를 실행하는 다양한 유형의 전자 장치에서 상술한 다양한 실시 예에 따른 방법들이 구현될 수 있다.

구체적으로는, 상술한 데이터 구분 방법을 순차적으로 수행하는 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)가 제공될 수 있다.

비일시적 판독 가능 매체란, 레지스터, 캐쉬 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

100: 객체 인식 장치
110: 영상 복원 신경망부
111: 이미지 처리부
112: 프로세서
113: 분류기
120: 객체 인식 신경망부

Claims

객체 인식 장치의 제어 방법에 있어서,
원본 영상을 다운-샘플링하여 저해상도 영상을 생성하는 단계;
상기 생성된 저해상도 영상의 클래스 정보를 포함하는 영상 레이블(label)을 획득하는 단계;
상기 생성된 저해상도 영상으로부터 복원 영상을 생성하는 단계;
상기 복원 영상의 영상 레이블과 관련된 데이터를 획득하는 단계;
상기 생성된 복원 영상과 상기 원본 영상 간의 복원오차를 산출하는 단계;
상기 획득된 저해상도 영상의 영상 레이블과 상기 획득된 복원 영상의 영상 레이블과 관련된 데이터 간의 분류오차를 산출하는 단계; 및
상기 산출된 복원오차와 상기 산출된 분류오차를 피드백하여 영상 복원 신경망부를 학습시키는 단계; 및
상기 원본 영상, 상기 생성된 저해상도 영상 및 상기 생성된 복원 영상을 객체 인식 신경망부에 입력시켜 상기 객체 인식 신경망부의 객체 인식 기능을 학습시키는 단계;
를 포함하는 객체 인식 장치의 제어 방법.
삭제
제1항에 있어서,
상기 영상 복원 신경망부는,
복수 개의 인코더와 복수 개의 디코더를 포함하고,
상기 복원 영상을 생성하는 단계는,
상기 복수 개의 인코더를 통해 상기 저해상도 영상을 인코딩하여 압축된 데이터를 생성하고, 상기 복수 개의 디코더를 통해 상기 압축된 데이터를 디코딩한 출력 값과 상기 저해상도 영상을 합산하여 상기 복원 영상을 생성하는 객체 인식 장치의 제어 방법.
제3항에 있어서,
상기 복원 영상의 영상 레이블과 관련된 데이터를 획득하는 단계는,
상기 압축된 데이터에 기초하여 상기 복원 영상의 영상 레이블과 관련된 데이터를 획득하는 객체 인식 장치의 제어 방법.
제4항에 있어서,
상기 압축된 데이터에 기초하여 상기 획득된 복원 영상의 영상 레이블과 관련된 데이터는,
상기 저해상도 영상의 영상 레이블에 포함된 클래스 정보 각각에 대응하는 확률값인 객체 인식 장치의 제어 방법.
제5항에 있어서,
상기 분류오차를 산출하는 단계는,
상기 저해상도 영상의 클래스 정보와 상기 저해상도 영상의 클래스 정보에 대응되는 확률값의 차이에 기초하여 상기 분류오차를 산출하는 객체 인식 장치의 제어 방법.
제3항에 있어서,
상기 영상 복원 신경망부를 학습시키는 단계는,
상기 복원오차를 상기 복수 개의 디코더의 마지막 층에 입력시키는 객체 인식 장치의 제어 방법.
제3항에 있어서,
상기 영상 복원 신경망부를 학습시키는 단계는,
상기 분류오차를 상기 복수 개의 인코더의 마지막 층에 입력시키는 객체 인식 장치의 제어 방법.
영상 복원 신경망부; 및
객체 인식 신경망부;를 포함하고,
상기 영상 복원 신경망부는,
원본 영상을 다운-샘플링하여 생성된 저해상도 영상으로부터 복원 영상을 생성하는 이미지 처리부;
상기 생성된 저해상도 영상의 클래스 정보를 포함하는 영상 레이블(label)을 획득하고, 상기 복원 영상의 영상 레이블과 관련된 데이터를 획득하는 프로세서; 및
상기 획득된 저해상도 영상의 영상 레이블과 상기 획득된 복원 영상의 영상 레이블과 관련된 데이터 간의 분류오차를 산출하는 분류기;를 포함하고,
상기 프로세서는,
상기 생성된 복원 영상과 상기 원본 영상 간의 복원오차를 산출하고, 상기 산출된 복원오차와 상기 산출된 분류오차를 피드백하여 상기 영상 복원 신경망부를 학습시키며,
상기 원본 영상, 상기 생성된 저해상도 영상 및 상기 생성된 복원 영상을 객체 인식 신경망부에 입력시켜 상기 객체 인식 신경망부의 객체 인식 기능을 학습시키는 객체 인식 장치.