KR102521313B1 - 이미지 내 객체를 식별하는 신경망 모델을 학습하는 방법 및 장치 - Google Patents

이미지 내 객체를 식별하는 신경망 모델을 학습하는 방법 및 장치 Download PDF

Info

Publication number
KR102521313B1
KR102521313B1 KR1020200049590A KR20200049590A KR102521313B1 KR 102521313 B1 KR102521313 B1 KR 102521313B1 KR 1020200049590 A KR1020200049590 A KR 1020200049590A KR 20200049590 A KR20200049590 A KR 20200049590A KR 102521313 B1 KR102521313 B1 KR 102521313B1
Authority
KR
South Korea
Prior art keywords
image
light
neural network
network model
wavelength band
Prior art date
Application number
KR1020200049590A
Other languages
English (en)
Other versions
KR20200125502A (ko
Inventor
양승준
곽문성
조현중
이찬혁
Original Assignee
울산과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 울산과학기술원 filed Critical 울산과학기술원
Publication of KR20200125502A publication Critical patent/KR20200125502A/ko
Application granted granted Critical
Publication of KR102521313B1 publication Critical patent/KR102521313B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

본 개시는 이미지 내 객체를 식별하는 신경망 모델을 학습하는 방법 및 장치에 관한 것이다. 일 실시 예에 의하면, 이미지 내 객체를 식별하는 신경망 모델을 학습하는 방법은 입력 광을 투과 및 반사시킴으로써 제1 파장 대역의 광 및 제2 파장 대역의 광을 생성하는 단계; 상기 제1 파장 대역의 광으로부터 제1 이미지를 획득하는 단계; 상기 제2 파장 대역의 광으로부터 제2 이미지를 생성하는 단계; 미리 학습되는 제1 신경망 모델을 이용하여 상기 제1 이미지로부터 검출되는 객체에 대한 제1 객체 정보를 획득하는 단계; 상기 제2 이미지로부터, 상기 제1 이미지에서 검출된 객체에 대응되는 영역에 대한 제2 객체 정보를 획득하는 단계; 및 상기 제2 객체 정보 및 상기 제1 객체 정보를 매칭함으로써 학습 데이터를 생성하는 단계; 를 포함할 수 있다.

Description

이미지 내 객체를 식별하는 신경망 모델을 학습하는 방법 및 장치 {METHOD AND APPARATUS TRAINING ARTIFICIAL NEURAL NETWORK FOR IDENTIFYING OBJECT IN IMAGE}
본 개시는 이미지 내 객체를 식별하기 위한 인공 신경망 모델을 학습시키는 방법 및 장치에 관한 것이다. 보다 상세하게는, 서로 다른 스펙트럼의 광으로부터 생성된 이미지들을 이용하여 인공 신경망 모델을 학습하는 방법 및 장치에 관한 것이다.
인공 신경망(Artificial Neural Network)는 인공 뉴런들의 상호 연결된 집합들을 구현하기 위하여 컴퓨팅 기기 또는 컴퓨팅 기기에 의해서 수행되는 방법을 지칭할 수 있다. 인공 신경망의 일 실시 예로, 심층 신경망(Deep Neural Network) 또는 딥 러닝(Deep Learning)은 멀티 레이어 구조를 가질 수 있고, 레이어들 각각이 다수의 데이터에 따라 학습될 수 있다.
최근 인공 신경망 기술의 개발이 활성화 됨에 따라, 인공 지능 분야에서 이미지를 자동으로 인식하기 위한 기술이 활발히 연구되고 있다. 이미지를 자동으로 인식하기 위한 인공 신경망 모델의 학습에는 정확하게 실제값이 레이블링된 다량의 학습 데이터가 필요하지만, 실제값(Ground Truth)으로 레이블링된 다량의 학습 데이터를 구축하기 위해서는 많은 비용이 소모되는 문제점이 있다.
또한, 최근에는 다양한 스펙트럼(multi spectrum) 이미지들의 정합 여부를 정확하게 식별하기 위한 기술 역시 활발히 개발되고 있다. 그러나, 자외선(UV)이나, 적외선(IR)과 같이, 가시광선 대역의 이미지를 사용하지 않는 특별한 이미지 센서를 사용하는 경우, 인공 신경망 모델의 학습에 필요한 다량의 실제값으로 레이블링된 학습 데이터가 부족한 문제점이 있다.
따라서, 가시광선 대역의 이미지에서 검출된 객체 정보를 실제값(Ground Truth)값으로 이용하여, 가시광선 대역 외의 이미지 내 객체를 식별할 수 있는, 신경망 모델 학습 기술의 개발이 요구되고 있다.
한국공개특허 제2018-0090662호
일 실시 예에 따르면, 이미지 내 객체를 식별하는 신경망 모델을 학습하는 방법 및 장치가 제공될 수 있다.
또한, 일 실시 예에 의하면, 서로 다른 파장 대역의 광으로부터 생성된 이미지들을 이용하여 이미지 내 객체를 식별하는 신경망 모델을 학습하는 방법 및 장치가 제공될 수 있다.
상술한 기술적 과제를 달성하기 위한 본 개시의 일 실시 예에 따라, 이미지 내 객체를 식별하는 신경망 모델을 학습하는 방법에 있어서, 입력 광을 투과 및 반사시킴으로써 제1 파장 대역의 광 및 제2 파장 대역의 광을 생성하는 단계; 상기 제1 파장 대역의 광으로부터 제1 이미지를 획득하는 단계; 상기 제2 파장 대역의 광으로부터 제2 이미지를 생성하는 단계; 미리 학습되는 제1 신경망 모델을 이용하여 상기 제1 이미지로부터 검출되는 객체에 대한 제1 객체 정보를 획득하는 단계; 상기 제2 이미지로부터, 상기 제1 이미지에서 검출된 객체에 대응되는 영역에 대한 제2 객체 정보를 획득하는 단계; 및 상기 제2 객체 정보 및 상기 제1 객체 정보를 매칭함으로써 학습 데이터를 생성하는 단계; 를 포함하는, 방법이 제공될 수 있다.
일 실시 예에 의하면, 상기 방법은 상기 생성된 학습 데이터에 기초하여, 상기 제1 파장 대역의 광 또는 상기 제2 파장 대역의 광으로부터 생성된 제3 이미지가 입력되면, 상기 입력된 제3 이미지 내 객체의 종류를 식별하는 제2 신경망 모델을 학습하는 방법을 더 포함할 수 있다.
일 실시 예에 의하면, 상기 제1 파장 대역이 가시 광선 영역에 속하는 광의 스펙트럼을 포함하는 경우, 상기 제2 파장 대역은 자외선(UV) 영역 또는 근적외선(IR) 영역 중 하나의 영역에 속하는 광의 스펙트럼을 포함하고, 상기 제1 파장 대역이 자외선(UV) 영역 또는 근적외선(IR) 영역 중 하나의 영역에 속하는 광의 스펙트럼을 포함하는 경우, 상기 제2 파장 대역은 가시광선 영역에 속하는 광의 스펙트럼을 포함할 수 있다.
일 실시 예에 의하면, 상기 제1 이미지를 획득하는 단계는 상기 제1 파장 대역의 광을 센싱함으로써 상기 제1 이미지를 생성하는 제1 카메라를 이용하여, 상기 제1 이미지를 획득하는 단계를 포함할 수 있다.
일 실시 예에 의하면, 상기 제2 이미지를 생성하는 단계는 상기 제2 파장 대역의 광을 센싱함으로써 상기 제2 이미지를 생성하는 제2 카메라를 이용하여 상기 제2 이미지를 획득하는 단계; 를 포함할 수 있다.
일 실시 예에 의하면, 상기 제1 카메라가 가시광선 영역의 광을 센싱함으로써 가시광선 이미지를 생성하는 가시광선 카메라인 경우, 상기 제2 카메라는 자외선 영역의 광을 센싱함으로써 자외선 이미지를 생성하는 자외선 카메라 또는 근적외선 영역의 광을 센싱함으로써 근적외선 이미지를 생성하는 근적외선 카메라 중 하나이고, 상기 제1 카메라가 자외선 영역의 광을 센싱함으로써 자외선 이미지를 생성하는 자외선 카메라 또는 근적외선 영역의 광을 센싱함으로써 근적외선 이미지를 생성하는 근적외선 카메라 중 하나인 경우, 상기 제2 카메라는 가시광선 영역의 광을 센싱함으로써 가시광선 이미지를 생성하는 가시광선 카메라일 수 있다.
또한, 상기 기술적 과제를 해결하기 위한 본 개시의 또 다른 실시 예에 따라, 이미지 내 객체를 식별하기 위한 신경망 모델을 학습하는 장치에 있어서, 입력 광을 투과 및 반사시킴으로써 제1 파장 대역의 광 및 제2 파장 대역의 광을 생성하는 빔 스플리터; 상기 제1 파장 대역의 광으로부터 제1 이미지를 생성하는 제1 카메라; 상기 제2 파장 대역의 광으로부터 제2 이미지를 생성하는 제2 카메라; 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서; 를 포함하고, 상기 프로세서는, 미리 학습되는 제1 신경망 모델을 이용하여 상기 제1 이미지로부터 검출되는 객체에 대한 제1 객체 정보를 획득하고, 상기 제2 이미지로부터, 상기 제1 이미지에서 검출된 객체에 대응되는 영역에 대한 제2 객체 정보를 획득하고, 상기 제2 객체 정보 및 상기 제1 객체 정보를 매칭함으로써 학습 데이터를 생성하는, 장치가 제공될 수 있다.
일 실시 예에 의하면, 상기 프로세서는 상기 생성된 학습 데이터에 기초하여, 상기 제1 파장 대역의 광 또는 상기 제2 파장 대역의 광으로부터 생성된 제3 이미지가 입력되면, 상기 입력된 제3 이미지 내 객체의 종류를 식별하는 제2 신경망 모델을 학습(training)시킬 수 있다.
일 실시 예에 의하면, 상기 제1 파장 대역이 가시 광선 영역에 속하는 광의 스펙트럼을 포함하는 경우, 상기 제2 파장 대역은 자외선(UV) 영역 또는 근적외선(IR) 영역 중 하나의 영역에 속하는 광의 스펙트럼을 포함하고, 상기 제1 파장 대역이 자외선(UV) 영역 또는 근적외선(IR) 영역 중 하나의 영역에 속하는 광의 스펙트럼을 포함하는 경우, 상기 제2 파장 대역은 가시광선 영역에 속하는 광의 스펙트럼을 포함할 수 있다.
일 실시 예에 의하면, 상기 제1 카메라가 가시광선 영역의 광을 센싱함으로써 가시광선 이미지를 생성하는 가시광선 카메라인 경우, 상기 제2 카메라는 자외선 영역의 광을 센싱함으로써 자외선 이미지를 생성하는 자외선 카메라 또는 근적외선 영역의 광을 센싱함으로써 근적외선 이미지를 생성하는 근적외선 카메라 중 하나일 수 있다.
일 실시 예에 의하면, 상기 제1 카메라가 자외선 영역의 광을 센싱함으로써 자외선 이미지를 생성하는 자외선 카메라 또는 근적외선 영역의 광을 센싱함으로써 근적외선 이미지를 생성하는 근적외선 카메라 중 하나인 경우, 상기 제2 카메라는 가시광선 영역의 광을 센싱함으로써 가시광선 이미지를 생성하는 가시광선 카메라일 수 있다.
또한, 상기 기술적 과제를 해결하기 위한 본 개시의 또 다른 실시 예에 따라, 입력 광을 투과 및 반사시킴으로써 제1 파장 대역의 광 및 제2 파장 대역의 광을 생성하는 단계; 상기 제1 파장 대역의 광으로부터 제1 이미지를 획득하는 단계; 상기 제2 파장 대역의 광으로부터 제2 이미지를 생성하는 단계; 미리 학습되는 제1 신경망 모델을 이용하여 상기 제1 이미지로부터 검출되는 객체에 대한 제1 객체 정보를 획득하는 단계; 상기 제2 이미지로부터, 상기 제1 이미지에서 검출된 객체에 대응되는 영역에 대한 제2 객체 정보를 획득하는 단계; 및 상기 제2 객체 정보 및 상기 제1 객체 정보를 매칭함으로써 학습 데이터를 생성하는 단계; 를 포함하는, 이미지 내 객체를 식별하는 신경망 모델을 학습하는 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체가 제공될 수 있다.
도 1은 일 실시 예에 따른 신경망 모델 학습 장치가 이미지 내 객체를 식별하는 신경망 모델을 학습하는 과정을 개략적으로 설명하기 위한 도면이다.
도 2는 일 실시 예에 따른 신경망 모델 학습 장치가 이미지 내 객체를 식별하기 위한 신경망 모델을 학습하는 방법의 흐름도이다.
도 3은 또 다른 실시 예에 따른 신경망 모델 학습 장치가 이미지 내 객체를 식별하기 위한 신경망 모델을 학습하는 방법의 흐름도이다.
도 4는 일 실시 예에 따른 신경망 모델 학습 장치가 제1 신경망 모델로부터 제1 객체 정보를 획득하는 방법을 구체적으로 나타내는 흐름도이다.
도 5는 일 실시 예에 따른 신경망 모델 학습 장치가 학습 데이터를 생성하는 방법을 구체적으로 나타내는 흐름도이다.
도 6은 일 실시 예에 따른 신경망 모델 학습 장치의 블록도이다.
도 7은 또 다른 실시 예에 따른 신경망 모델 학습 장치의 블록도이다.
도 8은 일 실시 예에 따른 신경망 모델 학습 장치가, 이미지 내 객체를 식별하기 위한 신경망 모델을 학습시키는 과정을 나타내는 도면이다.
도 9는 일 실시 예에 따른 신경망 모델 학습 장치와 연결되는 서버의 블록도이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다.
본 개시에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 개시의 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
도 1은 일 실시 예에 따른 신경망 모델 학습 장치가 이미지 내 객체를 식별하는 신경망 모델을 학습하는 과정을 개략적으로 설명하기 위한 도면이다.
일 실시 예에 의하면, 신경망 모델 학습 장치(1000)는 제2 인공 신경망 모델 (Artificial Neural Network Model)(132)을 포함할 수 있다. 또 다른 실시 예에 의하면, 신경망 모델 학습 장치(1000)는 제2 인공 신경망 모델(132)외에 제1 신경망 모델(120)을 더 포함할 수도 있다. 일 실시 예에 의하면, 제1 인공 신경망 모델 또는 제2 인공 신경망 모델은 이미지 또는 영상을 처리하기 위한 적어도 하나의 신경망 모델을 더 포함할 수도 있다.
신경망 모델 학습 장치(1000)는 제2 인공 신경망 모델(132)이 이미지 내 객체를 식별할 수 있도록 하기 위해 제2 인공 신경망 모델(132)을 학습시킬 수 있다. 일 실시 예에 의하면, 신경망 모델 학습 장치(1000)는 제2 인공 신경망 모델(132)을 학습 시키기 위한 학습 데이터를 생성할 수 있다. 예를 들어, 신경망 모델 학습 장치(1000)는 서로 다른 파장 대역의 광으로부터 생성된 이미지 각각으로부터 대응되는 영역의 객체 정보를 추출하고, 추출된 객체 정보를 매칭함으로써 학습 데이터를 생성할 수 있다. 신경망 모델 학습 장치(1000)는 생성된 학습 데이터에 기초하여, 제2 신경망 모델(132)을 학습시킬 수 있다.
신경망 모델 학습 장치(1000)는 신경망 모델을 이용하여 이미지 또는 영상을 처리하기 위한 AI 프로그램이 탑재되고, 이미지 촬영 기능을 포함하는 스마트폰, 태블릿 PC, PC, 스마트 TV, 휴대폰, 미디어 플레이어, 서버, 마이크로 서버, 기타 모바일 또는 비모바일 컴퓨팅 장치일 수 있으나, 이에 제한되지 않는다.
일 실시 예에 의하면, 신경망 모델 학습 장치(1000)가 이용하는 인공 신경망 모델은 생물학적 신경망에 착안된 컴퓨팅 시스템을 지칭할 수 있다. 인공 신경망은 미리 정의된 조건에 따라 작업을 수행하는 고전적인 알고리즘과 달리, 다수의 샘플들을 고려함으로써 작업을 수행하는 것을 학습할 수 있다. 인공 신경망은 인공 뉴런(neuron)들이 연결된 구조를 가질 수 있고, 뉴런들 간의 연결은 시냅스(synapse)로 지칭될 수 있다. 뉴런은 수신된 신호를 처리할 수 있고, 처리된 신호를 시냅스를 통해서 다른 뉴런에 전송할 수 있다. 뉴런의 출력은 액티베이션(activation)으로 지칭될 수 있고, 뉴런 및/또는 시냅스는 변동될 수 있는 가중치(weight)를 가질 수 있으며, 가중치에 따라 뉴런에 의해 처리된 신호의 영향력이 증가하거나 감소할 수 있다.
예를 들어, 인공 신경망은 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values, weights)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공 신경망의 학습 결과에 의해 최적화될 수 있다.
예를 들어, 학습 과정 동안 신경망 모델에서 획득한 손실(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 수정 및 갱신될 수 있다. 본 개시에 따른 신경망 모델은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.
일 실시 예에 의하면, 신경망 모델 학습 장치(1000)는 가시 광선 대역의 광(106)으로부터 생성된 가시 광선 이미지(114)를 가시광선 카메라(110)로부터 획득할 수 있다. 또한, 신경망 모델 학습 장치(1000)는 타겟(target) 파장 대역의 광(104)으로부터 생성된 타겟 스펙트럼 이미지(112)를 타겟 스펙트럼 카메라(108)로부터 획득할 수 있다. 일 실시 예에 의하면, 타겟 파장 대역은 근적외선 대역 또는 자외선 대역을 포함할 수 있으나, 이에 한정되는 것은 아니고, 가시광선 대역을 제외한 파장 대역을 더 포함할 수 있다.
신경망 모델 학습 장치(1000)가 획득한 타겟 스펙트럼 이미지(112) 및 가시광선 이미지(114)는 동일한 공간(space) 내 영역을 촬영함으로써 획득되는 이미지일 수 있다. 신경망 모델 학습 장치(1000)는 가시광선 이미지가 입력되면, 입력된 가시광선 이미지로부터 객체를 검출하도록 미리 학습된 제1 인공 신경망 모델(120)을 이용하여, 가시광선 이미지(114)로부터 제1 객체(118)을 검출할 수 있다. 신경망 모델 학습 장치(1000)는 가시광선 이미지로부터 검출된 제1 객체(118)에 대한 정보(122)를 획득할 수 있다.
일 실시 예에 의하면, 신경망 모델 학습 장치(1000)는 제1 객체 정보(122) 내 제1 객체가 검출된 객체 영역의 좌표 정보를 이용하여, 타겟 스펙트럼 이미지(112)내 제2 객체(116)를 검출하고, 제2 객체(116)에 대한 제2 객체 정보(124)를 획득할 수 있다. 신경망 모델 학습 장치(1000)는 제2 객체 정보(124) 및 제1 객체 정보(122)를 매칭함으로써 학습 데이터(126)를 생성할 수 있다.
보다 상세하게는, 신경망 모델 학습 장치(1000)가 제2 객체 정보(124) 및 제1 객체 정보(122)를 매칭하는 동작은, 신경망 모델 학습 장치(1000)가 제2 객체 정보(124)를 실제값(Ground Truth)값으로 활용하여, 제1 객체 정보들을 레이블링(labeling)하는 동작에 대응될 수 있다. 신경망 모델 학습 장치(1000)는 생성된 학습 데이터(126)에 기초하여 제2 인공 신경망 모델(132)을 학습시킬 수 있다.
예를 들어, 신경망 모델 학습 장치(1000)는 생성된 학습 데이터에 기초하여, 제2 인공 신경망 모델(132) 내 레이어들 및 상기 레이어들 간의 연결 강도에 관한 가중치(134)를 수정 및 갱신함으로써, 제2 인공 신경망 모델(132)을 학습(training)시킬 수 있다. 보다 상세하게는, 신경망 모델 학습 장치(1000)는 미리 학습되는 제1 인공 신경망 모델(120)로부터 획득되는 제1 객체 정보(122)를 실제값(Ground Truth)으로 결정하고, 학습 데이터의 입력에 응답하여 제2 인공 신경망 모델(132)로부터 출력되는 제2 인공 신경망 모델의 출력 값 및 상기 실제값의 차이(error)가 작아지도록 제2 인공 신경망 모델 내 가중치들을 수정하는 역전파(back propagation)과정을 수행함으로써, 제2 인공 신경망 모델(132)을 학습시킬 수 있다.
일 실시 예에 의하면, 신경망 모델 학습 장치(1000)는 학습된 제2 인공 신경망 모델(132)을 이용하여 타겟 스펙트럼 이미지(136) 내 객체를 식별하고, 식별된 객체에 대한 객체 정보 (138)를 획득할 수 있다. 일 실시 예에 의하면, 신경망 모델 학습 장치(1000)가 이용하는 객체 정보(138)는 이미지 내 객체가 위치하는 객체 영역(예컨대 바운더리 셀)에 대한 좌표, 상기 객체 영역 내 객체의 종류(category)에 대한 정보를 포함할 수 있다. 또 다른 실시 예에 의하면, 객체 정보(138)는 상기 객체 영역 내 객체가 위치할 확률(probability)값에 대한 정보를 더 포함할 수도 있다.
상술한 바와 같이, 본 개시에 따른 신경망 모델 학습 장치(1000)는 미리 학습된 제1 인공 신경망 모델(120)을 이용하여, 가시광선 이미지로부터 제1 객체에 대한 제1 객체 정보를 획득하고, 획득된 제1 객체 정보를 실제값으로 활용하여, 학습 데이터(126)를 자동으로 생성할 수 있다. 따라서, 본 개시에 따른 신경망 모델 학습 장치(1000)는 학습 데이터를 생성하는데 필요한 비용(cost)을 크게 낮출 수 있을 뿐만 아니라, 가시광선 이미지로부터 객체를 검출하도록 미리 학습되는 제1 인공 신경망 모델(120)의 출력 값을 이용하여 정확한 실제값을 획득할 수 있기 때문에, 타겟 스펙트럼 이미지로부터 더 정확하게 객체를 식별할 수 있는 효과가 있다.
본 명세서에서는, 편의상 상술한 가시광선 대역은 제1 파장 대역에 대응되고, 상술한 타겟 파장 대역은 제2 파장 대역으로 대응될 수 있으며, 가시광선 이미지는 제1 이미지, 타겟 스펙트럼 이미지는 제2 이미지에 대응될 수 있다. 또한, 가시광선 카메라(110)는 제1 카메라, 타겟 스펙트럼 카메라(108)는 제2 카메라에 대응될 수 있다.
그러나 또 다른 실시 예에 의하면, 상술한 가시광선 대역이 제2 파장 대역에 대응되고, 상기 타겟 파장 대역이 제1 파장 대역에 대응될 수 있으며, 가시광선 이미지는 제2 이미지, 타겟 스펙트럼 이미지가 제1 이미지에 대응될 수 있다. 또한, 이 경우, 가시광선 카메라(110)가 제2 카메라, 타겟 스펙트럼 카메라(108)가 제1 카메라에 대응될 수도 있다.
또한, 일 실시 예에 의하면, 신경망 모델 학습 장치(1000)는 빔 스플리터(102), 타겟 스펙트럼 카메라(108) 및 가시광선 카메라(110)를 포함할 수 있고, 신경망 모델 학습 장치(1000)내 구비된 타겟 스펙트럼 카메라(108) 및 가시광선 카메라(110)로부터 각각 획득된 타겟 스펙트럼 이미지(112) 및 가시광선 이미지(114)를 이용하여 제2 인공 신경망 모델을 학습할 수 있다. 그러나, 또 다른 실시 예에 의하면, 신경망 모델 학습 장치(1000)는 네트워크 인터페이스를 통하여 외부에 위치하는 가시광선 카메라(110) 또는 타겟 스펙트럼 카메라(108)로부터 타겟 스펙트럼 이미지(112) 및 가시광선 이미지(114)를 획득할 수도 있음은 물론이다.
또한, 본 명세서에서 서술되는 파장 대역들은, 광의 파장의 길이를 기초로, 광 스펙트럼(spectrum) 영역을 구분하기 위한 기준이 될 수 있다. 예를 들어, 가시 광선 대역은 광의 파장이 380nm~780nm인 영역에 속하는 광의 스펙트럼(spectrum)을 나타낼 수 있고, 근적외선 영역은 광의 파장이 0.75um~1um인 영역에 속하는 광의 스펙트럼을 나타낼 수 있으며, RGB 영역의 파장은 광의 파장이 400nm~500nm, 450nm~630nm, 500~650nm인 영역에 속하는 광의 스펙트럼을 나타낼 수 있다. 그러나, 이에 한정되는 것은 아니며, 본 개시에 따른 파장 대역은 가시 광선 영역과 다른 임의의 파장 대역을 포함할 수도 있다.
또한, 일 실시 예에 의하면, 신경망 모델 학습 장치(1000)는 서버(2000)와 연결될 수 있다. 일 실시 예에 의하면, 신경망 모델 학습 장치(1000)는 서버(2000)와 연동되어, 가시광선 대역과 다른 파장 대역의 광으로부터 생성된 이미지 내 객체를 식별하기 위한 제2 인공 신경망 모델(132)을 학습시킬 수도 있다.
예를 들어, 서버(2000)는 네트워크를 통하여 신경망 모델 학습 장치(1000)와 연결됨으로써, 신경망 모델 학습 장치(1000)와 이미지 또는 비디오 데이터를 송수신할 수 있는 기타 컴퓨팅 장치를 포함할 수 있다. 일 실시 예에 의하면, 서버(2000)는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN), 부가가치 통신망(Value Added Network; VAN), 이동 통신망(mobile radio communication network), 위성 통신망 및 이들의 상호 조합을 통하여 신경망 모델 학습 장치(1000)와 연결될 수 있다.
또한, 일 실시 예에 의하면, 서버(2000)는 도 1에 도시된 각 네트워크 구성 주체(예컨대 신경망 모델 학습 장치, 타겟 스펙트럼 카메라, 가시광선 카메라 및 서버)가 서로 원활하게 통신을 할 수 있도록 하는 포괄적인 의미의 데이터 통신망이며, 유선 인터넷, 무선 인터넷 및 모바일 무선 통신망 자체를 포함할 수 도 있다.
도 2는 일 실시 예에 따른 신경망 모델 학습 장치가 이미지 내 객체를 식별하기 위한 신경망 모델을 학습하는 방법의 흐름도이다.
S200에서, 신경망 모델 학습 장치(1000)는 입력 광을 투과 및 반사시킴으로써 제1 파장 대역의 광 및 제2 파장 대역의 광을 생성할 수 있다. 예를 들어, 신경망 모델 학습 장치(1000)는 빔 스플리터를 이용하여, 상기 빔 스플리터로 입력된 입력 광으로부터 제1 파장 대역의 광 및 제2 파장 대역의 광을 생성할 수 있다. 일 실시 예에 의하면, 빔 스플리터는 신경망 모델 학습 장치(1000)에 포함될 수도 있지만, 신경망 모델 학습 장치(1000)의 외부에 위치하고, 제1 파장 대역의 광 및 제2 파장 대역의 광을 신경망 모델 학습 장치(1000)로 전달할 수도 있다.
S210에서, 신경망 모델 학습 장치(1000)는 제1 파장 대역의 광으로부터 제1 이미지를 획득할 수 있다. 일 실시 예에 의하면, 제1 이미지는, 제1 파장 대역의 광이 입력되면, 상기 입력된 제1 파장 대역의 광을 센싱함으로써 제1 이미지를 생성하는 제1 카메라로부터 획득될 수도 있다. 일 실시 예에 의하면, 제1 파장 대역은 가시 광선 영역에 속하는 광의 스펙트럼을 포함할 수 있고, 이 경우, 제1 이미지는 가시광선 이미지일 수 있으며, 제1 카메라는 가시광선 영역의 광을 센싱함으로써 가시광선 이미지를 생성할 수 있는 가시광선 카메라일 수 있다.
그러나, 또 다른 실시 예에 의하면, 제1 파장 대역은 자외선 영역 또는 근적외선 영역에 속하는 광의 스펙트럼을 포함할 수 있고, 이 경우, 제1 이미지는 자외선 이미지 또는 근적외선 이미지일 수 있으며, 제1 카메라는 자외선 영역의 광을 센싱함으로써 자외선 이미지를 생성하는 자외선 카메라 이거나 근적외선 영역의 광을 센싱함으로써 근적외선 이미지를 생성하는 근적외선 카메라일 수 있다.
또 다른 실시 예에 의하면, 신경망 모델 학습 장치(1000)는 제1 파장 대역의 광을 센싱함으로써 제1 이미지를 생성할 수 있는 제1 카메라를 직접 포함할 수 도 있고, 이 경우, 신경망 모델 학습 장치(1000)내 위치하는 제1 카메라로부터 제1 이미지를 직접 획득할 수도 있다.
S220에서, 신경망 모델 학습 장치(1000)는 제2 파장 대역의 광으로부터 제2 이미지를 생성할 수 있다. 일 실시 예에 의하면, 제2 이미지는 제2 파장 대역의 광이 입력되면, 상기 입력된 제2 파장 대역의 광을 센싱함으로써 제2 이미지를 생성하는 카메라로부터 획득될 수 있다. 일 실시 예에 의하면, 제2 파장 대역은 자외선(UV) 영역 또는 근적외선(IR) 영역 중 하나의 영역에 속하는 광의 스펙트럼을 포함할 수 있고, 이 경우, 제2 이미지는 자외선 이미지 또는 근적외선 이미지일 수 있으며, 제2 카메라는 자외선 영역의 광을 센싱함으로써 자외선 이미지를 생성할 수 있는 자외선 카메라이거나, 근적외선 영역의 광을 센싱함으로써 근적외선 이미지를 생성할 수 있는 근적외선 카메라일 수 있다.
그러나 또 다른 실시 예에 의하면, 제2 파장 대역은 가시광선 영역에 속하는 광의 스펙트럼을 포함할 수 있고, 이 경우, 제2 이미지는 가시광선 이미지일 수 있으며, 제2 카메라는 가시광선 영역의 광을 센싱함으로써 가시광선 이미지를 생성할 수 잇는 가시광선 카메라일 수 있다.
또 다른 실시 예에 의하면, 신경망 모델 학습 장치(1000)는 상기 제2 파장 대역의 광을 센싱함으로써 제2 이미지를 생성할 수 있는 제2 카메라를 직접 포함할 수도 있고, 이 경우, 신경망 모델 학습 장치(1000)내 위치하는 제2 카메라로부터 제2 이미지를 획득할 수도 있다.
일 실시 예에 따른 상기 제1 파장 대역 및 제2 파장 대역과 제1 카메라 및 제2 카메라의 실시 예들을 구체적으로 설명하면 다음과 같다.
예를 들어, 상기 제1 파장 대역이 가시 광선 영역에 속하는 광의 스펙트럼을 포함하는 경우, 상기 제2 파장 대역은 자외선(UV) 영역 또는 근적외선(IR) 영역 중 하나의 영역에 속하는 광의 스펙트럼을 포함하고, 상기 제1 파장 대역이 자외선(UV) 영역 또는 근적외선(IR) 영역 중 하나의 영역에 속하는 광의 스펙트럼을 포함하는 경우, 상기 제2 파장 대역은 가시광선 영역에 속하는 광의 스펙트럼을 포함할 수 있다.
또한, 상기 제1 카메라가 가시광선 영역의 광을 센싱함으로써 가시광선 이미지를 생성하는 가시광선 카메라인 경우, 상기 제2 카메라는 자외선 영역의 광을 센싱함으로써 자외선 이미지를 생성하는 자외선 카메라 또는 근적외선 영역의 광을 센싱함으로써 근적외선 이미지를 생성하는 근적외선 카메라 중 하나이고, 상기 제1 카메라가 자외선 영역의 광을 센싱함으로써 자외선 이미지를 생성하는 자외선 카메라 또는 근적외선 영역의 광을 센싱함으로써 근적외선 이미지를 생성하는 근적외선 카메라 중 하나인 경우, 상기 제2 카메라는 가시광선 영역의 광을 센싱함으로써 가시광선 이미지를 생성하는 가시광선 카메라일 수 있다. S230에서, 신경망 모델 학습 장치(1000)는 미리 학습되는 제1 신경망 모델을 이용하여 제1 이미지로부터 검출되는 객체에 대한 제1 객체 정보를 획득할 수 있다. 예를 들어, 제1 신경망 모델은 이미지 또는 영상으로부터 객체(Object)를 식별하도록 미리 학습되는 CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 중 적어도 하나일 수 있다.
보다 상세하게는, 제1 신경망 모델은, 제1 파장 대역의 광으로부터 생성되는 제1 이미지가 입력되면, 상기 입력된 제1 이미지 내 픽셀 정보에 기초하여 객체에 대한 적어도 하나의 바운더리 셀을 검출할 수 있다. 또한, 제1 신경망 모델은, 적어도 하나의 바운더리 셀 내 객체가 존재할 확률값(probability)에 기초하여 복수의 바운더리 셀 중 하나의 바운더리 셀을 객체 영역으로 검출할 수 있다. 또한, 제1 신경망 모델은, 검출된 객체 영역 내 위치하는 객체의 종류(category) 값, 상기 객체 영역 내 픽셀들의 좌표 값, 또는 상기 객체 영역 내 객체가 존재할 확률 값을 중 적어도 하나를 포함하는 객체 정보를 출력할 수 있다.
S240에서, 신경망 모델 학습 장치(1000)는 제2 이미지로부터, 상기 제1 이미지에서 검출된 객체에 대응되는 영역에 대한 제2 객체 정보를 획득할 수 있다. 예를 들어, 신경망 모델 학습 장치(1000)는 제1 객체 정보에 포함된 이미지 내 객체 영역의 좌표를 식별하고, 식별된 객체 영역의 좌표를 이용하여, 제2 이미지 내 에서 상기 제1 객체에 대응되는 객체 영역을 식별할 수 있다. 신경망 모델 학습 장치(1000)는 제1 객체 정보에 기초하여, 제2 이미지 내에서 식별된 객체 영역의 좌표 정보를, 제2 객체 정보로써 획득할 수 있다.
일 실시 예에 의하면, 제1 객체 정보는 제1 이미지 내 객체 영역에 대한 좌표 및 상기 객체의 종류(Category)에 대한 정보를 벡터 형태로 나타낼 수 있다. 마찬가지로, 제2 객체 정보 역시, 제2 이미지 내 객체 영역에 대한 좌표 정보를 벡터 형태로 나타낼 수 있다. 일 실시 예에 의하면, 객체 영역의 좌표 정보는 객체 영역을 구성하는 픽셀들의 좌표 값 또는 객체 영역의 최외곽 픽셀들의 좌표 값 중 적어도 하나를 포함할 수 있다. 일 실시 예에 의하면, 제1 객체 정보 내 객체 영역에 대한 좌표 정보는 벡터 내 전단에, 제1 객체 정보 내 객체의 종류에 대한 정보는 벡터 내 후단에 위치할 수 있다.
S250에서, 신경망 모델 학습 장치(1000)는 제2 객체 정보 및 제1 객체 정보를 매칭함으로써 학습 데이터를 생성할 수 있다. 예를 들어, 신경망 모델 학습 장치(1000)는 제1 객체 정보 내 객체 영역의 좌표 정보 및 상기 제1 객체의 종류에 대한 정보를 실제값으로 하여, 상기 제1 이미지내 객체가 위치하는 객체 영역에 대응되는 제2 이미지 내 객체 영역의 좌표 정보를 레이블링(labeling)할 수 있다. 신경망 모델 학습 장치(1000)는 제1 객체 정보 및 상기 제1 객체 정보를 이용하여 레이블링된 제2 객체 정보를 이용하여 학습 데이터를 생성할 수 있다.
도 3은 또 다른 실시 예에 따른 신경망 모델 학습 장치가 이미지 내 객체를 식별하기 위한 신경망 모델을 학습하는 방법의 흐름도이다.
S300 내지 S350은 도 2의 S200 내지 S250에 각각 대응될 수 있으므로 구체적인 설명은 생략하기로 한다.
S360에서, 신경망 모델 학습 장치(1000)는 S350에서 생성된 학습 데이터에 기초하여 제1 파장 대역의 광 또는 제2 파장 대역의 광으로부터 생성된 제3 이미지가 입력되면, 상기 입력된 제3 이미지 내 객체의 종류를 식별하는 제2 신경망 모델을 학습시킬 수 있다.
예를 들어, 신경망 모델 학습 장치(1000)는 가시광선 이미지로부터 획득되는 객체 정보를 실제값으로 활용하여 근적외선 이미지 내, 상기 객체에 대응되는 영역에 대한 좌표 정보를 레이블링함으로써 학습 데이터를 생성하고, 생성된 학습 데이터에 기초하여 제2 신경망 모델을 학습할 수 있다. 이경우 제2 신경망 모델의 학습이 완료되면, 신경망 모델 학습 장치(1000)는 제2 신경망 모델을 이용하여 제3 이미지(예컨대 근적외선 이미지)가 입력되면, 입력된 제3 이미지(예컨대 근적외선 이미지)로부터 객체를 식별할 수 있다.
또 다른 실시 예에 따라, 신경망 모델 학습 장치(1000)는 가시광선 이미지로부터 추출되는 객체에 대한 객체 정보를, 근적외선 이미지가 아닌, 자외선 이미지 내, 소정의 객체 영역에 대한 좌표 정보와 매칭함으로써 학습 데이터를 생성할 수도 있다. 이 경우, 신경망 모델 학습 장치(1000)가 상기 생성된 학습 데이터에 기초하여 제2 신경망 모델을 학습시킬 경우, 제2 신경망 모델은, 자외선 이미지가 입력되면, 입력된 자외선 이미지로부터 객체를 식별할 수 있다.
또 다른 실시 예에 따라, 신경망 모델 학습 장치(1000)는 근적외선 이미지 또는 자외선 이미지로부터 추출되는 객체에 대한 객체 정보를, 근적외선 이미지 또는 자외선 이미지가 아닌, 가시광선 이미지 내 소정의 객체 영역에 대한 좌표 정보와 매칭함으로써 학습 데이터를 생성할 수도 있다. 이 경우, 신경망 모델 학습 장치(1000)가 상기 생성된 학습 데이터에 기초하여 제2 신경망 모델을 학습 시킬 경우, 제2 신경망 모델은, 가시광선 이미지가 입력되면, 가시광선 이미지로부터 객체를 식별할 수도 있다.
도 4는 일 실시 예에 따른 신경망 모델 학습 장치가 제1 신경망 모델로부터 제1 객체 정보를 획득하는 방법을 구체적으로 나타내는 흐름도이다.
S420에서, 신경망 모델 학습 장치(1000)는 제1 신경망 모델로부터 검출된 객체 영역의 좌표 정보를 식별할 수 있다. 예를 들어, 신경망 모델 학습 장치(1000)는, 제1 파장 대역의 광으로부터 생성되는 제1 이미지가 입력되면, 제1 이미지 내 객체가 존재할 수 있는 복수의 바운더리 셀을 검출하고, 검출된 바운더리 셀 중, 객체가 존재할 확률이 가장 높은 바운더리 셀을 객체 영역으로 식별하는 제1 신경망 모델을 이용하여, 제1 이미지 내 객체 영역을 검출할 수 있다.
신경망 모델 학습 장치(1000)는 제1 이미지로부터 검출된 객체 영역을 구성하는 픽셀들의 좌표 값을 식별할 수 있다. 예를 들어, 신경망 모델 학습 장치(1000)는 객체 영역을 구성하는 픽셀들의 좌표 값 중, 객체 영역을 구성하는 최외곽 픽셀들의 좌표를 객체 영역의 좌표로 식별할 수 있다. 그러나 또 다른 실시 예에 의하면, 신경망 학습 모델 장치(1000)는 객체 영역에 포함된 모든 픽셀의 좌표 값들을 객체영역의 좌표 정보로써 식별할 수도 있다.
S440에서, 신경망 모델 학습 장치(1000)는 검출된 객체 영역 내 객체의 종류를 식별할 수 있다. 예를 들어, 신경망 모델 학습 장치(1000)가 이용하는 제1 신경망 모델 내의 출력 레이어에는 제1 이미지로부터 검출된 객체의 종류들에 대한 확률 값들이 저장된 레이블(label)이 포함될 수 있고, 제1 신경망 모델은, 상기 레이블 중, 가장 높은 확률 값을 나타내는 레이블을 제1 이미지 내 객체의 종류로 출력할 수 있다.
S460에서, 신경망 모델 학습 장치(1000)는 식별된 객체 영역의 좌표 정보 및 식별된 객체의 종류를 제1 객체 정보로써 획득할 수 있다. 그러나 또 다른 실시 예에 의하면, 신경망 모델 학습 장치(1000)는 객체 영역의 좌표 정보, 식별된 객체의 종류 및 상기 검출된 객체 영역 내 객체가 상기 식별된 종류에 대응될 확률 값(probability)을 더 포함할 수도 있다.
도 5는 일 실시 예에 따른 신경망 모델 학습 장치가 학습 데이터를 생성하는 방법을 구체적으로 나타내는 흐름도이다.
S620에서, 신경망 모델 학습 장치(1000)는 제1 객체 정보에 기초하여 제1 이미지 내 객체 영역에 대응되는 제2 이미지 내 객체 영역을 식별할 수 있다. 예를 들어, 신경망 모델 학습 장치(1000)는 제1 객체 정보 내 객체 영역의 좌표 정보를 식별할 수 있다. 도 4에서 상술한 바와 같이, 제1 객체 정보 내 객체 영역의 좌표 정보는 제1 이미지 내 객체 영역을 구성하는 픽셀들의 좌표 값을 포함할 수 있다.
신경망 모델 학습 장치(1000)는 제1 객체 정보에 포함된, 객체 영역의 좌표 정보를 이용하여, 제1 이미지 내 객체가 존재할 확률이 가장 높은 픽셀들의 좌표를 결정하고, 상기 결정된 픽셀들의 좌표와 동일한 좌표를 제2 이미지 내에서 식별할 수 있다. 신경망 모델 학습 장치(1000)는 제2 이미지 내 좌표가 식별된 픽셀들을 포함하는 영역을 제2 이미지 내 객체 영역으로 식별할 수 있다.
S640에서, 신경망 모델 학습 장치(1000)는 제2 이미지 내 객체 영역의 좌표 정보에 제1 객체 정보를 매칭함으로써 학습 데이터를 생성할 수 있다. 예를 들어, 신경망 모델 학습 장치(1000)는 제1 이미지의 객체 영역에 대응되는 객체 영역을 제2 객체 영역으로 식별하고, 상기 식별된 제2 객체 영역을 구성하는 적어도 하나의 픽셀들의 좌표 값을 이용하여 제2 객체 정보를 생성할 수 있다.
신경망 모델 학습 장치(1000)는 제1 객체 정보 및 제2 객체 정보를 매칭함으로써 학습 데이터를 생성할 수 있다. 그러나 또 다른 실시 예에 의하면, 신경망 모델 학습 장치(1000)는 제1 객체 정보 및 상기 제2 이미지 내 객체 영역을 구성하는 픽셀들의 좌표 정보를 매칭함으로써 학습 데이터를 생성할 수도 있다.
일 실시 예에 의하면, 신경망 모델 학습 장치(1000)는 제1 객체 정보 내 객체의 종류에 대한 정보를, 제2 객체 정보와 매칭함으로써 학습 데이터를 생성할 수도 있다. 그러나 또 다른 실시 예에 의하면, 신경망 모델 학습 장치(1000)는 제1 객체 정보 내 객체의 종류에 대한 정보 및 객체 영역에 대한 좌표 정보 모두를, 제2 객체 정보와 매칭함으로써 학습 데이터를 생성할 수도 있다.
도 6은 일 실시 예에 따른 신경망 모델 학습 장치의 블록도이다.
도 7은 또 다른 실시 예에 따른 신경망 모델 학습 장치의 블록도이다.
도 6에 도시된 바와 같이, 일 실시 예에 의하면, 신경망 모델 학습 장치(1000)는 프로세서(1300) 및 메모리(1700)를 포함할 수 있다. 그러나 도시된 구성 요소가 모두 필수구성요소인 것은 아니고, 도시된 구성 요소보다 많은 구성 요소에 의해 신경망 모델 학습 장치(1000)가 구현될 수도 있고, 그보다 적은 구성 요소에 의해서도 신경망 모델 학습 장치(1000)는 구현될 수도 있다.
일 실시 예에 의하면, 신경망 모델 학습 장치(1000)는 프로세서(1300) 및 메모리(1700)외에 사용자 입력 인터페이스(1100), 출력부(1200), 빔 스플리터(1400), 네트워크 인터페이스(1500), 제1 카메라(1610) 및 제2 카메라(1620)를 더 포함할 수도 있다.
사용자 입력 인터페이스(1100)는 사용자가 전자 장치(1000)를 제어하기 위한 시퀀스를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력 인터페이스(1100)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.
사용자 입력 인터페이스(1100)는, 신경망 모델 학습 장치(1000)가 신경망 모델을 학습하는데 필요한 기타 사용자 입력 시퀀스들을 수신할 수 있다. 또한, 사용자 입력 인터페이스(1100)는 제1 이미지 또는 제2 이미지를 획득하거나, 학습 데이터를 생성함에 있어 필요한 기타 사용자 입력들을 수신할 수 있다.
출력부(1200)는, 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력부(1200)는 디스플레이부(1210), 음향 출력부(1220), 및 진동 모터(1230)를 포함할 수 있다.
디스플레이부(1210)는 신경망 모델 학습 장치 (1000)에서 처리되는 정보를 표시 출력하기 위한 화면을 포함한다. 또한, 화면은 이미지 입력 요청, 입력 이미지 내 검출된 객체에 대한 정보 등을 문자 이미지, 또는 영상 이미지로 디스플레이 할 수 있다.
음향 출력부(1220)는 네트워크 인터페이스(1500)로부터 수신되거나 메모리(1700)에 저장된 오디오 데이터를 출력한다. 또한, 음향 출력부(1220)는 신경망 모델 학습 장치(1000)에서 수행되는, 제1 이미지 및 제2 이미지의 입력과 관련된 입력 요청, 제1 이미지 또는 제2 이미지에 기초한 신경망 모델 학습 완료 알림, 또는 학습이 완료된 신경망 모델로부터 출력된, 이미지 내 객체 검출 결과에 대한 정보를 오디오 신호로써 출력할 수도 있다.
진동 모터(1230)는 진동 신호를 출력할 수 있다. 예를 들어, 진동 모터(1230)는 신경망 모델 학습 장치(1000)에서, 수행되는 기능들과 관련된 메시지의 출력(이미지 입력 요청, 검출된 객체의 정보 출력) 과 함께 진동 신호를 출력할 수 있다.
일 실시 예에 의하면, 프로세서(1300)는, 통상적으로 신경망 모델 학습 장치(1000)의 전반적인 동작을 제어할 수 있다.
예를 들어, 프로세서(1300)는 빔 스플리터(1400)를 제어함으로써, 신경망 모델 학습 장치(1000)로 입력된 입력 광을 투과 및 반사 시킴으로써, 제1 파장 대역의 광 및 제2 파장 대역의 광을 생성할 수 있다. 또한, 프로세서(1300)는 제1 파장 대역의 광을 제1 카메라로 전달하고, 제1 카메라가 제1 파장 대역의 광으로부터 제1 이미지를 생성하도록 할 수 있다. 또한, 프로세서(1300)는 제2 파장 대역의 광을 제2 카메라로 전달하고, 제2 카메라가 제2 파장 대역의 광으로부터 제2 이미지를 생성하도록 할 수 있다.
일 실시 예에 의하면, 프로세서(1300)는 메모리에 저장된 하나 이상의 인스트럭션을 실행함으로써, 신경망 모델 학습 장치(1000)의 전반적인 동작을 제어할 수 있다. 예를 들어, 프로세서(1300)는 미리 학습되는 제1 신경망 모델을 이용하여 상기 제1 이미지로부터 검출되는 객체에 대한 제1 객체 정보를 획득하고, 상기 제2 이미지로부터, 상기 제1 이미지에서 검출된 객체에 대응되는 영역에 대한 제2 객체 정보를 획득하며, 상기 제2 객체 정보 및 상기 제1 객체 정보를 매칭함으로써 학습 데이터를 생성할 수 있다.
일 실시 예에 의하면, 프로세서(1300)는 상기 생성된 학습 데이터에 기초하여, 상기 제1 파장 대역의 광 또는 제2 파장 대역의 광으로부터 생성된 제3 이미지가 입력되면, 상기 입력된 제3 이미지 내 객체의 종류를 식별하는 제2 신경망 모델을 학습시킬 수 있다. 일 실시 예에 의하면, 프로세서(1300)는 메모리(1700)에 저장된 제1 신경망 모델을 제어함으로써, 제1 신경망 모델이 상기 제1 파장 대역의 광으로부터 생성된 제1 이미지가 입력되면, 상기 입력된 제1 이미지 내 픽셀 정보에 기초하여, 상기 객체에 대한 적어도 하나의 바운더리 셀을 검출하고, 상기 적어도 하나의 바운더리 셀 내 객체가 존재할 확률 값에 기초하여, 상기 복수의 바운더리 셀 중 하나의 바운더리 셀을 객체 영역으로 검출하며, 상기 검출된 객체 영역으로부터, 상기 객체를 검출하도록 할 수 있다.
일 실시 예에 의하면, 프로세서(1300)는 상기 제1 신경망 모델로부터, 상기 검출된 객체 영역의 좌표 정보를 식별하고, 상기 검출된 객체 영역 내 객체의 종류(category)를 식별하며, 상기 식별된 객체 영역의 좌표 정보 및 상기 식별된 객체의 종류를 상기 제1 객체 정보로써 획득할 수 있다. 일 실시 예에 의하면, 프로세서(1300)는 상기 제1 객체 정보에 기초하여, 상기 제1 이미지 내 객체 영역에 대응되는 상기 제2 이미지 내 객체 영역을 식별하고, 상기 식별된 제2 이미지 내 객체 영역의 좌표 정보를 상기 제2 객체 정보로써 획득할 수 있다.
일 실시 예에 의하면, 프로세서(1300)는 상기 제1 객체 정보에 기초하여, 상기 제1 이미지 내 객체 영역에 대응되는 상기 제2 이미지 내 객체 영역을 식별하고, 상기 식별된 제2 이미지 내 객체 영역의 좌표 정보에 상기 제1 객체 정보를 매칭함으로써 상기 학습 데이터를 생성할 수 있다.
빔 스플리터(1400)는 입력된 광을 투과 및 반사 시킴으로써, 제1 파장 대역의 광 및 제2 파장 대역의 광을 생성할 수 있다. 예를 들어, 빔 스플리터(14000)는 입력된 광을 하나 이상의 광들로 분할하기 위한 광 분할부를 포함할 수 있고, 입력된 광을 투과시킴으로써 제2 파장 대역의 광을 생성하고, 입력된 광을 반사시킴으로써 제1 파장 대역의 광을 생성할 수도 있다. 그러나 또 다른 실시 예에 의하면, 빔 스플리터(1400)는 입력된 광을 투과시킴으로써 제1 파장 대역의 광을 생성하고, 입력된 광을 반사시킴으로써 제2 파장 대역의 광을 생성할 수도 있다.
네트워크 인터페이스(1500)는 신경망 모델 학습 장치(1000)가 다른 장치 (미도시) 및 서버(2000)와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 다른 장치(미도시)는 신경망 모델 학습 장치(1000)와 같은 컴퓨팅 장치이거나, 센싱 장치일 수 있으나, 이에 제한되지 않는다. 예를 들어, 네트워크 인터페이스(미도시)는, 근거리 통신부, 이동 통신부를 포함할 수 있다.
근거리 통신부(short-range wireless communication unit)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 이동 통신부는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다.
일 실시 예에 의하면, 네트워크 인터페이스(미도시)는 프로세서의 제어에 의하여, 서버로 생성된 학습 데이터를 전송하거나, 상기 생성된 학습 데이터에 기초하여 제2 신경망 모델을 학습시킨 후, 제2 신경망 모델 내 레이어들 및 레이어들의 연결 강도에 관한 가중치에 대한 정보를 서버로 전송할 수도 있다.
네트워크 인터페이스(1500)는 신경망 모델 학습 장치(1000)와 연결된 제1 카메라로부터 제1 파장 대역의 광으로부터 생성된 제1 이미지, 제2 카메라로부터 제2 파장 대역의 광으로부터 생성된 제2 이미지를 더 수신할 수도 있다. 또 다른 실시 예에 의하면, 네트워크 인터페이스(1500)는, 제2 신경망 모델이 서버(2000)에 저장되는 경우, 서버에 저장된 제2 신경망 모델의 레이어들 및 레이어들 간의 연결 강도에 관한 가중치에 대한 정보를 더 수신할 수도 있다.
제1 카메라(1610)는 빔 스플리터(1400)로부터 제1 파장 대역의 광을 획득하고, 획득된 제1 파장 대역의 광으로부터 제1 이미지를 생성할 수 있다. 제2 카메라(1620)는 빔 스플리터(1400)로부터 제2 파장 대역의 광을 획득하고, 획득된 제2 파장 대역의 광으로부터 제2 이미지를 생성할 수 있다. 일 실시 예에 의하면, 제1 카메라가 가시광선 영역의 광을 센싱함으로써 가시광선 이미지를 생성하는 가시광선 카메라인 경우, 상기 제2 카메라는 자외선 영역의 광을 센싱함으로써 자외선 이미지를 생성하는 자외선 카메라 또는 근적외선 영역의 광을 센싱함으로써 근적외선 이미지를 생성하는 근적외선 카메라 중 하나일 수 있다.
그러나 또 다른 실시 예에 따라, 상기 제1 카메라가 자외선 영역의 광을 센싱함으로써 자외선 이미지를 생성하는 자외선 카메라 또는 근적외선 영역의 광을 센싱함으로써 근적외선 이미지를 생성하는 근적외선 카메라 중 하나인 경우, 상기 제2 카메라는 가시광선 영역의 광을 센싱함으로써 가시광선 이미지를 생성하는 가시광선 카메라일 수 있다.
메모리(1700)는, 프로세서(1300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 신경망 모델 학습 장치 (1000)로 입력되거나 신경망 모델 학습 장치(1000)로부터 출력되는 데이터를 저장할 수도 있다. 또한, 메모리(1300)는 이미지 내 객체를 식별하기 위한 인공 지능 모델을 저장할 수 있다.
일 실시 예에 의하면, 메모리에 저장된 인공 신경망 모델은 상술한 바와 같이, 이미지 또는 영상으로부터 객체(Object)를 식별하도록 미리 학습되는 CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 중 적어도 하나일 수 있다.
또한, 메모리(1700)는 신경망, 신경망의 구조를 특정하기 위한 레이어들 및 레이어들 간의 가중치에 관한 정보를 더 저장할 수 있다. 예를 들면, 메모리(1700)는 학습된 신경망뿐만 아니라, 서버(2000)로부터 수신된 신경망의 가중치들에 관한 정보에 기초하여, 신경망 모델 학습 장치(1000)에 이미 저장된 신경망 모델 내 레이어들 및 레이어들 간의 연결 강도에 관한 가중치를 수정 및 갱신할 수도 있다.
메모리(1700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
메모리(1700)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(1710), 터치 스크린 모듈(1720), 알림 모듈(1730) 등으로 분류될 수 있다.
UI 모듈(1710)은, 애플리케이션 별로 신경망 모델 학습 장치(1000)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(1720)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 프로세서(1300)로 전달할 수 있다. 일부 실시예에 따른 터치 스크린 모듈(1720)은 터치 코드를 인식하고 분석할 수 있다.
알림 모듈(1730)은 신경망 모델 학습 장치(1000)의 이벤트 발생을 알리기 위한 신호를 발생할 수 있다. 전자 장치(1000)에서 발생되는 이벤트의 예로는 호 신호 수신, 메시지 수신, 키 신호 입력, 일정 알림 등이 있다.
도 8은 일 실시 예에 따른 신경망 모델 학습 장치가, 이미지 내 객체를 식별하기 위한 신경망 모델을 학습시키는 과정을 나타내는 도면이다.
일 실시 예에 의하면, 신경망 모델 학습 장치(1000)는 외부로부터 입력 광을 획득할 수 있다. 일 실시 예에 의하면, 입력 광(802)은 자연광으로써, 타겟 스펙트럼의 광(예컨대 자외선 영역의 광, 근적외선 영역의 광) 및 가시광선 영역의 광을 포함할 수 있다. 신경망 모델 학습 장치(1000)는 빔 스플리터(810)를 이용하여 입력 광을 타겟 스펙트럼의 광(814)과 가시광선 영역의 광(812)로 분할할 수 있다. 신경망 모델 학습 장치(1000)는 타겟 스펙트럼의 광(814)을 타겟 스펙트럼 카메라(820)로 전달함으로써 타겟 스펙트럼 이미지(822)를 생성할 수 있다. 또한, 신경망 모델 학습 장치(1000)는 가시광선 영역의 광(812)을 가시광선 카메라(830)로 전달함으로써 가시광선 이미지(832)를 생성할 수 있다.
신경망 모델 학습 장치(1000)는 미리 학습된 신경망 모델을 이용하여, 가시광선 이미지(832)내 제1 객체를 검출하고, 검출된 제1 객체에 대한 제1 객체 정보를 획득하는 일련의 Detection Routine(840)과정을 수행할 수 있다.
신경망 모델 학습 장치(1000)는 가시광선 이미지로부터 추출되는 제1 객체 정보와, 타겟 스펙트럼 이미지(822) 내 제1 객체에 대응되는 영역으로부터 결정되는 제2 객체 정보를 매칭함으로써 학습 데이터를 생성할 수 있다. 신경망 모델 학습 장치(1000)는 생성된 학습 데이터에 기초하여, 신경망 모델(850)을 학습시킬 수 있다.
예를 들어, 신경망 모델 학습 장치(1000)는 학습 데이터를 신경망 모델에 입력하고, 학습 데이터의 입력에 따라 신경망 모델(850)로부터 출력되는 신경망 네트워크의 출력 값(852) 및 실제값(Ground Truth, 842)값의 차이를 결정하며, 상기 결정된 차이가 작아지도록 신경망 모델(850)내 가중치를 수정 및 갱신하는 일련의 과정인 Training Routine(860)을 수행할 수 있다. 신경망 모델 학습 장치(1000)가 빔 스플리터(810), 가시광선 카메라(830) 및 타겟 스펙트럼 카메라(820)를 이용하여 수행하는 상술한 과정은 도 2 내지 도 3에 도시된, 신경망 모델을 학습하는 방법에 대응될 수 있다.
도 9는 일 실시 예에 따른 신경망 모델 학습 장치와 연결되는 서버의 블록도이다.
서버(2000)는 네트워크 인터페이스(2100), 데이터 베이스(Data Base, 2200) 및 프로세서(2300)를 포함할 수 있다.
네트워크 인터페이스(2100)는 도 7에서 상술한 신경망 모델 학습 장치(1000)의 네트워크 인터페이스 구성에 대응될 수 있다. 예를 들어, 네트워크 인터페이스(2100)는 신경망 모델 학습 장치(1000)로부터 제1 스펙트럼의 광으로부터 생성된 제1 이미지 및 제2 스펙트럼의 광으로부터 생성된 제2 이미지를 획득할 수도 있다. 또한, 일 실시 예에 의하면, 네트워크 인터페이스(2100)는 서버(2000)에 자체적으로 저장된 객체를 식별하기 위한 신경망 모델을 이용하여, 이미지에서 검출된 객체에 대한 정보를 신경망 모델 학습 장치(1000)로 전송할 수도 있다.
데이터 베이스(2200)는 도 7에 도시된 메모리(1700)에 대응될 수 있다. 예를 들어, 데이터 베이스(2200)는 가시광선 이미지로부터 객체를 식별하기 위한 제1 신경망 모델, 또는 가시광선 영역 외의 스펙트럼의 이미지로부터 객체를 식별하기 위한, 제2 신경망 모델을 포함할 수 있다. 데이터 베이스(2200)는 신경망 모델 학습 장치(1000)가 학습시킨, 제2 신경망 모델 내 가중치에 대한 정보 만을 저장할 수도 있고, 서버(2000)가 제2 신경망 모델을 학습 시키는 경우에는, 서버(2000) 스스로 학습 시킨 제2 신경망 모델 내 가중치에 대한 정보를 더 저장할 수도 있다.
프로세서(2300)는 통상적으로 서버(2000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(2300)는, 서버(2000)의 DB(2200)에 저장된 프로그램들을 실행함으로써, DB(2200) 및 네트워크 인터페이스(2100) 등을 전반적으로 제어할 수 있다. 또한, 프로세서(2300)는 DB(2200)에 저장된 프로그램들을 실행함으로써, 도 1 내지 도8에서의 신경망 모델 학습 장치(1000)가 수행하는 신경망 모델을 학습하는 방법의 일부를 수행할 수 있다.
일 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 개시를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
또한, 상기 일 실시 예에 다른 방법을 수행하도록 하는 프로그램이 저장된 기록매체를 포함하는 컴퓨터 프로그램 장치가 제공될 수 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상에서 본 개시의 실시예에 대하여 상세하게 설명하였지만 본 개시의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 개시의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 개시의 권리범위에 속한다.

Claims (20)

  1. 이미지 내 객체를 식별하는 신경망 모델을 학습하는 방법에 있어서,
    입력 광을 투과 및 반사시킴으로써 제1 파장 대역의 광 및 제2 파장 대역의 광을 생성하는 단계;
    상기 제1 파장 대역의 광으로부터 제1 이미지를 생성하는 단계;
    상기 제2 파장 대역의 광으로부터 제2 이미지를 생성하는 단계;
    미리 학습되는 제1 신경망 모델을 이용하여 상기 제1 이미지로부터 검출되는 객체에 대한 제1 객체 정보를 생성하는 단계;
    상기 제2 이미지로부터, 상기 제1 이미지에서 검출된 객체에 대응되는 영역에 대한 제2 객체 정보를 생성하는 단계;
    상기 제2 객체 정보 및 상기 제1 객체 정보를 매칭함으로써 학습 데이터를 생성하는 단계; 및
    상기 생성된 학습 데이터에 기초하여, 상기 제1 파장 대역의 광 또는 상기 제2 파장 대역의 광으로부터 생성된 제3 이미지가 입력되면, 상기 입력된 제3 이미지 내 객체의 종류를 식별하는 제2 신경망 모델을 학습하는 단계;를 포함하고,
    상기 제2 신경망 모델은, 상기 생성된 학습 데이터에 기초하여, 상기 제2 신경망 모델 내 레이어들 및 상기 레이어들 간의 연결 강도에 관한 가중치를 수정 및 갱신함으로써 학습되는, 방법.

  2. 삭제
  3. 제1항에 있어서, 상기 제1 파장 대역이 가시 광선 영역에 속하는 광의 스펙트럼을 포함하는 경우, 상기 제2 파장 대역은 자외선(UV) 영역 또는 근적외선(IR) 영역 중 하나의 영역에 속하는 광의 스펙트럼을 포함하고,
    상기 제1 파장 대역이 자외선(UV) 영역 또는 근적외선(IR) 영역 중 하나의 영역에 속하는 광의 스펙트럼을 포함하는 경우, 상기 제2 파장 대역은 가시광선 영역에 속하는 광의 스펙트럼을 포함하는 것인, 방법.
  4. 제3항에 있어서, 상기 제1 이미지를 생성하는 단계는
    상기 제1 파장 대역의 광을 센싱함으로써 상기 제1 이미지를 생성하는 제1 카메라를 이용하여, 상기 제1 이미지를 생성하는 단계; 를 포함하는, 방법.
  5. 제4항에 있어서, 상기 제2 이미지를 생성하는 단계는
    상기 제2 파장 대역의 광을 센싱함으로써 상기 제2 이미지를 생성하는 제2 카메라를 이용하여 상기 제2 이미지를 생성하는 단계; 를 더 포함하는 방법.
  6. 제5항에 있어서,
    상기 제1 카메라가 가시광선 영역의 광을 센싱함으로써 가시광선 이미지를 생성하는 가시광선 카메라인 경우, 상기 제2 카메라는 자외선 영역의 광을 센싱함으로써 자외선 이미지를 생성하는 자외선 카메라 또는 근적외선 영역의 광을 센싱함으로써 근적외선 이미지를 생성하는 근적외선 카메라 중 하나이고,
    상기 제1 카메라가 자외선 영역의 광을 센싱함으로써 자외선 이미지를 생성하는 자외선 카메라 또는 근적외선 영역의 광을 센싱함으로써 근적외선 이미지를 생성하는 근적외선 카메라 중 하나인 경우, 상기 제2 카메라는 가시광선 영역의 광을 센싱함으로써 가시광선 이미지를 생성하는 가시광선 카메라인 것을 특징으로 하는, 방법.
  7. 제1항에 있어서, 상기 제1 신경망 모델은
    상기 제1 파장 대역의 광으로부터 생성된 제1 이미지가 입력되면, 상기 입력된 제1 이미지 내 픽셀 정보에 기초하여, 상기 객체에 대한 적어도 하나의 바운더리 셀을 검출하고,
    상기 적어도 하나의 바운더리 셀 내 객체가 존재할 확률 값에 기초하여, 상기 적어도 하나의 바운더리 셀 중 하나의 바운더리 셀을 객체 영역으로 검출하며,
    상기 검출된 객체 영역으로부터, 상기 객체를 검출하는 것을 특징으로 하는, 방법.
  8. 제7항에 있어서, 상기 제1 객체 정보를 생성하는 단계는
    상기 제1 신경망 모델로부터, 상기 검출된 객체 영역의 좌표 정보를 식별하는 단계;
    상기 검출된 객체 영역 내 객체의 종류(category)를 식별하는 단계; 및
    상기 식별된 객체 영역의 좌표 정보 및 상기 식별된 객체의 종류를 상기 제1 객체 정보로써 생성하는 단계; 를 포함하는, 방법.
  9. 제1항에 있어서, 상기 제2 객체 정보를 획득하는 단계는
    상기 제1 객체 정보에 기초하여, 상기 제1 이미지 내 객체 영역에 대응되는 상기 제2 이미지 내 객체 영역을 식별하는 단계; 및
    상기 식별된 제2 이미지 내 객체 영역의 좌표 정보를 상기 제2 객체 정보로써 획득하는 단계; 를 포함하는, 방법.
  10. 제1항에 있어서, 상기 학습 데이터를 생성하는 단계는
    상기 제1 객체 정보에 기초하여, 상기 제1 이미지 내 객체 영역에 대응되는 상기 제2 이미지 내 객체 영역을 식별하는 단계; 및
    상기 식별된 제2 이미지 내 객체 영역의 좌표 정보에 상기 제1 객체 정보를 매칭함으로써 상기 학습 데이터를 생성하는 단계; 를 포함하는, 방법.
  11. 이미지 내 객체를 식별하기 위한 신경망 모델을 학습하는 장치에 있어서,
    입력 광을 투과 및 반사시킴으로써 제1 파장 대역의 광 및 제2 파장 대역의 광을 생성하는 빔 스플리터;
    상기 제1 파장 대역의 광으로부터 제1 이미지를 생성하는 제1 카메라;
    상기 제2 파장 대역의 광으로부터 제2 이미지를 생성하는 제2 카메라;
    하나 이상의 인스트럭션을 저장하는 메모리; 및
    상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서; 를 포함하고,
    상기 프로세서는,
    미리 학습되는 제1 신경망 모델을 이용하여 상기 제1 이미지로부터 검출되는 객체에 대한 제1 객체 정보를 생성하고,
    상기 제2 이미지로부터, 상기 제1 이미지에서 검출된 객체에 대응되는 영역에 대한 제2 객체 정보를 생성하고,
    상기 제2 객체 정보 및 상기 제1 객체 정보를 매칭함으로써 학습 데이터를 생성하고,
    상기 생성된 학습 데이터에 기초하여, 상기 제1 파장 대역의 광 또는 상기 제2 파장 대역의 광으로부터 생성된 제3 이미지가 입력되면, 상기 입력된 제3 이미지 내 객체의 종류를 식별하는 제2 신경망 모델을 학습하고,
    상기 제2 신경망 모델은, 상기 생성된 학습 데이터에 기초하여, 상기 제2 신경망 모델 내 레이어들 및 상기 레이어들 간의 연결 강도에 관한 가중치를 수정 및 갱신함으로써 학습되는, 장치.

  12. 삭제
  13. 제11항에 있어서, 상기 제1 파장 대역이 가시 광선 영역에 속하는 광의 스펙트럼을 포함하는 경우, 상기 제2 파장 대역은 자외선(UV) 영역 또는 근적외선(IR) 영역 중 하나의 영역에 속하는 광의 스펙트럼을 포함하고,
    상기 제1 파장 대역이 자외선(UV) 영역 또는 근적외선(IR) 영역 중 하나의 영역에 속하는 광의 스펙트럼을 포함하는 경우, 상기 제2 파장 대역은 가시광선 영역에 속하는 광의 스펙트럼을 포함하는 것인, 장치.
  14. 제13항에 있어서,
    상기 제1 카메라가 가시광선 영역의 광을 센싱함으로써 가시광선 이미지를 생성하는 가시광선 카메라인 경우, 상기 제2 카메라는 자외선 영역의 광을 센싱함으로써 자외선 이미지를 생성하는 자외선 카메라 또는 근적외선 영역의 광을 센싱함으로써 근적외선 이미지를 생성하는 근적외선 카메라 중 하나인 것을 특징으로 하는, 장치.
  15. 제13항에 있어서,
    상기 제1 카메라가 자외선 영역의 광을 센싱함으로써 자외선 이미지를 생성하는 자외선 카메라 또는 근적외선 영역의 광을 센싱함으로써 근적외선 이미지를 생성하는 근적외선 카메라 중 하나인 경우, 상기 제2 카메라는 가시광선 영역의 광을 센싱함으로써 가시광선 이미지를 생성하는 가시광선 카메라인 것인, 장치.
  16. 제11항에 있어서, 상기 제1 신경망 모델은
    상기 제1 파장 대역의 광으로부터 생성된 제1 이미지가 입력되면, 상기 입력된 제1 이미지 내 픽셀 정보에 기초하여, 상기 객체에 대한 적어도 하나의 바운더리 셀을 검출하고,
    상기 적어도 하나의 바운더리 셀 내 객체가 존재할 확률 값에 기초하여, 상기 적어도 하나의 바운더리 셀 중 하나의 바운더리 셀을 객체 영역으로 검출하며,
    상기 검출된 객체 영역으로부터, 상기 객체를 검출하는 것을 특징으로 하는, 장치.
  17. 제16항에 있어서, 상기 프로세서는
    상기 제1 신경망 모델로부터, 상기 검출된 객체 영역의 좌표 정보를 식별하고,
    상기 검출된 객체 영역 내 객체의 종류(category)를 식별하고,
    상기 식별된 객체 영역의 좌표 정보 및 상기 식별된 객체의 종류를 상기 제1 객체 정보로써 생성하는 것을 특징으로 하는, 장치.
  18. 제11항에 있어서, 상기 프로세서는
    상기 제1 객체 정보에 기초하여, 상기 제1 이미지 내 객체 영역에 대응되는 상기 제2 이미지 내 객체 영역을 식별하고,
    상기 식별된 제2 이미지 내 객체 영역의 좌표 정보를 상기 제2 객체 정보로써 생성하는 것을 특징으로 하는, 장치.
  19. 제11항에 있어서, 상기 프로세서는
    상기 제1 객체 정보에 기초하여, 상기 제1 이미지 내 객체 영역에 대응되는 상기 제2 이미지 내 객체 영역을 식별하고,
    상기 식별된 제2 이미지 내 객체 영역의 좌표 정보에 상기 제1 객체 정보를 매칭함으로써 상기 학습 데이터를 생성하는 것을 특징으로 하는 장치.
  20. 입력 광을 투과 및 반사시킴으로써 제1 파장 대역의 광 및 제2 파장 대역의 광을 생성하는 단계;
    상기 제1 파장 대역의 광으로부터 제1 이미지를 생성하는 단계;
    상기 제2 파장 대역의 광으로부터 제2 이미지를 생성하는 단계;
    미리 학습되는 제1 신경망 모델을 이용하여 상기 제1 이미지로부터 검출되는 객체에 대한 제1 객체 정보를 생성하는 단계;
    상기 제2 이미지로부터, 상기 제1 이미지에서 검출된 객체에 대응되는 영역에 대한 제2 객체 정보를 생성하는 단계;
    상기 제2 객체 정보 및 상기 제1 객체 정보를 매칭함으로써 학습 데이터를 생성하는 단계; 및
    상기 생성된 학습 데이터에 기초하여, 상기 제1 파장 대역의 광 또는 상기 제2 파장 대역의 광으로부터 생성된 제3 이미지가 입력되면, 상기 입력된 제3 이미지 내 객체의 종류를 식별하는 제2 신경망 모델을 학습하는 단계; 를 포함하고,
    상기 제2 신경망 모델은, 상기 생성된 학습 데이터에 기초하여, 상기 제2 신경망 모델 내 레이어들 및 상기 레이어들 간의 연결 강도에 관한 가중치를 수정 및 갱신함으로써 학습되는, 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR1020200049590A 2019-04-25 2020-04-23 이미지 내 객체를 식별하는 신경망 모델을 학습하는 방법 및 장치 KR102521313B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20190048263 2019-04-25
KR1020190048263 2019-04-25

Publications (2)

Publication Number Publication Date
KR20200125502A KR20200125502A (ko) 2020-11-04
KR102521313B1 true KR102521313B1 (ko) 2023-04-13

Family

ID=73571770

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200049590A KR102521313B1 (ko) 2019-04-25 2020-04-23 이미지 내 객체를 식별하는 신경망 모델을 학습하는 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102521313B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102589433B1 (ko) * 2020-12-24 2023-10-16 동의대학교 산학협력단 스테레오 카메라 기반 미학습 물체 검출 방법 및 시스템
KR20220112164A (ko) 2021-02-03 2022-08-10 주식회사 에스아이에이 목표 물체 검출 방법 및 장치
KR102469015B1 (ko) * 2022-04-12 2022-11-21 주식회사 인피닉 서로 다른 파장 범위를 갖는 복수의 카메라를 이용한 상품 식별 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
CN117935082B (zh) * 2024-03-22 2024-07-09 青岛星科瑞升信息科技有限公司 基于机器学习的夜间图像处理方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009100256A (ja) * 2007-10-17 2009-05-07 Hitachi Kokusai Electric Inc 物体検知装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180068578A (ko) * 2016-12-14 2018-06-22 삼성전자주식회사 복수의 센서를 이용하여 객체를 인식하는 전자 기기 및 방법
KR20180090662A (ko) 2017-02-03 2018-08-13 엘아이지넥스원 주식회사 대역간 적외선 영상 융합 모델
KR20190036327A (ko) * 2017-09-27 2019-04-04 주식회사 소모에너지엔테크놀러지 테라헬즈 대역과 가시광대역의 다중 영상 구현장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009100256A (ja) * 2007-10-17 2009-05-07 Hitachi Kokusai Electric Inc 物体検知装置

Also Published As

Publication number Publication date
KR20200125502A (ko) 2020-11-04

Similar Documents

Publication Publication Date Title
KR102521313B1 (ko) 이미지 내 객체를 식별하는 신경망 모델을 학습하는 방법 및 장치
KR102453169B1 (ko) 디바이스가 이미지를 보정하는 방법 및 그 디바이스
US10943126B2 (en) Method and apparatus for processing video stream
KR102359391B1 (ko) 디바이스가 이미지를 보정하는 방법 및 그 디바이스
US11216694B2 (en) Method and apparatus for recognizing object
KR102491546B1 (ko) 객체를 인식하는 방법 및 장치
KR102643027B1 (ko) 전자 장치, 그의 제어 방법
US20190042894A1 (en) Embedding human labeler influences in machine learning interfaces in computing environments
US11670068B2 (en) Apparatus and method for processing image
US10769453B2 (en) Electronic device and method of controlling operation of vehicle
US11164565B2 (en) Unsupervised learning system and method for performing weighting for improvement in speech recognition performance and recording medium for performing the method
US11825278B2 (en) Device and method for auto audio and video focusing
US20190228294A1 (en) Method and system for processing neural network model using plurality of electronic devices
US11816876B2 (en) Detection of moment of perception
KR20230069892A (ko) 이상 온도를 나타내는 객체를 식별하는 방법 및 장치
KR20240032779A (ko) 전자 장치, 그의 제어 방법
KR102464130B1 (ko) 대상 객체의 크기를 식별하는 방법 및 장치
US10917721B1 (en) Device and method of performing automatic audio focusing on multiple objects
US20230132841A1 (en) Methods, systems, articles of manufacture, and apparatus to recalibrate confidences for image classification
KR102440963B1 (ko) 전자 장치, 이의 제어 방법 및 비일시적인 컴퓨터 판독가능 기록매체
KR20200094607A (ko) 영상 시퀀스에 대한 캡션 정보를 생성하는 전자 장치 및 그 동작 방법
US11218803B2 (en) Device and method of performing automatic audio focusing on multiple objects
US11893063B2 (en) Electronic device and operation method thereof
US20230316470A1 (en) Method for correcting image by device and device therefor
US20230386052A1 (en) Scene segmentation and object tracking

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant