KR102425578B1

KR102425578B1 - 객체를 인식하는 방법 및 장치

Info

Publication number: KR102425578B1
Application number: KR1020170100514A
Authority: KR
Inventors: 정현주; 이건희; 최인권; 김성진; 최현수
Original assignee: 삼성전자주식회사
Priority date: 2017-08-08
Filing date: 2017-08-08
Publication date: 2022-07-26
Also published as: WO2019031714A1; US20200242402A1; EP3629238A1; EP3629238A4; KR20190016367A; CN110998601A; CN110998601B; US11216694B2

Abstract

본 개시는 딥러닝 등의 기계 학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 인공지능(AI) 시스템 및 그 응용에 관련된 것이다. 특히, 본 개시는 인공지능 시스템 및 그 응용에 따라 객체를 인식하는 방법으로, 객체가 포함된 복수의 이미지 각각의 제 1 특성 정보를 추출하고, 추출된 복수의 이미지 각각의 제 1 특성 정보를 결합하여, 복수의 이미지 간의 연관 관계에 관한 적어도 하나의 제 2 특성 정보를 생성하며, 적어도 하나의 제 2 특성 정보를 기초로, 기 생성된 학습 네트워크 모델을 이용하여 복수의 이미지에 포함된 객체를 인식하는 방법을 개시한다.

Description

객체를 인식하는 방법 및 장치 {Method and apparatus for recognizing an object}

개시된 실시예는 객체를 인식하는 방법, 객체를 인식하는 장치 및 객체를 인식하는 방법을 수행하는 프로그램이 기록된 기록매체에 관한 것이다.

인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.

인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.

기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.

인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.

미국특허출원공개공보 US2015/0379371호(2015.12.31.)

개시된 실시예는 특정 객체가 포함된 복수의 이미지로부터 비정형화된 객체의 특성을 추출하고, 추출된 객체의 특성을 결합한 결과를 객체의 인식에 이용함으로써, 보다 효과적으로 이미지의 객체를 인식할 수 있는 객체를 인식하는 방법, 장치 및 기록매체를 제공할 수 있다.

일 실시예에 따라 객체를 인식하는 방법은, 컨텐트에 포함된 적어도 객체가 포함된 복수의 이미지 각각의 제 1 특성 정보를 추출하는 단계; 추출된 복수의 이미지 각각의 제 1 특성 정보를 결합하여, 복수의 이미지 간의 연관 관계에 관한 적어도 하나의 제 2 특성 정보를 생성하는 단계; 및 적어도 하나의 제 2 특성 정보를 기초로, 기 생성된 학습 네트워크 모델을 이용하여 복수의 이미지에 포함된 객체를 인식하는 단계를 포함할 수 있다.

일 실시예에 따라 객체를 인식하는 방법에 있어서, 제 2 특성 정보를 생성하는 단계는, 추출된 복수의 이미지 각각의 제 1 특성 정보를 선형 결합하여, 복수의 이미지 간의 유사도 값 및 차이값 중 적어도 하나를 나타내는 제 2 특성 정보를 생성할 수 있다.

일 실시예에 따라 객체를 인식하는 장치는, 하나 이상의 인스트럭션을 저장하는 메모리; 출력부; 및 메모리에 저장된 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고, 프로세서는, 객체가 포함된 복수의 이미지 각각의 제 1 특성 정보를 추출하고, 추출된 복수의 이미지 각각의 제 1 특성 정보를 결합하여, 복수의 이미지 간의 연관 관계에 관한 적어도 하나의 제 2 특성 정보를 생성하며, 적어도 하나의 제 2 특성 정보를 기초로, 기 생성된 학습 네트워크 모델을 이용하여 상기 복수의 이미지에 포함된 객체를 인식할 수 있다.

도 1은 일 실시예에 따른 객체 인식 장치가 객체를 인식하는 방법을 설명하기 위한 개념도이다.
도 2는 일 실시예에 따른 객체 인식 장치가 객체를 인식하는 방법을 설명하기 위한 흐름도이다.
도 3은 일 실시예에 다른 따른 객체 인식 장치가 복수의 이미지의 특성 정보의 결합을 통해 타겟 이미지에 포함된 객체를 인식하는 방법을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 객체 인식 장치가 복수의 이미지 중 선택된 이미지를 이용하여 타겟 이미지의 객체를 인식하는 방법을 설명하기 위한 흐름도이다.
도 5는 일 실시예에 따른 객체 인식 장치가 객체 인식에 이용되는 이미지를 선택하는 방법을 설명하기 위한 흐름도이다.
도 6은 일 실시예에 따른 객체 인식 장치가 움직임 정보를 기초로 복수의 이미지에서 객체 인식을 위한 특정 영역을 추출하는 방법을 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 객체 인식 장치가 객체를 인식하는데 이용하는 학습 네트워크 모델을 설명하기 위한 도면이다.
도 8은 일 실시예에 따른 객체 인식 장치가 객체 인식에 이용하는 제 2 학습 네트워크 모델을 보다 구체적으로 설명하기 위한 도면이다.
도 9는 일 실시예에 따른 제 2 학습 네트워크 모델의 차이점 학습 레이어를 설명하기 위한 도면이다.
도 10은 일 실시예에 따른 제 2 학습 네트워크 모델의 공통점 학습 레이어를 설명하기 위한 도면이다.
도 11은 일 실시예에 따른 제 2 학습 네트워크 모델의 결합 레이어를 설명하기 위한 도면이다.
도 12는 일 실시예에 따라 객체를 인식하는 객체 인식 장치의 블록도이다.
도 13은 일 실시예에 따른 프로세서를 설명하기 위한 도면이다.
도 14는 일 실시예에 따른 데이터 학습부의 블록도이다.
도 15는 일 실시예에 따른 데이터 인식부의 블록도이다.
도 16은 다른 실시예에 따른 객체 인식 장치의 블록도이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 구성 요소들은 용어들에 의해 한정되지는 않는다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 항목들의 조합 또는 복수의 관련된 항목들 중의 어느 하나의 항목을 포함한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 특성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.

아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

도 1은 일 실시예에 따른 객체 인식 장치(100)가 객체를 인식하는 방법을 설명하기 위한 개념도이다.

도 1을 참조하면, 객체 인식 장치(100)는 객체가 포함된 복수의 이미지(10, 20, 30)를 획득할 수 있다. 예를 들어, 객체 인식 장치(100)는 외부의 디바이스로부터 복수의 이미지(10, 20, 30)를 수신할 수 있다. 다른 예에 따라, 객체 인식 장치(100)에 구비된 카메라를 이용하여 객체가 포함된 복수의 이미지(10, 20, 30)를 획득할 수도 있다. 여기에서, 이미지는 장면, 프레임 등의 용어와 동일한 의미로 사용될 수 있다. 또한, 복수의 이미지(10, 20, 30)는 서로 시간적, 분류학적으로 관계가 있는 이미지를 포함할 수 있다. 예를 들어, 복수의 이미지(10, 20, 30)는 동일한 객체 또는 동일한 카테고리의 객체를 서로 다른 시간 또는 서로 다른 위치에서 촬영한 결과 생성된 이미지일 수 있다.

한편, 설명의 편의상 복수의 이미지(10, 20, 30) 중 인식의 대상이 되는 이미지를 타겟 이미지(30)로 설명하고, 타겟 이미지(30)와 관련된 다른 이미지들을 제 1 이미지(10) 및 제 2 이미지(20)로 설명하도록 한다.

객체 인식 장치(100)는 기 생성된 제 1 학습 네트워크 모델(40)을 이용하여, 복수의 이미지(10, 20, 30) 각각에 대한 제 1 특성 정보를 획득할 수 있다. 여기에서, 제 1 학습 네트워크 모델(40)은 본 명세서에서, 특성 추출 네트워크로 설명될 수도 있다. 또한, 이미지(예를 들어, 30)의 제 1 특성 정보는 이미지를 구성하는 색상, 엣지(edge), 폴리건(polygon), 채도(saturation), 명도(brightness), 색온도, 블러(blur), 선명도(sharpness) 및 명도비(contrast) 등을 포함할 수 있으나, 제1 특성 정보가 이에 한정되는 것은 아니다.

일 실시예에 따른 객체 인식 장치(100)는 획득된 복수의 이미지(10, 20, 30) 각각의 제 1 특성 정보를 결합하여, 복수의 이미지(10, 20, 30) 간의 연관 관계를 나타내는 적어도 하나의 제 2 특성 정보를 획득할 수 있다. 예를 들어, 객체 인식 장치(100)는 복수의 이미지(10, 20, 30) 각각으로부터 획득된 제 1 특성 정보를 더하거나 빼는 선형 결합을 통해 적어도 하나의 제 2 특성 정보를 획득할 수 있다. 여기에서, 제 1 특성 정보는 벡터 형태로 획득될 수 있으나, 이는 일 실시예일 뿐, 제 1 특성 정보가 벡터 형태로 한정되는 것은 아니다.

일 실시예에 따른 객체 인식 장치(100)는 획득된 적어도 하나의 제 2 특성 정보를 기초로 기 생성된 제 2 학습 네트워크 모델을 이용하여, 타겟 이미지(30)에 포함된 객체(32)를 인식할 수 있다. 여기에서, 제 2 학습 네트워크 모델(50)은 본 명세서에서, 특성 결합 네트워크로 설명될 수도 있다.

일 실시예에 따른 객체 인식 장치(100)는 객체가 움직이는 경우 또는 촬영 장치나 객체 인식 장치가 움직이는 경우에 의해 객체의 형태 및 크기가 비정형화되는 경우에도, 객체가 포함된 복수의 이미지로부터 추출된 특성 정보를 결합하여 객체 인식에 이용함으로써, 객체 인식의 정확도를 높일 수 있다.

한편, 객체 인식 장치(100)는 스마트폰, 태블릿 PC, PC, 스마트 TV, 휴대폰, PDA(personal digital assistant), 랩톱, 미디어 플레이어, 마이크로 서버, 전자책 객체 인식 장치, 디지털방송용 객체 인식 장치, 키오스크, MP3 플레이어, 디지털 카메라, 로봇 청소기, 가전기기 및 기타 모바일 또는 비모바일 컴퓨팅 장치일 수 있으나, 이에 제한되지 않는다. 또한, 객체 인식 장치(100)는 통신 기능 및 데이터 프로세싱 기능을 구비한 시계, 안경, 헤어 밴드 및 반지 등의 웨어러블 장치일 수 있다.

도 2는 일 실시예에 따른 객체 인식 장치가 객체를 인식하는 방법을 설명하기 위한 흐름도이다.

단계 S210에서, 객체 인식 장치는 객체가 포함된 복수의 이미지 각각의 제 1 특성 정보를 추출할 수 있다.

일 실시예에 따른 객체 인식 장치는 기 생성된 제 1 학습 네트워크 모델을 이용하여 복수의 이미지 각각으로부터 제 1 특성 정보를 획득할 수 있다. 여기에서, 제 1 학습 네트워크 모델은 복수의 이미지 각각으로부터 병렬적으로 제1 특성 정보를 추출하기 위한 복수의 뉴럴 네트워크로 구성될 수 있다. 다만, 이는 일 실시예일 뿐, 객체 인식 장치는 기 생성된 제 1 학습 네트워크 모델을 이용하여, 복수의 이미지 각각으로부터 순차적으로 제 1 특성 정보를 획득할 수도 있다.

또한, 제 1 학습 네트워크 모델은 객체 인식 장치 내에 저장될 수 있으나, 다른 실시예에 따라, 객체 인식 장치는 외부의 서버에 저장된 제 1 학습 네트워크 모델을 이용하여 복수의 이미지 각각의 제 1 특성 정보를 획득할 수도 있다. 이 경우, 객체 인식 장치는 외부의 서버에 복수의 이미지를 전송하거나, 복수의 이미지를 획득할 수 잇는 위치 정보 등을 전송함으로써, 제 1 특성 정보의 추출을 외부 서버에 요청할 수 있다.

한편, 다른 실시예에 따라, 객체 인식 장치는 제 1 학습 네트워크 모델을 이용하지 않고, 이미지 각각을 분석하여 제 1 특성 정보를 획득할 수도 있다.

단계 S220에서, 객체 인식 장치는 추출된 복수의 이미지 각각의 제 1 특성 정보를 결합하여, 복수의 이미지 간의 연관 관계에 관한 적어도 하나의 제 2 특성 정보를 생성할 수 있다.

일 실시예에 따른 객체 인식 장치는 추출된 복수의 이미지 각각의 제 1 특성 정보를 결합할 수 있다. 예를 들어, 객체 인식 장치는 추출된 복수의 이미지 각각의 제 1 특성 정보를 구성하는 제 1 특성 벡터를 더하거나 빼는 연산을 통해 제 1 특성 정보를 선형적으로 결합할 수 있다. 이를 통해, 객체 인식 장치는 복수의 이미지 간의 차이점과 유사점을 각각 나타내는 적어도 하나의 제 2 특성 정보를 생성할 수 있다. 차이점의 경우, 객체가 촬영된 위치 및 시간 등의 촬영 상황에 따라 달라질 수 있는 특성 정보를 포함할 수 있다. 유사점은 촬영 상황에 따라 변하지 않는 객체의 고유 정보를 포함할 수 있다.

단계 S230에서, 객체 인식 장치는 적어도 하나의 제 2 특성 정보를 기초로 기 생성된 학습 네트워크 모델을 이용하여 복수의 이미지에 포함된 객체를 인식할 수 있다.

일 실시예에 따른 객체 인식 장치는 기 생성된 학습 네트워크 모델에 적어도 하나의 제 2 특성 정보를 입력 데이터로 적용한 결과, 복수의 이미지 중 타겟 이미지에 포함된 객체의 인식 결과를 출력 데이터로 획득할 수 있다.

도 3은 일 실시예에 다른 따른 객체 인식 장치가 복수의 이미지의 특성 정보의 결합을 통해 타겟 이미지에 포함된 객체를 인식하는 방법을 설명하기 위한 도면이다.

도 3을 참조하면, 객체 인식 장치(100)는 타겟 이미지(330)에 포함된 객체를 인식하기 위해, 타겟 이미지(330)와 관련된 복수의 이미지(310, 320, 340 내지 370)을 획득할 수 있다. 여기에서, 타겟 이미지(330)와 관련된 복수의 이미지(310, 320, 340 내지 370)는 시간적/분류학적으로 연관이 있는 이미지로서, 객체를 다른 시간에 촬영하였거나, 객체와 동일한 카테고리에 해당하는 객체를 포함할 수 있다.

객체 인식 장치(100)는 제 1 학습 네트워크 모델(40)을 이용하여, 복수의 이미지(310 내지 370) 각각에 대한 적어도 하나의 제 1 특성 정보를 획득할 수 있다. 객체 인식 장치(100)는 적어도 하나의 제 1 특성 정보를 결합한 결과 생성된 적어도 하나의 제 2 특성 정보를 제 2 학습 네트워크 모델(50)에 입력할 수 있다.

객체 인식 장치(100)는, 제 1 특성 정보를 결합함으로써 획득된, 복수의 이미지(310 내지 370) 간의 연관 관계에 관한 정보를 나타낼 수 있다. 예를 들어, 비행기가 포함된 타겟 이미지(330)의 제 1 특성 정보와 자동차가 포함된 제 3 이미지(340)의 제 1 특성 정보를 비교한 결과, 비행기와 자동차 간의 차이점 중 하나인 날개 부분이 존재하지 않음을 나타내는 제 2 특성 정보가 생성될 수 있다. 다른 예에 따라, 타겟 이미지(330)의 제 1 특성 정보와 다른 각도에서 촬영된 비행기가 포함된 제 4 이미지(350) 및 다른 종류의 비행기가 포함된 제 5 이미지(360)의 제 1 특성 정보를 각각 비교한 결과, 공통점인 날개 부분을 나타내는 제 2 특성 정보가 생성될 수 있다.

객체 인식 장치(100)는 생성된 적어도 하나의 제 2 특성 정보를 제 2 학습 네트워크 모델(50)의 입력 데이터로 적용하여, 타겟 이미지(330)에 포함된 객체의 인식 결과를 출력 데이터로 획득할 수 있다. 여기에서, 객체의 인식 결과는, 복수의 객체 각각과 일치할 확률을 나타내는 값으로 출력될 수 있으나, 이는 일 실시예일 뿐, 출력 데이터의 형태가 전술한 예에 한정되는 것은 아니다.

도 4는 일 실시예에 따른 객체 인식 장치가 복수의 이미지 중 선택된 이미지를 이용하여 타겟 이미지의 객체를 인식하는 방법을 설명하기 위한 흐름도이다.

단계 S410에서, 객체 인식 장치는 객체 인식 결과 및 프레임 간의 차이 중 적어도 하나에 기초하여, 타겟 이미지의 객체 인식에 이용되는 복수의 이미지를 선택할 수 있다.

일 실시예에 따른 객체 인식 장치는 객체 인식의 효율을 높이기 위해, 획득된 전체의 이미지 셋 중 이전 이미지의 객체 인식 결과 및 프레임 간의 차이 중 적어도 하나에 기초하여, 복수의 이미지를 선택할 수 있다. 예를 들어, 객체 인식 장치는 전체의 이미지 셋에 포함된 이미지들 각각을 비교한 결과, 이미지 간의 특성 차이가 기 설정된 범위 이내인 이미지를 선택할 수 있다. 객체 인식 장치는 이미지 간의 특성 차이가 기 설정된 범위 이내인 이미지를 선택함으로써, 전혀 다른 객체 또는 객체를 인식하는데 불필요한 이미지를 배제할 수 있고, 차이가 적음에 따라 특성에 따라 새로운 정보를 제공할 수 없는 이미지를 배제할 수 있다.

단계 S420에서, 객체 인식 장치는 선택된 복수의 이미지 각각을 전처리 할 수 있다.

일 실시예에 따른 객체 인식 장치는 복수의 이미지 간의 비교 시, 환경을 동일하게 설정하기 위해, 전처리를 통해 복수의 이미지의 밝기, 선명도 등의 화질에 관한 파라미터를 조절할 수 있다. 다만, 이는 일 실시예일 뿐, 전처리 과정에 전술한 화질 조절 프로세스 만이 포함되는 것은 아니다.

단계 S430에서, 객체 인식 장치는 전처리된 각 이미지의 특성 추출 영역을 선택할 수 있다.

일 실시예에 따른 객체 인식 장치는 객체 촬영 시, 객체 인식 장치의 움직임 정보를 기초로 이미지 내에서 객체가 포함되는 영역을 추정할 수 있다. 이에 따라, 객체 인식 장치는 추정된 영역을 각 이미지의 특성 추출 영역으로서 선택할 수 있다. 예를 들어, 객체 인식 장치가 왼쪽으로 이동한 경우, 객체 인식 장치는 객체가 있을 것으로 추정되는 영역인 특성 추출 영역을 상대적으로 오른쪽으로 이동시킬 수 있다.

객체 인식 장치는 각 이미지의 특성 추출 영역을 선택하여, 객체 인식에 이용함으로써, 객체 인식에 소요되는 자원을 줄일 수 있다.

단계 S440에서, 객체 인식 장치는 제 1 학습 네트워크 모델을 이용하여, 선택된 각각의 특성 추출 영역에서 특성 정보를 추출할 수 있다. 여기에서, 추출된 특성 정보는 제 1 특성 정보로 설명될 수 있다. 한편, 객체 인식 장치가 제 1 학습 네트워크 모델을 이용하여 제 1 특성 정보를 추출하는 방법은 도 1 내지 도 3을 참조하여 전술한 방법과 동일할 수 있다. 여기에서, 객체 인식 장치는 제 1 학습 네트워크 모델에 입력되는 각각의 특성 추출 영역의 가중치를 동일하게 설정할 수 있다. 다만, 이는 일 실시예일 뿐 객체 인식 장치는 특정 특성 추출 영역의 가중치를 상대적으로 더 높게 설정할 수도 있다.

단계 S450에서, 객체 인식 장치는 추출된 특성 정보를 결합할 수 있다. 여기에서, 결합된 특성 정보는 제 2 특성 정보로 설명될 수 있다.

단계 S460에서, 객체 인식 장치는 결합된 특성 정보를 기초로 제 2 학습 네트워크 모델을 이용하여, 타겟 이미지에 포함된 객체를 인식할 수 있다.

일 실시예에 따른 객체 인식 장치는 추출된 특성 정보의 결합 형태별로, 제 2 학습 네트워크에 입력되는 적어도 하나의 제 2 특성 정보의 가중치를 다르게 설정할 수 있다. 다만, 이는 일 실시예일 뿐, 객체 인식 장치는 제 1 학습 네트워크에 입력되는 적어도 하나의 제 2 특성 정보의 가중치를 동일하게 설정할 수도 있다.

도 5는 일 실시예에 따른 객체 인식 장치가 객체 인식에 이용되는 이미지(510, 560)를 선택하는 방법을 설명하기 위한 흐름도이다.

도 5를 참조하면, 객체 인식 장치는 타겟 이미지와 시간적 또는 분류학적으로 연관 관계가 존재하는 복수의 이미지(510 내지 560)를 획득할 수 있다. 객체 인식 장치는, 복수의 이미지(510 내지 560) 간의 차이 및 이전 이미지의 객체 인식 결과를 기초로 복수의 이미지(510 내지 560) 중 객체 인식에 이용되는 이미지(510, 560)를 선택할 수 있다.

예를 들어, 객체 인식 장치는 복수의 이미지(510 내지 560)간의 특성을 비교한 결과, 차이가 기 설정된 범위 이내인 제 1 이미지(510) 및 제 6 이미지(560)를 선택할 수 있다. 여기에서, 제 2 이미지(520) 내지 제 5 이미지(550)의 경우에는, 이미지 획득 간격이 짧아, 각각에 포함된 객체의 변화가 거의 없을 수 있다. 이러한 경우, 타겟 이미지의 객체를 인식하는데 제공할 수 있는 정보 보다 이미지의 처리에 소요되는 자원이 더 커짐에 따라, 객체 인식에 사용될 실익이 적을 수 있다.

이에 따라, 객체 인식 장치는 이미지 추출 간격을 더 늘려서, 복수의 이미지(510 내지 560) 중 제 1 이미지(510) 및 제 6 이미지(560)만을 선택할 수 있다. 선택된 제 1 이미지(510) 및 제 6 이미지(560)는 타겟 이미지의 객체 인식에 사용될 수 있다.

한편, 이는 일 실시예일 뿐, 객체 인식 장치는 이전 이미지에서 객체가 인식된 경우, 이미지 추출 간격을 짧게 설정할 수 있다.

도 6은 일 실시예에 따른 객체 인식 장치가 움직임 정보를 기초로 복수의 이미지(610 내지 630)에서 객체 인식을 위한 특정 영역(612 내지 632)을 추출하는 방법을 설명하기 위한 도면이다.

도 6을 참조하면, 객체 인식 장치는 복수의 이미지(610 내지 630)가 촬영된 당시의 촬영 장치의 움직임 정보를 획득할 수 있다. 여기에서, 촬영 장치는 객체 인식 장치일 수도 있으나, 외부의 장치일 수도 있다.

객체 인식 장치는 복수의 이미지(610 내지 630) 각각에 대한 움직임 정보를 기초로 이미지 내에서 추출되는 영역을 다르게 설정할 수 있다. 여기에서, 제 1 이미지(610)에 대한 추출 영역인 제 1 영역(612)은 이전 프레임의 객체 인식 등을 통해 미리 결정된 것으로 가정한다.

한편, 객체 인식 장치는 움직임 정보를 통해 제 1 이미지(610)를 촬영한 시점과 제 2 이미지(620)를 촬영한 시점 사이에, 촬영 장치가 왼쪽으로 움직임을 확인할 수 있다. 이에 따라, 객체 인식 장치는 제 2 이미지(620)에서 제 1 이미지(610)의 추출 영역인 제 1 영역(612)을 오른쪽으로 이동시킨 부분에 대응되는 제 2 영역(622)을 추출 영역으로 결정할 수 있다.

또한, 객체 인식 장치는 움직임 정보를 통해 제 2 이미지(620)를 촬영한 시점과 제 3 이미지(630)를 촬영한 시점 사이에, 촬영 장치가 왼쪽으로 움직임을 확인할 수 있다. 이에 따라, 객체 인식 장치는 제 3 이미지(630)에서 제 2 이미지(620)의 추출 영역인 제 2 영역(622)을 오른쪽으로 이동시킨 부분에 대응되는 제 3 영역(632)을 추출 영역으로 결정할 수 있다.

도 7은 일 실시예에 따른 객체 인식 장치가 객체를 인식하는데 이용하는 학습 네트워크 모델을 설명하기 위한 도면이다.

도 7을 참조하면, 객체 인식 장치는 타겟 이미지(704) 및 타겟 이미지와 시간적 또는 분류학적 관계를 갖는 제 1 이미지(702)를 획득할 수 있다. 객체 인식 장치는 제 1 학습 네트워크 모델(710)을 이용하여, 타겟 이미지(704) 및 제 1 이미지(702)로부터 각각 적어도 하나의 제 1 특성 정보를 획득할 수 있다.

여기에서, 제 1 학습 네트워크 모델(710)은 서로 다른 크기의 복수의 레이어(예를 들어, 55x55x96, 55x55x128)로 구성될 수 있으며, 도 7에서는 복수의 이미지(702, 704)로부터 병렬적으로 제 1 특성 정보를 획득할 수 있도록 제 1 학습 네트워크 모델(710)이 복수의 뉴럴 네트워크로 구성된 것으로 가정하였다. 다만, 이는 일 실시예일 뿐, 객체 인식 장치는 하나의 뉴럴 네트워크로 구성된 제 1 학습 네트워크 모델(710)을 이용하여, 복수의 이미지(702, 704) 각각으로부터 순차적으로 제 1 특성 정보를 획득할 수 있다.

객체 인식 장치는 복수의 이미지(702, 704) 각각으로부터 획득된 적어도 하나의 제 1 특성 정보를 선형 결합할 수 있다. 여기에서, 선형 결합은 벡터 형태로 획득된 제 1 특성 정보를 더하는 제 1 선형 결합과 벡터 형태로 획득된 제 1 특성 정보를 빼는 제 2 선형 결합을 포함할 수 있다. 다만, 이는 일 실시예일 뿐, 객체 인식 장치가 적어도 하나의 제 1 특성 정보를 결합하는 방법이 전술한 예에 한정되는 것은 아니다. 예를 들어, 객체 인식 장치는 적어도 하나의 제 1 특성 정보에 서로 다른 가중치를 두어 결합하거나, 비선형 방식에 따라 적어도 하나의 제 1 특성 정보를 결합할 수 있다.

한편, 객체 인식 장치는 적어도 하나의 제 1 특성 정보를 선형 결합한 결과, 적어도 하나의 제 2 특성 정보를 획득할 수 있다. 객체 인식 장치는 획득된 적어도 하나의 제 2 특성 정보를 제 2 학습 네트워크 모델(720)에 입력 데이터로 적용함으로써 타겟 이미지(704)에 포함된 객체의 인식 결과를 출력 데이터(730)로 획득할 수 있다. 도 7에서, C는 클래스의 번호를 나타낸다.

도 8은 일 실시예에 따른 객체 인식 장치가 객체 인식에 이용하는 제 2 학습 네트워크 모델(820)을 보다 구체적으로 설명하기 위한 도면이다.

도 8을 참조하면, 객체 인식 장치는 타겟 이미지(810)의 적어도 하나의 제 1 특성 정보와 관련 이미지(805)의 적어도 하나의 제 1 특성 정보를 획득할 수 있다. 여기에서, 관련 이미지(805)란 타겟 이미지(810)와 시간적 또는 분류학적으로 관계가 있는 이미지를 나타낼 수 있다.

일 실시예에 따른 객체 인식 장치는 타겟 이미지(810)의 적어도 하나의 제 1 특성 정보와 관련 이미지(805)의 적어도 하나의 제 1 특성 정보를 선형적으로 결합한 결과 생성된 제 2 특성 정보를 제 2 학습 네트워크 모델(820)의 입력 데이터로 적용할 수 있다. 여기에서, 제 2 학습 네트워크 모델(820)은 차이점 학습 레이어(difference learning layer, 822), 공통점 학습 레이어(consistency learning layer, 824) 및 결합 레이어(integration layer, 825)를 포함할 수 있으나, 이는 제 2 학습 네트워크 모델(820)의 동작을 설명하기 위해 기능적으로 분류된 레이어일 뿐, 제 2 학습 네트워크 모델(820)은 더 많은 개수의 레이어로 구성될 수도 있다.

일 실시예에 따른 차이점 학습 레이어(822), 공통점 학습 레이어(824) 및 결합 레이어(825)에 대해서는 도 9 내지 도 11을 참조하여 보다 구체적으로 후술하도록 한다.

한편, 일 실시예에 따른 제 2 학습 네트워크 모델(820)에는 적어도 하나의 제 2 특성 정보를 기초로 객체 인식을 도출하는데에 대한 표현력을 향상시키기 위한 학습 목적으로 적어도 하나의 풀링 레이어(832, 834)를 추가적으로 포함할 수 있다. 예를 들어, 적어도 하나의 풀링 레이어(832, 834)는 이미지간 차이점 및 유사점 이외에도 이미지 각각의 카테고리를 잘 표현할 수 있는 특성이 추출될 수 있도록 학습될 수 있다.

도 9는 일 실시예에 따른 제 2 학습 네트워크 모델의 차이점 학습 레이어를 설명하기 위한 도면이다.

도 9를 참조하면, 차이점 학습 레이어는 채널-와이즈 차이점 레이어(channel-wise difference layer, 915) 및 적어도 하나의 컨볼루션 레이어(convolution layer, 920)를 포함할 수 있다. 다만, 이는 일 실시예일 뿐, 본 발명의 차이점 학습 레이어가 전술한 예에 한정되는 것은 아니다.

객체 인식 장치는 타겟 이미지(910)의 적어도 하나의 제 1 특성 정보와 관련 이미지(905)의 적어도 하나의 제 1 특성 정보를 결합한 결과 획득된 적어도 하나의 제 2 특성 정보를 제 2 학습 네트워크 모델에 입력할 수 있다. 여기에서, 차이점 학습 레이어는 적어도 하나의 제 1 특성 정보의 결합을 통해 획득된 타겟 이미지(910)와 관련 이미지(905) 간의 차이를 이용하여, 타겟 프레임(910)의 객체 인식 정확도가 높아지도록 새로운 특성을 생성하는 레이어를 학습할 수 있다.

객체 인식 장치는 적어도 하나의 제 2 특성 정보를 차이점 학습 레이어에 입력 데이터로 적용한 결과, 이미지들 간의 차이로부터 산출된 새로운 특성(930)을 획득할 수 있다.

도 10은 일 실시예에 따른 제 2 학습 네트워크 모델의 공통점 학습 레이어를 설명하기 위한 도면이다.

도 10을 참조하면, 공통점 학습 레이어는 채널-와이즈 덧셈 레이어(channel-wise addition layer, 1015) 및 적어도 하나의 컨볼루션 레이어(convolution layer, 1020)를 포함할 수 있다. 다만, 이는 일 실시예일 뿐, 본 발명의 공통점 학습 레이어가 전술한 예에 한정되는 것은 아니다.

객체 인식 장치는 타겟 이미지(1010)의 적어도 하나의 제 1 특성 정보와 관련 이미지(1005)의 적어도 하나의 제 1 특성 정보를 결합한 결과 획득된 적어도 하나의 제 2 특성 정보를 제 2 학습 네트워크 모델에 입력할 수 있다. 여기에서, 공통점 학습 레이어는 적어도 하나의 제 1 특성 정보의 결합을 통해 획득된 타겟 이미지(1010)와 관련 이미지(1005) 간의 합을 이용하여, 타겟 프레임(1010)의 객체 인식 정확도가 높아지도록 새로운 특성을 생성하는 레이어를 학습할 수 있다.

객체 인식 장치는 적어도 하나의 제 2 특성 정보를 공통점 학습 레이어에 입력 데이터로 적용한 결과, 이미지들 간의 합로부터 산출된 새로운 특성(1030)을 획득할 수 있다.

도 11은 일 실시예에 따른 제 2 학습 네트워크 모델의 결합 레이어를 설명하기 위한 도면이다.

도 11을 참조하면, 결합 레이어는 접합 레이어(concatenation layer, 1130), 적어도 하나의 컨볼루션 레이어(1140 내지 1160), 풀링 레이어(pooling layer, 1170) 및 소프트 맥스 레이어(soft-max layer, 1180)를 포함할 수 있다.

다만, 이는 일 실시예일 뿐, 본 발명의 결합 레이어가 전술한 예에 한정되는 것은 아니다.

객체 인식 장치는 도 9를 참조하여 전술한, 이미지들 간의 차이로부터 산출된 새로운 특성(1110) 및 이미지들 간의 합으로부터 산출된 새로운 특성(1120)을 결합 레이어의 입력 데이터로 적용할 수 있다. 결합 레이어는 입력된 새로운 특성(1110, 1120)을 통해 타겟 프레임의 객체 인식 정확도가 높아질 수 있도록 컨볼루션 레이어를 학습시킬 수 있다. 결합 레이어에 이미지들 간의 차이로부터 산출된 새로운 특성(1110) 및 이미지들 간의 합으로부터 산출된 새로운 특성(1120)이 입력 데이터로 적용됨에 따라, 타겟 이미지 내의 객체 인식 결과가 출력될 수 있다.

도 12는 일 실시예에 따라 객체를 인식하는 객체 인식 장치(100)의 블록도이다.

도 12를 참조하면, 객체 인식 장치(100)는 메모리(110), 프로세서(120) 및 디스플레이(130)를 포함할 수 있다.

메모리(110)는 프로세서(120)의 처리 및 제어를 위한 프로그램들(하나 이상의 인스트럭션들)을 저장할 수 있다. 메모리(110)에 저장된 프로그램들은 기능에 따라 복수 개의 모듈들로 구분될 수 있다. 일 실시예에 따라 메모리(110)는 도 13을 참고하여 후술할 데이터 학습부 및 데이터 인식부가 소프트웨어 모듈로 구성될 수 있다. 또한, 데이터 학습부 및 데이터 인식부는 각각 독립적으로 학습 네트워크 모델을 포함하거나, 하나의 학습 네트워크 모델을 공유할 수 있다.

프로세서(120)는 하나 이상의 코어(core, 미도시) 및 그래픽 처리부(미도시) 및/또는 다른 구성 요소와 신호를 송수신하는 연결 통로(예를 들어, 버스(bus) 등)를 포함할 수 있다.

일 실시예에 따라 프로세서(120)는 도 1 내지 도 11을 참고하여 전술한 객체 인식 장치의 동작을 수행할 수 있다.

예를 들어, 프로세서(120)는 객체를 포함한 타겟 이미지 및 타겟 이미지와 관련된 적어도 하나의 관련 이미지를 획득할 수 있다. 또한, 프로세서(120)는 제 1 학습 네트워크 모델을 이용하여, 획득된 복수의 이미지 각각으로부터 제 1 특성 정보를 획득할 수 있다. 프로세서(120)는 획득된 복수의 이미지 각각의 제 1 특성 정보를 결합하여 적어도 하나의 제 2 특성 정보를 획득할 수 있다. 프로세서(120)는 획득된 적어도 하나의 제 2 특성 정보를 기초로, 기 생성된 제 2 학습 네트워크 모델을 이용하여, 타겟 이미지의 객체를 인식할 수 있다.

한편, 프로세서(120)는 프로세서(120) 내부에서 처리되는 신호(또는, 데이터)를 일시적 및/또는 영구적으로 저장하는 램(RAM: Random Access Memory, 미도시) 및 롬(ROM: Read-Only Memory, 미도시)을 더 포함할 수 있다. 또한, 프로세서(120)는 그래픽 처리부, 램 및 롬 중 적어도 하나를 포함하는 시스템온칩(SoC: system on chip) 형태로 구현될 수 있다.

출력부(130)는 획득된 복수의 이미지 중 적어도 일부를 표시할 수 있다. 또한, 출력부(130)는 타겟 이미지에 포함된 객체의 인식 결과를 표시할 수도 있다.

도 13은 일 실시예에 따른 프로세서(120)를 설명하기 위한 도면이다.

도 13을 참조하면, 일 실시예에 따른 프로세서(120)는 데이터 학습부(1310) 및 데이터 인식부(1320)를 포함할 수 있다.

데이터 학습부(1310)는 복수의 이미지 각각으로부터 제 1 특성 정보를 획득하기 위한 기준을 학습할 수 있다. 또한, 다른 실시예에 따라, 데이터 학습부(1310)는 복수의 이미지 각각의 제 1 특성 정보를 결합한 결과 생성된 적어도 하나의 제 2 특성 정보로부터 객체를 인식하기 위한 기준을 학습할 수 있다.

데이터 인식부(1320)는 데이터 학습부(1310)를 통해 학습된 기준에 기초하여, 복수의 이미지 각각의 특성 정보를 추출하거나, 타겟 이미지에 포함된 객체를 인식할 수 있다.

데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 객체 인식 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 객체 인식 장치에 탑재될 수도 있다.

이 경우, 데이터 학습부(1310) 및 데이터 인식부(1320)는 하나의 객체 인식 장치에 탑재될 수도 있으며, 또는 별개의 객체 인식 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 하나는 객체 인식 장치에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한, 데이터 학습부(1310) 및 데이터 인식부(1320)는 유선 또는 무선으로 통하여, 데이터 학습부(1310)가 구축한 모델 정보를 데이터 인식부(1320)로 제공할 수도 있고, 데이터 인식부(1320)로 입력된 데이터가 추가 학습 데이터로서 데이터 학습부(1310)로 제공될 수도 있다.

한편, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 어플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 어플리케이션에 의해 제공될 수 있다.

도 14는 일 실시예에 따른 데이터 학습부(1310)의 블록도이다.

도 14를 참조하면, 일부 실시예에 따른 데이터 학습부(1310)는 데이터 획득부(1410), 전처리부(1420), 학습 데이터 선택부(1430), 모델 학습부(1440) 및 모델 평가부(1450)를 포함할 수 있다. 다만, 이는 일 실시예일 뿐, 전술한 구성 들 보다 적은 구성 요소로 데이터 학습부(1310)가 구성되거나, 전술한 구성들 이외에 다른 구성 요소가 추가적으로 데이터 학습부(1310)에 포함될 수 있다.

데이터 획득부(1410)는 객체 또는 객체와 동일한 카테고리에 포함된 다른 객체가 촬영된 적어도 하나의 이미지를 학습 데이터로 획득할 수 있다. 일 예로, 데이터 획득부(1410)는 데이터 학습부(1310)를 포함하는 객체 인식 장치 또는 데이터 학습부(1310)를 포함하는 객체 인식 장치와 통신 가능한 외부의 객체 인식 장치로부터 적어도 하나의 이미지를 획득할 수 있다.

한편, 일 실시예에 따른 데이터 획득부(1410)에서 획득하는 적어도 하나의 이미지는 카테고리에 따라 분류된 이미지 중 하나일 수 있다. 예를 들어, 데이터 획득부(1410)는 종 별로 분류된 이미지를 기초로 학습을 수행할 수 있다.

전처리부(1420)는 이미지의 특성 정보 추출 또는 이미지 내의 객체 인식을 위한 학습에 획득된 이미지가 이용될 수 있도록, 획득된 이미지를 전처리할 수 있다. 전처리부(1420)는 후술할 모델 학습부(1440)가 학습을 위하여 획득된 적어도 하나의 이미지를 이용할 수 있도록, 획득된 적어도 하나의 이미지를 기 설정된 포맷으로 가공할 수 있다.

학습 데이터 선택부(1430)는 전처리된 데이터 중에서 학습에 필요한 이미지를 선택할 수 있다. 선택된 이미지는 모델 학습부(1440)에 제공될 수 있다. 학습 데이터 선택부(1430)는 설정된 기준에 따라, 전처리된 이미지 중에서 학습에 필요한 이미지를 선택할 수 있다.

모델 학습부(1440)는 학습 네트워크 모델 내의 복수의 레이어에서 이미지로부터 어떠한 정보를 이용하여, 특성 정보를 획득하거나, 이미지 내의 객체를 인식하는지에 대한 기준을 학습할 수 있다. 예를 들어, 모델 학습부(1440)는 객체의 인식을 위하여 학습 네트워크 모델에 포함된 복수의 레이어 중 어떤 레이어로부터 추출된 특성 정보를 이용해야 하는지에 대한 제 1 기준을 학습할 수도 있다. 여기에서, 제1 기준은, 객체 인식 장치가 학습 네트워크 모델을 이용하여, 객체를 인식하는데 이용되는 이미지의 제 1 특성 정보 또는 제 2 특성 정보의 종류 및 개수, 결합 연산의 종류 및 수준 등을 포함할 수 있다.

다양한 실시예에 따르면, 모델 학습부(1440)는 미리 구축된 데이터 인식 모델이 복수 개가 존재하는 경우, 입력된 학습 데이터와 기본 학습 데이터의 관련성이 큰 데이터 인식 모델을 학습할 데이터 인식 모델로 결정할 수 있다. 이 경우, 기본 학습 데이터는 데이터의 타입 별로 기 분류되어 있을 수 있으며, 데이터 인식 모델은 데이터의 타입 별로 미리 구축되어 있을 수 있다. 예를 들어, 기본 학습 데이터는 학습 데이터가 생성된 지역, 학습 데이터가 생성된 시간, 학습 데이터의 크기, 학습 데이터의 장르, 학습 데이터의 생성자, 학습 데이터 내의 객체의 종류 등과 같은 다양한 기준으로 기 분류되어 있을 수 있다.

또한, 모델 학습부(1440)는, 예를 들어, 학습에 따라 인식된 객체가 올바른 지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 데이터 인식 모델을 학습시킬 수 있다.

또한, 데이터 인식 모델이 학습되면, 모델 학습부(1440)는 학습된 데이터 인식 모델을 저장할 수 있다. 이 경우, 모델 학습부(1440)는 학습된 데이터 인식 모델을 데이터 인식부(1320)를 포함하는 객체 인식 장치의 메모리에 저장할 수 있다. 또는, 모델 학습부(1440)는 학습된 데이터 인식 모델을 후술할 데이터 인식부(1320)를 포함하는 객체 인식 장치의 메모리에 저장할 수 있다. 또는, 모델 학습부(1440)는 학습된 데이터 인식 모델을 객체 인식 장치와 유선 또는 무선 네트워크로 연결되는 서버의 메모리에 저장할 수도 있다.

이 경우, 학습된 데이터 인식 모델이 저장되는 메모리는, 예를 들면, 객체 인식 장치의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 애플리케이션 프로그래밍 인터페이스(API) 및/또는 애플리케이션 프로그램(또는 "애플리케이션") 등을 포함할 수 있다.

모델 평가부(1450)는 데이터 인식 모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 인식 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(1440)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 데이터 인식 모델을 평가하기 위한 기 설정된 데이터일 수 있다. 여기에서, 평가 데이터는 학습 네트워크 모델을 기반으로 인식된 객체의 카테고리와 실제의 객체의 카테고리 간의 일치 비율 등을 포함할 수 있다.

한편, 학습 네트워크 모델이 복수 개 존재하는 경우, 모델 평가부(1450)는 각각의 학습 네트워크 모델에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 모델을 최종 학습 네트워크 모델로서 결정할 수 있다.

한편, 데이터 학습부(1310) 내의 데이터 획득부(1410), 전처리부(1420), 학습 데이터 선택부(1430), 모델 학습부(1440) 및 모델 평가부(1450) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 객체 인식 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1410), 전처리부(1420), 학습 데이터 선택부(1430), 모델 학습부(1440) 및 모델 평가부(1450) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 객체 인식 장치 에 탑재될 수도 있다.

또한, 데이터 획득부(1410), 전처리부(1420), 학습 데이터 선택부(1430), 모델 학습부(1440) 및 모델 평가부(1450)는 하나의 객체 인식 장치에 탑재될 수도 있으며, 또는 별개의 객체 인식 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1410), 전처리부(1420), 학습 데이터 선택부(1430), 모델 학습부(1440) 및 모델 평가부(1450) 중 일부는 객체 인식 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.

또한, 데이터 획득부(1410), 전처리부(1420), 학습 데이터 선택부(1430), 모델 학습부(1440) 및 모델 평가부(1450) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1410), 전처리부(1420), 학습 데이터 선택부(1430), 모델 학습부(1440) 및 모델 평가부(1450) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.

도 15는 일 실시예에 따른 데이터 인식부(1320)의 블록도이다.

도 15를 참조하면, 일부 실시예에 따른 데이터 인식부(1320)는 데이터 획득부(1510), 전처리부(1520), 인식 데이터 선택부(1530), 인식 결과 제공부(1540) 및 모델 갱신부(1550)를 포함할 수 있다.

데이터 획득부(1510)는 이미지의 특성 정보 추출 또는 이미지 내의 객체 인식에 필요한 적어도 하나의 이미지를 획득할 수 있으며, 전처리부(1520)는 이미지의 특성 정보 추출 또는 이미지 내의 객체의 인식을 위해 획득된 적어도 하나의 이미지가 이용될 수 있도록, 획득된 이미지를 전처리할 수 있다. 전처리부(1520)는 후술할 인식 결과 제공부(1540)가 이미지의 특성 정보 추출 또는 이미지 내의 객체 인식을 위하여 획득된 이미지를 이용할 수 있도록, 획득된 이미지를 기 설정된 포맷으로 가공할 수 있다. 인식 데이터 선택부(1530)는 전처리된 데이터 중에서 특성 추출 또는 객체 인식에 필요한 이미지를 선택할 수 있다. 선택된 데이터는 인식 결과 제공부(1540)에게 제공될 수 있다.

인식 결과 제공부(1540)는 선택된 이미지를 일 실시예에 따른 학습 네트워크 모델에 적용하여 이미지의 특성 정보를 추출하거나, 이미지 내의 객체를 인식할 수 있다. 학습 네트워크 모델에 적어도 하나의 이미지를 입력하여 특성 정보를 추출하거나 객체를 인식하는 방법은 도 1 내지 11을 참고하여 전술한 방법과 대응될 수 있다.

인식 결과 제공부(1540)는 적어도 하나의 이미지 내에 포함된 객체를 인식한 결과를 제공할 수 있다.

모델 갱신부(1550)는 인식 결과 제공부(1540)에 의해 제공되는 이미지 내의 객체 인식 결과에 대한 평가에 기초하여, 학습 네트워크 모델에 포함된 종분류 네트워크 또는 적어도 하나의 특성 추출 레이어의 파라미터 등이 갱신되도록 평가에 대한 정보를 도 14를 참고하여 전술한 모델 학습부(1440)에게 제공할 수 있다.

한편, 데이터 인식부(1320) 내의 데이터 획득부(1510), 전처리부(1520), 인식 데이터 선택부(1530), 인식 결과 제공부(1540) 및 모델 갱신부(1550) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 객체 인식 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1510), 전처리부(1520), 인식 데이터 선택부(1530), 인식 결과 제공부(1540) 및 모델 갱신부(1550) 중 적어도 하나는 인공 지능을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 객체 인식 장치에 탑재될 수도 있다.

또한, 데이터 획득부(1510), 전처리부(1520), 인식 데이터 선택부(1530), 인식 결과 제공부(1540) 및 모델 갱신부(1550)는 하나의 객체 인식 장치에 탑재될 수도 있으며, 또는 별개의 객체 인식 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1510), 전처리부(1520), 인식 데이터 선택부(1530), 인식 결과 제공부(1540) 및 모델 갱신부(1550) 중 일부는 객체 인식 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.

또한, 데이터 획득부(1510), 전처리부(1520), 인식 데이터 선택부(1530), 인식 결과 제공부(1540) 및 모델 갱신부(1550) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1510), 전처리부(1520), 인식 데이터 선택부(1530), 인식 결과 제공부(1540) 및 모델 갱신부(1550) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 어플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 어플리케이션에 의해 제공될 수 있다.

도 16은 다른 실시예에 따른 객체 인식 장치(1600)의 블록도이다.

도 16을 참조하면, 일 실시예에 따른 객체 인식 장치(1600)는 도 12의 메모리(110), 프로세서(120) 및 출력부(130)에 대응되는 메모리(1660), 프로세서(1620) 및 출력부(1630) 이외에, 입력부(1610), A/V 입력부(1640) 및 통신부(1650)를 더 포함할 수 있다.

입력부(1610)는 사용자가 객체 인식 장치(1600)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 입력부(1610)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.

일 실시예에 따라 입력부(1610)는 터치 패드를 이용하여, 이미지의 촬영 또는 이미지의 표시를 요청하는 사용자 입력을 수신할 수 있다. 다만, 이는 일 실시예일 뿐, 입력부(1610)는 리모컨 등의 입력 장치를 통해 사용자로부터 컨텐트의 재생을 요청하는 사용자 입력을 수신할 수도 있다.

프로세서(1620)는 통상적으로 객체 인식 장치(1600)의 전반적인 동작 및 객체 인식 장치(1000)의 내부 구성 요소들 사이의 신호 흐름을 제어하고, 데이터를 처리하는 기능을 수행한다. 예를 들어, 프로세서(1620)는, 메모리(1660)에 저장된 프로그램들(하나 이상의 인스트럭션들)을 실행함으로써, 입력부(1610), 출력부(1630), A/V 입력부(1640) 및 통신부(1650) 등을 전반적으로 제어할 수 있다.

일 실시예에 따라 프로세서(1620)는, 도 1 내지 도 11에서 전술한 객체 인식 장치(100)의 기능을 수행하기 위하여, 학습 네트워크 모델을 이용하여 이미지로부터 제 1 특성 정보를 추출하고, 제 1 특성 정보를 결합한 결과 생성된 적어도 하나의 제 2 특성 정보로부터 타겟 이미지에 포함된 객체를 인식하도록 객체 인식 장치(1600)의 구성 요소들을 제어할 수 있다. 프로세서(1620)는 도 12의 프로세서(120)에 대응되므로, 자세한 설명은 생략한다.

출력부(1630)는 객체 인식 장치(1600)에 획득된 이미지를 출력할 수 있다. 또한, 출력부(1630)는 타겟 이미지에 포함된 객체의 인식 결과를 출력할 수도 있다. 출력부(1630)는 디스플레이부(1631) 및 음향 출력부(1632)를 포함할 수 있다.

디스플레이부(1631)는 객체 인식 장치(1600)에서 처리되는 정보를 표시 출력한다. 디스플레이부(1631)와 터치 패드가 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부(1631)는 출력 장치 이외에 입력 장치로도 사용될 수 있다.

음향 출력부(1632)는 통신부(1650)로부터 수신되거나 메모리(1660)에 저장된 오디오 데이터를 출력한다.

A/V(Audio/Video) 입력부(1640)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(1641)와 마이크로폰(1642) 등이 포함될 수 있다.

카메라(1641)는 카메라 인식 범위에서 이미지를 캡처한다. 일 실시예에 따라 카메라(1641)에 의해 캡처된 이미지는, 프로세서(1620)에 의해 이미지 처리되어 디스플레이부(1631)를 통해 표시 출력될 수 있다.

통신부(1650)는 외부 서버(예를 들어, SNS 서버, 클라우드 서버, 콘텐트 제공 서버 등) 및 기타 외부 장치와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(1650)는 근거리 통신부(1651), 이동 통신부(1652), 방송 수신부(1653)를 포함할 수 있다.

근거리 통신부(short-range wireless communication unit)(1651)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.

이동 통신부(1652)는 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 컨텐트 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.

방송 수신부(1653)는 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 실시예에 따라서 객체 인식 장치(1600)가 방송 수신부(1653)를 포함하지 않을 수도 있다.

일 실시예에 따라 통신부(1650)는 외부 서버로부터 이미지를 수신하고, 수신된 이미지를 프로세서(1620)로 제공할 수 있다.

메모리(1660)는 프로세서(1620)의 처리 및 제어를 위한 프로그램들(예를 들어, 하나 이상의 인스트럭션들, 제 1 학습 네트워크 모델, 제 2 학습 네트워크 모델)을 저장할 수 있고, 객체 인식 장치(1600)로 입력되거나 객체 인식 장치(1600)로부터 출력되는 데이터(예를 들어, 객체 인식 결과)를 저장할 수도 있다.

메모리(1660)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(1661) 및 터치 스크린 모듈(1662) 등으로 분류될 수 있다.

UI 모듈(1661)은, 애플리케이션 별로 객체 인식 장치(1600)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(1662)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 프로세서(1620)로 전달할 수 있다. 본 발명의 일 실시예에 따른 터치 스크린 모듈(1662)은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈(1662)은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다.

메모리(1660)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM), SRAM(Static Random Access Memory), 롬(ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.

한편, 도 16에 도시된 객체 인식 장치(1600)의 구성은 일 실시예이며, 객체 인식 장치(1600)의 각 구성요소는 구현되는 객체 인식 장치의 사양에 따라 통합, 추가, 또는 생략될 수 있다. 즉, 필요에 따라 2 이상의 구성요소가 하나의 구성요소로 합쳐지거나, 혹은 하나의 구성요소가 2 이상의 구성요소로 세분되어 구성될 수 있다. 또한, 각 구성(또는, 모듈)에서 수행하는 기능은 실시예들을 설명하기 위한 것이며, 그 구체적인 동작이나 장치는 본 발명의 권리범위를 제한하지 아니한다.

한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.

상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.

이상과 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

Claims

기 생성된 제1 학습 네트워크 모델을 이용하여, 타겟 이미지와 복수의 이미지들 각각에 대한 제1 특성 정보를 추출하는 단계;
상기 타겟 이미지와 상기 복수의 이미지들 중 하나 간의 연관 관계에 관한 정보를 나타내는, 적어도 하나의 제2 특성 정보를 생성하는 단계; 및
상기 적어도 하나의 제2 특성 정보를 기초로, 기 생성된 제2 학습 네트워크 모델을 이용하여 상기 복수의 이미지에 포함된 객체를 인식하는 단계를 포함하고,
상기 타겟 이미지와 상기 복수의 이미지들은 각각 상기 객체를 포함하고, 상기 복수의 이미지들 각각은 상기 타겟 이미지와 관련되고,
상기 제2 특성 정보는, 상기 타겟 이미지의 제1 특성 정보와 상기 복수의 이미지들 중 하나의 제1 특성 정보를 결합하여 생성되는 것인, 객체를 인식하는 방법.
제1항에 있어서,
상기 제2 특성 정보를 생성하는 단계는,
상기 타겟 이미지와 상기 복수의 이미지들 중 하나 간의 유사도 값 및 차이값 중 적어도 하나를 나타내는, 상기 적어도 하나의 제2 특성 정보를 생성하는 단계를 포함하고,
상기 적어도 하나의 제2 특성 정보는, 상기 타겟 이미지의 제1 특성 정보와 상기 복수의 이미지들 중 하나의 제1 특성 정보를 선형 결합하여 생성되는 것인, 객체를 인식하는 방법.
제1항에 있어서,
상기 제2 특성 정보를 생성하는 단계는,
상기 복수의 이미지들의 제1 특성 정보 각각을 비교하는 단계;
상기 복수의 이미지들 중에서, 상기 제1 특성 정보의 차이가 기 설정된 범위에 포함되는 이미지들을 선택하는 단계; 및
상기 타겟 이미지의 제1 특성 정보와 상기 선택된 이미지들의 제1 특성 정보 각각을 결합하는 단계를 포함하는, 객체를 인식하는 방법.
제1항에 있어서,
상기 방법은,
상기 복수의 이미지들 각각에서 상기 객체가 위치하는 영역을 결정하는 단계를 더 포함하고,
상기 제1 특성 정보를 추출하는 단계는,
상기 결정된 영역으로부터 상기 객체의 제1 특성 정보를 추출하는 단계를 포함하는, 객체를 인식하는 방법.
제1항에 있어서,
상기 객체를 인식하는 단계는,
상기 제2 특성 정보를 생성하는데 기초가 된 제1 특성 정보의 결합 방식에 따라, 상기 제2 학습 네트워크 모델에 입력되는 적어도 하나의 제2 특성 정보에 대한 가중치를 설정하는 단계; 및
상기 설정된 가중치에 따라 상기 적어도 하나의 제2 특성 정보를 상기 제2 학습 네트워크 모델에 적용하여, 상기 객체를 인식하는 단계를 포함하는, 객체를 인식하는 방법.
제1항에 있어서,
상기 객체를 인식하는 단계는,
상기 적어도 하나의 제2 특성 정보 및 상기 복수의 이미지들 중 적어도 일부의 제1 특성 정보를 상기 제2 학습 네트워크 모델에 입력 데이터로 적용하여, 상기 객체를 인식하는 단계를 포함하는, 객체를 인식하는 방법.
제1항에 있어서,
상기 방법은,
상기 객체의 특성, 상기 객체의 움직임 및 촬영 장치의 움직임 중 적어도 하나에 따라 서로 다른 상기 객체의 형태가 촬영된 복수의 학습 이미지들을 획득하는 단계; 및
상기 획득된 복수의 학습 이미지들을 기초로, 상기 학습 네트워크 모델을 구성하는 복수의 레이어들의 파라미터를 결정하는 단계를 더 포함하는, 객체를 인식하는 방법.
하나 이상의 인스트럭션을 저장하는 메모리;
출력부; 및
상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고,
상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,
기 생성된 제1 학습 네트워크 모델을 이용하여, 타겟 이미지와 복수의 이미지들 각각에 대한 제1 특성 정보를 추출하고,
상기 타겟 이미지와 상기 복수의 이미지들 중 하나 간의 연관 관계에 관한 정보를 나타내는, 적어도 하나의 제2 특성 정보를 생성하고,
상기 적어도 하나의 제2 특성 정보를 기초로, 기 생성된 제2 학습 네트워크 모델을 이용하여 상기 복수의 이미지에 포함된 객체를 인식하되,
상기 타겟 이미지와 상기 복수의 이미지들은 각각 상기 객체를 포함하고, 상기 복수의 이미지들 각각은 상기 타겟 이미지와 관련되며,
상기 제2 특성 정보는, 상기 타겟 이미지의 제1 특성 정보와 상기 복수의 이미지들 중 하나의 제1 특성 정보를 결합하여 생성되는 것인, 객체를 인식하는 장치.
제8항에 있어서,
상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,
상기 타겟 이미지와 상기 복수의 이미지들 중 하나 간의 유사도 값 및 차이값 중 적어도 하나를 나타내는, 상기 적어도 하나의 제2 특성 정보를 생성하되,
상기 적어도 하나의 제2 특성 정보는, 상기 타겟 이미지의 제1 특성 정보와 상기 복수의 이미지들 중 하나의 제1 특성 정보를 선형 결합하여 생성되는 것인, 객체를 인식하는 장치.
제8항에 있어서,
상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,
상기 복수의 이미지들의 제1 특성 정보 각각을 비교하고,
상기 복수의 이미지들 중에서, 상기 제1 특성 정보의 차이가 기 설정된 범위에 포함되는 이미지들을 선택하고,
상기 타겟 이미지의 제1 특성 정보와 상기 선택된 이미지들의 제1 특성 정보 각각을 결합하는, 객체를 인식하는 장치.
제8항에 있어서,
상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,
상기 복수의 이미지들 각각에서 상기 객체가 위치하는 영역을 결정하고,
상기 결정된 영역으로부터 상기 객체의 제1 특성 정보를 추출하는, 객체를 인식하는 장치.
제8항에 있어서,
상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,
상기 제2 특성 정보를 생성하는데 기초가 된 제1 특성 정보의 결합 방식에 따라, 상기 제2 학습 네트워크 모델에 입력되는 적어도 하나의 제2 특성 정보에 대한 가중치를 설정하고,
상기 설정된 가중치에 따라 상기 적어도 하나의 제2 특성 정보를 상기 제2 학습 네트워크 모델에 적용하여, 상기 객체를 인식하는, 객체를 인식하는 장치.
제8항에 있어서,
상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,
상기 적어도 하나의 제2 특성 정보 및 상기 복수의 이미지들 중 적어도 일부의 제1 특성 정보를 상기 제2 학습 네트워크 모델에 입력 데이터로 적용하여, 상기 객체를 인식하는, 객체를 인식하는 장치.
제8항에 있어서,
상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,
상기 객체의 특성, 상기 객체의 움직임 및 촬영 장치의 움직임 중 적어도 하나에 따라 서로 다른 상기 객체의 형태가 촬영된 복수의 학습 이미지들을 획득하고,
상기 획득된 복수의 학습 이미지들을 기초로, 상기 학습 네트워크 모델을 구성하는 복수의 레이어들의 파라미터를 결정하는, 객체를 인식하는 장치.
제1항 내지 제7항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.