KR20190034021A - 객체를 인식하는 방법 및 장치 - Google Patents
객체를 인식하는 방법 및 장치 Download PDFInfo
- Publication number
- KR20190034021A KR20190034021A KR1020170122876A KR20170122876A KR20190034021A KR 20190034021 A KR20190034021 A KR 20190034021A KR 1020170122876 A KR1020170122876 A KR 1020170122876A KR 20170122876 A KR20170122876 A KR 20170122876A KR 20190034021 A KR20190034021 A KR 20190034021A
- Authority
- KR
- South Korea
- Prior art keywords
- sensor data
- data
- dimensional
- network model
- learning
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000006243 chemical reaction Methods 0.000 claims description 31
- 230000033001 locomotion Effects 0.000 claims description 24
- 238000013473 artificial intelligence Methods 0.000 abstract description 11
- 230000006870 function Effects 0.000 abstract description 10
- 238000010801 machine learning Methods 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 abstract description 3
- 210000004556 brain Anatomy 0.000 abstract description 2
- 230000019771 cognition Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 22
- 238000011156 evaluation Methods 0.000 description 22
- 238000004891 communication Methods 0.000 description 19
- 238000007781 pre-processing Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 230000001133 acceleration Effects 0.000 description 8
- 239000000470 constituent Substances 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G06K9/20—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
- G06V20/647—Three-dimensional objects by matching two-dimensional images to three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
본 개시는 딥러닝 등의 기계 학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 인공지능(AI) 시스템 및 그 응용에 관련된 것이다. 특히, 본 개시는 인공지능 시스템 및 그 응용에 따라 객체를 인식하는 방법으로, 서로 다른 종류의 복수의 센서로부터 객체에 관한 복수의 센서 데이터를 획득하고, 복수의 센서 데이터 중 적어도 일부를 2차원의 센서 데이터로 변환하며, 기 생성된 학습 네트워크 모델을 이용하여, 복수의 센서 중 어느 하나인 이미지 센서로부터 획득된 2차원의 이미지 데이터와 변환된 2차원의 센서 데이터에 기초하여, 객체를 인식하는 단계를 포함하는, 객체를 인식하는 방법에 관한 것이다.
Description
개시된 실시예는 객체를 인식하는 방법, 객체를 인식하는 장치 및 객체를 인식하는 방법을 수행하는 프로그램이 기록된 기록매체에 관한 것이다.
인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.
인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.
기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.
인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.
개시된 실시예는 서로 다른 종류의 복수의 센서를 이용하여 획득된 객체의 센서 데이터를 조합하여 객체를 인식함으로써, 객체 인식의 정확도를 높일 수 있는 객체를 인식하는 방법, 장치 및 기록매체를 제공할 수 있다.
일 실시예에 따른 객체를 인식하는 방법은, 서로 다른 종류의 복수의 센서로부터 객체에 관한 복수의 센서 데이터를 획득하는 단계; 복수의 센서 데이터 중 적어도 일부를 2차원의 센서 데이터로 변환하는 단계; 및 복수의 센서 중 어느 하나인 이미지 센서로부터 획득된 2차원의 이미지 데이터와 변환된 2차원의 센서 데이터를 기초로 기 생성된 학습 네트워크 모델을 이용하여, 객체를 인식하는 단계를 포함할 수 있다.
일 실시예에 따른 객체를 인식하는 방법에 있어서, 복수의 센서는, 움직임 센서, 이미지 센서, 근접 센서 및 압력 센서 중 적어도 두 개 이상의 센서를 포함할 수 있다.
일 실시예에 따른 객체를 인식하는 방법에 있어서, 변환하는 단계는, 1차원의 센서 데이터를 2차원의 센서 데이터로 변환하기 위한 기준을 학습시킨 결과 생성된, 센서 데이터 변환을 위한 학습 네트워크 모델을 이용하여, 복수의 센서 데이터 중 적어도 일부를 2차원 센서 데이터로 변환할 수 있다.
일 실시예에 따른 객체를 인식하는 방법은, 변환된 2차원의 센서 데이터를 재변환하여, 1차원의 센서 데이터를 획득하는 단계; 획득된 복수의 센서 데이터 중 적어도 일부인 1차원의 센서 데이터와 재변환 결과 획득된 1차원의 센서 데이터를 비교한 결과에 기초하여, 센서 데이터의 변환에서 발생된 오차를 결정하는 단계; 및 결정된 오차에 기초하여, 센서 데이터 변환을 위한 학습 네트워크 모델을 구성하는 복수의 레이어의 파라미터를 업데이트 하는 단계를 더 포함할 수 있다.
일 실시예에 따른 객체를 인식하는 방법은, 인식된 객체의 카테고리 및 객체의 카테고리를 비교한 결과에 기초하여, 센서 데이터의 변환에서 발생된 오차를 결정하는 단계; 및 결정된 오차에 기초하여, 센서 데이터 변환을 위한 학습 네트워크 모델을 구성하는 복수의 레이어의 파라미터를 업데이트하는 단계를 더 포함할 수 있다.
일 실시예에 따른 객체를 인식하는 방법에 있어서, 변환하는 단계는, 복수의 센서 중 적어도 하나로부터 제 1 축 방향의 1차원 센서 데이터를 획득하는 단계; 및 제 1 축 방향의 1차원 센서 데이터를 제 2 축 방향으로 업샘플링(upsampling)하여 2차원의 센서 데이터를 생성하는 단계를 포함할 수 있다.
일 실시예에 따른 객체를 인식하는 방법에 있어서, 객체를 인식하는 단계는, 변환된 2차원의 센서 데이터에 기 설정된 가중치를 적용하여, 변환된 2차원의 센서 데이터와 2차원 이미지 데이터를 조합하는 단계를 포함하고, 기 설정된 가중치는, 2차원의 센서 데이터로의 변환을 위해 생성된 학습 네트워크 모델을 구성하는 복수의 레이어의 파라미터로서, 상기 인식된 객체의 카테고리와 객체의 실제 카테고리를 비교한 결과 획득된 인식 결과의 오차에 기초하여 업데이트 될 있다.
일 실시예에 따른 객체를 인식하는 방법에 있어서, 객체를 인식하는 단계는, 적어도 하나의 이미지 데이터로부터 이미지 특성 정보를 획득하는 기준을 학습시킨 결과 생성된 학습 네트워크 모델을 이용하여, 2차원의 이미지 데이터로부터 객체를 대표하는 이미지 특성 정보를 획득하는 단계; 및 이미지 특성 정보와 변환된 2차원의 센서 데이터를 기초로, 기 생성된 학습 네트워크 모델을 이용하여, 객체를 인식하는 단계를 포함할 수 있다.
일 실시예에 따른 객체를 인식하는 방법에 있어서, 기 생성된 학습 네트워크 모델은 복수의 레이어로 구성되고, 복수의 레이어 각각의 파라미터는, 이미지 데이터 및 변환된 2차원 센서 데이터 중 객체 인식에 이용되는 적어도 하나의 데이터의 선택 및 선택된 적어도 하나의 데이터의 조합을 위한 기준을 학습한 결과에 기초하여 결정될 수 있다.
일 실시예에 따른 객체를 인식하는 방법은, 인식된 객체의 카테고리 및 객체의 카테고리를 비교한 결과에 기초하여, 객체 인식에서 발생된 오차를 결정하는 단계; 결정된 오차에 기초하여, 기 생성된 학습 네트워크 모델을 구성하는 복수의 레이어의 파라미터를 업데이트 하는 단계를 더 포함할 수 있다.
일 실시예에 따른 객체를 인식하는 장치는, 하나 이상의 인스트럭션을 저장하는 메모리; 디스플레이; 객체에 관한 복수의 센서 데이터를 획득하는 복수의 센서; 및 메모리에 저장된 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고, 프로세서는, 복수의 센서로부터 객체에 관한 복수의 센서 데이터를 획득하고, 복수의 센서 데이터 중 적어도 일부를 2차원의 센서 데이터로 변환하며, 복수의 센서 중 어느 하나인 이미지 센서로부터 획득된 2차원의 이미지 데이터와 변환된 2차원의 센서 데이터를 기초로 기 생성된 학습 네트워크 모델을 이용하여 객체를 인식할 수 있다.
도 1은 일 실시예에 따른 객체 인식 장치가 객체를 인식하는 방법을 설명하기 위한 개념도이다.
도 2는 일 실시예에 따른 객체를 인식하는 방법을 설명하기 위한 흐름도이다.
도 3은 일 실시예에 따른 객체 인식 장치가 이미지 데이터와 2차원으로 변환된 센서 데이터를 조합하는 방법을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 객체 인식 장치가 학습 네트워크 모델을 이용하여 이미지 데이터로부터 획득된 특성 정보를 기초로 객체를 인식하는 방법을 설명하기 위한 흐름도이다.
도 5는 일 실시예에 따른 객체 인식 장치가 학습 네트워크 모델을 이용하여 이미지 데이터로부터 획득된 특성 정보를 기초로 객체를 인식하는 방법을 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 객체 인식 장치가 학습 네트워크 모델을 이용하여 1차원의 센서 데이터를 2차원의 센서 데이터로 변환하는 방법을 설명하기 위한 흐름도이다.
도 7은 일 실시예에 따른 객체 인식 장치가 1차원의 센서 데이터를 2차원의 센서 데이터로 변환하는 학습 네트워크 모델을 학습시키는 방법을 설명하기 위한 도면이다.
도 8은 일 실시예에 따른 객체 인식 장치가 복수의 학습 네트워크 모델을 이용하여 객체를 인식하는 방법을 설명하기 위한 흐름도이다.
도 9는 일 실시예에 따른 객체 인식 장치가 복수의 학습 네트워크 모델을 이용하여 객체를 인식하는 방법을 설명하기 위한 도면이다.
도 10은 일 실시예에 따라 객체를 인식하는데 이용되는 복수의 학습 네트워크 모델 중 제 1 학습 네트워크 모델을 학습시키는 방법을 설명하기 위한 도면이다.
도 11은 일 실시예에 따라 객체를 인식하는데 이용되는 복수의 학습 네트워크 모델 중 제 3 학습 네트워크 모델을 학습시키는 방법을 설명하기 위한 도면이다.
도 12는 일 실시예에 따라 객체를 인식하는 객체 인식 장치의 블록도이다.
도 13은 일 실시예에 따른 프로세서를 설명하기 위한 도면이다.
도 14는 일 실시예에 따른 데이터 학습부의 블록도이다.
도 15는 일 실시예에 따른 데이터 인식부의 블록도이다.
도 16은 다른 실시예에 따른 객체 인식 장치의 블록도이다.
도 2는 일 실시예에 따른 객체를 인식하는 방법을 설명하기 위한 흐름도이다.
도 3은 일 실시예에 따른 객체 인식 장치가 이미지 데이터와 2차원으로 변환된 센서 데이터를 조합하는 방법을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 객체 인식 장치가 학습 네트워크 모델을 이용하여 이미지 데이터로부터 획득된 특성 정보를 기초로 객체를 인식하는 방법을 설명하기 위한 흐름도이다.
도 5는 일 실시예에 따른 객체 인식 장치가 학습 네트워크 모델을 이용하여 이미지 데이터로부터 획득된 특성 정보를 기초로 객체를 인식하는 방법을 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 객체 인식 장치가 학습 네트워크 모델을 이용하여 1차원의 센서 데이터를 2차원의 센서 데이터로 변환하는 방법을 설명하기 위한 흐름도이다.
도 7은 일 실시예에 따른 객체 인식 장치가 1차원의 센서 데이터를 2차원의 센서 데이터로 변환하는 학습 네트워크 모델을 학습시키는 방법을 설명하기 위한 도면이다.
도 8은 일 실시예에 따른 객체 인식 장치가 복수의 학습 네트워크 모델을 이용하여 객체를 인식하는 방법을 설명하기 위한 흐름도이다.
도 9는 일 실시예에 따른 객체 인식 장치가 복수의 학습 네트워크 모델을 이용하여 객체를 인식하는 방법을 설명하기 위한 도면이다.
도 10은 일 실시예에 따라 객체를 인식하는데 이용되는 복수의 학습 네트워크 모델 중 제 1 학습 네트워크 모델을 학습시키는 방법을 설명하기 위한 도면이다.
도 11은 일 실시예에 따라 객체를 인식하는데 이용되는 복수의 학습 네트워크 모델 중 제 3 학습 네트워크 모델을 학습시키는 방법을 설명하기 위한 도면이다.
도 12는 일 실시예에 따라 객체를 인식하는 객체 인식 장치의 블록도이다.
도 13은 일 실시예에 따른 프로세서를 설명하기 위한 도면이다.
도 14는 일 실시예에 따른 데이터 학습부의 블록도이다.
도 15는 일 실시예에 따른 데이터 인식부의 블록도이다.
도 16은 다른 실시예에 따른 객체 인식 장치의 블록도이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 구성 요소들은 용어들에 의해 한정되지는 않는다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 항목들의 조합 또는 복수의 관련된 항목들 중의 어느 하나의 항목을 포함한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 특성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
도 1은 일 실시예에 따른 객체 인식 장치(100)가 객체를 인식하는 방법을 설명하기 위한 개념도이다.
도 1을 참조하면, 객체 인식 장치(100)는 복수의 센서(111 내지 117)를 포함할 수 있다. 여기에서, 복수의 센서(111 내지 117)는 근접 센서(111), 이미지 센서(112), 깊이 센서(113), 압력 센서(114), 지자기 센서(115), 가속도 센서(116) 및 자이로 센서(117)를 포함할 수 있다.
근접 센서(111)는 적외선 등을 활용하여, 객체 인식 장치(100) 주변에 위치한 객체의 위치 데이터를 획득할 수 있다. 이미지 센서(112)는 객체 인식 장치(100) 주변에 위치한 객체의 이미지 데이터를 획득할 수 있다. 또한, 깊이 센서(113)는 객체 인식 장치(100)와 객체 간의 거리에 관한 센서 데이터를 획득하고, 압력 센서(114)는 객체 인식 장치(100)에 가해지는 압력에 관한 센서 데이터를 획득할 수 있다. 지자기 센서(115)는 자기장 세기를 3축으로 감지함으로써 방위에 관한 센서 데이터를 획득하고, 가속도 센서(116)는 객체 인식 장치(116)의 움직임에 관한 센서 데이터를 획득할 수 있다. 자이로 센서(117)는 객체 인식 장치(100)의 회전 상태를 3축으로 감지하여 객체 인식 장치(100)의 기울이에 관한 센서 데이터를 획득할 수 있다.
객체 인식 장치(100)는 객체 인식의 정확도를 높이기 위해 복수의 센서(111 내지 117) 중 적어도 2개 이상의 센서로부터 획득된 센서 데이터를 조합할 수 있다. 예를 들어, 객체 인식 장치(100)는 이미지 센서(112)로부터 획득된 2차원의 이미지 데이터(20)와 가속도 센서(116) 및 자이로 센서(117) 등의 움직임 센서로부터 획득된 센서 데이터(30)를 조합하여, 객체(10)를 인식할 수 있다.
이미지 센서(112)에서 획득되는 이미지 데이터(20)는 2차원인 반면에, 움직임 센서로부터 획득된 센서 데이터(30)는 1차원일 수 있다. 이에 따라, 객체 인식 장치(100)는 움직임 센서로부터 획득된 1차원의 센서 데이터(30)를 2차원으로 변환할 수 있다. 예를 들어, 객체 인식 장치(100)는 센서 데이터(30)의 변환을 위해 기 생성된 학습 네트워크를 이용하여, 1차원의 센서 데이터(30)를 2차원의 센서 데이터(35)로 변환할 수 있다. 다른 예에 따라, 객체 인식 장치(100)는 1축 방향의 1차원의 센서 데이터를 2축 방향으로 업샘플링(upsampling)하여, 2차원의 센서 데이터(35)를 획득할 수 있다.
또한, 일 실시예에 따른 객체 인식 장치(100)는 이미지 데이터(20)와 변환된 센서 데이터(35)를 조합할 수 있다. 예를 들어, 객체 인식 장치(100)는 객체 인식을 위해 복수의 센서 데이터를 기초로 학습시킨 결과 기 생성된 학습 네트워크 모델(40)을 이용하여, 이미지 데이터(20)와 변환된 센서 데이터를 기초로 객체(10)를 인식할 수 있다.
한편, 객체 인식 장치(100)는 이미지의 특성 정보를 추출하도록 학습시킨 결과 기 생성된 학습 네트워크 모델을 이용하여 이미지 데이터로부터 획득한 이미지 특성 정보와 변환된 센서 데이터를 조합하여, 객체(10)를 인식할 수도 있다. 여기에서, 이미지 데이터(20)로부터 획득되는 이미지 특성 정보는 이미지 데이터(20)를 구성하는 색상, 엣지(edge), 폴리건(polygon), 채도(saturation), 명도(brightness), 색온도, 블러(blur), 선명도(sharpness) 및 명도비(contrast) 등의 속성 정보를 기초로 학습 네트워크 모델을 통해 획득될 수 있다.
일 실시예에 따른 객체 인식 장치(100)는 이미지 데이터와 변환된 센서 데이터를 조합한 결과에 기초하여, 객체(10)의 인식 결과를 확률값으로 출력할 수 있다. 객체 인식 장치(100)는 출력된 확률값에 기초하여, 객체(10)가 강아지임을 인식할 수 있다.
한편, 객체 인식 장치(100)는 스마트폰, 태블릿 PC, PC, 스마트 TV, 휴대폰, PDA(personal digital assistant), 랩톱, 미디어 플레이어, 마이크로 서버, 전자책 객체 인식 장치, 디지털방송용 객체 인식 장치, 키오스크, MP3 플레이어, 디지털 카메라, 로봇 청소기, 가전기기 및 기타 모바일 또는 비모바일 컴퓨팅 장치일 수 있으나, 이에 제한되지 않는다. 또한, 객체 인식 장치(100)는 통신 기능 및 데이터 프로세싱 기능을 구비한 시계, 안경, 헤어 밴드 및 반지 등의 웨어러블 장치일 수 있다.
도 2는 일 실시예에 따른 객체를 인식하는 방법을 설명하기 위한 흐름도이다.
단계 S210에서, 객체 인식 장치는 서로 다른 종류의 복수의 센서로부터 객체에 관한 복수의 센서 데이터를 획득할 수 있다.
객체 인식 장치는 이미지 센서, 깊이 센서, 압력 센서, 지자기 센서, 근접 센서 및 가속도 센서와 자이로 센서 등의 움직임 센서 중 서로 다른 종류의 적어도 2개 이상의 센서를 이용하여, 객체에 관한 복수의 센서 데이터를 획득할 수 있다. 전술한 센서들의 종류는 일 실시예일 뿐, 객체 인식 장치에 포함되는 센서가 전술한 예에 한정되는 것은 아니다.
단계 S220에서, 객체 인식 장치는 복수의 센서 데이터 중 적어도 일부를 2차원의 센서 데이터로 변환할 수 있다.
일 실시예에 따른 객체 인식 장치는 객체 인식의 정확도를 높이기 위해, 이미지 센서로부터 획득된 2차원의 이미지 데이터와 다른 종류의 센서로부터 획득된 센서 데이터를 조합할 수 있다. 한편, 객체 인식 장치는 센서 데이터의 조합에 앞서, 이미지 데이터와 다른 종류의 센서로부터 획득된 센서 데이터의 차원을 정합할 필요가 있다. 예를 들어, 움직임 센서 및 깊이 센서 등으로부터 획득된 센서 데이터의 경우 1차원일 수 있다. 이에 따라, 객체 인식 장치는 2차원의 이미지 데이터와의 조합을 위해 1차원의 센서 데이터를 2차원으로 변환할 수 있다.
예를 들어, 객체 인식 장치는 1축으로의 숫자 배열 형태를 갖는 1차원의 센서 데이터를 2축 방향으로 업샘플링할 수 있다. 또한, 객체 인식 장치는 업샘플링된 결과 생성된 2차원 센서 데이터로 인해 오차가 발생될 확률을 줄이기 위해, 2축 방향으로의 거리가 증가할수록 이미지 데이터와의 조합 시 적용되는 가중치를 낮게 설정할 수 있다. 다른 예에 따라, 이미지 데이터와의 조합 시 적용되는 가중치는 2차원의 센서 데이터로의 변환을 위해 생성된 학습 네트워크 모델을 구성하는 복수의 레이어의 파라미터로서, 인식된 객체의 카테고리와 객체의 실제 카테고리를 비교한 결과 획득된 인식 결과의 오차에 기초하여 업데이트 될 수 있다.
다른 예에 따라, 객체 인식 장치는 센서 데이터의 변환을 위해 기 생성된 학습 네트워크를 이용하여, 1차원의 센서 데이터를 기초로 2차원의 센서 데이터를 획득할 수 있다. 이에 대해서는, 도 7을 참조하여 보다 구체적으로 후술하도록 한다.
단계 S230에서, 객체 인식 장치는 복수의 센서 중 하나인 이미지 센서로부터 획득된 2차원의 이미지 데이터와 변환된 2차원의 센서 데이터를 기초로 기 생성된 학습 네트워크 모델을 이용하여 객체를 인식할 수 있다.
일 실시예에 따른 객체 인식 장치는 객체 인식을 위해 서로 다른 종류의 센서 데이터를 기초로 학습시킨 결과 기 생성된 학습 네트워크 모델에 2차원의 이미지 데이터와 변환된 2차원의 센서 데이터를 입력할 수 있다. 객체 인식 장치는 입력에 따른 기 생성된 학습 네트워크 모델의 출력을 기초로 감지된 객체를 인식할 수 있다.
도 3은 일 실시예에 따른 객체 인식 장치가 이미지 데이터와 2차원으로 변환된 센서 데이터를 조합하는 방법을 설명하기 위한 도면이다.
도 3을 참조하면, 객체 인식 장치는 움직임 센서(310), 깊이 센서(330) 및 이미지 센서로부터 각각 객체의 움직임에 관한 센서 데이터(315), 객체와 객체 인식 장치 간의 거리에 관한 센서 데이터(335) 및 객체의 이미지 데이터(350)를 획득할 수 있다.
객체 인식 장치는 2차원의 이미지 데이터(350)와의 조합을 위해, 객체의 움직임에 관한 센서 데이터(315) 및 객체와 객체 인식 장치 간의 거리에 관한 센서 데이터(335)를 2차원의 센서 데이터로 변환할 수 있다. 객체 인식 장치가 1차원의 센서 데이터를 2차원의 센서 데이터로 변환하는 방법은 도 1 및 도 2를 참조하여 전술한 바와 대응될 수 있다.
객체 인식 장치는 변환된 센서 데이터(320, 340)와 이미지 데이터(350)를 기 생성된 학습 네트워크 모델(360)에 입력할 수 있다. 여기에서, 학습 네트워크 모델(360)은 객체 인식 이전에, 이미지 데이터 및 변환된 2차원의 센서 데이터를 기초로 객체 인식을 학습시킨 결과, 학습 네트워크 모델(360)을 구성하는 복수의 레이어(361 내지 367) 중 어느 레이어에서 서로 다른 종류의 센서 데이터를 조합할 지 여부를 결정할 수 있다. 또한, 학습 네트워크 모델(360)은 학습 결과를 기초로, 서로 다른 종류의 센서 데이터를 조합한 결과 방법에 대해서도 결정할 수 있다.
도 3에는, 이미지 데이터와 변환된 센서 데이터를 조합한 결과, 학습 네트워크 모델(360)의 각 레이어에서 획득되는 객체의 특성 정보(370, 380)가 도시되어 있다. 객체 인식 장치는 학습 네트워크 모델(360)로부터 최종적으로 출력되는 확률값에 기초하여, 객체를 자동차로 인식할 수 있다.
도 4는 일 실시예에 따른 객체 인식 장치가 학습 네트워크 모델을 이용하여 이미지 데이터로부터 획득된 특성 정보를 기초로 객체를 인식하는 방법을 설명하기 위한 흐름도이다.
단계 S410에서, 객체 인식 장치는 서로 다른 종류의 복수의 센서로부터 객체에 관한 복수의 센서 데이터를 획득할 수 있다.
한편, 단계 S410은 도 2를 참조하여 전술한 단계 S210과 대응될 수 있다.
단계 S420에서, 객체 인식 장치는 복수의 센서 데이터 중 적어도 일부를 2차원의 센서 데이터로 변환할 수 있다.
한편, 단계 S420은 도 2를 참조하여 전술한 단계 S220과 대응될 수 있다.
단계 S430에서, 객체 인식 장치는 복수의 센서 중 하나인 이미지 센서로부터 획득된 2차원의 이미지 데이터를 기초로, 제 1 학습 네트워크 모델을 이용하여, 이미지의 특성 정보를 획득할 수 있다.
여기에서, 제 1 학습 네트워크 모델은 이미지 데이터에 포함된 객체를 대표하는 특성 정보를 획득하도록 미리 학습된 네트워크 모델이다. 제 1 학습 네트워크 모델은 2차원의 이미지 데이터의 속성을 기초로, 객체의 이미지 특성 정보를 획득할 수 있다. 이미지의 특성 정보는 2차원의 벡터 형태로서 획득될 수 있으나, 이는 일 실시예일 뿐, 본 발명에서 획득되는 이미지 특성 정보의 형태가 전술한 예에 한정되는 것은 아니다.
단계 S440에서, 객체 인식 장치는 복수의 센서 중 하나인 이미지 센서로부터 이미지 특성 정보와 변환된 2차원의 센서 데이터를 기초로 제 2 학습 네트워크 모델을 이용하여 객체를 인식할 수 있다.
여기에서, 제 2 학습 네트워크 모델은 서로 다른 종류의 센서 데이터를 조합하여 객체를 인식하도록 미리 학습된 네트워크 모델이다. 객체 인식 장치는 제 2 학습 네트워크 모델을 통해, 이미지 특성 정보와 조합할 경우 객체 인식률을 높이는 센서 데이터의 종류 및 조합 방법을 결정할 수 있다. 예를 들어, 변환된 2차원의 센서 데이터와 이미지 데이터 간에 상충되는 값이 존재하는 경우, 각 데이터의 정확도를 비교하여, 정확도가 상대적으로 높은 센서 데이터 또는 이미지 데이터를 선택할 수 있다. 다른 예에 따라, 제 2 학습 네트워크 모델은 정확도가 상대적으로 높은 센서 데이터 또는 이미지 데이터에 가중치를 높게 설정할 수도 있다.
도 5는 일 실시예에 따른 객체 인식 장치가 학습 네트워크 모델을 이용하여 이미지 데이터로부터 획득된 특성 정보를 기초로 객체를 인식하는 방법을 설명하기 위한 도면이다.
도 5를 참조하면, 객체 인식 장치는 이미지 센서를 통해 객체가 포함된 2차원 이미지 데이터(510)를 획득할 수 있다. 객체 인식 장치는 기 생성된 제 1 학습 네트워크 모델(530)을 이용하여, 이미지 데이터(510)로부터 객체를 대표하는 이미지 특성 정보를 획득할 수 있다.
일 실시예에 따른 제 1 학습 네트워크 모델(530)은 제 1 학습 네트워크 모델(530)에 입력된 이미지 데이터(510)에 포함된 다양한 이미지 속성들을 추상화함으로써, 이미지 데이터(510)에 포함된 객체를 대표하는 이미지 특성 정보를 획득할 수 있다. 여기에서, 이미지 속성들을 추상화하는 것은, 이미지 데이터(510)로부터 이미지 속성들을 검출하고, 검출된 속성 정보들 중에서, 객체를 대표할 수 있는 핵심 속성을 판단하는 것일 수 있다.
또한, 제 1 학습 네트워크 모델(530)은 복수의 레이어로 구성될 수 있다. 복수의 레이어 각각을 통해 이미지 데이터(510)에 포함된 이미지 속성들이 검출되고, 조합될 수 있다. 여기에서, 제 1 학습 네트워크 모델(530)을 통해 획득되는 이미지 특성 정보는 2차원 형태일 수 있다.
한편, 객체 인식 장치는 움직임 센서 등의 다른 센서로부터 1차원의 센서 데이터(520)를 획득할 수 있다. 객체 인식 장치는 획득된 1차원의 센서 데이터(520)를 2차원의 센서 데이터(525)로 변환할 수 있다.
일 실시예에 따른 객체 인식 장치는 2차원으로 변환된 센서 데이터(525)와 이미지 특성 정보를 제 2 학습 네트워크 모델(540)에 입력하여, 객체 인식 결과를 획득할 수 있다. 일 실시예에 따른 제 2 학습 네트워크 모델(540)은 복수의 레이어로 구성될 수 있다. 제 2 학습 네트워크 모델(540)은 변환된 센서 데이터와 이미지 특성 정보에 포함된 다양한 속성들을 추상화함으로써, 객체를 대표하는 특성 정보를 획득할 수 있다. 제 2 학습 네트워크 모델(540)은 이미지 특성 정보 이외에 다른 센서로부터 획득된 센서 데이터를 추가적으로 객체 인식에 이용함으로써, 객체 인식의 정확도를 높일 수 있다.
이에 따라, 객체 인식 장치는 이미지 데이터(510)에 포함된 객체가 강아지라는 것을 식별할 수 있다.
도 6은 일 실시예에 따른 객체 인식 장치가 학습 네트워크 모델을 이용하여 1차원의 센서 데이터를 2차원의 센서 데이터로 변환하는 방법을 설명하기 위한 흐름도이다.
단계 S610에서, 객체 인식 장치는 서로 다른 종류의 복수의 센서로부터 객체에 관한 복수의 센서 데이터를 획득할 수 있다.
한편, 단계 S610은 도 2를 참조하여 전술한 단계 S210과 대응될 수 있다.
단계 S620에서, 객체 인식 장치는 제 1 학습 네트워크 모델을 이용하여, 복수의 센서 데이터 중 적어도 일부의 1차원 센서 데이터를 2차원의 센서 데이터로 변환할 수 있다.
일 실시예에 따른, 제 1 학습 네트워크 모델은 객체 인식 이전에 획득된 적어도 하나의 객체에 관한 적어도 하나의 종류의 센서 데이터를 기초로 학습시킨 결과 생성될 수 있다.
예를 들어, 객체 인식 장치는 가속도 센서로부터 획득된 움직임에 관한 센서 데이터를 제 1 학습 네트워크 모델에 입력하여, 2차원의 센서 데이터를 획득할 수 있다. 여기에서, 입력된 센서 데이터는 1차원인 것으로 가정한다. 객체 인식 장치는 2차원으로 변환된 센서 데이터를 다시 1차원으로 변환시킨 결과와 입력된 1차원의 센서 데이터를 비교함으로써, 제 1 학습 네트워크 모델의 학습을 평가할 수 있다. 객체 인식 장치는 입력된 1차원의 데이터와 2차원의 데이터로부터 재변환된 1차원의 데이터 간의 차이가 기 설정된 값 미만이 될 때까지 전술한 학습 및 학습 평가 과정을 반복적으로 수행할 수 있다.
한편, 제 1 학습 네트워크 모델은 객체 인식 장치가 아닌 외부의 장치에 저장될 수도 있다. 이러한 경우, 객체 인식 장치는 외부의 장치에 복수의 센서 중 적어도 일부의 1차원 센서 데이터를 전송하면서, 변환을 요청할 수 있다. 이에 따라, 객체 인식 장치는 외부의 장치로부터 변환된 2차원의 센서 데이터를 획득할 수 있다.
단계 S630에서, 객체 인식 장치는 복수의 센서 중 하나인 이미지 센서로부터 획득된 2차원의 이미지 데이터와 변환된 2차원의 센서 데이터를 기초로 제 2 학습 네트워크 모델을 이용하여 객체를 인식할 수 있다.
여기에서, 제 2 학습 네트워크 모델은 객체 인식을 위해 서로 다른 종류의 센서 데이터를 기초로 학습시킨 결과 생성될 수 있다. 또한, 단계 S630은 도 2를 참조하여 전술한 단계 S230과 대응될 수 있다.
도 7은 일 실시예에 따른 객체 인식 장치가 1차원의 센서 데이터를 2차원의 센서 데이터로 변환하는 학습 네트워크 모델을 학습시키는 방법을 설명하기 위한 도면이다.
도 7을 참조하면, 객체 인식 장치는 이미지 센서(미도시), 가속도 센서(712), 깊이 센서(714), IR(Infrared) 센서(716) 및 자이로 센서(718) 등을 포함한 복수의 센서를 통해 서로 다른 종류의 센서 데이터(722, 724, 726, 728)를 획득할 수 있다.
한편, 이미지 센서(미도시)를 제외한 다른 센서(712, 714, 716, 718)에서 획득된 센서 데이터는 1축으로의 숫자 배열 형태인 1차원의 센서 데이터일 수 있다. 객체 인식 장치는 이미지 센서로부터 획득된 2차원의 센서 데이터에 다른 센서(712, 714, 716, 718)로부터 획득된 센서 데이터를 조합하여, 객체 인식의 정확도를 높이기 위해, 1차원의 센서 데이터를 2차원의 센서 데이터로 변환할 수 있다.
이를 위해, 일 실시예에 따른 객체 인식 장치는 센서 데이터의 변환을 위해 기 생성된 제 1 학습 네트워크 모델(730)을 이용할 수 있다. 여기에서, 제 1 학습 네트워크 모델(730)은 1차원의 센서 데이터를 2차원의 센서 데이터로 변환하기 위한 기준을 학습시킨 결과 생성될 수 있다.
일 실시예에 따른 객체 인식 장치는 2차원의 변환된 센서 데이터(742, 744, 746)와 이미지 센서로부터 획득된 이미지 데이터를 기 생성된 제 2 학습 네트워크 모델(750)에 입력하여 획득한 객체의 인식 결과와 실제 객체를 비교하여, 객체 인식에 대한 오차(분류 loss, 760)를 획득할 수 있다. 객체 인식 장치는 객체 인식에 대한 오차(760)가 기 설정된 범위 이내인 경우, 제 1 학습 네트워크 모델(730)의 학습이 성공적으로 수행된 것으로 판단할 수 있다.
다른 실시예에 따른 객체 인식 장치는 제 1 학습 네트워크 모델(730)에서 출력된 2차원의 변환된 센서 데이터(742, 744, 746)를 제 1 학습 네트워크 모델(730)과 역방향 구조를 가진 다른 학습 네트워크 모델(770)에 입력함으로써, 2차원의 변환된 센서 데이터(742, 744, 746)를 1차원으로 재변환시킬 수 있다. 예를 들어, 제 1 학습 네트워크 모델(730)이 디컨볼루션 네트워크로 구성된 경우, 재변환을 위한 학습 네트워크 모델(770)은 디컨볼루션 네트워크와 역방향 구조를 가진 컨볼루션 네트워크로 구성될 수 있다.
객체 인식 장치는 재변환을 통해 획득된 1차원의 센서 데이터와 제 1 학습 네트워크 모델(730)에 입력한 1차원의 센서 데이터를 비교하여, 변환에 대한 오차(790, L1 loss)를 획득할 수 있다. 객체 인식 장치는 획득된 오차(790)가 기 설정된 범위 이내인 경우, 제 1 학습 네트워크 모델(730)의 학습이 성공적으로 수행된 것으로 판단할 수 있다.
도 8은 일 실시예에 따른 객체 인식 장치가 복수의 학습 네트워크 모델을 이용하여 객체를 인식하는 방법을 설명하기 위한 흐름도이다.
단계 S810에서, 객체 인식 장치는 서로 다른 종류의 복수의 센서로부터 객체에 관한 복수의 센서 데이터를 획득할 수 있다.
한편, 단계 S810은 도 2를 참조하여 전술한 단계 S210과 대응될 수 있다.
단계 S820에서, 객체 인식 장치는 제 1 학습 네트워크 모델을 이용하여, 복수의 센서 데이터 중 적어도 일부의 1차원 센서 데이터를 2차원의 센서 데이터로 변환할 수 있다.
일 실시예에 따른 객체 인식 장치는 도 7을 참조하여 전술한 센서 데이터의 변환을 위해 학습시킨 결과 생성된 제 1 학습 네트워크 모델을 이용하여, 움직임 센서 및 깊이 센서 등으로부터 획득된 1차원의 센서 데이터를 2차원의 센서 데이터로 변환할 수 있다.
단계 S830에서, 객체 인식 장치는 복수의 센서 중 하나인 이미지 센서로부터 획득된 2차원의 이미지 데이터를 기초로 제 2 학습 네트워크 모델을 이용하여, 이미지 특성 정보를 획득할 수 있다.
일 실시예에 따른 객체 인식 장치는 도 5를 참조하여 전술한 이미지 특성 정보 획득을 위해 학습시킨 제 2 학습 네트워크 모델을 이용하여, 이미지 데이터로부터 객체의 이미지 특성 정보를 획득할 수 있다.
단계 S840에서, 객체 인식 장치는 획득된 이미지 특성 정보와 변환된 2차원의 센서 데이터를 기초로 제 3 학습 네트워크 모델을 이용하여 객체를 인식할 수 있다.
여기에서, 제 3 학습 네트워크 모델은 적어도 하나의 객체에 대해 서로 다른 종류의 센서로부터 획득된 센서 데이터를 기초로 학습시킨 결과 생성될 수 있다. 한편, 단계 S840은 도 2를 참조하여 전술한 단계 S230과 대응될 수 있다.
도 9는 일 실시예에 따른 객체 인식 장치가 복수의 학습 네트워크 모델(930, 940, 950)을 이용하여 객체를 인식하는 방법을 설명하기 위한 도면이다.
도 9를 참조하면, 객체 인식 장치는 객체 인식 장치에 포함된 서로 다른 종류의 센서를 이용하여, 객체에 관한 복수의 센서 데이터(910. 920)를 획득할 수 있다. 예를 들어, 객체 인식 장치는 객체의 움직임에 관한 센서 데이터(910) 및 객체가 포함된 이미지 데이터(910)를 획득할 수 있다.
한편, 객체 인식 장치는 객체 인식을 위해 서로 다른 종류의 센서 데이터(910, 920)를 조합하기 전에, 서로 다른 종류의 센서 데이터(910, 920)의 차원을 일치시킬 수 있다. 여기에서, 움직임에 관한 센서 데이터(910)는 1차원인 것으로 가정한다. 예를 들어, 객체 인식 장치는 센서 데이터의 변환을 위해 학습시킨 결과 생성된 제 1 학습 네트워크 모델(930)을 이용하여, 객체의 움직임에 관한 센서 데이터(910)를 2차원의 센서 데이터로 변환할 수 있다.
또한, 객체 인식 장치는 제 2 학습 네트워크 모델(940)을 이용하여, 이미지 데이터(920)로부터 객체를 대표하는 이미지 특성 정보를 획득할 수 있다. 여기에서, 이미지 특성 정보(940)는 제 2 학습 네트워크 모델(940)을 이용하여, 이미지 데이터(920) 내의 이미지 속성들을 추상화한 결과, 객체를 대표하는 이미지 특성 정보(940)를 출력하도록 미리 학습될 수 있다. 여기에서, 제 2 학습 네트워크 모델(940)을 통해 획득되는 이미지 특성 정보는 2차원 형태일 수 있다.
객체 인식 장치는 제 1 학습 네트워크 모델(930) 및 제 2 학습 네트워크 모델(940)로부터 각각 출력되는 변환된 센서 데이터와 이미지 특성 정보를 기초로, 제 3 학습 네트워크 모델(940)을 이용하여, 객체를 인식할 수 있다. 제 3 학습 네트워크 모델은 8에서 전술한 제 3 학습 네트워크 모델과 대응될 수 있다.
도 10은 일 실시예에 따라 객체를 인식하는데 이용되는 복수의 학습 네트워크 모델(1020, 1060, 1070) 중 제 1 학습 네트워크 모델(1020)을 학습시키는 방법을 설명하기 위한 도면이다.
도 10을 참조하면, 객체 인식 장치는 움직임 센서로부터 1차원의 센서 데이터(1010)를 획득할 수 있다. 객체 인식 장치는 제 1 학습 네트워크 모델(1020)을 이용하여, 1차원의 센서 데이터(1010)를 2차원의 센서 데이터로 변환할 수 있다.
일 실시예에 따른, 객체 인식 장치는 제 1 학습 네트워크 모델(1020)의 학습 결과를 평가하기 위해, 변환된 2차원의 센서 데이터와 1차원의 센서 데이터(1010)에 대한 센서의 클래스 라벨(class label, 1015)을 비교할 수 있다. 객체 인식 장치는 비교 결과에 따라 백 프로퍼게이션(back propagation) 알고리즘을 적용하는 제 1 학습 평가 모듈(1030)을 통해, 제 1 학습 네트워크 모델(1020)을 구성하는 복수의 레이어 각각에 설정된 파라미터를 업데이트 할 수 있다. 예를 들어, 객체 인식 장치는 비교 결과, 제 1 학습 네트워크 모델(1020)에 설정된 파라미터 각각이 오차에 영향을 미치는 정도를 값으로 산출하고, 산출된 값을 적용하여, 복수의 레이어 각각에 설정된 파라미터를 업데이트 할 수 있다.
한편, 객체 인식 장치는 제 1 학습 네트워크 모델(1020)에서 출력된 2차원의 변환된 센서 데이터를 학습 네트워크 모델(1020)과 역방향 구조를 가진 다른 학습 네트워크 모델을 포함하는 제 2 학습 평가 모듈(1040)에 입력함으로써, 제 1 학습 네트워크 2차원의 변환된 센서 데이터를 1차원으로 재변환시킬 수 있다. 예를 들어, 제 1 학습 네트워크 모델(1020)이 디컨볼루션 네트워크로 구성된 경우, 제 2 학습 평가 모듈(1040)의 학습 네트워크 모델은 디컨볼루션 네트워크와 역방향 구조를 가진 컨볼루션 네트워크로 구성될 수 있다.
객체 인식 장치는 제 2 학습 평가 모듈(1040)을 통해, 재변환 결과 획득된 1차원의 센서 데이터와 제 1 학습 네트워크에 입력된 1차원의 센서 데이터를 비교한 결과에 기초하여, 제 1 학습 네트워크 모델(1020)을 구성하는 복수의 레이어 각각에 설정된 파라미터를 업데이트 할 수 있다.
일 실시예에 따른 객체 인식 장치는 제 1 학습 평가 모듈(1030) 및 제 2 학습 평가 모듈(1040) 중 적어도 하나를 기초로, 변환된 2차원 센서 데이터를 평가한 결과, 오차가 기 설정된 범위 이내인 경우, 변환된 2차원 센서 데이터를 이미지 특성 정보와 조합할 수 있다. 여기에서, 이미지 특성 정보는 이미지 센서로부터 획득된 이미지 데이터(1050)를 기초로, 제 2 학습 네트워크(1060)를 통해 획득될 수 있다.
객체 인식 장치는 제 1 학습 네트워크 모델(1020) 및 제 2 학습 네트워크 모델(1060)로부터 각각 출력되는 변환된 센서 데이터와 이미지 특성 정보를 기초로, 제 3 학습 네트워크 모델(1070)을 이용하여, 객체를 인식할 수 있다.
도 11은 일 실시예에 따라 객체를 인식하는데 이용되는 복수의 학습 네트워크 모델(1120, 1140, 1150) 중 제 3 학습 네트워크 모델(1150)을 학습시키는 방법을 설명하기 위한 도면이다.
도 11을 참조하면, 객체 인식 장치는 움직임 센서로부터 1차원의 센서 데이터(1110)를 획득할 수 있다. 객체 인식 장치는 제 1 학습 네트워크 모델(1120)을 이용하여, 1차원의 센서 데이터(1110)를 2차원의 센서 데이터로 변환할 수 있다.
또한, 일 실시예에 따른 객체 인식 장치는 이미지 센서로부터 획득된 2차원의 이미지 데이터(1130)를 기초로 제 2 학습 네트워크 모델(1140)을 이용하여 이미지 특성 정보를 획득할 수 있다.
객체 인식 장치는 변환된 2차원의 센서 데이터와 2차원의 이미지 데이터(1050)로부터 획득된 이미지 특성 정보는 조합 모듈(1150)에 입력될 수 있다. 여기에서, 조합 모듈(1150)은 복수의 레이어 유닛(1160, 1170, 1180)으로 구성된 제 3 학습 네트워크 모델(1150) 및 학습 평가 모듈(1195)을 포함할 수 있다. 여기에서, 복수의 레이어 유닛(1160, 1170, 1180)은 입력된 이미지 특성 정보 및 변환된 2차원의 센서 데이터로부터 객체를 대표하는 특성 정보를 획득하기 위한, 제 1 레이어 유닛(1160), 제 2 레이어 유닛(1170) 및 제 3 레이어 유닛(1180)으로 구성될 수 있다.
일 실시예에 따른 제 1 레이어 유닛(1160)은 특성 생성 레이어(feature generation layer, 1162), 요소 별 곱셈 레이어(element-wise multiplication layer, 1164) 및 적어도 하나의 컨볼루션 레이어(convolution layer, 1166)를 포함할 수 있다.
특성 생성 레이어(1162)는 변환된 2차원의 센서 데이터의 특성 정보를 가공하는 레이어로서, 이미지 특성 정보와 결합될 수 있도록, 가중치 등을 적용하여 변환된 2차원의 센서 데이터의 특성 정보로부터 객체 인식에 가장 효과적인 특성 정보를 추출할 수 있다. 또한, 요소 별 곱셈 레이어(1164)는 특성 생성 레이어(1162)를 통해 획득된 특성 정보와 이미지 특성 정보를 요소 별로 곱하여 서로 다른 센서의 특성 정보를 조합할 수 있다. 적어도 하나의 컨볼루션 레이어(1166)는 요소 별 곱셈 레이어(1164)를 통해 조합된 특성 정보로부터 객체 인식에 적합한 유형의 특성 정보를 획득할 수 있다. 여기에서, 객체 인식에 적합한 유형인지에 대한 판단은 후술할 학습 평가 모듈(1195)의 결과를 기초로 수행될 수 있다. 다만, 이는 일 실시예일 뿐, 제 1 레이어 유닛(1160)이 전술한 예에 한정되는 것은 아니다. 다른 예에 따라, 적어도 하나의 컨볼루션 레이어(1166)는 서로 다른 센서의 특성 정보로부터 비선형적인 조합을 도출할 수 있도록 ReLU(rectified linear unit) 유닛으로 구성될 수도 있다.
일 실시예에 따른 제 2 레이어 유닛(1170)은 요소 별 덧셈 레이어(element-wise additional layer, 1172) 및 적어도 하나의 컨볼루션 레이어(1174)를 포함할 수 있다. 요소 별 덧셈 레이어(1172)는 변환된 2차원의 센서 데이터와 이미지 데이터를 선형적으로 조합할 수 있다. 또한, 적어도 하나의 컨볼루션 레이어(1174)는 요소 별 덧셈 레이어(1172)를 통해 조합된 특성 정보로부터 객체 인식에 적합한 유형의 특성 정보를 획득할 수 있다. 전술한 바와 같이, 객체 인식에 적합한 유형인지에 대한 판단은 후술할 학습 평가 모듈(1195)의 결과를 기초로 수행될 수 있다. 또한, 적어도 하나의 컨볼루션 레이어(1174)는 다른 예에 따라 ReLU 유닛으로 구성될 수도 있다.
일 실시예에 따른 제 3 레이어 유닛(1180)은 제 1 레이어 유닛(1160) 및 제 2 레이어 유닛(1170)으로부터 각각 획득된 특성 정보로부터 객체 인식에 적합한 유형의 특성 정보를 획득하는 적어도 하나의 컨볼루션 레이어를 포함할 수 있다. 예를 들어, 제 1 레이어 유닛(1160) 및 제 2 레이어 유닛(1170)에서 각각 5개 및 3개의 채널의 특성 정보가 획득된 경우, 제 3 레이어 유닛(1180)은 8개의 채널의 특성 정보로부터 객체 인식에 적합한 유형의 특성 정보를 획득할 수 있다.
한편, 전술한 예는 제 3 학습 네트워크 모델(1150)의 일 실시예일 뿐, 제 3 학습 네트워크 모델(1150)을 구성하는 레이어가 전술한 예에 한정되는 것은 아니다.
일 실시예에 따른 객체 인식 장치는 기 획득된 실제 객체의 정보(1190)와 객체 인식 결과를 비교할 수 있다. 객체 인식 장치는 비교 결과에 따라 백 프로퍼게이션 알고리즘을 적용하는 학습 평가 모듈(1195)을 통해, 제 3 학습 네트워크 모델(1150)을 구성하는 복수의 레이어 유닛(1160, 1170, 1180) 각각에 설정된 파라미터(예를 들어, 가중치)를 업데이트 할 수 있다. 예를 들어, 객체 인식 장치는 비교 결과, 제 3 학습 네트워크 모델에 설정된 파라미터 각각이 오차에 영향을 미치는 정도를 값으로 산출하고, 산출된 값을 적용하여, 복수의 레이어 유닛(1160, 1170, 1180) 각각에 설정된 파라미터를 업데이트 할 수 있다.
도 12는 일 실시예에 따라 객체를 인식하는 객체 인식 장치(100)의 블록도이다.
도 12를 참조하면, 객체 인식 장치(100)는 센싱부(110), 프로세서(120), 출력부(130) 및 메모리(140)를 포함할 수 있다.
센싱부(110)는 객체 인식 장치(100)의 주변에 위치한 객체를 감지하고, 감지 결과 획득된 센서 데이터를 프로세서(120)로 전달할 수 있다. 센싱부(110)는 근접 센서, 이미지 센서, 깊이 센서, 압력 센서, 지자기 센서, 가속도 센서 및 자이로 센서 중 적어도 2개 이상을 포함할 수 있으나, 이에 한정되는 것은 아니다.
프로세서(120)는 하나 이상의 코어(core, 미도시) 및 그래픽 처리부(미도시) 및/또는 다른 구성 요소와 신호를 송수신하는 연결 통로(예를 들어, 버스(bus) 등)를 포함할 수 있다.
일 실시예에 따라 프로세서(120)는 도 1 내지 도 11을 참고하여 전술한 객체 인식 장치의 동작을 수행할 수 있다.
예를 들어, 프로세서(120)는 서로 다른 종류의 복수의 센서로부터 객체에 관한 복수의 센서 데이터를 획득할 수 있다. 또한, 프로세서(120)는 복수의 센서 데이터 중 적어도 일부를 2차원의 센서 데이터로 변환할 수 있다. 프로세서(120)는 기 생성된 학습 네트워크 모델을 이용하여, 복수의 센서 중 어느 하나인 이미지 센서로부터 획득된 2차원의 이미지 데이터와 변환된 2차원의 센서 데이터에 기초하여, 객체를 인식할 수 있다.
한편, 프로세서(120)는 프로세서(120) 내부에서 처리되는 신호(또는, 데이터)를 일시적 및/또는 영구적으로 저장하는 램(RAM: Random Access Memory, 미도시) 및 롬(ROM: Read-Only Memory, 미도시)을 더 포함할 수 있다. 또한, 프로세서(120)는 그래픽 처리부, 램 및 롬 중 적어도 하나를 포함하는 시스템온칩(SoC: system on chip) 형태로 구현될 수 있다.
출력부(130)는 객체 인식에 관한 정보를 표시할 수 있다. 예를 들어, 출력부(130)는 복수의 센서로부터 획득된 센서 데이터를 표시할 수 있다. 다른 예에 따라, 출력부(130)는 프로세서(120)로부터 획득된 객체 인식 결과를 표시할 수도 있다.
메모리(140)는 프로세서(120)의 처리 및 제어를 위한 프로그램들(하나 이상의 인스트럭션들)을 저장할 수 있다. 메모리(140)에 저장된 프로그램들은 기능에 따라 복수 개의 모듈들로 구분될 수 있다. 일 실시예에 따라 메모리(140)는 도 13을 참고하여 후술할 데이터 학습부 및 데이터 인식부가 소프트웨어 모듈로 구성될 수 있다. 또한, 데이터 학습부 및 데이터 인식부는 각각 독립적으로 학습 네트워크 모델을 포함하거나, 하나의 학습 네트워크 모델을 공유할 수 있다.
도 13은 일 실시예에 따른 프로세서(120)를 설명하기 위한 도면이다.
도 13을 참조하면, 일 실시예에 따른 프로세서(120)는 데이터 학습부(1310) 및 데이터 인식부(1320)를 포함할 수 있다.
데이터 학습부(1310)는 이미지 데이터와 2차원으로 변환된 센서 데이터로부터 객체를 인식하기 위한 기준을 학습할 수 있다. 또한, 다른 실시예에 따라, 데이터 학습부(1310)는 이미지 데이터로부터 이미지 특성 정보를 검출하기 위한 기준을 학습할 수 있다. 또 다른 실시예에 따라, 데이터 학습부(1310)는 복수의 센서 데이터 중 적어도 일부로부터 획득된 1차원의 센서 데이터를 2차원의 센서 데이터로 변환하기 위한 기준을 학습할 수도 있다.
데이터 인식부(1320)는 데이터 학습부(1310)를 통해 학습된 기준에 기초하여, 이미지 데이터로부터 특성 정보를 검출하거나, 1차원의 센서 데이터를 2차원의 센서 데이터로 변환할 수 있다. 또한, 데이터 인식부(1320)는 데이터 학습부(1310)를 통해 학습된 기준에 기초하여, 이미지 데이터 및 2차원으로 변환된 센서 데이터로부터 객체를 인식할 수 있다.
데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 객체 인식 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 객체 인식 장치에 탑재될 수도 있다.
이 경우, 데이터 학습부(1310) 및 데이터 인식부(1320)는 하나의 객체 인식 장치(100)에 탑재될 수도 있으며, 또는 별개의 객체 인식 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 하나는 객체 인식 장치에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한, 데이터 학습부(1310) 및 데이터 인식부(1320)는 유선 또는 무선으로 통하여, 데이터 학습부(1310)가 구축한 모델 정보를 데이터 인식부(1320)로 제공할 수도 있고, 데이터 인식부(1320)로 입력된 데이터가 추가 학습 데이터로서 데이터 학습부(1310)로 제공될 수도 있다.
한편, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 어플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 어플리케이션에 의해 제공될 수 있다.
도 14는 일 실시예에 따른 데이터 학습부(1310)의 블록도이다.
도 14를 참조하면, 일부 실시예에 따른 데이터 학습부(1310)는 데이터 획득부(1410), 전처리부(1420), 학습 데이터 선택부(1430), 모델 학습부(1440) 및 모델 평가부(1450)를 포함할 수 있다. 다만, 이는 일 실시예일 뿐, 전술한 구성 들 보다 적은 구성 요소로 데이터 학습부(1310)가 구성되거나, 전술한 구성들 이외에 다른 구성 요소가 추가적으로 데이터 학습부(1310)에 포함될 수 있다.
데이터 획득부(1410)는 서로 다른 종류의 센서로부터 획득된 적어도 하나의 객체에 관한 복수의 센서 데이터를 학습 데이터로 획득할 수 있다. 예를 들어, 데이터 획득부(1410)는 객체의 이미지 데이터, 객체의 움직임 및 위치 등에 관한 센서 데이터를 학습 데이터로 획득할 수 있다.
한편, 일 실시예에 따른 데이터 획득부(1410)에서 획득하는 센서 데이터는 객체의 카테고리에 따라 분류된 센서 데이터 중 하나일 수 있다. 예를 들어, 데이터 획득부(1410)는 객체의 종 별로 분류된 센서 데이터를 기초로 학습을 수행할 수 있다.
전처리부(1420)는 센서 데이터의 변환, 이미지 특성 정보 추출 또는 객체 인식을 위한 학습에 획득된 센서 데이터가 이용될 수 있도록, 획득된 센서 데이터를 전처리할 수 있다. 전처리부(1420)는 후술할 모델 학습부(1440)가 학습을 위하여 획득된 적어도 하나의 센서 데이터를 이용할 수 있도록, 획득된 적어도 하나의 센서 데이터를 기 설정된 포맷으로 가공할 수 있다.
학습 데이터 선택부(1430)는 전처리된 데이터 중에서 학습에 필요한 센서 데이터를 선택할 수 있다. 선택된 센서 데이터는 모델 학습부(1440)에 제공될 수 있다. 학습 데이터 선택부(1430)는 설정된 기준에 따라, 전처리된 센서 데이터 중에서 학습에 필요한 센서 데이터를 선택할 수 있다.
모델 학습부(1440)는 학습 네트워크 모델 내의 복수의 레이어에서 이미지 데이터 및 변환된 2차원의 센서 데이터로부터 어떠한 정보를 이용하여 객체를 인식하는지에 대한 기준을 학습할 수 있다. 예를 들어, 모델 학습부(1440)는 객체의 인식을 위하여 학습 네트워크 모델에 포함된 복수의 레이어 중 어떤 레이어에 변환된 센서 데이터를 적용해야 하는지에 대한 제 1 기준을 학습할 수도 있다. 여기에서, 제1 기준은, 객체 인식 장치가 학습 네트워크 모델을 이용하여, 객체를 인식하는데 이용되는 이미지 데이터 또는 변환된 2차원의 센서 데이터의 종류 및 개수, 결합 연산의 종류 및 수준 등을 포함할 수 있다.
다양한 실시예에 따르면, 모델 학습부(1440)는 미리 구축된 데이터 인식 모델이 복수 개가 존재하는 경우, 입력된 학습 데이터와 기본 학습 데이터의 관련성이 큰 데이터 인식 모델을 학습할 데이터 인식 모델로 결정할 수 있다. 이 경우, 기본 학습 데이터는 데이터의 타입 별로 기 분류되어 있을 수 있으며, 데이터 인식 모델은 데이터의 타입 별로 미리 구축되어 있을 수 있다. 예를 들어, 기본 학습 데이터는 학습 데이터가 생성된 지역, 학습 데이터가 생성된 시간, 학습 데이터의 크기, 학습 데이터의 장르, 학습 데이터의 생성자, 학습 데이터 내의 객체의 종류 등과 같은 다양한 기준으로 기 분류되어 있을 수 있다.
또한, 모델 학습부(1440)는, 예를 들어, 학습에 따라 인식된 객체가 올바른 지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 데이터 인식을 위한 학습 네트워크 모델을 학습시킬 수 있다.
또한, 학습 네트워크 모델의 학습이 완료되면, 모델 학습부(1440)는 학습 네트워크 모델을 저장할 수 있다. 이 경우, 모델 학습부(1440)는 학습 네트워크 모델을 데이터 인식부(1320)를 포함하는 객체 인식 장치의 메모리에 저장할 수 있다. 또는, 모델 학습부(1440)는 학습 네트워크 모델을 후술할 데이터 인식부(1320)를 포함하는 객체 인식 장치의 메모리에 저장할 수 있다. 또는, 모델 학습부(1440)는 학습 네트워크 모델을 객체 인식 장치와 유선 또는 무선 네트워크로 연결되는 서버의 메모리에 저장할 수도 있다.
이 경우, 학습 네트워크 모델이 저장되는 메모리는, 예를 들면, 객체 인식 장치의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 애플리케이션 프로그래밍 인터페이스(API) 및/또는 애플리케이션 프로그램(또는 "애플리케이션") 등을 포함할 수 있다.
모델 평가부(1450)는 학습 네트워크 모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 인식 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(1440)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 학습 네트워크 모델을 평가하기 위한 기 설정된 데이터일 수 있다. 여기에서, 평가 데이터는 학습 네트워크 모델을 기반으로 인식된 객체의 카테고리와 실제의 객체의 카테고리 간의 일치 비율 등을 포함할 수 있다.
한편, 학습 네트워크 모델이 복수 개 존재하는 경우, 모델 평가부(1450)는 각각의 학습 네트워크 모델에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 모델을 최종 학습 네트워크 모델로서 결정할 수 있다. 예를 들어, 일 실시예에 따른 복수의 학습 네트워크 모델은 도 10 및 도 11을 참조하여 전술한 바와 같이, 센서 데이터의 변환을 위한 제 1 학습 네트워크 모델, 이미지 특성 정보를 검출하기 위한 제 2 학습 네트워크 모델 및 객체 인식을 위한 제 3 학습 네트워크 모델 중 적어도 2개 이상으로 구성될 수 있다.
한편, 데이터 학습부(1310) 내의 데이터 획득부(1410), 전처리부(1420), 학습 데이터 선택부(1430), 모델 학습부(1440) 및 모델 평가부(1450) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 객체 인식 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1410), 전처리부(1420), 학습 데이터 선택부(1430), 모델 학습부(1440) 및 모델 평가부(1450) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 객체 인식 장치 에 탑재될 수도 있다.
또한, 데이터 획득부(1410), 전처리부(1420), 학습 데이터 선택부(1430), 모델 학습부(1440) 및 모델 평가부(1450)는 하나의 객체 인식 장치에 탑재될 수도 있으며, 또는 별개의 객체 인식 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1410), 전처리부(1420), 학습 데이터 선택부(1430), 모델 학습부(1440) 및 모델 평가부(1450) 중 일부는 객체 인식 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.
또한, 데이터 획득부(1410), 전처리부(1420), 학습 데이터 선택부(1430), 모델 학습부(1440) 및 모델 평가부(1450) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1410), 전처리부(1420), 학습 데이터 선택부(1430), 모델 학습부(1440) 및 모델 평가부(1450) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
도 15는 일 실시예에 따른 데이터 인식부(1320)의 블록도이다.
도 15를 참조하면, 일부 실시예에 따른 데이터 인식부(1320)는 데이터 획득부(1510), 전처리부(1520), 인식 데이터 선택부(1530), 인식 결과 제공부(1540) 및 모델 갱신부(1550)를 포함할 수 있다.
데이터 획득부(1510)는 서로 다른 종류의 센서로부터 획득된 적어도 하나의 객체에 관한 복수의 센서 데이터를 획득할 수 있으며, 전처리부(1520)는 객체의 인식을 위해 획득된 적어도 하나의 이미지가 이용될 수 있도록, 획득된 센서 데이터를 전처리할 수 있다. 전처리부(1520)는 후술할 인식 결과 제공부(1540)가 객체 인식을 위하여 획득된 센서 데이터를 이용할 수 있도록, 획득된 이미지를 기 설정된 포맷으로 가공할 수 있다. 인식 데이터 선택부(1530)는 전처리된 센서 데이터 중에서 객체 인식에 필요한 센서 데이터를 선택할 수 있다. 선택된 데이터는 인식 결과 제공부(1540)에게 제공될 수 있다.
인식 결과 제공부(1540)는 선택된 센서 데이터를 일 실시예에 따른 학습 네트워크 모델에 적용하여 객체를 인식할 수 있다. 학습 네트워크 모델에 선택된 센서 데이터를 적용하여 객체를 인식하는 방법은 도 1 내지 11을 참고하여 전술한 방법과 대응될 수 있다.
인식 결과 제공부(1540)는 센서 데이터를 기초로 객체를 인식한 결과를 제공할 수 있다.
모델 갱신부(1550)는 인식 결과 제공부(1540)에 의해 제공되는 객체 인식 결과에 대한 평가에 기초하여, 학습 네트워크 모델에 포함된 종분류 네트워크 또는 적어도 하나의 특성 추출 레이어의 파라미터 등이 갱신되도록 평가에 대한 정보를 도 14를 참고하여 전술한 모델 학습부(1440)에게 제공할 수 있다.
한편, 데이터 인식부(1320) 내의 데이터 획득부(1510), 전처리부(1520), 인식 데이터 선택부(1530), 인식 결과 제공부(1540) 및 모델 갱신부(1550) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 객체 인식 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1510), 전처리부(1520), 인식 데이터 선택부(1530), 인식 결과 제공부(1540) 및 모델 갱신부(1550) 중 적어도 하나는 인공 지능을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 객체 인식 장치에 탑재될 수도 있다.
또한, 데이터 획득부(1510), 전처리부(1520), 인식 데이터 선택부(1530), 인식 결과 제공부(1540) 및 모델 갱신부(1550)는 하나의 객체 인식 장치에 탑재될 수도 있으며, 또는 별개의 객체 인식 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1510), 전처리부(1520), 인식 데이터 선택부(1530), 인식 결과 제공부(1540) 및 모델 갱신부(1550) 중 일부는 객체 인식 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.
또한, 데이터 획득부(1510), 전처리부(1520), 인식 데이터 선택부(1530), 인식 결과 제공부(1540) 및 모델 갱신부(1550) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1510), 전처리부(1520), 인식 데이터 선택부(1530), 인식 결과 제공부(1540) 및 모델 갱신부(1550) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 어플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 어플리케이션에 의해 제공될 수 있다.
도 16은 다른 실시예에 따른 객체 인식 장치(1600)의 블록도이다.
도 16을 참조하면, 일 실시예에 따른 객체 인식 장치(1600)는 도 12의 센싱부(110), 프로세서(120), 출력부(130) 및 메모리(140)에 대응되는 센싱부(1610), 프로세서(1620), 출력부(1630) 및 메모리(1640) 이외에, 통신부(1650), A/V 입력부(1660) 및 사용자 입력부(1670)를 더 포함할 수 있다.
센싱부(1610)는 지자기 센서(1611), 가속도 센서(1612), 온/습도 센서(1613), 적외선 센서(1614), 자이로스코프 센서(1615), 위치 센서(1616), 압력 센서(1617), 근접 센서(1618) 및 이미지 센서(1619)를 포함할 수 있으나, 이는 일 실시예일 뿐, 센싱부(1610)에 포함된 센서가 전술한 예에 한정되는 것은 아니다.
프로세서(1620)는 통상적으로 객체 인식 장치(1600)의 전반적인 동작 및 객체 인식 장치(1600)의 내부 구성 요소들 사이의 신호 흐름을 제어하고, 데이터를 처리하는 기능을 수행한다. 예를 들어, 프로세서(1620)는, 메모리(1640)에 저장된 프로그램들(하나 이상의 인스트럭션들)을 실행함으로써, 센싱부(1610), 출력부(1630), 통신부(1650), A/V 입력부(1660) 및 사용자 입력부(1670) 등을 전반적으로 제어할 수 있다.
일 실시예에 따라 프로세서(1620)는, 도 1 내지 도 11에서 전술한 객체 인식 장치(100)의 기능을 수행하기 위하여, 서로 다른 종류의 복수의 센서를 이용하여 획득된 객체에 대한 복수의 센서 데이터를 기초로, 적어도 하나의 학습 네트워크 모델을 이용하여 객체를 인식할 수 있다. 프로세서(1620)는 도 12의 프로세서(120)에 대응되므로, 자세한 설명은 생략한다.
출력부(1630)는 센싱부(1610)에 획득된 센서 데이터를 출력할 수 있다. 또한, 출력부(1630)는 프로세서(1620)로부터 결정된 객체의 인식 결과를 출력할 수도 있다. 출력부(1630)는 디스플레이부(1631) 및 음향 출력부(1632)를 포함할 수 있다.
디스플레이부(1631)는 객체 인식 장치(1600)에서 처리되는 정보를 표시 출력한다. 디스플레이부(1631)와 터치 패드가 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부(1631)는 출력 장치 이외에 입력 장치로도 사용될 수 있다.
음향 출력부(1632)는 통신부(1650)로부터 수신되거나 메모리(1640)에 저장된 오디오 데이터를 출력한다.
메모리(1640)는 프로세서(1620)의 처리 및 제어를 위한 프로그램들(예를 들어, 하나 이상의 인스트럭션들, 제 1 학습 네트워크 모델, 제 2 학습 네트워크 모델, 제 3 학습 네트워크 모델)을 저장할 수 있고, 객체 인식 장치(1600)로 입력되거나 객체 인식 장치(1600)로부터 출력되는 데이터(예를 들어, 객체 인식 결과)를 저장할 수도 있다.
메모리(1640)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(1641) 및 터치 스크린 모듈(1642) 등으로 분류될 수 있다.
UI 모듈(1641)은, 애플리케이션 별로 객체 인식 장치(1600)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(1642)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 프로세서(1620)로 전달할 수 있다. 본 발명의 일 실시예에 따른 터치 스크린 모듈(1642)은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈(1642)은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다.
메모리(1640)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM), SRAM(Static Random Access Memory), 롬(ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
통신부(1650)는 외부 장치와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(1650)는 근거리 통신부(1651), 이동 통신부(1652), 방송 수신부(1653)를 포함할 수 있다.
근거리 통신부(short-range wireless communication unit)(1651)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
이동 통신부(1652)는 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다.
방송 수신부(1653)는 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 실시예에 따라서 객체 인식 장치(1600)가 방송 수신부(1653)를 포함하지 않을 수도 있다.
일 실시예에 따라 통신부(1650)는 학습 네트워크 모델이 외부 장치에 저장된 경우, 외부 장치에 센서 데이터를 전송하여 객체의 인식을 요청하고, 외부 장치로부터 객체 인식 결과를 수신할 수 있다.
A/V(Audio/Video) 입력부(1660)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(1661)와 마이크로폰(1662) 등이 포함될 수 있다.
카메라(1661)는 카메라 인식 범위에서 이미지를 캡처한다. 일 실시예에 따라 카메라(1661)에 의해 캡처된 이미지는, 프로세서(1620)에 의해 이미지 처리되어 디스플레이부(1631)를 통해 표시 출력될 수 있다.
사용자 입력부(1670)는 사용자가 객체 인식 장치(1600)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(1670)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.
일 실시예에 따라 사용자 입력부(1670)는 터치 패드를 이용하여, 객체 인식 장치(1600) 주변의 객체의 센싱을 요청하는 사용자 입력을 수신할 수 있다. 다만, 이는 일 실시예일 뿐, 사용자 입력부(1670)는 리모컨 등의 입력 장치를 통해 사용자로부터 객체의 센싱 요청하는 사용자 입력을 수신할 수도 있다.
한편, 도 16에 도시된 객체 인식 장치(1600)의 구성은 일 실시예이며, 객체 인식 장치(1600)의 각 구성요소는 구현되는 객체 인식 장치의 사양에 따라 통합, 추가, 또는 생략될 수 있다. 즉, 필요에 따라 2 이상의 구성요소가 하나의 구성요소로 합쳐지거나, 혹은 하나의 구성요소가 2 이상의 구성요소로 세분되어 구성될 수 있다. 또한, 각 구성(또는, 모듈)에서 수행하는 기능은 실시예들을 설명하기 위한 것이며, 그 구체적인 동작이나 장치는 본 발명의 권리범위를 제한하지 아니한다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.
상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.
이상과 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
Claims (21)
- 서로 다른 종류의 복수의 센서로부터 객체에 관한 복수의 센서 데이터를 획득하는 단계;
상기 복수의 센서 데이터 중 적어도 일부를 2차원의 센서 데이터로 변환하는 단계; 및
상기 복수의 센서 중 어느 하나인 이미지 센서로부터 획득된 2차원의 이미지 데이터와 상기 변환된 2차원의 센서 데이터를 기초로 기 생성된 학습 네트워크 모델을 이용하여, 상기 객체를 인식하는 단계를 포함하는, 객체를 인식하는 방법. - 제 1항에 있어서, 상기 복수의 센서는,
움직임 센서, 상기 이미지 센서, 근접 센서 및 압력 센서 중 적어도 두 개 이상의 센서를 포함하는, 객체를 인식하는 방법. - 제 1 항에 있어서, 상기 변환하는 단계는,
1차원의 센서 데이터를 2차원의 센서 데이터로 변환하기 위한 기준을 학습시킨 결과 생성된, 센서 데이터 변환을 위한 학습 네트워크 모델을 이용하여, 상기 복수의 센서 데이터 중 적어도 일부를 상기 2차원 센서 데이터로 변환하는, 객체를 인식하는 방법. - 제 3 항에 있어서,
상기 변환된 2차원의 센서 데이터를 재변환하여, 1차원의 센서 데이터를 획득하는 단계;
상기 획득된 복수의 센서 데이터 중 적어도 일부인 1차원의 센서 데이터와 상기 재변환 결과 획득된 1차원의 센서 데이터를 비교한 결과에 기초하여, 센서 데이터의 변환에서 발생된 오차를 결정하는 단계; 및
상기 결정된 오차에 기초하여, 상기 센서 데이터 변환을 위한 학습 네트워크 모델을 구성하는 복수의 레이어의 파라미터를 업데이트 하는 단계를 더 포함하는, 객체를 인식하는 방법. - 제 3 항에 있어서,
상기 인식된 객체의 카테고리 및 상기 객체의 카테고리를 비교한 결과에 기초하여, 센서 데이터의 변환에서 발생된 오차를 결정하는 단계; 및
상기 결정된 오차에 기초하여, 상기 센서 데이터 변환을 위한 학습 네트워크 모델을 구성하는 복수의 레이어의 파라미터를 업데이트하는 단계를 더 포함하는, 객체를 인식하는 방법. - 제 1항에 있어서, 상기 변환하는 단계는,
상기 복수의 센서 중 적어도 하나로부터 제 1 축 방향의 1차원 센서 데이터를 획득하는 단계; 및
상기 제 1 축 방향의 1차원 센서 데이터를 제 2 축 방향으로 업샘플링(upsampling)하여 상기 2차원의 센서 데이터를 생성하는 단계를 포함하는, 객체를 인식하는 방법. - 제 6항에 있어서, 상기 객체를 인식하는 단계는,
상기 변환된 2차원의 센서 데이터에 기 설정된 가중치를 적용하여, 상기 변환된 2차원의 센서 데이터와 상기 2차원 이미지 데이터를 조합하는 단계를 포함하고,
상기 기 설정된 가중치는, 상기 2차원의 센서 데이터로의 변환을 위해 생성된 학습 네트워크 모델을 구성하는 복수의 레이어의 파라미터로서, 상기 인식된 객체의 카테고리와 객체의 실제 카테고리를 비교한 결과 획득된 인식 결과의 오차에 기초하여 업데이트 되는, 객체를 인식하는 방법. - 제 1항에 있어서, 상기 객체를 인식하는 단계는,
적어도 하나의 이미지 데이터로부터 이미지 특성 정보를 획득하는 기준을 학습시킨 결과 생성된 학습 네트워크 모델을 이용하여, 상기 2차원의 이미지 데이터로부터 상기 객체를 대표하는 이미지 특성 정보를 획득하는 단계; 및
상기 이미지 특성 정보와 상기 변환된 2차원의 센서 데이터를 기초로, 상기 기 생성된 학습 네트워크 모델을 이용하여, 상기 객체를 인식하는 단계를 포함하는, 객체를 인식하는 방법. - 제 1항에 있어서,
상기 기 생성된 학습 네트워크 모델은 복수의 레이어로 구성되고,
상기 복수의 레이어 각각의 파라미터는,
상기 이미지 데이터 및 상기 변환된 2차원 센서 데이터 중 객체 인식에 이용되는 적어도 하나의 데이터의 선택 및 상기 선택된 적어도 하나의 데이터의 조합을 위한 기준을 학습한 결과에 기초하여 결정되는, 객체를 인식하는 방법. - 제 1항에 있어서,
상기 인식된 객체의 카테고리 및 상기 객체의 카테고리를 비교한 결과에 기초하여, 상기 객체 인식에서 발생된 오차를 결정하는 단계;
상기 결정된 오차에 기초하여, 상기 기 생성된 학습 네트워크 모델을 구성하는 복수의 레이어의 파라미터를 업데이트 하는 단계를 더 포함하는, 객체를 인식하는 방법. - 하나 이상의 인스트럭션을 저장하는 메모리;
디스플레이;
객체에 관한 복수의 센서 데이터를 획득하는 복수의 센서; 및
상기 메모리에 저장된 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고,
상기 프로세서는,
상기 복수의 센서로부터 객체에 관한 복수의 센서 데이터를 획득하고,
상기 복수의 센서 데이터 중 적어도 일부를 2차원의 센서 데이터로 변환하며,
상기 복수의 센서 중 어느 하나인 이미지 센서로부터 획득된 2차원의 이미지 데이터와 상기 변환된 2차원의 센서 데이터를 기초로 기 생성된 학습 네트워크 모델을 이용하여 상기 객체를 인식하는, 객체를 인식하는 장치. - 제 11항에 있어서, 상기 복수의 센서는,
움직임 센서, 상기 이미지 센서, 근접 센서 및 압력 센서 중 적어도 두 개 이상의 센서를 포함하는, 객체를 인식하는 장치. - 제 11 항에 있어서,
상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,
1차원의 센서 데이터를 2차원의 센서 데이터로 변환하기 위한 기준을 학습시킨 결과 생성된, 센서 데이터 변환을 위한 학습 네트워크 모델을 이용하여, 상기 복수의 센서 데이터 중 적어도 일부를 상기 2차원 센서 데이터로 변환하는, 객체를 인식하는 장치. - 제 13 항에 있어서,
상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,
상기 변환된 2차원의 센서 데이터를 재변환하여, 1차원의 센서 데이터를 획득하고,
상기 획득된 복수의 센서 데이터 중 적어도 일부인 1차원의 센서 데이터와 상기 재변환 결과 획득된 1차원의 센서 데이터를 비교한 결과에 기초하여, 센서 데이터의 변환에서 발생된 오차를 결정하며,
상기 결정된 오차에 기초하여, 상기 센서 데이터 변환을 위한 학습 네트워크 모델을 구성하는 복수의 레이어의 파라미터를 업데이트 하는, 객체를 인식하는 장치. - 제 13 항에 있어서,
상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,
상기 인식된 객체의 카테고리 및 상기 객체의 카테고리를 비교한 결과에 기초하여, 센서 데이터의 변환에서 발생된 오차를 결정하고,
상기 결정된 오차에 기초하여, 상기 센서 데이터 변환을 위한 학습 네트워크 모델을 구성하는 복수의 레이어의 파라미터를 업데이트 하는, 객체를 인식하는 장치. - 제 11항에 있어서,
상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,
상기 복수의 센서 중 적어도 하나로부터 제 1 축 방향의 1차원 센서 데이터를 획득하고,
상기 제 1 축 방향의 1차원 센서 데이터를 제 2 축 방향으로 업샘플링(upsampling)하여 상기 2차원의 센서 데이터를 생성하는, 객체를 인식하는 장치. - 제 16항에 있어서,
상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,
상기 변환된 2차원의 센서 데이터에 기 설정된 가중치를 적용하여, 상기 변환된 2차원의 센서 데이터와 상기 2차원 이미지 데이터를 조합하고,
상기 기 설정된 가중치는, 상기 2차원의 센서 데이터로의 변환을 위해 생성된 학습 네트워크 모델을 구성하는 복수의 레이어의 파라미터로서, 상기 인식된 객체의 카테고리와 객체의 실제 카테고리를 비교한 결과 획득된 인식 결과의 오차에 기초하여 업데이트 되는, 객체를 인식하는 장치. - 제 11항에 있어서,
상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,
적어도 하나의 이미지 데이터로부터 이미지 특성 정보를 획득하는 기준을 학습시킨 결과 생성된 학습 네트워크 모델을 이용하여, 상기 2차원의 이미지 데이터로부터 상기 객체를 대표하는 이미지 특성 정보를 획득하고,
상기 이미지 특성 정보와 상기 변환된 2차원의 센서 데이터를 기초로, 상기 기 생성된 학습 네트워크 모델을 이용하여, 상기 객체를 인식하는, 객체를 인식하는 장치. - 제 11항에 있어서,
상기 기 생성된 학습 네트워크 모델은 복수의 레이어로 구성되고,
상기 복수의 레이어 각각의 파라미터는,
상기 이미지 데이터 및 상기 변환된 2차원 센서 데이터 중 객체 인식에 이용되는 적어도 하나의 데이터의 선택 및 상기 선택된 적어도 하나의 데이터의 조합을 위한 기준을 학습한 결과에 기초하여 결정되는, 객체를 인식하는 장치. - 제 11항에 있어서,
상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,
상기 인식된 객체의 카테고리 및 상기 객체의 카테고리를 비교한 결과에 기초하여, 상기 객체 인식에서 발생된 오차를 결정하고,
상기 결정된 오차에 기초하여, 상기 기 생성된 학습 네트워크 모델을 구성하는 복수의 레이어의 파라미터를 업데이트 하는, 객체를 인식하는 장치. - 제 1항 내지 제 10항 중 어느 하나의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170122876A KR102491546B1 (ko) | 2017-09-22 | 2017-09-22 | 객체를 인식하는 방법 및 장치 |
CN201880061243.2A CN111108514A (zh) | 2017-09-22 | 2018-07-11 | 用于识别对象的方法和设备 |
PCT/KR2018/007829 WO2019059505A1 (ko) | 2017-09-22 | 2018-07-11 | 객체를 인식하는 방법 및 장치 |
US16/635,024 US11170201B2 (en) | 2017-09-22 | 2018-07-11 | Method and apparatus for recognizing object |
EP18859460.0A EP3648006A4 (en) | 2017-09-22 | 2018-07-11 | OBJECT RECOGNITION PROCESS AND APPARATUS |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170122876A KR102491546B1 (ko) | 2017-09-22 | 2017-09-22 | 객체를 인식하는 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190034021A true KR20190034021A (ko) | 2019-04-01 |
KR102491546B1 KR102491546B1 (ko) | 2023-01-26 |
Family
ID=65811462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170122876A KR102491546B1 (ko) | 2017-09-22 | 2017-09-22 | 객체를 인식하는 방법 및 장치 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11170201B2 (ko) |
EP (1) | EP3648006A4 (ko) |
KR (1) | KR102491546B1 (ko) |
CN (1) | CN111108514A (ko) |
WO (1) | WO2019059505A1 (ko) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200006028A (ko) * | 2019-12-30 | 2020-01-17 | 주식회사 고영테크놀러지 | 인쇄 회로 기판 검사 장치, 스크린 프린터의 결함 유형 결정 방법 및 컴퓨터 판독 가능한 기록 매체 |
KR102167808B1 (ko) * | 2020-03-31 | 2020-10-20 | 한밭대학교 산학협력단 | Ar에 적용 가능한 의미적인 분할 방법 및 시스템 |
WO2020241951A1 (ko) * | 2019-05-31 | 2020-12-03 | 엘지전자 주식회사 | 인공지능 학습방법 및 이를 이용하는 로봇의 동작방법 |
WO2020246834A1 (ko) * | 2019-06-04 | 2020-12-10 | 주식회사 딥엑스 | 이미지 객체 인식 장치 및 방법 |
KR20210057848A (ko) * | 2019-11-12 | 2021-05-24 | 주식회사 이지스로직 | 딥 러닝 인공신경망 기반 영상 인식 방법 및 시스템 |
KR20210081852A (ko) * | 2019-12-24 | 2021-07-02 | 영남대학교 산학협력단 | 객체 검출 모델 학습 장치 및 방법 |
CN113557536A (zh) * | 2019-04-25 | 2021-10-26 | 欧姆龙株式会社 | 学习系统、数据生成装置、数据生成方法及数据生成程序 |
KR102517469B1 (ko) * | 2021-12-31 | 2023-04-04 | 수퍼빈 주식회사 | 객체를 인식하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 |
WO2022225374A3 (ko) * | 2021-04-22 | 2023-04-06 | 서울대학교산학협력단 | 비디오 신원 복원 모델을 이용한 얼굴 이미지 재구성 방법 및 장치 |
WO2023113187A1 (ko) * | 2021-12-13 | 2023-06-22 | 삼성전자 주식회사 | 획득된 정보에 기반하여 화면을 구성하기 위한 전자 장치 및 방법 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101942892B1 (ko) * | 2018-11-14 | 2019-01-29 | 아이픽셀 주식회사 | 하이브리드 머신 비전을 수행하는 클라이언트 단말 및 그 방법 |
WO2020180051A1 (en) * | 2019-03-07 | 2020-09-10 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
TWI777153B (zh) * | 2020-04-21 | 2022-09-11 | 和碩聯合科技股份有限公司 | 影像辨識方法及其裝置及人工智慧模型訓練方法及其裝置 |
US11356601B2 (en) * | 2020-06-19 | 2022-06-07 | Micron Technology, Inc. | Intelligent digital camera having deep learning accelerator and random access memory |
US11490135B2 (en) | 2020-06-19 | 2022-11-01 | Micron Technology, Inc. | Surveillance camera upgrade via removable media having deep learning accelerator and random access memory |
US20220164611A1 (en) * | 2020-11-23 | 2022-05-26 | De-Risking Strategies, LLC | System and method for multi-sensor, multi-layer targeted labeling and user interfaces therefor |
WO2023196435A1 (en) * | 2022-04-05 | 2023-10-12 | Pasteur Labs, Inc. | Autonomous, world-building, lifelong learning agents and computing engines for general-purpose intelligence |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170032222A1 (en) | 2015-07-30 | 2017-02-02 | Xerox Corporation | Cross-trained convolutional neural networks using multimodal images |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06189048A (ja) * | 1992-09-14 | 1994-07-08 | Ricoh Co Ltd | 操作表示用制御装置、画像形成装置及び電源投入用制御装置 |
US7221483B2 (en) * | 2000-09-05 | 2007-05-22 | Ricoh Company, Ltd. | Image encoding method and apparatus, image decoding method and apparatus, image processing apparatus, image formation apparatus, and computer-executable programs |
US20050232512A1 (en) * | 2004-04-20 | 2005-10-20 | Max-Viz, Inc. | Neural net based processor for synthetic vision fusion |
US7483559B2 (en) * | 2004-08-13 | 2009-01-27 | Synopsys, Inc. | Method and apparatus for deblurring mask images |
EP2212160A4 (en) | 2007-11-26 | 2012-07-04 | Autoliv Dev | SYSTEM FOR CLASSIFYING OBJECTS NEAR A VEHICLE |
US8553989B1 (en) * | 2010-04-27 | 2013-10-08 | Hrl Laboratories, Llc | Three-dimensional (3D) object recognition system using region of interest geometric features |
CN102063716B (zh) * | 2011-01-13 | 2012-07-04 | 耿则勋 | 一种基于各向异性约束的多帧迭代盲解卷积图像复原方法 |
US9355334B1 (en) * | 2013-09-06 | 2016-05-31 | Toyota Jidosha Kabushiki Kaisha | Efficient layer-based object recognition |
US10417525B2 (en) | 2014-09-22 | 2019-09-17 | Samsung Electronics Co., Ltd. | Object recognition with reduced neural network weight precision |
KR101828314B1 (ko) | 2015-05-28 | 2018-03-02 | (주)에프엠커뮤니케이션즈 | 다중 객체 추적 시스템 및 그 방법 |
KR101657495B1 (ko) | 2015-09-04 | 2016-09-30 | (주)한국플랫폼서비스기술 | 딥러닝 분석을 위한 모듈화시스템 및 이를 이용한 영상 인식 방법 |
KR102147361B1 (ko) | 2015-09-18 | 2020-08-24 | 삼성전자주식회사 | 객체 인식 장치 및 방법, 객체 인식 모델 학습 장치 및 방법 |
CN106204449B (zh) * | 2016-07-06 | 2019-09-10 | 安徽工业大学 | 一种基于对称深度网络的单幅图像超分辨率重建方法 |
CN106502626A (zh) * | 2016-11-03 | 2017-03-15 | 北京百度网讯科技有限公司 | 数据处理方法和装置 |
TWI658720B (zh) * | 2016-12-30 | 2019-05-01 | 創研光電股份有限公司 | 運用變焦影像資訊以改善原視差影像匹配錯誤之方法 |
-
2017
- 2017-09-22 KR KR1020170122876A patent/KR102491546B1/ko active IP Right Grant
-
2018
- 2018-07-11 US US16/635,024 patent/US11170201B2/en active Active
- 2018-07-11 WO PCT/KR2018/007829 patent/WO2019059505A1/ko unknown
- 2018-07-11 EP EP18859460.0A patent/EP3648006A4/en active Pending
- 2018-07-11 CN CN201880061243.2A patent/CN111108514A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170032222A1 (en) | 2015-07-30 | 2017-02-02 | Xerox Corporation | Cross-trained convolutional neural networks using multimodal images |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11636670B2 (en) | 2018-12-28 | 2023-04-25 | Deepx Co., Ltd. | Method for recognizing object in image |
CN113557536B (zh) * | 2019-04-25 | 2024-05-31 | 欧姆龙株式会社 | 学习系统、数据生成装置、数据生成方法及存储介质 |
CN113557536A (zh) * | 2019-04-25 | 2021-10-26 | 欧姆龙株式会社 | 学习系统、数据生成装置、数据生成方法及数据生成程序 |
WO2020241951A1 (ko) * | 2019-05-31 | 2020-12-03 | 엘지전자 주식회사 | 인공지능 학습방법 및 이를 이용하는 로봇의 동작방법 |
US11610093B2 (en) | 2019-05-31 | 2023-03-21 | Lg Electronics Inc. | Artificial intelligence learning method and operating method of robot using the same |
WO2020246834A1 (ko) * | 2019-06-04 | 2020-12-10 | 주식회사 딥엑스 | 이미지 객체 인식 장치 및 방법 |
KR20210057848A (ko) * | 2019-11-12 | 2021-05-24 | 주식회사 이지스로직 | 딥 러닝 인공신경망 기반 영상 인식 방법 및 시스템 |
KR20210081852A (ko) * | 2019-12-24 | 2021-07-02 | 영남대학교 산학협력단 | 객체 검출 모델 학습 장치 및 방법 |
KR20200006028A (ko) * | 2019-12-30 | 2020-01-17 | 주식회사 고영테크놀러지 | 인쇄 회로 기판 검사 장치, 스크린 프린터의 결함 유형 결정 방법 및 컴퓨터 판독 가능한 기록 매체 |
WO2021201422A1 (ko) * | 2020-03-31 | 2021-10-07 | 한밭대학교 산학협력단 | Ar에 적용 가능한 의미적인 분할 방법 및 시스템 |
KR102167808B1 (ko) * | 2020-03-31 | 2020-10-20 | 한밭대학교 산학협력단 | Ar에 적용 가능한 의미적인 분할 방법 및 시스템 |
WO2022225374A3 (ko) * | 2021-04-22 | 2023-04-06 | 서울대학교산학협력단 | 비디오 신원 복원 모델을 이용한 얼굴 이미지 재구성 방법 및 장치 |
WO2023113187A1 (ko) * | 2021-12-13 | 2023-06-22 | 삼성전자 주식회사 | 획득된 정보에 기반하여 화면을 구성하기 위한 전자 장치 및 방법 |
KR102517469B1 (ko) * | 2021-12-31 | 2023-04-04 | 수퍼빈 주식회사 | 객체를 인식하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 |
Also Published As
Publication number | Publication date |
---|---|
US20200160034A1 (en) | 2020-05-21 |
WO2019059505A1 (ko) | 2019-03-28 |
US11170201B2 (en) | 2021-11-09 |
KR102491546B1 (ko) | 2023-01-26 |
EP3648006A1 (en) | 2020-05-06 |
EP3648006A4 (en) | 2020-07-29 |
CN111108514A (zh) | 2020-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102491546B1 (ko) | 객체를 인식하는 방법 및 장치 | |
KR102425578B1 (ko) | 객체를 인식하는 방법 및 장치 | |
KR102428920B1 (ko) | 전자 장치 및 그 동작 방법 | |
KR102255273B1 (ko) | 청소 공간의 지도 데이터를 생성하는 장치 및 방법 | |
US20220116340A1 (en) | Electronic device and method for changing chatbot | |
KR102473447B1 (ko) | 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법 | |
US11189278B2 (en) | Device and method for providing response message to user input | |
KR20180055708A (ko) | 이미지를 처리하는 전자 장치 및 방법 | |
KR102387305B1 (ko) | 멀티모달 데이터 학습 방법 및 장치 | |
KR20180074568A (ko) | 차선 정보를 추정하는 방법 및 전자 장치 | |
US20190163702A1 (en) | Image display apparatus and method of operating the same | |
US11106913B2 (en) | Method and electronic device for providing object recognition result | |
KR20190089628A (ko) | 복수 개의 전자 디바이스를 이용하여 신경망 모델을 처리하는 방법 및 시스템 | |
KR102449877B1 (ko) | 컨텐트를 제공하는 방법 및 단말기 | |
KR20190140519A (ko) | 전자 장치 및 그의 제어방법 | |
KR102574477B1 (ko) | 사운드 데이터를 변환하는 방법, 단말기 및 이를 위한 단말기 케이스 | |
KR20180072534A (ko) | 텍스트와 연관된 이미지 제공 방법 및 이를 위한 전자 장치 | |
KR102464906B1 (ko) | 패션 상품을 추천하는 전자 장치, 서버 및 그 동작 방법 | |
KR102440963B1 (ko) | 전자 장치, 이의 제어 방법 및 비일시적인 컴퓨터 판독가능 기록매체 | |
KR20190119205A (ko) | 전자 장치 및 그 제어 방법 | |
KR102697346B1 (ko) | 영상에서 오브젝트를 인식하는 전자 장치 및 그 동작 방법 | |
KR20200094839A (ko) | 사용자 입력에 대한 피드백 정보를 제공하는 전자 장치 및 그 동작 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |