KR101980360B1 - 컨볼루션 신경망을 이용한 객체 인식 장치 및 방법 - Google Patents

컨볼루션 신경망을 이용한 객체 인식 장치 및 방법 Download PDF

Info

Publication number
KR101980360B1
KR101980360B1 KR1020150125393A KR20150125393A KR101980360B1 KR 101980360 B1 KR101980360 B1 KR 101980360B1 KR 1020150125393 A KR1020150125393 A KR 1020150125393A KR 20150125393 A KR20150125393 A KR 20150125393A KR 101980360 B1 KR101980360 B1 KR 101980360B1
Authority
KR
South Korea
Prior art keywords
image
depth
neural network
depth image
convolutional neural
Prior art date
Application number
KR1020150125393A
Other languages
English (en)
Other versions
KR20170028591A (ko
Inventor
이영운
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020150125393A priority Critical patent/KR101980360B1/ko
Publication of KR20170028591A publication Critical patent/KR20170028591A/ko
Application granted granted Critical
Publication of KR101980360B1 publication Critical patent/KR101980360B1/ko

Links

Images

Classifications

    • G06K9/66
    • G06K9/4652
    • G06K9/6204
    • G06K9/6215

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 발명은 컨볼루션 신경망을 이용한 객체 인식 장치 및 방법에 관한 것이다. 본 발명에 따른 장치는, 색상 영상 및 깊이 영상을 획득하여 입력하는 영상 입력부, 상기 색상 영상 및 상기 깊이 영상의 합성 영상을 생성하고, 생성된 합성 영상의 해상도 및 노이즈를 보정하는 영상 처리부, 상기 깊이 영상의 깊이 값을 이용하여 해당 영상에 포함된 객체의 크기 정보를 추출하는 크기정보 추출부, 및 상기 영상 처리부에 의해 보정된 합성 영상 및 상기 크기정보 추출부에 의해 추출된 객체의 크기 정보를 컨볼루션 신경망에 적용하여 객체를 인식하는 객체 인식부를 포함한다.

Description

컨볼루션 신경망을 이용한 객체 인식 장치 및 방법{Apparatus and method for object recognition with convolution neural network}
본 발명은 컨볼루션 신경망을 이용한 객체 인식 장치 및 방법에 관한 것이다.
객체 인식 기술은 카메라로부터 들어오는 영상에서 특징점을 추출하고 분포를 분석하여 영상에 포함된 객체의 종류를 판별하는 기술이다. 객체 인식 기술의 대표적인 예로는 얼굴 인식, 사람 인식, 교통 신호 인식 등이 있다.
최근 컨볼루션 신경망(convolutional neural network)을 이용한 객체 인식 기술이 등장하여 기존 객체 인식 기술의 인식률을 뛰어 넘는 정확도를 보이고 있으며, 이로 인해 컨볼루션 신경망을 이용한 객체 인식 연구가 활발히 진행되고 있다.
하지만, 기존의 컨볼루션 신경망을 이용한 객체 인식 기술은 특징점 추출 단계에서 색상 영상과 깊이 영상을 동시에 고려하지 않기 때문에 객체의 영역을 정확히 구분하지 못하고, 객체의 크기 변화에 강인(scale-invariant)하지 못하였다.
국내공개특허 제10-2014-0104091호
본 발명의 목적은, 색상 영상과 깊이 영상을 동시에 컨볼루션 신경망을 적용해 통합된 특징점을 추출하여 객체의 영역을 명확히 구분하며, 깊이 정보를 통해 유추한 절대적인 크기 정보를 컨볼루션 신경망에 적용하여 크기 변화에 강인한 객체 인식을 할 수 있는 컨볼루션 신경망을 이용한 객체 인식 장치 및 방법을 제공함에 있다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재들로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기의 목적을 달성하기 위한 본 발명에 따른 컨볼루션 신경망을 이용한 객체 인식 장치는, 색상 영상 및 깊이 영상을 획득하여 입력하는 영상 입력부, 상기 색상 영상 및 상기 깊이 영상의 합성 영상을 생성하고, 생성된 합성 영상의 해상도를 보정하고 노이즈를 제거하는 영상 처리부, 상기 깊이 영상의 깊이 값을 이용하여 해당 영상에 포함된 객체의 크기 정보를 추출하는 크기정보 추출부, 및 상기 영상 처리부에 의해 보정된 합성 영상 및 상기 크기정보 추출부에 의해 추출된 객체의 크기 정보를 컨볼루션 신경망에 적용하여 객체를 인식하는 객체 인식부를 포함할 수 있다.
상기 영상 처리부는, 상기 깊이 영상의 값을 이용하여 깊이 영상의 픽셀에 대응되는 색상 영상의 픽셀을 매핑하여 합성 영상을 생성하고, 합성 영상에서 색상 영상과 깊이 영상이 매핑되지 않는 영역을 잘라냄으로써 합성 영상의 해상도를 보정한다.
상기 영상 처리부는, 마르코프 랜덤 필드(Markov Random Field, MRF), 시공간 필터(Spatiotemporal filter) 및 에지를 보존하는 양방향 필터(Bilateral filter) 중 적어도 하나를 이용하여 깊이 영상을 업샘플링(upsampling)하여 깊이 영상의 해상도를 높이도록 한다.
상기 영상 처리부는, 양방향 필터 및 중간값 필터(Median filter) 중 적어도 하나를 이용하여 깊이 영상의 노이즈를 제거한다.
상기 객체 인식부의 컨볼루션 신경망은, 원영상으로부터 추출된 코너 특징점을 추적함으로써 카메라의 움직임(Ego-motion)을 예측하고, 다른 움직임의 성분을 갖는 객체의 영역을 관심 영역(Region of interest, ROI)으로 설정하는 특징점 추출기; 및 다중 계층 신경망으로 구성되어, 상기 설정된 ROI에 포함된 객체를 분류하는 신경망 분류기를 포함한다.
한편, 상기의 목적을 달성하기 위한 본 발명에 따른 컨볼루션 신경망을 이용한 객체 인식 방법은, 색상 영상 및 깊이 영상을 획득하여 입력하는 단계, 상기 색상 영상 및 상기 깊이 영상의 합성 영상을 생성하고, 생성된 합성 영상의 해상도를 보정하고 노이즈를 제거하는 단계, 상기 깊이 영상의 깊이 값을 이용하여 해당 영상에 포함된 객체의 크기 정보를 추출하는 단계, 및 상기 보정된 합성 영상 및 상기 추출된 객체의 크기 정보를 컨볼루션 신경망에 적용하여 객체를 인식하는 단계를 포함할 수 있다.
상기 합성 영상의 해상도를 보정하고 노이즈를 제거하는 단계는, 상기 깊이 영상의 값을 이용하여 깊이 영상의 픽셀에 대응되는 색상 영상의 픽셀을 매핑하여 합성 영상을 생성하고, 합성 영상에서 색상 영상과 깊이 영상이 매핑되지 않는 영역을 잘라냄으로써 합성 영상의 해상도를 보정하는 단계를 포함한다.
상기 합성 영상의 해상도를 보정하고 노이즈를 제거하는 단계는, 마르코프 랜덤 필드(Markov Random Field, MRF), 시공간 필터(Spatiotemporal filter) 및 에지를 보존하는 양방향 필터(Bilateral filter) 중 적어도 하나를 이용하여 깊이 영상을 업샘플링(upsampling)하여 깊이 영상의 해상도를 높이도록 한다.
상기 합성 영상의 해상도를 보정하고 노이즈를 제거하는 단계는, 양방향 필터 및 중간값 필터(Median filter) 중 적어도 하나를 이용하여 깊이 영상의 노이즈를 제거한다.
상기 객체를 인식하는 단계는, 특징점 추출기를 이용하여 원영상으로부터 추출된 코너 특징점을 추적함으로써 카메라의 움직임(Ego-motion)을 예측하고, 다른 움직임의 성분을 갖는 객체의 영역을 관심 영역(Region of interest, ROI)으로 설정하는 단계; 및 다중 계층 신경망으로 구성된 신경망 분류기를 이용하여 상기 설정된 ROI에 포함된 객체를 분류하는 단계를 포함한다.
본 발명에 따르면, 카메라로 입력되는 색상 영상과 깊이 영상의 합성 영상과 영상에 포함된 객체의 크기 정보를 컨볼루션 신경망에 적용하여 객체를 인식함으로써 해당 객체의 크기 변화를 반영하여 객체의 영역을 명확하게 인식할 수 있는 이점이 있다.
도 1은 본 발명에 따른 컨볼루션 신경망을 이용한 객체 인식 장치의 구성을 도시한 도면이다.
도 2는 본 발명에 따른 컨볼루션 신경망을 이용한 객체 인식 장치에 의해 생성된 합성 영상의 실시예를 도시한 도면이다.
도 3 및 도 4는 본 발명에 따른 컨볼루션 신경망을 이용한 객체 인식 방법에 대한 동작 흐름을 도시한 도면이다.
도 5는 본 발명에 따른 장치가 적용된 컴퓨팅 시스템을 도시한 도면이다.
이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.
본 발명의 실시예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
도 1은 본 발명에 따른 컨볼루션 신경망을 이용한 객체 인식 장치의 구성을 도시한 도면이다.
도 1을 참조하면, 본 발명에 따른 컨볼루션 신경망을 이용한 객체 인식 장치(이하에서는 '객체 인식 장치'라 칭한다.)(100)는 제어부(110), 영상 입력부(120), 입력부(130), 출력부(140), 통신부(150), 저장부(160), 영상 처리부(170), 크기정보 추출부(180) 및 객체 인식부(190)를 포함할 수 있다. 여기서, 제어부(110)는 객체 인식 장치(100)의 각 부간에 전달되는 신호를 처리할 수 있다.
영상 입력부(120)는 색상 영상 및 깊이 영상을 촬영하여 제공하는 카메라가 해당될 수 있다. 여기서, 카메라는 깊이 센서를 별도로 구비할 수 있으며, 색상 영상으로부터 깊이 영상을 획득하는 RGB 영상 센서를 구비할 수도 있다. 일 예로, 영상 입력부(120)는 RGB 영상 센서로부터 RGB 영상과 깊이 영상을 실시간으로 획득하는 키넥트(Kinect)가 해당 될 수 있다.
영상 입력부(120)에 의해 획득된 색상 영상 및 깊이 영상은 제어부(110)를 통해 영상 처리부(170), 크기정보 추출부(180) 등으로 전달될 수 있다.
입력부(130)는 제어 명령을 입력 받는 수단으로, 객체 인식 장치(100) 외부에 구현되는 키 버튼이 해당 될 수 있으며, 객체 인식 장치(100)에 구현된 디스플레이 상에 구현되는 소프트 키가 해당 될 수도 있다. 또한, 입력부(130)는 마우스, 조이스틱, 조그 셔틀, 스타일러스 펜과 같은 형태의 입력 수단일 수도 있다.
출력부(140)는 객체 인식 장치(100)의 동작 상태 및 객체 인식 결과 등이 표시되는 디스플레이를 포함할 수 있으며, 음성 신호를 출력하는 스피커를 포함할 수 있다.
여기서, 디스플레이는 터치 동작을 감지하는 센서가 구비되는 경우, 출력 장치 이외에도 입력 장치로도 사용될 수 있다. 즉, 터치 필름, 터치 시트, 터치 패드 등의 터치 센서가 디스플레이에 구비되는 경우, 디스플레이는 터치 스크린으로 동작하며, 입력부(130)와 출력부(140)가 통합된 형태로 구현될 수 있다.
이때, 디스플레이는 액정 디스플레이(Liquid Crystal Display, LCD), 박막 트랜지스터 액정 디스플레이(Thin Film Transistor-Liquid Crystal Display, TFT LCD), 유기 발광 다이오드(Organic Light-Emitting Diode, OLED), 플렉시블 디스플레이(Flexible Display), 전계 방출 디스플레이(Feld Emission Display, FED), 3차원 디스플레이(3D Display) 중에서 적어도 하나를 포함할 수 있다.
통신부(150)는 원격지에 구현된 카메라와의 통신을 지원하는 통신모듈을 포함할 수 있다. 또한, 통신부(150)는 서버 또는 서버에 구현된 데이터베이스로의 접근을 지원하는 통신모듈을 포함할 수 있다.
통신모듈은 무선 인터넷 접속, 근거리 통신(Short Range Communication) 또는 유선 통신을 지원할 수 있다. 여기서, 무선 인터넷 기술로는 무선랜(Wireless LAN, WLAN), 와이브로(Wireless Broadband, Wibro), 와이 파이(Wi-Fi), 와이맥스(World Interoperability for Microwave Access, Wimax), HSDPA(High Speed Downlink Packet Access) 등이 포함될 수 있고, 또한 근거리 통신 기술로는 블루투스(Bluetooth), 지그비(ZigBee), UWB(Ultra Wideband), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association, IrDA) 등이 포함될 수 있다. 또한, 유선 통신 기술은 USB(Universal Serial Bus) 통신 등을 포함할 수 있다.
저장부(160)는 객체 인식 장치(100)가 동작하는데 필요한 데이터와 프로그램 등을 저장할 수 있다. 일 예로, 저장부(160)는 객체 인식 장치(100)에서 영상 처리, 크기정보 추출 및 객체 인식을 위한 설정값이 저장될 수 있으며, 각 기능을 수행하는 알고리즘이 저장될 수 있다. 또한, 저장부(160)는 객체 인식 장치(100)의 동작 수행을 위한 명령 등이 저장될 수도 있다.
또한, 저장부(160)는 영상 처리, 크기정보 추출 및 객체 인식을 위해 참조되는 파라메터 정보 및 그에 대응하는 파라메터 값이 저장될 수 있다.
여기서, 저장부(160)는 플래시 메모리 타입(Flash Memory Type), 하드 디스크 타입(Hard Disk Type), 멀티미디어 카드 마이크로 타입(Multimedia Card Micro Type), 카드 타입의 메모리(예를 들면, SD 또는 XD 메모리 등), 자기 메모리, 자기 디스크, 광디스크, 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), PROM(Programmable Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory) 중 적어도 하나의 저장매체를 포함할 수 있다.
영상 처리부(170)는 영상 입력부(120)에 의해 획득된 색상 영상 및 깊이 영상의 합성 영상을 생성한다. 이때, 영상 처리부(170)는 색상 영상과 깊이 영상의 픽셀을 매핑하는 것으로써 합성 영상을 생성할 수 있다. 일 예로, 영상 처리부(170)는 깊이 영상의 값을 이용하여 깊이 영상의 픽셀에 대응되는 색상 영상의 픽셀을 매핑할 수 있다.
또한, 영상 처리부(170)는 색상 영상과 깊이 영상에 대한 합성 영상을 보정하도록 한다. 이때, 영상 처리부(170)는 합성 영상의 해상도를 보정할 수 있으며, 노이즈를 제거할 수 있다.
여기서, 영상 처리부(170)는 합성 영상에서 색상 영상과 깊이 영상이 매핑되지 않는 영역을 잘라냄으로써 합성 영상의 해상도를 보정할 수 있다.
한편, 깊이 영상은 색상 영상에 비해 해상도가 낮다. 따라서, 영상 처리부(170)는 깊이 영상의 해상도를 높임으로써 합성 영상의 해상도를 보정할 수 있다. 일 예로, 영상 처리부(170)는 마르코프 랜덤 필드(Markov Random Field, MRF), 시공간 필터(Spatiotemporal filter) 및 에지를 보존하는 양방향 필터(Bilateral filter) 등을 이용하여 깊이 영상을 업샘플링(upsampling)하는 것으로써 깊이 영상의 해상도를 높일 수 있다.
영상 처리부(170)는 색상 영상 정보를 이용하여 깊이 영상의 노이즈를 제거할 수 있다. 일 예로, 영상 처리부(170)는 양방향 필터 및 중간값 필터(Median filter) 등을 이용하여 깊이 영상의 노이즈를 제거할 수 있다. 또한, 영상 처리부(170)는 색상 영상 정보를 이용하여 깊이 영상에서 깊이 정보가 입력되지 않은 홀의 깊이 값을 추정할 수 있다. 여기서, 영상 처리부(170)는 깊이 정보가 입력되지 않은 홀의 주변 색상 정보로부터 깊이 정보를 선형 보간(linear interpolation)하여 해당 홀의 깊이 값을 추정할 수 있다.
이와 같이, 영상 처리부(170)는 합성 영상에 대해 해상도를 보정하고 노이즈를 제거함으로써 보정된 합성 영상을 생성할 수 있다. 영상 처리부(170)에 의해 생성된 보정된 합성 영상은 크기정보 추출부(180) 및 객체 인식부(190) 등으로 전달될 수 있다.
크기정보 추출부(180)는 깊이 영상의 깊이 값을 이용하여 각 픽셀 또는 영역의 크기 정보를 추출한다. 여기서, 크기정보 추출부(180)는 깊이 영상의 깊이 값을 이용하여 각 픽셀 또는 영역의 길이, 각도, 높이 등의 정보를 추출할 수 있다.
일 예로, 크기정보 추출부(180)는 아래 [수학식 1]을 이용하여 영상에 포함된 물체의 길이 정보를 추출할 수 있다.
Figure 112015086158996-pat00001
[수학식 1]에서, s는 깊이 영상에 포함된 특정 객체의 실제 길이, d1은 해당 객체가 위치한 픽셀 또는 영역의 깊이 값, 그리고 s1은 깊이 영상 상에서의 특정 객체의 길이를 의미한다.
따라서, 크기정보 추출부(180)는 [수학식 1]을 통해 깊이 영상에 포함된 객체의 길이 정보를 추출하고, 추출된 길이 정보를 객체 인식부(190)로 전달하도록 한다.
객체 인식부(190)는 영상 처리부(170)로부터 전달된 보정된 합성 영상과, 크기정보 추출부(180)로부터 전달된 크기정보, 및 컨볼루션 신경망(Convolutional neural network)을 이용하여 합성 영상에 포함된 객체를 인식한다.
여기서, 컨볼루션 신경망은 입력 영상의 특징점을 추출하는 특징점 추출기와 신경망 분류기로 구성된다. 특징점 추출기는 연속된 컨볼루션(Convolution)과 간축(Sub sampling) 과정으로 정의될 수 있다. 특징점 추출기는 원영상으로부터 추출된 코너 특징점을 추적함으로써 카메라의 움직임(Ego-motion)을 예측 할 수 있으며, 이와 다른 움직임의 성분을 갖는 객체의 영역을 관심 영역(Region of interest, ROI)으로 설정한다. 신경망 분류기는 다중 계층 신경망으로 구성되어, 설정된 ROI에 포함된 객체를 분류하도록 한다.
이때, 컨볼루션 신경망은 저장부(160)에 포함된 데이터베이스 또는 외부의 서버로부터 수신한 데이터베이스로부터 컨볼루션 신경망의 변수들을 미리 학습할 수 있으며, 학습된 컨볼루션 신경망의 변수들을 토대로 객체를 인식할 수 있다. 여기서, 데이터베이스는 미리 구비된 합성 영상과 정답(Ground truth)을 포함할 수 있다.
이에, 객체 인식부(190)는 보정된 합성 영상과, 객체의 크기 정보를 컨볼루션 신경망에 적용하여 객체를 인식할 수 있다.
일 예로, 객체 인식부(190)는 보정된 합성 영상과 객체의 크기 정보를 이용하여 합성 영상에 포함된 객체가 카메라로부터 가까운 거리에 위치하고 있어 절대적인 크기에 비해 합성 영상 상에서 차지하는 비중이 큰 것을 인식할 수 있다. 이 경우, 객체 인식부(190)는 합성 영상에서 색상 영상 값을 감소시켜 컨볼루션 신경망에 적용되는 해당 영역의 비중을 줄이고 객체를 인식할 수 있다.
다른 예로, 객체 인식부(190)는 보정된 합성 영상과 객체의 크기 정보를 이용하여 합성 영상에 포함된 객체가 카메라로부터 먼 거리에 위치하고 있어 절대적인 크기에 비해 합성 영상 상에서 차지하는 비중이 작은 것을 인식할 수 있다. 이 경우, 객체 인식부(190)는 합성 영상에서 색상 영상 값을 증가시키거나 해당 객체의 영역을 확대하여 컨볼루션 신경망에 적용되는 해당 영역의 비중을 높이고 객체를 인식할 수 있다.
객체 인식부(190)에 의한 객체 인식 결과는 도 2와 같이 나타낼 수 있다.
이와 같이, 객체 인식부(190)는 색상 영상의 정보와 깊이 영상의 정보를 동시에 컨볼루션 신경망에 적용함으로써 해당 객체의 크기 변화를 반영하여 객체의 영역을 명확하게 인식하는 것이 가능하게 된다.
상기와 같이 구성되는 본 발명에 따른 제어 장치의 동작 흐름을 보다 상세히 설명하면 다음과 같다.
도 3 및 도 4는 본 발명에 따른 컨볼루션 신경망을 이용한 객체 인식 방법에 대한 동작 흐름을 도시한 도면이다.
도 3 및 도 4를 참조하면, 객체 인식 장치는 카메라와 같은 영상 입력 수단으로부터 색상 영상 및 깊이 영상이 입력되면(S110), 입력된 색상 영상 및 깊이 영상의 합성 영상을 생성한다(S120). 'S120' 과정에서, 객체 인식 장치는 깊이 영상의 값을 이용하여 깊이 영상의 픽셀에 대응되는 색상 영상의 픽셀을 매핑하여 합성 영상을 생성할 수 있다.
또한, 객체 인식 장치는 합성 영상을 보정하도록 한다(S130). 'S130' 과정에서 객체 인식 장치는 도 4에서와 같이, 합성 영상의 해상도를 보정하고(S131), 노이즈를 제거할 수 있다(S135).
'S131' 과정에서, 객체 인식 장치는 합성 영상에서 색상 영상과 깊이 영상이 매핑되지 않는 영역을 잘라내거나, 깊이 영상을 업샘플링하여 해상도를 높임으로써 합성 영상의 해상도를 보정할 수 있다. 또한, 'S135' 과정에서, 객체 인식 장치는 색상 영상 정보를 이용하여 깊이 영상에서 깊이 정보가 입력되지 않은 홀의 깊이 값을 추정함으로써 합성 영상의 노이즈를 제거할 수 있다.
이후, 객체 인식 장치는 깊이 영상의 깊이 값을 이용하여 영상 내 객체의 크기 정보를 추출한다(S140).
객체 인식 장치는 'S130' 과정에서 보정된 합성 영상과, 'S140' 과정에서 추출된 객체의 크기 정보를 컨볼루션 신경망에 적용하여(S150), 객체를 인식하도록 한다(S160).
객체 인식 장치는 보정된 합성 영상과 객체의 크기 정보를 동시에 컨볼루션 신경망에 적용함으로써 해당 객체의 크기 변화를 반영하여 객체의 영역을 명확하게 인식할 수 있게 된다.
도 5는 본 발명에 따른 장치가 적용된 컴퓨팅 시스템을 도시한 도면이다.
도 5를 참조하면, 컴퓨팅 시스템(1000)은 버스(1200)를 통해 연결되는 적어도 하나의 프로세서(1100), 메모리(1300), 사용자 인터페이스 입력 장치(1400), 사용자 인터페이스 출력 장치(1500), 스토리지(1600), 및 네트워크 인터페이스(1700)를 포함할 수 있다.
프로세서(1100)는 중앙 처리 장치(CPU) 또는 메모리(1300) 및/또는 스토리지(1600)에 저장된 명령어들에 대한 처리를 실행하는 반도체 장치일 수 있다. 메모리(1300) 및 스토리지(1600)는 다양한 종류의 휘발성 또는 불휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(1300)는 ROM(Read Only Memory) 및 RAM(Random Access Memory)을 포함할 수 있다.
따라서, 본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서(1100)에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리(1300) 및/또는 스토리지(1600))에 상주할 수도 있다. 예시적인 저장 매체는 프로세서(1100)에 커플링되며, 그 프로세서(1100)는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서(1100)와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 객체 인식 장치기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 객체 인식 장치기 내에 개별 컴포넌트로서 상주할 수도 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.
따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 객체 인식 장치 110: 제어부
120: 영상 입력부 130: 입력부
140: 출력부 150: 통신부
160: 저장부 170: 영상 처리부
180: 크기정보 추출부 190: 객체 인식부

Claims (10)

  1. 색상 영상 및 깊이 영상을 획득하여 입력하는 영상 입력부;
    상기 색상 영상 및 상기 깊이 영상의 합성 영상을 생성하고, 생성된 합성 영상의 해상도를 보정하며 노이즈를 제거하는 영상 처리부;
    상기 깊이 영상의 깊이 값을 이용하여 해당 깊이 영상에 포함된 객체의 크기 정보를 추출하는 크기정보 추출부; 및
    상기 영상 처리부에 의해 보정된 합성 영상 및 상기 크기정보 추출부에 의해 추출된 객체의 크기 정보를 컨볼루션 신경망에 적용하여 객체를 인식하는 객체 인식부를 포함하되,
    상기 영상 처리부는 상기 깊이 영상을 업샘플링(upsampling)하여 깊이 영상의 해상도를 높이도록 하는 것인 컨볼루션 신경망을 이용한 객체 인식 장치.
  2. 제1항에 있어서,
    상기 영상 처리부는,
    상기 깊이 영상의 깊이값을 이용하여 깊이 영상의 픽셀에 대응되는 색상 영상의 픽셀을 매핑하여 합성 영상을 생성하고, 합성 영상에서 색상 영상과 깊이 영상이 매핑되지 않는 영역을 잘라냄으로써 합성 영상의 해상도를 보정하는 것인 컨볼루션 신경망을 이용한 객체 인식 장치.
  3. 제2항에 있어서,
    상기 영상 처리부는,
    마르코프 랜덤 필드(Markov Random Field, MRF), 시공간 필터(Spatiotemporal filter) 및 에지를 보존하는 양방향 필터(Bilateral filter) 중 적어도 하나를 이용하여 깊이 영상을 업샘플링(upsampling)하여 상기 깊이 영상의 해상도를 높이도록 하는 것인 컨볼루션 신경망을 이용한 객체 인식 장치.
  4. 제2항에 있어서,
    상기 영상 처리부는,
    양방향 필터 및 중간값 필터(Median filter) 중 적어도 하나를 이용하여 깊이 영상의 노이즈를 제거하는 것인 컨볼루션 신경망을 이용한 객체 인식 장치.
  5. 제1항에 있어서,
    상기 객체 인식부의 컨볼루션 신경망은,
    원영상으로부터 추출된 코너 특징점을 추적함으로써 카메라의 움직임(Ego-motion)을 예측하고, 상기 카메라의 움직임과 다른 움직임의 성분을 갖는 객체의 영역을 관심 영역(Region of interest, ROI)으로 설정하는 특징점 추출기; 및
    다중 계층 신경망으로 구성되어, 상기 설정된 ROI에 포함된 객체를 분류하는 신경망 분류기를 포함하는 것인 컨볼루션 신경망을 이용한 객체 인식 장치.
  6. 컨볼루션 신경망을 이용한 객체 인식 장치에 의해 수행되는 객체 인식 방법에 있어서,
    색상 영상 및 깊이 영상을 획득하여 입력하는 단계;
    상기 색상 영상 및 상기 깊이 영상의 합성 영상을 생성하고, 생성된 합성 영상의 해상도를 보정하고 노이즈를 제거하는 단계;
    상기 깊이 영상의 깊이 값을 이용하여 해당 깊이 영상에 포함된 객체의 크기 정보를 추출하는 단계; 및
    상기 보정된 합성 영상 및 상기 추출된 객체의 크기 정보를 컨볼루션 신경망에 적용하여 객체를 인식하는 단계를 포함하되,
    상기 합성 영상의 해상도를 보정하고 노이즈를 제거하는 단계는 상기 깊이 영상을 업샘플링(upsampling)하여 깊이 영상의 해상도를 높이는 것인 컨볼루션 신경망을 이용한 객체 인식 방법.
  7. 제6항에 있어서,
    상기 합성 영상의 해상도를 보정하고 노이즈를 제거하는 단계는,
    상기 깊이 영상의 깊이값을 이용하여 깊이 영상의 픽셀에 대응되는 색상 영상의 픽셀을 매핑하여 합성 영상을 생성하고, 합성 영상에서 색상 영상과 깊이 영상이 매핑되지 않는 영역을 잘라냄으로써 합성 영상의 해상도를 보정하는 단계를 포함하는 것인 컨볼루션 신경망을 이용한 객체 인식 방법.
  8. 제7항에 있어서,
    상기 합성 영상의 해상도를 보정하고 노이즈를 제거하는 단계는,
    마르코프 랜덤 필드(Markov Random Field, MRF), 시공간 필터(Spatiotemporal filter) 및 에지를 보존하는 양방향 필터(Bilateral filter) 중 적어도 하나를 이용하여 상기 깊이 영상을 업샘플링(upsampling)하여 깊이 영상의 해상도를 높이는 것인 컨볼루션 신경망을 이용한 객체 인식 방법.
  9. 제7항에 있어서,
    상기 합성 영상의 해상도를 보정하고 노이즈를 제거하는 단계는,
    양방향 필터 및 중간값 필터(Median filter) 중 적어도 하나를 이용하여 깊이 영상의 노이즈를 제거하는 것인 컨볼루션 신경망을 이용한 객체 인식 방법.
  10. 제6항에 있어서,
    상기 객체를 인식하는 단계는,
    특징점 추출기를 이용하여 원영상으로부터 추출된 코너 특징점을 추적함으로써 카메라의 움직임(Ego-motion)을 예측하고, 상기 카메라의 움직임과 다른 움직임의 성분을 갖는 객체의 영역을 관심 영역(Region of interest, ROI)으로 설정하는 단계; 및
    다중 계층 신경망으로 구성된 신경망 분류기를 이용하여 상기 설정된 ROI에 포함된 객체를 분류하는 단계를 포함하는 것인 컨볼루션 신경망을 이용한 객체 인식 방법.
KR1020150125393A 2015-09-04 2015-09-04 컨볼루션 신경망을 이용한 객체 인식 장치 및 방법 KR101980360B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150125393A KR101980360B1 (ko) 2015-09-04 2015-09-04 컨볼루션 신경망을 이용한 객체 인식 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150125393A KR101980360B1 (ko) 2015-09-04 2015-09-04 컨볼루션 신경망을 이용한 객체 인식 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20170028591A KR20170028591A (ko) 2017-03-14
KR101980360B1 true KR101980360B1 (ko) 2019-08-28

Family

ID=58460101

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150125393A KR101980360B1 (ko) 2015-09-04 2015-09-04 컨볼루션 신경망을 이용한 객체 인식 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101980360B1 (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11551335B2 (en) * 2017-04-07 2023-01-10 Intel Corporation Methods and systems using camera devices for deep channel and convolutional neural network images and formats
WO2019083336A1 (ko) * 2017-10-27 2019-05-02 전북대학교산학협력단 신경회로망 학습에 의한 작물과 잡초 식별 방법 및 장치
KR102069675B1 (ko) * 2017-12-13 2020-01-28 동국대학교 산학협력단 로스팅 완료 시간 예측 장치 및 이의 동작 방법
KR102045533B1 (ko) 2018-01-31 2019-11-18 전남대학교산학협력단 심층 네트워크를 이용한 악보인식 시스템 및 그 방법
KR102524220B1 (ko) * 2018-04-26 2023-04-24 한국전자통신연구원 신경망 학습에 기반한 적층형 다종 영상 객체 보호 장치, 시스템 및 방법
KR102213600B1 (ko) * 2018-08-28 2021-02-05 포항공과대학교 산학협력단 Cnn을 이용하여 크기 독립적으로 물체를 검출하는 방법 및 장치
KR102164950B1 (ko) * 2018-10-26 2020-10-13 계명대학교 산학협력단 교사-학생 랜덤 펀을 이용한 다수의 보행자 추적 방법 및 시스템
KR20200142883A (ko) 2019-06-13 2020-12-23 엘지이노텍 주식회사 카메라 장치 및 카메라 장치의 이미지 생성 방법
KR20210009458A (ko) 2019-07-16 2021-01-27 삼성전자주식회사 객체 검출 방법 및 객체 검출 장치
KR102300864B1 (ko) * 2019-10-29 2021-09-10 오토아이티(주) 색상 및 온도 정보 기반의 객체 검출 장치 및 방법
CN112115913B (zh) * 2020-09-28 2023-08-25 杭州海康威视数字技术股份有限公司 图像处理方法、装置及设备、存储介质
KR20220053988A (ko) 2020-10-23 2022-05-02 한국전자통신연구원 확장 가능한 심층신경망 기반 고속 관심 객체 검출 장치 및 그 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101476799B1 (ko) 2013-07-10 2014-12-26 숭실대학교산학협력단 깊이 정보를 이용한 객체 검출 시스템 및 방법

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120052610A (ko) * 2010-11-16 2012-05-24 삼성전자주식회사 신경망 학습을 통한 동작 인식 방법 및 장치
KR102086509B1 (ko) * 2012-11-23 2020-03-09 엘지전자 주식회사 3차원 영상 획득 방법 및 장치
KR101994319B1 (ko) 2013-02-20 2019-06-28 삼성전자주식회사 깊이 영상을 이용하는 객체 인식 장치 및 그 장치를 이용한 방법
KR101486543B1 (ko) * 2013-05-31 2015-01-26 한국과학기술원 3차원 객체 인식을 위한 rgb-d 영상 기반 객체 구역화 및 인식 방법 및 장치
KR102103984B1 (ko) * 2013-07-15 2020-04-23 삼성전자주식회사 깊이 영상 처리 방법 및 장치
KR101515597B1 (ko) * 2013-07-18 2015-04-27 주식회사 에스원 3차원 영상 정보를 이용한 감지 방법 및 장치
KR102106135B1 (ko) * 2013-10-01 2020-05-04 한국전자통신연구원 행동 인식 기반의 응용 서비스 제공 장치 및 그 방법
KR102113812B1 (ko) * 2014-09-19 2020-05-22 한국전자통신연구원 Rgb-d 영상을 이용한 실감형 증강현실 구현 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101476799B1 (ko) 2013-07-10 2014-12-26 숭실대학교산학협력단 깊이 정보를 이용한 객체 검출 시스템 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
장영균 외 1명, "RGB-D 영상 기반 다수 객체 구역화 및 인식 : 다수 객체 구역화를 위한 사용자 참여형 깊이 영상 군집화와 컬러 영상 기반 다수 객체 인식", 한국HCI학회 학술대회, pp. 4-7, 2013년 1월.

Also Published As

Publication number Publication date
KR20170028591A (ko) 2017-03-14

Similar Documents

Publication Publication Date Title
KR101980360B1 (ko) 컨볼루션 신경망을 이용한 객체 인식 장치 및 방법
EP3152706B1 (en) Image capturing parameter adjustment in preview mode
US20230117712A1 (en) Feature density object classification, systems and methods
KR102117050B1 (ko) 이미지 내 휴먼 분리를 위한 전자 장치 및 방법
US10482681B2 (en) Recognition-based object segmentation of a 3-dimensional image
US9349039B2 (en) Gesture recognition device and control method for the same
US9928439B2 (en) Facilitating text identification and editing in images
US20160154469A1 (en) Mid-air gesture input method and apparatus
US10839537B2 (en) Depth maps generated from a single sensor
US10122912B2 (en) Device and method for detecting regions in an image
US9400924B2 (en) Object recognition method and object recognition apparatus using the same
US11462040B2 (en) Distractor classifier
US10163212B2 (en) Video processing system and method for deformation insensitive tracking of objects in a sequence of image frames
WO2014184372A1 (en) Image capture using client device
KR20210069686A (ko) 사용자 지정 초기화 포인트에 기반한 개체 추적
US9767533B2 (en) Image resolution enhancement based on data from related images
CN110717060B (zh) 图像mask的过滤方法、装置及存储介质
US20150112853A1 (en) Online loan application using image capture at a client device
US10963678B2 (en) Face recognition apparatus and face recognition method
JP6655513B2 (ja) 姿勢推定システム、姿勢推定装置、及び距離画像カメラ
JP6828333B2 (ja) 画像処理装置及び画像処理プログラム
US9697608B1 (en) Approaches for scene-based object tracking
JP2011175347A (ja) 情報処理装置および情報処理方法
WO2023283934A1 (en) Devices and methods for gesture-based selection

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant