KR20170034226A - 객체 인식 장치 및 방법, 객체 인식 모델 학습 장치 및 방법 - Google Patents

객체 인식 장치 및 방법, 객체 인식 모델 학습 장치 및 방법 Download PDF

Info

Publication number
KR20170034226A
KR20170034226A KR1020150132625A KR20150132625A KR20170034226A KR 20170034226 A KR20170034226 A KR 20170034226A KR 1020150132625 A KR1020150132625 A KR 1020150132625A KR 20150132625 A KR20150132625 A KR 20150132625A KR 20170034226 A KR20170034226 A KR 20170034226A
Authority
KR
South Korea
Prior art keywords
pixel
adjacent
function
labeling
adjacent pixel
Prior art date
Application number
KR1020150132625A
Other languages
English (en)
Other versions
KR102147361B1 (ko
Inventor
김창현
문태섭
이동화
최현진
최기환
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020150132625A priority Critical patent/KR102147361B1/ko
Priority to US15/266,231 priority patent/US10133938B2/en
Publication of KR20170034226A publication Critical patent/KR20170034226A/ko
Application granted granted Critical
Publication of KR102147361B1 publication Critical patent/KR102147361B1/ko

Links

Images

Classifications

    • G06K9/6202
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60CVEHICLE TYRES; TYRE INFLATION; TYRE CHANGING; CONNECTING VALVES TO INFLATABLE ELASTIC BODIES IN GENERAL; DEVICES OR ARRANGEMENTS RELATED TO TYRES
    • B60C9/00Reinforcements or ply arrangement of pneumatic tyres
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60QARRANGEMENT OF SIGNALLING OR LIGHTING DEVICES, THE MOUNTING OR SUPPORTING THEREOF OR CIRCUITS THEREFOR, FOR VEHICLES IN GENERAL
    • B60Q9/00Arrangement or adaptation of signal devices not provided for in one of main groups B60Q1/00 - B60Q7/00, e.g. haptic signalling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • G06K9/6218
    • G06K9/6276
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Mechanical Engineering (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

인공 신경망을 이용한 객체 인식과 관련된 기술로, 일 양상에 따른 객체 인식 장치는 이미지 프레임 내의 각각의 픽셀들에 대하여, 제1 픽셀 및 제1 픽셀에 인접한 하나 이상의 제2 픽셀을 포함하는 인접 픽셀 쌍을 설정하는 인접 픽셀 설정부, 심층 신경망 기반의 모델을 이용하여 제1 픽셀을 레이블링(labeling)하되, 인접 픽셀 쌍의 확률 밀도 함수 값을 고려하여 제1 픽셀을 레이블링하는 픽셀 레이블링부, 레이블링된 제1 픽셀들을 기초로 객체를 인식하는 객체 인식부를 포함할 수 있다.

Description

객체 인식 장치 및 방법, 객체 인식 모델 학습 장치 및 방법{Method and apparatus of object recognition, Method and apparatus of learning for object recognition}
인공 신경망을 이용한 객체 인식과 관련된 기술이다.
객체를 인식하기 위한 일반적인 기술은, 카메라 센서로부터 RGB 데이터를 받아 일반적인 수공예적 특징(Handcrafted feature)을 추출하여 이미지 처리를 하는 기술이 있다. 다만, 카메라로부터 들어오는 이미지 데이터로부터 추출한 수공예적 특징에만 의존하는 경우, 인식 정확도 측면에서 날씨/조도의 변화에 취약할 수 있고, 다양한 상황(비포장도로, 도시 혼잡구간 등)에서의 객체 인식이 어려울 수 있다.
각각의 픽셀에 인접한 주변 픽셀들을 고려하고, 심층 신경망 기반의 모델을 이용하여 객체를 인식하는 기술을 제안한다.
일 양상에 따른 객체 인식 장치는 이미지 프레임 내의 각각의 픽셀들에 대하여, 제1 픽셀 및 제1 픽셀에 인접한 하나 이상의 제2 픽셀을 포함하는 인접 픽셀 쌍을 설정하는 인접 픽셀 설정부, 심층 신경망 기반의 모델을 이용하여 제1 픽셀을 레이블링(labeling)하되, 인접 픽셀 쌍의 확률 밀도 함수 값을 고려하여 제1 픽셀을 레이블링하는 픽셀 레이블링부, 레이블링된 제1 픽셀들을 기초로 객체를 인식하는 객체 인식부를 포함할 수 있다.
이때, 제2 픽셀은 제1 픽셀에 인접한 8개의 픽셀이고, 인접 픽셀 쌍은 제1 픽셀을 중심으로 8개의 제2 픽셀을 각각 포함하는 8개의 인접 픽셀 쌍일 수 있다.
인접 픽셀 설정부는 제1 픽셀과의 인접 차수 k(상수)에 따라, k-레이어 상의 인접 픽셀 쌍을 더 설정할 수 있다.
이때, 심층 신경망 기반의 모델은 공간 정보를 이용하는 CNN(Convolutional Neural Network) 모델 및 시간 정보를 이용하는 RDNN(Recurrent Deep Neural Network)모델 중 어느 하나 또는 이들의 조합을 포함할 수 있다.
픽셀 레이블링부는 인접 픽셀 쌍 정의 함수를 이용하여 제1 픽셀을 레이블링하고, 인접 픽셀 쌍 정의 함수는 제1 픽셀의 확률 밀도 함수 값을 추정하기 위해 제2 픽셀을 이용했을 때 발생하는 인접 픽셀 쌍의 엔트로피 차이를 나타낼 수 있다.
픽셀 레이블링부는 쿨백 라이블러 발산(Dkl, Divergence of Kullback Leibler)기법을 이용하여 인접 픽셀 쌍 정의 함수를 계산할 수 있다.
객체 인식부는 동일하게 레이블링된 제1 픽셀들을 동일한 클래스의 객체로 인식할 수 있다.
다른 양상에 따른 객체 인식 모델 학습 장치는 이미지 프레임 내의 각각의 픽셀들에 대하여, 제1 픽셀 및 제1 픽셀에 인접한 하나 이상의 제2 픽셀을 포함하는 인접 픽셀 쌍을 설정하는 인접 픽셀 설정부, 각각의 픽셀들이 레이블링 되면, 제1 픽셀의 엔트로피 및 인접 픽셀 쌍의 엔트로피 차이를 이용하여 비용 함수를 계산하는 비용 함수 계산부 및 계산된 비용 함수에 기초하여 심층 신경망(Deep Neural Network) 기반의 객체 인식 모델을 학습하는 학습부를 포함할 수 있다.
이때, 심층 신경망 기반의 객체 인식 모델은 공간 정보를 이용하는 CNN(Convolutional Neural Network) 모델 및 시간 정보를 이용하는 RDNN(Recurrent Deep Neural Network)모델 중 어느 하나 또는 이들의 조합을 포함할 수 있다.
또한, 심층 신경망 기반의 객체 인식 모델을 이용하여 제1 픽셀을 레이블링(labeling)하되, 인접 픽셀 쌍 정의 함수를 이용하여 제1 픽셀을 레이블링하는 픽셀 레이블링부를 더 포함하고, 인접 픽셀 쌍 정의 함수는 제1 픽셀의 확률 밀도 함수 값을 추정하기 위해 제2 픽셀을 이용했을 때 발생하는 인접 픽셀 쌍의 엔트로피 차이를 나타낼 수 있다.
픽셀 레이블링부는 쿨백 라이블러 발산(Dkl, Divergence of Kullback Leibler)기법을 이용하여 인접 픽셀 쌍 정의 함수를 계산할 수 있다.
이때, 비용 함수는 제1 픽셀의 레이블과 기준 신뢰 레이블(ground truth label) 사이의 차이를 나타내는 함수일 수 있다.
비용 함수 계산부는 제1 픽셀의 관측 확률의 엔트로피 및 인접 픽셀 쌍 정의 함수를 합산하여 비용 함수를 계산할 수 있다.
비용 함수 계산부는 제1 픽셀의 레이블 및 제2 픽셀의 레이블이 동일하면, 인접 픽셀 쌍 정의 함수를 제1 픽셀 및 제2 픽셀의 크로스 엔트로피로 계산할 수 있다.
비용 함수 계산부는 계산된 인접 픽셀 쌍 정의 함수가 소정의 값 이하 일때, 인접 픽셀 쌍 정의 함수의 최소값을 0으로 계산할 수 있다.
학습부는 계산한 비용 함수를 최소화하는 파라미터를 설정하고, 파라미터로 심층 신경망 기반의 객체 인식 모델을 학습할 수 있다.
또 다른 양상에 따른 객체 인식 방법은 이미지 프레임 내의 각각의 픽셀들에 대하여, 제1 픽셀 및 제1 픽셀에 인접한 하나 이상의 제2 픽셀을 포함하는 인접 픽셀 쌍을 설정하는 단계, 심층 신경망 기반의 모델을 이용하여 제1 픽셀을 레이블링(labeling)하되, 인접 픽셀 쌍의 확률 밀도 함수 값을 고려하여 제1 픽셀을 레이블링하는 단계, 레이블링된 제1 픽셀들을 기초로 객체를 인식하는 단계를 포함할 수 있다.
인접 픽셀 쌍을 설정하는 단계는 제1 픽셀과의 인접 차수 k(상수)에 따라, k-레이어 상의 인접 픽셀 쌍을 더 설정할 수 있다.
제1 픽셀을 레이블링하는 단계는 인접 픽셀 쌍 정의 함수를 이용하여 제1 픽셀을 레이블링하고, 인접 픽셀 쌍 정의 함수는 제1 픽셀의 확률 밀도 함수 값을 추정하기 위해 제2 픽셀을 이용했을 때 발생하는 정보 엔트로피의 차이를 나타낼 수 있다.
제1 픽셀을 레이블링하는 단계는 쿨백 라이블러 발산(Dkl, Divergence of Kullback-Leibler) 기법을 이용하여 인접 픽셀 쌍 정의 함수를 계산할 수 있다.
또 다른 양상에 따른 객체 인식 모델 학습 방법은 이미지 프레임 내의 각각의 픽셀들에 대하여, 제1 픽셀 및 제1 픽셀에 인접한 하나 이상의 제2 픽셀을 포함하는 인접 픽셀 쌍을 설정하는 단계, 이미지 프레임 내의 픽셀들이 레이블링 되면, 제1 픽셀의 엔트로피 및 인접 픽셀 쌍의 엔트로피 차이에 기초하여 비용 함수를 계산하는 단계, 및 계산된 비용 함수에 기초하여 심층 신경망(Deep Neural Network) 기반의 객체 인식 모델을 학습하는 단계를 포함할 수 있다.
이때, 심층 신경망 기반의 객체 인식 모델을 이용하여 제1 픽셀을 레이블링(labeling)하되, 인접 픽셀 쌍 정의 함수를 이용하여 제1 픽셀을 레이블링하는 단계를 더 포함하고, 인접 픽셀 쌍 정의 함수는 제1 픽셀의 확률 밀도 함수 값을 추정하기 위해 제2 픽셀을 이용했을 때 발생하는 인접 픽셀 쌍의 엔트로피 차이를 나타낼 수 있다.
제1 픽셀을 레이블링하는 단계는 쿨백 라이블러 발산(Dkl, Divergence of Kullback-Leibler)기법을 이용하여 인접 픽셀 쌍 정의 함수를 계산할 수 있다.
비용 함수 계산부는 제1 픽셀의 관측 확률의 엔트로피 및 인접 픽셀 쌍 정의 함수를 합산하여 비용 함수를 계산할 수 있다.
비용 함수 계산부는 제1 픽셀의 레이블 및 제2 픽셀의 레이블이 동일하면, 인접 픽셀 쌍 정의 함수를 제1 픽셀 및 제2 픽셀의 크로스 엔트로피로 계산할 수 있다.
비용 함수 계산부는 계산된 인접 픽셀 쌍 정의 함수가 소정의 값 이하 일 때, 인접 픽셀 쌍 정의 함수의 최소값을 0으로 계산할 수 있다.
후처리를 위한 알고리즘을 생략하고, 각 픽셀에 인접한 인접 셀들을 이용하여 객체를 인식하므로 객체 인식의 정확성 및 신속성을 확보할 수 있다.
도 1a는 일 실시 예에 따른 객체 인식 장치(100)의 블록도이다.
도 1b는 다른 실시 예에 따른 객체 인식 장치(100)의 블록도이다.
도 2는 일 실시 예에 따른 객체 인식 모델에서 픽셀 레이블링 부(120)의 학습 장치(200)의 블록도이다.
도 3은 객체 인식 장치(100)를 이용하여 객체를 인식하는 일 예이다. 도 4는 일 실시 예에 따라 비용 함수를 계산한 표이다.
도 5는 인접 픽셀 쌍 설정부(110,210)가 인접 픽셀 쌍을 설정하는 일 예이다.
도 6은 객체 인식 모델 학습 장치(200) 및 객체 인식 장치(100)가 자율 주행 제어 시스템에 적용되는 일 예이다.
도 7은 객체 인식 장치(100)를 이용한 객체 인식 방법의 흐름도이다.
도 8은 객체 인식 모델 학습 장치(200)를 이용한 객체 인식 모델 학습 방법의 흐름도이다.
기타 실시 예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다. 기재된 기술의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
도 1은 일 실시 예에 따른 객체 인식 장치(100)의 블록도이다. 일 실시 예에 따른, 객체 인식 장치(100)는 인접 픽셀 설정부(110), 픽셀 레이블링부(120), 객체 인식부(130)를 포함할 수 있다.
인접 픽셀 설정부(110)는 이미지 프레임 내의 각각의 픽셀들에 대하여, 제1 픽셀 및 제1 픽셀에 인접한 제2 픽셀을 포함하는 인접 픽셀 쌍을 설정할 수 있다. 여기서 제1 프레임은 중심 픽셀을 의미하며, 이미지 프레임 내 모든 픽셀 각각을 제1 픽셀로 지칭할 수 있다. 제2 픽셀은 중심 픽셀인 제1 픽셀에 인접한 주변부 픽셀에 해당하며, 인접 픽셀 설정부(110)는 제1 픽셀과 제2 픽셀을 하나의 쌍으로 설정할 수 있다.
예를 들어, 하나의 제1 픽셀을 중심으로 하는 3*3 범위 내로 인접 픽셀을 설정한다면, 하나의 제1 픽셀을 중심으로 8개의 인접 픽셀인 제2 픽셀들이 있을 수 있다. 즉, 제2 픽셀은 제1 픽셀에 인접한 8개의 픽셀이고, 인접 픽셀 쌍은 제1 픽셀을 중심으로 8개의 제2 픽셀을 각각 포함하는 8개의 인접 픽셀 쌍일 수 있다.
그 외에, 인접 픽셀의 범위는 중심 픽셀로부터 상하좌우의 4개의 픽셀, 중심 픽셀로부터 5*5 범위 내 픽셀, 중심 픽셀로부터 다이아 형태의 픽셀들 등 다양한 형태 및 모양으로 사전에 결정될 수 있다.
또한, 인접 픽셀 설정부(110)는 각 픽셀과의 인접 차수 k(상수)에 따라 k-레이어 상의 인접 픽셀 쌍을 설정할 수 있다. 여기서, 인접 차수 K는 임의의 상수이고, 인접 픽셀 설정부(110)는 중심 픽셀과 인접한지 여부 및 중심 픽셀에 인접한 인접 픽셀과 인접한지 여부로 인접 차수를 설정할 수 있다. 인접 픽셀 설정부(110)는 중심 픽셀과 몇 번째 인접한 픽셀을 통하여 인접하는지 여부에 따라 인접 차수를 설정하고, 필요한 레이어 및 인접 픽셀의 범위를 설정할 수 있다.
예를 들어, 인접 픽셀 설정부(110)는 인접 차수를 2차로 설정하는 경우, 1차 레이어 상에 중심 픽셀과 인접한 제2 픽셀을 포함하는 인접 픽셀 쌍을 설정하고, 2차 레이어 상에 제2 픽셀과, 제2 픽셀에 인접한 제3 픽셀을 포함하는 인접 픽셀 쌍을 설정할 수 있다. 이에 대해, 도 5를 통해 후술한다.
적정한 인접 픽셀의 범위는 객체 인식 장치(100)의 정확도를 높여줄 수 있으며, 특히 k-레이어의 인접 픽셀 쌍은 인접 픽셀 각각의 레이블링 정확도를 높일 뿐 아니라, 중심 픽셀의 레이블링 정확도를 높이는데 기여할 수 있다.
제시된 실시 예 이외에도, 인접 픽셀의 범위, 레이어 설정 방법은 다양할 수 있으므로, 제시된 실시 예에 한정되어 해석될 것은 아니다.
픽셀 레이블링부(120)는 심층 신경망 기반의 모델을 이용하여 제1 픽셀을 레이블링(labeling)하되, 인접 픽셀 쌍의 확률 밀도 함수 값을 고려하여 제1 픽셀을 레이블링한다. 이때, 픽셀 레이블링부(120)는 이미지 프레임 내 모든 픽셀들에 레이블(label)을 붙일 수 있다.
예를 들어, 픽셀 레이블링부(120)는 심층 신경망 기반의 모델을 이용하여, 객체 인식 장치(100)로 입력된 시간 정보, 공간 정보로부터 각 픽셀들을 분류하기 위한 확률 밀도 함수(Probability density function)값을 출력할 수 있다.
여기서, 심층 신경망 기반의 모델은 CNN(Convolutional Neural Network) 모델, DCNN(Deep Convolutional Neural Network) 모델, RNN(Recurrent Neural Network), RDNN(Recurrent Deep Neural Network) 모델 등을 포함할 수 있고, 픽셀 레이블링부(120)는 심층 신경망 기반의 모델 중 어느 하나 또는 이들의 조합을 이용할 수 있다.
일 예에 따르면, 객체 인식 장치(100)에 카메라, 센서 등으로부터 이미지 프레임이 연속적으로 입력되는 경우, 픽셀 레이블링부(120)는 CNN 모델을 이용하여 이미지 프레임의 공간 정보로부터 확률 밀도 함수 값을 산출하고, 연속되어 입력되는 이미지 프레임에 대해 RDNN 모델을 이용하여 이전 영상의 확률 밀도 함수 값을 반영하여 현재 프레임의 확률 밀도 함수 값을 산출할 수 있다. 픽셀 레이블링부(120)는 심층 신경망 기반의 모델을 이용하여 산출된 확률 밀도 함수 값에 따라 각각의 픽셀을 레이블링할 수 있다.
다른 예에 따르면, 픽셀 레이블링부(120)는 인접 픽셀 쌍의 확률 밀도 함수 값을 반영하여 제1 픽셀을 레이블링할 수 있다. 픽셀 레이블링부(120)는 제1 픽셀의 확률 밀도 함수를 산출하는데 있어, 제2 픽셀이 제1 픽셀에 미치는 영향을 고려할 수 있다.
만일, 중심 픽셀(제1 픽셀)과 중심 픽셀에 인접한 인접 픽셀(제2 픽셀)의 확률 밀도 함수 값이 유사한 경우, 중심 픽셀은 인접 픽셀들과 동일하게 레이블링될 가능성이 크다.만일, 중심 픽셀들과 인접 픽셀들의 확률 밀도 함수 값이 상이한 경우, 중심 픽셀과 인접 픽셀이 각각 다르게 레이블링될 가능성이 크다.
일 실시 예에 따르면, 픽셀 레이블링부(120)는 인접 픽셀 쌍 정의 함수를 이용하여 중심 픽셀(제1 픽셀)을 레이블링할 수 있다. 이때, 인접 픽셀 쌍 정의 함수는 각 픽셀의 확률 밀도 함수 값을 추정하기 위해 인접 픽셀(제2 픽셀)을 이용했을 때 발생하는 정보 엔트로피의 차이를 나타낼 수 있다.
예를 들어, 픽셀 레이블링부(120)는 중심 픽셀 주변의 인접 픽셀들의 확률 밀도 함수 값에 따라 중심 픽셀의 확률 밀도 함수 값을 예측할 수 있다. 그리고, 픽셀 레이블링부(120)는 인접 픽셀에서 추정한 중심 픽셀의 확률 밀도 함수 값과 관측한 중심 픽셀의 확률 밀도 함수 값의 차이를 가감하여 중심 픽셀의 확률 밀도 함수 값을 결정할 수 있다. 픽셀 레이블링부(120)는 결정된 중심 픽셀의 확률 밀도 함수 값에 따라 중심 픽셀을 레이블링하고, 이미지 프레임 내 모든 픽셀들을 중심 픽셀로서 각각 레이블링할 수 있다.
이때, 픽셀 레이블링부(120)는 쿨백 라이블러 발산(Dkl, Divergence of Kullback-Leibler)기법을 이용하여 인접 픽셀 쌍 정의 함수를 계산할 수 있다. 쿨백-라이블러 발산은 두 확률분포의 차이를 계산하는 데에 사용하는 함수로, 어떤 이상적인 분포에 대해, 그 분포를 근사하는 다른 분포를 사용해 샘플링을 한다면 발생할 수 있는 정보 엔트로피 차이를 계산할 수 있다. 두 확률변수에 대한 확률분포
Figure pat00001
가 있을 때, 두 분포의 쿨백-라이블러 발산은 다음과 같이 정의된다.
Figure pat00002
----------------- 수학식 (1)
수학식 (1)에 기초하여, 픽셀 레이블링부(120)는 쿨백 라이블러 발산 기법을 이용하여 중심 픽셀과 인접 픽셀의 정보 엔트로피 차이를 계산할 수 있다.
픽셀 레이블링부(120)는 인접 픽셀 설정부(110)에서 설정한 인접 픽셀 쌍 모두에 대해 인접 픽셀 쌍 정의 함수를 이용하여 중심 픽셀을 레이블링할 수 있다. 예를 들어, 중심 픽셀(제1 픽셀)을 중심으로 3*3의 범위 내 인접 픽셀들을 고려한다면, 픽셀 레이블링부(120)는 8개의 인접 픽셀 쌍에 대해 인접 픽셀 쌍 정의 함수를 이용하여 인접 픽셀 쌍의 엔트로피의 차이를 구하고, 계산된 엔트로피 차이를 합산하여 중심 픽셀의 관측 확률 밀도 함수 값을 가감할 수 있다. 이때, 인접 픽셀 쌍의 엔트로피 차이에 중심 픽셀과 인접 픽셀의 비중을 고려하여 제어 파라미터가 곱해질 수 있다. 픽셀 레이블링부(120)는 인접 픽셀 쌍의 엔트로피 차이를 반영하여 중심 픽셀의 확률 밀도 함수가 결정되면, 이에 따라 중심 픽셀을 레이블링할 수 있다.
다른 실시 예에 따르면, 인접 픽셀 설정부(110)에서 2차 이상의 레이어를 설정하는 경우, 동일한 프로세스가 각 레이어 별로 반복될 수 있다. 예를 들어, 중심 픽셀과 인접 픽셀은 중심 픽셀을 중심으로 하는 상대적인 개념으로, 제2 픽셀은 제1 레이어 상에서는 제1 픽셀의 인접 픽셀이지만, 제2 레이어 상에서는 중심 픽셀로 설정될 수 있다. 자세한 내용은 도 5를 통해 후술한다. 픽셀 레이블링부는 제2 레이어 상에서, 인접 픽셀 쌍의 엔트로피 차이를 반영하여 제2 픽셀(2차 레이어 중심 픽셀)의 확률 밀도 함수 값을 산출하고, 픽셀 레이블링부는 제1 레이어 상에서 인접 픽셀 쌍의 엔트로피 차이를 반영하여 제1 레이어 상의 제1 픽셀(1차 레이어 중심 픽셀)의 확률 밀도 함수 값을 계산할 수 있다. 여기서, 1차 레이어 상의 제1 픽셀(중심 픽셀)은 2차 레이어 상의 제 3 픽셀로부터 간접적으로 영향을 받을 수 있다.
한편, 픽셀 레이블링부(120)에서 픽셀을 레이블링할 때, 확률 밀도 함수 값에 따른 소정의 레이블 구간, 레이블 기준, 레이블의 클래스 및 픽셀 레이블을 위한 알고리즘 등에 대해서는 제시된 실시 예에 한정되지 않고 다양한 실시 예가 존재할 수 있다.
도 1b를 참고하면, 객체 인식 장치(100)는 도 1a에 도시된 구성들(110,120,130)외에 클러스터링부(125)를 더 포함할 수 있다. 도 1a와 동일한 구성들에 대하여 앞에서 상세하게 설명하였으므로 이하 클러스터링부(125)의 구성을 중심으로 설명한다.
클러스터링부(125)는 동일하게 레이블링된 제1 픽셀들을 클러스터링할 수 있다. 이때, 클러스터링부(125)는 동일하게 레이블링된 제1 픽셀들을 하나의 클러스터링된 박스로 표현할 수 있고, 하나의 프레임 내 다수개의 클러스터링 박스가 있을 수 있다. 이 경우, 각각의 클러스터링 박스는 객체와 객체 사이의 경계로 인식될 수 있다.
객체 인식부(130)는 레이블링된 제1 픽셀들을 기초로 객체를 인식할 수 있다. 객체 인식부(130)는 클러스터링부(125)에 의해 동일하게 레이블링된 제1 픽셀들이 클러스터링되면, 클러스터링 된 박스 별로 객체를 인식할 수 있다.
픽셀 레이블링부(120)에서 픽셀 단위의 레이블링을 하였다면, 객체 인식부(130)는 이미지 단위의 레이블링, 예를 들어 사람, 사물, 자동차, 동물, 개, 컵 등과 같은 하나 이상의 객체를 인식할 수 있다.
도 2는 일 실시 예에 따른 객체 인식 모델 학습 장치(200)의 블록도이다. 일 실시 예에 따르면, 인식 모델 학습 장치는 인접 픽셀 설정부(210), 비용 함수 계산부(220), 학습부(230)를 포함할 수 있다. 이 중 인접 픽셀 설정부(210) 및 픽셀 레이블링부(240)는 도 1의 객체 인식 장치(100)의 구성에서 설명하였으므로, 간략히 설명한다.
인접 픽셀 설정부(210)는 이미지 프레임 내의 각각의 픽셀들에 대하여, 제1 픽셀 및 제1 픽셀에 인접한 제2 픽셀을 포함하는 인접 픽셀 쌍을 설정할 수 있다. 인접 픽셀 설정부(210)는 인접 차수 k(상수)에 따른 레이어와 인접 픽셀의 범위를 설정할 수 있다. 예를 들어, 인접 픽셀 설정부(110)는 제1 픽셀(중심 픽셀)을 중심으로 주변의 3*3 픽셀을 인접 픽셀로 설정하는 경우, 제2 픽셀(인접 픽셀)은 제1 픽셀(중심 픽셀)에 인접한 8개의 픽셀이고, 인접 픽셀 쌍은 제1 픽셀을 중심으로 8개의 제2 픽셀을 각각 포함하는 8개의 인접 픽셀 쌍일 수 있다. 또한, 인접 픽셀 설정부(110)는 제1 픽셀과의 인접 차수 k(상수)에 따라, k-레이어 상의 인접 픽셀 쌍을 설정할 수 있다.
한편, 인식 모델 학습 장치는 픽셀 레이블링부를 더 포함할 수 있다. 픽셀 레이블링부는 심층 신경망 기반의 모델을 이용하여 제1 픽셀을 레이블링(labeling)하되, 인접 픽셀 쌍의 확률 밀도 함수 값을 고려하여 제1 픽셀을 레이블링할 수 있다. 이때, 인접 픽셀 쌍 정의 함수는 제1 픽셀의 확률 밀도 함수 값을 추정하기 위해 제2 픽셀을 이용했을 때 발생하는 인접 픽셀 쌍의 엔트로피 차이를 나타낼 수 있다. 픽셀 레이블링부는 쿨백 라이블러 발산 기법을 이용하여 인접 픽셀 쌍 정의 함수를 계산할 수 있다.
비용 함수 계산부(220)는 이미지 프레임 내의 각각의 픽셀들이 레이블링 되면, 제1 픽셀의 엔트로피 및 인접 픽셀 쌍의 엔트로피 차이를 이용하여 비용 함수를 계산할 수 있다. 이때, 비용 함수는 제1 픽셀의 레이블과 기준 신뢰 레이블(ground truth label)의 차이를 나타내는 함수일 수 있다. 기준 신뢰 레이블은 심층 신경망 기반의 모델을 이용하여 도출해내고 싶은 각 픽셀의 실제 레이블 데이터로, 심층 신경망 기반의 모델에 의해 레이블된 픽셀의 정확도를 가늠하는 기준이 될 수 있다. 심층 신경망 기반의 모델은 각 픽셀을 레이블링할 확률 밀도 함수를 산출하고, 가장 높은 확률을 가지는 클래스로 레이블링을 한다. 비용 함수 계산부(220)는 제1 픽셀의 레이블과 기준 신뢰 레이블의 차이를 계산하여, 픽셀 레이블링부에서 레이블링한 제1 픽셀의 레이블이 얼마나 정확한지에 대한 지표를 얻을 수 있다. 비용 함수가 최소화되면, 제1 픽셀의 레이블은 기준 신뢰 레이블과 동일할 수 있다. 이때, 학습부(230)는 비용 함수를 최소화하는 방향으로 심층망 기반의 인식 모델을 학습할 수 있다.
비용 함수 계산부(220)는 제1 픽셀의 관측 확률의 엔트로피 및 인접 픽셀 쌍 정의 함수를 합산하여 비용 함수를 계산할 수 있다. 여기서, 제1 픽셀은 인접 픽셀(제2 픽셀)과의 상대적 관계에 따라 정의된 픽셀로, 인접 픽셀 설정부(110)는 이미지 프레임 내 각각의 픽셀들에 대해서 제1 픽셀을 설정할 수 있다. 즉, 비용 함수 계산부(220)는 각각의 픽셀에 대해, 제1 픽셀의 관측 확률의 엔트로피 및 인접 픽셀 쌍 정의 함수를 합산하고, 이를 이미지 프레임 내 전체 픽셀에 대해 계산함으로써 이미지 프레임 전체에 대한 비용 함수를 계산할 수 있다. 비용 함수(E)는 다음과 같은 수학식 (2) 에 의해서 정의될 수 있다.
Figure pat00003
--------수학식 (2)
비용 함수(cost function)는 제1 픽셀의 레이블과 기준 신뢰 레이블의 오차를 정량적으로 나타내는 Error Function 으로 불릴 수 있다. 여기서, ⅰ) Pi는 i 픽셀의 레이블이 그라운드 신뢰 레이블(li)로 동일할 때, x=li일 관측 확률이다(x∈{0, …, 11}). ⅱ) Ni는 i 픽셀 주변에 인접한 8개의 인접 픽셀(제2 픽셀)들이다. ⅲ) λ는 제1 픽셀의 관측 확률(unary term)과 인접 픽셀 쌍 정의 함수(pairwise term) 사이의 비례 제어 파라미터이다. ⅳ) 인접 픽셀 쌍 정의 함수 L(i,j) 는 쿨백 라이블러 발산 기법을 이용하여 계산될 수 있다. 예를 들어, 인접 픽셀 쌍 정의 함수 L(i,j) 는
Figure pat00004
을 이용하여 계산할 수 있다. 여기서, 쿨백 라이블러 발산의 정의에 의하면, 비용 함수 계산부(220)는 다음과 같은 수학식 (3)을 인접 픽셀 쌍 정의 함수에 적용할 수 있다.
Figure pat00005
-----------------수학식 (3)
비용 함수 계산부(220)는 수학식 (3)을 인접 픽셀 쌍 정의에 적용하면, 계산된 인접 픽셀 쌍 정의 함수를 다음과 같이 기술할 수 있다.
Figure pat00006
-------------------------------------------------------------- 수학식 (4)
비용 함수 계산부(220)는 i 픽셀(제1 픽셀)의 레이블과 j 픽셀의 레이블이 동일하면 (l=li=lj), 인접 픽셀 쌍 정의 함수를 제1 픽셀 및 제2 픽셀의 크로스 엔트로피(CE, Cross Entropy)로 계산할 수 있다.
또한, 비용 함수 계산부(220)는 i 픽셀(제1 픽셀)의 레이블과 j 픽셀의 레이블이 동일하지 않으면(li≠lj), 인접 픽셀 쌍 정의 함수를 0 또는
Figure pat00007
중 최대값(max 함수)으로 계산할 수 있다. 즉,
Figure pat00008
를 계산한 값이 0보다 작은 경우, 인접 픽셀 쌍의 최소값으로 0을 도출할 수 있다. 여기서, α는 관측 또는 학습에 따라 결정될 수 있는 상수이고, 인접 픽셀 쌍 정의 함수는 쿨백 라이블러 발산을 이용하여 수학식 (5)와 같이 계산될 수 있다.
도 4는 일 실시 예에 따라 비용 함수를 계산한 표이다. 도 4를 참고하면, I 픽셀(제1 픽셀)의 레이블과 j 픽셀(제2 픽셀)의 레이블이 동일한 경우와 동일하지 않은 경우, 각각의 비용 함수의 도함수(△E)가 도시되어 있다.
도 4를 참고하면, i 픽셀의 레이블과 j 픽셀의 레이블이 동일한 경우(li=lj) 서브 케이스는 없고(N/A, Not Available) 비용 함수의 도함수(△E)는 이다.
i 픽셀의 레이블과 j픽셀의 레이블이 동일하지 않은 경우(li≠lj), 이면, 비용 함수의 도함수는 이다. 한편, 이면, 비용 함수의 도함수는 으로 계산된다.
학습부(230)는 계산된 비용 함수에 기초하여 심층 신경망(Deep Neural Network) 기반의 인식 모델을 학습한다. 일 실시 예에 따르면, 학습부(230)는 비용 함수를 최소화하는 방향으로 심층 신경망 기반의 모델을 학습을 할 수 있다. 학습부(230)는 비용 함수를 최소화하는 파라미터를 설정하고, 설정한 파라미터로 심층 신경망 기반의 모델을 학습할 수 있다. 이때, 학습부(230)는 파라미터를 심층 신경망 기반의 모델에 가중치로 설정할 수 있다.
만일, 비용 함수가 0 또는 확률 밀도 구간 내의 소정의 차이에 불과하면, 픽셀 레이블링부(120)에서 수행한 픽셀의 레이블이, 기준 신뢰 레이블과 동일하게 레이블 되었다고 볼 수 있다.
예를 들어, 학습부(230)는 제1 픽셀(중심 픽셀)의 레이블과 제2 픽셀(인접 픽셀)의 레이블이 같으면, 제1 픽셀의 확률 밀도 함수 값과 제2 픽셀의 확률 밀도 함수 값이 유사하도록 학습할 수 있다. 이때, 학습부(230)는 제1 픽셀의 확률 밀도 함수 값과 제2 픽셀의 확률 밀도 함수 값이 유사하다는 것을 제한 요소(constrain)으로 설정하여 심층 신경망 기반의 모델을 학습할 수 있다. 이 경우, 학습부(230)는 심층 신경망 기반의 모델로부터 출력되는 주변 확률(marginal probability)를 유사하게 만드는 방향으로 학습할 수 있다.
또한, 제1 픽셀(중심 픽셀)의 레이블과 제2 픽셀(인접 픽셀)의 레이블이 동일하지 않은 경우, 제1 픽셀의 확률 밀도 함수 값과 제2 픽셀의 확률 밀도 함수 값이 차이가 많이 나도록 학습할 수 있다. 이 경우, 학습부(230)는 주변 확률(output marginal probability)을 다르게 만드는 방향으로 학습할 수 있다.
이상이 픽셀 레이블링부(120)의 학습 방법이고 객체 인식부(130)의 학습 방법은 기존의 Bounding Box를 찾는 Deep Learning을 포함한 다양한 기계 학습 Detection 알고리즘으로 구현이 가능하다. 기계학습 알고리즘은 신경망(neural network), 결정 트리(decision tree), 유전 알고리즘(Genetic Algorithm: GA), 유전자 프로그래밍(Genetic Programming: GP), 가우스 과정 회귀, 선형 분별 분석, K 근접 이웃(K-Nearest Neighbor: K-NN), 퍼셉트론, 방사 기저 함수 네트워크, 서포트 벡터 머신(Support Vector Machine: SVM), 및 딥러닝(deep-learning) 중 하나일 수 있다.
도 3은 객체 인식 장치(100)를 이용하여 객체를 인식하는 일 예이다. 일 실시 예에 따른 객체 인식 장치(100)는 심층 신경망 기반의 모델을 이용하여 객체를 인식할 수 있다. 이때, 심층 신경망 기반의 모델은 공간 정보를 이용하는 CNN(Convolutional Neural Network) 모델 및 시간 정보를 이용하는 RDNN(Recurrent Deep Neural Network)모델에 기초하여, 공간 정보 및 시간 정보를 객체 인식에 이용할 수 있다.
도 3을 참고하면, 객체 인식 장치(100)는 CNN 기반의 모델을 이용하여, 카메라가 촬영한 이미지 프레임 내 객체를 인식하고, RDNN 모델을 이용하여 이전 이미지 프레임의 인식 결과를 현재 이미지 프레임의 객체 인식에 반영할 수 있다. 도 3의 왼쪽 그림은 시간에 따라 달리 촬영된 영상이며, RDNN 모델은 tk -1, tk, tk +1의 시점의 이미지 프레임 각각을 합산하여 객체 인식을 수행할 수 있다.
도 5는 인접 픽셀 쌍 및 레이어를 설명하는 일 예이다. 도 1의 실시 예에 따른 객체 인식 장치(100) 및 도 2의 실시 예에 따른 객체 인식을 위한 모델 학습 장치(200)를 참고하여 도 5를 설명한다.
이미지 프레임 내 모든 픽셀들은 각각 중심 픽셀 또는 인접 픽셀이 될 수 있다. 어떤 픽셀을 중심 픽셀로 설정하는지에 따라 주변의 인접 픽셀이 결정되며, 인접 픽셀 설정부(110,210)는 레이어 및 인접 픽셀의 범위를 설정할 수 있다.
도 5의 실시 예를 참고하면, 중심 픽셀(제1 픽셀)을 i(1,1)로 설정하면, i픽셀을 중심으로 3*3 범위의 픽셀이 인접 픽셀(제2 픽셀)로 설정될 수 있다. 이때, 인접 픽셀(제2 픽셀)은 i(2,1), i(2,2), i(2,3), i(2,4), i(2,5), i(2,6), i(2,7), i(2,8) 이 될 수 있다. 여기서, 인접 픽셀 설정부(110,210)는 1차 레이어 상에 중심 픽셀(제1 픽셀)인 i(1,1)을 중심으로 인접한 8개의 인접 픽셀(제2 픽셀)들을 포함하는 인접 픽셀 쌍을 설정할 수 있다. 이때, 인접 픽셀 쌍은 {i(1,1), i(2,1)}, {i(1,1), i(2,2)}, {i(1,1), i(2,3)}, {i(1,1), i(2,4)}, {i(1,1), i(2,5)}, {i(1,1), i(2,6)}, {i(1,1), i(2,7)}, {i(1,1), i(2,8)} 으로 총 8개의 인접 픽셀 쌍이 설정된다.
또한, 인접 픽셀 설정부(110,210)는 2차 레이어 상의 인접 픽셀쌍을 설정할 수 있다. 도 5를 참고하면, 1차 레이어 상에서 인접 픽셀인 i(2,1)가, 2차 레이어 상에서 중심 픽셀 j{i(1,1O),1)이 될 수 있다. 인접 픽셀 설정부(110,210)는 중심 픽셀 j{i(1,1O,1)를 중심으로, 2차 레이어 상에서 인접한 3*3 범위의 인접 픽셀(제3 픽셀)을 포함하는 인접 픽셀 쌍을 설정할 수 있다. 여기서 제3 픽셀은 j{i(2,1),1), j{i(2,1),2), j{i(2,1),3), j{i(2,1),4), j{i(2,1),5), j{i(2,1),6), j{i(2,1),7), j{i(2,1),8)으로 총 8개이다. 이때, j{i(1,1),1)을 중심 픽셀(제2 픽셀)로 하는 인접 픽셀 쌍은 제2 픽셀과 제3 픽셀 각각을 포함한 8개의 인접 픽셀 쌍일 수 있다.
한편, 2차 레이어 상에는 1차 레이어의 중심 픽셀(제1 픽셀)인 i(1,1) 픽셀과 인접한 총 8개의 제2 픽셀이 있다. 각각의 제2 픽셀은 2차 레이어 상에서 각각 8개씩의 제3차 픽셀과 인접하므로, 제2 차 레이어 상에서 총 8*8= 64 개의 인접 픽셀 쌍이 설정된다. 여기서, 2차 레이어 상의 제3 픽셀은 각각 중심 픽셀에 해당하는 제2 픽셀의 확률 밀도 함수 값을 계산하는데 이용되고, 제2 픽셀이 계산되면, 제1차 레이어 상의 제2 픽셀이 제1 픽셀의 확률 밀도 함수 값을 계산하는데 이용될 수 있다.
도 6은 객체 인식 모델 학습 장치 및 객체 인식 장치(100)가 자율 주행 제어 시스템(ADAS, Advanced Driver Assistance System) 에 적용되는 일 예이다. 일 실시 예에 따르면, 객체 인식 장치(100) 및 객체 인식 모델 학습 장치(200)는 주행 중인 자동차에서, 카메라에서 촬영된 이미지 프레임으로부터 객체를 인식하고, 이를 자율 주행 제어 모듈에 전달하여 경로 계획, 차량 제어 등을 수행할 수 있다.
도 6을 참고하면, 자율 주행 인식 모듈은 센서 인터페이스, 객체 인식 모델 학습 장치(200), 심층 신경망 기반의 인식 모델, 객체 인식 장치(100) 및 차량 제어 인터페이스를 포함할 수 있다.
센서 인터페이스는 Map, GPS, Camera, Radar, LiDAR 과 같은 카메라 또는 센서로부터 정보를 입력 받을 수 있다. 여기서, 카메라는 Mono-Visible Cameras (CCD and CMOS), Stereo Vision Camera, Near-Infrared Camera, Far-Infrared Camera 등이 될 수 있고, 센서는 Radar, Lidar 센서 등이 될 수 있다. 입력된 정보는 심층 신경망 기반의 인식 모델을 통해 객체 인식 장치(100)에서 객체로 인식할 수 있다. 여기서 각 카메라 및 센서는 여러 종류를 조합하여 자율 주행 인식 모듈에 시간 정보 및 공간 정보를 제공할 수 있다. 또한, 각 카메라 및 센서는 각각 다수 개가 장착될 수 있다.
객체 인식 장치(100)는 심층 신경망 기반의 인식 모델을 통하여 입력된 시간 정보 및 공간 정보로부터 객체를 인식할 수 있다. 객체 인식이 완료되면, 차량 제어 인터페이스는 차량의 제어에 유용한 정보들을 자율 주행 제어 모듈에 전달할 수 있다. 자율 주행 제어 모듈은 경로 계획, 차량 제어 등에 이용될 수 있다.
다만, 제시된 실시 예 이외에도 객체 인식 장치 및 객체 인식 모델 학습 장치는 객체 인식이 필요한 다양한 분야에 적용, 응용될 수 있다.
도 7은 객체 인식 장치(100)를 이용한 객체 인식 방법의 흐름도이다. 먼저, 인접 픽셀 설정부(110)는 이미지 프레임 내의 각각의 픽셀들에 대하여, 제1 픽셀 및 제1 픽셀에 인접한 제2 픽셀을 포함하는 인접 픽셀 쌍을 설정할 수 있다(710). 예를 들어, 하나의 제1 픽셀을 중심으로 하는 3*3 범위 내로 인접 픽셀을 설정한다면, 하나의 제1 픽셀을 중심으로 8개의 인접 픽셀인 제2 픽셀들이 있을 수 있다. 즉, 제2 픽셀은 제1 픽셀에 인접한 8개의 픽셀이고, 인접 픽셀 쌍은 제1 픽셀을 중심으로 8개의 제2 픽셀을 각각 포함하는 8개의 인접 픽셀 쌍일 수 있다.
그 외에, 인접 픽셀의 범위는 중심 픽셀로부터 상하좌우의 4개의 픽셀, 중심 픽셀로부터 5*5 범위 내 픽셀, 중심 픽셀로부터 다이아 형태의 픽셀들 등 다양한 형태 및 모양으로 사전에 결정될 수 있다.
또한, 인접 픽셀 설정부(110)는 각 픽셀과의 인접 차수 k(상수)에 따라 k-레이어 상의 인접 픽셀 쌍을 설정할 수 있다. 여기서, 인접 차수 K는 임의의 상수이고, 인접 픽셀 설정부(110)는 중심 픽셀과 인접한지 여부 및 중심 픽셀에 인접한 인접 픽셀과 인접한지 여부로 인접 차수를 설정할 수 있다. 인접 픽셀 설정부(110)는 중심 픽셀과 몇 번째 인접한 픽셀을 통하여 인접하는지 여부에 따라 인접 차수를 설정하고, 필요한 레이어 및 인접 픽셀의 범위를 설정할 수 있다.
예를 들어, 인접 픽셀 설정부(110)는 인접 차수를 2차로 설정하는 경우, 1차 레이어 상에 중심 픽셀과 인접한 제2 픽셀을 포함하는 인접 픽셀 쌍을 설정하고, 2차 레이어 상에 중심 픽셀의 인접 픽셀인 제2 픽셀과, 제2 픽셀에 인접한 제3 픽셀을 포함하는 인접 픽셀 쌍을 설정할 수 있다.
그 다음, 픽셀 레이블링부(120)는 심층 신경망 기반의 모델을 이용하여 제1 픽셀을 레이블링(labeling)하되, 인접 픽셀 쌍의 확률 밀도 함수 값을 고려하여 제1 픽셀을 레이블링할 수 있다(720). 일 실시 예에 따르면, 픽셀 레이블링부(120)는 이미지 프레임 내 모든 픽셀들에 레이블(label)을 붙일 수 있다. 예를 들어, 픽셀 레이블링부(120)는 심층 신경망 기반의 모델을 이용하여, 객체 인식 장치(100)로 입력된 시간 정보, 공간 정보로부터 각 픽셀들을 분류하기 위한 확률 밀도 함수 값(Probability density function)을 출력할 수 있다.
여기서, 심층 신경망 기반의 모델은 CNN(Convolutional Neural Network) 모델, DCNN(Deep Convolutional Neural Network) 모델, RNN(Recurrent Neural Network), RDNN(Recurrent Deep Neural Network) 모델 등을 포함할 수 있고, 픽셀 레이블링부(120)는 심층 신경망 기반의 모델 중 어느 하나 또는 이들의 조합을 이용할 수 있다.만일, 중심 픽셀(제1 픽셀)과 중심 픽셀에 인접한 인접 픽셀(제2 픽셀)의 확률 밀도 함수 값이 유사한 경우, 중심 픽셀은 인접 픽셀들과 동일하게 레이블링될 가능성이 크다. 만일, 중심 픽셀들과 인접 픽셀들의 확률 밀도 함수 값이 상이한 경우, 중심 픽셀과 인접 픽셀이 각각 다르게 레이블링될 가능성이 크다.
일 실시 예에 따르면, 픽셀 레이블링부(120)는 인접 픽셀 쌍 정의 함수를 이용하여 중심 픽셀(제1 픽셀)을 레이블링할 수 있다. 이때, 인접 픽셀 쌍 정의 함수는 각 픽셀의 확률 밀도 함수 값을 추정하기 위해 인접 픽셀(제2 픽셀)을 이용했을 때 발생하는 정보 엔트로피의 차이를 나타낼 수 있다.
예를 들어, 픽셀 레이블링부(120)는 중심 픽셀 주변의 인접 픽셀들의 확률 밀도 함수 값에 따라 중심 픽셀의 확률 밀도 함수 값을 예측할 수 있다. 그리고, 픽셀 레이블링부(120)는 인접 픽셀에서 추정한 중심 픽셀의 확률 밀도 함수 값과 관측한 중심 픽셀의 확률 밀도 함수 값의 차이를 가감하여 중심 픽셀의 확률 밀도 함수 값을 결정할 수 있다. 픽셀 레이블링부(120)는 결정된 중심 픽셀의 확률 밀도 함수 값에 따라 중심 픽셀을 레이블링하고, 이미지 프레임 내 모든 픽셀들을 중심 픽셀로서 각각 레이블링할 수 있다.
이때, 픽셀 레이블링부(120)는 쿨백 라이블러 발산 기법을 이용하여 인접 픽셀 쌍 정의 함수를 계산할 수 있다. 쿨백-라이블러 발산은 두 확률분포의 차이를 계산하는 데에 사용하는 함수로, 어떤 이상적인 분포에 대해, 그 분포를 근사하는 다른 분포를 사용해 샘플링을 한다면 발생할 수 있는 정보 엔트로피 차이를 계산할 수 있다.
픽셀 레이블링부(120)는 인접 픽셀 설정부(110)에서 설정한 인접 픽셀 쌍 모두에 대해 인접 픽셀 쌍 정의 함수를 이용하여 중심 픽셀을 레이블링할 수 있다. 예를 들어, 중심 픽셀(제1 픽셀)을 중심으로 3*3의 범위 내 인접 픽셀들을 고려한다면, 픽셀 레이블링부(120)는 8개의 인접 픽셀 쌍에 대해 인접 픽셀 쌍 정의 함수를 이용하여 인접 픽셀 쌍의 엔트로피 차이를 구하고, 계산된 엔트로피 차이를 합산하여 중심 픽셀의 관측 확률 밀도 함수 값을 가감할 수 있다. 이때, 인접 픽셀 쌍의 엔트로피 차이에 중심 픽셀과 인접 픽셀의 비중을 고려하여 제어 파라미터가 곱해질 수 있다. 픽셀 레이블링부(120)는 인접 픽셀 쌍의 엔트로피 차이를 반영하여 중심 픽셀의 확률 밀도 함수가 결정되면, 이에 따라 중심 픽셀을 레이블링할 수 있다.
다른 실시 예에 따르면, 인접 픽셀 설정부(110)에서 2차 이상의 레이어를 설정하는 경우, 동일한 프로세스가 각 레이어 별로 반복될 수 있다. 예를 들어, 중심 픽셀과 인접 픽셀은 중심 픽셀을 중심으로 하는 상대적인 개념으로, 제2 픽셀은 제1 레이어 상에서는 제1 픽셀의 인접 픽셀이지만, 제2 레이어 상에서는 중심 픽셀로 설정될 수 있다.
픽셀 레이블링부는 제2 레이어 상에서, 인접 픽셀 쌍의 엔트로피 차이를 반영하여 제2 픽셀(2차 레이어 중심 픽셀)의 확률 밀도 함수 값을 산출하고, 픽셀 레이블링부는 제1 레이어 상에서 인접 픽셀 쌍의 엔트로피 차이를 반영하여 제1 레이어 상의 제1 픽셀(1차 레이어 중심 픽셀)의 확률 밀도 함수 값을 계산할 수 있다. 여기서, 1차 레이어 상의 제1 픽셀(중심 픽셀)은 2차 레이어 상의 제 3 픽셀로부터 간접적으로 영향을 받을 수 있다.
한편, 픽셀 레이블링부(120)에서 픽셀을 레이블링할 때, 확률 밀도 함수 값에 따른 소정의 레이블 구간, 레이블 기준, 레이블의 클래스 및 픽셀 레이블을 위한 알고리즘 등에 대해서는 제시된 실시 예에 한정되지 않고 다양한 실시 예가 존재할 수 있다.
또한, 클러스터링부(125)는 동일하게 레이블링된 제1 픽셀들을 클러스터링할 수 있다. 이때, 클러스터링부(125)는 동일하게 레이블링된 제1 픽셀들을 하나의 클러스터링된 박스로 표현할 수 있고, 하나의 프레임 내 다수개의 클러스터링 박스가 있을 수 있다. 이 경우, 각각의 클러스터링 박스는 객체와 객체 사이의 경계로 인식될 수 있다.
그 다음, 객체 인식부(130)는 레이블링된 제1 픽셀들을 기초로 객체를 인식할 수 있다(730). 픽셀 레이블링부(120)에 의해 이미지 내 모든 프레임들 각각에 대해 중심 픽셀(제1 픽셀)이 레이블링되면, 객체 인식부(130)는 동일하게 레이블링된 제1 픽셀들을 동일한 클래스의 객체로 인식할 수 있다. 객체 인식부(130)는 클러스터링부(125)에 의해 동일하게 레이블링된 제1 픽셀들이 클러스터링되면, 클러스터링 된 박스 별로 객체를 인식할 수 있다.
픽셀 레이블링부(120)에서 픽셀 단위의 레이블링을 하였다면, 객체 인식부(130)는 이미지 단위의 레이블링, 예를 들어 사람, 사물, 자동차, 동물, 개, 컵 등과 같은 하나 이상의 객체를 인식할 수 있다.
도 8은 일 실시 예에 따른 객체 인식 모델 학습 장치(200)를 이용한 인식 모델 학습 방법의 흐름도이다.
인접 픽셀 설정부(210)는 이미지 프레임 내의 각각의 픽셀들에 대하여, 제1 픽셀 및 제1 픽셀에 인접한 제2 픽셀을 포함하는 인접 픽셀 쌍을 설정할 수 있다(810). 일 실시 예에 따르면, 인접 픽셀 설정부(210)는 인접 차수 k(상수)에 따른 레이어와 인접 픽셀의 범위를 설정할 수 있다. 예를 들어, 인접 픽셀 설정부(110)는 제1 픽셀(중심 픽셀)을 중심으로 주변의 3*3 픽셀을 인접 픽셀로 설정하는 경우, 제2 픽셀(인접 픽셀)은 제1 픽셀(중심 픽셀)에 인접한 8개의 픽셀이고, 인접 픽셀 쌍은 제1 픽셀을 중심으로 8개의 제2 픽셀을 각각 포함하는 8개의 인접 픽셀 쌍일 수 있다. 다른 실시 예에 따르면, 인접 픽셀 설정부(110)는 제1 픽셀과의 인접 차수 k(상수)에 따라, k-레이어 상의 인접 픽셀 쌍을 설정할 수 있다.
이때, 픽셀 레이블링부(240)는 심층 신경망 기반의 모델을 이용하여 제1 픽셀을 레이블링(labeling)하되, 인접 픽셀 쌍의 확률 밀도 함수 값을 반영하여 제1 픽셀을 레이블링하는 단계를 더 포함할 수 있다. 여기서, 인접 픽셀 쌍 정의 함수는 각 픽셀의 확률 밀도 함수 값을 추정하기 위해 제2 픽셀을 이용했을 때 발생하는 인접 픽셀 쌍의 엔트로피 차이를 나타낼 수 있다. 픽셀 레이블링부는 쿨백 라이블러 발산 기법을 이용하여 인접 픽셀 쌍 정의 함수를 계산할 수 있다.
그 다음, 비용 함수 계산부(220)는 이미지 프레임 내의 각각의 픽셀들이 레이블링 되면, 제1 픽셀의 엔트로피 및 인접 픽셀 쌍의 엔트로피 차이를 이용하여 비용 함수를 계산할 수 있다(820). 이때, 비용 함수는 제1 픽셀의 레이블과 기준 신뢰 레이블(ground truth label)의 차이를 나타내는 함수일 수 있다. 여기서, 기준 신뢰 레이블은 심층 신경망 기반의 모델의 바람직한 결과물 또는 목표가 될 수 있다. 만일, 비용 함수가 최소화되면, 제1 픽셀의 레이블은 기준 신뢰 레이블과 동일할 수 있다. 이때, 학습부(230)는 비용 함수를 최소화하는 방향으로 심층망 기반의 인식 모델을 학습할 수 있다.
일 실시 예에 따르면, 비용 함수 계산부(220)는 제1 픽셀의 관측 확률의 엔트로피 및 인접 픽셀 쌍 정의 함수를 합산하여 비용 함수를 계산할 수 있다. 여기서, 제1 픽셀은 인접 픽셀(제2 픽셀)과의 상대적 관계에 따라 정의된 픽셀로, 인접 픽셀 설정부(110)는 이미지 프레임 내 각각의 픽셀들에 대해서 제1 픽셀을 설정할 수 있다. 즉, 비용 함수 계산부(220)는 각각의 픽셀에 대해, 제1 픽셀의 관측 확률의 엔트로피 및 인접 픽셀 쌍 정의 함수를 합산하고, 이를 이미지 프레임 내 전체 픽셀에 대해 계산함으로써 이미지 프레임 전체에 대한 비용 함수를 계산할 수 있다. 비용 함수(E)는 다음과 같은 수학식 (2) 에 의해서 정의될 수 있다.
Figure pat00009
--------수학식 (2)
비용 함수(cost function)는 제1 픽셀의 레이블과 기준 신뢰 레이블의 차이를 의미할 수 있으므로 Error Function 으로 불릴 수 있다. 여기서, ⅰ) Pi는 픽셀 i의 레이블이 그라운드 신뢰 레이블(li)로 동일할 때, x=li일 관측 확률이다(x∈{0, …. 11}). ⅱ) Ni는 i 픽셀 주변에 인접한 8개의 인접 픽셀(제2 픽셀)들이다. ⅲ) λ는 제1 픽셀의 관측 확률(unary term)과 인접 픽셀 쌍 정의 함수(pairwise term) 사이의 비례 제어 파라미터이다. ⅳ) 인접 픽셀 쌍 정의 함수 L(i,j) 는 쿨백 라이블러 발산 기법을 이용하여 계산될 수 있다. 예를 들어, 인접 픽셀 쌍 정의 함수 L(i,j) 는
Figure pat00010
을 이용하여 계산할 수 있다. 여기서, 쿨백 라이블러 발산의 정의에 의하면, 비용 함수 계산부(220)는 다음과 같은 수학식 (3)을 인접 픽셀 쌍 정의 함수에 적용할 수 있다.
Figure pat00011
-----------------수학식 (3)
비용 함수 계산부(220)는 수학식 (3)을 인접 픽셀 쌍 정의에 적용하면, 계산된 인접 픽셀 쌍 정의 함수를 다음과 같이 기술할 수 있다.
Figure pat00012
-------------------------------------------------------------- 수학식 (4)
비용 함수 계산부(220)는 i 픽셀(제1 픽셀)의 레이블과 j 픽셀의 레이블이 동일하면 (l=li=lj), 인접 픽셀 쌍 정의 함수를 제1 픽셀 및 제2 픽셀의 크로스 엔트로피(CE, Cross Entropy)로 계산할 수 있다.
또한, 비용 함수 계산부(220)는 i 픽셀(제1 픽셀)의 레이블과 j 픽셀의 레이블이 동일하지 않으면(li≠lj), 인접 픽셀 쌍 정의 함수를 0 또는
Figure pat00013
중 최대값(max 함수)으로 계산할 수 있다. 즉,
Figure pat00014
를 계산한 값이 0보다 작은 경우, 인접 픽셀 쌍의 최소값으로 0을 도출할 수 있다. 여기서, α는 관측 또는 학습에 따라 결정될 수 있는 상수이고, 인접 픽셀 쌍 정의 함수는 쿨백 라이블러 발산을 이용하여 수학식 (4)와 같이 계산될 수 있다.
도 4를 참고하면, i 픽셀의 레이블과 j 픽셀의 레이블이 동일한 경우(li=lj) 서브 케이스는 없고(N/A, Not Available) 비용 함수의 도함수(△E)는 이다.
i 픽셀의 레이블과 j픽셀의 레이블이 동일하지 않은 경우(li≠lj), 이면, 비용 함수의 도함수는 이다. 한편, 이면, 비용 함수의 도함수는 으로 계산된다.
그 다음, 학습부(230)는 계산된 비용 함수에 기초하여 심층 신경망(Deep Neural Network) 기반의 인식 모델을 학습한다(830). 일 실시 예에 따르면, 학습부(230)는 비용 함수를 최소화하는 방향으로 심층 신경망 기반의 모델을 학습을 할 수 있다. 학습부(230)는 비용 함수를 최소화하는 파라미터를 설정하고, 설정한 파라미터로 심층 신경망 기반의 모델을 학습할 수 있다. 이때, 학습부(230)는 파라미터를 심층 신경망 기반의 모델에 가중치로 설정할 수 있다.
만일, 비용 함수가 0 또는 확률 밀도 구간 내의 소정의 차이에 불과하면, 픽셀 레이블링부(120)에서 수행한 픽셀의 레이블이, 기준 신뢰 레이블과 동일하게 레이블 되었다고 볼 수 있다.
예를 들어, 학습부(230)는 제1 픽셀(중심 픽셀)의 레이블과 제2 픽셀(인접 픽셀)의 레이블이 같으면, 제1 픽셀의 확률 밀도 함수 값과 제2 픽셀의 확률 밀도 함수 값이 유사하도록 학습할 수 있다. 이때, 학습부(230)는 제1 픽셀의 확률 밀도 함수 값과 제2 픽셀의 확률 밀도 함수 값이 유사하다는 것을 제한 요소(constrain)으로 설정하여 심층 신경망 기반의 모델을 학습할 수 있다. 이 경우, 학습부(230)는 심층 신경망 기반의 모델로부터 출력되는 주변 확률(marginal probability)를 유사하게 만드는 방향으로 학습할 수 있다.
또한, 제1 픽셀(중심 픽셀)의 레이블과 제2 픽셀(인접 픽셀)의 레이블이 동일하지 않은 경우, 제1 픽셀의 확률 밀도 함수 값과 제2 픽셀의 확률 밀도 함수 값이 차이가 많이 나도록 학습할 수 있다. 이 경우, 학습부(230)는 주변 확률(output marginal probability)을 다르게 만드는 방향으로 학습할 수 있다.
본 실시 예들은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.
컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 실시 예들을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.
본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
100: 객체 인식 장치
110, 210: 인접 픽셀 설정부
120: 픽셀 레이블링부
125: 클러스터링부
130: 객체 인식부
200: 객체 인식 모델 학습 장치
220: 비용 함수 계산부
230: 학습부

Claims (26)

  1. 이미지 프레임 내의 각각의 픽셀들에 대하여, 제1 픽셀 및 상기 제1 픽셀에 인접한 하나 이상의 제2 픽셀을 포함하는 인접 픽셀 쌍을 설정하는 인접 픽셀 설정부;
    심층 신경망 기반의 모델을 이용하여 상기 제1 픽셀을 레이블링(labeling)하되, 상기 인접 픽셀 쌍의 확률 밀도 함수 값을 고려하여 상기 제1 픽셀을 레이블링하는 픽셀 레이블링부;
    상기 레이블링된 제1 픽셀들을 기초로 객체를 인식하는 객체 인식부;를 포함하는 객체 인식 장치.
  2. 제1항에 있어서,
    상기 제2 픽셀은 상기 제1 픽셀에 인접한 8개의 픽셀이고,
    상기 인접 픽셀 쌍은 상기 제1 픽셀을 중심으로 8개의 제2 픽셀을 각각 포함하는 8개의 인접 픽셀 쌍인 객체 인식 장치.
  3. 제1항에 있어서,
    상기 인접 픽셀 설정부는 상기 제1 픽셀과의 인접 차수 k(상수)에 따라, k-레이어 상의 인접 픽셀 쌍을 더 설정하는 객체 인식 장치.
  4. 제1항에 있어서,
    상기 심층 신경망 기반의 모델은 공간 정보를 이용하는 CNN(Convolutional Neural Network) 모델 및 시간 정보를 이용하는 RDNN(Recurrent Deep Neural Network)모델 중 어느 하나 또는 이들의 조합을 포함하는 객체 인식 장치.
  5. 제1항에 있어서,
    상기 픽셀 레이블링부는 인접 픽셀 쌍 정의 함수를 이용하여 상기 제1 픽셀을 레이블링하고,
    상기 인접 픽셀 쌍 정의 함수는 상기 제1 픽셀의 확률 밀도 함수 값을 추정하기 위해 제2 픽셀을 이용했을 때 발생하는 상기 인접 픽셀 쌍의 엔트로피 차이를 나타내는 객체 인식 장치.
  6. 제5항에 있어서,
    상기 픽셀 레이블링부는 쿨백 라이블러 발산(Dkl, Divergence of Kullback Leibler)기법을 이용하여 상기 인접 픽셀 쌍 정의 함수를 계산하는 객체 인식 장치.
  7. 제1항에 있어서,
    상기 객체 인식부는 동일하게 레이블링된 제1 픽셀들을 동일한 클래스의 객체로 인식하는 객체 인식 장치.
  8. 이미지 프레임 내의 각각의 픽셀들에 대하여, 제1 픽셀 및 상기 제1 픽셀에 인접한 하나 이상의 제2 픽셀을 포함하는 인접 픽셀 쌍을 설정하는 인접 픽셀 설정부;
    상기 각각의 픽셀들이 레이블링 되면, 상기 제1 픽셀의 엔트로피 및 상기 인접 픽셀 쌍의 엔트로피 차이를 이용하여 비용 함수를 계산하는 비용 함수 계산부; 및
    상기 계산된 비용 함수에 기초하여 심층 신경망(Deep Neural Network) 기반의 객체 인식 모델을 학습하는 학습부를 포함하는 객체 인식 모델 학습 장치.
  9. 제8항에 있어서,
    상기 심층 신경망 기반의 객체 인식 모델은 공간 정보를 이용하는 CNN(Convolutional Neural Network) 모델 및 시간 정보를 이용하는 RDNN(Recurrent Deep Neural Network)모델 중 어느 하나 또는 이들의 조합을 포함하는 객체 인식 모델 학습 장치.
  10. 제8항에 있어서,
    상기 심층 신경망 기반의 객체 인식 모델을 이용하여 상기 제1 픽셀을 레이블링(labeling)하되, 인접 픽셀 쌍 정의 함수를 이용하여 상기 제1 픽셀을 레이블링하는 픽셀 레이블링부를 더 포함하고,
    상기 인접 픽셀 쌍 정의 함수는 상기 제1 픽셀의 확률 밀도 함수 값을 추정하기 위해 제2 픽셀을 이용했을 때 발생하는 상기 인접 픽셀 쌍의 엔트로피 차이를 나타내는 객체 인식 모델 학습 장치.
  11. 제10항에 있어서,
    상기 픽셀 레이블링부는 쿨백 라이블러 발산(Dkl, Divergence of Kullback Leibler)기법을 이용하여 상기 인접 픽셀 쌍 정의 함수를 계산하는 객체 인식 모델 학습 장치.
  12. 제8항에 있어서,
    상기 비용 함수는 상기 제1 픽셀의 레이블과 기준 신뢰 레이블(ground truth label) 사이의 차이를 나타내는 함수인 객체 인식 모델 학습 장치.
  13. 제10항에 있어서,
    상기 비용 함수 계산부는 상기 제1 픽셀의 관측 확률의 엔트로피 및 상기 인접 픽셀 쌍 정의 함수를 합산하여 상기 비용 함수를 계산하는 객체 인식 모델 학습 장치.
  14. 제13항에 있어서,
    상기 비용 함수 계산부는 상기 제1 픽셀의 레이블 및 제2 픽셀의 레이블이 동일하면, 상기 인접 픽셀 쌍 정의 함수를 상기 제1 픽셀 및 상기 제2 픽셀의 크로스 엔트로피로 계산하는 객체 인식 모델 학습 장치.
  15. 제13항에 있어서,
    상기 비용 함수 계산부는 상기 계산된 인접 픽셀 쌍 정의 함수가 소정의 값 이하 일 때, 상기 인접 픽셀 쌍 정의 함수의 최소값을 0으로 계산하는 객체 인식 모델 학습 장치.
  16. 제8항에 있어서,
    상기 학습부는 상기 비용 함수를 최소화하는 파라미터를 설정하고, 상기 파라미터로 상기 심층 신경망 기반의 객체 인식 모델을 학습하는 객체 인식 모델 학습 장치.
  17. 이미지 프레임 내의 각각의 픽셀들에 대하여, 제1 픽셀 및 상기 제1 픽셀에 인접한 하나 이상의 제2 픽셀을 포함하는 인접 픽셀 쌍을 설정하는 단계;
    심층 신경망 기반의 모델을 이용하여 상기 제1 픽셀을 레이블링(labeling)하되, 상기 인접 픽셀 쌍의 확률 밀도 함수 값을 고려하여 상기 제1 픽셀을 레이블링하는 단계;
    상기 레이블링된 제1 픽셀들을 기초로 객체를 인식하는 단계를 포함하는 객체 인식 방법.
  18. 제17항에 있어서,
    상기 인접 픽셀 쌍을 설정하는 단계는 상기 제1 픽셀과의 인접 차수 k(상수)에 따라, k-레이어 상의 인접 픽셀 쌍을 더 설정하는 객체 인식 방법.
  19. 제17항에 있어서,
    상기 제1 픽셀을 레이블링하는 단계는 인접 픽셀 쌍 정의 함수를 이용하여 상기 제1 픽셀을 레이블링하고,
    상기 인접 픽셀 쌍 정의 함수는 상기 제1 픽셀의 확률 밀도 함수 값을 추정하기 위해 제2 픽셀을 이용했을 때 발생하는 정보 엔트로피의 차이를 나타내는 객체 인식 방법.
  20. 제19항에 있어서,
    상기 제1 픽셀을 레이블링하는 단계는 쿨백 라이블러 발산(Dkl, Divergence of Kullback-leibler) 기법을 이용하여 상기 인접 픽셀 쌍 정의 함수를 계산하는 객체 인식 방법.
  21. 이미지 프레임 내의 각각의 픽셀들에 대하여, 제1 픽셀 및 상기 제1 픽셀에 인접한 하나 이상의 제2 픽셀을 포함하는 인접 픽셀 쌍을 설정하는 단계;
    상기 이미지 프레임 내의 픽셀들이 레이블링 되면, 상기 제1 픽셀의 엔트로피 및 상기 인접 픽셀 쌍의 엔트로피 차이에 기초하여 비용 함수를 계산하는 단계; 및
    상기 계산된 비용 함수에 기초하여 심층 신경망(Deep Neural Network) 기반의 객체 인식 모델을 학습하는 단계를 포함하는 객체 인식 모델 학습 방법.
  22. 제21항에 있어서,
    상기 심층 신경망 기반의 객체 인식 모델을 이용하여 상기 제1 픽셀을 레이블링(labeling)하되, 인접 픽셀 쌍 정의 함수를 이용하여 상기 제1 픽셀을 레이블링하는 단계를 더 포함하고,
    상기 인접 픽셀 쌍 정의 함수는 상기 제1 픽셀의 확률 밀도 함수 값을 추정하기 위해 제2 픽셀을 이용했을 때 발생하는 상기 인접 픽셀 쌍의 엔트로피 차이를 나타내는 객체 인식 모델 학습 방법.
  23. 제22항에 있어서,
    상기 제1 픽셀을 레이블링하는 단계는 쿨백 라이블러 발산(Dkl, Divergence of Kullback-leibler)기법을 이용하여 상기 인접 픽셀 쌍 정의 함수를 계산하는 객체 인식 모델 학습 방법.
  24. 제22항에 있어서,
    상기 비용 함수를 계산하는 단계는 상기 제1 픽셀의 관측 확률의 엔트로피 및 상기 인접 픽셀 쌍 정의 함수를 합산하여 상기 비용 함수를 계산하는 객체 인식 모델 학습 방법.
  25. 제24항에 있어서,
    상기 비용 함수를 계산하는 단계는 상기 제1 픽셀의 레이블 및 제2 픽셀의 레이블이 동일하면, 상기 인접 픽셀 쌍 정의 함수를 상기 제1 픽셀 및 상기 제2 픽셀의 크로스 엔트로피로 계산하는 객체 인식 모델 학습 방법.
  26. 제24항에 있어서,
    상기 비용 함수를 계산하는 단계는 상기 계산된 인접 픽셀 쌍 정의 함수가 소정의 값 이하 일 때, 상기 인접 픽셀 쌍 정의 함수의 최소값을 0으로 계산하는 객체 인식 모델 학습 방법.


KR1020150132625A 2015-09-18 2015-09-18 객체 인식 장치 및 방법, 객체 인식 모델 학습 장치 및 방법 KR102147361B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020150132625A KR102147361B1 (ko) 2015-09-18 2015-09-18 객체 인식 장치 및 방법, 객체 인식 모델 학습 장치 및 방법
US15/266,231 US10133938B2 (en) 2015-09-18 2016-09-15 Apparatus and method for object recognition and for training object recognition model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150132625A KR102147361B1 (ko) 2015-09-18 2015-09-18 객체 인식 장치 및 방법, 객체 인식 모델 학습 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20170034226A true KR20170034226A (ko) 2017-03-28
KR102147361B1 KR102147361B1 (ko) 2020-08-24

Family

ID=58282511

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150132625A KR102147361B1 (ko) 2015-09-18 2015-09-18 객체 인식 장치 및 방법, 객체 인식 모델 학습 장치 및 방법

Country Status (2)

Country Link
US (1) US10133938B2 (ko)
KR (1) KR102147361B1 (ko)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101891631B1 (ko) * 2018-03-07 2018-08-27 (주)크레아소프트 영상 학습 장치, 이를 이용한 촬영영상 분석 시스템 및 방법, 이를 수행하기 위한 기록매체
WO2018212494A1 (ko) * 2017-05-17 2018-11-22 삼성전자 주식회사 객체를 식별하는 방법 및 디바이스
KR101954717B1 (ko) 2018-10-22 2019-03-06 주식회사 인텔리빅스 고속분석 영상처리장치 및 그 장치의 구동방법
KR101954719B1 (ko) 2018-08-09 2019-03-06 주식회사 인텔리빅스 이벤트감지장치 및 그 장치의 구동방법
KR101961687B1 (ko) * 2017-10-20 2019-03-25 한국항공대학교산학협력단 장면 흐름 추정을 위한 장면 흐름 학습 방법 및 장면 흐름 추정 방법
KR101963404B1 (ko) 2018-06-14 2019-03-28 가천대학교 산학협력단 2-단계 최적화 딥 러닝 방법, 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록매체 및 딥 러닝 시스템
WO2019059505A1 (ko) * 2017-09-22 2019-03-28 삼성전자 주식회사 객체를 인식하는 방법 및 장치
KR20190043720A (ko) * 2017-10-19 2019-04-29 한국과학기술원 전문화에 기반한 신뢰성 높은 딥러닝 앙상블 방법 및 장치
KR20190067680A (ko) * 2017-12-07 2019-06-17 한양대학교 산학협력단 심층 학습을 이용하는 의미적 영상 분할 방법
KR20190120489A (ko) 2018-04-16 2019-10-24 연세대학교 산학협력단 영상 인식 장치 및 방법
KR20190124113A (ko) * 2018-04-25 2019-11-04 연세대학교 산학협력단 자가 지도 학습을 이용한 딥러닝 기반 도로 영역 추정 장치 및 방법
WO2019235828A1 (ko) * 2018-06-04 2019-12-12 주식회사 딥바이오 투 페이스 질병 진단 시스템 및 그 방법
US10769453B2 (en) 2017-05-16 2020-09-08 Samsung Electronics Co., Ltd. Electronic device and method of controlling operation of vehicle
US10805634B2 (en) 2017-05-17 2020-10-13 Samsung Electronics Co., Ltd Super-resolution processing method for moving image and image processing apparatus therefor
US10803323B2 (en) 2017-05-16 2020-10-13 Samsung Electronics Co., Ltd. Electronic device and method of detecting driving event of vehicle
KR102254037B1 (ko) 2020-11-13 2021-05-20 주식회사 인텔리빅스 영상분석장치 및 그 장치의 구동방법
KR20210144294A (ko) 2020-05-22 2021-11-30 삼성에스디에스 주식회사 이미지 분할 모델 학습 장치 및 방법
KR20210152025A (ko) * 2020-04-24 2021-12-14 주식회사 스트라드비젼 자율주행 자동차의 퍼셉션 네트워크를 학습시키기 위한 온-비히클 액티브 러닝 방법 및 장치
WO2023120988A1 (ko) * 2021-12-22 2023-06-29 경북대학교 산학협력단 딥러닝 기반 객체 검출기를 이용한 차량 카메라 폐색 분류 장치 및 그 방법

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018035805A1 (en) * 2016-08-25 2018-03-01 Intel Corporation Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation
US10096125B1 (en) * 2017-04-07 2018-10-09 Adobe Systems Incorporated Forecasting multiple poses based on a graphical image
US20180313950A1 (en) * 2017-05-01 2018-11-01 Farrokh Mohamadi CNN-Based Remote Locating and Tracking of Individuals Through Walls
US11392133B2 (en) 2017-06-06 2022-07-19 Plusai, Inc. Method and system for object centric stereo in autonomous driving vehicles
US11042155B2 (en) 2017-06-06 2021-06-22 Plusai Limited Method and system for closed loop perception in autonomous driving vehicles
US11573573B2 (en) 2017-06-06 2023-02-07 Plusai, Inc. Method and system for distributed learning and adaptation in autonomous driving vehicles
US11521045B2 (en) 2017-06-14 2022-12-06 Knowm, Inc. Anti-Hebbian and Hebbian (AHAH) computing
CN107527074B (zh) * 2017-09-05 2020-04-07 百度在线网络技术(北京)有限公司 用于车辆的图像处理方法和装置
DE102017218851A1 (de) * 2017-10-23 2019-04-25 Robert Bosch Gmbh Verfahren, Vorrichtung und Computerprogramm zur Erstellung eines tiefen neuronalen Netzes
CA3099443A1 (en) * 2017-11-02 2019-05-09 Airworks Solutions, Inc. Methods and apparatus for automatically defining computer-aided design files using machine learning, image analytics, and/or computer vision
US10572775B2 (en) * 2017-12-05 2020-02-25 X Development Llc Learning and applying empirical knowledge of environments by robots
CN110197190B (zh) * 2018-02-27 2022-11-01 北京猎户星空科技有限公司 模型训练和物体的定位方法及装置
CN110197100B (zh) * 2018-02-27 2022-07-26 北京猎户星空科技有限公司 物体定位方法和装置
US10140553B1 (en) * 2018-03-08 2018-11-27 Capital One Services, Llc Machine learning artificial intelligence system for identifying vehicles
CN108717542B (zh) * 2018-04-23 2020-09-15 北京小米移动软件有限公司 识别文字区域的方法、装置及计算机可读存储介质
US10878276B2 (en) 2018-06-05 2020-12-29 Hrl Laboratories, Llc Method and system for detecting change of context in video streams
KR20200010640A (ko) * 2018-06-27 2020-01-31 삼성전자주식회사 모션 인식 모델을 이용한 자체 운동 추정 장치 및 방법, 모션 인식 모델 트레이닝 장치 및 방법
JP7261022B2 (ja) * 2019-01-30 2023-04-19 キヤノン株式会社 情報処理システム、端末装置及びその制御方法、プログラム、記憶媒体
US10924625B2 (en) * 2019-03-20 2021-02-16 Xerox Corporation Dynamic compression acceleration using real-time image data entropy analysis
US11037968B2 (en) 2019-04-05 2021-06-15 Waymo Llc Image sensor architecture
US11369106B2 (en) 2019-04-12 2022-06-28 Charles Hartman King Automatic animal detection and deterrent system
KR20200132468A (ko) * 2019-05-17 2020-11-25 삼성전자주식회사 첨단 운전자 지원 장치 및 이의 객체를 검출하는 방법
US11921473B2 (en) * 2019-06-28 2024-03-05 Intel Corporation Methods and apparatus to generate acceptability criteria for autonomous systems plans
CN110287915B (zh) * 2019-06-28 2020-12-04 南京林业大学 一种基于Landsat遥感影像的城市不透水层提取方法
US20240265702A1 (en) * 2021-11-04 2024-08-08 Commonwealth Scientific And Industrial Research Organisation Object recognition

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090068943A (ko) * 2007-12-24 2009-06-29 연세대학교 산학협력단 변이 추정 시의 비용 함수 연산 방법 및 가려진 영역 처리방법
KR20130009372A (ko) * 2011-07-15 2013-01-23 국립대학법인 울산과학기술대학교 산학협력단 움직임 추정 장치 및 그 방법
KR20150054258A (ko) * 2013-11-11 2015-05-20 삼성전자주식회사 인식기 학습 방법 및 장치, 데이터 인식 방법 및 장치

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9007197B2 (en) 2002-05-20 2015-04-14 Intelligent Technologies International, Inc. Vehicular anticipatory sensor system
US7952490B2 (en) 2005-02-22 2011-05-31 Continental Temic Microelectronic GmbH Method for identifying the activation of the brake lights of preceding vehicles
US20070252035A1 (en) 2005-11-29 2007-11-01 Hubbard James E Jr Unmanned vehicle
JP5581796B2 (ja) 2010-05-10 2014-09-03 トヨタ自動車株式会社 運転支援装置
US9280711B2 (en) 2010-09-21 2016-03-08 Mobileye Vision Technologies Ltd. Barrier and guardrail detection using a single camera
US9233659B2 (en) 2011-04-27 2016-01-12 Mobileye Vision Technologies Ltd. Pedestrian collision warning system
DE102011116169A1 (de) 2011-10-14 2013-04-18 Continental Teves Ag & Co. Ohg Vorrichtung zur Unterstützung eines Fahrers beim Fahren eines Fahrzeugs oder zum autonomen Fahren eines Fahrzeugs
KR20130085235A (ko) 2012-01-19 2013-07-29 김동용 자동차의 무인 운전 시스템
JP2013171390A (ja) 2012-02-20 2013-09-02 Toyota Motor Corp 運転支援装置
US20130325202A1 (en) 2012-06-01 2013-12-05 GM Global Technology Operations LLC Neuro-cognitive driver state processing
JP2014078056A (ja) 2012-10-09 2014-05-01 Honda Elesys Co Ltd 車両用領域識別装置、そのプログラム及びその方法
US9256791B2 (en) 2012-12-04 2016-02-09 Mobileye Vision Technologies Ltd. Road vertical contour detection
KR101417522B1 (ko) 2012-12-27 2014-08-06 현대자동차주식회사 고속도로 자율주행 시스템 및 방법
JP2014228943A (ja) 2013-05-20 2014-12-08 日本電産エレシス株式会社 車両用外界センシング装置、その軸ズレ補正プログラム及びその軸ズレ補正方法
KR101519215B1 (ko) 2013-09-05 2015-05-11 현대오트론 주식회사 운전보조시스템 및 그 제어방법
US8917327B1 (en) * 2013-10-04 2014-12-23 icClarity, Inc. Method to use array sensors to measure multiple types of data at full resolution of the sensor
US20150103184A1 (en) 2013-10-15 2015-04-16 Nvidia Corporation Method and system for visual tracking of a subject for automatic metering using a mobile device
KR101511858B1 (ko) 2013-11-04 2015-04-13 현대오트론 주식회사 보행자 또는 이륜차를 인지하는 운전보조시스템 및 그 제어방법
US9653093B1 (en) * 2014-08-19 2017-05-16 Amazon Technologies, Inc. Generative modeling of speech using neural networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090068943A (ko) * 2007-12-24 2009-06-29 연세대학교 산학협력단 변이 추정 시의 비용 함수 연산 방법 및 가려진 영역 처리방법
KR20130009372A (ko) * 2011-07-15 2013-01-23 국립대학법인 울산과학기술대학교 산학협력단 움직임 추정 장치 및 그 방법
KR20150054258A (ko) * 2013-11-11 2015-05-20 삼성전자주식회사 인식기 학습 방법 및 장치, 데이터 인식 방법 및 장치

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10769453B2 (en) 2017-05-16 2020-09-08 Samsung Electronics Co., Ltd. Electronic device and method of controlling operation of vehicle
US10803323B2 (en) 2017-05-16 2020-10-13 Samsung Electronics Co., Ltd. Electronic device and method of detecting driving event of vehicle
WO2018212494A1 (ko) * 2017-05-17 2018-11-22 삼성전자 주식회사 객체를 식별하는 방법 및 디바이스
US11176402B2 (en) 2017-05-17 2021-11-16 Samsung Electronics Co., Ltd Method and device for identifying object
US10805634B2 (en) 2017-05-17 2020-10-13 Samsung Electronics Co., Ltd Super-resolution processing method for moving image and image processing apparatus therefor
US11170201B2 (en) 2017-09-22 2021-11-09 Samsung Electronics Co., Ltd. Method and apparatus for recognizing object
WO2019059505A1 (ko) * 2017-09-22 2019-03-28 삼성전자 주식회사 객체를 인식하는 방법 및 장치
KR20190043720A (ko) * 2017-10-19 2019-04-29 한국과학기술원 전문화에 기반한 신뢰성 높은 딥러닝 앙상블 방법 및 장치
KR101961687B1 (ko) * 2017-10-20 2019-03-25 한국항공대학교산학협력단 장면 흐름 추정을 위한 장면 흐름 학습 방법 및 장면 흐름 추정 방법
KR20190067680A (ko) * 2017-12-07 2019-06-17 한양대학교 산학협력단 심층 학습을 이용하는 의미적 영상 분할 방법
KR101891631B1 (ko) * 2018-03-07 2018-08-27 (주)크레아소프트 영상 학습 장치, 이를 이용한 촬영영상 분석 시스템 및 방법, 이를 수행하기 위한 기록매체
KR20190120489A (ko) 2018-04-16 2019-10-24 연세대학교 산학협력단 영상 인식 장치 및 방법
KR20190124113A (ko) * 2018-04-25 2019-11-04 연세대학교 산학협력단 자가 지도 학습을 이용한 딥러닝 기반 도로 영역 추정 장치 및 방법
KR20190143510A (ko) * 2018-06-04 2019-12-31 주식회사 딥바이오 투 페이스 질병 진단 시스템 및 그 방법
CN112384989A (zh) * 2018-06-04 2021-02-19 第一百欧有限公司 一种两阶段疾病诊断系统及其方法
US12051504B2 (en) 2018-06-04 2024-07-30 Deep Bio Inc. Two-phase disease diagnosis system and method thereof
WO2019235828A1 (ko) * 2018-06-04 2019-12-12 주식회사 딥바이오 투 페이스 질병 진단 시스템 및 그 방법
KR101963404B1 (ko) 2018-06-14 2019-03-28 가천대학교 산학협력단 2-단계 최적화 딥 러닝 방법, 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록매체 및 딥 러닝 시스템
KR101954719B1 (ko) 2018-08-09 2019-03-06 주식회사 인텔리빅스 이벤트감지장치 및 그 장치의 구동방법
KR101954717B1 (ko) 2018-10-22 2019-03-06 주식회사 인텔리빅스 고속분석 영상처리장치 및 그 장치의 구동방법
KR20210152025A (ko) * 2020-04-24 2021-12-14 주식회사 스트라드비젼 자율주행 자동차의 퍼셉션 네트워크를 학습시키기 위한 온-비히클 액티브 러닝 방법 및 장치
KR20210144294A (ko) 2020-05-22 2021-11-30 삼성에스디에스 주식회사 이미지 분할 모델 학습 장치 및 방법
US11341653B2 (en) 2020-05-22 2022-05-24 Samsung Sds Co., Ltd. Apparatus and method for training model for image segmentation
KR102254037B1 (ko) 2020-11-13 2021-05-20 주식회사 인텔리빅스 영상분석장치 및 그 장치의 구동방법
WO2023120988A1 (ko) * 2021-12-22 2023-06-29 경북대학교 산학협력단 딥러닝 기반 객체 검출기를 이용한 차량 카메라 폐색 분류 장치 및 그 방법

Also Published As

Publication number Publication date
KR102147361B1 (ko) 2020-08-24
US20170083772A1 (en) 2017-03-23
US10133938B2 (en) 2018-11-20

Similar Documents

Publication Publication Date Title
KR20170034226A (ko) 객체 인식 장치 및 방법, 객체 인식 모델 학습 장치 및 방법
EP3430427B1 (en) Processing method of a 3d point cloud
US20190371052A1 (en) Inferring locations of 3d objects in a spatial environment
CN111860227B (zh) 训练轨迹规划模型的方法、装置和计算机存储介质
JP6946255B2 (ja) 学習装置、推定装置、学習方法およびプログラム
WO2022193497A1 (en) Method and system for graph-based panoptic segmentation
CN112668648A (zh) 基于对称融合网络的红外可见光融合识别方法
US20220335258A1 (en) Systems and methods for dataset and model management for multi-modal auto-labeling and active learning
CN111709471B (zh) 对象检测模型的训练方法以及对象检测方法、装置
CN112001378B (zh) 基于特征空间的车道线处理方法、装置、车载终端和介质
Jhong et al. Nighttime object detection system with lightweight deep network for internet of vehicles
Knyaz et al. Intelligent mobile object monitoring by unmanned aerial vehicles
US20230154198A1 (en) Computer-implemented method for multimodal egocentric future prediction
de Frías et al. Intelligent cooperative system for traffic monitoring in smart cities
Alajlan et al. Automatic lane marking prediction using convolutional neural network and S-Shaped Binary Butterfly Optimization
Al Hakim 3D YOLO: End-to-end 3D object detection using point clouds
US20220383510A1 (en) Method For Training A Neural Network For Semantic Image Segmentation
Hehn et al. Instance stixels: Segmenting and grouping stixels into objects
CN113569803A (zh) 一种基于多尺度卷积的多模态数据融合车道目标检测的方法及系统
Tang et al. Behavior automatic analysis for wolf pack hunting: making fast behavior analysis of massive data possible
Bajkowski et al. Evaluating visuospatial features for tracking hazards in overhead uas imagery
Zhou Distance Estimation Based on Computer Vision
Tekin Vehicle Path Prediction Using Recurrent Neural Network
Sock et al. Probabilistic traversability map building for autonomous navigation
JP2023535475A (ja) ターゲットとした総合相違損失を用いるセマンティック・セグメンテーション

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant