KR102259878B1 - 융합 컨볼루셔널 오토인코더를 이용한 객체의 회전에 영향을 받지 않는 분류 모델을 생성하기 위한 장치 및 이를 위한 방법 - Google Patents

융합 컨볼루셔널 오토인코더를 이용한 객체의 회전에 영향을 받지 않는 분류 모델을 생성하기 위한 장치 및 이를 위한 방법 Download PDF

Info

Publication number
KR102259878B1
KR102259878B1 KR1020200165967A KR20200165967A KR102259878B1 KR 102259878 B1 KR102259878 B1 KR 102259878B1 KR 1020200165967 A KR1020200165967 A KR 1020200165967A KR 20200165967 A KR20200165967 A KR 20200165967A KR 102259878 B1 KR102259878 B1 KR 102259878B1
Authority
KR
South Korea
Prior art keywords
dimensional
autoencoder
image
classification model
encoder
Prior art date
Application number
KR1020200165967A
Other languages
English (en)
Inventor
최우식
김태규
윤지용
Original Assignee
주식회사 딥노이드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 딥노이드 filed Critical 주식회사 딥노이드
Priority to KR1020200165967A priority Critical patent/KR102259878B1/ko
Application granted granted Critical
Publication of KR102259878B1 publication Critical patent/KR102259878B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 발명의 분류모델을 생성하기 위한 장치는 3차원 이미지를 처리하기 위한 3차원인코더, 3차원디코더 및 상기 3차원인코더와 상기 3차원디코더를 연결하며, 입력된 이미지로부터 물체의 입체적 구조에 대한 정보인 형태 정보에 대한 특징을 추출하는 형태특징추출부를 포함하는 3차원잠재계층을 포함하는 3차원 오토인코더를 마련하고, 2차원 이미지를 처리하기 위한 상기 2차원인코더, 상기 2차원디코더 및 상기 2차원인코더와 상기 2차원디코더를 연결하며 상기 3차원잠재계층과 상기 형태특징추출부를 공유하는 2차원잠재계층을 포함하는 2차원 오토인코더를 마련하고, 상기 3차원 오토인코더 및 상기 오토인코더를 함께 학습시키고, 상기 학습이 완료되면, 상기 2차원인코더 및 상기 형태특징추출부를 포함하는 상기 2차원잠재계층을 추출하여 분류모델을 생성하는 모델생성부를 포함한다.

Description

융합 컨볼루셔널 오토인코더를 이용한 객체의 회전에 영향을 받지 않는 분류 모델을 생성하기 위한 장치 및 이를 위한 방법{Apparatus for generating a classification model unaffected by rotation of an object using a Fused Convolutional Autoencoder and a method therefor}
본 발명은 분류 모델 생성 기술에 관한 것으로, 보다 상세하게는, 2차원 및 3차원이 융합된 컨볼루셔널 오토인코더를 이용하여 물체의 회전에 영향을 받지 않는 분류 모델을 생성하기 위한 장치 및 이를 위한 방법에 관한 것이다.
최근 AI 기술의 발전으로 인공지능을 이용한 자율주행 자동차, 의료데이터 분석, 지능형 개인비서, 지능형 CCTV 등 많은 곳에 적용되어 사용되고 있다. 인공지능은 데이터를 기반으로 컴퓨터가 스스로 학습한 내용을 바탕으로 회귀, 분류, 군집화 등의 예측 작업을 수행하는 것을 말한다.
지도 학습은 학습데이터로부터 하나의 함수를 유추해내기 위한 인공지능의 한 방법이다. 학습 데이터는 일반적으로 입력 객체에 대한 속성을 벡터 형태로 포함하고 있으며 각각의 벡터에 대해 원하는 결과가 무엇인지 표시되어있다. 이렇게 유추된 함수 중 연속적인 값을 출력하는 것을 회귀분석이라 하고 주어진 입력 벡터가 어떤 종류의 값인지 표식하는 것을 분류라 한다. 분류 또는 회귀에 대한 지도학습 인공지능 알고리즘들의 적용에서, 종속 변수는 러닝 되는 변수이며, 이는 분류 경우에서는 이산적이며 회귀 경우에서는 연속적이고, 분류 시에 태그 또는 라벨로써 알려진다.
한국공개특허 제2007-0060862호 2007년 06월 13일 공개 (명칭: 학습 데이터 구축 장치 및 방법)
본 발명의 목적은 융합 컨볼루셔널 오토인코더를 이용한 객체의 회전, 즉, 포즈의 변화에 영향을 받지 않고 정확하게 이미지 상의 객체를 분류할 수 있는 분류 모델을 생성하기 위한 장치 및 이를 위한 방법을 제공함에 있다.
상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 분류모델을 생성하기 위한 장치는 3차원 이미지를 처리하기 위한 3차원인코더, 3차원디코더 및 상기 3차원인코더와 상기 3차원디코더를 연결하며, 입력된 이미지로부터 물체의 입체적 구조에 대한 정보인 형태 정보에 대한 특징을 추출하는 형태특징추출부를 포함하는 3차원잠재계층을 포함하는 3차원 오토인코더를 마련하고, 2차원 이미지를 처리하기 위한 상기 2차원인코더, 상기 2차원디코더 및 상기 2차원인코더와 상기 2차원디코더를 연결하며 상기 3차원잠재계층과 상기 형태특징추출부를 공유하는 2차원잠재계층을 포함하는 2차원 오토인코더를 마련하고, 상기 3차원 오토인코더 및 상기 오토인코더를 함께 학습시키고, 상기 학습이 완료되면, 상기 2차원인코더 및 상기 형태특징추출부를 포함하는 상기 2차원잠재계층을 추출하여 분류모델을 생성하는 모델생성부를 포함한다.
상기 장치는 상기 분류 모델을 통해 입력되는 이미지를 분류하는 분류부를 더 포함한다.
상기 분류부는 상기 입력된 이미지에 대해 상기 분류모델의 복수의 계층 간 가중치가 적용되는 복수의 연산을 통해 상기 형태특징추출부의 잠재벡터의 값이 산출될 때, 산출된 잠재벡터의 값이 동일하면, 동일한 객체로 분류하는 것을 특징으로 한다.
상기 모델생성부는 객체의 3차원 이미지와 상기 객체의 서로 다른 포즈의 복수의 2차원 이미지를 학습 데이터로 마련하고, 상기 3차원 이미지를 이용하여 상기 3차원 오토인코더를 학습시키고, 상기 복수의 2차원 이미지를 이용하여 상기 2차원 오토인코더를 학습시키는 것을 특징으로 한다.
상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 분류모델을 생성하기 위한 방법은 모델생성부가 3차원 이미지를 처리하기 위한 3차원인코더, 3차원디코더 및 상기 3차원인코더와 상기 3차원디코더를 연결하며, 입력된 이미지로부터 물체의 입체적 구조에 대한 정보인 형태 정보에 대한 특징을 추출하는 형태특징추출부를 포함하는 3차원잠재계층을 포함하는 3차원 오토인코더를 마련하는 단계와, 상기 모델생성부가 2차원 이미지를 처리하기 위한 상기 2차원인코더, 상기 2차원디코더 및 상기 2차원인코더와 상기 2차원디코더를 연결하며 상기 3차원잠재계층과 상기 형태특징추출부를 공유하는 2차원잠재계층을 포함하는 2차원 오토인코더를 마련하는 단계와, 상기 모델생성부가 상기 3차원 오토인코더 및 상기 2차원 오토인코더를 학습시키는 단계와, 상기 학습이 완료되면, 상기 모델생성부가 상기 2차원인코더 및 상기 형태특징추출부를 추출하여 분류모델을 생성하는 단계를 포함한다.
상기 방법은 분류부가 상기 분류 모델을 통해 입력되는 이미지를 분류하는 단계를 더 포함한다. 상기 분류부는 상기 입력된 이미지에 대해 상기 분류모델의 복수의 계층 간 가중치가 적용되는 복수의 연산을 통해 상기 형태특징추출부의 잠재벡터의 값이 산출될 때, 산출된 잠재벡터의 값이 동일하면, 동일한 객체로 분류하는 것을 특징으로 한다.
상기 3차원 오토인코더 및 상기 2차원 오토인코더를 학습시키는 단계는 상기 모델생성부가 객체의 3차원 이미지와 상기 객체의 서로 다른 포즈의 복수의 2차원 이미지를 학습 데이터로 마련하는 단계와, 상기 모델생성부가 상기 3차원 이미지를 이용하여 상기 3차원 오토인코더를 학습시키고, 상기 모델생성부가 상기 복수의 2차원 이미지를 이용하여 상기 2차원 오토인코더를 학습시키는 단계를 포함한다.
본 발명에 따르면, 분류모델(CM)의 형태특징추출부(LV)는 포즈가 다른 동일한 객체의 이미지가 입력되는 경우에도 해당 객체의 형태 정보를 인코딩할 수 있다. 따라서 형태특징추출부(LV)를 이용하여 2차원 이미지를 분류하는 경우, 포즈의 변화에도 정확하게 이미지 상의 객체의 클래스를 분류할 수 있다. 객체의 회전, 즉, 포즈의 변화에도 강건한(robust) 분류모델(CM)을 제공할 수 있다.
도 1은 본 발명의 실시예에 따른 융합 컨볼루셔널 오토인코더를 이용한 객체의 회전에 영향을 받지 않는 분류 모델을 생성하기 위한 장치의 구성을 설명하기 위한 도면이다.
도 2는 본 발명의 실시예에 따른 융합 컨볼루셔널 오토인코더의 구성을 설명하기 위한 도면이다.
도 3은 본 발명의 실시예에 따른 분류 모델을 생성하기 위한 3차원 오토인코더의 학습을 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따른 분류 모델을 생성하기 위한 2차원 오토인코더의 학습을 설명하기 위한 도면이다.
도 5는 본 발명의 실시예에 따른 융합 컨볼루셔널 오토인코더로부터 분류모델을 생성하는 방법을 설명하기 위한 도면이다.
도 6은 본 발명의 실시예에 따른 융합 컨볼루셔널 오토인코더를 이용한 객체의 회전에 영향을 받지 않는 분류 모델을 생성하기 위한 방법을 설명하기 위한 흐름도이다.
도 7은 본 발명의 실시예에 따라 생성된 분류모델을 이용한 이미지를 분류하는 방법을 설명하기 위한 흐름도이다.
도 8은 본 발명의 실시예에 따른 컴퓨팅 장치의 구성을 설명하기 위한 도면이다.
본 발명의 상세한 설명에 앞서, 이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 실시예에 불과할 뿐, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이때, 첨부된 도면에서 동일한 구성 요소는 가능한 동일한 부호로 나타내고 있음을 유의해야 한다. 또한, 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략할 것이다. 마찬가지의 이유로 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시되었으며, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다.
먼저, 본 발명의 실시예에 따른 융합 컨볼루셔널 오토인코더를 이용한 객체의 회전에 영향을 받지 않는 분류 모델을 생성하기 위한 장치에 대해서 설명하기로 한다. 도 1은 본 발명의 실시예에 따른 융합 컨볼루셔널 오토인코더를 이용한 객체의 회전에 영향을 받지 않는 분류 모델을 생성하기 위한 장치의 구성을 설명하기 위한 도면이다. 도 2는 본 발명의 실시예에 따른 융합 컨볼루셔널 오토인코더의 구성을 설명하기 위한 도면이다. 도 3은 본 발명의 실시예에 따른 분류 모델을 생성하기 위한 3차원 오토인코더의 학습을 설명하기 위한 도면이다. 도 4는 본 발명의 실시예에 따른 분류 모델을 생성하기 위한 2차원 오토인코더의 학습을 설명하기 위한 도면이다. 도 5는 본 발명의 실시예에 따른 융합 컨볼루셔널 오토인코더로부터 분류모델을 생성하는 방법을 설명하기 위한 도면이다.
먼저, 도 1을 참조하면, 본 발명의 실시예에 따른 분류장치(CA: Classification Apparatus)는 모델생성부(100) 및 분류부(200)를 포함한다.
모델생성부(100)는 융합 컨볼루셔널 오토인코더를 이용하여 이미지 상의 객체의 회전, 즉, 포즈의 변화에 영향을 받지 않는 분류모델(CM)을 생성하기 위한 것이다. 이를 위하여, 모델생성부(100)는 학습 데이터를 이용하여 우선 융합 컨볼루셔널 오토인코더(FCA: Fused Convolutional Autoencoder)를 학습시키고, 학습된 융합 컨볼루셔널 오토인코더(FCA)의 일부를 추출하여 분류모델(CM)을 생성한다.
그러면, 융합 컨볼루셔널 오토인코더(FCA)에 대해서 설명하기로 한다. 도 2에 도시된 바와 같이, 융합 컨볼루셔널 오토인코더(FCA)는 3차원 오토인코더(3AE) 및 2차원 오토인코더(2AE)를 포함한다. 모델생성부(100)는 3차원 오토인코더(3AE) 및 3차원 오토인코더(3AE)와 형태특징추출부(LV)를 공유하는 2차원 오토인코더(2AE)를 마련한다.
3차원 오토인코더(3AE)는 3차원 이미지를 처리하기 위한 3차원인코더(3E), 3차원잠재계층(3V) 및 3차원디코더(3D)가 순차로 연결되는 구조를 가진다. 다른 말로, 3차원잠재계층(3V)은 3차원인코더(3E)와 3차원디코더(3D) 사이에 개재되어 3차원인코더(3E)와 3차원디코더(3D)를 연결한다. 특히, 3차원잠재계층(3V)은 형태특징추출부(LV)를 포함한다. 형태특징추출부(LV)는 3차원인코더(3E)에 입력된 이미지로부터 물체의 입체 구조에 대한 정보인 형태 정보에 대한 특징을 인코딩한다.
2차원 오토인코더(3AE)는 2차원 이미지를 처리하기 위한 2차원인코더(2E), 2차원잠재계층(2V) 및 2차원디코더(2D)가 순차로 연결되는 구조를 가진다. 다른 말로, 2차원잠재계층(2V)은 2차원인코더(2E)와 2차원디코더(2D) 사이에 개재되어 2차원인코더(2E)와 3차원디코더(2D)를 연결한다. 특히, 2차원잠재계층(2V)은 형태특징추출부(LV)를 포함한다. 도시된 바와 같이, 2차원잠재계층(2V)의 형태특징추출부(LV)는 3차원잠재계층(3V)의 형태특징추출부(LV)를 공유한 것이다. 이러한 형태특징추출부(LV)는 2차원인코더(2E)에 입력된 이미지로부터 물체의 입체 구조에 대한 정보인 형태 정보에 대한 특징을 인코딩한다.
모델생성부(100)는 분류모델(CM)을 생성하기 위해, 3차원 오토인코더(3AE) 및 2차원 오토인코더(2AE)를 포함하는 융합 컨볼루셔널 오토인코더(FCA)를 함께 학습시킨다. 이를 위하여, 모델생성부(100)는 객체의 3차원 이미지와 상기 객체의 서로 다른 포즈의 복수의 2차원 이미지를 학습 데이터로 마련한다.
모델생성부(100)는 3차원 이미지를 이용하여 3차원 오토인코더(3AE)를 학습시키고, 복수의 2차원 이미지(20R, 30R, 40R)를 이용하여 2차원 오토인코더(2AE)를 학습시킨다. 이에 대해, 구체적으로 설명하면 다음과 같다.
먼저, 도 3을 참조하면, 모델생성부(100)가 학습용 3차원 원본 이미지(10R)를 3차원 오토인코더(3AE)에 입력한다. 그러면, 3차원 오토인코더(3AE)는 학습용 3차원 원본 이미지(10R)에 대해 가중치가 적용되는 복수의 계층의 복수의 연산을 통해 3차원 사본 이미지(10F)를 생성한다. 이에 따라, 모델생성부(100)는 학습용 3차원 원본 이미지(10R)와 3차원 사본 이미지(10F)의 차이를 나타내는 손실값이 최소가 되도록 3차원 오토인코더(3AE)의 가중치를 수정한다.
또한, 도 4를 참조하면, 모델생성부(100)가 학습용 2차원 원본 이미지(20R)를 2차원 오토인코더(2AE)에 입력한다. 그러면, 2차원 오토인코더(2AE)는 학습용 2차원 원본 이미지(20R)에 대해 가중치가 적용되는 복수의 계층의 복수의 연산을 통해 2차원 사본 이미지(20F)를 생성한다. 이에 따라, 모델생성부(100)는 학습용 2차원 원본 이미지(20R)와 2차원 사본 이미지(20F)의 차이를 나타내는 손실값이 최소가 되도록 2차원 오토인코더(2AE)의 가중치를 수정한다. 또한, 나머지 학습용 2차원 원본 이미지(30R, 40R)가 이용되어 학습이 이루어질 수 있다.
학습이 완료되면, 3차원 인코더(3E)의 3차원잠재계층(3V)은 입력되는 3차원 이미지의 특징을 인코딩하도록 학습된다. 학습되는 3차원 이미지의 특징은 공간 정보 및 형태 정보를 포함한다. 또한, 2차원 인코더(2E)의 2차원잠재계층(2V)은 입력되는 2차원 이미지의 특징을 인코딩하도록 학습된다. 이러한 2차원 이미지의 특징은 포즈 정보 및 형태 정보로 구분될 수 있다. 공간 정보는 3차원 이미지의 객체의 위치를 의미하고, 포즈 정보는 2차원 이미지의 객체의 포즈를 의미한다. 형태 정보는 3차원 이미지 및 2차원 이미지의 공통 정보이며, 물체의 입체적 구조에 대한 정보이며, 같은 구조의 물체는 포즈가 다른 경우에도 같은 값을 가지도록 학습된다. 따라서 3차원 오토인코더(3AE) 및 2차원 오토인코더(2AE)가 공유하는 부분인 형태특징추출부(LV)는 2차원 이미지 및 3차원 이미지 양자 모두로부터 형태 정보를 인코딩하도록 학습된다.
이에 따라, 도 5에 도시된 바와 같이, 모델생성부(100)는 2차원인코더(2E) 및 형태특징추출부(LV)를 포함하는 2차원잠재계층(2V)을 추출하여 분류모델(CM)을 생성한다. 이때, 2차원잠재계층(2V)의 출력단에 출력계층(OL: Output Layer)을 연결할 수 있다. 출력계층(OL)은 2차원잠재계층(2V) 중 형태특징추출부(LV)의 출력만을 추출하도록 연결될 수 있다. 이와 같이, 생성된 분류모델(CM)의 형태특징추출부(LV)는 포즈가 다른 동일한 객체의 이미지가 입력되는 경우에도 해당 객체의 형태 정보를 인코딩할 수 있다. 따라서 형태특징추출부(LV)를 이용하여 2차원 이미지를 분류하는 경우, 포즈의 변화에도 강건한(robust) 분류모델(CM)을 생성할 수 있다.
다시, 도 1을 참조하면, 분류부(200)는 분류 대상인 2차원 이미지가 입력되면, 모델생성부(100)가 생성한 분류모델(CM)을 이용하여 입력된 이미지의 객체를 분류한다. 보다 구체적으로, 모델생성부(100)가 생성한 분류모델(CM)을 제공받은 분류부(200)는 분류 대상인 2차원 이미지를 입력 받을 수 있다. 그러면, 모델생성부(100)는 해당 이미지를 분류모델(CM)에 입력한다. 이에 따라, 분류모델(CM)은 입력된 이미지에 대해 복수의 계층간 학습된 가중치가 적용되는 복수의 연산을 통해 잠재벡터를 산출할 수 있다. 산출된 잠재벡터는 출력층(OL)을 통해 출력될 수 있다. 그러면, 모델생성부(100)는 잠재벡터 중 형태특징추출부(LV)의 잠재벡터의 값에 따라 이미지를 분류한다. 즉, 모델생성부(100)는 형태특징추출부(LV)의 잠재벡터의 값이 산출될 때, 산출된 잠재벡터의 값이 동일하면, 동일한 객체로 분류할 수 있다.
다음으로, 본 발명의 실시예에 따른 융합 컨볼루셔널 오토인코더를 이용한 객체의 회전에 영향을 받지 않는 분류 모델을 생성하기 위한 방법을 설명하기로 한다. 도 6은 본 발명의 실시예에 따른 융합 컨볼루셔널 오토인코더를 이용한 객체의 회전에 영향을 받지 않는 분류 모델을 생성하기 위한 방법을 설명하기 위한 흐름도이다.
도 2 내지 도 6을 참조하면, 모델생성부(100)는 S110 단계에서 3차원 오토인코더(3AE)를 마련한다. 도 2에 도시된 바와 같이, 3차원 오토인코더(3AE)는 3차원 이미지를 처리하기 위한 3차원인코더(3E), 3차원잠재계층(3V) 및 3차원디코더(3D)가 순차로 연결되는 구조를 가진다. 다른 말로, 3차원잠재계층(3V)은 3차원인코더(3E)와 3차원디코더(3D) 사이에 개재되어 3차원인코더(3E)와 3차원디코더(3D)를 연결한다. 특히, 3차원잠재계층(3V)은 형태특징추출부(LV)를 포함한다. 형태특징추출부(LV)는 3차원인코더(3E)에 입력된 이미지로부터 물체의 입체 구조에 대한 정보인 형태 정보에 대한 특징을 인코딩한다.
모델생성부(100)는 S120 단계에서 2차원 오토인코더(2AE)를 마련한다. 도 2에 도시된 바와 같이, 2차원 오토인코더(3AE)는 2차원 이미지를 처리하기 위한 2차원인코더(2E), 2차원잠재계층(2V) 및 2차원디코더(2D)가 순차로 연결되는 구조를 가진다. 다른 말로, 2차원잠재계층(2V)은 2차원인코더(2E)와 2차원디코더(2D) 사이에 개재되어 2차원인코더(2E)와 3차원디코더(2D)를 연결한다. 특히, 2차원잠재계층(2V)은 형태특징추출부(LV)를 포함한다. 도 2에 도시된 바와 같이, 2차원잠재계층(2V)의 형태특징추출부(LV)는 3차원잠재계층(3V)의 형태특징추출부(LV)를 공유한 것이다. 이러한 형태특징추출부(LV)는 2차원인코더(2E)에 입력된 이미지로부터 물체의 입체 구조에 대한 정보인 형태 정보에 대한 특징을 인코딩한다.
모델생성부(100)는 S130 단계에서 3차원 오토인코더(3AE) 및 2차원 오토인코더(2AE)를 함께 학습시킨다. 이러한 학습에 대해 보다 상세하게 설명하면 다음과 같다. 먼저, 모델생성부(100)는 객체의 3차원 이미지와 상기 객체의 서로 다른 포즈의 복수의 2차원 이미지를 학습 데이터로 마련한다. 그런 다음, 모델생성부(100)는 3차원 이미지를 이용하여 3차원 오토인코더(3AE)를 학습시킨다. 이는 앞서 도 3을 참조로 설명된 바와 같이, 모델생성부(100)가 학습용 3차원 원본 이미지(10R)를 3차원 오토인코더(3AE)에 입력한다. 그러면, 3차원 오토인코더(3AE)는 학습용 3차원 원본 이미지(10R)에 대해 가중치가 적용되는 복수의 계층의 복수의 연산을 통해 3차원 사본 이미지(10F)를 생성한다. 이에 따라, 모델생성부(100)는 학습용 3차원 원본 이미지(10R)와 3차원 사본 이미지(10F)의 차이를 나타내는 손실값이 최소가 되도록 3차원 오토인코더(3AE)의 가중치를 수정한다.
또한, 모델생성부(100)는 복수의 2차원 이미지를 이용하여 2차원 오토인코더(2AE)를 학습시킨다. 이는 앞서 도 4를 참조로 설명된 바와 같이, 모델생성부(100)가 학습용 2차원 원본 이미지(20R)를 2차원 오토인코더(2AE)에 입력한다. 그러면, 2차원 오토인코더(2AE)는 학습용 2차원 원본 이미지(20R)에 대해 가중치가 적용되는 복수의 계층의 복수의 연산을 통해 2차원 사본 이미지(20F)를 생성한다. 이에 따라, 모델생성부(100)는 학습용 2차원 원본 이미지(20R)와 2차원 사본 이미지(20F)의 차이를 나타내는 손실값이 최소가 되도록 2차원 오토인코더(2AE)의 가중치를 수정한다. 또한, 나머지 학습용 2차원 원본 이미지(30R, 40R)가 이용되어 학습이 이루어질 수 있다.
학습이 완료되면, 3차원 인코더(3E)의 3차원잠재계층(3V)은 입력되는 3차원 이미지의 특징을 인코딩하도록 학습된다. 학습되는 3차원 이미지의 특징은 공간 정보 및 형태 정보를 포함한다. 또한, 2차원 인코더(2E)의 2차원잠재계층(2V)은 입력되는 2차원 이미지의 특징을 인코딩하도록 학습된다. 이러한 2차원 이미지의 특징은 포즈 정보 및 형태 정보로 구분될 수 있다. 공간 정보는 3차원 이미지의 객체의 위치를 의미하고, 포즈 정보는 2차원 이미지의 객체의 포즈를 의미한다. 형태 정보는 3차원 이미지 및 2차원 이미지의 공통 정보이며, 물체의 입체적 구조에 대한 정보이며, 같은 구조의 물체는 포즈가 다른 경우에도 같은 값을 가지도록 학습된다. 따라서 3차원 오토인코더(3AE) 및 2차원 오토인코더(2AE)가 공유하는 부분인 형태특징추출부(LV)는 2차원 이미지 및 3차원 이미지 양자 모두의 형태 정보를 인코딩하도록 학습된다. 따라서 모델생성부(100)는 S140 단계에서 2차원인코더(2E) 및 형태특징추출부(LV)를 포함하는 2차원잠재계층(2V)을 추출하여 분류모델(CM)을 생성한다. 이때, 2차원잠재계층(2V)의 출력단에 출력계층(OL: Output Layer)을 연결할 수 있다. 출력계층(OL)은 2차원잠재계층(2V) 중 형태특징추출부(LV)의 출력만을 추출하도록 연결될 수 있다. 이와 같이, 생성된 분류모델(CM)의 형태특징추출부(LV)는 포즈가 다른 동일한 객체의 이미지가 입력되는 경우에도 해당 객체의 형태 정보를 인코딩할 수 있다. 따라서 형태특징추출부(LV)를 이용하여 2차원 이미지를 분류하는 경우, 포즈의 변화에도 강건한(robust) 분류모델(CM)을 생성할 수 있다.
그러면, 생성된 분류모델(CM)을 이용하여 이미지(2차원)를 분류하는 방법에 대해 설명하기로 한다. 도 7은 본 발명의 실시예에 따라 생성된 분류모델을 이용한 이미지를 분류하는 방법을 설명하기 위한 흐름도이다.
도 7을 참조하면, 모델생성부(100)가 생성한 분류모델(CM)을 제공받은 분류부(200)는 분류 대상인 2차원 이미지를 입력 받을 수 있다.
그러면, 모델생성부(100)는 S210 단계에서 해당 이미지를 분류모델(CM)에 입력한다. 이에 따라, 분류모델(CM)은 S220 단계에서 입력된 이미지에 대해 복수의 계층간 학습된 가중치가 적용되는 복수의 연산을 통해 잠재벡터를 산출할 수 있다. 산출된 잠재벡터는 출력층(OL)을 통해 출력될 수 있다.
그러면, 모델생성부(100)는 S230 단계에서 잠재벡터 중 형태특징추출부(LV)의 잠재벡터의 값에 따라 이미지를 분류한다. 즉, 모델생성부(100)는 형태특징추출부(LV)의 잠재벡터의 값이 산출될 때, 산출된 잠재벡터의 값이 동일하면, 동일한 객체로 분류할 수 있다.
다음으로, 본 발명의 실시예에 따른 컴퓨팅 장치의 구성에 대해서 설명하기로 한다. 도 8은 본 발명의 실시예에 따른 컴퓨팅 장치의 구성을 설명하기 위한 도면이다. 도 8의 컴퓨팅 장치(TN100)는 본 명세서에서 기술된 장치(예컨대, 분류장치(CA) 등)일 수 있다.
도 8의 실시예에서, 컴퓨팅 장치(TN100)는 적어도 하나의 프로세서(TN110), 송수신 장치(TN120), 및 메모리(TN130)를 포함할 수 있다. 또한, 컴퓨팅 장치(TN100)는 저장 장치(TN140), 입력 인터페이스 장치(TN150), 출력 인터페이스 장치(TN160) 등을 더 포함할 수 있다. 컴퓨팅 장치(TN100)에 포함된 구성 요소들은 버스(bus)(TN170)에 의해 연결되어 서로 통신을 수행할 수 있다.
프로세서(TN110)는 메모리(TN130) 및 저장 장치(TN140) 중에서 적어도 하나에 저장된 프로그램 명령(program command)을 실행할 수 있다. 프로세서(TN110)는 중앙 처리 장치(CPU: central processing unit), 그래픽 처리 장치(GPU: graphics processing unit), 또는 본 발명의 실시예에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 프로세서(TN110)는 본 발명의 실시예와 관련하여 기술된 절차, 기능, 및 방법 등을 구현하도록 구성될 수 있다. 프로세서(TN110)는 컴퓨팅 장치(TN100)의 각 구성 요소를 제어할 수 있다.
메모리(TN130) 및 저장 장치(TN140) 각각은 프로세서(TN110)의 동작과 관련된 다양한 정보를 저장할 수 있다. 메모리(TN130) 및 저장 장치(TN140) 각각은 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(TN130)는 읽기 전용 메모리(ROM: read only memory) 및 랜덤 액세스 메모리(RAM: random access memory) 중에서 적어도 하나로 구성될 수 있다.
송수신 장치(TN120)는 유선 신호 또는 무선 신호를 송신 또는 수신할 수 있다. 송수신 장치(TN120)는 네트워크에 연결되어 통신을 수행할 수 있다.
한편, 앞서 설명된 본 발명의 실시예에 따른 다양한 방법들은 다양한 컴퓨터수단을 통하여 판독 가능한 프로그램 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 와이어뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 와이어를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 이와 같이, 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 균등론에 따라 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.
100: 모델생성부
200: 분류부

Claims (8)

  1. 분류모델을 생성하기 위한 장치에 있어서,
    3차원 이미지를 처리하기 위한 3차원인코더, 3차원디코더 및 상기 3차원인코더와 상기 3차원디코더를 연결하며, 입력된 이미지로부터 물체의 입체적 구조에 대한 정보인 형태 정보에 대한 특징을 추출하면서 형태특징추출부를 포함하는 3차원잠재계층을 포함하는 3차원 오토인코더를 마련하고,
    2차원 이미지를 처리하기 위한 2차원인코더, 2차원디코더 및 상기 2차원인코더와 상기 2차원디코더를 연결하며, 상기 3차원잠재계층과 상기 형태특징추출부를 공유하는 2차원잠재계층을 포함하는 2차원 오토인코더를 마련하고,
    상기 3차원 오토인코더 및 상기 2차원 오토인코더를 함께 학습시키고,
    상기 학습이 완료되면, 상기 2차원인코더 및 상기 형태특징추출부를 포함하는 상기 2차원잠재계층을 추출하여 분류모델을 생성하는 모델생성부; 및
    상기 분류 모델을 통해 입력되는 이미지를 분류하는 분류부;
    를 포함하며,
    상기 분류부는
    상기 입력된 이미지에 대해 상기 분류모델의 복수의 계층 간 가중치가 적용되는 복수의 연산을 통해 상기 형태특징추출부의 잠재벡터의 값이 산출될 때, 산출된 잠재벡터의 값이 동일하면, 동일한 객체로 분류하는 것을 특징으로 하는
    분류모델을 생성하기 위한 장치.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 모델생성부는
    객체의 3차원 이미지와 상기 객체의 서로 다른 포즈의 복수의 2차원 이미지를 학습 데이터로 마련하고,
    상기 3차원 이미지를 이용하여 상기 3차원 오토인코더를 학습시키고,
    상기 복수의 2차원 이미지를 이용하여 상기 2차원 오토인코더를 학습시키는 것을 특징으로 하는
    분류모델을 생성하기 위한 장치.
  5. 분류모델을 생성하기 위한 방법에 있어서,
    모델생성부가 3차원 이미지를 처리하기 위한 3차원인코더, 3차원디코더 및 상기 3차원인코더와 상기 3차원디코더를 연결하며, 입력된 이미지로부터 물체의 입체적 구조에 대한 정보인 형태 정보에 대한 특징을 추출하는 형태특징추출부를 포함하는 3차원잠재계층을 포함하는 3차원 오토인코더를 마련하는 단계;
    상기 모델생성부가 2차원 이미지를 처리하기 위한 2차원인코더, 2차원디코더 및 상기 2차원인코더와 상기 2차원디코더를 연결하며 상기 3차원잠재계층과 상기 형태특징추출부를 공유하는 2차원잠재계층을 포함하는 2차원 오토인코더를 마련하는 단계;
    상기 모델생성부가 상기 3차원 오토인코더 및 상기 2차원 오토인코더를 학습시키는 단계;
    상기 학습이 완료되면, 상기 모델생성부가 상기 2차원인코더 및 상기 형태특징추출부를 추출하여 분류모델을 생성하는 단계; 및
    분류부가 상기 분류 모델을 통해 입력되는 이미지를 분류하는 단계;
    를 포함하며,
    상기 이미지를 분류하는 단계는
    상기 분류부가 상기 입력된 이미지에 대해 상기 분류모델의 복수의 계층 간 가중치가 적용되는 복수의 연산을 통해 상기 형태특징추출부의 잠재벡터의 값이 산출될 때, 산출된 잠재벡터의 값이 동일하면, 동일한 객체로 분류하는 것을 특징으로 하는
    분류모델을 생성하기 위한 방법.
  6. 삭제
  7. 삭제
  8. 제5항에 있어서,
    상기 3차원 오토인코더 및 상기 2차원 오토인코더를 학습시키는 단계는
    상기 모델생성부가 객체의 3차원 이미지와 상기 객체의 서로 다른 포즈의 복수의 2차원 이미지를 학습 데이터로 마련하는 단계; 및
    상기 모델생성부가 상기 3차원 이미지를 이용하여 상기 3차원 오토인코더를 학습시키고, 상기 복수의 2차원 이미지를 이용하여 상기 2차원 오토인코더를 학습시키는 단계;
    를 포함하는 것을 특징으로 하는
    분류모델을 생성하기 위한 방법.
KR1020200165967A 2020-12-01 2020-12-01 융합 컨볼루셔널 오토인코더를 이용한 객체의 회전에 영향을 받지 않는 분류 모델을 생성하기 위한 장치 및 이를 위한 방법 KR102259878B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200165967A KR102259878B1 (ko) 2020-12-01 2020-12-01 융합 컨볼루셔널 오토인코더를 이용한 객체의 회전에 영향을 받지 않는 분류 모델을 생성하기 위한 장치 및 이를 위한 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200165967A KR102259878B1 (ko) 2020-12-01 2020-12-01 융합 컨볼루셔널 오토인코더를 이용한 객체의 회전에 영향을 받지 않는 분류 모델을 생성하기 위한 장치 및 이를 위한 방법

Publications (1)

Publication Number Publication Date
KR102259878B1 true KR102259878B1 (ko) 2021-06-03

Family

ID=76396409

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200165967A KR102259878B1 (ko) 2020-12-01 2020-12-01 융합 컨볼루셔널 오토인코더를 이용한 객체의 회전에 영향을 받지 않는 분류 모델을 생성하기 위한 장치 및 이를 위한 방법

Country Status (1)

Country Link
KR (1) KR102259878B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113961710A (zh) * 2021-12-21 2022-01-21 北京邮电大学 基于多模态分层融合网络的细粒度化论文分类方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070060862A (ko) 2005-12-09 2007-06-13 한국전자통신연구원 학습 데이터 구축 장치 및 방법
JP2020181404A (ja) * 2019-04-25 2020-11-05 住友電気工業株式会社 画像分類器、画像分類方法及びコンピュータプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070060862A (ko) 2005-12-09 2007-06-13 한국전자통신연구원 학습 데이터 구축 장치 및 방법
JP2020181404A (ja) * 2019-04-25 2020-11-05 住友電気工業株式会社 画像分類器、画像分類方法及びコンピュータプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Gu, Jiajun, et al. "3d hand pose estimation with disentangled cross-modal latent space." Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. (2020.03.05. 공개)* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113961710A (zh) * 2021-12-21 2022-01-21 北京邮电大学 基于多模态分层融合网络的细粒度化论文分类方法及装置

Similar Documents

Publication Publication Date Title
KR102532749B1 (ko) 약한 지도 학습에 기초한 뉴럴 네트워크의 계층적 학습 방법 및 장치
US11449733B2 (en) Neural network learning method and device for recognizing class
EP3686848A1 (en) Semantic image synthesis for generating substantially photorealistic images using neural networks
KR102535411B1 (ko) 메트릭 학습 기반의 데이터 분류와 관련된 장치 및 그 방법
EP3709271A1 (en) Image depth prediction neural networks
KR102338372B1 (ko) 영상으로부터 객체를 분할하는 방법 및 장치
KR102646889B1 (ko) 스타일 변환을 위한 영상 처리 장치 및 방법
KR102306658B1 (ko) 이종 도메인 데이터 간의 변환을 수행하는 gan의 학습 방법 및 장치
KR102532748B1 (ko) 뉴럴 네트워크 학습 방법 및 장치
KR102607208B1 (ko) 뉴럴 네트워크 학습 방법 및 디바이스
CN115223020B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
KR20200094608A (ko) 이미지를 처리하기 위한 방법 및 그에 따른 장치
US20210118093A1 (en) Computing apparatus and operation method of the same
US20210158554A1 (en) Artificial intelligence for generating depth map
KR102332114B1 (ko) 이미지 처리 방법 및 장치
JP2022164640A (ja) マルチモーダル自動ラベル付けと能動的学習のためのデータセットとモデル管理のためのシステムと方法
KR102259878B1 (ko) 융합 컨볼루셔널 오토인코더를 이용한 객체의 회전에 영향을 받지 않는 분류 모델을 생성하기 위한 장치 및 이를 위한 방법
US11403491B2 (en) Object recognition from images using cad models as prior
Peng et al. Geometric scene parsing with hierarchical lstm
US20230112647A1 (en) Processing image data
Zou et al. Lucss: Language-based user-customized colourization of scene sketches
CN116266376A (zh) 渲染方法和装置
KR20220063331A (ko) 딥러닝 기반 이미지 재구성 장치 및 그 방법
EP3401843A1 (en) A method, an apparatus and a computer program product for modifying media content
CN112463936B (zh) 一种基于三维信息的视觉问答方法及系统

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant