KR20220016402A - 복수의 배율에 따라 크기 변환된 영상으로 학습된 병렬 심층 신경망 장치 및 방법 - Google Patents

복수의 배율에 따라 크기 변환된 영상으로 학습된 병렬 심층 신경망 장치 및 방법 Download PDF

Info

Publication number
KR20220016402A
KR20220016402A KR1020200096078A KR20200096078A KR20220016402A KR 20220016402 A KR20220016402 A KR 20220016402A KR 1020200096078 A KR1020200096078 A KR 1020200096078A KR 20200096078 A KR20200096078 A KR 20200096078A KR 20220016402 A KR20220016402 A KR 20220016402A
Authority
KR
South Korea
Prior art keywords
neural network
image
scaled
magnification
level
Prior art date
Application number
KR1020200096078A
Other languages
English (en)
Other versions
KR102437193B1 (ko
Inventor
원치선
Original Assignee
동국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동국대학교 산학협력단 filed Critical 동국대학교 산학협력단
Priority to KR1020200096078A priority Critical patent/KR102437193B1/ko
Publication of KR20220016402A publication Critical patent/KR20220016402A/ko
Application granted granted Critical
Publication of KR102437193B1 publication Critical patent/KR102437193B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20128Atlas-based segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 영상을 전체적인 시각(global view)과 다양한 배율(scale)의 부분적인 시각(local view)으로 훈련시키는 병렬 심층 신경망 장치 관련 기술적 사상에 관한 것으로, 영상 내에 존재하는 객체에 대한 전체적인 모양 정보뿐 만이 아니라 국부적인 미세한 차이를 분리하여 학습할 수 있도록 하기 위하여, 훈련 영상을 서로 다른 배율(scale)로 크기 변환하고 각각의 배율로 크기 변환된 영상으로 훈련된 심층 신경망들을 병렬 연결하여 사용함에 따라 영상의 크기를 특정 범위의 배율(scale)로 변환할 수 있고, 다양한 배율로 훈련된 복수의 심층 신경망 중에 기본 층의 상부층을 공유하여 메모리 소모를 최소화 할 수 있는 기술에 관한 것이다.

Description

복수의 배율에 따라 크기 변환된 영상으로 학습된 병렬 심층 신경망 장치 및 방법{APPARATUS AND METHOD FOR PARALLEL DEEP NEURAL NETWORKS TRAINED BY RESIZED IMAGES WITH MULTIPLE SCALING FACTORS}
본 발명은 영상에 존재하는 객체를 전체적인 시각(global view)과 국부적인 시각(local view) 등의 다양한 배율(scale)로 크기 변환된 훈련영상으로 학습할 수 있는 심층 신경망 관련 기술적 사상에 관한 것으로, 보다 상세하게는 훈련 영상을 서로 다른 배율(scale)로 크기 변환하고 각각의 배율로 크기 변환된 영상으로 훈련된 심층 신경망들을 병렬 연결하여 사용하는 기술에 관한 것이다.
수많은 정지 영상으로 미리 훈련시킨 다양한 심층 신경망 구조들이 존재하며, 이와 같은 기 훈련된 CNN(Convolutional Neural Networks) 구조들을 전이 학습(transfer learning)을 통해 여러 응용분야에 적용하여 획기적인 성능 향상을 달성하고 있다.
예를 들어, 기 훈련된 심층 신경망 구조를 전이 학습을 통해 기본적인 객체(object)에 속한 다양한 계통의 부객체(sub-object)로 분류하는 세분화된 객체분류(Fine-grained object classification) 문제에 적용하고 있다.
기존의 부객체 분류 문제는 각각의 부객체가 공통적으로 가지고 있는 파트 객체(Object Part)를 활용하여 분류의 정확도를 높이고 있다.
예를 들어, 개(dog)의 기본 객체에 대한 다양한 종의 부객체(sub-object)를 분류하는 문제에 대해 개들이 공통적으로 가지고 있는 머리, 다리, 그리고 꼬리의 파트 객체를 분할하고 이들 파트 객체들을 비교하는 방향으로 신경망을 학습하여 성능 향상을 달성하였다.
그러나, 세분화된 객체분류(Fine-grained object classification) 문제의 대상이 되는 객체들이 모두 분할 가능한 파트 객체(Object part)를 갖고 있는 것은 아니다.
예를 들어, 음식(food)을 분류하는 문제도 세분화된 객체분류(Fine-grained object classification) 문제에 해당하지만 음식 영상을 특별히 분할해서 비교할 수 있는 공통적인 파트 객체가 없다.
도 1은 종래 기술에 따른 기본 객체에 속한 부객체를 분류하는 문제를 설명하는 도면이다.
구체적으로, 도 1은 종래 기술에 따른 기본 객체에 속한 부객체를 분류하는 문제와 관련된 이미지들을 예시한다.
도 1을 참고하면, 이미지(100)는 기본 객체가 새(bird)인 경우를 나타내며 이미지(110)는 기본객체가 음식(food)인 경우를 나타낸다.
이미지(100)의 경우는 부객체들 사이에 공통적인 파트객체인 부리, 날개, 꼬리 등으로 세분화된 객체분류(Fine-grained object classification)가 가능하다.
반면에, 이미지(110)의 경우는 그런 공통적인 파트객체가 존재하지 않는 경우를 나타낸고, 이미지(110)의 경우는 상술한 음식(food)을 분류하는 문제에 해당될 수 있다.
즉, 음식과 그것을 담고 있는 그릇을 세분할 수 있지만 같은 부객체(sub-object)에 속하는 음식도 다양한 용기에 담길 수 있다는 점에서 기존의 방법으로 심층 신경망의 성능을 향상시킬 수 없고 새로운 접근 방법이 필요한 실정이다.
미국등록특허 제10115040호, "CONVOLUTIONAL NEURAL NETWORK-BASED MODE SELECTION AND DEFECT CLASSIFICATION FOR IMAGE FUSION" 한국등록특허 제10-1882704호, "전자 장치 및 그 제어 방법" 한국공개특허 제10-2020-0066732호, "딥 러닝을 사용한 병리 슬라이드 이미지에서의 분자 아형의 종양내 이질성 검출" 한국등록특허 제10-2102161호, "이미지 내 객체의 대표 특성을 추출하는 방버, 장치 및 컴퓨터 프로그램"
Y. Peng, X. He, and J. Zhao, "Object-part attention model for fine-grained image classification," IEEE Transactions on Image Processing, Vol. 27, No.3, pp. 1487-1500, 2018. L. Bossard, M. Guillaumin, and L. Van Gool, "Food-101 - Mining Discriminative Components with Random Forests," European Conference on Computer Vision (ECCV), pages 446-461. Springer, 2014. C. Wah, S. Branson, P. Welinder, P. Perona, and S. Belongie, "The CaltechUCSD Birds-200-2011 Dataset," California Institute of Technology, CNSTR-2011-001, 2011.
본 발명은 훈련 영상을 다양한 배율로 크기 변환하여 원거리에서 관찰한 객체의 특성으로 학습한 신경망뿐만이 아니라 근거리에서 관찰한 객체의 상세한 특징 정보로 학습한 신경망을 복합적으로 사용함으로써 다양한 배율의 시각에서 구분할 수 있는 부객체들의 미세한 차이를 학습함에 따라 객체 인식 성능을 향상시키는 것을 목적으로 한다.
본 발명은 서로 다른 배율에 따라 크기 변환된 영상을 이용하여 훈련시킨 서로 다른 심층 신경망을 병렬로 연결하여 복수 배율 신경망(multi-scale CNN)을 구성하고, 테스트 영상에 대해 각 배율로 크기 변환한 후 해당 배율의 신경망을 통해 얻은 예측 점수(score)를 통합하여 최종 객체 분류를 수행하는 것을 목적으로 한다.
본 발명은 배율 별로 복수개의 신경망을 사용하므로 각각의 배율에 해당하는 훈련된 파라메터를 저장해야 하는 단점을 극복하기 위해 객체수준의 신경망의 상부층을 다른 모든 배율에서 공유할 수 있도록 배율 별 신경망을 훈련시킴으로써 메모리 소비량을 최소화하는 것을 목적으로 한다.
본 발명은 입력 영상의 크기 변환 시 무작위 특성(randomness)를 부여하여 같은 영상에 대해 매번 크기 변환을 하더라도 영상에서 변환된 결과가 조금씩 다르도록 함에 따라 신경망 계수를 업데이트 할 시, 국부 최소치에 빠지지 않고, 학습과정에서 오퍼피팅(overfitting)을 방지하는 지터링(jittering) 효과를 주는 것을 목적으로 한다.
본 발명의 일실시예에 따르면 병렬 심층 신경망 장치는 훈련 영상에 대해 서로 다른 복수의 배율을 적용하여 복수의 영상 변환 레벨로 상기 훈련 영상의 크기를 변환하는 영상 크기 변환부 및 일반 영상으로 기 훈련된 신경망의 상부층과 상기 복수의 영상 변환 레벨 중 제1 레벨에 따라 파라메터가 교체된 하부층을 연결하여 전이학습을 수행함에 따라 상기 제1 레벨에 대한 제1 배율 신경망을 생성하고, 상기 제1 배율 신경망의 상부층과 상기 복수의 영상 변환 레벨 중 상기 제1 레벨 이외의 나머지 영상 변환 레벨들에 따라 파라메터가 교체된 하부층들을 각각 연결하여 전이학습을 수행함에 따라 상기 나머지 영상 변환 레벨들에 대한 나머지 배율 신경망들을 생성하는 배율 신경망 생성부를 포함할 수 있다.
상기 영상 크기 변환부는 상기 훈련 영상에 대하여 객체 전체를 포함할 수 있는 전체 배율을 결정하고, 상기 결정된 전체 배율 범위 내에서 상기 서로 다른 복수의 배율을 무작위로 결정할 수 있다.
상기 영상 크기 변환부는 상기 결정된 서로 다른 복수의 배율에 따라 상기 훈련 영상을 선형적으로 변환하여 중간 영상을 생성하고, 상기 생성된 중간 영상 내에서 상기 결정된 서로 다른 복수의 배율 별로 상기 훈련 연상을 무작위로 크로핑(cropping)하여 상기 훈련 영상의 크기를 변환할 수 있다.
상기 영상 크기 변환부는 상기 전체 배율에 따른 상기 훈련 영상의 가로 및 세로 길이의 최소값에서 배율 신경망에 입력될 영상의 가로 및 세로 길이의 최소값을 제외한 후, 평균이 0이고 표준편차가 0.5인 정규분포에서 생성한 난수값을 결합하여 생성된 값과 상기 전체 배율에 따른 상기 훈련 영상의 가로 및 세로 길이의 최소값에 상기 배율 신경망에 입력될 영상의 가로 및 세로 길이의 최소값의 합에 대한 절반에 배율의 범위를 결정하기 위한 배율요소(scaling factor)를 결합하여 생성된 값을 합산하여 상기 서로 다른 복수의 배율을 결정할 수 있다.
상기 배율 신경망 생성부는 상기 제1 배율 신경망의 상부층의 파라메터를 상기 나머지 배율 신경망들을 생성하기 위한 기본 파라메터로 공유하면서, 상기 나머지 배율 신경망들의 상부층의 파라메터로 공유할 수 있다.
상기 배율 신경망 생성부는 상기 제1 배율 신경망의 상부층과 상기 복수의 영상 변환 레벨 중 제2 레벨에 따라 파라메터가 교체된 하부층을 연결하여 전이 학습을 수행함에 따라 상기 나머지 배율 신경망들 중 제2 배율 신경망을 생성하고, 상기 제1 배율 신경망의 상부층과 상기 복수의 영상 변환 레벨 중 제3 레벨에 따라 파라메터가 교체된 하부층을 연결하여 전이 학습을 수행함에 따라 상기 나머지 배율 신경망들 중 제3 배율 신경망을 생성하며, 상기 제1 배율 신경망의 상부층과 상기 복수의 영상 변환 레벨 중 마지막 레벨에 따라 파라메터가 교체된 하부층을 연결하여 전이 학습을 수행함에 따라 상기 나머지 배율 신경망들 중 마지막 배율 신경망을 생성할 수 있다.
상기 배율 신경망 생성부는 상기 나머지 배율 신경망들을 생성할 시, 상기 제1 배율 신경망의 상부층의 파라메터와 상기 나머지 배율 신경망들의 상부층의 파라메터를 동일하게 저장할 수 있다.
상기 복수의 영상 변환 레벨은 상기 훈련 영상에서 객체 크기의 배율에 해당하는 객체 레벨(object level), 객체의 부분 크기의 배율에 해당하는 파트 레벨(part level) 및 상기 객체 레벨(object level)과 상기 파트 레벨(part level)의 중간 크기의 배율에 해당하는 중간 레벨(Mid-level) 중 적어도 둘의 레벨을 포함할 수 있다.
본 발명의 일실시예에 따르면 병렬 심층 신경망 장치는 상기 생성된 제1 배율 신경망 및 상기 생성된 나머지 배율 신경망들에 상기 복수의 영상 변환 레벨에 따라 크기 변환된 테스트 영상을 입력하여 복수의 클래스 별 스코어(score)를 각각 산출하는 스코어 산출부를 더 포함할 수 있다.
상기 영상 크기 변환부는 상기 테스트 영상에 대하여 객체 전체를 포함할 수 있는 전체 배율을 결정하고, 상기 결정된 전체 배율 범위 내에서 상기 테스트 영상을 위한 서로 다른 복수의 배율을 결정하고, 상기 결정된 서로 다른 복수의 배율에 따라 상기 테스트 영상을 선형적으로 변환하여 중간 영상을 생성하고, 상기 생성된 중간 영상 내에서 상기 결정된 서로 다른 복수의 배율 별로 상기 테스트 영상의 크기를 변환할 수 있다.
상기 영상 크기 변환부는 상기 전체 배율에 따른 상기 테스트 영상의 가로 및 세로 길이의 최소값에 상기 배율 신경망에 입력될 영상의 가로 및 세로 길이의 최소값의 합에 대한 절반에 배율의 범위를 결정하기 위한 배율요소(scaling factor)를 결합하여 상기 테스트 영상을 위한 서로 다른 복수의 배율을 결정할 수 있다.
본 발명의 일실시예에 따르면 병렬 심층 신경망 장치는 상기 생성된 제1 배율 신경망 및 상기 생성된 나머지 배율 신경망들을 병렬로 연결하여 상기 각각 산출된 스코어(score)를 통합하여 상기 테스트 영상의 클래스를 인식하는 영상 인식부를 더 포함할 수 있다.
상기 영상 인식부는 상기 각각 산출된 스코어(score)를 더하거나 곱하여 산출된 최종 스코어들 중 가장 큰 스코어에 해당하는 클래스를 상기 테스트 영상의 클래스로 인식할 수 있다.
상기 클래스는 상기 테스트 영상에서 분류 대상이 되는 복수의 카테고리 중 어느 하나의 카테고리를 포함할 수 있다.
본 발명의 일실시예에 따르면 병렬 심층 신경망 학습 장치의 동작 방법은 영상 크기 변환부에서, 훈련 영상에 대해 서로 다른 복수의 배율을 적용하여 복수의 영상 변환 레벨로 상기 훈련 영상의 크기를 변환하는 단계, 배율 신경망 생성부에서, 일반 영상으로 기 훈련된 신경망의 상부층과 상기 복수의 영상 변환 레벨 중 제1 레벨에 따라 파라메터가 교체된 하부층을 연결하여 전이학습을 수행함에 따라 상기 제1 레벨에 대한 제1 배율 신경망을 생성하는 단계 및 상기 배율 신경망 생성부에서, 상기 제1 배율 신경망의 상부층과 상기 복수의 영상 변환 레벨 중 상기 제1 레벨 이외의 나머지 영상 변환 레벨들에 따라 파라메터가 교체된 하부층들을 각각 연결하여 전이학습을 수행함에 따라 상기 나머지 영상 변환 레벨들에 대한 나머지 배율 신경망들을 생성하는 단계를 포함할 수 있다.
상기 훈련 영상의 크기를 변환하는 단계는 상기 훈련 영상에 대하여 객체 전체를 포함할 수 있는 전체 배율을 결정하고, 상기 결정된 전체 배율 범위 내에서 상기 서로 다른 복수의 배율을 무작위로 결정하는 단계 및 상기 결정된 서로 다른 복수의 배율에 따라 상기 훈련 영상을 선형적으로 변환하여 중간 영상을 생성하고, 상기 생성된 중간 영상 내에서 상기 결정된 서로 다른 복수의 배율 별로 상기 훈련 연상을 무작위로 크로핑(cropping)하여 상기 훈련 영상의 크기를 변환하는 단계를 포함할 수 있다.
상기 나머지 영상 변환 레벨들에 대한 나머지 배율 신경망들을 생성하는 단계는 상기 제1 배율 신경망의 상부층과 상기 복수의 영상 변환 레벨 중 제2 레벨에 따라 파라메터가 교체된 하부층을 연결하여 전이 학습을 수행함에 따라 상기 나머지 배율 신경망들 중 제2 배율 신경망을 생성하는 단계, 상기 제1 배율 신경망의 상부층과 상기 복수의 영상 변환 레벨 중 제3 레벨에 따라 파라메터가 교체된 하부층을 연결하여 전이 학습을 수행함에 따라 상기 나머지 배율 신경망들 중 제3 배율 신경망을 생성하는 단계 및 상기 제1 배율 신경망의 상부층과 상기 복수의 영상 변환 레벨 중 마지막 레벨에 따라 파라메터가 교체된 하부층을 연결하여 전이 학습을 수행함에 따라 상기 나머지 배율 신경망들 중 마지막 배율 신경망을 생성하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따르면 병렬 심층 신경망 장치의 동작 방법은 상기 생성된 제1 배율 신경망 및 상기 생성된 나머지 배율 신경망들에 상기 복수의 영상 변환 레벨에 따라 크기 변환된 테스트 영상을 입력하여 복수의 클래스 별 스코어(score)를 각각 산출하는 단계 및 상기 생성된 제1 배율 신경망 및 상기 생성된 나머지 배율 신경망들을 병렬로 연결하여 상기 각각 산출된 스코어(score)를 통합하여 상기 테스트 영상의 클래스를 인식하는 단계를 더 포함할 수 있다.
본 발명은 훈련 영상을 다양한 배율로 크기 변환하여 원거리에서 관찰한 객체의 특성으로 학습한 신경망뿐만이 아니라 근거리에서 관찰한 객체의 상세한 특징 정보로 학습한 신경망을 복합적으로 사용함으로써 다양한 배율의 시각에서 구분할 수 있는 부객체들의 미세한 차이를 학습함에 따라 객체 인식 성능을 향상시킬 수 있다.
본 발명은 서로 다른 배율에 따라 크기 변환된 영상을 이용하여 훈련시킨 서로 다른 심층 신경망을 병렬로 연결하여 복수 배율 신경망(multi-scale CNN)을 구성하고, 테스트 영상에 대해 각 배율로 크기 변환한 후 해당 배율의 신경망을 통해 얻은 예측 점수(score)를 통합하여 최종 객체 분류를 수행할 수 있다.
본 발명은 배율 별로 복수개의 신경망을 사용하므로 각각의 배율에 해당하는 훈련된 파라메터를 저장해야 하는 단점을 극복하기 위해 객체수준의 신경망의 상부층을 다른 모든 배율에서 공유할 수 있도록 배율 별 신경망을 훈련시킴으로써 메모리 소비량을 최소화할 수 있다.
본 발명은 입력 영상의 크기 변환 시 무작위 특성(randomness)를 부여하여 같은 영상에 대해 매번 크기 변환을 하더라도 영상에서 변환된 결과가 조금씩 다르도록 함에 따라 신경망 계수를 업데이트 할 시, 국부 최소치에 빠지지 않고, 학습과정에서 오퍼피팅(overfitting)을 방지하는 지터링(jittering) 효과를 제공할 수 있다.
도 1은 종래 기술에 따른 기본 객체에 속한 부객체를 분류하는 문제를 설명하는 도면이다.
도 2는 본 발명의 일실시예에 따른 병렬 심층 신경망 장치를 설명하는 도면이다.
도 3은 본 발명의 일실시예에 따른 병렬 심층 신경망 장치에서 서로 다른 배율로 크기 변환된 영상으로 훈련된 복수의 신경망 구조를 설명하는 도면이다.
도 4는 본 발명의 일실시예에 따른 병렬 심층 신경망 장치의 영상 크기 변환부를 설명하는 도면이다.
도 5는 본 발명의 일실시예에 따른 병렬 심층 신경망 장치에서 세가지 배율로 크기 변환된 영상으로 훈련된 복수의 신경망 구조를 설명하는 도면이다.
도 6은 본 발명의 일실시예에 따른 병렬 심층 신경망 장치를 설명하는 도면이다.
도 7 및 도 8은 본 발명의 일실시예에 따른 서로 다른 배율로 크기 변환된 영상으로 훈련된 복수의 신경망을 통해 테스트 영상을 인식하는 병렬 심층 신경망 장치의 신경망 구조를 설명하는 도면이다.
도 9 및 도 10은 본 발명의 일실시예에 따른 세가지 배율로 크기 변환된 영상으로 훈련된 복수의 신경망을 통해 테스트 영상을 인식하는 병렬 심층 신경망 장치의 신경망 구조를 설명하는 도면이다.
도 11a 및 도 11b는 본 발명의 일실시예에 따른 병렬 심층 신경망 장치의 영상 크기 변환부가 크기 변환한 영상을 설명하는 도면이다.
도 12 및 도 13은 본 발명의 일실시예에 따른 병렬 심층 신경망 장치의 동작 방법을 설명하는 도면이다.
이하, 본 문서의 다양한 실시 예들이 첨부된 도면을 참조하여 기재된다.
실시 예 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다.
하기에서 다양한 실시 예들을 설명에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.
그리고 후술되는 용어들은 다양한 실시 예들에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다.
본 문서에서, "A 또는 B" 또는 "A 및/또는 B 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다.
"제1," "제2," "첫째," 또는 "둘째," 등의 표현들은 해당 구성요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
어떤(예: 제1) 구성요소가 다른(예: 제2) 구성요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다.
본 명세서에서, "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, 하드웨어적 또는 소프트웨어적으로 "~에 적합한," "~하는 능력을 가지는," "~하도록 변경된," "~하도록 만들어진," "~를 할 수 있는," 또는 "~하도록 설계된"과 상호 호환적으로(interchangeably) 사용될 수 있다.
어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다.
예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(예: CPU 또는 application processor)를 의미할 수 있다.
또한, '또는' 이라는 용어는 배타적 논리합 'exclusive or' 이기보다는 포함적인 논리합 'inclusive or' 를 의미한다.
즉, 달리 언급되지 않는 한 또는 문맥으로부터 명확하지 않는 한, 'x가 a 또는 b를 이용한다' 라는 표현은 포함적인 자연 순열들(natural inclusive permutations) 중 어느 하나를 의미한다.
이하 사용되는 '..부', '..기' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는, 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 2는 본 발명의 일실시예에 따른 병렬 심층 신경망 장치를 설명하는 도면이다.
도 2는 본 발명의 일실시예에 따라 서로 다른 복수의 배율로 크기 변환된 훈련 영상을 학습하여 복수의 배율 신경망들을 생성하는 병렬 심층 신경망 장치의 구성 요소를 예시한다.
도 2를 참고하면, 본 발명의 일실시예에 따른 병렬 심층 신경망 장치(200)는 영상 크기 변환부(210) 및 배율 신경망 생성부(220)를 포함한다.
본 발명의 일실시예에 따른 영상 크기 변환부(210)는 훈련 영상에 대해 서로 다른 복수의 배율(scale)을 적용하여 복수의 영상 변환 레벨로 훈련 영상의 크기를 변환할 수 있다.
일례로, 영상 크기 변환부(110)는 훈련 영상에 대하여 객체 전체를 포함할 수 있는 전체 배율을 결정하고, 결정된 전체 배율 범위 내에서 서로 다른 복수의 배율을 무작위로 결정할 수 있다.
즉, 영상 크기 변환부(110)는 훈련 영상의 범위 내에서 서로 다른 배율(scale)을 갖는 서로 다른 영상 변환 레벨의 훈련 영상으로 훈련 영상의 크기를 변환할 수 있다.
예를 들어, 복수의 영상 변환 레벨은 상기 훈련 영상에서 객체 크기의 배율에 해당하는 객체 레벨(object level), 객체의 부분 크기의 배율에 해당하는 파트 레벨(part level) 및 상기 객체 레벨(object level)과 상기 파트 레벨(part level)의 중간 크기의 배율에 해당하는 중간 레벨(Mid-level) 중 적어도 둘의 레벨을 포함할 수 있다.
본 발명의 일실시예에 따른 영상 크기 변환부(110)는 서로 다른 복수의 배율에 따라 훈련 영상을 선형적으로 변환하여 중간 영상을 생성하고, 생성된 중간 영상 내에서 서로 다른 복수의 배율 별로 훈련 연상을 무작위로 크로핑(cropping)하여 훈련 영상의 크기를 변환할 수 있다.
일례로 영상 크기 변환부(110)는 서로 다른 복수의 배율을 설정할 수 있고, 서로 다른 복수의 배율을 설정하는 것은 도 4를 이용하여 보충 설명한다.
본 발명의 일실시예에 따르면 배율 신경망 생성부(120)는 일반 영상으로 기 훈련된 신경망의 상부층과 상기 복수의 영상 변환 레벨 중 제1 레벨에 따라 파라메터가 교체된 하부층을 연결하여 전이학습을 수행함에 따라 제1 레벨에 대한 제1 배율 신경망을 생성할 수 있다.
또한, 배율 신경망 생성부(120)는 제1 배율 신경망의 상부층과 상기 복수의 영상 변환 레벨 중 상기 제1 레벨 이외의 나머지 영상 변환 레벨들에 따라 파라메터가 교체된 하부층들을 각각 연결하여 전이학습을 수행함에 따라 나머지 영상 변환 레벨들에 대한 나머지 배율 신경망들을 생성할 수 있다.
일례로, 배율 신경망 생성부(120)는 제1 배율 신경망의 상부층의 파라메터를 나머지 배율 신경망들을 생성하기 위한 기본 파라메터로 공유할 수 있다.
본 발명의 일실시예에 따르면 배율 신경망 생성부(120)는 제1 배율 신경망의 상부층과 복수의 영상 변환 레벨 중 제2 레벨에 따라 파라메터가 교체된 하부층을 연결하여 전이 학습을 수행함에 따라 나머지 배율 신경망들 중 제2 배율 신경망을 생성하고, 제1 배율 신경망의 상부층과 상기 복수의 영상 변환 레벨 중 제3 레벨에 따라 파라메터가 교체된 하부층을 연결하여 전이 학습을 수행함에 따라 나머지 배율 신경망들 중 제3 배율 신경망을 생성할 수 있다.
또한, 배율 신경망 생성부(120)는 제1 배율 신경망의 상부층과 복수의 영상 변환 레벨 중 마지막 레벨에 따라 파라메터가 교체된 하부층을 연결하여 전이 학습을 수행함에 따라 나머지 배율 신경망들 중 마지막 배율 신경망을 생성할 수 있다.
본 발명의 일실시예에 따르면 배율 신경망 생성부(120)는 나머지 배율 신경망들을 생성할 시, 제1 배율 신경망의 상부층의 파라메터와 나머지 배율 신경망들의 상부층의 파라메터를 동일하게 저장할 수 있다.
따라서, 본 발명은 배율 별로 복수개의 신경망을 사용하므로 각각의 배율에 해당하는 훈련된 파라메터를 저장해야 하는 단점을 극복하기 위해 객체수준의 신경망의 상부층을 다른 모든 배율에서 공유할 수 있도록 배율 별 신경망을 훈련시킴으로써 메모리 소비량을 최소화할 수 있다.
예를 들어, 병렬 심층 신경망 장치(200)는 복수의 배율 신경망들이 병렬로 연결된 구조를 포함하고 있어서, 병렬 배율 신경망 장치로 지칭될 수 있다.
도 3은 본 발명의 일실시예에 따른 병렬 심층 신경망 장치에서 서로 다른 배율로 크기 변환된 영상으로 훈련된 복수의 신경망 구조를 설명하는 도면이다.
도 3을 참고하면, 본 발명의 일실시예에 따르면 병렬 심층 신경망 장치의 서로 다른 배율로 크기 변환된 영상으로 훈련된 복수의 신경망 구조(300)는 영상 크기 변환부(310), 기 훈련된 신경망(320), 제1 배율로 훈련될 신경망(330), 제2 배율로 훈련될 신경망(340), 제3 배율로 훈련될 신경망(350), 제1 배율 신경망(360), 제2 배율 신경망(370) 및 제3 배율 신경망(380)으로 구성될 수 있다.
본 발명의 일실시예에 따르면 영상 크기 변환부(310)는 훈련 영상 데이터 세트(training dataset)로부터 훈련 영상을 입력 받아서, 서로 다른 복수의 배율로 훈련 영상의 크기를 변환할 수 있다.
일례로, 영상 크기 변환부(310)는 훈련 영상의 크기를 변환하여 제1 배율 훈련 영상(311), 제2 배율 훈련 영상(312) 및 제3 배율 훈련 영상(313)을 생성할 수 있다.
본 발명의 일실시예에 따르면 기 훈련된 신경망(320)은 기존의 일반 영상으로 기 학습된 신경망으로서, 앞단은 일반 영상으로 학습된 파라메터를 포함하는 상부층(321)과 전이학습을 위해 교체될 수 있는 하부층(322)으로 구성된다.
일례로, 영상 크기 변환부(310)는 영상 내에 존재하는 객체의 전체적인 모양 정보를 바탕으로 학습하여 전체 병렬 심층 신경망의 기본 축에 해당하는 심층 심경망을 담당할 첫번째 배율의 신경망을 위해, 훈련영상을 객체수준의 배율로 크기 변환하여 제1 배율 훈련 영상(311)을 생성한다.
본 발명의 일실시예에 따르면 제1 배율로 훈련될 신경망(330)은 제1 배율 훈련 영상(311)을 입력 영상으로 사용하고, 상부층(321)의 파라메터를 상부층(331)의 파라메터로 사용하고, 제1 배율 훈련 영상(311)에 따라 하부층(332)의 파라메터를 변경하며, 상부층(331)과 하부층(332)을 연결하여 전이 학습을 수행한다.
여기서, 제1 배율로 훈련될 신경망(330)의 전이학습에 따라 제1 배율 신경망(360)이 생성될 수 있다.
예를 들어, 제1 배율 신경망(360)은 상부층(361)과 하부층(362)을 포함할 수 있다.
본 발명의 일실시예에 따르면 제1 배율 신경망(360)의 상부층(361)의 파라메터는 전체 복수 배율(multi-scale CNN) 신경망의 기본망으로 사용될 수 있다.
본 발명의 일실시예에 따르면 제2 배율로 훈련될 신경망(340)은 제2 배율 훈련 영상(312)을 입력 영상으로 사용하고, 상부층(361)의 파라메터를 상부층(341)의 파라메터로 사용하고, 제2 배율 훈련 영상(312)에 따라 하부층(342)의 파라메터를 변경하며, 상부층(341)과 하부층(342)을 연결하여 전이 학습을 수행한다.
여기서, 제2 배율로 훈련될 신경망(340)의 전이학습에 따라 제2 배율 신경망(370)이 생성될 수 있다.
예를 들어, 제2 배율 신경망(370)은 상부층(371) 및 하부층(372)을 포함할 수 있다.
본 발명의 일실시예에 따르면 제3 배율로 훈련될 신경망(350)은 제2 배율 훈련 영상(313)을 입력 영상으로 사용하고, 상부층(361)의 파라메터를 상부층(351)의 파라메터로 사용하고, 제3 배율 훈련 영상(313)에 따라 하부층(352)의 파라메터를 변경하며, 상부층(351)과 하부층(352)을 연결하여 전이 학습을 수행한다.
여기서, 제3 배율로 훈련될 신경망(350)의 전이학습에 따라 제3 배율 신경망(380)이 생성될 수 있다.
예를 들어, 제3 배율 신경망(380)은 상부층(381) 및 하부층(382)을 포함할 수 있고, 제3 배율 신경망(380)은 N배율 신경망에 해당될 수 있다.
예를 들어, 제1 배율로 훈련될 신경망(330)의 전이학습과정, 제2 배율로 훈련될 신경망(340)의 전이학습과정 및 제3 배율로 훈련될 신경망(350)의 전이학습과정은 미세 조정(fine-tuning)과정에 해당될 수 있다.
본 발명의 일실시예에 따르면 병렬 심층 신경망 장치의 서로 다른 배율로 크기 변환된 영상으로 훈련된 복수의 신경망 구조(300)는 연속적인 배율에 대해서도 같은 방법으로 상부층(361)의 파라메터를 그대로 사용하고 하부층을 각각의 배율로 크기 변환한 영상으로 훈련시켜 다양한 배율에서 학습한 신경망들로 구성될 수 있다.
일례로, 제1 배율 신경망(360) 내지 제3 배율 신경망(380)은 병렬 연결되어 병렬 심층 신경망 장치로 동작될 수 있다.
도 4는 본 발명의 일실시예에 따른 병렬 심층 신경망 장치의 영상 크기 변환부를 설명하는 도면이다.
도 4는 본 발명의 일실시예에 따른 병렬 심층 신경망 장치의 영상 크기 변환부가 서로 다른 배율로 훈련 영상 또는 테스트 영상의 크기를 변환하는 구성을 예시한다.
도 4를 참고하면, 본 발명의 일실시예에 따른 영상 크기 변환부(400)는 배율 설정부(410), 선형 크기 변환부(420) 및 크로핑부(430)를 포함한다.
본 발명의 일실시예에 따르면 배율 설정부(410)는 훈련 영상을 훈련하거나 테스트 영상을 테스트 하기 위한 서로 다른 배율을 설정한다.
일례로, 배율 설정부(410)는 훈련 영상을 세가지의 배율로 크기 변환하고 각각의 배율로 크기 변환된 훈련 영상으로 세 단계에 해당되는 배율 신경망들을 구성하기 위해서 서로 다른 복수의 배율을 설정한다.
본 발명의 일실시예에 따르면 배율 설정부(410)는 훈련 영상 또는 테스트 영상에 해당하는 원영상(MxN)을 입력 받고, 입력된 원영상(MxN)에서 객체 전체를 포함할 수 있는 배율을 정하고, 전체 범위 내에서 배율을 무작위로 설정할 수 있다.
일례로, 선형 크기 변환부(420)는 결정된 배율에 따라 원영상(MxN)을 배율의 비율대로 원영상(MxN)의 가로 및 세로를 선형적으로 변환하여 중간 단계의 크기에 해당하는 중간영상(MtxNt)을 생성한다.
본 발명의 일실시예에 따르면 크로핑부(430)는 중간영상(MtxNt)의 범위 내에서 최종 영상 크기에 해당하는 최종영상(MoxNo)을 무작위로 크로핑하여 훈련 영상 학습을 위한 신경망의 입력 크기와 동일한 크기를 갖는 최종영상(MoxNo)을 생성할 수 있다.
일례로, 배율 설정부(410)는 배율을 어떤 범위에서 설정하는가에 따라 다양한 시각 및 시야에서 최종영상(MoxNo)을 생성할 수 있다.
본 발명의 일실시예에 따르면 배율 설정부(410)는 배율의 범위를 특정 범위 내로 한정할 수 있고, 하기 수학식 1에 기반하여 한정된 범위 내에서 무작위(random)으로 설정할 수 있다.
예를 들어, 배율 설정부(410)는 원영상(MxN)의 가로 길이 및 세로 길이의 최소값이 최종영상(MoxNo)의 가로 길이 및 세로 길이의 최소값보다 클 경우 수학식 1에 기반하여 배율을 설정할 수 있다.
[수학식 1]
Figure pat00001
수학식 1에서, S는 배율을 나타낼 수 있고, Omin은 원영상(MxN)의 가로 길이 및 세로 길이의 최소값을 나타낼 수 있으며, Tmin은 최종영상(MoxNo)의 가로 길이 및 세로 길이의 최소값을 나타낼 수 있고, α는 평균이 0이고 표준편차가 0.5인 정규분포에서 생성한 난수값을 나타낼 수 있으며, β는 배율의 범위를 결정하기 위한 배율요소(scaling factor)를 나타낼 수 있다.
예를 들어, 난수값은 가우스 분포에 기반한 난수값으로서, 배율에 따른 크기 변환 시도 마다 다르게 설정되어 지터링 효과를 제공할 수 있고, 난수값의 표준 편차에 의해 제어될 수 있다.
예를 들어, 가우스 분포의 평균이 0으로 설정되어 있기 때문에 스케일링 계수에 해당하는 배율은 원영상(MxN)과 목표 크기에 해당하는 최종영상(MoxNo) 사이에서 주로 선택될 수 있다.
이 경우 원래 원영상(MxN)과 최종영상(MoxNo) 사이의 크기 간격의 절반은 선형 스케일링으로 처리되고 목표 크기까지 나머지 절반은 선형 스케일로 크기 변환된 영상 내에 목표 크기에 해당되는 영상 조각을 무작위로 잘라내어(cropping) 획득될 수 있다.
본 발명의 일실시예에 따르면 영상 크기 변환부(400)는 전체 배율에 따른 훈련 영상의 가로 및 세로 길이의 최소값에서 배율 신경망에 입력될 영상의 가로 및 세로 길이의 최소값을 제외한 후, 평균이 0이고 표준편차가 0.5인 정규분포에서 생성한 난수값을 결합하여 생성된 값과 전체 배율에 따른 훈련 영상의 가로 및 세로 길이의 최소값에 배율 신경망에 입력될 영상의 가로 및 세로 길이의 최소값의 합에 대한 절반에 배율의 범위를 결정하기 위한 배율요소(scaling factor)를 결합하여 생성된 값을 합산하여 서로 다른 복수의 배율을 결정할 수 있다.
상술한 설명에서 훈련 영상 또는 테스트 영상의 크기를 변환하여 배율 신경망을 생성하기 위한 구성을 예시하고 있다.
다른 실시예에 따라서, 훈련 영상 또는 테스트 영상의 라인 별로 선택하여 심층 신경망을 학습 및 생성하는 구성은 2018년 9월 28일에 IEEEAccess에서 공개된 "Constrained Optimization for Image Reshaping with Soft Condition"에서 소개하고 있다.
도 5는 본 발명의 일실시예에 따른 병렬 심층 신경망 장치에서 세가지 배율로 크기 변환된 영상으로 훈련된 복수의 신경망 구조를 설명하는 도면이다.
도 5를 참고하면, 본 발명의 일실시예에 따르면 병렬 심층 신경망 장치의 서로 다른 배율로 크기 변환된 영상으로 훈련된 복수의 신경망 구조(500)는 훈련 영상으로부터 변환된 객체 레벨의 영상(510), 중간 레벨의 영상(520)과 파트 레벨의 영상(530)을 이용하여 신경망 상에서 학습함에 따라 상부층과 하부층으로 구성된 배율 신경망을 생성한다.
예를 들어, 객체 레벨의 영상(510), 중간 레벨의 영상(520)과 파트 레벨의 영상(530)은 상기 수학식 1에서 β를 각각 1, 1.25 및 1.5로 설정하여 배율 범위를 한정한 영상일 수 있다.
즉, 객체 레벨의 영상(510), 중간 레벨의 영상(520)과 파트 레벨의 영상(530)은 복수의 영상 변환 레벨에 따라 훈련 영상의 크기를 변환한 영상에 해당될 수 있다.
예를 들어, 복수의 영상 변환 레벨은 상기 훈련 영상에서 객체 크기의 배율에 해당하는 객체 레벨(object level), 객체의 부분 크기의 배율에 해당하는 파트 레벨(part level) 및 상기 객체 레벨(object level)과 상기 파트 레벨(part level)의 중간 크기의 배율에 해당하는 중간 레벨(Mid-level) 중 적어도 둘의 레벨을 포함할 수 있다.
본 발명의 일실시예에 따르면 신경망 구조(500)는 객체 레벨의 영상(510)을 위해 상기 수학식 1에서 β=1로 고정하여 생성한 배율로 훈련 영상을 선형변환하고, 이어서 최종 영상 크기로 크로핑(cropping)을 수행하여 크기 변환된 객체 레벨의 영상(510)을 훈련 신경망에 입력하여 상부층(511)과 하부층(512)으로 구성된 신경망을 학습하면 객체 레벨(Object-level)에 해당하는 배율 심층 신경망의 상부층(513) 및 하부층(514)을 생성할 수 있다.
일례로, 신경망 구조(500)는 배율 심층 신경망의 상부층(513)의 파라메터를 중간 레벨(Mid-level)의 신경망 학습을 위한 상부층(521)의 파라메터로 사용한다.
본 발명의 일실시예에 따르면 신경망 구조(500)는 중간 레벨의 영상(520)을 위해 수학식 1에서 β=1.25로 고정하여 생성한 배율로 훈련 영상을 선형변환하고, 최종 영상 크기로 크로핑을 수행하여 크기변환된 중간 레벨의 영상(520)을 입력하여 상부층(521)과 하부층(522)으로 구성된 신경망을 학습하여 중간수준 (Mid-level)의 배율 신경망의 상부층(523) 및 하부층(524)을 생성한다.
마지막으로, 신경망 구조(500)는 파트 레벨의 영상(530)을 위해 수학식 1에서 β=1.5로 고정하여 생성한 배율로 훈련 영상을 선형변환하고, 최종 영상 크기로 크로핑을 수행하여 크기 변환된 파트 레벨의 영상(530)을 입력하여 상부층(531)과 하부층(532)으로 구성된 신경망을 학습하여 파트객체 수준 (Part-level)의 배율 신경망의 상부층(533) 및 하부층(534)을 생성한다.
본 발명의 일실시예에 따르면 신경망 구조(500)는 입력 영상의 크기 변환 시 무작위(randomness) 특성을 부여하고, 같은 영상에 대해 매번 크기변환을 할 경우 같은 영상이라도 변환된 결과가 조금씩 다르도록 함에 따라 신경망 계수를 업데이트 할 때 국부 최소치에 빠지지 않고 계수 학습과정에서 오버피팅(overfitting)을 방지하는 지터링(jittering) 효과를 제공할 수 있다.
따라서, 본 발명은 입력 영상의 크기 변환 시 무작위 특성(randomness)를 부여하여 같은 영상에 대해 매번 크기 변환을 하더라도 영상에서 변환된 결과가 조금씩 다르도록 함에 따라 신경망 계수를 업데이트 할 시, 국부 최소치에 빠지지 않고, 학습과정에서 오퍼피팅(overfitting)을 방지하는 지터링(jittering) 효과를 제공할 수 있다.
도 6은 본 발명의 일실시예에 따른 병렬 심층 신경망 장치를 설명하는 도면이다.
도 6은 도 2의 병렬 심층 신경망 장치를 이용하여 생성된 복수의 배율 신경망을 이용하여 테스트 영상을 인식하는 병렬 심층 신경망 장치를 예시한다.
도 6을 참고하면, 병렬 심층 신경망 장치(600)는 영상 크기 변환부(610), 배율 신경망 생성부(620), 스코어 산출부(630) 및 영상 인식부(640)를 포함한다.
본 발명의 일실시예에 따르면 영상 크기 변환부(610)는 테스트 영상에 대하여 객체 전체를 포함할 수 있는 전체 배율을 결정하고, 결정된 전체 배율 범위 내에서 테스트 영상을 위한 서로 다른 복수의 배율을 결정하고, 결정된 서로 다른 복수의 배율에 따라 테스트 영상을 선형적으로 변환하여 중간 영상을 생성하고, 생성된 중간 영상 내에서 결정된 서로 다른 복수의 배율 별로 상기 테스트 영상의 크기를 변환할 수 있다.
일례로, 영상 크기 변환부(610) 전체 배율에 따른 상기 테스트 영상의 가로 및 세로 길이의 최소값에 배율 신경망에 입력될 영상의 가로 및 세로 길이의 최소값의 합에 대한 절반에 배율의 범위를 결정하기 위한 배율요소(scaling factor)를 결합하여 테스트 영상을 위한 서로 다른 복수의 배율을 결정할 수 있다.
즉, 영상 크기 변환부(610)는 상기 수학식 1을 이용하여 테스트 영상의 크기를 변환하기 위한 서로 다른 복수의 배율을 설정하고, 설정된 배율에 따라 테스트 영상의 크기를 변환할 수 있다.
본 발명의 일실시예에 따르면 배율 신경망 생성부(620)는 도 2에서 설명된 바와 같이 서로 다른 복수의 배율로 학습된 배율 신경망들을 제공한다.
또한, 배율 신경망 생성부(620)는 제1 배율 신경망의 상부층의 파라메터를 나머지 배율 신경망들을 생성하기 위한 기본 파라메터로 공유하면서, 나머지 배율 신경망들의 상부층의 파라메터로 공유할 수 있다.
일례로, 스코어 산출부(630)는 복수의 배율 신경망에 복수의 영상 변환 레벨에 따라 크기 변환된 테스트 영상을 입력하여 복수의 클래스 별 스코어(score)를 각각 산출할 수 있다.
예를 들어, 복수의 배율 신경망은 제1 배율 신경망 및 제1 배율 신경망을 제외한 나머지 배율 신경망들을 포함할 수 있다.
예를 들어, 클래스는 테스트 영상에서 분류 대상이 되는 복수의 카테고리 중 어느 하나의 카테고리를 포함할 수 있다.
예를 들어, 클래스는 임의 설정에 따라 지정 가능하며, 비행기, 자동차, 새 등 부분이 구분된 사물과 쌀국수, 짬뽕, 설렁탕, 비프 샐러드, 시저 샐러드 및 그릭 샐러드 등 부분이 구분되지 않은 음식 등을 포함할 수 있다.
본 발명의 일실시예에 따르면 영상 인식부(640)는 제1 배율 신경망 및 나머지 배율 신경망들을 병렬로 연결하여 각각 산출된 스코어(score)를 통합하여 테스트 영상의 클래스를 인식할 수 있다.
예를 들어, 복수의 배율 신경망을 병렬로 연결하여 각각 산출된 스코어를 통합할 경우, 곱셈 또는 덧셈과 같은 연산이 활용될 수 있다.
일례로, 영상 인식부(640)는 각각 산출된 스코어(score)를 더하거나 곱하여 산출된 최종 스코어들 중 가장 큰 스코어에 해당하는 클래스를 테스트 영상의 클래스로 인식할 수 있다.
예를 들어, 클래스의 최종 스코어들이 비행기가 1이고, 자전거가 3이고, 짬뽕이 5일 경우, 테스트 영상을 짬뽕으로 인식할 수 있다.
따라서, 본 발명은 훈련 영상을 다양한 배율로 크기 변환하여 원거리에서 관찰한 객체의 특성으로 학습한 신경망뿐만이 아니라 근거리에서 관찰한 객체의 상세한 특징 정보로 학습한 신경망을 복합적으로 사용함으로써 다양한 배율의 시각에서 구분할 수 있는 부객체들의 미세한 차이를 학습함에 따라 객체 인식 성능을 향상시킬 수 있다.
또한, 본 발명은 서로 다른 배율에 따라 크기 변환된 영상을 이용하여 훈련시킨 서로 다른 심층 신경망을 병렬로 연결하여 복수 배율 신경망(multi-scale CNN)을 구성하고, 테스트 영상에 대해 각 배율로 크기 변환한 후 해당 배율의 신경망을 통해 얻은 예측 점수(score)를 통합하여 최종 객체 분류를 수행할 수 있다.
도 7 및 도 8은 본 발명의 일실시예에 따른 서로 다른 배율로 크기 변환된 영상으로 훈련된 복수의 신경망을 통해 테스트 영상을 인식하는 병렬 심층 신경망 장치의 신경망 구조를 설명하는 도면이다.
도 7은 서로 다른 배율로 크기 변환된 영상으로 훈련된 복수의 신경망을 통해 테스트 영상을 인식하는 병렬 심층 신경망 장치의 신경망 구조를 예시하고, 도 8은 도 7의 병렬 심층 신경망 장치의 신경망 구조에서 메모리 소모를 줄이기 위하여 제1 배율 신경망의 상부층을 제2 배율 신경망과 제3 배율 신경망의 상부층으로 공유한 신경망 구조를 예시한다.
도 7을 참고하면, 본 발명의 일실시예에 따른 신경망 구조(700)는 테스트 영상을 입력 받아서 테스트 영상의 크기를 제1 배율 영상(710)으로 변환하여, 제1 배율 신경망의 상부층(711)과 하부층(712)을 통해 제1 배율 영상(710)을 학습한다.
또한, 신경망 구조(700)는 테스트 영상을 입력 받아서 테스트 영상의 크기를 제2 배율 영상(720)으로 변환하여, 제2 배율 신경망의 상부층(721)과 하부층(722)을 통해 제2 배율 영상(720)을 학습한다.
또한, 신경망 구조(700)는 테스트 영상을 입력 받아서 테스트 영상의 크기를 제3 배율 영상(730)으로 변환하여, 제3 배율 신경망의 상부층(731)과 하부층(732)을 통해 제3 배율 영상(730)을 학습한다.
다음으로, 신경망 구조(700)는 출력단(740)에서 제1 배율 영상(710) 내지 제3 배율 영상(730)의 학습 결과를 병렬로 연결하여 클래스 별로 스코어를 각각 산출한 후, 각각 산출된 스코어를 통합하여 테스트 영상의 클래스를 결정한다. 여기서, 결정된 클래스는 클래스 라벨(class label)로 표시될 수 있다.
도 8을 참고하면, 본 발명의 일실시예에 따른 신경망 구조(800)는 테스트 영상을 입력 받아서 테스트 영상의 크기를 제1 배율 영상(810)으로 변환하여, 제1 배율 신경망의 상부층(811)과 하부층(812)을 통해 제1 배율 영상(810)을 학습한다.
또한, 신경망 구조(800)는 테스트 영상을 입력 받아서 테스트 영상의 크기를 제2 배율 영상(820)으로 변환하여, 제2 배율 신경망의 상부층(821)과 하부층(822)을 통해 제2 배율 영상(820)을 학습한다.
또한, 신경망 구조(800)는 테스트 영상을 입력 받아서 테스트 영상의 크기를 제3 배율 영상(830)으로 변환하여, 제3 배율 신경망의 상부층(831)과 하부층(832)을 통해 제3 배율 영상(830)을 학습한다.
여기서, 신경망 구조(800)는 신경망 구조(700)와 달리 상부층(821)과 상부층(831)을 상부층(811)과 동일한 파라메터를 적용한다.
즉, 신경망 구조(800)는 신경망 구조(700)와 달리 상부층(811)을 제2 배율 신경망 및 제3 배율 신경망과 공유한다
다음으로, 신경망 구조(800)는 출력단(840)에서 제1 배율 영상(810) 내지 제3 배율 영상(830)의 학습 결과를 병렬로 연결하여 클래스 별로 스코어를 각각 산출한 후, 각각 산출된 스코어를 통합하여 테스트 영상의 클래스를 결정한다. 여기서, 결정된 클래스는 클래스 라벨(class label)로 표시될 수 있다.
본 발명의 일실시예에 따른 신경망 구조(800)는 신경망 구조(700)에 대비하여 배율 신경망의 상부층을 모두 저장할 필요가 없어서 메모리의 소모를 현격히 줄이면서도 테스트 영상에서 객체의 인식 성능의 저하를 최소화할 수 있다.
도 9 및 도 10은 본 발명의 일실시예에 따른 세가지 배율로 크기 변환된 영상으로 훈련된 복수의 신경망을 통해 테스트 영상을 인식하는 병렬 심층 신경망 장치의 신경망 구조를 설명하는 도면이다.
도 9는 세가지 배율로 크기 변환된 영상으로 훈련된 복수의 신경망을 통해 테스트 영상을 인식하는 병렬 심층 신경망 장치의 신경망 구조를 예시하고, 도 10은 도 9의 병렬 심층 신경망 장치의 신경망 구조에서 메모리 소모를 줄이기 위하여 객체 레벨의 배율 신경망의 상부층을 중간 레벨의 배율 신경망 및 파트 레벨의 배율 신경망의 상부층으로 공유한 신경망 구조를 예시한다.
도 9를 참고하면, 본 발명의 일실시예에 따른 신경망 구조(900)는 세개의 배율 신경망을 병렬로 연결하여 테스트 영상에 대해 테스트를 수행한다.
본 발명의 일실시예에 따르면 신경망 구조(900)는 각각의 배율 신경망으로 입력되는 테스트 영상은 객체 레벨, 중간 레벨, 파트 레벨 배율로 크기변환 되어 객체 레벨 영상(910), 중간 레벨 영상(920), 파트 레벨 영상(930)을 각각의 배율 신경망으로 입력한다.
테스트 영상의 경우는 훈련 영상 때와는 달리 지터링(jittering)이 불필요 하므로 상기 수학식 1의 α는 0으로 고정하여 사용하여 테스트 영상의 크기를 변환하기 위한 배율을 설정한다.
본 발명의 일실시예에 따르면 신경망 구조(900)는 테스트 영상에 대해 α=0, β=1로 고정하여 영상 크기변환된 객체 레벨 영상(910)을 객체 레벨로 훈련된 배율 신경망 상부층(911) 및 하부층(912)에 입력하여 출력단에 각 클래스 별로 스코어(score)를 출력한다.
또한, 신경망 구조(900)는 테스트 영상에 대해 α=0, β=1.25로 고정하여 영상 크기변환된 중간 레벨 영상(920)을 중간 레벨로 훈련된 배율 신경망의 상부층(921) 및 하부층(922)에 입력하면 출력단에 중간 레벨에 해당하는 배율 신경망의 클래스 별 스코어(score)를 출력한다.
마지막으로, 신경망 구조(900)는 테스트 영상에 대해 α=0, β=1.5로 고정하여 영상 크기변환 된 파트 레벨 영상(930)을 파트 레벨로 훈련된 배율 신경망의 상부층(931) 및 하부층(932)에 입력하면 출력단에 파트 레벨에 해당하는 배율 신경망의 클래스 별 스코어(score)를 출력한다.
신경망 구조(900)는 각 수준별 신경망의 스코어를 클래스 별로 더하거나 곱하여 최종 스코어를 계산하고 이 중에서 가장 큰 스코어에 해당되는 클래스를 테스트 영상의 클래스로 인식한다.
다만, 신경망 구조(900)는 세 단계의 배율을 갖는 복수의 배율 신경망 (multi-scale CNN) 구조에서 훈련된 세 개의 신경망 파라메터들을 모두 저장해야 하므로 그 만큼 많은 메모리가 요구된다.
도 10을 참고하면, 신경망 구조(1000)는 중간 레벨로 훈련된 배율 신경망의 상부층(1011)을 중간 레벨로 훈련된 배율 신경망 및 파트 레벨로 훈련된 배율 신경망의 상부층(1021) 및 상부층(1031)과 공유한다.
따라서, 신경망 구조(1000)는 복수의 배율 신경망의 파라메터를 저장함에 있어서, 상부층(1011), 하부층(1012), 하부층(1022) 및 하부층(1032)의 파라메터만을 저장함에 따라 메모리 소모를 현격하게 줄일 수 있다.
본 발명의 일실시예에 따르면 신경망 구조(1000)는 테스트 영상에 대해 α=0, β=1로 고정하여 영상 크기변환된 객체 레벨 영상(1010)을 객체 레벨로 훈련된 배율 신경망 상부층(1011) 및 하부층(1012)에 입력하여 출력단에 각 클래스 별로 스코어(score)를 출력한다.
또한, 신경망 구조(1000)는 테스트 영상에 대해 α=0, β=1.25로 고정하여 영상 크기변환된 중간 레벨 영상(1020)을 객체 레벨로 훈련된 배율 신경망의 상부층(1021) 및 하부층(1021)에 입력하면 출력단에 중간 레벨에 해당하는 배율 신경망의 클래스 별 스코어(score)를 출력한다.
마지막으로, 신경망 구조(1000)는 테스트 영상에 대해 α=0, β=1.5로 고정하여 영상 크기변환 된 파트 레벨 영상(1030)을 객체 레벨로 훈련된 배율 신경망의 상부층(1031) 및 하부층(1032)에 입력하면 출력단에 파트 레벨에 해당하는 배율 신경망의 클래스 별 스코어(score)를 출력한다.
즉, 도 10의 신경망 구조(1000)는 도 9의 신경망 구조(900)와 유사한 테스트 영상의 객체 인식율을 제공하면서도 메모리 소모를 현격하게 줄일 수 있다.
신경망 구조(900)와 신경망 구조(1000)에 기반한 테스트 영상의 객체 인식율의 정확도는 음식과 같이 분리 가능한 객체 부분이 없고 객체 경계가 없는 사물에 대한 인식율을 표 1, 표 2 및 표 3을 통해 비교한다. 여기서, 데이터 셋은 표 1의 경우 UECFood256이라는 영상 데이터베이스를 이용하고, 표 2의 경우 Food101이라는 영상 데이터베이스를 이용하며, 표 3의 경우 VieroFood172라는 영상 데이터베이스를 이용한다.
또한, 신경망 구조(900)와 신경망 구조(1000)와 종래기술1, 종래기술2, 종래기술3, 종래기술4는 ResNet50라는 동일한 CNN(Convolutional Neural Networks) 구조에 기반한다.
Figure pat00002
표 1에 따르면 종래 기술 1, 종래 기술 2 및 종래기술 3은 음식과 같이 공통적인 파트 객체가 존재하지 않는 경우 최종 평균 정확성을 측정하기 어렵다.
반면에, 본 발명의 도 9에 해당하는 신경망 구조(900)는 객체 레벨 및 파트 레벨에서 각각 67.48% 및 57.70%의 최종 평균 정확성이 측정 가능하다.
또한, 본 발명의 도 10에 해당하는 신경망 구조(1000)는 객체 레벨 및 파트 레벨에서 각각 67.48% 및 62.02%의 최종 평균 정확성이 측정 가능하다.
따라서, 본 발명은 공통적인 파트 객체가 존재하지 않는 경우에도 테스트 영상의 클래스를 인식할 수 있다.
신경망 구조(900)의 최종 평균 정확성과 신경망 구조(1000)의 최종 평균 정확성을 비교하면 객체 레벨은 동일하고, 파트 레벨은 유사하므로 객체 레벨 배율 신경망의 상부층을 파트 레벨 배율 신경망의 상부층으로 공유하여 메모리 소모를 줄일 수 있다.
한편, 본 발명의 도 9에 해당하는 신경망 구조(900)는 객체 레벨, 파트 레벨에서 최종 평균 정확성을 융합(fused)할 경우, 융합 결과(fused result)는 최상위(Top1)의 경우 70.36%로 객체 레벨과 유사하고 최하위(Top5)의 경우 90.71%로 객체 레벨보다 높다.
또한, 본 발명의 도 10에 해당하는 신경망 구조(1000)는 객체 레벨, 파트 레벨에서 최종 평균 정확성을 융합(fused)할 경우, 융합 결과(fused result)는 최상위(Top1)의 경우 71.75%로 객체 레벨과 유사하고 최하위(Top5)의 경우 91.49%로 객체 레벨보다 높다.
신경망 구조(900)의 융합 결과와 신경망 구조(1000)의 융합 결과를 비교하면 신경망 구조(1000)의 융합 결과가 상대적으로 높다.
Figure pat00003
표 2에 따르면, 종래 기술 1, 종래 기술 2, 종래기술 3 및 종래기술 4는 음식과 같이 공통적인 파트 객체가 존재하지 않는 경우 최종 평균 정확성을 측정하기 어렵다.
반면에, 본 발명의 도 9에 해당하는 신경망 구조(900)는 객체 레벨 및 파트 레벨에서 각각 84.24% 및 76.02%의 최종 평균 정확성이 측정 가능하다.
또한, 본 발명의 도 10에 해당하는 신경망 구조(1000)는 객체 레벨 및 파트 레벨에서 각각 84.24% 및 78.34%의 최종 평균 정확성이 측정 가능하다.
따라서, 본 발명은 공통적인 파트 객체가 존재하지 않는 경우에도 테스트 영상의 클래스를 인식할 수 있다.
신경망 구조(900)의 최종 평균 정확성과 신경망 구조(1000)의 최종 평균 정확성을 비교하면 객체 레벨은 동일하고, 파트 레벨은 유사하므로 객체 레벨 배율 신경망의 상부층을 파트 레벨 배율 신경망의 상부층으로 공유하여 메모리 소모를 줄일 수 있다.
한편, 본 발명의 도 9에 해당하는 신경망 구조(900)는 객체 레벨, 파트 레벨에서 최종 평균 정확성을 융합(fused)할 경우, 융합 결과(fused result)는 최상위(Top1)의 경우 85.33%로 객체 레벨과 유사하고 최하위(Top5)의 경우 96.96%로 객체 레벨보다 높다.
또한, 본 발명의 도 10에 해당하는 신경망 구조(1000)는 객체 레벨, 파트 레벨에서 최종 평균 정확성을 융합(fused)할 경우, 융합 결과(fused result)는 최상위(Top1)의 경우 86.21%로 객체 레벨과 유사하고 최하위(Top5)의 경우 97.19%로 객체 레벨보다 높다.
신경망 구조(900)의 융합 결과와 신경망 구조(1000)의 융합 결과를 비교하면 신경망 구조(1000)의 융합 결과가 상대적으로 높다.
Figure pat00004
표 3에 따르면, 종래 기술 1은 음식과 같이 공통적인 파트 객체가 존재하지 않는 경우 최종 평균 정확성을 측정하기 어렵다.
반면에, 본 발명의 도 9에 해당하는 신경망 구조(900)는 객체 레벨 및 파트 레벨에서 각각 88.01% 및 82.38%의 최종 평균 정확성이 측정 가능하다.
또한, 본 발명의 도 10에 해당하는 신경망 구조(1000)는 객체 레벨 및 파트 레벨에서 각각 88.01% 및 84.87%의 최종 평균 정확성이 측정 가능하다.
따라서, 본 발명은 공통적인 파트 객체가 존재하지 않는 경우에도 테스트 영상의 클래스를 인식할 수 있다.
신경망 구조(900)의 최종 평균 정확성과 신경망 구조(1000)의 최종 평균 정확성을 비교하면 객체 레벨은 동일하고, 파트 레벨은 유사하므로 객체 레벨 배율 신경망의 상부층을 파트 레벨 배율 신경망의 상부층으로 공유하여 메모리 소모를 줄일 수 있다.
한편, 본 발명의 도 9에 해당하는 신경망 구조(900)는 객체 레벨, 파트 레벨에서 최종 평균 정확성을 융합(fused)할 경우, 융합 결과(fused result)는 최상위(Top1)의 경우 88.87%로 객체 레벨과 유사하고 최하위(Top5)의 경우 98.27%로 객체 레벨보다 높다.
또한, 본 발명의 도 10에 해당하는 신경망 구조(1000)는 객체 레벨, 파트 레벨에서 최종 평균 정확성을 융합(fused)할 경우, 융합 결과(fused result)는 최상위(Top1)의 경우 89.72%로 객체 레벨과 유사하고 최하위(Top5)의 경우 98.40%로 객체 레벨보다 높다.
신경망 구조(900)의 융합 결과와 신경망 구조(1000)의 융합 결과를 비교하면 신경망 구조(1000)의 융합 결과가 상대적으로 높다.
표 1, 표 2 및 표 3에서의 실험 데이터를 고려해보면 본 발명은 배율 별로 복수개의 신경망을 사용하므로 각각의 배율에 해당하는 훈련된 파라메터를 저장해야 하는 단점을 극복하기 위해 객체수준의 신경망의 상부층을 다른 모든 배율에서 공유할 수 있도록 배율 별 신경망을 훈련시킴으로써 메모리 소비량을 최소화할 수 있다.
또한, 본 발명은 음식과 같이 분리 가능한 객체 부분이 없고 객체 경계가 없는 사물에 대하여 종래기술과 달리 보다 정확하게 인식할 수 있다.
도 11a 및 도 11b는 본 발명의 일실시예에 따른 병렬 심층 신경망 장치의 영상 크기 변환부가 크기 변환한 영상을 설명하는 도면이다.
도 11a 및 도 11b는 본 발명의 일실시예에 따른 병렬 심층 신경망 장치의 영상 크기 변환부가 훈련 영상 또는 테스트 영상이 될 수 있는 음식 영상 또는 이미지의 전체 레벨을 객체 레벨 및 파트 레벨로 크기 변환한 영상을 예시한다.
도 11a를 참고하면, 본 발명의 일실시예에 따른 병렬 심층 신경망 장치가 우묵한 그릇(bowl)에 담긴 국수의 전체 레벨(1100)을 객체 레벨(1110) 및 파트 레벨(1120)로 크기 변환한 영상들을 나타낸다.
예를 들어, 전체 레벨(1100)은 크기 변환 이전의 원영상에 해당될 수 있다.
도 11b를 참고하면, 본 발명의 일실시예에 따른 병렬 심층 신경망 장치가 접시(dish)에 담긴 샐러드의 전체 레벨(1130)을 객체 레벨(1140) 및 파트 레벨(1150)로 크기 변환한 영상들을 나타낸다.
예를 들어, 전체 레벨(1130)은 크기 변환 이전의 원영상에 해당될 수 있다.
따라서, 본 발명은 영상에 존재하는 객체를 전체적인 시각(global view)과 국부적인 시각(local view) 등의 다양한 배율(scale)로 크기 변환된 훈련영상으로 학습으로 학습할 수 있다.
예를 들어, 객체의 전체적인 시각은 전체 레벨(1100) 및 전체 레벨(1130)에 해당될 수 있고, 국부적인 시각 또는 부객체(sub-object)는 객체 레벨(1110), 파트 레벨(1120), 객체 레벨(1140) 및 파트 레벨(1150)에 해당될 수 있다.
예를 들어, 객체 레벨(1110), 파트 레벨(1120), 객체 레벨(1140) 및 파트 레벨(1150)은 스케일 지터링 및 무작위 크로핑의 결과 시도할 때 마다 결과가 조금씩 다르게 보이는 것을 나타낼 수 있다.
도 12 및 도 13은 본 발명의 일실시예에 따른 병렬 심층 신경망 장치의 동작 방법을 설명하는 도면이다.
도 12는 본 발명의 일실시예에 따른 병렬 심층 신경망 장치의 동작 방법이 서로 다른 배율로 크기 변환된 훈련 영상을 학습하여 복수의 배율 신경망을 생성하는 동작을 예시한다.
도 12를 참고하면, 본 발명의 일실시예에 따른 병렬 심층 신경망 장치의 동작 방법은 단계(1201)에서 학습 영상을 서로 다른 복수의 배율로 크기 변환한다.
즉, 본 발명의 일실시예에 따른 병렬 심층 신경망 장치의 동작 방법은 훈련 영상에 대해 서로 다른 복수의 배율을 적용하여 복수의 영상 변환 레벨로 훈련 영상의 크기를 변환할 수 있다.
단계(1202)에서 본 발명의 일실시예에 따른 병렬 심층 신경망 장치의 동작 방법은 복수의 배율로 변환된 학습 영상을 이용하여 복수의 배율 신경망을 생성한다.
즉, 본 발명의 일실시예에 따른 병렬 심층 신경망 장치의 동작 방법은 일반 영상으로 기 훈련된 신경망의 상부층과 복수의 영상 변환 레벨 중 제1 레벨에 따라 파라메터가 교체된 하부층을 연결하여 전이학습을 수행함에 따라 제1 레벨에 대한 제1 배율 신경망을 생성하고, 제1 배율 신경망의 상부층과 복수의 영상 변환 레벨 중 제1 레벨 이외의 나머지 영상 변환 레벨들에 따라 파라메터가 교체된 하부층들을 각각 연결하여 전이학습을 수행함에 따라 나머지 영상 변환 레벨들에 대한 나머지 배율 신경망들을 생성할 수 있다.
도 13은 본 발명의 일실시예에 따른 병렬 심층 신경망 장치의 동작 방법이 서로 다른 배율로 크기 변환된 훈련 영상을 학습하여 생성된 복수의 배율 신경망을 이용하여 테스트 영상을 인식하는 동작을 예시한다.
도 13을 참고하면, 본 발명의 일실시예에 따른 병렬 심층 신경망 장치의 동작 방법은 단계(1301)에서 테스트 영상을 서로 다른 복수의 배율로 크기 변환한다.
즉, 본 발명의 일실시예에 따른 병렬 심층 신경망 장치의 동작 방법은 테스트 영상에 대해 서로 다른 복수의 배율을 적용하여 복수의 영상 변환 레벨로 테스트 영상의 크기를 변환할 수 있다.
단계(1302)에서 본 발명의 일실시예에 따른 병렬 심층 신경망 장치의 동작 방법은 복수의 배율로 변환된 학습 영상을 이용하여 생성된 복수의 배율 신경망에 변환된 배율에 따라 테스트 영상을 입력하여 복수의 클래스 별 스코어를 각각 산출할 수 있다.
즉, 본 발명의 일실시예에 따른 병렬 심층 신경망 장치의 동작 방법은 제1 배율 신경망 및 나머지 배율 신경망들에 복수의 영상 변환 레벨에 따라 크기 변환된 테스트 영상을 입력하여 복수의 클래스 별 스코어(score)를 각각 산출할 수 있다.
단계(1303)에서 본 발명의 일실시예에 따른 병렬 심층 신경망 장치의 동작 방법은 복수의 배율 신경망을 병렬로 연결함에 따라 각각 산출된 스코어를 통합하여 테스트 영상의 클래스를 인식할 수 있다.
즉, 본 발명의 일실시예에 따른 병렬 심층 신경망 장치의 동작 방법은 제1 배율 신경망 및 나머지 배율 신경망들을 병렬로 연결하여 단계(1302)에서 각각 산출된 스코어(score)를 더하거나 곱하여 산출된 최종 스코어에 기반하여 테스트 영상의 클래스를 인식할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
100: 병렬 심층 신경망 장치
110: 영상 크기 변환부 120: 배율 신경망 생성부

Claims (18)

  1. 훈련 영상에 대해 서로 다른 복수의 배율을 적용하여 복수의 영상 변환 레벨로 상기 훈련 영상의 크기를 변환하는 영상 크기 변환부; 및
    일반 영상으로 기 훈련된 신경망의 상부층과 상기 복수의 영상 변환 레벨 중 제1 레벨에 따라 파라메터가 교체된 하부층을 연결하여 전이학습을 수행함에 따라 상기 제1 레벨에 대한 제1 배율 신경망을 생성하고, 상기 제1 배율 신경망의 상부층과 상기 복수의 영상 변환 레벨 중 상기 제1 레벨 이외의 나머지 영상 변환 레벨들에 따라 파라메터가 교체된 하부층들을 각각 연결하여 전이학습을 수행함에 따라 상기 나머지 영상 변환 레벨들에 대한 나머지 배율 신경망들을 생성하는 배율 신경망 생성부를 포함하는
    병렬 심층 신경망 장치.
  2. 제1항에 있어서,
    상기 영상 크기 변환부는 상기 훈련 영상에 대하여 객체 전체를 포함할 수 있는 전체 배율을 결정하고, 상기 결정된 전체 배율 범위 내에서 상기 서로 다른 복수의 배율을 무작위로 결정하는
    병렬 심층 신경망 장치.
  3. 제2항에 있어서,
    상기 영상 크기 변환부는 상기 결정된 서로 다른 복수의 배율에 따라 상기 훈련 영상을 선형적으로 변환하여 중간 영상을 생성하고, 상기 생성된 중간 영상 내에서 상기 결정된 서로 다른 복수의 배율 별로 상기 훈련 연상을 무작위로 크로핑(cropping)하여 상기 훈련 영상의 크기를 변환하는
    병렬 심층 신경망 장치.
  4. 제2항에 있어서,
    상기 영상 크기 변환부는 상기 전체 배율에 따른 상기 훈련 영상의 가로 및 세로 길이의 최소값에서 배율 신경망에 입력될 영상의 가로 및 세로 길이의 최소값을 제외한 후, 평균이 0이고 표준편차가 0.5인 정규분포에서 생성한 난수값을 결합하여 생성된 값과 상기 전체 배율에 따른 상기 훈련 영상의 가로 및 세로 길이의 최소값에 상기 배율 신경망에 입력될 영상의 가로 및 세로 길이의 최소값의 합에 대한 절반에 배율의 범위를 결정하기 위한 배율요소(scaling factor)를 결합하여 생성된 값을 합산하여 상기 서로 다른 복수의 배율을 결정하는
    병렬 심층 신경망 장치.
  5. 제1항에 있어서,
    상기 배율 신경망 생성부는 상기 제1 배율 신경망의 상부층의 파라메터를 상기 나머지 배율 신경망들을 생성하기 위한 기본 파라메터로 공유하면서, 상기 나머지 배율 신경망들의 상부층의 파라메터로 공유하는
    병렬 심층 신경망 장치.
  6. 제1항에 있어서,
    상기 배율 신경망 생성부는 상기 제1 배율 신경망의 상부층과 상기 복수의 영상 변환 레벨 중 제2 레벨에 따라 파라메터가 교체된 하부층을 연결하여 전이 학습을 수행함에 따라 상기 나머지 배율 신경망들 중 제2 배율 신경망을 생성하고, 상기 제1 배율 신경망의 상부층과 상기 복수의 영상 변환 레벨 중 제3 레벨에 따라 파라메터가 교체된 하부층을 연결하여 전이 학습을 수행함에 따라 상기 나머지 배율 신경망들 중 제3 배율 신경망을 생성하며, 상기 제1 배율 신경망의 상부층과 상기 복수의 영상 변환 레벨 중 마지막 레벨에 따라 파라메터가 교체된 하부층을 연결하여 전이 학습을 수행함에 따라 상기 나머지 배율 신경망들 중 마지막 배율 신경망을 생성하는
    병렬 심층 신경망 장치.
  7. 제6항에 있어서,
    상기 배율 신경망 생성부는 상기 나머지 배율 신경망들을 생성할 시, 상기 제1 배율 신경망의 상부층의 파라메터와 상기 나머지 배율 신경망들의 상부층의 파라메터를 동일하게 저장하는
    병렬 심층 신경망 장치.
  8. 제1항에 있어서,
    상기 복수의 영상 변환 레벨은 상기 훈련 영상에서 객체 크기의 배율에 해당하는 객체 레벨(object level), 객체의 부분 크기의 배율에 해당하는 파트 레벨(part level) 및 상기 객체 레벨(object level)과 상기 파트 레벨(part level)의 중간 크기의 배율에 해당하는 중간 레벨(Mid-level) 중 적어도 둘의 레벨을 포함하는
    병렬 심층 신경망 장치.
  9. 제1항에 있어서,
    상기 생성된 제1 배율 신경망 및 상기 생성된 나머지 배율 신경망들에 상기 복수의 영상 변환 레벨에 따라 크기 변환된 테스트 영상을 입력하여 복수의 클래스 별 스코어(score)를 각각 산출하는 스코어 산출부를 더 포함하는
    병렬 심층 신경망 장치.
  10. 제9항에 있어서,
    상기 영상 크기 변환부는 상기 테스트 영상에 대하여 객체 전체를 포함할 수 있는 전체 배율을 결정하고, 상기 결정된 전체 배율 범위 내에서 상기 테스트 영상을 위한 서로 다른 복수의 배율을 결정하고, 상기 결정된 서로 다른 복수의 배율에 따라 상기 테스트 영상을 선형적으로 변환하여 중간 영상을 생성하고, 상기 생성된 중간 영상 내에서 상기 결정된 서로 다른 복수의 배율 별로 상기 테스트 영상의 크기를 변환하는
    병렬 심층 신경망 장치.
  11. 제10항에 있어서,
    상기 영상 크기 변환부는 상기 전체 배율에 따른 상기 테스트 영상의 가로 및 세로 길이의 최소값에 상기 배율 신경망에 입력될 영상의 가로 및 세로 길이의 최소값의 합에 대한 절반에 배율의 범위를 결정하기 위한 배율요소(scaling factor)를 결합하여 상기 테스트 영상을 위한 서로 다른 복수의 배율을 결정하는
    병렬 심층 신경망 장치.
  12. 제9항에 있어서,
    상기 생성된 제1 배율 신경망 및 상기 생성된 나머지 배율 신경망들을 병렬로 연결하여 상기 각각 산출된 스코어(score)를 통합하여 상기 테스트 영상의 클래스를 인식하는 영상 인식부를 더 포함하는
    병렬 심층 신경망 장치.
  13. 제12항에 있어서,
    상기 영상 인식부는 상기 각각 산출된 스코어(score)를 더하거나 곱하여 산출된 최종 스코어들 중 가장 큰 스코어에 해당하는 클래스를 상기 테스트 영상의 클래스로 인식하는
    병렬 심층 신경망 장치.
  14. 제12항에 있어서,
    상기 클래스는 상기 테스트 영상에서 분류 대상이 되는 복수의 카테고리 중 어느 하나의 카테고리를 포함하는
    병렬 심층 신경망 장치.
  15. 영상 크기 변환부에서, 훈련 영상에 대해 서로 다른 복수의 배율을 적용하여 복수의 영상 변환 레벨로 상기 훈련 영상의 크기를 변환하는 단계;
    배율 신경망 생성부에서, 일반 영상으로 기 훈련된 신경망의 상부층과 상기 복수의 영상 변환 레벨 중 제1 레벨에 따라 파라메터가 교체된 하부층을 연결하여 전이학습을 수행함에 따라 상기 제1 레벨에 대한 제1 배율 신경망을 생성하는 단계; 및
    상기 배율 신경망 생성부에서, 상기 제1 배율 신경망의 상부층과 상기 복수의 영상 변환 레벨 중 상기 제1 레벨 이외의 나머지 영상 변환 레벨들에 따라 파라메터가 교체된 하부층들을 각각 연결하여 전이학습을 수행함에 따라 상기 나머지 영상 변환 레벨들에 대한 나머지 배율 신경망들을 생성하는 단계를 포함하는
    병렬 심층 신경망 학습 장치의 동작 방법.
  16. 제15항에 있어서,
    상기 훈련 영상의 크기를 변환하는 단계는
    상기 훈련 영상에 대하여 객체 전체를 포함할 수 있는 전체 배율을 결정하고, 상기 결정된 전체 배율 범위 내에서 상기 서로 다른 복수의 배율을 무작위로 결정하는 단계; 및
    상기 결정된 서로 다른 복수의 배율에 따라 상기 훈련 영상을 선형적으로 변환하여 중간 영상을 생성하고, 상기 생성된 중간 영상 내에서 상기 결정된 서로 다른 복수의 배율 별로 상기 훈련 연상을 무작위로 크로핑(cropping)하여 상기 훈련 영상의 크기를 변환하는 단계를 포함하는
    병렬 심층 신경망 장치의 동작 방법.
  17. 제15항에 있어서,
    상기 나머지 영상 변환 레벨들에 대한 나머지 배율 신경망들을 생성하는 단계는
    상기 제1 배율 신경망의 상부층과 상기 복수의 영상 변환 레벨 중 제2 레벨에 따라 파라메터가 교체된 하부층을 연결하여 전이 학습을 수행함에 따라 상기 나머지 배율 신경망들 중 제2 배율 신경망을 생성하는 단계;
    상기 제1 배율 신경망의 상부층과 상기 복수의 영상 변환 레벨 중 제3 레벨에 따라 파라메터가 교체된 하부층을 연결하여 전이 학습을 수행함에 따라 상기 나머지 배율 신경망들 중 제3 배율 신경망을 생성하는 단계; 및
    상기 제1 배율 신경망의 상부층과 상기 복수의 영상 변환 레벨 중 마지막 레벨에 따라 파라메터가 교체된 하부층을 연결하여 전이 학습을 수행함에 따라 상기 나머지 배율 신경망들 중 마지막 배율 신경망을 생성하는 단계를 포함하는
    병렬 심층 신경망 장치의 동작 방법.
  18. 제15항에 있어서,
    상기 생성된 제1 배율 신경망 및 상기 생성된 나머지 배율 신경망들에 상기 복수의 영상 변환 레벨에 따라 크기 변환된 테스트 영상을 입력하여 복수의 클래스 별 스코어(score)를 각각 산출하는 단계; 및
    상기 생성된 제1 배율 신경망 및 상기 생성된 나머지 배율 신경망들을 병렬로 연결하여 상기 각각 산출된 스코어(score)를 통합하여 상기 테스트 영상의 클래스를 인식하는 단계를 더 포함하는
    병렬 심층 신경망 장치의 동작 방법.
KR1020200096078A 2020-07-31 2020-07-31 복수의 배율에 따라 크기 변환된 영상으로 학습된 병렬 심층 신경망 장치 및 방법 KR102437193B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200096078A KR102437193B1 (ko) 2020-07-31 2020-07-31 복수의 배율에 따라 크기 변환된 영상으로 학습된 병렬 심층 신경망 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200096078A KR102437193B1 (ko) 2020-07-31 2020-07-31 복수의 배율에 따라 크기 변환된 영상으로 학습된 병렬 심층 신경망 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20220016402A true KR20220016402A (ko) 2022-02-09
KR102437193B1 KR102437193B1 (ko) 2022-08-30

Family

ID=80266169

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200096078A KR102437193B1 (ko) 2020-07-31 2020-07-31 복수의 배율에 따라 크기 변환된 영상으로 학습된 병렬 심층 신경망 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102437193B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024052987A1 (ja) * 2022-09-06 2024-03-14 日本電信電話株式会社 信号生成装置、信号生成システム、信号生成方法及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024085501A1 (ko) * 2022-10-18 2024-04-25 삼성전자 주식회사 이미지 센서의 이미지를 이용한 학습 기반 화질 개선 방법 및 이를 지원하는 전자 장치

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101882704B1 (ko) 2017-12-18 2018-07-27 삼성전자주식회사 전자 장치 및 그 제어 방법
KR20190029083A (ko) * 2017-09-11 2019-03-20 삼성전자주식회사 신경망 학습 방법 및 이를 적용한 장치
KR20190099039A (ko) * 2016-12-27 2019-08-23 오브체스트보 에스 오르가니첸노이 오트베트스트벤노스티쥬 "비쯔흐렙스" 페어 유사성 척도의 분포를 기반으로 한 심층 신경망의 훈련
KR20200027468A (ko) * 2017-05-19 2020-03-12 더 락커펠러 유니버시티 영상 신호 추출 장치 및 이의 사용 방법
KR102102161B1 (ko) 2018-05-18 2020-04-20 오드컨셉 주식회사 이미지 내 객체의 대표 특성을 추출하는 방법, 장치 및 컴퓨터 프로그램
KR20200066732A (ko) 2017-11-30 2020-06-10 난토믹스, 엘엘씨 딥 러닝을 사용한 병리 슬라이드 이미지에서의 분자 아형의 종양내 이질성 검출

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190099039A (ko) * 2016-12-27 2019-08-23 오브체스트보 에스 오르가니첸노이 오트베트스트벤노스티쥬 "비쯔흐렙스" 페어 유사성 척도의 분포를 기반으로 한 심층 신경망의 훈련
KR20200027468A (ko) * 2017-05-19 2020-03-12 더 락커펠러 유니버시티 영상 신호 추출 장치 및 이의 사용 방법
KR20190029083A (ko) * 2017-09-11 2019-03-20 삼성전자주식회사 신경망 학습 방법 및 이를 적용한 장치
KR20200066732A (ko) 2017-11-30 2020-06-10 난토믹스, 엘엘씨 딥 러닝을 사용한 병리 슬라이드 이미지에서의 분자 아형의 종양내 이질성 검출
KR101882704B1 (ko) 2017-12-18 2018-07-27 삼성전자주식회사 전자 장치 및 그 제어 방법
KR102102161B1 (ko) 2018-05-18 2020-04-20 오드컨셉 주식회사 이미지 내 객체의 대표 특성을 추출하는 방법, 장치 및 컴퓨터 프로그램

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
C. Wah, S. Branson, P. Welinder, P. Perona, and S. Belongie, "The CaltechUCSD Birds-200-2011 Dataset," California Institute of Technology, CNSTR-2011-001, 2011.
L. Bossard, M. Guillaumin, and L. Van Gool, "Food-101 - Mining Discriminative Components with Random Forests," European Conference on Computer Vision (ECCV), pages 446-461. Springer, 2014.
Y. Peng, X. He, and J. Zhao, "Object-part attention model for fine-grained image classification," IEEE Transactions on Image Processing, Vol. 27, No.3, pp. 1487-1500, 2018.
미국등록특허 제10115040호, "CONVOLUTIONAL NEURAL NETWORK-BASED MODE SELECTION AND DEFECT CLASSIFICATION FOR IMAGE FUSION"

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024052987A1 (ja) * 2022-09-06 2024-03-14 日本電信電話株式会社 信号生成装置、信号生成システム、信号生成方法及びプログラム

Also Published As

Publication number Publication date
KR102437193B1 (ko) 2022-08-30

Similar Documents

Publication Publication Date Title
CN108615036B (zh) 一种基于卷积注意力网络的自然场景文本识别方法
JP6188400B2 (ja) 画像処理装置、プログラム及び画像処理方法
US20170177972A1 (en) Method for analysing media content
WO2020102733A1 (en) Learning to generate synthetic datasets for training neural networks
US20180260531A1 (en) Training random decision trees for sensor data processing
JP2019008778A (ja) 画像の領域のキャプション付加
CN111260740A (zh) 一种基于生成对抗网络的文本到图像生成方法
US20210089845A1 (en) Teaching gan (generative adversarial networks) to generate per-pixel annotation
US11488060B2 (en) Learning method, learning program, learning device, and learning system
CN111145188B (zh) 一种基于ResNet与UNet模型的图像分割方法
JP2015506026A (ja) 画像分類
US20230196202A1 (en) System and method for automatic building of learning machines using learning machines
KR102437193B1 (ko) 복수의 배율에 따라 크기 변환된 영상으로 학습된 병렬 심층 신경망 장치 및 방법
CN109086865B (zh) 一种基于切分循环神经网络的序列模型建立方法
CN111274981B (zh) 目标检测网络构建方法及装置、目标检测方法
Dandıl et al. Real-time facial emotion classification using deep learning
JP6989450B2 (ja) 画像解析装置、画像解析方法及びプログラム
CN109919214B (zh) 一种神经网络模型的训练方法及训练装置
CN110363830A (zh) 元素图像生成方法、装置及系统
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN110889290B (zh) 文本编码方法和设备、文本编码有效性检验方法和设备
Lima et al. Automatic design of deep neural networks applied to image segmentation problems
CN115937516B (zh) 一种图像语义分割方法、装置、存储介质及终端
CN114882315B (zh) 样本生成方法、模型训练方法、装置、设备及介质
WO2022239216A1 (ja) 学習装置、学習方法、画像処理装置、及び画像処理方法

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant