KR102658990B1 - 학습 장치 - Google Patents

학습 장치 Download PDF

Info

Publication number
KR102658990B1
KR102658990B1 KR1020237031632A KR20237031632A KR102658990B1 KR 102658990 B1 KR102658990 B1 KR 102658990B1 KR 1020237031632 A KR1020237031632 A KR 1020237031632A KR 20237031632 A KR20237031632 A KR 20237031632A KR 102658990 B1 KR102658990 B1 KR 102658990B1
Authority
KR
South Korea
Prior art keywords
learning
domain
delete delete
cnn
feature
Prior art date
Application number
KR1020237031632A
Other languages
English (en)
Other versions
KR20230144087A (ko
Inventor
도모야 사와다
Original Assignee
미쓰비시덴키 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 미쓰비시덴키 가부시키가이샤 filed Critical 미쓰비시덴키 가부시키가이샤
Publication of KR20230144087A publication Critical patent/KR20230144087A/ko
Application granted granted Critical
Publication of KR102658990B1 publication Critical patent/KR102658990B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

본 개시 기술에 따른 학습 장치(1)는, 기계 학습 가능한 결합 수리 모델(140)을 구비하고, 교사용의 오리지널 도메인의 데이터 세트로부터 타겟 도메인의 데이터 세트를 학습하는 학습 장치(1)로서, 상기 결합 수리 모델(140)의 전단부는, 입력된 화상 데이터로부터 복수의 저레벨 특징 맵을 생성하고, 상기 화상 데이터 중 상기 오리지널 도메인과 상기 타겟 도메인에 대하여 동일한 종류의 학습 대상에 속하는 데이터 세트의 상기 저레벨 특징 맵을 비교하고, 도메인 공유 특징량을 산출하고, 상기 도메인 공유 특징량 중, {1} 색, {2} 휘도, {3} 저주파 성분, 및 {4} 고주파 성분의 각각의 공간에 대하여 도메인 완화 학습 정보를 산출한다.

Description

학습 장치
본 개시 기술은, 추론 장치, 추론 방법, 학습 장치, 학습 방법, 및 프로그램에 관한 것이다.
미리 학습한 정보를 사용하여, 카메라에 의해 촬상된 촬상 화상에 대하여 추론을 행하여, 각종 식별을 행하는 식별 장치에 관한 기술이 알려져 있다. 이 추론을 행하는 식별 장치는, 뉴럴 네트워크를 이용한 것이 개시되어 있고, 딥 러닝 등의 기계 학습에 의해 강화되어 있다.
또한, 식별 장치에 관한 종래 기술에는, CNN(Convolutional Neural Network)을 이용하여 촬영 화상이 촬영되었을 때의 기후 등 외적 요인에 대하여 로버스트한 추론을 행하는 기술이 개시되어 있다(예컨대 특허문헌 1).
특허문헌 1: 일본 특허 공개 2019-175107호 공보
특허문헌 1에 예시된 선행 기술은, 기후 등의 외적 요인에 의한 화상의 변화 레벨에 대해서는, 확실히 로버스트하다. 그러나, 도메인이 상이한 화상을 취급하고자 하는 경우, 화상의 변화 레벨이 너무 크기 때문에, 선행 기술에서는 올바르게 학습과 추론을 행할 수 없다. 여기서 도메인이란 화상의 종류를 의미하고, 예컨대, 실사의 RGB 화상, 적외선 카메라에 의한 Thermal Infrared 화상(이하 "TIR 화상"이라고 한다), 일러스트 화상, CG 시뮬레이터가 생성하는 화상 등을 들 수 있다. 도메인이 상이한 화상을 취급할 필요가 발생하는 장면은, 적외선 화상을 이용한 감시 카메라에 의한 인물 인식에 있어서, 학습용의 실사의 RGB 화상이 풍부하게 있지만, 본래 학습하고 싶은 TIR 화상이 풍부하지 않다고 하는 것이다.
본 개시 기술은 상기 과제를 해결하고, 도메인이 상이한 화상에 대해서도 올바르게 학습과 추론을 행할 수 있는 추론 장치, 추론 방법, 학습 장치, 학습 방법, 및 프로그램을 제공하는 것을 목적으로 한다.
본 개시 기술에 따른 학습 장치는, 기계 학습 가능한 결합 수리 모델을 구비하고, 교사용의 오리지널 도메인의 데이터 세트로부터 타겟 도메인의 데이터 세트를 학습하는 학습 장치로서, 결합 수리 모델의 전단부는, 입력된 화상 데이터로부터 복수의 저레벨 특징 맵을 생성하고, 화상 데이터 중 오리지널 도메인과 타겟 도메인에 대하여 동일한 종류의 학습 대상에 속하는 데이터 세트의 저레벨 특징 맵을 비교하고, 도메인 공유 특징량을 산출하고, 도메인 공유 특징량 중, (1) 색, (2) 휘도, (3) 저주파 성분, 및 (4) 고주파 성분의 각각의 공간에 대하여 도메인 완화 학습 정보를 산출하고, 도메인 완화 학습 정보를 이용하여 입력된 타겟 도메인의 특징 맵에 가중치를 부여하여 새로운 가중된 특징 맵을 생성하는 고차원 특징량 부여부와, 산출된 도메인 완화 학습 정보 중, 추론 장치의 메인 학습의 Epoch에 따라 강조하는 도메인 공유 특징량의 전환을 행하는 학습 정보 보정부를 구비한다고 하는 것이다.
본 개시 기술에 따른 학습 장치는, 획득 특징량의 순서라고 하는 학습의 본질을 잘 이용하고 있다. 어떠한 본질인가 하면, CNN으로 대표되는 수리 모델은, 학습에 있어서 "색"으로 대표되는 단순한 특징량일수록 빠르게 학습을 완료시키고 있다고 하는 것이다. 그 결과, 본 개시 기술에 따른 학습 장치는, 학습에 있어서 도메인이 상이한 화상을 취급할 수 있다. 또한, 본 개시 기술에 따른 학습 장치가 학습한 정보를 이용하면, 추론에 있어서 도메인이 상이한 화상을 취급할 수 있다.
도 1은 실시의 형태 1에 따른 학습 장치와 추론 장치를 구비한 시스템의 구성의 예를 나타내는 시스템 블록도이다.
도 2는 실시의 형태 1에 따른 시스템의 처리 플로를 나타내는 플로차트이다. 도 2(a)는 오리지널 도메인의 화상을 학습하고 추론하는 플로를 나타내고 있다. 도 2(b)는 타겟 도메인 화상을 처리하는 준비를 위한 필터 학습의 플로를 나타내고 있다. 도 2(c)는 타겟 도메인의 화상을 학습하고 추론할 때의 플로를 나타내고 있다.
도 3은 실시의 형태 2에 따른 학습 장치와 추론 장치를 구비한 시스템의 구성의 예를 나타내는 시스템 블록도이다.
도 4는 본 개시 기술의 사고방식을 나타낸 모식도이다.
도 5는 본 개시 기술의 사고방식을 보충한 설명도 1이다.
도 6은 본 개시 기술의 사고방식을 보충한 설명도 2이다.
본 개시 기술은, 이하의 실시의 형태마다 도면을 따른 설명에 의해 분명해진다. 본 개시 기술은, 미리 학습한 정보를 사용하여 카메라에 의해 촬상된 촬상 화상에 대하여 추론을 행하는 각종 식별 장치에 이용된다. 본 개시 기술은, 예컨대 적외선 화상을 이용한 감시 카메라, 인물 검지 카메라를 구비한 미래형 룸 에어컨 등에도 사용할 수 있다. 보다 구체적으로 본 개시 기술은, 교사용의 오리지널 도메인의 데이터 세트로부터 타겟 도메인의 데이터 세트를 학습하고, 추론하는 것에 관한 것이다.
본 개시 기술은, 도메인이 상이한 화상을 취급할 필요가 발생하는 장면에서 효과를 발휘한다. 예컨대 적외선 화상을 이용한 감시 카메라에 의한 인물 인식에 있어서, 학습용의 데이터 세트인 실사의 RGB 화상이 풍부하게 있지만, 본래 학습하고 싶은 TIR 화상이 풍부하지 않다고 하는 장면이다. 여기서, 실사의 RGB 화상과 같이 학습용으로 풍부하게 준비할 수 있는 화상의 종류는 "오리지널 도메인"이라 불리고, TIR 화상과 같이 본래 학습하고 싶은 화상의 종류는 "타겟 도메인"이라 불린다.
본 개시 기술은 CNN을 기초로 한 기술이기 때문에, CNN의 간단한 개요와 CNN에서 이용되는 용어의 간단한 설명에 대하여 여기서 언급하여 둔다. CNN은 콘볼루션 뉴럴 네트워크라고도 불리고, 대국적인 위치 불변성과 회전 불변성이라고 하는 성질을 구비한다. CNN은, 콘볼루션층(Convolution Layer)과, 풀링층(Pooling Layer)과, 전결합층(Fully Connected Layer)을 조합한 다층 퍼셉트론의 일종이다.
본 개시 기술이 취급하는 화상 및 CNN의 각 층은, 각각 특징 맵의 공간 해상도와 채널로 표현할 수 있다. 화상의 차원의 수는, 횡방향의 화소의 수와 종방향의 화소의 수와 채널의 수로 정해진다. 여기서 채널의 수란 RGB 화상이면 3, TIR 화상이면 1이 되는 횡과 종과는 다른 차원의 값이다. 다시 말해 화상의 총 차원의 수는, 횡방향 화소의 수 × 종방향 화소의 수 × 채널로 나타낼 수 있다.
CNN에 있어서의 콘볼루션층은, 2차원 콘볼루션이라 불리는 조작을 행한다. 일반적인 화상 처리에 있어서의 콘볼루션 조작을 행하는 것에는, 블러링 조작을 행하는 가우시안 필터 등이 유명하다. 콘볼루션 조작을 행하는 필터는, 콘볼루션 필터라 불린다. 콘볼루션 필터에 의한 처리는, 예컨대, 3×3 등의 작은 화상 패치로 간주할 수 있는 커널을 입력 화상의 각 화소에 두고, 입력 화상과 커널의 내적을 각 화소에 출력하는 것이다. CNN에 있어서의 콘볼루션층은, 통상 콘볼루션 필터를 복수 구비한 다단층을 갖고, 딥 러닝에서는 활성화 함수(Activation)와 배치 정규화(Batch Normalization)를 콘볼루션층의 전후에 도입함으로써, 기울기 소실(vanishing gradient)을 일으키지 않고서 학습 데이터의 국소성에 대한 과학습을 방지하는 효과를 구비한다.
활성화 함수는, 예컨대 ReLU(Rectified Linear Unit)나 Sigmoid, Softmax 등의 비선형 함수가 이용되고, 선형 공간으로부터 벗어남으로써 오차 역전파법(Back Propagation)에 의한 콘볼루션층으로의 기울기 전파 때에, 선형 공간에서 미분할 수 없게 되는 기울기 소실 문제를 피할 수 있다.
콘볼루션층은, 입력이 M채널이고 출력이 N채널이라고 하는 임의의 차원 조작이 가능하다. 콘볼루션층이 갖는 콘볼루션 필터의 수는, 채널로 표현한다. 콘볼루션층의 사이즈는, 출력층의 채널의 수 × 특성 맵의 세로 사이즈 × 특성 맵의 가로 사이즈로 나타낼 수 있다. 콘볼루션층의 출력은, 공간 정보를 구비하는 것이고 특성 맵(Feature Map) 또는 특징량 맵이라 불린다.
CNN에 있어서의 풀링층은, 서브샘플링이라고도 불리는 화상의 해상도를 낮추는 조작을 행하여, 특징을 남기면서 사이즈를 작게 함으로써 특징의 위치 감도를 저하시켜, 대국적인 위치 불변성과 회전 불변성을 획득한다. 화상 분류를 위한 CNN은 최종적으로는 벡터를 출력하기 때문에, 단계적으로 해상도를 낮추는 것을 행한다. 풀링층에는 몇몇의 방법을 생각할 수 있지만, 최대치 풀링이 자주 사용되고 있다. 최대치 풀링은, 특성 맵마다의 최대치를 출력하는 리사이즈를 행하는 것이다. 콘볼루션층과 풀링층은, 화상의 구조를 활용한 층이고, 공간 정보를 갖는다.
CNN에서는, 전결합층을 네트워크의 최후에 배치하는 일이 있다. 전결합층은, 콘볼루션층 및 풀링층과는 달리, 횡×종×채널이라고 하는 구조를 갖지 않고, 벡터로서 양자화된 특징이 기술된다. 전결합층은 차원 삭감이나 확장에 이용되는 일이 있고, 특성 맵의 각 화소를 근방 영역뿐만 아니라 전체 영역에 걸쳐 결합함으로써, 보다 개념적인 고차원의 의미 특징(semantics)을 획득하는 것이 가능하게 된다.
실시의 형태 1.
도 1은 실시의 형태 1에 따른 학습 장치(1)와 추론 장치(2)를 구비한 시스템의 구성의 예를 나타내는 시스템 블록도이다. 도 1이 나타내는 바와 같이 본 개시 기술에 따른 시스템은, 학습 장치(1)와, 추론 장치(2)와, 학습 장치(1)와 추론 장치(2)가 정보를 공유할 수 있는 공유 기억 장치(3)와, 학습 장치(1)가 액세스하는 외부 기억 장치(4)로 구성된다.
도 1이 나타내는 바와 같이 학습 장치(1)는, 화상 입력부(10)와, 천층(淺層) 특징량 추출부(11)와, 공통 특징량 산출부(12)와, 도메인 완화 학습 정보 산출부(13)와, 고차원 특징량 부여부(14)와, 학습 정보 보정부(15)를 구비한다. 또한, 도 1이 나타내는 바와 같이 추론 장치(2)는, 심층 특징량 추출부(20)와, 속성 회귀부(21)를 구비한다.
도 2는 실시의 형태 1에 따른 시스템의 처리 플로를 나타내는 플로차트이다. 도 2(a)는 오리지널 도메인의 화상을 학습하고 추론하는 플로를 나타내고 있다. 도 2(b)는 타겟 도메인 화상을 처리하는 준비를 위한 필터 학습의 플로를 나타내고 있다. 도 2(c)는 타겟 도메인의 화상을 학습하고 추론할 때의 플로를 나타내고 있다. 여기서, 오리지널 도메인의 화상의 학습도 타겟 도메인의 화상의 학습도, 모두 지도 학습(supervised learning)으로 분류된다. 도 2(b) 및 도 2(c)에 있어서 무늬가 있는 부분은, 후술하는 천층 CNN(100)이 실시하는 스텝을 나타내고 있다.
오리지널 도메인의 화상의 학습은, 딥 러닝의 대표적 수법인 CNN에 의해 화상 인식을 행하는 기계 학습 모델을 구축하여 행하더라도 좋다. 이 기계 학습 모델을 구축하는 처리는, 도 2(a)가 나타내는 바와 같이 화상을 입력하는 스텝 ST1과, 특징량을 추출하는 스텝 ST2와, 물체 위치 또는 속성을 산출하는 스텝 ST3과, 추론 결과를 출력하는 스텝 ST4를 갖는다.
기계 학습은, 기계 학습 모델이 사용되는 장면에 따라 그 목적이 상이하다. 예컨대 물체 인식 장치에 기계 학습 모델을 사용하는 경우, 그 목적은 어디에 무엇이 있는지를 추정하는 것이다. 예컨대, 화상에 찍혀 있는 것이 자동차인 경우, 화상 내의 어느 위치에 어떤 속성의 자동차가 있는지를 추론하는 것이 목적이 된다. 미리 카테고리화된 교사 화상에 대하여, 그 화상의 특징량을 추출하고, 특징량 공간에서의 플롯으로부터 기계 학습 모델을 구축하는 수법이 알려져 있다. 이 특징량 공간에서의 각 카테고리의 경계를 구하는 방법에는, SVM(서포트 벡터 머신) 등이 알려져 있다. 특징량은 통상 복수 차원이기 때문에, 특징량 공간은 고차원 특징량 공간이라고도 불린다. 또 "동일한 카테고리에 속한다"고 하는 표현은, 보다 넓게는 "동일한 종류의 학습 대상에 속한다"고 이해할 수 있다.
이 화상의 속성을 분류(Classification)하는 처리, 또는 물체의 위치를 회귀(Regression)하는 처리는, 도 2(a) 중의 물체 위치 또는 속성을 산출하는 스텝 ST3에 해당한다.
타겟 도메인의 화상의 학습은, 오리지널 도메인의 화상의 학습이 완료된 단계에서 행하여진다. 타겟 도메인의 화상의 학습은, 2단계의 학습으로 행하여진다. 2단계의 학습이란, 천층 특징량 추출부(11), 공통 특징량 산출부(12), 및 도메인 완화 학습 정보 산출부(13)에 있어서의 학습(이하, "필터 학습"이라 부른다)과, 심층 특징량 추출부(20)에 있어서의 학습(이하, "메인 학습"이라 부른다)이다. 타겟 도메인의 화상 데이터는, 우선 화상 입력부(10)를 통해서 학습 장치(1)에 입력된다. 화상 입력부(10)를 통해서 입력된 화상 데이터는, 천층 특징량 추출부(11)에 출력된다. 필터 학습에 있어서의 처리의 플로는 도 2(b)에, 메인 학습에 있어서의 처리의 플로는 도 2(c)에, 각각 도시되어 있다.
천층 특징량 추출부(11)는, 입력된 화상 데이터로부터 복수의 저레벨 특징(Low-level Feature) 맵을 출력하는 복수의 화상 필터로 구성되어 있는 것이다. 천층 특징량 추출부(11)는 복수의 화상 필터이기 때문에, CNN의 콘볼루션층으로 구성하는 것을 생각할 수 있다. 실시의 형태 1에 따른 학습 장치(1)는, 천층 특징량 추출부(11), 공통 특징량 산출부(12), 및 도메인 완화 학습 정보 산출부(13)를 얕은 층의 CNN(이하, "천층 CNN(100)"이라 부른다)으로 구성한다.
Shallow CNN인 천층 CNN(100)은, 오리지널 도메인의 화상 데이터의 특징량과 타겟 도메인의 화상 데이터의 특징량을, 각각 고차원 특징량 공간에서 플롯하였을 때에, 공통되는 특징량(영어로는 Domain Shared Features이고, 이하 "도메인 공유 특징량"이라 부른다)을 추출하도록 설계한다. 그래서 천층 특징량 추출부(11)에는, 오리지널 도메인의 화상 데이터와 타겟 도메인의 화상 데이터가 교사 데이터로서 입력된다. 필터 학습의 초기 단계에서는 고차원 특징량 공간으로의 플롯은 랜덤인 것처럼 보이지만, 점차 화상의 카테고리마다, 분포에 일정한 법칙이 보이게 된다.
도 5는 본 개시 기술의 사고방식을 보충한 설명도 1이다. 도 5가 나타내는 바와 같이 본 개시 기술은, 학습의 Epoch에 따라 저레벨 특징(Low-level Feature)인 (1) 색, (2) 휘도, (3) 저주파 성분, 및 (4) 고주파 성분을 강도에 교사한다. 구체적으로는 천층 특징량 추출부(11)가 출력하는 특징 맵은, (1) 색, (2) 휘도, (3) 저주파 성분, 및 (4) 고주파 성분의 각각의 저레벨 특징(Low-level Feature)이 되도록 설계한다. (3) 저주파 성분은, 화상 중의 블러 정보로 바꾸어 말하더라도 좋다. 또한 (4) 고주파 성분은, 에지와 텍스처로 바꾸어 말하더라도 좋다. 천층 특징량 추출부(11)는, 저레벨 특징량을 추출하는 스텝 ST12를 실시한다.
공통 특징량 산출부(12)에서 추출한 저레벨 특징량 중 도메인 공유 특징량은, 타겟 도메인의 화상의 메인 학습이 진행되는 정도에 따라, 도메인 공유 특징량을 강도에 교사한다.
천층 CNN(100)에 있어서, 도메인 공유 특징량이 강조된 특징 맵(이하, "가중된 특징 맵"이라 부른다)을 얻는 방법에는, Attention이라 불리는 방법을 이용한다. 간단하게 말하면 Attention이란, CNN이 출력한 특징 맵의 어느 영역에 주목하면 되는지를 자동적으로 학습하는 방법이다. 다른 말로 하면, Attention은 주목해야 할 영역의 가중치이다. 특징 맵에는 횡×종의 공간적인 차원과 채널의 차원이 있는 것처럼, Attention을 이용한 교사 방법에도 공간 방향의 Attention과 채널 방향의 Attention이 존재한다. 채널 방향의 Attention에는, SE 블록이라 불리는 기술이 개시되어 있다(예컨대, 비특허문헌 1).
비특허문헌 1: Hu, Jie, Li Shen, and Gang Sun. "Squeeze-and-excitation networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
도 6은 본 개시 기술의 사고방식을 보충한 설명도 2이다. 도 6이 나타내는 바와 같이 천층 CNN(100)의 공통 특징량 산출부(12)는, 2개의 도메인에 대하여 동일한 카테고리에 속하는 데이터 세트의 특징 맵을 비교한다. 고차원 특징량 공간에 있어서의 플롯의 비교는, 도 6의 우측의 그래프에 예시하였다. 도 6은 오리지널 도메인을 사진, 타겟 도메인을 일러스트로 하여, "헤어드라이어로 머리카락을 말린다"고 하는 카테고리의 데이터 세트의 비교를 예시하고 있다. 이하는, 다른 플롯의 비교의 구체적인 예이다. 예컨대 카테고리는 10대의 남성으로 하고, 2개의 도메인은 RGB 화상이라고 하는 오리지널 도메인과 TIR 화상이라고 하는 타겟 도메인으로 한다. 각각의 교사 화상은 천층 특징량 추출부(11)에 입력되고, 각각의 특징 맵이 출력된다. 공통 특징량 산출부(12)는 특징 맵을 채널마다 비교하고, 도메인 공유 특징량이 존재하는 채널에 대해서는 큰 가중치를 부여한다.
보다 구체적으로 공통 특징량 산출부(12)는, 공통 특징량 산출부(12)로부터 산출된 오리지널 도메인과 타겟 도메인의 각각의 특성 맵을 공간적으로 비교하고, 가장 유사한 특성 맵 사이의 거리를, 예컨대 화상 상관이나 픽셀 단위에서의 유사성, SSIM(Structure Similarity) 등으로 산출하여, 가중치로 하더라도 좋다.
또한, 보다 간단하게 공통 특징량 산출부(12)는, Global Average Pooling(GAP)을 특성 맵에 적용하여 대표치를 산출하고, 가장 유사한 특성 맵의 대표치 사이의 거리를, 예컨대 화상 상관이나 픽셀 단위에서의 유사성, SSIM(Structure Similarity) 등으로 산출하여, 가중치로 하더라도 좋다.
이와 같이 하여 공통 특징량 산출부(12)는, 주목해야 할 채널을 강조한 특징 맵을 산출한다(도메인 공유 특징량을 산출하는 스텝 ST13). 상기의 가중치는, "도메인 완화 가중치"라 부른다. 도메인 공유 특징량이 강조된 특징 맵은, "도메인 완화 교사 신호"라 부른다. 상기의 가중치와 교사 신호는, 합쳐서 "도메인 완화 학습 정보"라 부른다. 천층 CNN(100)의 공통 특징량 산출부(12)는, 도메인 완화 가중치를 산출하는 스텝 ST14를 실시한다.
여기서는 채널 방향의 Attention을 이용한 실시의 형태를 설명하였지만, 본 개시 기술은 채널 방향의 Attention과 공간 방향의 Attention을 적절하게 조합하더라도 좋다.
도메인 완화 학습 정보는, 후술하는 메인 학습의 교사 신호로서 이용한다. 도메인 공유 특징량은, (1) 색, (2) 휘도, (3) 저주파 성분, 및 (4) 고주파 성분으로 분류할 수 있다. 천층 CNN(100)의 도메인 완화 학습 정보 산출부(13)는, (1) 색, (2) 휘도, (3) 저주파 성분, 및 (4) 고주파 성분의 각각에 대하여, 도메인 완화 학습 정보를 산출한다(도메인 완화 학습 정보를 산출하는 스텝 ST24).
천층 CNN(100)을 구비하는 효과는, 천층 CNN(100)을 구비하지 않는 경우의 종래의 시스템과 비교하는 것에 의해 분명해진다. 우선 타겟 도메인의 데이터 세트는 풍부하지 않기 때문에, 타겟 도메인의 데이터 세트만으로는 기계 학습 모델을 충분하게 학습시킬 수는 없다. 그래서, 데이터 세트가 풍부한 다른 도메인의 화상으로 기계 학습 모델을 구축하고, 타겟 도메인의 화상으로 재학습하고자 하는 시도도 생각할 수 있다. 즉, 오리지널 도메인의 데이터 세트를 사용하여 Pre-Training을 하고, 타겟 도메인으로의 전이 학습과 Fine-Tuning 한다고 하는 시도를 생각할 수 있다. 그런데 이것을 실제로 행하면, 도메인 사이에서 너무나도 화상의 특징이 달라서 사전의 학습 결과를 파괴하여 버린다고 하는 일이 발생한다. 천층 CNN(100)을 구비하는 효과는, 사전의 학습 결과를 파괴시키지 않음으로써, 타겟 도메인의 학습 데이터가 적은 경우에도 효율적으로 도메인 사이에서의 특징량의 차이를 완화할 수 있다고 하는 것이다.
천층 CNN(100)에 있어서의 필터 학습이 종료되면, 드디어 메인 학습을 실시할 수 있다. 추론 장치(2)의 심층 특징량 추출부(20)와 속성 회귀부(21)는, 천층 CNN(100)과는 다른 깊은 층으로 이루어지는 CNN(이하, "심층 CNN(110)"이라 부른다)으로 구성하는 것을 생각할 수 있다. 메인 학습은, 풍부하게 존재하는 오리지널 도메인의 화상의 데이터 세트를 이용하여 초기적인 학습을 행한다. 오리지널 도메인의 화상의 데이터 세트는, 크게 2가지의 사용법을 생각할 수 있다. 오리지널 도메인의 화상의 데이터 세트를 그대로 사용하는 방법과, 전술한 천층 CNN(100)을 통하여 도메인 공유 특징량이 강조된 특징 맵을 사용하는 방법을 생각할 수 있다. 본 개시 기술에 따른 학습 장치(1)는, 어느 방법으로 오리지널 도메인의 화상의 데이터 세트를 사용하더라도 좋다.
메인 학습의 초기적인 학습이 종료되면, 심층 CNN(110)의 초기 상태가 정해지고, 드디어 메인 학습의 본격적인 학습을 실시할 수 있다(도 2(c)에 나타낸 플로 참조). 도 4는 본 개시 기술의 사고방식을 나타낸 모식도이다. 도 4가 나타내는 바와 같이, 메인 학습의 본격적인 학습의 교사 데이터는, 천층 CNN(100)을 통과한 타겟 도메인의 화상의 데이터 세트이다. 필터 학습이 완료된 천층 CNN(100)을 통과하였기 때문에, 타겟 도메인의 화상은 도메인 공유 특징량이 강조된다.
도 2(c)는 타겟 도메인의 화상을 학습하고 추론할 때의 처리 플로를 나타내고 있다. 도 2(c)가 나타내는 바와 같이, 본 처리에는, 타겟 도메인 화상을 입력하는 스텝 ST21과, 저레벨 특징 맵을 산출하는 스텝 ST22와, 도메인 완화 가중치를 곱하는 스텝 ST23과, 도메인 완화 학습 정보를 산출하는 스텝 ST24와, 도메인 완화 학습 정보를 입력하는 스텝 ST25와, 고차 특징 맵을 산출하는 스텝 ST26과, 물체 위치 또는 속성을 산출하는 스텝 ST27과, 추론 결과를 출력하는 스텝 ST28을 갖는다. 필터 학습이 완료된 천층 CNN(100)은, 저레벨 특징 맵을 산출하는 스텝 ST22와, 도메인 완화 가중치를 곱하는 스텝 ST23과, 도메인 완화 학습 정보를 산출하는 스텝 ST24를 실시한다. 또한, 심층 CNN(110)은, 고차 특징 맵을 산출하는 스텝 ST26과, 물체 위치 또는 속성을 산출하는 스텝 ST27을 실시한다.
본 개시 기술에 따른 학습 장치(1)의 최대의 특징은, 메인 학습의 본격적인 학습의 Epoch에 따라, (1) 색, (2) 휘도, (3) 저주파 성분, (4) 고주파 성분의 순번으로 강조하는 도메인 공유 특징량을 바꾸는 것이다. 이 강조하는 도메인 공유 특징량의 전환은, 학습 장치(1)의 학습 정보 보정부(15)가 행한다. Epoch란, 한 무더기의 데이터 세트를 뉴럴 네트워크에 순전파(forward propagation)와 역전파(back propagation)로 1회 통과시키는 단위이다. 하나의 Epoch는 컴퓨터가 한 번에 취급하는 양으로서는 크기 때문에, 통상 몇몇의 Batch로 나눠진다. Iteration은, 하나의 Epoch를 완료하기 위해 필요한 Batch의 수이다. 예컨대, 교사 화상이 2000매의 데이터 세트가 있는 것으로 한다. 이 2000매의 화상은, 500매씩의 Batch로 나눈 것으로 한다. 이 예에서는 하나의 Epoch를 완료하기 위해, Iteration이 4 필요하게 된다.
본 개시 기술에 있어서 이와 같은 순번으로 강조하는 특징량을 바꾸는 이유는, CNN이 획득하는 특징량의 순서도 (1) 색, (2) 휘도, (3) 저주파 성분, (4) 고주파 성분의 순번이라고 하는 CNN의 특질에 유래하고 있다.
어느 정도의 Epoch에서 어느 특징량을 이용하는지의 판단은, 케이스 바이 케이스이다. 특정 사용 양태에 있어서는, Epoch가 1 전후일 때의 (1) 색과 (2) 휘도를 이용하고, Epoch가 20일 때에 (3) 저주파 성분을 이용하고, Epoch가 60일 때에 (4) 고주파 성분을 이용하여, 효과적이었다. 단 이것은 예시에 불과하고, 이것으로 한정되는 것이 아니다.
메인 학습의 평가는, 타겟 도메인의 화상을 이용하여 행한다. 타겟 도메인의 화상을 직접 가공 없이 심층 CNN(110)에 입력하더라도 소망하는 정답률로 추론을 행할 수 있었던 경우, 추론 장치(2)는 이 메인 학습이 완료된 심층 CNN(110)을 그대로 사용하면 된다. 소망하는 정답률로 추론을 행할 수 없었던 경우, 타겟 도메인의 화상은 학습 장치(1)의 고차원 특징량 부여부(14)에 있어서, 가공 없는 화상과 학습 완료된 천층 CNN(100)이 산출한 도메인 완화 가중치를 곱하여 가공 화상을 생성하고(도메인 완화 가중치를 곱하는 스텝 ST23), 심층 CNN(110)에 입력한다. 최초로 기술한 케이스는, 심층 CNN(110)만으로 추론 장치(2)를 구성하는 것이고, 다음으로 기술한 케이스는 천층 CNN(100)과 심층 CNN(110)의 조합으로 추론 장치(2)를 구성하는 것이다.
메인 학습의 평가가 완료되면, 추론 장치(2)는 타겟 도메인의 화상에 대한 추론을 행할 수 있다. 추론 장치(2)의 처리 플로는, 이하의 도 2(c)에 기초한 설명에 의해 분명해진다. 여기서의 설명은, 천층 CNN(100)과 심층 CNN(110)의 조합으로 추론 장치(2)를 구성하는 것을 전제로 한다.
추론 대상인 타겟 도메인의 화상은, 우선 화상 입력부(10)에 입력된다(타겟 도메인 화상을 입력하는 스텝 ST21). 입력된 화상은, 천층 CNN(100)의 천층 특징량 추출부(11)에 있어서 저레벨 특징 맵이 작성된다(저레벨 특징 맵을 산출하는 스텝 ST22). 작성된 저레벨 특징 맵은, 고차원 특징량 부여부(14)에 있어서 도메인 완화 가중치가 곱하여지고(도메인 완화 가중치를 곱하는 스텝 ST23), 심층 CNN(110)으로의 입력 화상이 생성된다. 심층 CNN(110)은, 속성 회귀부(21)에 있어서 입력된 화상에 대한 물체 위치 또는 속성을 산출하고(물체 위치 또는 속성을 산출하는 스텝 ST27), 추론 결과를 출력한다(추론 결과를 출력하는 스텝 ST28).
오리지널 도메인의 데이터 세트와 타겟 도메인의 데이터 세트가 함께 풍부하면, 각각의 도메인마다 학습을 행하면 되고 문제가 되지 않는다. 또한, 각각의 도메인에서의 학습 결과로부터, 각각 도메인에 대한 고차원 특징량 공간에서의 카테고리마다의 분포를 대응시키는 것도 생각할 수 있다. 본 개시 기술에 따른 학습 장치(1) 및 추론 장치(2)는, 타겟 도메인의 데이터 세트의 데이터의 양이 적은 경우에도 인식률이 저하하지 않도록 학습이 진행된다고 하는 효과를 발휘한다.
실시의 형태 2.
실시의 형태 1에 따른 학습 장치(1)와 추론 장치(2)를 구비한 시스템은, 풍부하지는 않더라도 학습용으로 일정량의 타겟 도메인의 데이터 세트가 있는 것을 전제로 하였다. 실시의 형태 2에 따른 학습 장치(1)와 추론 장치(2)를 구비한 시스템은, 학습 단계에 있어서 타겟 도메인의 데이터 세트가 전혀 없는 경우에 대응할 수 있는 것이다. 일반적으로, 학습 단계에 있어서 추론해야 할 교사 데이터가 없는 클래스를 학습하는 문제는, Zero-Shot Learning 문제라 불리고 있다. 이하의 실시의 형태 2에 대한 설명에 있어서, 실시의 형태 1과 공통되는 구성 요소는 동일한 부호를 이용하고, 중복되는 설명에 대해서는 적절하게 생략한다.
도 3은 실시의 형태 2에 따른 학습 장치(1)와 추론 장치(2)를 구비한 시스템의 구성의 예를 나타내는 시스템 블록도이다. 도 3과 도 1의 비교가 나타내는 바와 같이, 실시의 형태 2에 따른 학습 장치(1)는, 고차원 특징량 부여부(14)와 학습 정보 보정부(15) 대신에 학습 정보 갱신부(14B)를 구비한다.
실시의 형태 2에 따른 학습 장치(1)와 추론 장치(2)를 구비한 시스템의 경우에 있어서도, 과제를 해결하는 핵심적인 사고방식은 실시의 형태 1의 경우와 동일하다. 즉 실시의 형태 2에 있어서의 시스템은, 처음에 주어진 1매의 타겟 도메인 화상으로부터, 필터 학습과 메인 학습을 동시에 실시함으로써, 과제의 해결을 시도한다. 구체적으로 학습 정보 갱신부(14B)는, 고차원 특징량 부여부(14)가 행하는 도메인 완화 가중치를 곱하는 스텝 ST23과, 학습 정보 보정부(15)가 행하는 강조하는 도메인 공유 특징량의 전환을, 동시에 행한다.
실시의 형태 2에 따른 추론 장치(2)의 심층 CNN(110)은, 오리지널 도메인의 화상용으로 준비한 추론 장치(2)의 뉴럴 네트워크와 동일한 것을 이용한다(도 2(a) 참조). 또한, 심층 CNN(110)의 초기 상태는, 오리지널 도메인의 대규모 화상 데이터 세트로 충분하게 학습을 완료한 뉴럴 네트워크의 초기 상태를 이용하면 된다.
이상과 같이 실시의 형태 2에 따른 학습 장치(1)와 추론 장치(2)를 구비한 시스템은 상기의 구성을 구비하기 때문에, 타겟 도메인의 데이터 세트를 전혀 얻을 수 없는 Zero-Shot Learning 문제의 경우에 있어서도, 일정한 정답률로 추론을 행할 수 있다고 하는 효과를 발휘한다.
실시의 형태 3.
실시의 형태 1과 실시의 형태 2에 있어서, 핵심적인 구성 요소인 천층 CNN(100)과 심층 CNN(110)은, 함께 CNN을 채용한 "2개의 독립된 CNN"으로서 묘사가 이루어졌다. 그러나, 본 개시 기술에 따른 천층 CNN(100)과 심층 CNN(110)에 해당하는 구성 요소는, 2개의 독립된 CNN일 필요는 없고 애초에 CNN일 필요도 없다. 실시의 형태 3은, "2개의 독립된 CNN" 이외의 구성의 예를 채용한 본 개시 기술을 분명하게 하는 것이다.
우선 첫 번째의 구성의 예는, 천층 CNN(100)과 심층 CNN(110)을, 하나의 큰 결합 CNN(120)으로서 실현하고, 학습 장치(1)와 추론 장치(2)에서 공유하는 것이다. 결합 CNN(120)은, 다층의 뉴럴 네트워크의 일종이기 때문에, 전단층(121)과 후단층(122)으로 나눌 수 있다. 결합 CNN(120)의 전단층(121)이 천층 CNN(100)의 역할을 하고, 결합 CNN(120)의 후단층(122)이 심층 CNN(110)의 역할을 하도록 하면 된다. 즉 결합 CNN(120)은, 입력된 화상에 대하여 고차원 특징량을 추출하는 기능을 구비한다.
결합 CNN(120)을 공유하는 방법은, 클라우드 상에 실현하여 공유하더라도 좋고, 온라인으로 연결하더라도 좋다.
두 번째의 구성의 예는, 결합 CNN(120)을 CNN이 아닌 뉴럴 네트워크로 실현하는 것이다. 결합 CNN(120)을 CNN이 아닌 뉴럴 네트워크로 실현한 구성 요소는, 결합 NN(130)이라 명명한다. 결합 NN(130)은, 결합 NN 전단층(131)과 결합 NN 후단층(132)으로 나눈다. 결합 NN 전단층(131)이 천층 CNN(100)의 역할을 하고, 결합 NN 후단층(132)이 심층 CNN(110)의 역할을 하도록 하면 된다. 즉 결합 NN(130)은, 입력된 화상에 대하여 고차원 특징량을 추출하는 기능을 구비한다.
또 결합 NN(130)은 다층의 뉴럴 네트워크이기 때문에, 그 학습 방법은 심층 학습이라고 할 수 있다.
결합 NN(130)을 공유하는 방법도, 클라우드 상에 실현하여 공유하더라도 좋고, 온라인으로 연결하더라도 좋다.
세 번째의 구성의 예는, 결합 CNN(120)을 뉴럴 네트워크 이외의 수리 모델로 실현하는 것이다. 결합 CNN(120)을 뉴럴 네트워크 이외의 수리 모델로 실현한 구성 요소는, 결합 수리 모델(140)이라 명명한다. 결합 수리 모델(140)은, 결합 수리 모델 전단부(141)와 결합 수리 모델 후단부(142)를 구비한다. 결합 수리 모델 전단부(141)가 천층 CNN(100)의 역할을 하고, 결합 수리 모델 후단부(142)가 심층 CNN(110)의 역할을 하도록 하면 된다. 즉 결합 수리 모델(140)은, 입력된 화상에 대하여 고차원 특징량을 추출하는 기능을 구비한다.
결합 수리 모델(140)은, 결합 CNN(120)과 마찬가지로, 입력부와, 가변 파라미터에 의해 입력로부터 출력을 계산하는 계산부와, 출력부를 구비하지 않으면 안 된다. 또한, 결합 수리 모델(140)은, 출력을 평가하는 평가 함수에 기초하여, 가변 파라미터를 변경하고, 기계 학습이 가능하지 않으면 안 된다. 이와 같은 결합 수리 모델(140)은, 여기서는 "학습이 자유롭다"고 표현한다.
결합 수리 모델(140)을 공유하는 방법도, 클라우드 상에 실현하여 공유하더라도 좋고, 온라인으로 연결하더라도 좋다.
결합 NN(130)을 이용하는 경우에도 결합 수리 모델(140)을 이용하는 경우에도, 본 개시 기술은 메인 학습의 본격적인 학습의 Epoch에 따라, (1) 색, (2) 휘도, (3) 저주파 성분, (4) 고주파 성분의 순번으로 강조하는 도메인 공유 특징량을 바꾼다. 이것은, 화상 인식 등에 있어서의 기계 학습에 있어서, "색"으로 대표되는 단순한 특징일수록 학습의 초기의 단계에 있어서 학습이 완료된다고 하는 성질을 이용하고 있다.
이상과 같이 실시의 형태 3에 따른 학습 장치(1)와 추론 장치(2)는 상기의 구성을 구비하기 때문에, 2개의 독립된 CNN을 채용하지 않고서도, 도메인이 상이한 화상에 대해서도 올바르게 학습과 추론을 행할 수 있다.
본 개시 기술에 따른 추론 장치(2), 추론 방법, 학습 장치(1), 학습 방법, 및 프로그램은, 촬상 화상에 대하여 각종 식별을 행하는 식별 장치에 이용할 수 있어, 산업상의 이용가능성이 있다.
1: 학습 장치, 2: 추론 장치, 3: 공유 기억 장치, 4: 외부 기억 장치, 10: 화상 입력부, 11: 천층 특징량 추출부, 12: 공통 특징량 산출부, 13: 도메인 완화 학습 정보 산출부, 14: 고차원 특징량 부여부, 14B: 학습 정보 갱신부, 15: 학습 정보 보정부, 20: 심층 특징량 추출부, 21: 속성 회귀부, 100: 천층 CNN, 110: 심층 CNN, 120: 결합 CNN, 121: 전단층, 122: 후단층, 130: 결합 NN, 131: 결합 NN 전단층, 132: 결합 NN 후단층, 140: 결합 수리 모델, 141: 결합 수리 모델 전단부, 142: 결합 수리 모델 후단부

Claims (14)

  1. 기계 학습 가능한 결합 수리(數理) 모델을 구비하고, 교사용의 오리지널 도메인의 데이터 세트로부터 타겟 도메인의 데이터 세트를 학습하는 학습 장치로서,
    상기 결합 수리 모델의 전단부는,
    입력된 화상 데이터로부터 복수의 저레벨 특징 맵을 생성하고,
    상기 화상 데이터 중 상기 오리지널 도메인과 상기 타겟 도메인에 대하여 동일한 종류의 학습 대상에 속하는 데이터 세트의 상기 저레벨 특징 맵을 비교하고, 도메인 공유 특징량을 산출하고,
    상기 도메인 공유 특징량 중, (1) 색, (2) 휘도, (3) 저주파 성분, 및 (4) 고주파 성분의 각각의 공간에 대하여 도메인 완화 학습 정보를 산출하고,
    상기 도메인 완화 학습 정보를 이용하여 입력된 상기 타겟 도메인의 특징 맵에 가중치를 부여하여 새로운 가중된 특징 맵을 생성하는 고차원 특징량 부여부와,
    산출된 상기 도메인 완화 학습 정보 중, 추론 장치의 메인 학습의 Epoch에 따라 강조하는 도메인 공유 특징량의 전환을 행하는 학습 정보 보정부
    를 구비하는 학습 장치.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
KR1020237031632A 2021-03-29 2021-03-29 학습 장치 KR102658990B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/013407 WO2022208632A1 (ja) 2021-03-29 2021-03-29 推論装置、推論方法、学習装置、学習方法、及びプログラム

Publications (2)

Publication Number Publication Date
KR20230144087A KR20230144087A (ko) 2023-10-13
KR102658990B1 true KR102658990B1 (ko) 2024-04-18

Family

ID=83455707

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237031632A KR102658990B1 (ko) 2021-03-29 2021-03-29 학습 장치

Country Status (6)

Country Link
US (1) US20230394807A1 (ko)
EP (1) EP4296939A4 (ko)
JP (1) JP7274071B2 (ko)
KR (1) KR102658990B1 (ko)
CN (1) CN117099127A (ko)
WO (1) WO2022208632A1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200380369A1 (en) 2019-05-31 2020-12-03 Nvidia Corporation Training a neural network using selective weight updates
US20230072400A1 (en) 2021-09-07 2023-03-09 Arizona Board Of Regents On Behalf Of Arizona State University SYSTEMS, METHODS, AND APPARATUSES FOR GENERATING PRE-TRAINED MODELS FOR nnU-Net THROUGH THE USE OF IMPROVED TRANSFER LEARNING TECHNIQUES
US20230386191A1 (en) 2022-05-30 2023-11-30 Nvidia Corporation Dynamic class weighting for training one or more neural networks

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7119493B2 (ja) 2018-03-28 2022-08-17 沖電気工業株式会社 認識装置、認識方法およびプログラム
WO2020031851A1 (ja) 2018-08-08 2020-02-13 富士フイルム株式会社 画像処理方法及び画像処理装置
JP7172677B2 (ja) 2019-02-05 2022-11-16 富士通株式会社 学習方法、学習プログラムおよび学習装置
CN111191690B (zh) 2019-12-16 2023-09-05 上海航天控制技术研究所 基于迁移学习的空间目标自主识别方法、电子设备和存储介质
KR20230139257A (ko) * 2022-03-25 2023-10-05 재단법인 아산사회복지재단 기계 학습 모델 기반의 ct 영상을 분류 및 분할하기 위한 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200380369A1 (en) 2019-05-31 2020-12-03 Nvidia Corporation Training a neural network using selective weight updates
US20230072400A1 (en) 2021-09-07 2023-03-09 Arizona Board Of Regents On Behalf Of Arizona State University SYSTEMS, METHODS, AND APPARATUSES FOR GENERATING PRE-TRAINED MODELS FOR nnU-Net THROUGH THE USE OF IMPROVED TRANSFER LEARNING TECHNIQUES
US20230386191A1 (en) 2022-05-30 2023-11-30 Nvidia Corporation Dynamic class weighting for training one or more neural networks

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Zhang, Ruikai, et al. "Automatic detection and classification of colorectal polyps by transferring low-level CNN features from nonmedical domain." IEEE journal of biomedical and health informatics 21.

Also Published As

Publication number Publication date
US20230394807A1 (en) 2023-12-07
EP4296939A1 (en) 2023-12-27
KR20230144087A (ko) 2023-10-13
EP4296939A4 (en) 2024-05-01
JP7274071B2 (ja) 2023-05-15
JPWO2022208632A1 (ko) 2022-10-06
CN117099127A (zh) 2023-11-21
WO2022208632A1 (ja) 2022-10-06

Similar Documents

Publication Publication Date Title
Roy et al. Monocular depth estimation using neural regression forest
CN107529650B (zh) 闭环检测方法、装置及计算机设备
WO2020216227A1 (zh) 图像分类方法、数据处理方法和装置
US20220108546A1 (en) Object detection method and apparatus, and computer storage medium
WO2021043168A1 (zh) 行人再识别网络的训练方法、行人再识别方法和装置
US10417526B2 (en) Object recognition method and device
CN107767384B (zh) 一种基于对抗训练的图像语义分割方法
CN111046880B (zh) 一种红外目标图像分割方法、系统、电子设备及存储介质
AU2016201292B2 (en) Digital image processing using convolutional neural networks
US20220148328A1 (en) Pedestrian detection method and apparatus, computer-readable storage medium, and chip
CN111401380B (zh) 一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法
CN111126140A (zh) 文本识别方法、装置、电子设备以及存储介质
CN112036260B (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN116343330A (zh) 一种红外-可见光图像融合的异常行为识别方法
Huang et al. Automatic building change image quality assessment in high resolution remote sensing based on deep learning
CN111768415A (zh) 一种无量化池化的图像实例分割方法
CN112464930A (zh) 目标检测网络构建方法、目标检测方法、装置和存储介质
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN114170290A (zh) 图像的处理方法及相关设备
KR102658990B1 (ko) 학습 장치
Shahbaz et al. Moving object detection based on deep atrous spatial features for moving camera
Hao et al. Research on image semantic segmentation based on FCN-VGG and pyramid pooling module
Amakhchan et al. Automatic filtering of LiDAR building point cloud using multilayer perceptron Neuron Network
CN113222867B (zh) 基于多模板图像的图像数据增强方法及系统
CN114998711A (zh) 一种空中红外弱小目标检测方法、系统及计算机存储介质

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant