KR20190019822A - 이미지의 시맨틱 분리를 위한 시스템 및 방법 - Google Patents

이미지의 시맨틱 분리를 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20190019822A
KR20190019822A KR1020180057659A KR20180057659A KR20190019822A KR 20190019822 A KR20190019822 A KR 20190019822A KR 1020180057659 A KR1020180057659 A KR 1020180057659A KR 20180057659 A KR20180057659 A KR 20180057659A KR 20190019822 A KR20190019822 A KR 20190019822A
Authority
KR
South Korea
Prior art keywords
instance
pixel
masks
mask
network
Prior art date
Application number
KR1020180057659A
Other languages
English (en)
Other versions
KR102613517B1 (ko
Inventor
엘-카미 모스타파
지종 리
정원 이
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20190019822A publication Critical patent/KR20190019822A/ko
Application granted granted Critical
Publication of KR102613517B1 publication Critical patent/KR102613517B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • G06K9/3233
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • G06K9/00718
    • G06K9/6289
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

이미지에서 객체를 검출하는 방법은, 이미지로부터 복수의 코어 인스턴스 특징들을 추출하는 과정, 코어 인스턴스 특징들로부터 다중스케일 해상도로 복수의 특징 맵들을 계산하는 과정, 코어 인스턴스 특징들로부터 검출박스를 계산하는 과정, 특징 맵들의 다중스케일 해상도로 검출박스들 각각에 대한 분리 마스크를 계산하는 과정, 다중스케일 해상도의 분리 마스크들을 병합하여 입력 이미지에서 검출된 각각의 객체에 대해 인스턴스 마스크를 생성하는 과정, 보조 망들이 픽셀레벨 메트릭들을 계산함으로써 병합된 분리 마스크들의 신뢰도 점수를 조정하는 과정, 및 인스턴스 마스크들을 검출된 객체로 출력하는 과정을 포함한다.

Description

이미지의 시맨틱 분리를 위한 시스템 및 방법{SYSTEM AND METHOD FOR SEMANTIC SEGMENTATION OF IMAGES}
본 발명은 컴퓨터 비전(vision)에 관한 것이다. 구체적으로, 본 발명은 이미지의 시맨틱 분리(Semantic Segmentation)을 위한 시스템 및 방법에 관한 것이다.
이미지 인식 시스템은 단일 객체 또는 복수의 객체들을 디지털 이미지 또는 비디오 프레임으로부터 검출 및 식별하는 컴퓨터 애플리케이션을 제공한다. 딥러닝(Deep Learning) 기반 시스템 및 방법들은 시각적 이해능력의 정확성에 있어 점점 더 좋은 성능을 달성하고 있다. 그러나 상대적으로 작거나, 클러터(clutter)가 있거나, 또는 다른 객체들에 의한 가림(occlusion)이 있는 이미지에서 객체를 검출하는 것은 어려울 수 있다. 다른 일반적인 시스템들 역시 이러한 인스턴스들을 검출하지 못하거나, 객체의 일부를 전체로서 검출하지 못하거나, 또는 객체의 다른 부분들을 전체 객체로 결합하지 못할 수 있다. 예를 들어, 시스템은 동일한 사용자에 의해 가려진(occluded) 제1 사용자의 얼굴과 제2 사용자의 어깨를 잘못 감지할 수 있다.
본 발명의 실시예들에 따른 과제는 전술한 문제점을 해결하기 위한 시스템 및 방법을 제공하는데 있다.
본 발명의 실시예들에 따른 과제는 전술한 문제점을 해결하기 위한 시스템 및 방법을 제공하는데 있다.
본 개시의 실시예들의 양상들은 입력 이미지의 시맨틱 분리 방법 및 시스템에 관한 것이다.
본 개시의 일 실시예에 따르면, 입력 이미지에서 객체들의 인스턴스(instance)들을 검출하는 방법은, 입력 이미지로부터 복수의 코어 인스턴스 특징들을 추출하는 과정; 코어 인스턴스 특징들로부터 다중스케일 해상도로 복수의 특징 맵(feature map)들을 계산하는 과정; 입력 이미지에서 검출된 객체에 대응하는 복수의 검출박스들을 코어 인스턴스 특징들로부터 계산하는 과정; 특징 맵들의 다중스케일 해상도로 검출박스들 각각에 대한 복수의 분리 마스크(segmentation mask)들을 계산하는 과정; 다중스케일 해상도의 복수의 분리 마스크들을 병합하여 입력 이미지에서 검출된 각각의 객체에 대해, 신뢰도 점수와 관련된 인스턴스 마스크를 생성하는 과정; 보조 망들이 픽셀레벨 메트릭(metric)들을 계산함으로써, 병합된 분리 마스크들의 신뢰도 점수를 조정(refine)하는 과정; 및 인스턴스 마스크들을 입력 이미지에서 검출된 객체들의 인스턴스들로 출력하는 과정을 포함한다.
복수의 코어 인스턴스 특징들은 입력 이미지를 풀리 컨볼루션 인스턴스 시맨틱 분리망(Fully Convolutional Instance Semantic Segmentation Network)에 제공함으로써 추출될 수 있다.
다중스케일 해상도의 특징 맵들은 코어 인스턴스 특징들을 특징 피라미드망(Feature Pyramid Network)에 제공함으로써 계산될 수 있다.
특징 피라미드망은 풀리 컨볼루션 인스턴스 시맨틱 분리망으로부터 코어 인스턴스 특징들을 업샘플링(upsampling)하고; 컨볼루션 커널(kernel)을 이전의 특징 맵에 적용하여 컨볼루션된 이전의 특징 맵을 생성하며; 업샘플링된 코어 인스턴스 특징들 및 컨볼루션된 이전의 특징 맵을 결합하여 특징 맵을 생성함으로써 복수의 특징 맵들의 특징 맵을 생성할 수 있다.
특징 피라미드망은 최근접(nearest neighbor) 기법을 이용하여 코어 인스턴스 특징들을 업샘플링할 수 있다.
특징 피라미드망은 디컨볼루션층(deconvolutional layer) 및 보간 컨볼루션 커널(interpolation convolutional kernel)을 이용하여 코어 인스턴스 특징들을 업샘플링할 수 있다.
다중스케일 해상도의 복수의 분리 마스크들을 병합하여 인스턴스 마스크를 생성하는 과정은 IoS(Intersection over Self) 메트릭을 계산하는 과정 및 IoS 메트릭이 임계값을 초과하는 인스턴스들을 제거하는 과정을 포함할 수 있다.
검출박스들은 코어 인스턴스 특징들을 영역 제안망(Region Proposal Network)에 제공함으로써 계산될 수 있다.
본 방법은 입력 이미지의 각 픽셀에 대해 픽셀이 속하는 인스턴스의 경계박스 위치를 지정하는 소속 경계박스를 계산하는 과정, 입력 이미지의 각 픽셀에 대해 복수의 밀도 메트릭들을 계산하는 과정, 및 밀도 메트릭들에 따라 인스턴스 마스크들을 필터링하여 인스턴스 마스크들 및 밀도 메트릭들로부터 계산된 차분 마스크 불일치도를 최소화하는 과정을 더 포함할 수 있다.
입력 이미지의 각 픽셀에 대해 소속 경계박스를 계산하는 과정은 픽셀의 소속 경계박스를 나타내는 벡터로서 최상단 픽셀, 최하단 픽셀, 최좌측 픽셀 및 최우측 픽셀을 포함하는 4-특징 벡터를 계산하는 과정을 포함할 수 있다.
인스턴스 마스크들의 신뢰도 점수를 조정하는 과정은 이미지에서 검출된 객체에 대한 소속 경계박스들로부터 평균 경계박스를 계산하는 과정, 인스턴스 마스크 및 평균 경계박스 간의 IoU(Intersection over Union) 메트릭을 계산하는 과정, 및 IoU 메트릭에 기반하여 인스턴스 마스크의 신뢰도 점수를 스케일링하는 과정을 포함할 수 있다.
밀도 메트릭들에 따라 인스턴스 마스크들을 필터링하여 상기 차분 마스크 불일치도를 최소화하는 과정은 이미지의 각 픽셀에 대해 픽셀 밀도 불일치도를 계산하는 과정, 인스턴스 마스크 각각에 대해 차분 마스크 불일치도를 계산하는 과정, 및 잔존하는 마스크들의 집합에 대한 차분 마스크 불일치도를 최소화하는 과정을 포함할 수 있다.
잔존하는 마스크들의 집합에 대한 차분 마스크 불일치도는, 그리디 검색법(greedy search)을 이용하여 차분 마스크 불일치도가 최소화될 때까지 더 큰 차분 마스크 불일치도를 갖는 인스턴스 마스크의 잔존 상태를 반복적으로 토글링하여, 잔존하는 마스크들의 집합을 갱신함으로써 최소화될 수 있다.
본 개시의 일 실시예에 따르면, 입력 이미지에서 객체들의 인스턴스들을 검출하는 시스템은 입력 이미지로부터 복수의 코어 인스턴스 특징들을 생성하는 코어 인스턴스 특징 추출망; 코어 인스턴스 특징들로부터 다중스케일 해상도로 복수의 특징 맵들을 계산하는 다중스케일 해상도 특징 맵 계산부; 코어 인스턴스 특징들로부터 이미지에서 검출된 객체에 대응하는 복수의 검출박스들을 계산하는 검출박스 계산부; 특징 맵들의 다중스케일 해상도로 검출박스들 각각에 대한 복수의 분리 마스크들을 계산하는 분리 마스크 예측망; 다중스케일 해상도의 복수의 분리 마스크들을 병합하여 입력 이미지에서 검출된 각각의 객체에 대해, 신뢰도 점수와 관련된 인스턴스 마스크를 생성하는 피라미드 분리망; 픽셀레벨 메트릭들을 계산함으로써 인스턴스 마스크들의 신뢰도 점수를 조정하는 영역 제안망(RPN) 기반 점수 조정 모듈; 및 인스턴스 마스크들을 입력 이미지에서 검출된 객체들의 인스턴스들로 출력하는 출력 모듈을 포함한다.
코어 인스턴스 특징 추출망은 풀리 컨볼루션 인스턴스 시맨틱 분리망을 포함할 수 있다.
다중스케일 해상도 특징 맵 계산부는 특징 피라미드망을 포함할 수 있다.
특징 피라미드망은 풀리 컨볼루션 인스턴스 시맨틱 분리망으로부터 코어 인스턴스 특징들을 업샘플링하고; 컨볼루션 커널을 이전의 특징 맵에 적용하여, 컨볼루션된 이전의 특징 맵을 생성하며; 업샘플링된 코어 인스턴스 특징들 및 컨볼루션된 이전의 특징 맵을 결합하여 특징 맵을 생성함으로써, 복수의 특징 맵들의 특징 맵을 생성할 수 있다.
특징 피라미드망은 최근접 기법을 이용하여 코어 인스턴스 특징들을 업샘플링할 수 있다.
특징 피라미드망은 디컨볼루션층 및 보간 컨볼루션 커널을 이용하여 코어 인스턴스 특징들을 업샘플링할 수 있다.
피라미드 분리망은 IoS 메트릭을 계산하고 IoS 메트릭이 임계값을 초과하는 인스턴스들을 제거함으로써, 다중스케일 해상도의 복수의 분리 마스크들을 병합하여 인스턴스 마스크를 생성할 수 있다.
검출박스 계산부는 영역 제안망을 포함할 수 있다.
본 시스템은 입력 이미지의 각 픽셀에 대해, 픽셀이 속하는 인스턴스의 경계박스 위치를 지정하는 소속 경계박스를 계산하는 소속 경계박스 예측망; 입력 이미지의 각 픽셀에 대해 복수의 밀도 메트릭들을 계산하는 밀도 예측망; 및 밀도 메트릭들에 따라 인스턴스 마스크들을 필터링하여 인스턴스 마스크들 및 밀도 메트릭들로부터 계산된 차분 마스크 불일치도를 최소화하는 밀도 기반 필터링 모듈을 더 포함할 수 있다.
소속 경계박스 예측망은 픽셀의 소속 경계박스를 나타내는 벡터로서 최상단 픽셀, 최하단 픽셀, 최좌측 픽셀, 최우측 픽셀을 포함하는 4-특징 벡터를 계산함으로써, 입력 이미지의 각 픽셀에 대해 소속 경계박스를 계산할 수 있다.
영역 제안망 기반 점수 조정 모듈은 이미지에서 검출된 객체에 대한 소속 경계박스들로부터 평균 경계박스를 계산하고; 인스턴스 마스크 및 평균 경계박스 간의 IoU 메트릭을 계산하며; IoU 메트릭에 기반하여 인스턴스 마스크의 신뢰도 점수를 스케일링함으로써, 인스턴스 마스크들의 신뢰도 점수를 조정할 수 있다.
밀도 기반 필터링 모듈은 이미지의 각 픽셀에 대해 픽셀 밀도 불일치도를 계산하고; 인스턴스 마스크 각각에 대해 차분 마스크 불일치도를 계산하며; 잔존하는 마스크들의 집합에 대한 차분 마스크 불일치도를 최소화함으로써, 밀도 메트릭들에 따라 인스턴스 마스크들을 필터링할 수 있다.
잔존하는 마스크들의 집합에 대한 차분 마스크 불일치도는, 그리디 검색법을 이용하여 차분 마스크 불일치도가 최소화될 때까지 더 큰 차분 마스크 불일치도를 갖는 인스턴스 마스크의 잔존 상태를 반복적으로 토글링하여 잔존하는 마스크들의 집합을 갱신함으로써 최소화될 수 있다.
도 1a는 본 발명의 실시예에 따른 다수의 신경망들을 이용한 인스턴스 시맨틱 분리 시스템의 예시적인 블록도이다.
도 1b는 본 발명의 실시예에 따른 시맨틱 분리방법의 흐름도이다.
도 2a는 본 발명의 실시예에 따른 이미지들의 위치 회귀 목표 맵들에 대한 예시도이다.
도 2b는 본 발명의 실시예에 따른 2개의 입력 이미지들로부터 계산된 4개의 특징들의 두 가지 예를 나타내는 예시도이다.
도 3은 본 발명의 실시예에 따른 객체 분리 마스크 점수들을 조정(refine)하는 방법의 흐름도이다.
도 4는 본 발명의 실시예에 따른 밀도 예측에 대한 예시도이다.
도 5는 본 발명의 실시예에 따른 밀도 기반 필터링 방법의 흐름도이다.
도 6(a)는 특징 피라미드망(FPN) 계층들이 없는 비교 풀리 컨볼루션 인스턴스 시맨틱 분리(FCIS) 아키텍처의 예시도이다.
도 6(b)는 본 발명의 실시예에 따른 풀리 컨볼루션 인스턴스 시맨틱 분리(FCIS)에 특징 피라미드망(FPN)을 결합한 아키텍처의 예시도이다.
도 6(c)는 본 발명의 실시예에 따른 특징 피라미드망 다중-스케일 결합(multi-scale aggregation)을 이용하는 예시도이다.
도 7은 본 발명의 다양한 실시예들에 따른 서로 다른 레벨의 특징 피라미드망 특징들을 이용한 결과들의 예시도이다.
이하, 본 발명의 실시예에 따른 신속하고 정확한 인스턴스 시맨틱 분리(Instance Semantic Segmentation) 시스템 및 방법에 대하여 설명한다. 본 시스템 및 방법은 이미지 내의 객체 클래스의 각 인스턴스에 대한 클래스들의 픽셀단위 표지(pixel-wise labeling)에 기반하는 인스턴스 분리를 제공하며, 객체의 각 인스턴스, 객체 카테고리의 분류 및 검출 신뢰도 점수에 속하는 이미지 내 특정 픽셀들의 마스크(mask) 형태로 각각의 객체 검출 결과를 생산한다.
예를 들어, 거리 풍경 이미지의 시맨틱 분리는 풍경 내 각 자동차와 연관된 모든 픽셀들을 "자동차"로 표지할 수 있고, 자전거에 탄 사람과 관련된 모든 픽셀들을 "자전거"로 표지할 수 있으며, 풍경 내 걸어가는 사람들과 관련된 모든 픽셀들을 "보행자"로 표지할 수 있다. 또한, 시맨틱 분리 시스템은 객체의 개별 인스턴스에 대응하는 이미지의 픽셀들을 식별하는 개별 인스턴스 마스크를 이미지 내 객체의 개별 인스턴스 각각(예: 풍경 내 자동차 인스턴스 각각)에 대하여 생성할 수 있다. 예를 들어, 시맨틱 분리 시스템이 이미지에서 3대의 자동차와 2명의 보행자를 검출하는 경우, 5개의 개별 인스턴스 마스크들이 출력된다. 각 자동차 별로 하나의 개별 인스턴스 마스크를 출력하고 각 보행자 별로 하나의 개별 인스턴스 마스크들 출력하는 것이다.
본 개시는 객체의 완전성으로 추론하는 각 픽셀 위치에 대한 추가 "완전성" 정보를 추론함으로써, 그리고 객체들의 검출을 유도하는 이러한 정보를 이용함으로써, 비교기술보다 더 높은 정확도로 인스턴스 분리를 수행하는 시스템 및 방법에 대하여 설명한다. 본 발명의 실시예들은 이미지의 계층적 특징들을 서로 다른 스케일들로 효율적으로 추출할 수 있고, 이러한 계층적 특징들을 통합하는 방식으로 결합할 수 있는 구조 또는 아키텍처를 활용한다. 본 발명의 실시예들은 서로 다른 스케일들로 정보를 활용 및 결합하여, 보다 작은 객체들 및 혼잡한 장면들에 대한 성능을 향상시킨다. 본 발명의 실시예들은 표지된 훈련데이터를 이용하여 훈련될 수 있다(예: 지도학습(Supervised Learning) 프로세스를 이용). 훈련 프로세스는 멀티태스킹 학습에 의한 종단 간(End-to-End) 프로세스일 수 있으며, 추가적인 심층 신경망(Deep Neural Network)들에 의해 제공되는 추가 정보는 인스턴스 마스크들을 완전한 독립형(stand-alone) 객체들로 지시하여 클러터 및 가림이 있는 경우에 성능을 향상시킨다.
본 발명의 실시예들에 따르면, 객체들의 "완전성"에 대한 정보를 이용한다. 예를 들어, 단일 객체나 복수의 객체들의 일부, 또는 서로 다른 객체들에 속하는 부분들의 결합체가 하나의 개체로 간주되지 않도록 하는 반면(예: 객체들의 일부분 검출에 대한 신뢰도 점수를 감소시킴으로써), 객체 전체를 검출하는 것을 선호함으로써(예: 온전한 객체들의 검출에 대한 신뢰도 점수를 증가시킴으로써), 객체들의 "완전성"에 대한 정보를 이용할 수 있다. 또한 본 발명의 실시예들에 따르면, 서로 다른 스케일들로 정보를 효율적으로 추출하고 이러한 정보를 결합함으로써, 크기가 작은 객체들(예: 전체 입력 이미지의 작은 부분을 구성하는 객체들)에 대한 성능을 향상시킬 수 있다. 본 발명의 일부 실시예들은 이미지에서 객체들을 검출하며, 대응하는 카테고리, 소속 픽셀들 및 신뢰도 점수를 생성하는 인스턴스 분리모듈을 포함한다. 본 발명의 실시예들은 객체 완전성에 관한 정보를 예측하는 신경망 계층들, 및 인스턴스 분리 성능을 향상시키기 위해 신경망 계층들을 활용하는 기술들을 더 포함한다. 또한, 본 발명의 실시예들은 스퓨리어스(spurious) 검출이 발생할 가능성을 줄일 수 있다.
본 발명의 실시예에 따른 인스턴스 분리 시스템은 오검출을 필터링하기 위해, 픽셀단위의 소속 경계박스(belonging bounding box) 위치정보를 이용하여 각각의 인스턴스 분리와 이와 연관된 픽셀들의 일치 여부를 측정할 수 있다. 본 발명의 실시예들은 또한, 인스턴스 밀도 예측을 이용하여 검출의 완전성을 측정하고, 크기가 작은 객체들의 검출 및 혼잡한 장면에서의 검출을 개선하기 위한 조정을 수행한다. 본 발명의 실시예들은 또한, 서로 다른 스케일의 특징들로부터 인스턴스 시맨틱 분리 마스크들의 효율적인 결합을 제공한다.
이하, 첨부된 도면들을 참조하여 본 발명의 예시적인 실시예들에 대하여 설명한다. 첨부 도면들의 동일한 참조번호는 동일한 구성요소를 지칭한다. 본 발명은 서로 다른 다양한 형태들로 구현될 수 있으며, 본 명세서에 설명된 실시예들로 한정되는 것으로 해석되어서는 안 된다. 오히려, 본 명세서에 설명된 실시예들은 본 발명이 면밀하고 완전해지도록, 그리고 본 발명의 기술분야에 속한 통상의 기술자들에게 본 발명의 양상 및 특징들이 충분히 전달되도록 예시로서 제공되는 것이다. 따라서, 본 발명의 양상 및 특징들을 완전히 이해함에 있어 본 발명의 기술분야에 속한 통상의 기술자들에게 불필요하다고 여겨지는 프로세스들, 구성요소들 및 기술들에 대한 설명을 생략한다. 특별히 언급하지 않는 한, 첨부된 도면 및 상세한 설명 전반에 걸쳐 동일한 참조부호는 동일한 구성요소를 나타내며, 그에 대한 설명은 반복하지 않는다. 도면에서 구성요소들, 계층들 및 영역들의 상대적인 크기는 설명의 명확성을 위해 과장될 수 있다.
도 1a는 본 발명의 실시예에 따른 다수의 신경망들을 이용한 인스턴스 시맨틱 분리 시스템의 예시적인 블록도를 도시한다. 도 1b는 본 발명의 실시예에 따른 시맨틱 분리방법의 흐름도이다.
도 1a 및 도 1b에 도시된 바와 같이, 본 발명의 실시예에 따른 인스턴스 시맨틱 분리 시스템(10)은 풀리 컨볼루션 인스턴스 시맨틱 분리(FCIS: Fully Convolutional Instance Semantic Segmentation) 코어망(Core Network, 100)을 포함한다. 코어망(100)은 단계 2100에서 초기 이미지를 처리하여 입력 이미지(20) (예: 거리 사진과 같이 하나 이상의 객체들을 포함하는 장면의 비트맵 이미지)로부터 코어 신경망 특징들(102)을 추출한다. 본 발명의 실시예에 따르면, 코어 신경망은 입력 이미지의 서로 다른 레벨의 표현(representation)들을 추출하는 풀리 컨볼루션 신경망(Fully Convolutional Neural Network)이다. 풀리 컨볼루션 신경망들은 빠른 속도가 특징이며, 어떤 입력 이미지에도 적용될 수 있다. 이것은 예컨대 마스크 순환 컨볼루션 신경망(Mask-RCNN: Mask Recurrent Convolutional Neural Network)과 같은 완전 연결층(Fully Connected Layer)들을 갖는 신경망들과는 대조적이다. 완전 연결층을 갖는 신경망들은 보다 느린 경향이 있고, 더 많은 매개변수들을 가지며, 입력 이미지의 크기에 맞게 조정되어야 할 필요가 있다.
코어 신경망 특징들(102)은 특징 피라미드망(FPN: Feature Pyramid Network, 200)과 영역 제안망(RPN: Region Proposal Network, 300) 모두에 공급된다.
특징 피라미드망(200)은 단계 2200에서 입력 이미지의 고해상도 특징 맵들(feature maps, 210, 230, 250)을 생성하고, 업샘플링(upsampling)을 적용하여 다수의 해상도들 또는 스케일들로 특징 맵들을 생성한다. 훈련된 표현(representation)들의 품질을 향상시키고 심층 신경망들(예: 은닉층들을 많이 포함하는 신경망들)의 연산 복잡성이 증가하는 것을 관리하거나 제한하기 위하여, 특징 맵들은 최대 또는 평균 풀링(pooling)에 의해 코어 풀리 컨볼루션 커널(kernel)들(예: FCIS(100))에서 다운샘플링(downsampling)된다. 본 발명의 실시예들의 일부 양상들에 따르면, 특징 피라미드망(200)은 최종 표현을 포함하는데, 최종 표현은 FCIS(100)의 출력보다 더 높은 해상도를 가지며 고레벨 표현들로부터의 정보를 포함한다. 따라서, 본 발명의 실시예에 따르면, 특징 피라미드망(200)은 최근접 방식(nearest neighbor approach)을 이용해 제1 특징 맵(210)을 업샘플링하여 고해상도의 제2 특징 맵(220)을 생성하고, 동일한 업샘플링 해상도들의 제1 특징 맵(210)에 컨볼루션 커널 변환을 적용한 뒤, 업샘플링된 특징 맵의 해상도로 두 표현들을 제3 특징 맵(230)으로 결합한다. 제3 특징 맵(230)은 더 업샘플링되어 제4 특징 맵(240)을 생성할 수 있고, 컨볼루션 표현 이후 비슷한 해상도의 다른 커널과 결합되어 제5 특징 맵(250)을 생성할 수 있다. 이러한 과정은 최종 특징 맵의 목표 해상도가 얻어질 때까지 반복될 수 있다. 다만, 입력 이미지의 해상도가 한도이다. 이러한 망은 특징 "피라미드"로 지칭되는데, 특징 맵의 크기가 각 레벨(예: 특징 맵들(210, 230, 250)의 레벨들)에서 증가하기 때문이다. 본 발명의 범위를 벗어나지 않는 한 임의의 개수 또는 레벨의 특징 맵들이 존재할 수 있음은 당연하다.
일부 실시예들에 따르면, 특징 피라미드망은 최근접(nearest neighbor) 업샘플링 대신 디컨볼루션층(deconvolution layer)에 의한 업샘플링을 수행한다. 일 실시예에 있어서, 디컨볼루션층은 훈련 프로세스를 통해, 단순히 0을 삽입함으로써 업샘플링한 이후 특징 맵과 컨볼루션되도록 보간(interpolation) 컨볼루션 커널을 학습한다.
본 발명의 실시예들은 각각의 표현들이 현재 스케일과 더 작은 스케일의 표현들의 조합인 경우, 특징 피라미드망의 출력으로서 최고 해상도를 갖는 최종 표현뿐만 아니라, 서로 다른 다중 스케일 표현들의 제공자들로서 모든 레벨의 피라미드(예: 특징 맵들(210, 230, 250)) 또한 고려한다. 개개의 화살표들(201, 203, 205)에 의해 도시되는 바와 같이, 다중-해상도 특징 맵들(210, 230, 250) 즉, 다중 스케일 해상도의 특징 맵들은 분리 마스크 예측망(Segmentation Mask Prediction Network, 400)에 공급되며, 이에 대한 상세한 설명은 후술한다.
단계 2300에서, 영역 제안망(300)은 개개의 특징들의 위치에 대응하는 복수의 검출박스들/경계박스들(RPN BBoxes)을 생성한다. 각각의 검출박스들은 복수의 박스좌표들에 의해 정의되며, 박스좌표들은 이미지 내 객체들 중 어느 하나와 대응하는 관심영역을 식별한다(예: 영역 제안망은 이미지 내에서 검출한 각각의 객체에 대해 검출박스를 생성함). 인스턴스 시맨틱 분리의 품질은 어떤 검출도 놓치지 않는 상당히 정확한 영역 제안망을 가짐으로써 관리된다. 그러나 높은 회수율을 갖는 것(검출 실패가 없는)은 일반적으로 잘못된 검출 또한 여러 번 발생시키게 된다.
다중-해상도 특징 맵들(210, 230, 250) 및 경계박스들(302)은 분리 마스크 예측망(400) 또는 분리 마스크 헤드(head)에 공급되며, 단계 2400에서 분리 마스크 헤드 또는 분리 마스크 예측망(400)은 특징 피라미드망(200)으로부터 특징 맵들(210, 230, 250)의 각 해상도로 각각의 객체 클래스에 대해 분리 마스크를 생성/예측한다. 분리 마스크 헤드는 영역 제안망(300)으로부터의 각각의 제안박스(302)에 대하여 그리고 각각의 객체 클래스에 대하여 분리 마스크를 예측하도록 훈련된 풀리 컨볼루션 심층 신경망(Fully Convolution Deep Neural Network)이다. 분리 마스크 예측망(또는 분리 마스크 헤드, 400)은 영역 제안망의 경계박스(예: 영역 제안망의 경계박스에 의해 절취된(cropped) 특징 맵의 일부)에 대응하는 절취된(cropped) 특징 맵으로부터 분리 마스크를 예측하도록 구성된다. 이 때, 분리 마스크 예측망(400)은 원샷(one shot) 예측에 의해 예측하거나, 특징 피라미드망에 대응하는 절취된 특징 맵을 고정된 크기의 그리드 셀(grid cell)들로 풀링(pooling)한 후에 각각의 그리드 셀에 대하여 예측한다. 또한, 분리 마스크 헤드(400)는 각각의 클래스(예: 인스턴스 시맨틱 분리 시스템(10)에 의해 검출되는 객체의 각 클래스, 예컨대, 클래스들은 사람, 개, 고양이, 자동차, 파편, 가구 등을 포함할 수 있음)에 대한 픽셀레벨 분류(classification) 점수를 제공하도록 구성되며, 마스크의 내부 또는 외부로 떨어지는 픽셀레벨 점수를 제공할 수 있다. 각 마스크에 대하여 픽셀레벨 점수들이 합산되어 마스크에 대한 신뢰도 점수를 생성한다. 본 발명의 실시예에 따르면, 인스턴스 시맨틱 분리 시스템(10)은 서로 다른 스케일들의 모든 중간 특징 맵들을 결합함으로써 분리 마스크 예측을 제공한다(분리 마스크 예측기에 제공하기 위해 단일 특징을 이용하거나, 각각의 관심영역에 대해 단일 피라미드 스케일만을 선택하는 것 대신에). 도 1a에 도시된 본 발명의 실시예에 따르면, 3가지 스케일의 특징들이 도면부호 410, 430 및 450에 도시되며, 각 도면부호는 특징 피라미드망(200)에 의해 계산된 서로 다른 특징 맵들(210, 230, 250)에서의 상이한 특징 스케일의 특징 맵들을 나타낸다.
후단의 특징 맵들(예: 제3 특징 맵(230) 및 제5 특징 맵(250))은 더 큰 수용필드(receptive field)를 가지며, 전단의 특징 맵들(예: 제1 특징 맵(210))보다 더 높은 해상도들을 갖는다. 이러한 후단의 특징 맵들은, 매우 작은 객체들 또는 해당 의미를 이해하기 위해 보다 넓은 전역시점(global view)이 필요한 객체들 등과 같은 특정 유형의 객체들을 검출하는데 보다 적합할 수 있다. 그러나 전단의 특징 맵들(예컨대, 레벨 210에서의)은 고레벨의 특징 맵들에 비하여 저해상도이기 때문에 노이즈에 더 강할(robust) 수 있고, 큰 객체들을 인식하는데 보다 적합할 수 있다. 본 발명에 따른 일부 실시예들은 특징 피라미드망 상에 마스크 예측 헤드(mask prediction head, 470)를 포함하며, 마스크 예측 헤드(470)는 각 계층들로부터 다중스케일의 특징 맵들 및 영역 제안망의 경계박스들을 취하여, 각각의 특징 피라미드망 스케일로부터(예: 해상도 스케일들/특징 피라미드망의 레벨들(210, 230, 250)로부터) 그리고 영역 제안망의 각각의 경계박스들(302) 내에서, 각 클래스에 대한 분리 마스크를 예측한다.
분리 마스크들(402)은 피라미드 분리망(500)에 제공되어, 단계 2500에서, 분리 마스크 예측망(400)에 의해 서로 다른 해상도(예: 다중-해상도 특징 맵들(410, 430, 450)의 상이한 해상도)로 생성된 개별 마스크들로부터 생성되는 바와 같은, 특정 객체에 대한 분리 마스크(502)를 생성한다. 일 실시예에 따르면, 본 시스템은 특징 피라미드망의 다중 스케일로 예측된 분리 마스크들의 결합을 학습한다. 각 클래스에 대해 각각의 마스크 및 영역 제안망 박스가 픽셀 단위 점수로 정의된다.
본 발명의 다양한 실시예들은 상이한 방법들을 사용하여 서로 다른 스케일들로 추정된 특징 피라미드망 분리 마스크들을 결합한다. 한가지 방법은 다중 스케일의 분리 마스크들의 결합을 학습하는 것이고, 다른 방법은 결합층으로 구성된 결합헤드를 이용하여 분리 마스크들의 가중된 결합을 학습하는 것이다. 평균 결합은 각각의 경계박스 내 특정 클래스에 대한 모든 특징 피라미드망 분리 마스크들을 취하여, 결합되었던 개별 특징 피라미드망 마스크들에 대한 평균 점수로 각 픽셀에 대해 점수를 할당한다. 최대 결합은 마스크의 각 픽셀에 대해 최대 점수를 할당한다. 비-최대 억제 결합(non-max suppression combining)은 픽셀들에 대한 총 점수가 가장 큰 특징 피라미드망 분리 마스크를 잔존 마스크로 선택하고, 모든 다른 마스크들을 제거한다. 모든 경우에 있어서, 피라미드 분리망에서의 출력 마스크는 대체로 코어 풀리 컨볼루션망의 단일 출력으로부터 직접 예측된 마스크보다 더 정확할 것이다. 또한, 입력 이미지의 서로 다른 스케일들로 인스턴스 시맨틱 분리망을 여러 번 실행하는 것보다 훨씬 빠르다.
일 실시예에 따르면, 본 시스템은 동일 클래스의 다른 검출들과 완전히 중첩되는 검출들에 기초한 오판을 방지하기 위해 피라미드 분리망을 제공한다. 본 시스템은 다른 검출들에 거의 완전히 포함되는 검출들을 제거하는 IoS(Intersection over Self)로 지칭되는 메트릭을 포함하며, IoS는 다음과 같이 정의된다. IoS = (다른 검출과의 교차 영역) / 자기 영역. IoS = 1인 경우는 해당 검출이 다른 검출에 완전히 포함되어 안전하게 폐기될 수 있는 것을 의미한다. 따라서, 본 시스템은 IoS가 소정의 임계값을 초과하는 검출들을 폐기할 수 있으며, 여기서 임계값은 1보다 작지만 1에 가까운 값(즉, 다른 영역에 포함된 정도가 크다는 것을 나타냄)이다.
특징 피라미드망(200)에 의해 생성된 제3 특징 맵(250)과 같은 고해상도 특징 맵들은 또한, 소속 경계박스(BBBox: Belonging-Bounding Box) 예측망(600) 및 밀도 예측망(800)에 제공된다. 소속 경계박스 예측망(600) 및 밀도 예측망(800)은 본 명세서에서 "보조 망"으로 지칭될 수 있다.
단계 2600에서, 소속 경계박스 예측망(600)은 입력 이미지(20)의 각 픽셀에 대해, 해당 픽셀을 일부로 하는 객체를 포함하는 소속 경계박스(예: 픽셀 좌표)를 계산한다. 보다 구체적으로, 일 실시예에 따른 소속 경계박스 예측망은 각 픽셀에 대해 그것이 속하는 (가장 우세한) 인스턴스 마스크의 경계박스의 좌표를 생성하도록 훈련된다. 훈련을 단순화하기 위해, 소속 경계박스 예측망(600)은 직접 경계박스의 좌표들로 회귀하기 보다는 실측(ground truth) 맵들에 회귀함으로써 각각 입력 이미지(20)와 동일한 크기를 갖는 4개의 특징 맵들을 출력하도록 훈련되며, 여기서 특징 맵들의 각 픽셀은 각자 그것이 속하는 경계박스들의 상하좌우 경계로부터의 거리를 나타낸다. 이로써, 경계박스들을 예측하는 대신, 본 발명의 실시예에 따른 소속 경계박스 예측망(600)은 4개의 모서리 즉, 인스턴스의 최상단 픽셀, 최하단 픽셀, 최좌측 및 최우측 픽셀에 의해 정의되는 다각형을 예측한다. 다각형은 반드시 직사각형이라고 할 수 없는 객체 인스턴스의 보다 정확한 표현을 제공할 수 있다. 소속 경계박스는 본 명세서에서 직사각형 또는 다각형 예측으로 지칭될 수 있다.
일 실시예에 따른 소속 경계박스 예측망(600)은 각 픽셀이 직접 속하는 인스턴스 위치들을 예측한다. 이미지 내 각 픽셀에서, 그것이 속하는 인스턴스의 경계박스 위치를 정의하는 벡터가 예측된다. 일부 실시예들에 있어서, 벡터는 좌상단 및 우하단 모서리들의 좌표를 포함하며, 이러한 실시예들의 경계박스들에 직사각형 형태를 부여한다. 이로써, 소속 경계박스 예측망(600)은 각 픽셀에 대해 원본 이미지의 해상도를 갖는 4-채널 맵으로 표현되는 경계박스(602)를 계산한다.
일 실시예에 있어서, 소속 경계박스 예측망(600)은 본래의 신경망 내 베이스층의 상부, 또는 최종 컨볼루션층이나 특징 피라미드층(200)에 연산 헤드층을 추가함으로써 구현된다. 새로운 풀리 컨볼루션층이 헤드로 구성될 수 있다. 최종 출력은 이미지의 해상도로 다시 업샘플링된 베이스층의 해상도가 동일한 4-채널 맵이다.
소속 경계박스 예측망(600)을 훈련시키는 학습과정 동안, 실측(ground truth) 위치는 아래와 같이 계산된다.
Figure pat00001
Figure pat00002
번째 실측 객체를 나타내고,
Figure pat00003
Figure pat00004
의 경계박스 좌표들을 나타내며,
Figure pat00005
는 픽셀
Figure pat00006
, 채널
Figure pat00007
의 목표 절대 위치를 나타낸다. 설명을 위하여, 인스턴스
Figure pat00008
의 경계박스 좌표들을 정의하는 4개의 채널들(상하좌우 좌표들)이 존재하고,
Figure pat00009
임을 가정한다.
Figure pat00010
배경 픽셀들(예: 자동차 또는 사람과 같이 객체에 대응하지 않는 픽셀들)에 있어서, 예측에 손실을 적용하지 않는 대신, 소속 경계박스 예측모듈(600)은 배경 픽셀들을 0으로 채운다.
하지만, 컨볼루션 신경망(CNN)은 변환 불변성(translation invariant)을 가지므로, 뉴런은 보고 있는 수용 필드의 오프셋을 알지 못하지만, 그 정보는 절대좌표를 예측하는데 필요하다. 이는 특징들의 일부로서 xy-좌표 맵을 추가함으로써 해결된다. 일 실시예에 있어서, 학습 진행은 스케일링된 목표 상대 위치
Figure pat00011
로 회귀한다.
Figure pat00012
이는 각 픽셀의 소속 경계박스의 상하좌우 경계까지의 거리이다. 여기서, 스케일링 인자
Figure pat00013
Figure pat00014
로 설정될 수 있으며,
Figure pat00015
는 망이 회귀할 수 있을 만큼 목표를 작게 만드는 이미지의 폭이다. 경험적으로, 망은 가중치 초기화 스케일로 인해 작은 값들을 생성하는 경향이 있어, 800과 같은 값들로 회귀하기 어려워진다. 픽셀 좌표
Figure pat00016
,
Figure pat00017
Figure pat00018
가 모든
Figure pat00019
에 대하여 알려진 값이기 때문에,
Figure pat00020
Figure pat00021
로부터 복구될 수 있다. 도 2a는 본 발명의 일 실시예에 따른 이미지들의 위치 회귀 목표 맵들의 예시도를 도시한다. 특히, 도 2a는 4가지 세트의 이미지들(1010, 1020, 1030, 1040)을 도시한다. 4가지 세트(1010, 1020, 1030, 1040) 각각은 각자 입력 이미지(1012, 1022, 1032, 1042)를 포함한다. 또한, 4가지 세트(1010, 1020, 1030, 1040) 각각은 경계박스의 하부까지의 거리를 나타내는 이미지(1014, 1024, 1034, 1044)를 포함한다(여기서, 노란색은 먼 거리를 나타내며 파란색은 짧은 거리를 나타낸다). 또한, 4가지 세트들 각각은 경계박스의 좌측부까지의 거리를 나타내는 이미지(1016, 1026, 1036, 1046)를 포함한다(여기서, 노란색은 짧은 거리를 나타내며 파란색은 먼 거리를 나타낸다). 도 2b는 본 발명의 일 실시예에 따른 2개의 입력 이미지(1052, 1062) 각각으로부터 계산된 4개의 특징들의 2가지 예시(1050, 1060)을 도시한다. 각 행의 처음 4개의 이미지는 입력 이미지(맨 오른쪽에 도시된 이미지)에 대해 계산된 4개의 특징들(경계박스의 최상단, 최좌측, 최하단 및 최우측 경계까지의 거리)을 나타낸다. 첫 번째 행(1050)에 있어서, 각각의 이미지들(1059, 1058, 1056, 1054)은 경계박스의 최상단, 최좌측, 최하단 및 최우측 경계까지의 거리를 나타낸다. 좌측의 두 이미지들(1059, 1058)에 있어서 노란색은 짧은 거리를 나타내고 파란색은 먼 거리를 나타내며, 우측의 두 이미지들(1056, 1054)에 있어서 노란색은 먼 거리를 나타내고 파란색은 짧은 거리를 나타낸다. 이와 유사하게, 두 번째 행(1060)에 있어서, 각각의 이미지들(1069, 1068, 1066, 1064)은 최상단, 최좌측, 최하단 및 최우측 경계까지의 거리를 나타낸다.
일 실시예에 따르면, 본 시스템은 맵에 L2 회귀를 사용하여 망을 훈련시키는데, 이는 메트릭 및 결과의 품질에 있어 모든 픽셀들이 동일하게 중요한 것은 아니고, 모든 픽셀에 대해 동일한 가중치를 사용하면 클러터가 있는 작은 객체들보다 큰 객체들에 훨씬 더 중점을 둘 것이기 때문이다. 일부 실시예들에 있어서, 빈도가 낮은 클래스들에 대한 가중치가 더 높다(각 클래스의 인스턴스 수와 반비례함). 일부 실시예들에 있어서, 작은 객체들의 픽셀들에 대한 가중치가 더 높다(객체의 픽셀 수와 반비례함). 일부 실시예들에 있어서, 더 큰 위치 값들을 갖는 회귀는 더 적은 가중치를 가지므로, 100-픽셀 객체에서 20 픽셀만큼 벗어난 위치는 1000-픽셀 객체에서 200 픽셀만큼 벗어난 위치와 동일한 양의 불이익을 받는다(객체 길이 또는 높이와 반비례함).
성능을 시험하는 경우, 예측이 결정되고 다시
Figure pat00022
로 변환된다. 이후, 이전 동작에 따른 각각의 검출
Figure pat00023
에 대해서, 소속 경계박스 예측망(600)에 의해 계산된 마스크는 그 픽셀들
Figure pat00024
에 대해 반복되어 영역 제안망
Figure pat00025
Figure pat00026
사이의 일치 레벨을 계산한다. 다양한 실시예들에 있어서, 이는 예컨대 모든 경계박스들의 평균 IoU(Intersection over the Union)를 아래 식(여기서,
Figure pat00027
은 검출 인스턴스
Figure pat00028
의 픽셀 수를 나타냄)과 같이 계산함으로써,
Figure pat00029
또는, 평균 경계박스의 IoU를 아래 식과 같이 계산함으로써 이루어질 수 있다.
Figure pat00030
일 실시예에 있어서, 이러한 일치 점수는 임계값과 비교되고, 일치 점수가 임계값보다 낮으면
Figure pat00031
의 검출 신뢰도가 감소된다.
소속 경계박스 예측망(600)에 의해 계산된 경계박스들(602, BBBoxes)은 영역 제안망(RPN) 기반 점수 조정 모듈(700)에 제공되며, 영역 제안망 기반 점수 조정 모듈(700)은 도 1b의 단계 2700에서, 분리 마스크(502) 및 경계박스들(602) 간의 일치 레벨에 기반하여 피라미드 분리망(500)에 의해 생성된 분리 마스크(502)의 신뢰도를 조정하여, 조정된 분리 마스크(702)를 생성한다.
도 3은 본 발명의 실시예에 따른 객체 분리 마스크 점수들을 조정(refine)하는 방법의 흐름도이다. 보다 구체적으로, 피라미드 분리망(500)에 의해 생성된 각 인스턴스 분리 마스크(502)의 점수는 해당 인스턴스 분리 마스크와 관련된 영역 제안망 경계박스(302)와 소속 경계박스 예측망(600)으로부터 예측된 소속 경계박스(602, 이하 '예측 소속 경계박스'라 칭함) 간의 일치 정도에 기반하여 조정된다. 전술한 바와 같이, 입력 이미지(20)의 각 픽셀은 소속 경계박스 예측망(600)에 의해 계산된 바와 같이 그와 관련된 예측 소속 경계박스를 갖는다. 도 3의 단계 2710에서, 영역 제안망 기반 점수 조정 모듈(700)은 분리 마스크(502) 내로 분류된 모든 픽셀들의 예측 소속 경계박스들을 평균하여, 평균 예측 소속 경계박스를 생성한다. 단계 2730에서, 영역 제안망 기반 점수 조정 모듈(700)은 평균 예측 소속 경계박스 및 해당 마스크와 연관된 영역 제안망 소속 경계박스 간의 IoU 메트릭(복수의 예측 소속 경계박스들 간의 교차 영역을 그들의 합집합 영역으로 나눔)을 계산한다. 단계 2750에서, 영역 제안망 기반 점수 조정 모듈(700)은 마스크들의 점수를 이들과 대응하는 IoU 메트릭에 비례하게 조정하여 인스턴스 마스크에 대한 조정된 점수를 생성한다. 큰 IoU 메트릭은 해당 마스크와 연관된 영역 제안망과 소속 경계박스망의 결과간의 일치를 지시하며, 해당 마스크의 신뢰도는 증가한다.
도 1b의 단계 2800에서, 밀도 예측망(800)은 고해상도 특징 맵들(204) (예: 제3 특징 맵(250)) 로부터 밀도 메트릭(802)을 계산하며, 밀도 메트릭(802)은 인접한 중첩 인스턴스들의 개수 관점에서(예: 해당 픽셀에서 보이지 않거나 가려진(occluded) 객체들의 개수), 각 픽셀에 대해, 해당 픽셀을 일부로서 포함하는 인스턴스의 크기 측정치 및 인접 픽셀들의 혼잡도 측정치를 지시한다. 보다 구체적으로, 밀도 예측망(800)의 계층적 밀도 예측망(810)은 계층적 특징들(812)을 이용하여 각 픽셀에 대해 메트릭을 계산하도록 훈련되고, 메트릭은 중첩되는 인스턴스 개수의 관점에서 해당 픽셀이 속하는 인스턴스의 크기 측정치 및 인접 혼잡도 측정치를 지시한다. 더 작은 객체 인스턴스들에 속하는 픽셀들 및/또는 혼잡한 영역에 속한 픽셀들은 더 큰 밀도를 갖게 될 것인데, 이는 계층적 특징들(812)에 기반하여 밀도 예측 모듈(830, 이는 계층적 밀도 예측망(810)의 마지막 계층으로 간주될 수도 있음)에 의해 계산된 것으로서 소정의 픽셀을 포함하는 중첩 경계박스들이 많이 존재하기 때문이다. 밀도 예측망(800)은 각 픽셀
Figure pat00032
에 대해, 그것이 속하는 인스턴스들
Figure pat00033
의 크기의 역수의 총합(아래 식 참고)을 예측하도록 훈련된다.
Figure pat00034
여기서,
Figure pat00035
는 입력 이미지(20)에서 검출된 객체 인스턴스의 크기 추정치를 나타낸다(예: 픽셀 개수 관점에서). 마찬가지로, 픽셀
Figure pat00036
에 대한 픽셀 단위 밀도지도(density map)
Figure pat00037
는 아래와 같이 나타낼 수 있다.
Figure pat00038
여기서,
Figure pat00039
는 객체
Figure pat00040
의 픽셀 개수이다. 일반적으로, 밀도 예측망(800)은 실측(ground truth) 밀도지도들로의 회귀에 의해 훈련될 수 있다. 또한, 픽셀
Figure pat00041
당 예측 소속 경계박스 영역은
Figure pat00042
의 추정치를 조정하는데 사용될 수 있다.
일 실시예에 따르면, 본 시스템은 검출된 객체 마스크들의 신뢰도 점수를 변경하여 얼마나 많은 객체들이 소정의 영역에 존재하는지에 대한 추정치를 보다 잘 정합시킨다. 일반적인 FCIS(예: FCIS(100))는 클러터가 있는 객체들로 인해 성능이 저하된다. 그러나, FCIS는 가림 패턴 및 작은 스케일의 패턴을 검출한다. 어느 객체가 가림을 유발하는 객체(occluder)이고 어느 객체가 가려지는 객체(occlude)인지를 망이 결정하기 어렵더라도, 망은 임의의 특정 영역에 얼마나 많은 객체들이 존재하는지를 대략적으로 추정할 수 있다. 이로써, 일부 실시예들에 있어서, 본 시스템은 추정 이후에 검출들의 신뢰도 점수를 변경함으로써, 검출로부터 계산된 밀도와 예측된 밀도지도 간의 임의의 불일치를 줄이거나 제거할 수 있다.
일반적으로, 신뢰도 점수는 각 인스턴스 객체에 크기(mass) 1을 부여함으로써 조정될 수 있으며, 이는 해당 픽셀들에 걸쳐 균일하게 분포된다. 객체들이 중첩되는 경우, 중첩 영역의 픽셀 밀도는 해당 픽셀들의 밀도를 모두 더한 값이다. 이러한 방식으로, 더 높은 밀도가 존재하는 경우에는 더 작은 스케일의 객체들에 의한 것이든, 가림에 의한 것이든, 또는 서로 중첩되는 객체들에 의한 것이든 해당 영역에는 더 많은 인스턴스들이 존재하는 것으로 추정될 수 있다. 또한, 이미지에 대한 밀도지도의 합은 내부 객체들의 총 수이다.
도 4는 본 발명의 실시예에 따른 밀도 예측에 대한 예시도이다. 도 4(a)는 실측 인스턴스들(ground truth instances) 및 이들의 대응하는 경계박스들을 도시한다. 본 시스템은 이미지의 픽셀 단위 밀도를 결정 및 예측하고, 각 인스턴스는 크기 1을 획득한다. 이는 검출 신뢰도가 객체 완전성에 부합하도록 유도하는데 사용될 수 있다.
밀도는 전체 이미지에 대해 계산될 수 있거나, 또는 어느 한 카테고리에 속하는 객체들만을 합산함으로써 각 카테고리에 대해 개별적으로 계산될 수 있다. 클래스 별로 밀도를 예측하는 것은 더 많은 연산능력을 필요로 하지만, 한번에 모든 클래스에 대해 밀도를 계산하는 것보다는 보다 정확한 결과를 제공한다. 밀도는 실측 밀도에 이르도록 실측값으로부터 계산될 수 있거나(도 4(b) 참조), 예컨대 소정의 임계값을 초과하는 신뢰도를 갖는 검출들의 마스크를 렌더링 함으로써, 선택된 검출들로부터 계산될 수 있다(도 4(c) 및 4(d) 참조).
일 실시예에 따르면, 본 시스템은 FCIS 점수 맵(score map)들과 유사한 다른 헤드를 추가함으로써 망으로부터 픽셀 단위 밀도를 직접 예측한다. 일부 실시예들에 있어서, 예측방식은 회귀방식이 될 수 있거나, 또는 다른 실시예들에 있어서, 양자값 분류(quantized values classification) 방식이 될 수 있다. 회귀방식의 경우, 밀도가 크게 변하기 때문에 밀도는 밀도의 로그값
Figure pat00043
으로 회귀될 수 있다. 객체가 존재하지 않는 경우, 밀도는 0이 될 것이고
Figure pat00044
으로 회귀될 수는 없다. 본 시스템은 이미지 당 1 객체보다 작은 밀도값을 이 픽셀들에 대한 목표 프록시 회귀(proxy regression target)로 사용한다(예:
Figure pat00045
가 사용될 수 있음).
도 1b의 단계 2900에서, FICS 검출결과들(702) 및 밀도 예측결과들(802)이 모두 획득된 이후, 일 실시예에 따른 밀도 기반 필터링 모듈(900)이 검출 신뢰도를 검출 신뢰도 임계값으로 임계화(thresholding)하여 최종 분리 맵을 생성하고 그 결과물을 시각화한다. 보다 구체적으로, 밀도 기반 필터링 모듈(900)은 연산 결과들 간의 불일치를 줄이거나 최소화하기 위하여, 계산된 밀도 메트릭(802)에 기반하여 조정된 마스크 인스턴스들(702)을 필터링할 수 있다.
일반적으로, 이미지에서 객체 인스턴스들을 검출하는 방법들은 검출을 과도하게 하므로(over-detect), 본 발명의 일부 실시예들에 따르면, 임계값
Figure pat00046
(예: 신뢰도 점수에 있어서 0.7의 임계값)를 만족하는(예: 초과하는) 검출 인스턴스들만이 최종 출력 인스턴스 마스크들 및 그들 각각의 신뢰도 점수(902)로 회수될 것이고(예: 사용자가 검토할 수 있도록 검출된 클래스들을 디스플레이 장치에 표시함으로써 시각화하거나, 예컨대 자율주행차 제어와 같은 제어알고리즘에 제공되기 위해), 성능을 평가하는 메트릭은 고신뢰 검출들에 중점을 더 둘 것이다.
본 발명의 일 실시예에 따르면, 조정된 마스크 인스턴스들(702)의 과도 검출(over-detection)을 없애기 위해, 조정된 마스크 인스턴스들(702)의 일부가 밀도 메트릭(802)에 따라 제거(또는 "오프로 토글링(toggled off)")될 수 있다. 이를 위해, 일부 실시예들에 있어서, 밀도 기반 필터링 모듈(900)은 나머지 검출들의 픽셀 단위 밀도를 계산하고, 예측된 밀도에서 픽셀 단위 밀도를 감산하여 각 픽셀에 대한 "불일치도"를 획득한다. 불일치도 맵은 임계값
Figure pat00047
를 만족하는 신뢰도 점수를 갖는 것에 기반하여 필터링된 출력 검출들의 밀도 맵과 각 픽셀에서의 밀도 예측 간의 부정합도이다. 불일치도 맵의 절대값의 합은 필터링된 출력 검출들의 신뢰도 점수를 0.7의 임계값을 초과하는 값(ON)에서 0.7 미만의 값(OFF)으로 토글링 또는 변경함으로써 최소화될 수 있고, 그 반대의 경우도 가능하다.
Figure pat00048
단계 2900에서 임계값을 적용하는 경우, 전체적으로 모든 클래스에서 잔존하는 마스크(이하, '잔존 마스크'라 칭함)들은 앞서 정의한 바와 같은 픽셀 밀도가 계산되는 전체 이미지에 대해(예: 입력 이미지(20)의 모든 픽셀들에 대해) 잔존 분리 맵(surviving segmentation map)을 정의한다. 도 5는 본 발명의 실시예에 따른 밀도 기반 필터링 방법의 흐름도이다.
단계 2910에서, 밀도 기반 필터링 모듈(900)은 이미지의 각 픽셀에 대한 픽셀 밀도 불일치도를 계산한다. 여기서, 단일 픽셀의 밀도 불일치도는 계산된 픽셀 밀도와 밀도 예측망(800)으로부터 예측된 픽셀 밀도 간의 차이로 정의된다. 마스크 밀도 불일치도(MDD: Mask Density Discrepancy)는 해당 마스크에 대응하는 이미지 영역 내에 포함된 모든 픽셀에 대한 픽셀 밀도 불일치도들의 합으로 정의된다. 토글링된 마스크 밀도 불일치도(TMDD: Toggled Mask Density Discrepancy)는 잔존 상태가 토글링된 이후(비-잔존 상태였던 경우, 잔존상태로. 반대의 경우도 마찬가지임)의 마스크 밀도 불일치도(MDD)이다. 차분 마스크 불일치도(DMD: Differential Mask Discrepancy)는 마스크 밀도 불일치도와 토글링된 마스크 밀도 불일치도 간의 차이(DMD = MDD - TMDD)로 정의된다. 밀도 기반 필터링은 예측된 인스턴스 분리 마스크들의 점수를 조정하여, 밀도 예측망(800)으로부터 예측된 마스크 밀도와 잔존 분리 맵으로부터 실제 계산된 마스크 밀도 간의 불일치도를 최소화한다.
그러므로, 단계 2930에서, 밀도 기반 필터링 모듈(900)은 각 인스턴스 마스크(702)의 차분 마스크 불일치도를 계산한다. 단계 2950에서, 밀도 기반 필터링 모듈(900)은 최대 차분 마스크 불일치도를 갖는 마스크의 잔존 상태를 토글링한다. 이후, 차분 마스크 불일치도들은 토글링된 마스크와 중첩되는 모든 인스턴스 마스크들에 대해 다시 계산되고, 최대 차분 마스크 불일치도를 갖는 마스크가 발견되면 그의 잔존 상태가 토글링되는 등 차분 마스크 불일치도가 최소화될 때까지 이와 같은 최소화 과정이 계속된다.
일 실시예에 있어서, 이러한 최소화 과정은 그리디 검색법(greedy search) 즉, 최적화된 함수에서 최대 감소에 이르게 하는 검출을 온 또는 오프로 토글링하는 방식에 의해 수행된다. 이로써, 단계 2970에서, 밀도 기반 필터링 모듈(900)은 차분 마스크 불일치도가 최소화되었는지(예: 더 이상 토글링을 통해 마스크 밀도 불일치도를 감소시킬 수 없는 경우) 여부를 판단한다. 차분 마스크 불일치도가 최소화되지 않은 경우, 단계 2930으로 돌아가 차분 마스크 불일치도를 다시 계산하고, 단계 2950에서 다른 마스크를 토크링한다. 이와 반대로, 차분 마스크 불일치도가 최소화된 경우에는, 단계 2990에서, 밀도 기반 필터링 모듈(900)이 신뢰도 점수를 다시 부여하여 토글링된 잔존 상태를 정합시킨다. 그리디 검색 결과가 수렴한 이후에, 토글링과 부합하지 않는 신뢰도 점수의 신뢰도는 단순 전단사 선형 맵핑(Simple Bijective Linear Mapping)을 이용하여 [0, 0.7] (오프로 토글링되어야 할 인스턴스 마스크의 경우)과 [0.7, 1] (온으로 토글링되어야 할 인스턴스 마스크의 경우) 사이에서 변경될 수 있다.
이후, 임계 신뢰도 점수를 만족하는 결과적인 잔존 마스크 인스턴스 집합이 각 마스크에 대한 신뢰도 점수에 따라 각 클래스에 대한 최종 마스크로서 출력된다.
전술한 바와 같이, 본 발명의 일부 실시예들은 FCIS를 갖는 특징 피라미드 아키텍처를 포함한다. 특징-피라미드-유사 구조들은 다른 분야에서 사용되어왔다. 하나의 특정 아키텍처인 특징 피라미드망(FPN)은 최종적인 최대 스케일만을 이용함으로써 객체 검출에 있어 경쟁력 있는 결과를 이끌어 냈으며, 마스크 순환 컨볼루션 신경망(Mask-RCNN: Mask Recurrent Convolutional Neural Network)에도 사용된다.
본 발명의 여러 양상의 실시예들은 특징 피라미드를 한번의 순방향(forward pass) 프로세스에서 효율적으로 특징 피라미드를 생성 또는 훈련하는 것에 관한 것으로, 여기서 다중 스케일의 특징들은 모든 피라미드 계층에서 유사하게 작용하며 모두 인식망(Recognition Network)의 상위 계층과 같은 상위-레벨 정보를 가지며, 한편으로는 FCIS로 서로 다른 다양한 크기의 입력 이미지들에 대한 연산을 수행하는데 사용된다(예: 실질적으로 입력 이미지의 크기와 무관하게 연산을 수행함).
도 6(a)는 비교를 위한 특징 피라미드망(FPN) 계층들이 없는 FCIS 아키텍처의 예시도이다. 도 6(b)는 본 발명의 실시예에 따른 FCIS에 특징 피라미드망(6200, FPN)을 결합한 아키텍처의 예시도이다. 도 6(c)는 본 발명의 실시예에 따른 특징 피라미드망 다중-스케일 결합(multi-scale aggregation)을 이용하는 예시도이다.
본 발명의 일 실시예에 따른 특징 피라미드망(6200)을 갖는 FCIS의 구성방법은 기 훈련된 일반적인 신경망(예: ResNet-101)으로 시작하여, 기 훈련된 신경망의 컨볼루션층들을 그들의 공간 해상도(spatial resolution)에 의해 여러 그룹으로 나눠지거나, 또는 이와 등가적으로, 다시 이미지 스케일로 돌아가 인접하는 특징 맵 픽셀들 사이의 스트라이드(stride)에 의해 여러 그룹으로 나눠진다. 예를 들어, 컨볼루션 1 그룹은 스트라이드가 2이고, 컨볼루션 5 그룹은 스트라이드가 32이다. 각 그룹의 상위 계층은 각각 {C1, ..., C5}로 지칭된다. 상위 컨볼루션 출력은 피라미드 출력 {P5, ..., P1}을 각각 생성하기 위해 반복적으로 업샘플링 및 측면 연결(lateral connection)을 거친다. 보다 성긴(coarse) 각 피라미드층 Pn+1은 우선 2배로 업샘플링(예: 최근접 이웃을 이용함)되고, 이어서, 대응하는 컨볼루션층 출력 Cn이 하나의 1×1 컨볼루션을 거치며, 그 결과값은 Pn 출력을 제공하는 업샘플링된 Pn+1에 가산된다. 마지막으로, 각 피라미드 출력 {P5, ..., P1}에 대한 예측(예: 영역제안, 관심영역(ROI: Region Of Interest) 풀링)이 수행된다.
일 실시예에 따르면, 본 시스템은 특징 피라미드망(6200)을 본 프레임워크로 적응시킨다(도 6(b) 참조). 영역 제안망(6300)에 따른 각각의 영역 제안 박스는 k×k 셀 그리드로 풀링된다. k2개의 셀 각각에 대해 그리고, 클래스 각각에 대해 2개의 마스크가 예측된다. 제1 마스크는 배경을 나타내는 픽셀들을 예측한다. 제2 마스크는 전경을 나타내는 픽셀들을 예측한다. 이에 따라, 총 2k2개의 위치 감지 점수 맵이 도출되는데, 이는 각각의 점수 맵이 k×k 그리드의 셀 위치에 따라 달라지기 때문이다. 이로써, FCIS 방식의 프레임워크를 이용하는 경우에, 각 카테고리에 대한 최종 출력은 내부와 외부의 각 그리드 위치 전용 채널을 2k2개 갖는다. 이러한 점수 맵들은 1×1 컨볼루션층들을 C5 층의 상단에 추가함으로써 예측되며, 확장된 컨볼루션으로 인해 32 대신 16의 스트라이드를 갖게 된다. 본 발명의 일부 실시예들에 있어서, P3 피라미드층, 또는 {P3, P2}의 두 피라미드층(도 6b에 도시), 또는 {P3, P2, P1}의 모든 피라미드층을 구성하는데 특징 피라미드망 기술이 더 적용된다. 이 계층들은 FCIS의 특징 맵보다 더욱 작은 스트라이드(예: 8, 4 및 2)를 갖는다. 일부 실시예들에 있어서, 컨볼루션층들은 고해상도 점수 맵을 획득하기 위해, 대신 가장 세밀한(finest) 피라미드층에 배치될 수도 있다. 모든 하이퍼파라미터(hyperparameter)들(예: 가중치 초기화, 특징 맵의 채널 수 등)은 FCIS와 동일하게 유지된다.
[0002] 또한, 영역 제안망은 서로 다른 스케일로 특징 피라미드망 특징들을 이용할 수 있지만, 일부 실시예들에서는, 연산을 단순화하기 위해 가장 세밀한 피라미드층에 대해서만 오직 점수 맵 연산(ROI 풀링과 유사함)만이 수행되며, 영역 제안망의 입력은 변경되지 않는다.
다양한 실시예들에 있어서, 특징 피라미드층들은 상이한 방식으로 사용될 수 있다. 한가지 방식은 도 4(b)에 도시된 바와 같이 가장 세밀한 계층만을 사용하는 것이고, 이 방식에서는 P2만이 사용된다. 다른 방식은 객체 크기 또는 검출 크기를 기반으로 특정 계층을 선택적으로 사용하는 것이다. 다른 실시예에 있어서, 모든 피라미드층들의 헤드가 적용된다(예를 들어, P2 및 P3가 모두 사용된 도 4(c) 참조). 헤드들은 동일한 가중치를 공유하고, 각 특징 피라미드층을 입력으로 하여 상이한 크기의 점수 맵들을 출력으로 생성한다. 마스크 순환 컨볼루션 신경망(Mask-RCNN) 또는 FCIS의 풀링층들은 고정된 크기의 점수 맵 또는 특징 맵(예: 21x21)들을 생성하고, 상이한 크기의 모든 출력 맵에 적용되어 각각의 관심영역 및 각각의 스케일에 대해 하나의 고정된 크기의 맵을 획득할 수 있다. 본 시스템은 평균 감축방식 또는 최대 감축방식을 적용하여 각각의 관심영역에 대한 한 세트의 맵을 획득함으로써 상이한 스케일들을 결합하며, 이는 마치 단일 피라미드 스케일에서 획득된 것과 같은 동일한 차원을 가질 것이다. 이어서, 나머지 파이프라인, 예컨대, 소프트맥스(softmax) 및 손실층이나 후속 컨볼루션층이 적용된다.
도 7은 본 발명의 다양한 실시예들에 따른 서로 다른 레벨의 특징 피라미드망 특징들을 이용한 결과들의 예시도이다. 보다 구체적으로, 각 행은 4개의 상이한 시맨틱 분리 시스템에서 검출된 경계박스들의 출력을 나타낸다. 즉, 기준 시스템("원본 특징 맵"으로 표시) 및 다른 피라미드층을 이용하는 시스템들("FPN P1", "FPN P2" 및 "FPN P3"로 표시)이 사용된다. 도 7을 참조하면, FPN P2는 FCIS만을 포함하는 기준 시스템(예: "원본 특징 맵"에 도시된 것)보다 더 정확한 결과를 제공할 뿐만 아니라, FPN P3 및 FPN P1에 의해 생성된 것보다 더 정확한 결과를 제공한다. 예를 들어, 원본 특징 맵, FPN P3, 및 FPN P1의 각각의 출력(7000, 7003, 7001)에서, 전경의 의자를 포함하는 윤곽이 뒤쪽 배경에 있는 의자를 포함하여 전경의 의자 좌측부까지 확장된다. 반면, FPN P2의 출력(7002)은 전경 의자 및 배경 의자를 각각의 검출한 결과를 나타낸다(각각 갈색과 청록색으로 표시). 이미지들(7100, 7103, 7102, 7101)은 다른 입력 이미지에 대한 기준 시스템, FPN P3, FPN P2, FPN P1 각각의 출력을 도시한다. 7100에 도시된 바와 같이, 기준 시스템은 이미지에서 하나의 의자만을 검출하는 반면, FPN P3, FPN P2, FPN P1은 7103, 7102 및 7101에 도시된 바와 같이 모두 2개의 의자를 개별적으로 검출한다.
다양한 요소들, 구성들, 영역들, 계층들 및/또는 섹션들을 설명하기 위해 "제1", "제2" "제3" 등의 용어가 본 명세서에서 사용될 수 있으나, 이러한 요소들, 구성들, 영역들, 계층들 및/또는 섹션들이 이러한 용어에 의해 제한되어서는 안 된다. 이러한 용어는 하나의 요소, 구성, 영역, 계층 또는 섹션을 다른 요소, 구성, 영역, 계층 또는 섹션과 구분하기 위해 사용된다. 그러므로, 본 명세서에 설명된 제1 요소, 구성, 영역, 계층 또는 섹션은 본 발명의 범위를 벗어나지 않고 제2 요소, 구성, 영역, 계층 또는 섹션으로 지칭될 수 있다.
본 명세서에서 사용된 전문용어는 특정 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것이 아니다. 본 명세서에 사용된 바와 같이 단수 형태 용어는 문맥상 명백히 다르게 지시하지 않는 한 복수 형태 용어 또한 포함한다. 본 명세서에서 사용된 "포함한다" 및 "포함하는"과 같은 용어들은 언급된 특징들, 숫자들, 단계들, 동작들, 요소들 및/또는 구성들의 존재를 명시하지만, 하나 이상의 다른 특징들, 숫자들, 단계들, 동작들, 요소들 및/또는 이들의 조합의 존재 또는 부가를 배제하는 것이 아니다. 본 명세서에 사용된 바와 같이 "및/또는"이라는 용어는 관련된 하나 이상의 나열항목의 임의의 조합 및 모든 조합을 포함한다. 구성요소들의 나열에 선행하는 "적어도 하나"와 같은 표현들은 구성요소들의 목록 전체를 수식하는 것이고 목록의 개별 구성요소들을 수식하는 것이 아니다.
본 명세서에서 사용된 바와 같이 "실질적으로", "약" 및 이와 유사한 용어들은 근사를 나타내는 용어로 사용되는 것이고, 정도를 나타내는 용어로 사용되는 것이 아니며, 본 발명이 속한 기술분야의 통상의 기술자들에 의해 인식될 측정값 또는 계산값에 내재된 편차를 설명하기 위한 것이다. 또한, 본 발명의 실시예들을 설명할 때 사용된 "할 수 있다"라는 표현은 "본 발명의 하나 이상의 실시예들"을 지칭한다. 본 명세서에서 사용된 바와 같이 "사용한다", "사용하는" 및 "사용되는"이라는 표현들은 "활용한다", "활용하는" 및 "활용되는"이라는 용어들과 같은 의미로 간주될 수 있다. 또한, "예시적인"이라는 용어는 예시 또는 일례를 지칭한다.
본 명세서에서 설명되는 본 발명의 실시예들에 따르면, 전자/전기 장치들 및/또는 임의의 다른 관련 장치들이나 구성들은 임의의 적절한 하드웨어(예: 범용 중앙처리장치 및/또는 주문형 집적회로), 펌웨어(예: 필드 프로그램가능 게이트 어레이), 소프트웨어(예: 범용 중앙처리장치 및/또는 그래픽 처리 장치나 벡터 프로세서와 같은 보다 특수화된 처리장치에 의해 실행되는 기계 판독가능 명령어들), 또는 소프트웨어, 펌웨어 및 하드웨어의 조합을 이용하여 구현될 수 있다. 예를 들어, 이러한 장치들의 다양한 구성요소들은 하나의 집적회로 칩 또는 개별 집적회로 칩들 상에 형성될 수 있다. 또한, 이러한 장치들의 다양한 구성요소들은 연성 인쇄회로 필름(Flexible Printed Circuit Film), 테이프 캐리어 패키지(TCP: Tape Carrier Package), 인쇄회로기판(PCB: Printed Circuit Board) 상에 구현되거나, 하나의 기판(substrate) 상에 형성될 수 있다. 또한, 이러한 장치들의 다양한 구성요소들은 하나 이상의 컴퓨팅 장치들의 하나 이상의 프로세서에서 실행되고, 컴퓨터 프로그램 명령(어)들을 실행하며, 본 명세서에 기재된 다양한 기능들을 수행하기 위한 다른 시스템 구성요소들과 상호작용하는, 프로세스 또는 스레드(thread)일 수 있다. 컴퓨터 프로그램 명령(어)들은 메모리에 저장되며, 메모리는 예컨대, 랜덤 액세스 메모리(RAM: Random Access Memory)와 같은 표준 메모리 장치를 사용하는 컴퓨팅 장치에 구현될 수 있다. 컴퓨터 프로그램 명령(어)들은 예컨대, CD-ROM, 플래시 드라이브 등과 같은 비-일시적인 컴퓨터 판독매체에 저장될 수도 있다. 또한, 본 발명이 속한 기술분야의 통상의 기술자는 본 발명의 예시적인 실시예들의 범위에서 벗어나지 않고, 다양한 컴퓨팅 장치들의 기능이 단일 컴퓨팅 장치로 결합 또는 통합될 수 있거나, 또는 특정 컴퓨팅 장치의 기능이 하나 이상의 다른 컴퓨팅 장치에 분산될 수 있다는 것을 인식할 것이다.
일반적으로, 심층 신경망은 여러 계층들에 배치된 복수의 뉴런들을 포함한다. 입력 데이터(예: 본 실시예의 경우, 입력 이미지)는 뉴런들의 입력층에 제공되고, 출력층은 출력 뉴런들의 계층에 생성된다. 심층 신경망의 경우, 뉴런들의 2 이상의 "은닉층"은 입력층과 출력층 사이에 존재하며, 일반적으로 어느 한 계층의 뉴런들은 이전 계층으로부터 입력을 수신하고, 다음 계층에 그들의 출력을 제공하며, 각 뉴런은 수신한 입력들의 합의 수학 함수(예: 로지스틱 함수)인 출력을 생성한다.
계층의 뉴런들 사이의 연결은 가중치와 연관되어 있으며, 각 연결은 송신 뉴런과 수신 뉴런 사이에서 이루어진다. 연결을 따라 전송된 값들은 수신 뉴런에 공급되기 전에 해당 연결의 가중치에 의해 조정(scaled)된다.
일반적으로, 신경망을 학습시키는 프로세스는 신경망에 훈련 데이터를 제공하는 과정과, 신경망이 입력 이미지의 예시들로부터 목표 출력과 정합하거나 근사한 출력을 생성할 때까지 신경망의 가중치들을 업데이트하는 과정을 수반한다. 신경망 학습 방법들에는 예컨대, 역전파(backpropagation) 알고리즘이 포함된다.
신경망의 학습은 전술한 바와 같이 범용 컴퓨터 시스템 상에서 수행될 수 있다. 또한, 학습 프로세스가 빈번하게 병렬화될 수 있기 때문에, 그래픽 처리장치와 같은 벡터 프로세서 및/또는 범용 컴퓨터 시스템의 벡터 연산(예: 단일 명령 다중 데이터(SIMD: Single Instruction Multiple Data) 처리 명령)도 신경망 학습에 이용될 수 있다. 경우에 따라서는, FPGAs(Field Programmable Gate Arrays)와 같은 프로그램가능 하드웨어 또는 ASICs와 같은 전용 하드웨어가 신경망 학습에 이용될 수 있다. 학습 프로세스 결과에는 신경망의 여러 계층들 간의 연결들에 대한 일련의 가중치들이 포함된다.
학습된 신경망을 작동시킬 때, 일반적으로 연결들의 가중치들은 학습 프로세스 동안 계산된 값으로 고정된다. 입력 데이터(예: 입력 이미지)가 뉴런들의 입력층에 제공되면, 연산을 수행하여 학습된 가중치들을 출력들에 곱하고, 최종 출력들을 뉴런들의 다음 계층들로 전달한다(이러한 프로세스는 순전파(forward propagation)로 지칭될 수 있음).
일반적으로 연결들의 가중치들은 고정되어 있으므로, 생성 시스템(production system)에 배치된 신경망은 대체로 학습된 값들로 미리 설정된 가중치들을 가질 것이다. 이로써, 임베디드 시스템에 배치된 학습된 신경망은 일반적으로 신경망의 가중치들을 고정시킬 수 있고(예: 메모리에 저장됨), FGGA에 배치된 학습된 신경망은 가중치들을 설정할 수 있다(예: 뉴런들을 나타내는 구성요소들 간의 연결들에 프로그래밍됨). 이와 유사하게, ASIC는 예컨대, 회로소자들(예: 가중치에 따른 저항값을 갖는 저항기)을 이용하여 가중치들을 설정하는 뉴로모픽(neuromorphic) 하드웨어를 이용하여 신경망을 구현할 수 있다.
달리 정의하지 않는 한, 본 명세서에서 사용되는 모든 용어들(기술용어 및 과학용어 포함)은 본 발명이 속하는 기술분야의 통상의 기술자에 의해 일반적으로 이해되는 바와 동일한 의미를 갖는다. 또한, 일반적으로 사용되는 사전들에 정의된 것과 같은 용어들은 관련기술 및/또는 본 명세서의 문맥상의 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백히 정의하지 않는 한 이상적이거나 지나치게 형식적인 의미로 해석되어서는 안 된다.
본 발명의 특정 실시예들이 도시되고 설명되었지만, 첨부된 청구범위에 의해 정의된 본 발명의 범위 및 그 균등범위에서 벗어나지 않고, 설명된 실시예들에 대해 소정의 변형 및 변경이 이루어질 수 있음은 통상의 기술자들에게 당연하다.

Claims (26)

  1. 입력 이미지에서 객체들의 인스턴스(instance)들을 검출하는 방법에 있어서,
    상기 입력 이미지로부터 복수의 코어 인스턴스 특징들을 추출하는 과정;
    상기 코어 인스턴스 특징들로부터 다중스케일 해상도로 복수의 특징 맵(feature map)들을 계산하는 과정;
    상기 입력 이미지에서 검출된 객체에 대응하는 복수의 검출박스들을 상기 코어 인스턴스 특징들로부터 계산하는 과정;
    상기 특징 맵들의 상기 다중스케일 해상도로 상기 검출박스들 각각에 대한 복수의 분리 마스크(segmentation mask)들을 계산하는 과정;
    상기 다중스케일 해상도의 상기 복수의 분리 마스크들을 병합하여 상기 입력 이미지에서 검출된 각각의 객체에 대해, 신뢰도 점수와 관련된 인스턴스 마스크를 생성하는 과정;
    보조 망(network)들이 픽셀레벨 메트릭(metric)들을 계산함으로써 상기 인스턴스 마스크들의 상기 신뢰도 점수를 조정(refine)하는 과정; 및
    상기 인스턴스 마스크들을 상기 입력 이미지에서 검출된 상기 객체들의 인스턴스들로 출력하는 과정을 포함하는 방법.
  2. 제1항에 있어서,
    상기 복수의 코어 인스턴스 특징들은,
    상기 입력 이미지를 풀리 컨볼루션 인스턴스 시맨틱 분리망(Fully Convolutional Instance Semantic Segmentation Network)에 제공함으로써 추출되는 방법.
  3. 제2항에 있어서,
    상기 다중스케일 해상도의 상기 특징 맵들은,
    상기 코어 인스턴스 특징들을 특징 피라미드망(Feature Pyramid Network)에 제공함으로써 계산되는 방법.
  4. 제3항에 있어서,
    상기 특징 피라미드망은,
    상기 풀리 컨볼루션 인스턴스 시맨틱 분리망으로부터 상기 코어 인스턴스 특징들을 업샘플링(upsampling)하고;
    컨볼루션 커널(kernel)을 이전의 특징 맵에 적용하여 컨볼루션된 이전의 특징 맵을 생성하며; 그리고
    상기 업샘플링된 코어 인스턴스 특징들 및 상기 컨볼루션된 이전의 특징 맵을 결합하여 특징 맵을 생성함으로써,
    상기 복수의 특징 맵들의 특징 맵을 생성하는 방법.
  5. 제4항에 있어서,
    상기 특징 피라미드망은,
    최근접(nearest neighbor) 기법을 이용하여 상기 코어 인스턴스 특징들을 업샘플링하는 방법.
  6. 제4항에 있어서,
    상기 특징 피라미드망은,
    디컨볼루션층(deconvolutional layer) 및 보간 컨볼루션 커널(interpolation convolutional kernel)을 이용하여 상기 코어 인스턴스 특징들을 업샘플링하는 방법.
  7. 제1항에 있어서,
    상기 다중스케일 해상도의 상기 복수의 분리 마스크들을 병합하여 상기 인스턴스 마스크를 생성하는 과정은,
    IoS(Intersection over Self) 메트릭을 계산하는 과정; 및
    상기 IoS 메트릭이 임계값을 초과하는 인스턴스들을 제거하는 과정을 포함하는 방법.
  8. 제1항에 있어서,
    상기 검출박스들은,
    상기 코어 인스턴스 특징들을 영역 제안망(Region Proposal Network)에 제공함으로써 계산되는 방법.
  9. 제1항에 있어서,
    상기 입력 이미지의 각 픽셀에 대해, 상기 픽셀이 속하는 상기 인스턴스의 경계박스 위치를 지정하는 소속 경계박스를 계산하는 과정;
    상기 입력 이미지의 각 픽셀에 대해 복수의 밀도 메트릭들을 계산하는 과정; 및
    상기 밀도 메트릭들에 따라 상기 인스턴스 마스크들을 필터링하여 상기 인스턴스 마스크들 및 상기 밀도 메트릭들로부터 계산된 차분 마스크 불일치도를 최소화하는 과정을 더 포함하는 방법.
  10. 제9항에 있어서,
    상기 입력 이미지의 각 픽셀에 대해 상기 소속 경계박스를 계산하는 과정은,
    상기 픽셀의 상기 소속 경계박스를 나타내는 벡터로서 최상단 픽셀, 최하단 픽셀, 최좌측 픽셀 및 최우측 픽셀을 포함하는 4-특징 벡터를 계산하는 과정을 포함하는 방법.
  11. 제9항에 있어서,
    상기 인스턴스 마스크들의 상기 신뢰도 점수를 조정하는 과정은,
    상기 이미지에서 검출된 상기 객체에 대한 소속 경계박스들로부터 평균 경계박스를 계산하는 과정;
    상기 인스턴스 마스크 및 상기 평균 경계박스 간의 IoU(Intersection over Union) 메트릭을 계산하는 과정; 및
    상기 IoU 메트릭에 기반하여 상기 인스턴스 마스크의 상기 신뢰도 점수를 스케일링하는 과정을 포함하는 방법.
  12. 제9항에 있어서,
    상기 밀도 메트릭들에 따라 상기 인스턴스 마스크들을 필터링하여 상기 차분 마스크 불일치도를 최소화하는 과정은,
    상기 이미지의 각 픽셀에 대해 픽셀 밀도 불일치도를 계산하는 과정;
    상기 인스턴스 마스크 각각에 대해 차분 마스크 불일치도를 계산하는 과정; 및
    잔존하는 마스크들의 집합에 대한 상기 차분 마스크 불일치도를 최소화하는 과정을 포함하는 방법.
  13. 제12항에 어서,
    상기 잔존하는 마스크들의 집합에 대한 상기 차분 마스크 불일치도는,
    그리디 검색법(greedy search)을 이용하여 상기 차분 마스크 불일치도가 최소화될 때까지 더 큰 차분 마스크 불일치도를 갖는 상기 인스턴스 마스크의 잔존 상태를 반복적으로 토글링하여 상기 잔존하는 마스크들의 집합을 갱신함으로써 최소화되는 방법.
  14. 입력 이미지에서 객체들의 인스턴스(instance)들을 검출하는 시스템에 있어서,
    상기 입력 이미지로부터 복수의 코어 인스턴스 특징들을 생성하는 코어 인스턴스 특징 추출망;
    상기 코어 인스턴스 특징들로부터 다중스케일 해상도로 복수의 특징 맵(feature map)들을 계산하는 다중스케일 해상도 특징 맵 계산부;
    상기 코어 인스턴스 특징들로부터 상기 이미지에서 검출된 객체에 대응하는 복수의 검출박스들을 계산하는 검출박스 계산부;
    상기 특징 맵들의 상기 다중스케일 해상도로 상기 검출박스들 각각에 대한 복수의 분리 마스크(segmentation mask)들을 계산하는 분리 마스크 예측망;
    상기 다중스케일 해상도의 상기 복수의 분리 마스크들을 병합하여 상기 입력 이미지에서 검출된 각각의 객체에 대해, 신뢰도 점수와 관련된 인스턴스 마스크를 생성하는 피라미드 분리망;
    픽셀레벨 메트릭(metric)들을 계산함으로써 상기 인스턴스 마스크들의 상기 신뢰도 점수를 조정(refine)하는 영역 제안망(Region Proposal Network) 기반 점수 조정 모듈; 및
    상기 인스턴스 마스크들을 상기 입력 이미지에서 검출된 상기 객체들의 인스턴스들로 출력하는 출력 모듈을 포함하는 시스템.
  15. 제14항에 있어서,
    상기 코어 인스턴스 특징 추출망은,
    풀리 컨볼루션 인스턴스 시맨틱 분리망(Fully Convolutional Instance Semantic Segmentation Network)을 포함하는 시스템.
  16. 제15항에 있어서,
    상기 다중스케일 해상도 특징 맵 계산부는,
    특징 피라미드망(Feature Pyramid Network)을 포함하는 시스템.
  17. 제16항에 있어서,
    상기 특징 피라미드망은,
    상기 풀리 컨볼루션 인스턴스 시맨틱 분리망으로부터 상기 코어 인스턴스 특징들을 업샘플링(upsampling)하고;
    컨볼루션 커널(kernel)을 이전의 특징 맵에 적용하여 컨볼루션된 이전의 특징 맵을 생성하며; 그리고
    상기 업샘플링된 코어 인스턴스 특징들 및 상기 컨볼루션된 이전의 특징 맵을 결합하여 특징 맵을 생성함으로써,
    상기 복수의 특징 맵들의 특징 맵을 생성하는 시스템.
  18. 제17항에 있어서,
    상기 특징 피라미드망은,
    최근접(nearest neighbor) 기법을 이용하여 상기 코어 인스턴스 특징들을 업샘플링하는 시스템.
  19. 제17항에 있어서,
    상기 특징 피라미드망은,
    디컨볼루션층(deconvolutional layer) 및 보간 컨볼루션 커널(interpolation convolutional kernel)을 이용하여 상기 코어 인스턴스 특징들을 업샘플링하는 시스템.
  20. 제14항에 있어서,
    상기 피라미드 분리망은,
    IoS(Intersection over Self) 메트릭을 계산하고 상기 IoS 메트릭이 임계값을 초과하는 인스턴스들을 제거함으로써, 상기 다중스케일 해상도의 상기 복수의 분리 마스크들을 병합하여 상기 인스턴스 마스크를 생성하는 시스템
  21. 제14항에 있어서,
    상기 검출박스 계산부는,
    영역 제안망(Region Proposal Network: RPN)을 포함하는 시스템.
  22. 제14항에 있어서,
    상기 입력 이미지의 각 픽셀에 대해, 상기 픽셀이 속하는 상기 인스턴스의 경계박스 위치를 지정하는 소속 경계박스를 계산하는 소속 경계박스 예측망;
    상기 입력 이미지의 각 픽셀에 대해 복수의 밀도 메트릭들을 계산하는 밀도 예측망; 및
    상기 밀도 메트릭들에 따라 상기 인스턴스 마스크들을 필터링하여 상기 인스턴스 마스크들 및 상기 밀도 메트릭들로부터 계산된 차분 마스크 불일치도를 최소화하는 밀도 기반 필터링 모듈을 더 포함하는 시스템.
  23. 제22항에 있어서,
    상기 소속 경계박스 예측망은,
    상기 픽셀의 상기 소속 경계박스를 나타내는 벡터로서 최상단 픽셀, 최하단 픽셀, 최좌측 픽셀, 최우측 픽셀을 포함하는 4-특징 벡터를 계산함으로써 상기 입력 이미지의 각 픽셀에 대해 상기 소속 경계박스를 계산하는 시스템.
  24. 제22항에 있어서,
    상기 영역 제안망 기반 점수 조정 모듈은,
    상기 이미지에서 검출된 상기 객체에 대한 소속 경계박스들로부터 평균 경계박스를 계산하고;
    상기 인스턴스 마스크 및 상기 평균 경계박스 간의 IoU(Intersection over Union) 메트릭을 계산하며; 그리고
    상기 IoU 메트릭에 기반하여 상기 인스턴스 마스크의 상기 신뢰도 점수를 스케일링함으로써, 상기 인스턴스 마스크들의 상기 신뢰도 점수를 조정하는 시스템.
  25. 제22항에 있어서,
    상기 밀도 기반 필터링 모듈은,
    상기 이미지의 각 픽셀에 대해 픽셀 밀도 불일치도를 계산하고;
    상기 인스턴스 마스크 각각에 대해 차분 마스크 불일치도를 계산하며; 그리고
    잔존하는 마스크들의 집합에 대한 상기 차분 마스크 불일치도를 최소화함으로써, 상기 밀도 메트릭들에 따라 상기 인스턴스 마스크들을 필터링하는 시스템.
  26. 제25항에 있어서,
    상기 잔존하는 마스크들의 집합에 대한 상기 차분 마스크 불일치도는,
    그리디 검색법(greedy search)을 이용하여 상기 차분 마스크 불일치도가 최소화될 때까지 더 큰 차분 마스크 불일치도를 갖는 상기 인스턴스 마스크의 잔존 상태를 반복적으로 토글링하여 상기 잔존하는 마스크들의 집합을 갱신함으로써 최소화되는 시스템.
KR1020180057659A 2017-08-18 2018-05-21 이미지의 시맨틱 분리를 위한 시스템 및 방법 KR102613517B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201762547740P 2017-08-18 2017-08-18
US62/547,740 2017-08-18
US15/862,602 US10679351B2 (en) 2017-08-18 2018-01-04 System and method for semantic segmentation of images
US15/862,602 2018-01-04

Publications (2)

Publication Number Publication Date
KR20190019822A true KR20190019822A (ko) 2019-02-27
KR102613517B1 KR102613517B1 (ko) 2023-12-13

Family

ID=65361247

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180057659A KR102613517B1 (ko) 2017-08-18 2018-05-21 이미지의 시맨틱 분리를 위한 시스템 및 방법

Country Status (3)

Country Link
US (1) US10679351B2 (ko)
KR (1) KR102613517B1 (ko)
CN (1) CN109409371B (ko)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102073873B1 (ko) * 2019-03-22 2020-02-05 주식회사 루닛 시맨틱 세그먼테이션 방법 및 그 장치
KR20200105004A (ko) * 2019-02-28 2020-09-07 현대모비스 주식회사 자동 영상 합성 장치 및 방법
KR20200112646A (ko) * 2020-01-30 2020-10-05 주식회사 루닛 시맨틱 세그먼테이션 방법 및 그 장치
KR102167835B1 (ko) * 2019-05-08 2020-10-20 주식회사 카카오 영상 처리 방법 및 장치
KR102288312B1 (ko) * 2020-02-13 2021-08-10 인하대학교 산학협력단 블랙 아이스를 검출하는 방법 및 장치
KR20210112992A (ko) * 2020-03-06 2021-09-15 주식회사 테스트웍스 다각형 기반의 객체 인식 성능 보정 장치 및 방법
KR20210143401A (ko) * 2020-05-20 2021-11-29 한국전자통신연구원 객체 검출 시스템 및 방법
KR20220020161A (ko) 2020-08-11 2022-02-18 재단법인대구경북과학기술원 불확실성 인지 기반의 객체 검출 방법, 이를 이용한 전자 장치 및 차량에 탑재된 시스템
WO2022097829A1 (ko) * 2020-11-06 2022-05-12 국민대학교산학협력단 종단간 지연을 최소화하기 위한 객체검출 장치 및 방법, 그리고 이를 이용한 첨단 운전자 보조장치
KR20220060894A (ko) 2020-11-05 2022-05-12 서울대학교산학협력단 클래스 의존적 도메인 유사화 학습 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2022145769A1 (ko) * 2021-01-04 2022-07-07 오드컨셉 주식회사 이미지 분류를 통한 이미지 퀄리티 연산 방법 및 장치
WO2023058999A1 (ko) * 2021-10-08 2023-04-13 고려대학교 산학협력단 관심객체 검출장치, 방법 및 이를 위한 컴퓨터 판독가능 프로그램

Families Citing this family (166)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10192129B2 (en) 2015-11-18 2019-01-29 Adobe Systems Incorporated Utilizing interactive deep learning to select objects in digital visual media
US11568627B2 (en) 2015-11-18 2023-01-31 Adobe Inc. Utilizing interactive deep learning to select objects in digital visual media
CN108701210B (zh) * 2016-02-02 2021-08-17 北京市商汤科技开发有限公司 用于cnn网络适配和对象在线追踪的方法和系统
WO2019066794A1 (en) * 2017-09-27 2019-04-04 Google Llc END-TO-END NETWORK MODEL FOR HIGH-RESOLUTION IMAGE SEGMENTATION
WO2019154201A1 (zh) * 2018-02-09 2019-08-15 北京市商汤科技开发有限公司 实例分割方法和装置、电子设备、程序和介质
US10671855B2 (en) * 2018-04-10 2020-06-02 Adobe Inc. Video object segmentation by reference-guided mask propagation
CN108830277B (zh) * 2018-04-20 2020-04-21 平安科技(深圳)有限公司 语义分割模型的训练方法、装置、计算机设备和存储介质
US11244195B2 (en) * 2018-05-01 2022-02-08 Adobe Inc. Iteratively applying neural networks to automatically identify pixels of salient objects portrayed in digital images
CN111819580A (zh) * 2018-05-29 2020-10-23 谷歌有限责任公司 用于密集图像预测任务的神经架构搜索
CN110866526A (zh) * 2018-08-28 2020-03-06 北京三星通信技术研究有限公司 图像分割方法、电子设备及计算机可读存储介质
US10475182B1 (en) * 2018-11-14 2019-11-12 Qure.Ai Technologies Private Limited Application of deep learning for medical imaging evaluation
US11562171B2 (en) 2018-12-21 2023-01-24 Osaro Instance segmentation by instance label factorization
US11282208B2 (en) 2018-12-24 2022-03-22 Adobe Inc. Identifying target objects using scale-diverse segmentation neural networks
US10467500B1 (en) * 2018-12-31 2019-11-05 Didi Research America, Llc Method and system for semantic segmentation involving multi-task convolutional neural network
US11080867B2 (en) * 2019-01-03 2021-08-03 United States Of America As Represented By The Secretary Of The Army Motion-constrained, multiple-hypothesis, target- tracking technique
US10346693B1 (en) * 2019-01-22 2019-07-09 StradVision, Inc. Method and device for attention-based lane detection without post-processing by using lane mask and testing method and testing device using the same
US10387752B1 (en) * 2019-01-22 2019-08-20 StradVision, Inc. Learning method and learning device for object detector with hardware optimization based on CNN for detection at distance or military purpose using image concatenation, and testing method and testing device using the same
US10430691B1 (en) * 2019-01-22 2019-10-01 StradVision, Inc. Learning method and learning device for object detector based on CNN, adaptable to customers' requirements such as key performance index, using target object merging network and target region estimating network, and testing method and testing device using the same to be used for multi-camera or surround view monitoring
US10423860B1 (en) * 2019-01-22 2019-09-24 StradVision, Inc. Learning method and learning device for object detector based on CNN to be used for multi-camera or surround view monitoring using image concatenation and target object merging network, and testing method and testing device using the same
US10387754B1 (en) * 2019-01-23 2019-08-20 StradVision, Inc. Learning method and learning device for object detector based on CNN using 1×H convolution to be used for hardware optimization, and testing method and testing device using the same
US10402695B1 (en) * 2019-01-23 2019-09-03 StradVision, Inc. Learning method and learning device for convolutional neural network using 1×H convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same
US10325179B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Learning method and learning device for pooling ROI by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same
US10817777B2 (en) * 2019-01-31 2020-10-27 StradVision, Inc. Learning method and learning device for integrating object detection information acquired through V2V communication from other autonomous vehicle with object detection information generated by present autonomous vehicle, and testing method and testing device using the same
US10453197B1 (en) * 2019-02-18 2019-10-22 Inception Institute of Artificial Intelligence, Ltd. Object counting and instance segmentation using neural network architectures with image-level supervision
CN113490955A (zh) * 2019-02-25 2021-10-08 谷歌有限责任公司 用于产生金字塔层的架构的系统和方法
CN113592004A (zh) * 2019-02-25 2021-11-02 深圳市商汤科技有限公司 分配方法及装置、电子设备和存储介质
ES2943287T3 (es) * 2019-02-26 2023-06-12 Identy Inc Método para verificar la identidad de un usuario identificando un objeto dentro de una imagen que tiene una característica biométrica del usuario y separando una porción de la imagen que comprende la característica biométrica de otras porciones de la imagen
US10915786B2 (en) 2019-02-28 2021-02-09 Sap Se Object detection and candidate filtering system
CN110033003B (zh) * 2019-03-01 2023-12-15 华为技术有限公司 图像分割方法和图像处理装置
CN109902643B (zh) * 2019-03-07 2021-03-16 浙江啄云智能科技有限公司 基于深度学习的智能安检方法、装置、系统及其电子设备
US10872258B2 (en) * 2019-03-15 2020-12-22 Huawei Technologies Co., Ltd. Adaptive image cropping for face recognition
CN109948616B (zh) * 2019-03-26 2021-05-25 北京迈格威科技有限公司 图像检测方法、装置、电子设备及计算机可读存储介质
CN110084234B (zh) * 2019-03-27 2023-04-18 东南大学 一种基于实例分割的声呐图像目标识别方法
CN110084124B (zh) * 2019-03-28 2021-07-09 北京大学 基于特征金字塔网络的特征增强目标检测方法
CN110110599B (zh) * 2019-04-03 2023-05-09 天津大学 一种基于多尺度特征融合的遥感图像目标检测方法
CN110175503A (zh) * 2019-04-04 2019-08-27 财付通支付科技有限公司 长度获取方法、装置、保险理赔系统、介质及电子设备
CN111797846B (zh) * 2019-04-08 2022-06-21 四川大学 一种基于特征金字塔网络的反馈式目标检测方法
CN110032980B (zh) * 2019-04-18 2023-04-25 天津工业大学 一种基于深度学习的器官检测与识别定位方法
CN110070056B (zh) * 2019-04-25 2023-01-10 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质及设备
CN110111340B (zh) * 2019-04-28 2021-05-14 南开大学 基于多路割的弱监督实例分割方法
CN110175525B (zh) * 2019-04-28 2021-01-26 浙江大学 一种耐盐黄秋葵品种快速筛选方法
CN110059769B (zh) * 2019-04-30 2022-11-18 福州大学 用于街景理解的基于像素重排重建的语义分割方法及系统
CN110070091B (zh) * 2019-04-30 2022-05-24 福州大学 用于街景理解的基于动态插值重建的语义分割方法及系统
EP3973445A1 (en) * 2019-05-20 2022-03-30 Flir Commercial Systems, Inc. Neural network and classifier selection systems and methods
DE102019207408A1 (de) * 2019-05-21 2020-11-26 Robert Bosch Gmbh Verfahren und Vorrichtung zum Betreiben eines neuronalen Netzes
CN110119728B (zh) * 2019-05-23 2023-12-05 哈尔滨工业大学 基于多尺度融合语义分割网络的遥感图像云检测方法
CN110222636B (zh) * 2019-05-31 2023-04-07 中国民航大学 基于背景抑制的行人属性识别方法
CN110298262B (zh) * 2019-06-06 2024-01-02 华为技术有限公司 物体识别方法及装置
SG10201905273VA (en) * 2019-06-10 2019-08-27 Alibaba Group Holding Ltd Method and system for evaluating an object detection model
US11048948B2 (en) * 2019-06-10 2021-06-29 City University Of Hong Kong System and method for counting objects
CN110211205B (zh) * 2019-06-14 2022-12-13 腾讯科技(深圳)有限公司 图像处理方法、装置、设备和存储介质
CN110222787B (zh) * 2019-06-14 2022-10-14 合肥工业大学 多尺度目标检测方法、装置、计算机设备及存储介质
TWI738009B (zh) * 2019-06-20 2021-09-01 和碩聯合科技股份有限公司 物件偵測系統及物件偵測方法
KR20210000013A (ko) 2019-06-24 2021-01-04 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
CN110516527B (zh) * 2019-07-08 2023-05-23 广东工业大学 一种基于实例分割的视觉slam回环检测改进方法
CN110674807A (zh) * 2019-08-06 2020-01-10 中国科学院信息工程研究所 一种基于半监督与弱监督学习的曲形场景文字检测方法
CN110532955B (zh) * 2019-08-30 2022-03-08 中国科学院宁波材料技术与工程研究所 基于特征注意力和子上采样的实例分割方法和装置
US11906660B2 (en) 2019-08-30 2024-02-20 Nvidia Corporation Object detection and classification using LiDAR range images for autonomous machine applications
CN110705380B (zh) * 2019-09-12 2022-05-24 北京地平线机器人技术研发有限公司 用于实现目标对象属性识别的方法、装置、介质以及设备
CN110825899B (zh) * 2019-09-18 2023-06-20 武汉纺织大学 融合颜色特征和残差网络深度特征的服装图像检索方法
CN110717921B (zh) * 2019-09-26 2022-11-15 哈尔滨工程大学 改进型编码解码结构的全卷积神经网络语义分割方法
CN110705558B (zh) * 2019-09-29 2022-03-08 郑州阿帕斯科技有限公司 图像实例分割方法和装置
CN110992367B (zh) * 2019-10-31 2024-02-02 北京交通大学 对带有遮挡区域的图像进行语义分割的方法
CN111414882B (zh) * 2019-11-07 2023-04-28 天津大学 一种基于多级分辨率平衡网络的红外目标检测方法
CN112785595B (zh) * 2019-11-07 2023-02-28 北京市商汤科技开发有限公司 目标属性检测、神经网络训练及智能行驶方法、装置
US11120280B2 (en) * 2019-11-15 2021-09-14 Argo AI, LLC Geometry-aware instance segmentation in stereo image capture processes
US10984290B1 (en) 2019-11-15 2021-04-20 Zoox, Inc. Multi-task learning for real-time semantic and/or depth aware instance segmentation and/or three-dimensional object bounding
CN111008634B (zh) * 2019-11-22 2023-08-22 北京精英路通科技有限公司 一种基于实例分割的字符识别方法及字符识别装置
US11526967B2 (en) * 2019-11-25 2022-12-13 Samsung Electronics Co., Ltd. System and method for precise image inpainting to remove unwanted content from digital images
CN111027547B (zh) * 2019-12-06 2022-08-09 南京大学 一种针对二维图像中的多尺度多形态目标的自动检测方法
US11891067B2 (en) * 2019-12-11 2024-02-06 Electronics And Telecommunications Research Institute Vehicle control apparatus and operating method thereof
CN111046950B (zh) * 2019-12-11 2023-09-22 北京迈格威科技有限公司 一种图像处理方法、装置、存储介质和电子装置
CN111192279B (zh) * 2020-01-02 2022-09-02 上海交通大学 基于边缘检测的物体分割方法、电子终端及存储介质
CN111210443B (zh) * 2020-01-03 2022-09-13 吉林大学 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
RU2742701C1 (ru) * 2020-06-18 2021-02-09 Самсунг Электроникс Ко., Лтд. Способ интерактивной сегментации объекта на изображении и электронное вычислительное устройство для его реализации
WO2021155033A1 (en) * 2020-01-28 2021-08-05 Embodied Intelligence Inc. Confidence-based segmentation of multiple units
JP7322358B2 (ja) * 2020-01-30 2023-08-08 富士通株式会社 情報処理プログラム、情報処理方法、及び情報処理装置
CN111340813B (zh) * 2020-02-25 2023-09-01 北京字节跳动网络技术有限公司 图像实例分割方法、装置、电子设备及存储介质
US11481862B2 (en) * 2020-02-26 2022-10-25 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for real-time, simultaneous object detection and semantic segmentation
CN111429473B (zh) * 2020-02-27 2023-04-07 西北大学 基于多尺度特征融合的胸片肺野分割模型建立及分割方法
CN113327190A (zh) 2020-02-28 2021-08-31 阿里巴巴集团控股有限公司 图像、数据处理的方法和装置
CN111340907A (zh) * 2020-03-03 2020-06-26 曲阜师范大学 一种自适应属性和实例掩码嵌入图的文本到图像生成方法
CN111091576B (zh) * 2020-03-19 2020-07-28 腾讯科技(深圳)有限公司 图像分割方法、装置、设备及存储介质
CN111415373A (zh) * 2020-03-20 2020-07-14 北京以萨技术股份有限公司 基于孪生卷积网络的目标跟踪与分割方法、系统及介质
CN111415358B (zh) * 2020-03-20 2024-03-12 Oppo广东移动通信有限公司 图像分割方法、装置、电子设备及存储介质
CN111415364B (zh) * 2020-03-29 2024-01-23 中国科学院空天信息创新研究院 一种计算机视觉中图像分割样本的转换方法、系统及存储介质
CN111444973B (zh) * 2020-03-31 2022-05-20 西安交通大学 一种无人零售购物台商品检测方法
US11847771B2 (en) * 2020-05-01 2023-12-19 Samsung Electronics Co., Ltd. Systems and methods for quantitative evaluation of optical map quality and for data augmentation automation
CN111563452B (zh) * 2020-05-06 2023-04-21 南京师范大学镇江创新发展研究院 一种基于实例分割的多人体姿态检测及状态判别方法
CN111598882B (zh) * 2020-05-19 2023-11-24 联想(北京)有限公司 器官检测方法、装置及计算机设备
CN111462128B (zh) * 2020-05-28 2023-12-12 南京大学 一种基于多模态光谱图像的像素级图像分割系统及方法
CN111627029B (zh) * 2020-05-28 2023-06-16 北京字节跳动网络技术有限公司 图像实例分割结果的获取方法及装置
CN111640125B (zh) * 2020-05-29 2022-11-18 广西大学 基于Mask R-CNN的航拍图建筑物检测和分割方法及装置
CN111709328B (zh) * 2020-05-29 2023-08-04 北京百度网讯科技有限公司 车辆跟踪方法、装置及电子设备
CN111797712B (zh) * 2020-06-16 2023-09-15 南京信息工程大学 基于多尺度特征融合网络的遥感影像云与云阴影检测方法
CN111931580A (zh) * 2020-07-09 2020-11-13 陕西师范大学 一种口罩佩戴检测方法
CN111738229B (zh) * 2020-08-05 2020-11-24 江西小马机器人有限公司 一种指针表盘刻度的自动读取方法
US11393100B2 (en) 2020-08-07 2022-07-19 Adobe Inc. Automatically generating a trimap segmentation for a digital image by utilizing a trimap generation neural network
US11335004B2 (en) 2020-08-07 2022-05-17 Adobe Inc. Generating refined segmentation masks based on uncertain pixels
US11651477B2 (en) * 2020-08-07 2023-05-16 Adobe Inc. Generating an image mask for a digital image by utilizing a multi-branch masking pipeline with neural networks
CN112115977B (zh) * 2020-08-24 2024-04-02 重庆大学 基于尺度不变性与特征融合的目标检测算法
CN112232346A (zh) * 2020-09-02 2021-01-15 北京迈格威科技有限公司 语义分割模型训练方法及装置、图像语义分割方法及装置
CN112163499A (zh) * 2020-09-23 2021-01-01 电子科技大学 一种基于融合特征的小目标行人检测方法
CN112085756B (zh) * 2020-09-23 2023-11-07 清华大学苏州汽车研究院(相城) 一种基于残差网络的道路图像多尺度边缘检测模型及方法
CN112053439B (zh) * 2020-09-28 2022-11-25 腾讯科技(深圳)有限公司 图像中实例属性信息确定方法、装置、设备及存储介质
US11694301B2 (en) 2020-09-30 2023-07-04 Alibaba Group Holding Limited Learning model architecture for image data semantic segmentation
CN112215128B (zh) * 2020-10-09 2024-04-05 武汉理工大学 融合fcos的r-cnn城市道路环境识别方法及装置
CN112150462B (zh) * 2020-10-22 2023-12-22 北京百度网讯科技有限公司 确定目标锚点的方法、装置、设备以及存储介质
CN112381835A (zh) * 2020-10-29 2021-02-19 中国农业大学 基于卷积神经网络的作物叶片分割方法及装置
CN112270279B (zh) * 2020-11-02 2022-04-12 重庆邮电大学 一种基于多维的遥感图像微小目标检测方法
CN112308082B (zh) * 2020-11-05 2023-04-07 湖南科技大学 基于双通道卷积核与多帧特征融合动态视频图像分割方法
CN112446300B (zh) * 2020-11-05 2024-01-12 五邑大学 车流密度分析的方法、系统及计算机存储介质
US20220156483A1 (en) * 2020-11-16 2022-05-19 Waymo Llc Efficient three-dimensional object detection from point clouds
US11544828B2 (en) * 2020-11-18 2023-01-03 Disney Enterprises, Inc. Automatic occlusion detection
CN112508027B (zh) * 2020-11-30 2024-03-26 北京百度网讯科技有限公司 用于实例分割的头部模型、实例分割模型、图像分割方法及装置
CN112489060B (zh) * 2020-12-07 2022-05-10 北京医准智能科技有限公司 一种用于肺炎病灶分割的系统及方法
US11748865B2 (en) 2020-12-07 2023-09-05 International Business Machines Corporation Hierarchical image decomposition for defect detection
CN112465800B (zh) * 2020-12-09 2022-07-29 北京航空航天大学 一种使用分类注意力模块校正分类错误的实例分割方法
CN112528913A (zh) * 2020-12-18 2021-03-19 中山艾尚智同信息科技有限公司 一种基于图像的砂石颗粒物粒径检测分析系统
US11676279B2 (en) 2020-12-18 2023-06-13 Adobe Inc. Utilizing a segmentation neural network to process initial object segmentations and object user indicators within a digital image to generate improved object segmentations
CN112989919B (zh) * 2020-12-25 2024-04-19 首都师范大学 一种从影像中提取目标对象的方法及系统
CN114764890A (zh) * 2020-12-30 2022-07-19 富泰华工业(深圳)有限公司 人行通道环境评估方法、装置及电子设备
CN112614136B (zh) * 2020-12-31 2024-05-14 华中光电技术研究所(中国船舶重工集团公司第七一七研究所) 一种红外小目标实时实例分割方法及装置
CN112418202A (zh) * 2021-01-11 2021-02-26 上海恒能泰企业管理有限公司 一种基于MaskRCNN的变电设备异常识别定位方法及系统
US11461880B2 (en) * 2021-01-12 2022-10-04 Adobe Inc. Generating image masks from digital images utilizing color density estimation and deep learning models
CN112863187B (zh) * 2021-01-18 2022-04-15 阿波罗智联(北京)科技有限公司 感知模型的检测方法、电子设备、路侧设备和云控平台
CN112804533B (zh) * 2021-02-08 2022-04-26 上海交通大学 基于分块信息掩膜的hevc视频隐写分析网络方法及系统
US11961314B2 (en) * 2021-02-16 2024-04-16 Nxp B.V. Method for analyzing an output of an object detector
CN113066048A (zh) * 2021-02-27 2021-07-02 华为技术有限公司 一种分割图置信度确定方法及装置
CN112584108B (zh) * 2021-03-01 2021-06-04 杭州科技职业技术学院 用于无人机巡检的线路物理损伤监控方法
CN112949500A (zh) * 2021-03-04 2021-06-11 北京联合大学 一种基于空间特征编码改进的YOLOv3车道线检测方法
CN112861860B (zh) * 2021-03-11 2024-04-19 南京大学 一种基于上下边界提取的自然场景下文字检测方法
US11875510B2 (en) * 2021-03-12 2024-01-16 Adobe Inc. Generating refined segmentations masks via meticulous object segmentation
CN112949635B (zh) * 2021-03-12 2022-09-16 北京理工大学 一种基于特征增强和IoU感知的目标检测方法
CN112686344B (zh) * 2021-03-22 2021-07-02 浙江啄云智能科技有限公司 一种快速过滤背景图片的检测模型及其训练方法
US11620737B2 (en) * 2021-03-22 2023-04-04 Samsung Electronics Co., Ltd. System and method for indoor image inpainting under multimodal structural guidance
US20240104761A1 (en) * 2021-03-30 2024-03-28 Carnegie Mellon University System and Method for Using Non-Axis Aligned Bounding Boxes for Retail Detection
CN112927245B (zh) * 2021-04-12 2022-06-21 华中科技大学 一种基于实例查询的端到端实例分割方法
CN113128386B (zh) * 2021-04-13 2024-02-09 深圳市锐明技术股份有限公司 一种障碍物识别方法、障碍物识别装置及电子设备
CN113096140B (zh) * 2021-04-15 2022-11-22 北京市商汤科技开发有限公司 实例分割方法及装置、电子设备及存储介质
CN113177133B (zh) * 2021-04-23 2024-03-29 深圳依时货拉拉科技有限公司 一种图像检索方法、装置、设备及存储介质
WO2022257254A1 (zh) * 2021-06-10 2022-12-15 腾讯云计算(北京)有限责任公司 图像数据处理方法、装置、设备以及介质
CN113344094A (zh) * 2021-06-21 2021-09-03 梅卡曼德(北京)机器人科技有限公司 图像掩膜生成方法、装置、电子设备和存储介质
CN113537004B (zh) * 2021-07-01 2023-09-01 大连民族大学 图像的双金字塔多元特征提取网络、图像分割方法、系统和介质
CN114067110A (zh) * 2021-07-13 2022-02-18 广东国地规划科技股份有限公司 一种实例分割网络模型的生成方法
CN113642608B (zh) * 2021-07-14 2023-12-01 浙江工商大学 一种基于卷积神经网络的人形靶分割方法
WO2023287276A1 (en) * 2021-07-16 2023-01-19 Petroliam Nasional Berhad (Petronas) Geographic data processing methods and systems for detecting encroachment by objects into a geographic corridor
CN113763326B (zh) * 2021-08-04 2023-11-21 武汉工程大学 一种基于Mask Scoring R-CNN网络的受电弓检测方法
CN113393459A (zh) * 2021-08-09 2021-09-14 旻投电力发展有限公司 基于实例分割的红外图像光伏组件视觉识别方法
CN113695256B (zh) * 2021-08-18 2023-05-23 国网江苏省电力有限公司电力科学研究院 一种电网异物检测识别方法及装置
CN113420839B (zh) * 2021-08-23 2021-11-02 齐鲁工业大学 用于堆叠平面目标物体的半自动标注方法及分割定位系统
CN113837190A (zh) * 2021-08-30 2021-12-24 厦门大学 一种基于Transformer的端到端实例分割方法
CN113723553A (zh) * 2021-09-07 2021-11-30 中国科学院软件研究所 一种基于选择性密集注意力的违禁物品检测方法
US20230084623A1 (en) * 2021-09-10 2023-03-16 Argo AI, LLC Attentional sampling for long range detection in autonomous vehicles
CN114155518A (zh) * 2021-11-08 2022-03-08 西安西光产业发展有限公司 基于深度语义分割网络和图像矫正的高速路遮光板倾斜识别方法
CN114092744B (zh) * 2021-11-26 2024-05-17 山东大学 一种颈动脉超声图像斑块分类检测方法及系统
US11983920B2 (en) * 2021-12-20 2024-05-14 International Business Machines Corporation Unified framework for multigrid neural network architecture
CN114445632A (zh) * 2022-02-08 2022-05-06 支付宝(杭州)信息技术有限公司 图片处理方法及装置
CN114332140B (zh) * 2022-03-16 2022-07-12 北京文安智能技术股份有限公司 一种交通道路场景图像的处理方法
CN115222946B (zh) * 2022-09-19 2022-11-25 南京信息工程大学 一种单阶段实例图像分割方法、装置以及计算机设备
CN115229804B (zh) * 2022-09-21 2023-02-17 荣耀终端有限公司 组件贴合方法和装置
US20240121445A1 (en) * 2022-10-10 2024-04-11 Alibaba Damo (Hangzhou) Technology Co., Ltd. Pre-analysis based image compression methods
US11869212B1 (en) * 2023-02-07 2024-01-09 Deeping Source Inc. Method for training video object detection model using training dataset and learning device using the same
CN116071374B (zh) * 2023-02-28 2023-09-12 华中科技大学 一种车道线实例分割方法及系统
CN116152807B (zh) * 2023-04-14 2023-09-05 广东工业大学 一种基于U-Net网络的工业缺陷语义分割方法及存储介质
CN117635982A (zh) * 2023-12-07 2024-03-01 哈尔滨航天恒星数据系统科技有限公司 一种基于深度学习的面向遥感图像的路网匹配方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130032856A (ko) * 2011-09-23 2013-04-02 광주과학기술원 영상 감시 장치 및 영상 감시 방법
KR20160140394A (ko) * 2015-05-29 2016-12-07 삼성전자주식회사 신경망을 실행하는 방법 및 장치
US20170109625A1 (en) * 2015-10-14 2017-04-20 Microsoft Technology Licensing, Llc System for training networks for semantic segmentation
US20170147905A1 (en) * 2015-11-25 2017-05-25 Baidu Usa Llc Systems and methods for end-to-end object detection

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5640468A (en) * 1994-04-28 1997-06-17 Hsu; Shin-Yi Method for identifying objects and features in an image
JP2008172441A (ja) 2007-01-10 2008-07-24 Omron Corp 検出装置および方法、並びに、プログラム
CN101520894B (zh) * 2009-02-18 2011-03-30 上海大学 基于区域显著性的显著对象提取方法
JP6050223B2 (ja) 2011-11-02 2016-12-21 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 画像認識装置、画像認識方法、及び集積回路
CN102750690B (zh) * 2012-05-29 2014-10-01 武汉大学 一种基于边缘约束的分形网络演化影像分割方法
WO2016037300A1 (en) 2014-09-10 2016-03-17 Xiaoou Tang Method and system for multi-class object detection
JP6639113B2 (ja) 2015-06-05 2020-02-05 キヤノン株式会社 画像認識装置、画像認識方法及びプログラム
WO2016197303A1 (en) 2015-06-08 2016-12-15 Microsoft Technology Licensing, Llc. Image semantic segmentation
US9858496B2 (en) 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
CN105930868B (zh) * 2016-04-20 2019-02-12 北京航空航天大学 一种基于层次化增强学习的低分辨率机场目标检测方法
CN106372577A (zh) 2016-08-23 2017-02-01 北京航空航天大学 一种基于深度学习的交通标志自动识别与标注方法
CN106780536A (zh) * 2017-01-13 2017-05-31 深圳市唯特视科技有限公司 一种基于对象掩码网络的形状感知实例分割方法
US10635927B2 (en) * 2017-03-06 2020-04-28 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130032856A (ko) * 2011-09-23 2013-04-02 광주과학기술원 영상 감시 장치 및 영상 감시 방법
KR20160140394A (ko) * 2015-05-29 2016-12-07 삼성전자주식회사 신경망을 실행하는 방법 및 장치
US20170109625A1 (en) * 2015-10-14 2017-04-20 Microsoft Technology Licensing, Llc System for training networks for semantic segmentation
US20170147905A1 (en) * 2015-11-25 2017-05-25 Baidu Usa Llc Systems and methods for end-to-end object detection

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200105004A (ko) * 2019-02-28 2020-09-07 현대모비스 주식회사 자동 영상 합성 장치 및 방법
KR102073873B1 (ko) * 2019-03-22 2020-02-05 주식회사 루닛 시맨틱 세그먼테이션 방법 및 그 장치
US10672129B1 (en) 2019-03-22 2020-06-02 Lunit Inc. Method for semantic segmentation and apparatus thereof
KR102167835B1 (ko) * 2019-05-08 2020-10-20 주식회사 카카오 영상 처리 방법 및 장치
KR20200112646A (ko) * 2020-01-30 2020-10-05 주식회사 루닛 시맨틱 세그먼테이션 방법 및 그 장치
KR102288312B1 (ko) * 2020-02-13 2021-08-10 인하대학교 산학협력단 블랙 아이스를 검출하는 방법 및 장치
KR20210112992A (ko) * 2020-03-06 2021-09-15 주식회사 테스트웍스 다각형 기반의 객체 인식 성능 보정 장치 및 방법
KR20210143401A (ko) * 2020-05-20 2021-11-29 한국전자통신연구원 객체 검출 시스템 및 방법
KR20220020161A (ko) 2020-08-11 2022-02-18 재단법인대구경북과학기술원 불확실성 인지 기반의 객체 검출 방법, 이를 이용한 전자 장치 및 차량에 탑재된 시스템
KR20220060894A (ko) 2020-11-05 2022-05-12 서울대학교산학협력단 클래스 의존적 도메인 유사화 학습 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2022097829A1 (ko) * 2020-11-06 2022-05-12 국민대학교산학협력단 종단간 지연을 최소화하기 위한 객체검출 장치 및 방법, 그리고 이를 이용한 첨단 운전자 보조장치
WO2022145769A1 (ko) * 2021-01-04 2022-07-07 오드컨셉 주식회사 이미지 분류를 통한 이미지 퀄리티 연산 방법 및 장치
WO2023058999A1 (ko) * 2021-10-08 2023-04-13 고려대학교 산학협력단 관심객체 검출장치, 방법 및 이를 위한 컴퓨터 판독가능 프로그램

Also Published As

Publication number Publication date
US10679351B2 (en) 2020-06-09
US20190057507A1 (en) 2019-02-21
CN109409371B (zh) 2023-04-14
CN109409371A (zh) 2019-03-01
KR102613517B1 (ko) 2023-12-13

Similar Documents

Publication Publication Date Title
KR102613517B1 (ko) 이미지의 시맨틱 분리를 위한 시스템 및 방법
CN112232349B (zh) 模型训练方法、图像分割方法及装置
Mukhoti et al. Evaluating bayesian deep learning methods for semantic segmentation
AU2017324923B2 (en) Predicting depth from image data using a statistical model
CN109478239B (zh) 检测图像中的对象的方法和对象检测系统
CN111582201A (zh) 一种基于几何注意力感知的车道线检测系统
CN112991413A (zh) 自监督深度估测方法和系统
WO2021018106A1 (zh) 行人检测方法、装置、计算机可读存储介质和芯片
CN107563299B (zh) 一种利用ReCNN融合上下文信息的行人检测方法
JP7215390B2 (ja) 路上障害物検知装置、路上障害物検知方法、及び路上障害物検知プログラム
CN113168520A (zh) 跟踪场景中的对象的方法
CN111368845B (zh) 基于深度学习的特征字典构建及图像分割方法
US11367206B2 (en) Edge-guided ranking loss for monocular depth prediction
Kim et al. AIBM: accurate and instant background modeling for moving object detection
WO2022219402A1 (en) Semantically accurate super-resolution generative adversarial networks
Wang et al. Object counting in video surveillance using multi-scale density map regression
Kryjak et al. Real-time implementation of foreground object detection from a moving camera using the vibe algorithm
Gehrig et al. A real-time multi-cue framework for determining optical flow confidence
JP3716455B2 (ja) 領域抽出方法及び領域抽出装置
US20210279506A1 (en) Systems, methods, and devices for head pose determination
CN115187621A (zh) 融合注意力机制的U-Net医学影像轮廓自动提取网络
JP7316771B2 (ja) 学習装置、パラメータの作成方法、ニューラルネットワーク及びこれを用いた情報処理装置
JP3763279B2 (ja) 物体抽出システム、物体抽出方法および物体抽出プログラム
CN111192306A (zh) 用于视差估计的系统及用于系统的视差估计的方法
CN107563284B (zh) 行人追踪方法及装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right