KR20200087808A - 인스턴스 분할 방법 및 장치, 전자 기기, 프로그램 및 매체 - Google Patents

인스턴스 분할 방법 및 장치, 전자 기기, 프로그램 및 매체 Download PDF

Info

Publication number
KR20200087808A
KR20200087808A KR1020207016941A KR20207016941A KR20200087808A KR 20200087808 A KR20200087808 A KR 20200087808A KR 1020207016941 A KR1020207016941 A KR 1020207016941A KR 20207016941 A KR20207016941 A KR 20207016941A KR 20200087808 A KR20200087808 A KR 20200087808A
Authority
KR
South Korea
Prior art keywords
feature
instance
network
fusion
layer
Prior art date
Application number
KR1020207016941A
Other languages
English (en)
Other versions
KR102438095B1 (ko
Inventor
슈 리우
루 퀴
하이팡 퀸
지안핑 쉬
지아야 지아
Original Assignee
베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201810136371.0A external-priority patent/CN108335305B/zh
Priority claimed from CN201810137044.7A external-priority patent/CN108460411B/zh
Application filed by 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 filed Critical 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Publication of KR20200087808A publication Critical patent/KR20200087808A/ko
Application granted granted Critical
Publication of KR102438095B1 publication Critical patent/KR102438095B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • G06K9/46
    • G06K9/6219
    • G06K9/6232
    • G06K9/629
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 실시예는 인스턴스 분할 방법 및 장치, 전자 기기, 프로그램 및 매체를 개시하였고, 여기서, 상기 인스턴스 분할 방법은, 뉴럴 네트워크를 통해 이미지에 대해 특징 추출을 수행하여, 적어도 두 개의 상이한 계층의 특징을 출력하는 단계; 상기 적어도 두 개의 상이한 계층의 특징으로부터 이미지에서의 적어도 하나의 인스턴스 후보 영역에 대응하는 영역 특징을 추출하고, 동일한 인스턴스 후보 영역에 대응하는 영역 특징에 대해 융합을 수행하여, 각 인스턴스 후보 영역의 제1 융합 특징을 획득하는 단계; 및 각 제1 융합 특징에 기반하여 인스턴스 분할을 수행하여, 상응한 인스턴스 후보 영역의 인스턴스 분할 결과 및 이미지의 인스턴스 분할 결과 중 적어도 하나를 획득하는 단계를 포함한다. 본 발명의 실시예는 딥 러닝 프레임 워크에 기반한 인스턴스 분할을 해결하는 문제를 설계하여, 보다 정확한 인스턴스 분할 결과를 획득할 수 있다.

Description

인스턴스 분할 방법 및 장치, 전자 기기, 프로그램 및 매체
본 발명은 2018년 02월 09일에 중국 특허청에 제출한 출원 번호가 CN2018101370447이고, 발명의 명칭이 “인스턴스 분할 방법 및 장치, 전자 기기, 프로그램 및 매체”인 중국 특허 출원, 및 2018년 02월 29일에 중국 특허청에 제출한 출원 번호가 CN2018101363710이고, 발명의 명칭이 “이미지 분할 방법 및 장치, 전자 기기, 프로그램 및 매체”인 중국 특허 출원의 우선권을 주장하며, 그 전부 내용은 인용을 통해 본 출원에 결합된다.
본 발명은 컴퓨터 시각 기술에 관한 것으로, 특히, 인스턴스 분할 방법 및 장치, 전자 기기, 프로그램 및 매체에 관한 것이다.
인스턴스 분할은 컴퓨터 비전 분야에서 매우 중요한 방향으로, 이 작업은 시맨틱 분할 및 물체 검출의 특징을 결합한 것으로, 입력 이미지에서의 각 물체에 대해, 독립적인 픽셀 레벨의 마스크(mask)를 각각 생성하고, 이에 대응하는 클래스를 예측한다. 인스턴스 분할은 자율 주행, 홈 로봇 등 분야에서 매우 광범위한 응용을 가지고 있다.
본 실시예는 인스턴스 분할 방안을 제공한다.
본 발명의 실시예의 일 측면에 따르면, 인스턴스 분할 방법을 제공하며, 상기 인스턴스 분할 방법은,
뉴럴 네트워크를 통해 이미지에 대해 특징 추출을 수행하여, 적어도 두 개의 상이한 계층의 특징을 출력하는 단계;
상기 적어도 두 개의 상이한 계층의 특징으로부터 상기 이미지에서의 적어도 하나의 인스턴스 후보 영역에 대응하는 영역 특징을 추출하고, 동일한 인스턴스 후보 영역에 대응하는 영역 특징에 대해 융합을 수행하여, 각 인스턴스 후보 영역의 제1 융합 특징을 획득하는 단계; 및
각 제1 융합 특징에 기반하여 인스턴스 분할을 수행하여, 상응한 인스턴스 후보 영역의 인스턴스 분할 결과 및 상기 이미지의 인스턴스 분할 결과 중 적어도 하나를 획득하는 단계를 포함한다.
본 발명의 실시예의 다른 하나의 측면에 따르면, 인스턴스 분할 장치를 제공하고, 상기 인스턴스 분할 장치는,
이미지에 대해 특징 추출을 수행하여, 적어도 두 개의 상이한 계층의 특징을 출력하기 위한 뉴럴 네트워크;
상기 적어도 두 개의 상이한 계층의 특징으로부터 상기 이미지의 적어도 하나의 인스턴스 후보 영역에 대응하는 영역 특징을 추출하기 위한 추출 모듈;
동일한 인스턴스 후보 영역에 대응하는 영역 특징에 대해 융합을 수행하여, 각 인스턴스 후보 영역의 제1 융합 특징을 획득하기 위한 제1 융합 모듈; 및
각 제1 융합 특징에 기반하여 인스턴스 분할을 수행하여, 상응한 인스턴스 후보 영역의 인스턴스 분할 결과 및 상기 이미지의 인스턴스 분할 결과 중 적어도 하나를 획득하기 위한 분할 모듈을 포함한다.
본 발명 실시예의 또 다른 측면에 따르면, 전자 기기를 제공하며,
컴퓨터 프로그램을 저장하기 위한 메모리; 및
상기 메모리에 저장된 컴퓨터 프로그램을 실행하기 위한 프로세서를 포함하며, 상기 컴퓨터 프로그램이 실행될 경우, 본 발명의 실시예에 따른 방법이 구현된다.
본 발명의 실시예의 또 다른 측면에 있어서, 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 저장 매체를 제공하며, 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 본 발명의 실시예에 따른 방법이 구현된다.
본 발명의 실시예의 또 다른 일 측면에 따르면, 컴퓨터 명령어를 포함한 컴퓨터 프로그램을 제공하며, 상기 컴퓨터 명령어가 기기의 프로세서에서 작동될 경우, 본 발명의 실시예에 따른 방법이 구현된다.
아래에 도면 및 실시예를 통해, 본 발명의 기술방안을 더 상세히 설명한다.
본 발명의 상기 실시예에 기반하여 제공된 인스턴스 분할 방법 및 장치, 프로그램 및 매체는, 뉴럴 네트워크를 통해 이미지에 대해 특징 추출을 수행하여, 적어도 두 개의 상이한 계층의 특징을 출력하며; 적어도 두 개의 상이한 계층의 특징으로부터 이미지에서의 적어도 하나의 인스턴스 후보 영역에 대응하는 영역 특징을 추출하고, 동일한 인스턴스 후보 영역에 대응하는 영역 특징에 대해 융합을 수행하여, 각 인스턴스 후보 영역의 제1 융합 특징을 획득하며; 각 제1 융합 특징에 기반하여 인스턴스 분할을 수행하여, 상응한 인스턴스 후보 영역의 인스턴스 분할 결과 및 이미지의 인스턴스 분할 결과 중 적어도 하나를 획득한다. 본 발명의 실시예는 딥 러닝 프레임 워크에 기반한 인스턴스 분할의 기술 방안을 설계하고, 딥 러닝은 강력한 모델링 기능을 구비하므로, 더 나은 인스턴스 분할 결과를 획득하는데 도움이 되며; 또한, 전체 이미지에 대해 인스턴트 분할을 직접 수행하는 것과 비교할 경우, 인스턴스 후보 영역에 대해 인스턴스 분할을 수행하면, 인스턴스 분할 정확도를 향상시켜, 인스턴스 분할에 필요한 계산량과 복잡성을 줄임으로써, 인스턴스 분할 효율을 향상시킬 수 있으며; 또한, 적어도 두 개의 상이한 계층의 특징으로부터 인스턴스 후보 영역에 대응하는 영역 특징을 추출하여 융합을 수행함으로써, 획득된 융합 특징에 기반하여 인스턴스 분할을 수행하여, 각 인스턴스 후보 영역이 동시에 더 많은 상이한 계층의 정보를 획득할 수 있고, 상이한 계층의 특징으로부터 추출된 정보는 모두 상이한 시맨틱 계층에 위치하므로, 컨텍스트 정보를 사용하여 각 인스턴스 후보 영역의 인스턴스 분할 결과의 정확성을 향상시킬 수 있다.
도면 및 실시예에 의해, 본 발명의 기술방안은 더 상세히 설명된다.
본 명세서의 일부를 구성하는 도면은 본 발명의 실시예를 설명하고, 본 발명의 원리를 설명과 함께 설명하기 위한 것이다.
이하의 상세한 설명에 따르면, 본 발명은 도면을 참조하여 더욱 명확하게 이해될 수 있다.
도 1은 본 발명의 인스턴스 분할 방법의 하나의 실시예의 흐름도이다.
도 2는 본 발명의 실시예에서의 하나의 특징 융합 예시도이다.
도 3은 본 발명의 인스턴스 분할 방법의 다른 하나의 실시예의 흐름도이다.
도 4는 본 발명의 실시예에서의 듀얼 경로 마스크 예측을 수행하는 하나의 네트워크 구조 예시도이다.
도 5는 본 발명의 인스턴스 분할 방법의 하나의 응용 실시예의 흐름도이다.
도 6은 도 5에 도시된 응용 실시예의 과정 예시도이다.
도 7은 본 발명의 인스턴스 분할 장치의 하나의 실시예의 구조 예시도이다.
도 8은 본 발명의 인스턴스 분할 장치의 다른 하나의 실시예의 구조 예시도이다.
도 9는 본 발명의 실시예에서의 분할 모듈의 하나의 실시예의 구조 예시도이다.
도 10은 본 발명의 실시예에서의 전자 기기의 하나의 실시예의 구조 예시도이다.
이하, 도면을 참조하여 본 발명의 다양한 예시적 실시예를 상세히 설명한다. 유의해야 할 것은, 달리 업급되지 않는 한, 이러한 실시예들에서 제시된 구성 요소, 단계의 상대적 배열, 수치 표현 및 값은 본 개시의 범위를 한정하지 않는다.
또한 이해해야 할 것은, 본 발명의 실시예에서, “복수 개”는 둘 이상을 의미할 수 있고, “적어도 하나”는 하나 또는 둘 이상을 의미할 수 있다.
당업자는, 본 발명의 실시예에서 용어 “제1”, “제2” 는 상이한 단계, 기기 또는 모듈 등을 구별하기 위해 사용될 뿐, 그 어떤 특정한 기술적 의미나 이들 사이의 필연적인 논리적 순서를 나타내지 않는다는 것을 이해할 수 있다.
또한 이해해야 할 것은, 본 발명의 실시예에서 언급된 임의의 컴포넌트, 데이터 또는 구조는 문맥상 명백한 한정이 없거나 반대 동기가 없는 경우, 일반적으로 하나 또는 복수 개로 이해될 수 있다.
또한 이해해야 할 것은, 본 발명은 각 실시예의 설명에 대해 각 실시예 사이의 차이점에 초점을 맞추고, 실시예의 동일하거나 유사한 부분은 서로 참조될 수 있으며, 간결함을 위해 더이상 설명하지 않는다.
또한, 설명의 편의를 위해, 도면에 도시된 각 부분의 크기는 실제 비율로 도시되지 않았다는 것을 이해해야한다.
적어도 하나의 예시적 실시예에 대한 다음의 설명은 실제로 예시적일 뿐이며, 본 발명 및 그 응용 또는 이용을 한정하려는 것은 아니다.
관련 기술 분야의 통상의 기술자에게 공지된 기술, 방법 및 기기는 상세하게 논의되지 않을 수 있지만, 적절한 경우, 상기 기술, 방법 및 기기는 명세서의 일부로 간주되어야 한다.
유의해야 할 것은, 다음의 도면에서 유사한 참조 번호 및 문자는 유사한 항목을 표시하므로, 어느 한 항목이 하나의 도면에서 정의되면, 후속 도면에서 추가로 논의될 필요가 없다.
또한, 발명에서 “및/또는”은 다만 연관 대상의 연관 관계일 뿐이고, 3가지 관계가 존재함을 표시할 수 있으며, 예를 들어, A 및/또는 B는, A가 단독으로 존재하거나, A와 B가 동시에 존재하거나, B가 단독으로 존재하는 이 3가지 경우를 표시한다. 또한, 발명 중의 문자부호 “/”는 일반적으로 전후 연관 대상이 “또는”의 관계임을 의미한다.
본 발명 실시예들은 다수의 다른 범용 또는 특수 목적 컴퓨팅 시스템 환경 또는 구성과 함께 동작될 수 있는 단말 기기, 컴퓨터 시스템 및 서버와 같은 전자 기기에 적용될 수 있다. 단말 기기, 컴퓨터 시스템 및 서버와 같은 전자 기기와 함께 사용되기에 적합한 잘 알려진 단말 기기, 컴퓨팅 시스템, 환경 및 구성 중 적어도 하나의 예는 개인용 컴퓨터 시스템, 서버 컴퓨터 시스템, 씬 클라이언트, 씩 클라이언트, 핸드헬드 또는 랩톱 기기, 마이크로 프로세서 기반 시스템, 셋톱 박스, 프로그래머블 가전 제품, 네트워크 개인용 컴퓨터, 소형 컴퓨터 시스템, 메인 프레임 컴퓨터 시스템 및 상기 임의의 시스템을 포함한 분산 클라우드 컴퓨팅 기술 환경을 포함하나 이에 한정되지 않는다.
단말 기기, 컴퓨터 시스템, 서버 등 전자 기기는 컴퓨터 시스템에 의해 수행되는 컴퓨터 시스템의 수행 가능 명령어(예를 들어, 프로그램 모듈)의 일반적인 맥락에서 설명될 수 있다. 일반적으로, 프로그램 모듈은 특정 작업을 실행하거나 특정 추상 데이터 타입을 구현하기 위한 루틴, 프로그램, 타겟 프로그램, 어셈블리, 논리, 데이터 구조 등을 포함할 수 있다. 컴퓨터 시스템/서버는 작업이 통신 네트워크를 통해 연결된 원격 처리 장치에 의해 실행되는 분산 클라우드 컴퓨팅 환경에서 구현 될 수 있다. 분산 클라우드 컴퓨팅 환경에서, 프로그램 모듈은 저장 기기를 포함하는 로컬 또는 원격 컴퓨팅 시스템 저장 매체에 위치할 수 있다.
도 1은 본 발명의 인스턴스 분할 방법의 하나의 실시예의 흐름도이다. 도 1에 도시된 바와 같이, 상기 실시예의 인스턴스 분할 방법은 다음의 단계를 포함한다.
단계 102에 있어서, 뉴럴 네트워크를 통해 이미지에 대해 특징 추출을 수행하여, 적어도 두 개의 상이한 계층의 특징을 출력한다.
본 발명의 각 실시예에서의 특징의 표현 형태는 특징 맵, 특징 벡터 또는 특징 매트릭스 등을 포함할 수 있지만 이에 한정되지 않는다. 상기 적어도 두 개의 상이한 계층은 뉴럴 네트워크에서 상기 뉴럴 네트워크의 상이한 깊이에 위치한 두 개 또는 두 개 이상의 네트워크 계층을 의미한다. 예를 들어 상기 이미지는 정적 이미지, 비디오의 프레임 이미지 등을 포함할 수 있지만 이에 한정되지 않는다.
하나의 선택적인 예에 있어서, 상기 단계 102는 프로세서에 의해 메모리에 저장된 대응되는 명령어를 호출함으로써 실행될 수 있으며, 프로세서에 의해 작동되는 뉴럴 네트워크에 의해 실행될 수도 있다.
단계 104에 있어서, 상기 적어도 두 개의 상이한 계층의 특징으로부터 적어도 하나의 인스턴스 후보 영역에 대응하는 영역 특징을 추출한다.
예를 들어, 인스턴스는 어느 한 특정 대상, 어느 한 특정 사람, 어느 한 특정 물체 등을 포함할 수 있지만 이에 한정되지 않는다. 뉴럴 네트워크를 통해 이미지를 검출함으로써 하나 또는 두 개의 인스턴스 후보 영역을 획득할 수 있다. 인스턴스 후보 영역은 이미지에서 상기 인스턴스가 나타날 수 있는 영역을 나타낸다.
하나의 선택적인 예에서, 상기 단계 104는 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 실행될 수 있거나, 프로세서에 의해 작동되는 추출 모듈로써 실행될 수도 있다.
단계 106에 있어서, 동일한 인스턴스 후보 영역에 대응하는 영역 특징에 대해 융합을 각각 수행하여, 각 인스턴스 후보 영역의 제1 융합 특징을 획득한다.
본 발명의 각 실시예에서, 복수의 영역 특징에 대해 융합을 수행하는 방식은, 예를 들어, 복수의 영역 특징에 대해 요소별 합산, 요소별 최대, 요소별 평균 등을 수행할 수 있다.
하나의 선택적인 예에서, 상기 단계 106은 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 실행될 수 있거나, 프로세서에 의해 작동되는 제1 융합 모듈로써 실행될 수도 있다.
단계 108에 있어서, 각 제1 융합 특징에 기반하여 인스턴스 분할(Instance Segmentation)을 각각 수행하여, 상응한 인스턴스 후보 영역의 인스턴스 분할 결과 및 상기 이미지의 인스턴스 분할 결과 중 적어도 하나를 획득한다.
본 발명의 각 실시예에서, 인스턴스 후보 영역의 인스턴스 분할 결과는, 상기 인스턴스 후보 영역에서 어느 인스턴스에 속하는 픽셀 또는 상기 인스턴스가 속하는 클래스를 포함하며, 예를 들어, 상기 인스턴스 후보 영역에서의 어느 소년에 속하는 픽셀 또는 상기 소년이 속하는 클래스는 사람이다.
하나의 선택적인 예에서, 상기 단계 108은 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 실행될 수 있거나, 프로세서에 의해 작동되는 분할 모듈로써 실행될 수도 있다.
본 발명의 상기 실시예에 의해 제공된 인스턴스 분할 방법에 기반하여, 뉴럴 네트워크를 통해 이미지에 대해 특징 추출을 수행하여, 적어도 두 개의 상이한 계층의 특징을 출력하며; 적어도 두 개의 상이한 계층의 특징으로부터 이미지에서의 적어도 하나의 인스턴스 후보 영역에 대응하는 영역 특징을 추출하고, 동일한 인스턴스 후보 영역에 대응하는 영역 특징에 대해 융합을 수행하여, 각 인스턴스 후보 영역의 제1 융합 특징을 획득하며; 각 제1 융합 특징에 기반하여 인스턴스 분할을 수행하여, 상응한 인스턴스 후보 영역의 인스턴스 분할 결과 및 이미지의 인스턴스 분할 결과 중 적어도 하나를 획득한다. 본 발명의 실시예는 딥 러닝 프레임 워크에 기반한 인스턴스 분할 문제를 해결하고, 딥 러닝에는 강력한 모델링 기능이 있으므로, 더 나은 인스턴스 분할 결과를 획득하는데 도움이 되며; 또한, 전체 이미지에 대해 인스턴트 분할을 직접 수행하는 것과 비교할 경우, 인스턴스 후보 영역에 대해 인스턴스 분할을 수행하면, 인스턴스 분할 정확도를 향상시켜, 인스턴스 분할에 필요한 계산량과 복잡성을 줄임으로써, 인스턴스 분할 효율을 향상시킬 수 있으며; 또한, 적어도 두 개의 상이한 계층의 특징으로부터 인스턴스 후보 영역에 대응하는 영역 특징을 추출하여 융합을 수행함으로써, 획득된 융합 특징에 기반하여 인스턴스 분할을 수행하여, 각 인스턴스 후보 영역이 동시에 더 많은 상이한 계층의 정보를 획득할 수 있고, 상이한 계층의 특징으로부터 추출된 정보는 모두 상이한 시맨틱 계층에 위치하므로, 컨텍스트 정보를 사용하여 각 인스턴스 후보 영역의 인스턴스 분할 결과의 정확성을 향상시킬 수 있다.
본 발명의 각 인스턴스 분할 방법 실시예의 하나의 실시형태에서, 단계 102에서 뉴럴 네트워크를 통해 이미지에 대해 특징 추출을 수행하여, 적어도 두 개의 상이한 계층의 특징을 출력하며, 단계 102는, 뉴럴 네트워크를 통해 이미지에 대해 특징 추출을 수행하여, 뉴럴 네트워크에서 상이한 네트워크 깊이를 갖는 적어도 두 개의 네트워크 계층을 통해 적어도 두 개의 상이한 계층의 특징을 출력하는 단계를 포함할 수 있다.
본 발명의 각 실시예에서, 뉴럴 네트워크는 상이한 네트워크 깊이를 갖는 두 개 이상의 네트워크 계층을 포함하고, 뉴럴 네트워크에 포함된 네트워크 계층에서, 특징 추출에 사용되는 네트워크 계층은 특징 계층으로 지칭되며, 뉴럴 네트워크가 하나의 이미지를 수신한 후, 제1 네트워크 계층을 통해 입력된 이미지에 대해 특징 추출을 수행하고, 추출된 특징을 두번 째 네트워크 계층에 입력하며, 두 번째 네트워크 계층으로부터 시작하여, 각 네트워크 계층은 입력된 특징에 대해 순차적으로 특징 추출을 수행하여, 추출된 특징을 다음 네트워크 계층에 입력함으로써 특징 추출을 수행한다. 뉴럴 네트워크에서 각 네트워크 계층의 네트워크 깊이는 입력 및 출력되는 순서 또는 특징 추출의 순서에 따라 얕은데로부터 깊어지며, 각 네트워크 계층에서 순차적으로 특징 추출을 수행하여 출력된 특징의 계층은 낮은데로부터 높아지고, 해상도는 높은데로부터 낮아아진다. 동일한 뉴럴 네트워크에서 얕은 네트워크 깊이를 갖는 네트워크 계층과 비교하면, 깊은 네트워크 깊이를 갖는 네트워크 계층의 시야는 더 크고, 더 많은 관련 공간의 구조적 정보를 가지며, 추출된 특징이 인스턴스 분할에 사용될 경우, 분할 결과는 더 정확할 수 있다. 뉴럴 네트워크에서, 네트워크 계층은 일반적으로, 특징 추출을 수행하기 위한 적어도 하나의 컨볼루션 계층, 및 컨볼루션 계층으로부터 추출된 특징(예를 들어 특징 맵)을 업 샘플링하기 위한 업 샘플링 계층을 포함할 수 있으며, 특징을 업 샘플링함으로써, 컨볼루션 계층으로부터 추출된 특징(예를 들어 특징 맵)의 크기를 감소시킬 수 있다.
본 발명의 각 인스턴스 분할 방법 실시예의 하나의 실시형태에서, 단계 106에서 동일한 인스턴스 후보 영역에 대응하는 영역 특징에 대해 각각 융합을 수행하며, 단계 106은, 동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징에 대해 픽셀 레벨의 융합을 각각 수행하는 단계를 포함할 수 있다.
예를 들어, 하나의 선택적인 예에서, 동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징에 대해 픽셀 레벨의 융합을 각각 수행하는 것은,
동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징에 대해 요소별 최대(element - wise max)를 각각 수행하며, 즉, 동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징에 대해, 각 픽셀 위치의 특징의 최대값을 얻으며;
또는, 동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징에 대해 요소별 평균을 각각 수행하며, 즉, 동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징의 각 픽셀 위치의 특징에 대해 평균값을 얻으며;
또는, 동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징에 대해 요소별 합산을 각각 수행하며, 즉, 동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징에 대해, 각 픽셀 위치의 특징 합계를 얻는 것일 수 있다.
여기서, 상기 실시형태에서, 동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징에 대해 픽셀 레벨의 융합을 수행할 경우, 동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징에 대해 요소별 최대를 수행하는 방식은, 다른 방식에 비해, 인스턴스 후보 영역의 특징을 더 명확하게 함으로써, 인스턴스 후보 영역의 특징이 더 정확해지고, 인스턴스 분할 결과의 정확도를 향상시킨다.
선택적으로, 본 발명의 인스턴스 분할 방법의 또 하나의 실시예에서, 동일한 인스턴스 후보 영역에 대응하는 영역 특징에 대해 각각 융합을 수행하기 전에, 완전 컨볼루션 계층 또는 완전 연결 계층과 같은 하나의 네트워크 계층을 통해, 동일한 인스턴스 후보 영역에 대응하는 영역 특징을 조정할 수 있으며, 예를 들어 융합에 참여하는 동일한 인스턴스 후보 영역에 대응하는 각 영역 특징의 차원 등을 조정할 수 있으며, 융합에 참여하는 동일한 인스턴스 후보 영역에 대응하는 각 영역 특징이 융합에 더 적합하도록 하여, 보다 정확한 융합 특징을 획득한다.
본 발명의 인스턴스 분할 방법의 다른 하나의 실시예에서, 단계 102는 적어도 두 개의 상이한 계층의 특징을 출력한 후에, 상기 적어도 두 개의 상이한 계층의 특징에 대해 적어도 하나의 리트레이싱 융합을 수행하여, 제2 융합 특징을 획득하는 단계를 더 포함할 수 있다. 여기서, 하나의 리트레이싱 융합은, 뉴럴 네트워크의 네트워크 깊이 방향에 기반하여, 상이한 네트워크 깊이를 갖는 네트워크 계층에 의해 각각 출력된 상이한 계층의 특징에 대해, 두 개의 상이한 계층의 방향에 따라 순차적으로 융합을 수행하는 단계를 포함한다. 이에 대응하여, 상기 실시예에서, 단계 104는, 제2 융합 특징으로부터 적어도 하나의 인스턴스 후보 영역에 대응하는 영역 특징을 추출하는 단계를 포함할 수 있다.
각 실시예의 하나의 실시형태에서, 상기 두 개의 상이한 계층 방향은, 상위 계층 특징에서 하위 계층 특징으로의 방향, 및 하위 계층 특징에서 상위 계층 특징으로의 방향을 포함한다. 따라서 특징 융합에 컨텍스트 정보가 더 잘 사용되므로, 각 인스턴스 후보 영역의 인스턴스 분할 결과를 향상시킨다.
어느 하나의 선택적인 예에서, 상기 두 개의 상이한 계층 방향에 순차적으로 따르는 것은, 상위 계층 특징에서 하위 계층 특징으로의 방향(뉴럴 네트워크에서 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 특징에서 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 특징으로의 방향) 및 하위 계층 특징에서 상위 계층 특징으로의 방향(뉴럴 네트워크에서 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 특징에서 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 특징으로의 방향)을 순차적으로 따르는 것; 또는, 하위 계층 특징에서 상위 계층 특징으로의 방향 및 상위 계층 특징에서 하위 계층 특징으로의 방향을 순차적으로 따르는 것을 포함한다.
본 발명의 각 실시예의 하나의 실시형태에서, 상이한 네트워크 깊이를 갖는 네트워크 계층에 의해 각각 출력된 상이한 계층의 특징에 대해, 상위 계층 특징에서 하위 계층 특징으로의 방향 및 하위 계층 특징에서 상위 계층 특징으로의 방향을 따라 순차적으로 융합을 수행하는 단계는,
상기 뉴럴 네트워크의 네트워크 깊이의 깊은데서 얕은데로의 방향을 따라, 상기 뉴럴 네트워크에서, 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 높은 계층의 특징에 대해 순차적으로 업 샘플링을 수행한 후, 업 샘플링된 특징을 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 낮은 계층의 특징과 융합하여, 예를 들어, 더 높은 계층의 특징에서 업 샘플링을 수행한 후 더 낮은 계층의 특징과 합산하여, 제3 융합 특징을 획득하는 단계를 포함한다. 여기서, 더 높은 계층의 특징은, 뉴럴 네트워크에서 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 특징, 또는 상기 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 특징에 대해 적어도 하나의 특징 추출을 수행하여 획득한 특징을 포함할 수 있다. 예를 들어, 융합에 참여한 특징에서, 최상위 계층의 특징은 상기 적어도 두 개의 상이한 계층의 특징에서 최상위 계층의 특징일 수 있고, 또는 상기 최상위 계층의 특징에 대해 하나 또는 복수의 특징 추출을 수행하여 획득한 특징일 수 있으며, 제3 융합 특징은 상기 최상위 계층의 특징 및 매번 융합을 수행하여 획득된 융합 특징을 포함할 수 있다.
하위 계층 특징에서 상위 계층 특징으로의 방향을 따라, 더 낮은 계층의 융합 특징에 대해 순차적으로 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 제3 융합 특징에서의 더 높은 계층의 융합 특징과 융합한다. 여기서, 이번 융합된 융합에 참여한 특징에서, 최하위 계층의 융합 특징은 제3 융합 특징에서 최하위 계층의 융합 특징일 수 있고, 또는 제3 융합 특징에서 최하위 계층의 융합 특징에 대해 하나 또는 복수의 특징 추출을 수행하여 획득한 특징일 수도 있으며; 이번 하위 계층 특징에서 상위 계층 특징으로의 방향을 따라 특징 융합을 수행하여 획득한 융합 특징 배치는, 제3 융합 특징에서 최하위 계층의 융합 특징 및 매번 융합을 수행하여 획득된 융합 특징을 포함할 수 있다.
여기서, 상기 적어도 두 개의 상이한 계층의 특징에 대해 하나의 리트레이싱 융합을 수행하면, 하위 계층 특징에서 상위 계층 특징으로의 방향을 따라 특징 융합을 수행하여 획득한 융합 특징 배치는 제2 융합 특징이며; 상기 적어도 두 개의 상이한 계층의 특징에 대해 두 번 또는 그 이상의 리트레이싱 융합을 수행하면, 상위 계층 특징에서 하위 계층 특징으로의 방향 및 하위 계층 특징에서 상위 계층 특징으로의 방향을 따라 복수의 융합 동작을 실행하여, 최종적으로 획득한 융합 특징 배치는 제2 융합 특징이다.
여기서, 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 높은 계층의 특징에 대해 업 샘플링을 수행한 후, 업 샘플링된 특징을 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 낮은 계층의 특징과 융합할 경우, 뉴럴 네트워크에서, 깊은 네트워크 깊이를 갖는 네트워크 계층(예를 들어, 뉴럴 네트워크의 입출력 방향을 따른 80 번째 네트워크 계층)에 의해 출력된 더 높은 계층의 특징에 대해 순차적으로 업 샘플링을 수행한 후, 업 샘플링된 특징을 얕은 네트워크 깊이를 갖는 인접한 네트워크 계층(예를 들어, 뉴럴 네트워크의 입출력 방향을 따른 79 번째 네트워크 계층)에 의해 출력된 더 낮은 계층의 특징에 대해 융합을 수행할 수 있다. 또한, 뉴럴 네트워크에서, 더 깊은 네트워크 깊이를 갖는 네트워크 계층(예를 들어, 뉴럴 네트워크의 입출력 방향을 따른 80 번째 네트워크 계층)에 의해 출력된 더 높은 계층의 특징에 대해 순차적으로 업 샘플링을 수행한 후, 업 샘플링된 특징을 상기 깊은 네트워크 깊이를 갖는 네트워크 계층과 인접하지 않은, 얕은 네트워크 깊이를 갖는 네트워크 계층(예를 들어, 뉴럴 네트워크의 입력 출력 방법에 따라 79 번째 네트워크 계층)에 의해 출력된 더 낮은 계층의 특징에 대해 융합을 수행할 수도 있으며, 즉, 교차 계층의 특징에 대해 융합을 수행한다.
유사하게, 더 낮은 계층의 융합 특징에 대해 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 제3 융합 특징에서 더 높은 계층의 융합 특징과 융합할 경우, 더 낮은 계층의 융합 특징(예를 들어 P2, 여기서 “2”는 특징 계층을 나타냄)에 대해 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 제3 융합 특징에서 더 높은 계층의 인접한 융합 특징(예를 들어, P3, 여기서 ”3”은 특징 계층을 나타냄)과 융합할 수 있다. 또는, 더 낮은 계층의 융합 특징에 대해 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 특징 계층과 인접하지 않은, 제3 융합 특징에서 더 높은 계층의 융합 특징(예를 들어, P4, 여기서 “4”는 특징 계층을 나타냄)과 융합하며, 즉, 교차 계층 융합 특징의 융합을 수행한다.
도 2는 본 발명의 실시예에서의 하나의 특징 융합 예시도이다. 도 2에 도시된 바와 같이, 하나의 더 낮은 계층의 융합 특징 Ni에 대해 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 더 높은 계층의 인접한 특징 Pi+1과 융합하여, 상응한 융합 특징 Ni+1의 하나의 예시도를 획득한다. 여기서, i의 값은 0보다 큰 정수이다.
상기 실시예에 기반하여, 위에서 아래로의 순서(즉, 뉴럴 네트워크에서 네트워크 깊이가 깊은데서 얕은데로, 상위 계층 특징에서 하위 계층 특징으로의 순서)에 따라, 상위 계층의 저해상도의 특징 및 하위 계층의 고해상도의 특징에 대해 점진적으로 융합을 수행하여, 새로운 배치의 특징을 획득한 다음, 아래에서 위로의 순서(즉, 하위 계층 특징에서 상위 계층 특징으로의 순서)로, 더 낮은 계층의 융합 특징에 대해 순차적으로 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 더 높은 계층의 인접한 특징에 융합하여, 하위 계층의 고해상도의 특징 및 상위 계층의 저해상도의 특징에 대해 점진적으로 융합을 수행하여, 인스턴스 분할을 위한 다른 하나의 새로운 배치의 특징을 획득하며, 본 실시예는 아래에서 위로의 하나의 정보 경로를 통해, 하위 계층 정보가 쉽게 상위 계층 네트워크(즉, 깊은 네트워크 깊이를 갖는 네트워크 계층)로 보다 쉽게 전달되어, 정보 전달의 손실을 감소시킴으로써, 정보가 뉴럴 네트워크 내부에서 더 원활하게 전달될 수 있으며, 하위 계층 정보는 일부 세부 정보에 대해 민감하여, 위치 결정 및 분할에 유리한 정보를 제공할 수 있으므로, 인스턴스 분할 결과를 향상시키며; 두 개의 특징 융합을 통해, 상위 계층 네트워크(즉, 더 깊은 네트워크 깊이를 갖는 네트워크 계층)는 쉽고, 완전하게 하위 계층 정보를 획득할 수 있어, 인스턴스 분할 결과를 더욱 향상시킨다.
본 발명의 각 실시예의 다른 하나의 실시형태에서, 상이한 네트워크 깊이를 갖는 네트워크 계층에 의해 각각 출력된 상이한 계층의 특징에 대해, 하위 계층 특징에서 상위 계층 특징으로의 방향 및 상위 계층 특징에서 하위 계층 특징으로의 방향을 따라 순차적으로 융합을 수행하는 단계는,
뉴럴 네트워크의 네트워크 깊이가 얕은 곳에서 깊은 곳으로의 방향에 따라, 뉴럴 네트워크에서, 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 낮은 계층의 특징에 대해 순차적으로 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 높은 계층의 특징과 융합하여, 제4 융합 특징을 획득하는 단계를 포함한다. 여기서, 더 낮은 계층의 특징은, 예를 들어, 뉴럴 네트워크에서 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 특징, 또는 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 특징에 대해 적어도 하나의 특징 추출을 수행하여 획득한 특징을 포함한다. 예를 들어, 융합에 참여한 특징에서, 최하위 계층의 특징은 상기 적어도 두 개의 상이한 계층의 특징에서 최하위 계층의 특징일 수 있고, 또는 상기 최하위 계층의 특징에 대해 하나 또는 복수의 특징 추출을 수행하여 획득한 특징일 수 있으며, 제4 융합 특징은 상기 최하위 계층의 특징 및 매번 융합을 수행하여 획득된 융합 특징을 포함할 수 있으며;
상위 계층 특징에서 하위 계층 특징으로의 방향을 따라, 더 높은 계층의 융합 특징에 대해 순차적으로 업 샘플링을 수행한 후, 업 샘플링된 특징을 제4 융합 특징에서의 더 낮은 계층의 융합 특징과 융합한다. 여기서, 이번 융합에 참여한 융합 특징에서, 최상위 계층의 융합 특징은 제4 융합 특징에서의 최상위 계층의 융합 특징일 수 있고, 또는 제4 융합 특징에서의 최상위 계층의 융합 특징에 대해 하나 또는 복수의 특징 추출을 수행하여 획득한 특징일 수 있으며; 이번 하위 계층 특징에서 상위 계층 특징으로의 방향 및 상위 계층 특징에서 하위 계층 특징으로의 방향을 따라 특징 융합을 수행하여 획득한 하나의 융합 특징 배치는, 제4 융합 특징에서 최상위 계층의 융합 특징 및 매번 융합을 수행하여 획득된 융합 특징을 포함한다.
여기서, 상기 적어도 두 개의 상이한 계층의 특징에 대해 하나의 리트레이싱 융합을 수행하면, 하위 계층 특징에서 상위 계층 특징으로의 방향 및 상위 계층 특징에서 하위 계층 특징으로의 방향을 따라 특징 융합을 수행하여 획득한 하나의 융합 특징 배치는 바로 제2 융합 특징이며; 상기 적어도 두 개의 상이한 계층의 특징에 대해 적어도 두 번의 리트레이싱 융합을 수행하면, 하위 계층 특징에서 상위 계층 특징으로의 방향 및 상위 계층 특징에서 하위 계층 특징으로의 방향을 따라 복수의번 특징 융합을 수행하여 하나의 융합 특징 배치의 동작을 실행할 수 있으며, 최종적으로 획득한 하나의 융합 특징 배치는 제2 융합 특징이다.
하나의 선택적인 예시에서, 뉴럴 네트워크에서, 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 낮은 계층의 특징에 대해 순차적으로 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 높은 계층의 특징과 융합할 경우, 뉴럴 네트워크에서, 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 낮은 계층의 특징에 대해 순차적으로 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 상기 얕은 네트워크 깊이를 갖는 네트워크 계층과 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된, 더 높은 계층의 인접한 특징에 대해 융합을 수행할 수 있다. 또는, 뉴럴 네트워크에서, 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 낮은 계층의 특징에 대해 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 상기 얕은 네트워크 깊이를 갖는 네트워크 계층과 인접하지 않은, 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 높은 계층의 특징과 융합할 수 있으며, 즉, 교차 계층의 특징에 대해 융합을 수행한다.
유사하게, 높은 계층의 융합 특징에 대해 업 샘플링을 수행한 후, 업 샘플링된 특징을 제4 융합 특징에서의 더 낮은 계층의 융합 특징과 융합할 경우, 더 높은 계층의 융합 특징에 대해 업 샘플링을 수행한 후, 업 샘플링된 특징을 상기 제4 융합 특징에서의 더 낮은 계층의 인접한 융합 특징과 융합할 수 있다. 또는, 더 높은 계층의 융합 특징에 대해 업 샘플링을 수행한 후, 업 샘플링된 특징을 제4 융합 특징에서의 더 낮은 계층의 인접하지 않은 융합 특징과 융합할 수 있으며, 즉, 교차 계층 융합 특징의 융합을 수행한다.
본 발명의 상기 각 실시예의 하나의 실시형태에서, 단계 108에서, 각 제1 융합 특징에 기반하여 인스턴스 분할을 수행하여, 상응한 인스턴스 후보 영역의 인스턴스 분할 결과 및 상기 이미지의 인스턴스 분할 결과 중 적어도 하나를 획득하는 단계는,
제1 융합 특징에 기반하여, 제1 융합 특징에 대응하는 인스턴스 후보 영역에 대해 인스턴스 분할을 수행하여, 대응하는 인스턴스 후보 영역의 인스턴스 분할 결과를 획득하고, 여기서 제1 융합 특징은 특정된 제1 융합 특징으로 한정되지 않으며, 임의의 인스턴스 후보 영역의 제1 융합 특징인 것; 및, 각 제1 융합 특징에 기반하여 이미지에 대해 인스턴스 분할을 수행하여, 이미지의 인스턴스 분할 결과를 획득하는 것 중 적어도 하나일 수 있다.
본 발명의 각 실시예의 다른 하나의 실시형태에서, 단계 108에서, 각 제1 융합 특징에 기반하여 인스턴스 분할을 수행하여, 이미지의 인스턴스 분할 결과를 획득하며, 단계 108은, 각 제1 융합 특징에 기반하여, 각 제1 융합 특징에 각각 대응하는 인스턴스 후보 영역에 대해 인스턴스 분할을 각각 수행하여, 각 인스턴스 후보 영역의 인스턴스 분할 결과를 획득하는 단계; 및 각 인스턴스 후보 영역의 인스턴스 분할 결과에 기반하여 이미지의 인스턴스 분할 결과를 획득하는 단계를 포함할 수 있다.
도 3은 본 발명의 인스턴스 분할 방법의 다른 하나의 실시예의 흐름도이다. 도 3에 도시된 바와 같이, 상기 실시예의 인스턴스 분할 방법은 다음의 단계를 포함한다.
단계 302에 있어서, 뉴럴 네트워크를 통해 이미지에 대해 특징 추출을 수행하여, 뉴럴 네트워크에서 상이한 네트워크 깊이를 갖는 적어도 두 개의 네트워크 계층을 통해 적어도 두 개의 상이한 계층의 특징을 출력한다.
하나의 선택적인 예에 있어서, 상기 단계 302는 프로세서에 의해 메모리에 저장된 대응되는 명령어를 호출함으로써 실행할 수 있으며, 프로세서에 의해 작동되는 뉴럴 네트워크에 의해 실행될 수도 있다.
단계 304에 있어서, 뉴럴 네트워크의 네트워크 깊이의 깊은데서 얕은데로의 방향을 따라, 뉴럴 네트워크에서, 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 높은 계층의 특징에 대해 순차적으로 업 샘플링을 수행한 후, 업 샘플링된 특징을 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 낮은 계층의 특징과 융합하여, 제3 융합 특징을 획득한다.
여기서, 상기 더 높은 계층의 특징은, 뉴럴 네트워크에서 상기 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 특징, 또는 상기 깊은 네트워크 깊이를 갖는 네트워크 계층에서 출력된 특징에 대해 적어도 하나의 특징 추출을 수행하여 획득한 특징을 포함할 수 있다. 예를 들어, 융합에 참여한 특징에서, 최상위 계층의 특징은 상기 적어도 두 개의 상이한 계층의 특징에서의 최상위 계층의 특징일 수 있고, 또는 상기 최상위 계층의 특징에 대해 하나 또는 복수의 특징 추출을 수행하여 획득한 특징일 수 있으며, 제3 융합 특징은 상기 적어도 두 개의 상이한 계층의 특징에서의 최상위 계층의 특징 및 상기 단계 304에서 매번 융합 동작을 수행하여 획득된 융합 특징을 포함할 수 있다.
단계 306에 있어서, 하위 계층 특징에서 상위 계층 특징으로의 방향을 따라, 더 낮은 계층의 융합 특징에 대해 순차적으로 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 제3 융합 특징에서의 더 높은 계층의 융합 특징에 대해 융합을 수행하여, 제2 융합 특징을 획득한다.
여기서, 이번 융합에 참여한 융합 특징에서, 최하위 계층의 융합 특징은 제3 융합 특징에서의 최하위 계층의 융합 특징일 수 있고, 또는 제3 융합 특징에서의 최하위 계층의 융합 특징에 대해 하나 또는 복수의 특징 추출을 수행하여 획득한 특징일 수도 있으며; 이번 하위 계층 특징에서 상위 계층 특징으로의 방향을 따라 특징 융합을 수행하여 획득한 하나의 융합 특징 배치는, 제3 융합 특징에서 최하위 계층의 융합 특징 및 상기 단계 306에서 매번 융합 동작을 통해 융합을 수행하여 획득된 융합 특징을 포함한다.
상기 실시예는 하나의 리트레이싱 융합을 수행한 것을 예로 들어 설명하고, 상기 적어도 두 개의 상이한 계층의 특징에 대해 두 번 또는 그 이상의 리트레이싱 융합을 수행하면, 단계 304 내지 단계 306을 여러 번 실행하여, 최종적으로 하나의 융합 특징 배치 즉 제2 융합 특징을 획득할 수 있다.
하나의 선택적인 예에 있어서, 상기 단계 304 내지 단계 306은 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 실행될 수 있거나, 프로세서에 의해 작동되는 제2 융합 모듈에 의해 실행될 수도 있다.
단계 308에 있어서, 이미지에서의 각 인스턴스 후보 영역에 따라, 제2 융합 특징으로부터 적어도 하나의 인스턴스 영역에 대응하는 영역 특징을 각각 추출한다.
본 발명의 각 실시예에서, 예를 들어, 영역 제안 네트워크(Region Proposal Network, RPN)를 사용하여 이미지에 대해 각 인스턴스 후보 영역을 생성할 수 있지만 이에 한정되지 않으며, 각 인스턴스 후보 영역은 제2 융합 특징에서의 각 특징에 매핑된 후, 예를 들어, 관심 영역 (region of interest, ROI)에 정렬(ROIAlign)하는 방법을 사용하여, 제2 융합 특징으로부터 각 인스턴스 후보 영역에 대응하는 영역 특징을 추출 할 수 있지만 이에 한정되지 않는다.
하나의 선택적인 예에서, 상기 단계 308은 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 실행될 수 있거나, 프로세서에 의해 작동되는 추출 모듈로써 실행될 수도 있다.
단계 310에 있어서, 동일한 인스턴스 후보 영역에 대응하는 복수 개의 영역 특징에 대해 픽셀 레벨의 융합을 각각 수행하여, 각 인스턴스 후보 영역의 융합 특징을 획득한다.
하나의 선택적인 예에서, 상기 단계 310은 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 실행될 수 있거나, 프로세서에 의해 작동되는 제1 융합 모듈로써 실행될 수도 있다.
단계 312에서, 각 제1 융합 특징에 기반하여 인스턴스 분할을 각가 수행하여, 상응한 인스턴스 후보 영역의 인스턴스 분할 결과를 획득한다.
하나의 선택적인 예에서, 상기 단계 312는 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 실행될 수 있거나, 프로세서에 의해 작동되는 분할 모듈로써 실행될 수도 있다.
본 발명의 각 인스턴스 분할 방법 실시예의 하나의 실시형태에서, 제1 융합 특징에 기반하여, 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역에 대해 인스턴스 분할을 수행하여, 대응하는 인스턴스 후보 영역의 인스턴스 분할 결과를 획득하는 단계는,
상기 제1 융합 특징에 기반하여, 픽셀 레벨의 인스턴스 클래스 예측을 수행하여, 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역의 인스턴스 클래스 예측 결과를 획득하는 단계; 상기 제1 융합 특징에 기반하여 픽셀 레벨의 전경 및 배경 예측을 수행하여, 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역의 전경 및 배경 예측 결과를 획득하는 단계를 포함한다. 여기서, 상기 제1 융합 특징은 임의의 인스턴스 후보 영역의 제1 융합 특징이며;
상기 인스턴스 클래스 예측 및 전경 및 배경 예측 결과에 기반하여, 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역의 인스턴스 분할 결과를 획득하고, 상기 인스턴스 분할 결과는, 현재 인스턴스 후보 영역에 속하는 어느 인스턴스의 픽셀 및 상기 인스턴스가 속하는 클래스 정보를 포함한다.
본 실시예에 기반하여, 상기 제1 융합 특징에 기반하여, 픽셀 레벨의 인스턴스 클래스 및 전경 및 배경 예측을 동시에 수행하여, 픽셀 레벨의 인스턴스 클래스 예측을 통해 상기 제1 융합 특징에 대해 미세 분류 및 다중 분류를 수행할 수 있으며, 전경 및 배경 예측을 통해 더 나은 글로벌 정보를 획득하고, 또한 다수의 인스턴스 클래스 사이의 세부 정보에 주목할 필요가 없으므로, 예측 속도가 향상되는 동시에, 상기 인스턴스 예측 결과 및 전경 및 배경 예측 결과에 기반하여 인스턴스 후보 영역의 인스턴스 분할 결과를 획득함으로써, 인스턴스 후보 영역 또는 이미지의 인스턴스 분할 결과를 향상시킬 수 있다.
하나의 선택적인 예에서, 상기 제1 융합 특징에 기반하여, 픽셀 레벨의 인스턴스 클래스 예측을 수행하는 단계는,
제1 컨볼루션 네트워크를 통해, 상기 제1 융합 특징에 대해 특징 추출을 수행하는 단계 - 상기 제1 컨볼루션 네트워크는 적어도 하나의 완전 컨볼루션 계층을 포함함 - ; 및
제1 완전 컨볼루션 계층을 통해, 상기 제1 컨볼루션 네트워크에 의해 출력된 특징에 기반하여 픽셀 레벨의 물체 클래스 예측을 수행하는 단계를 포함할 수 있다.
하나의 선택적인 예에서, 제1 융합 특징에 기반하여 픽셀 레벨의 전경 및 배경 예측을 수행하는 단계는,
상기 제1 융합 특징에 기반하여, 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역에서 전경에 속하는 픽셀 및 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역에서 배경에 속하는 픽셀 중 적어도 하나를 예측하는 단계를 포함한다.
여기서, 배경과 전경은 수요에 따라 설정될 수 있다. 예를 들어, 전경은 모든 인스턴스 클래스에 대응하는 부분을 포함할 수 있으며, 배경은 모든 인스턴스 클래스 대응하는 부분 이외의 부분을 포함할 수 있으며; 또는, 배경은 모든 인스턴스 클래스에 대응하는 부분을 포함할 수 있으며, 전경은 모든 인스턴스 클래스 대응하는 부분 이외의 부분을 포함할 수 있다.
다른 하나의 선택적인 예에서, 제1 융합 특징에 기반하여 픽셀 레벨의 전경 및 배경을 예측하는 단계는,
제2 컨볼루션 네트워크를 통해, 상기 제1 융합 특징에 대해 특징 추출을 수행하는 단계 - 상기 제2 컨볼루션 네트워크는 적어도 하나의 완전 컨볼루션 계층을 포함함 - ; 및
완전 연결 계층을 통해, 상기 제2 컨볼루션 네트워크에 의해 출력된 특징에 기반하여 픽셀 레벨의 전경 및 배경 예측을 수행하는 단계를 포함할 수 있다.
본 발명의 각 인스턴스 분할 방법 실시예의 하나의 실시형태에서, 상기 인스턴스 클래스 예측 결과 및 전경 및 배경 예측 결과에 기반하여, 제1 융합 특징에 대응하는 인스턴스 후보 영역의 인스턴스 분할 결과를 획득하는 단계는,
상기 제1 융합 특징에 대응하는 인스턴스 후보 영역의 클래스 예측 결과와 전경 및 배경 예측 결과에 대해 픽셀 레벨의 합산 처리를 수행하여, 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역의 인스턴스 분할 결과를 획득하는 단계를 포함한다.
다른 하나의 실시형태에서, 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역의 전경 및 배경 예측 결과를 획득한 후에, 상기 전경 및 배경 예측 결과를 상기 인스턴스 클래스 결과의 차원과 일치한 전경 및 배경 예측 결과로 전환하는 단계를 더 포함한다. 예를 들어, 전경 및 배경 예측 결과를 벡터에서 물체 클래스 예측의 차원과 일치한 매트릭스로 전환된다. 이에 대응하여, 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역의 물체 클래스 예측 결과와 전경 및 배경 예측 결과에 대해 합산 처리를 수행하는 단계는, 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역의 인스턴스 클래스 예측 결과와, 전환하여 획득된 전경 및 배경 예측 결과에 대해 픽셀 레벨의 합산 처리를 수행하는 단계를 포함할 수 있다.
여기서, 본 발명의 각 실시예의 상기 실시형태에서, 각 인스턴스 후보 영역의 제1 융합 특징에 기반하여 인스턴스 분할을 각각 수행하여, 각 인스턴스 후보 영역의 인스턴스 분할 결과를 획득할 경우, 상기 인스턴스 후보 영역의 제1 융합 특징에 기반하여 인스턴스 클래스 예측 및 전경 및 배경 예측을 동시에 수행하므로, 상기 부분 방안은 듀얼 경로 마스크 예측이라 지칭할 수 있고, 도 4는, 본 발명의 실시예에서의 듀얼 경로 마스크 예측을 수행하는 하나의 네트워크 구조 예시도이다.
도 4에 도시된 바와 같이, 인스턴스 후보 영역에 대응하는 복수의 영역 특징은, 두 개의 브랜치를 통해 인스턴스 클래스 예측 및 전경 및 배경 예측을 각각 수행한다. 여기서, 첫 번째 브랜치는, 네 개의 완전 컨볼루션 계층(conv1 - conv4) 즉 상기 제1 컨볼루션 네트워크, 및 하나의 디컨볼루션 계층(deconv) 즉 상기 완전 제1 컨볼루션 계층을 포함한다. 다른 하나의 브랜치는, 첫 번째 브랜치의 세 번째 완전 컨볼루션 계층 및 네 번째 완전 컨볼루션 계층(conv3 - conv4), 및 두 개의 완전 컨볼루션 계층(conv4.fc 및 conv5.fc), 즉 상기 제2 컨볼루션 네트워크; 완전 연결 계층(fc); 및 전경 및 배경 예측 결과를 인스턴스 클래스 예측 결과의 차원과 일치한 전경 및 배경 예측 결과로 전환하기 위한 전환 (reshape)계층을 포함한다. 첫 번째 브랜치는 각 잠재적 인스턴스 클래스에 대해 픽셀 레벨의 마스크 예측을 수행하고, 완전 연결 계층은 마스크 예측과 무관한 하나의 인스턴스 클래스 예측을 수행한다(즉, 픽셀 레벨의 전경 및 배경 예측). 마지막으로 두 개의 브랜치의 마스크 예측을 합산하여 최종 인스턴스 분할 결과를 획득한다.
도 5는 본 발명 인스턴스 분할 방법의 하나의 응용 실시예의 흐름도이다. 도 6은 도 5에 도시된 응용 실시예의 과정 예시도이다. 도 5 및 도 6을 동시에 참조하면, 상기 응용 실시예의 인스턴스 분할 방법은 다음의 단계를 포함한다.
단계 502에 있어서, 뉴럴 네트워크를 통해 이미지에 대해 특징 추출을 수행하여, 뉴럴 네트워크에서의 상이한 네트워크 깊이를 갖는 네 개의 네트워크 계층에 의해 네 개의 계층의 특징 M1 내지 M4를 출력한다.
하나의 선택적인 예에 있어서, 상기 단계 502는 프로세서에 의해 메모리에 저장된 대응되는 명령어를 호출함으로써 실행될 수 있으며, 프로세서에 의해 작동되는 뉴럴 네트워크에 의해 실행될 수도 있다.
단계 504에 있어서, 상기 네 개의 계층의 특징에서, 상위 계층 특징 M4에서 하위 계층 특징 M1(즉, 위에서 아래로의 순서)로의 순서에 따라, 더 높은 계층의 특징Mi+1에 대해 업 샘플링을 수행한 후, 업 샘플링된 특징을 낮은 계층의 특징 Mi과 융합하여, 제1 배치 융합 특징 P2 내지 P5를 획득한다.
여기서, i의 값은 순차적으로 1 내지 3의 정수이다. 융합에 참여한 특징 및 제1 배치 융합 특징에서, 최상위 계층의 융합 특징 P5는 상기 네 개의 상이한 계층의 특징에서 최상위 계층의 특징M4 또는 완전 컨볼루션 계층을 통해 상기 특징 M4에 대해 특징 추출을 수행하여 획득한 특징이며; 제1 융합 특징은 상기 네 개의 상이한 계층의 특징에서의 최상위 계층의 융합 특징 및 매번 융합을 수행하여 획득된 융합 특징 P2 내지 P5를 포함한다.
단계 506에 있어서, 상기 제1 배치 융합 특징에서, 하위 계층 특징 P2에서 상위 계층 특징 P5(즉, 아래에서 위로의 순서)로의 순서에 따라, 낮은 계층의 융합 특징 Pk을 순차적으로 다운 샘플링한 다음, 더 높은 계층의 인접한 특징 Pk+1에 대해 융합을 수행하여, 제2 배치 융합 특징 N2 내지 N5를 획득한다.
여기서, k의 값은 순차적으로 2 내지 4의 정수이다. 이번 융합에 참여한 융합 특징 및 제2 배치 융합 특징에서, 최하위 계층의 융합 특징 N2는 제1 배치 융합 특징에서의 최하위 계층의 융합 특징 P2 또는 완전 컨볼루션 계층을 통해 상기 융합 특징P2에 대해 특징 추출을 수행하여 획득한 특징이며, 제2 배치 융합 특징은 제1 융합 특징에서의 최하위 계층의 특징 P2에 대응하는 특징 및 매번 융합을 수행하여 획득된 융합 특징을 포함하며, 여기서, 제1 융합 특징에서 최하위 계층의 특징에 대응하는 특징은, 즉 제1 융합 특징에서 최하위 계층의 융합 특징 P2 또는 컨볼루션 계층을 통해 상기 융합 특징 P2에 대해 특징 추출을 수행하여 획득된 특징이다.
본 응용 실시예는 상기 네 개의 계층의 특징 M1 내지 특징 M4에 대해 하나의 리트레이싱 융합을 수행한 것을 예로 들어 설명하고, 단계 506을 통해 획득된 제2 배치 융합 특징은 본 발명의 상기 각 실시예에서의 제2 융합 특징이다.
하나의 선택적인 예에 있어서, 상기 단계 502 내지 단계 504는 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 실행될 수 있거나, 프로세서에 의해 작동되는 제1 융합 모듈로 실행될 수도 있다.
단계 508에 있어서, 제2 융합 특징N2 내지N5로부터 상기 이미지에서 적어도 하나의 인스턴스 후보 영역에 대응하는 영역 특징을 추출한다.
본 발명의 각 실시예에서, 예를 들어, 이미지에 대해 적어도 하나의 인스턴스 후보 영역을 생성하고, 각 인스턴스 후보 영역을 제2 융합 특징에서의 각 특징에 각각 매핑하기 위해 영역 추천 네트워크를 채택할 수 있지만 이에 한정되지 않으며; 예를 들어, 제2 융합 특징으로부터 동일한 인스턴스 후보 영역에 대응하는 영역 특징으로 각각 추출하는 관심 영역 정렬 방법을 채택할 수 있지만 이에 한정되지 않는다.
하나의 선택적인 예에 있어서, 상기 단계 508은 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 실행될 수 있거나, 프로세서에 의해 작동되는 추출 모듈로 실행될 수도 있다.
단계 510에 있어서, 동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징에 대해 픽셀 레벨의 융합을 각각 수행하여, 각 인스턴스 후보 영역의 제1 융합 특징을 획득한다.
하나의 선택적인 예에 있어서, 상기 단계 510은 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 실행될 수 있거나, 프로세서에 의해 작동되는 제1 융합 모듈로 실행될 수도 있다.
다음, 단계 512 및 단계 516을 각각 실행한다.
단계 512에 있어서, 각 인스턴스 후보 영역의 제1 융합 특징에 기반하여 인스턴스 분할을 각각 수행하여, 상응한 인스턴스 후보 영역의 인스턴스 분할 결과를 획득한다.
상기 인스턴스 분할 결과는 각 인스턴스의 물체 박스(box) 또는 위치 및 상기 인스턴스가 속하는 인스턴스 클래스(class)를 포함한다.
하나의 선택적인 예에 있어서, 상기 단계 512는 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 실행될 수 있거나, 프로세서에 의해 작동되는 제1 분할 유닛으로 실행될 수도 있다.
다음, 본 응용 실시예의 후속 프로세스를 실행하지 않는다.
단계 514에 있어서, 각 인스턴스 후보 영역의 제1 융합 특징에 기반하여 픽셀 레벨의 인스턴스 클래스 예측을 각각 수행하여, 각 인스턴스 후보 영역의 인스턴스 클래스 예측 결과를 획득하며; 각 인스턴스 후보 영역의 제1 융합 특징에 기반하여 픽셀 레벨의 전경 및 배경 예측을 각각 수행하여, 각 인스턴스 후보 영역의 전경 및 배경 예측 결과를 획득한다.
하나의 선택적인 예에 있어서, 상기 단계 514는 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 실행될 수 있거나, 프로세서에 의해 작동되는 제1 분할 유닛 또는 제1 분할 유닛에서의 제1 예측 서브 유닛과 제2 예측 서브 유닛으로 실행될 수도 있다.
단계 516에 있어서, 각 인스턴스 후보 영역의 제1 융합 특징에 대응하는 클래스 예측 결과와 전경 및 배경 예측 결과에 대해 픽셀 레벨의 합산 처리를 각각 수행하여, 각 제1 융합 특징에 대응하는 인스턴스 후보 영역의 인스턴스 분할 결과를 획득한다.
여기서, 상기 인스턴스 분할 결과는, 현재 인스턴스 후보 영역에서 어느 한 인스턴스에 속하는 픽셀 및 상기 인스턴스가 속하는 클래스를 포함하며, 여기서 인스턴스 클래스는, 배경 또는 어느 한 인스턴스 클래스일 수 있다.
하나의 선택적인 예에 있어서, 상기 단계 516은 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 실행될 수 있거나, 프로세서에 의해 작동되는 제1 분할 유닛 또는 제1 분할 유닛에서의 획득 서브 유닛으로 실행될 수도 있다.
여기서, 상기 단계 512와 단계 514 내지 단계 516 사이는 실행 시간 상에서 선후 순서가 없으며, 둘은 동시에 실행되거나, 임의의 시간 순서로 실행될 수도 있다.
또한, 본 발명의 상기 각 실시예에서, 각 인스턴스 영역의 제1 융합 특징을 획득한 다음, 상기 제1 융합 특징에 기반하여 이미지의 적어도 부분 영역에 대해 시맨틱 분할을 수행하여, 시맨틱 분할 결과를 획득할 수도 있다.
또는, 본 발명의 상기 각 실시예에서, 각 인스턴스 영역의 제2 융합 특징을 획득한 다음, 상기 제2 융합 특징에 기반하여 이미지의 적어도 부분 영역에 대해 시맨틱 분할을 수행하여, 시맨틱 분할 결과를 획득할 수도 있다.
여기서, 상기 시맨틱 분할 결과는 예를 들어, 상기 이미지의 적어도 부분 영역의 각 픽셀이 속하는 클래스를 포함할 수 있다.
본 발명의 각 실시예에서, 이미지의 적어도 부분 영역은 이미지의 전부 영역 또는 국부 영역(예를 들어, 후보 영역)일 수 있으며, 즉, 전체 이미지에 대해 시맨틱 분할을 수행하여, 이미지의 시맨틱 분할 결과를 획득할 수 있으며; 이미지의 국부 영역(예를 들어, 후보 영역)에 대해 시맨틱 분할을 수행하여, 국부 영역의 시맨틱 분할 결과를 획득할 수도 있다. 여기서 후보 영역은 예를 들어 상기 각 실시예에서의 인스턴스 후보 영역일 수 있고, 또는 다른 방식으로 생성된 후보 영역일 수도 있다.
하나의 선택적인 예에 있어서, 상기 이미지의 적어도 부분 영역에 대해 시맨틱 분할을 수행하는 단계는 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 실행될 수 있거나, 프로세서에 의해 작동되는 분할 모듈 또는 분할 모듈에서 실행될 수도 있다.
상기 실시예에 기반하여, 이미지에 대한 적어도 부분 영역의 시맨틱 분할을 구현한다. 또한, 제1 융합 특징 또는 제2 융합 특징에 기반하여 이미지의 적어도 부분 영역에 대해 시맨틱 분할을 수행함으로써, 컨텍스트 정보를 사용하여 이미지 시맨틱 분할 결과의 정확도를 향상시킬 수 있다.
설명해야 할 것은 본 발명의 상기 각 실시예에서, 각 인스턴스 후보 영역의 제2 융합 특징을 획득한 다음, 제2 융합 특징에 기반하여 인스턴스 분할을 수행하여, 상응한 인스턴스 후보 영역의 인스턴스 분할 결과 및 상기 이미지의 인스턴스 결과 중 적어도 하나를 획득할 수 있다. 여기서, 제1 융합 특징에 기반하여 인스턴스 분할을 수행하여, 상응한 인스턴스 후보 영역의 인스턴스 분할 결과 및 상기 이미지의 인스턴스 분할 결과 중 적어도 하나를 획득하며, 상기 제1 융합 특징에 기반하여 인스턴스 분할을 수행하여, 상응한 인스턴스 후보 영역의 인스턴스 분할 결과 및 이미지의 인스턴스 분할 결과 중 적어도 하나를 획득하는 각 실시예를 참조할 수 있으며, 둘은 유사한 방안으로 구현될 수 있고, 본 발명에서 더이상 반복하지 않는다.
본 발명 실시예에 의해 제공된 임의의 인스턴스 분할 방법은 임의의 적합한 데이터 처리 능력을 구비한 기기에 의해 실행될 수 있으며, 단말 기기 및 서버 등을 포함하지만 이에 한정되지 않는다. 또는, 본 발명의 실시예에 의해 제공된 임의의 인스턴스 분할 방법은 프로세서에 의해 실행될 수 있고, 예컨대, 프로세서는 메모리에 저장된 상응하는 명령어를 호출함으로써 본 발명 실시예에 언급된 임의의 인스턴스 분할 방법을 실행한다. 아래에 더이상 설명하지 않는다.
당업자는 상기 방법 실시예를 구현하기 위한 모든 또는 일부 동작은 프로그램 명령어와 관련되는 하드웨어를 통해 완료될 수 있으며, 전술한 프로그램은 컴퓨터 판독 가능한 저장 매체에 저장될 수 있으며, 상기 프로그램이 실행될 때, 실행은 상기 방법 실시예의 동작을 포함하고; 전술한 저장 매체는 판독 전용 메모리(Read Only Memory, ROM), 랜덤 액세스 메모리(Random Access Memory, RAM), 자기 디스크 또는 광 디스크와 같은 프로그램 코드를 저장할 수 있는 다양한 매체를 포함한다.
도 7은 본 발명의 인스턴스 분할 장치의 구조 예시도이다. 상기 실시예의 인스턴스 분할 장치는 본 발명의 상기 각 인스턴스 분할 방법 실시예를 구현하기 위한 것일 수 있다. 도 7에 도시된 바와 같이, 상기 실시예의 장치는, 뉴럴 네트워크, 추출 모듈, 제1 융합 모듈 및 분할 모듈을 포함한다. 여기서,
뉴럴 네트워크는, 이미지에 대해 특징 추출을 수행하여, 적어도 두 개의 상이한 계층의 특징을 출력한다.
여기서, 상기 뉴럴 네트워크는 상이한 네트워크 깊이를 갖는 적어도 두 개의 네트워크 계층을 포함하고, 이미지에 대해 특징 추출을 수행하여, 상이한 네트워크 깊이를 갖는 적어도 두 개의 네트워크 계층을 통해 적어도 두 개의 상이한 계층의 특징을 출력하기 위한 것이다.
추출 모듈은, 상기 적어도 두 개의 상이한 계층의 특징으로부터 이미지에서의 적어도 하나의 인스턴스 후보 영역에 대응하는 영역 특징을 추출하기 위한 것이다.
제1 융합 모듈은, 동일한 인스턴스 후보 영역에 대응하는 영역 특징에 대해 융합을 수행하여, 각 인스턴스 후보 영역의 제1 융합 특징을 획득하기 위한 것이다.
분할 모듈은, 각 제1 융합 특징에 기반하여 인스턴스 분할을 수행하여, 상응한 인스턴스 후보 영역의 인스턴스 분할 결과 및 이미지의 인스턴스 분할 결과 중 적어도 하나를 획득하기 위한 것이다.
본 발명의 상기 실시예에 제공된 인스턴스 분할 장치에 기반하여, 뉴럴 네트워크를 통해 이미지에 대해 특징 추출을 수행하여, 적어도 두 개의 상이한 계층의 특징을 출력하며; 적어도 두 개의 상이한 계층의 특징으로부터 이미지에서의 적어도 하나의 인스턴스 후보 영역에 대응하는 영역 특징을 추출하고, 동일한 인스턴스 후보 영역에 대응하는 영역 특징에 대해 융합을 수행하여, 각 인스턴스 후보 영역의 제1 융합 특징을 획득하며; 각 제1 융합 특징에 기반하여 인스턴스 분할을 수행하여, 상응한 인스턴스 후보 영역의 인스턴스 분할 결과 및 이미지의 인스턴스 분할 결과 중 적어도 하나를 획득한다. 본 발명의 실시예는 딥 러닝 프레임 워크에 기반한 인스턴스 분할 문제를 해결하고, 딥 러닝에는 강력한 모델링 기능이 있으므로, 더 나은 인스턴스 분할 결과를 획득하는데 도움이 되며; 또한, 전체 이미지에 대해 인스턴트 분할을 직접 수행하는 것과 비교할 경우, 인스턴스 후보 영역에 대해 인스턴스 분할을 수행하면, 인스턴스 분할 정확도를 향상시켜, 인스턴스 분할에 필요한 계산량과 복잡성을 줄임으로써, 인스턴스 분할 효율을 향상시킬 수 있으며; 또한, 적어도 두 개의 상이한 계층의 특징으로부터 인스턴스 후보 영역에 대응하는 영역 특징을 추출하여 융합을 수행하며, 획득된 융합 특징에 기반하여 인스턴스 분할을 수행하여, 각 인스턴스 후보 영역이 동시에 더 많은 상이한 계층의 정보를 획득할 수 있고, 상이한 계층의 특징으로부터 추출된 정보는 모두 상이한 시맨틱 계층에 위치하므로, 컨텍스트 정보를 사용하여 각 인스턴스 후보 영역의 인스턴스 분할 결과의 정확성을 향상시킬 수 있다.
도 8은 본 발명의 인스턴스 분할 장치의 다른 하나의 실시예의 구조 예시도이다. 도 8에 도시된 바와 같이, 도 7에 도시된 실시예와 비교하면, 상기 실시예의 인스턴스 분할 장치는, 적어도 두 개의 상이한 계층의 특징에 대해 적어도 하나의 리트레이싱 융합을 수행하여, 제2 융합 특징을 획득하기 위한 제2 융합 모듈을 더 포함한다. 여기서, 하나의 리트레이싱 융합은, 뉴럴 네트워크의 네트워크 깊이 방향에 기반하여, 상이한 네트워크 깊이를 갖는 네트워크 계층에 의해 각각 출력된 상이한 계층의 특징에 대해, 두 개의 상이한 계층의 방향에 따라 순차적으로 융합을 수행하는 단계를 포함한다. 이에 대응하여, 상기 실시예에서, 추출 모듈은 제2 융합 특징으로부터 적어도 하나의 인스턴스 후보 영역에 대응하는 영역 특징을 추출하기 위한 것이다.
하나의 실시형태에서, 상기 두 개의 상이한 계층 방향은, 상위 계층 특징에서 하위 계층 특징으로의 방향, 및 하위 계층 특징에서 상위 계층 특징으로의 방향을 포함할 수 있다.
따라서 상기 두 개의 상이한 계층 방향에 순차적으로 따르는 것은, 상위 계층 특징에서 하위 계층 특징으로의 방향 및 상위 계층 특징에서 하위 계층 특징으로의 방향을 순차적으로 따르는 것; 또는, 하위 계층 특징에서 상위 계층 특징으로의 방향 및 상위 계층 특징에서 하위 계층 특징의 방향을 순차적으로 따르는 것을 포함할 수 있다.
하나의 선택적인 예에서, 제2 융합 모듈은 상이한 네트워크 깊이를 갖는 네트워크 계층에 의해 각각 출력된 상이한 계층의 특징에 대해, 상위 계층 특징에서 하위 계층 특징으로의 방향 및 하위 계층 특징에서 상위 계층 특징으로의 방향을 따라 순차적으로 융합을 수행할 경우, 뉴럴 네트워크의 네트워크 깊이의 깊은데서 얕은데로의 방향을 따라, 뉴럴 네트워크에서, 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 높은 계층의 특징에 대해 순차적으로 업 샘플링을 수행한 후, 업 샘플링된 특징을 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 낮은 계층의 특징과 융합하여, 제3 융합 특징을 획득하며; 하위 계층 특징에서 상위 계층 특징으로의 방향을 따라, 더 낮은 계층의 융합 특징에 대해 순차적으로 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 상기 제3 융합 특징에서의 더 높은 계층의 융합 특징과 융합하기 위한 것이다.
여기서,더 높은 계층의 특징은, 뉴럴 네트워크에서 상기 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 특징, 또는 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 특징에 대해 적어도 하나의 특징 추출을 수행하여 획득한 특징을 포함할 수 있다.
하나의 선택적인 예에서, 제2 융합 모듈은 뉴럴 네트워크에서, 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 높은 계층의 특징에 대해 순차적으로 업 샘플링을 수행한 후, 업 샘플링된 특징을 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 낮은 계층의 특징과 융합을 수행할 경우, 뉴럴 네트워크에서, 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 높은 계층의 특징에 대해 순차적으로 업 샘플링을 수행한 후, 업 샘플링된 특징을 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 인접한 더 낮은 계층의 특징과 융합하기 위한 것이다.
하나의 선택적인 예에서, 제2 융합 모듈은 더 낮은 계층의 융합 특징에 대해 순차적으로 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 제3 융합 특징에서의 더 높은 계층의 융합 특징과 융합할 경우, 더 낮은 계층의 융합 특징에 대해 순차적으로 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 상기 제3 융합 특징에서의 더 높은 계층의 인접한 융합 특징과 융합하기 위한 것이다.
하나의 선택적인 예에서, 제2 융합 모듈은 상이한 네트워크 깊이를 갖는 네트워크 계층에 의해 각각 출력된 상이한 계층의 특징에 대해, 하위 계층 특징에서 상위 계층 특징으로의 방향 및 상위 계층 특징에서 하위 계층 특징으로의 방향을 따라 순차적으로 융합을 수행할 경우, 뉴럴 네트워크의 네트워크 깊이가 얕은데서 깊은데로의 방향을 따라, 뉴럴 네트워크에서, 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 낮은 계층의 특징에 대해 순차적으로 업 샘플링을 수행한 후, 업 샘플링된 특징을 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 높은 계층의 특징과 융합하여, 제3 융합 특징을 획득하기 위한 것이다.
상위 계층 특징에서 하위 계층 특징으로의 방향을 따라, 더 높은 계층의 융합 특징에 대해 순차적으로 업 샘플링을 수행한 후, 업 샘플링된 특징을 제4 융합 특징에서의 더 낮은 계층의 융합 특징과 융합한다.
여기서, 더 낮은 계층의 특징은 예를 들어, 뉴럴 네트워크에서 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 특징, 또는 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 특징에 대해 적어도 하나의 특징 추출을 수행하여 획득한 특징을 포함할 수 있다.
하나의 선택적인 예에서, 제2 융합 모듈은 뉴럴 네트워크에서, 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 낮은 계층의 특징에 대해 순차적으로 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 높은 계층의 특징과 융합할 경우, 뉴럴 네트워크에서, 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 낮은 계층의 특징에 대해 순차적으로 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 인접한 더 깊은 계층의 특징과 융합하기 위한 것이다.
하나의 선택적인 예에서, 제2 융합 모듈은 더 높은 계층의 융합 특징에 대해 순차적으로 업 샘플링을 수행한 후, 업 샘플링된 특징을 제4 융합 특징에서의 더 낮은 계층의 융합 특징과 융합할 경우, 더 높은 계층의 융합 특징에 대해 순차적으로 업 샘플링을 수행한 후, 업 샘플링된 특징을 상기 제4 융합 특징에서의 더 낮은 계층의 인접한 융합 특징과 융합하기 위한 것이다.
하나의 선택적인 예에서, 제1 융합 모듈은 동일한 인스턴스 후보 영역에 대응하는 영역 특징에 대해 융합을 수행할 경우, 동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징에 대해 필셀 레벨의 융합을 각각 수행하기 위한 것이다.
예를 들어, 제1 융합 모듈은 동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징에 대해 픽셀 레벨의 융합을 수행할 경우, 각각 동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징에 대해 요소별 최대를 각각 수행하고; 또는, 동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징에 대해 요소별 평균을 각각 수행하며; 또는, 동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징에 대해 요소별 합산을 각각 수행하기 위한 것이다.
또한, 다시 도 8을 참조하면, 본 발명의 상기 실시예의 하나의 실시형태에서, 분할 모듈은,
제1 융합 특징에 기반하여, 제1 융합 특징에 대응하는 인스턴스 후보 영역에 대해 인스턴스 분할을 수행하여, 대응하는 인스턴스 후보 영역의 인스턴스 분할 결과를 획득하기 위한 제1 분할 유닛; 및,
각 제1 융합 특징에 기반하여 이미지에 대해 인스턴스 분할을 수행하여, 이미지의 인스턴스 분할 결과 획득하기 위한 제2 분할 유닛 중 적어도 하나를 포함한다.
도 9는 본 발명 실시예에 따른 분할 모듈의 하나의 실시예의 예시도이다. 도 9에 도시된 바와 같이, 본 발명의 상기 각 실시예에서, 분할 모듈은,
각 제1 융합 특징에 기반하여, 각 제1 융합 특징에 각각 대응하는 인스턴스 후보 영역에 대해 인스턴스 분할을 각각 수행하여, 각 인스턴스 후보 영역의 인스턴스 분할 결과를 획득하기 위한 제1 분할 유닛; 및
인스턴스 후보 영역의 인스턴스 분할 결과에 기반하여, 이미지의 인스턴스 분할 결과를 획득하기 위한 획득 유닛을 포함한다.
하나의 실시형태에서, 제1 분할 유닛은,
제1 융합 특징에 기반하여, 픽셀 레벨의 인스턴스 클래스 예측을 수행하여, 제1 융합 특징에 대응하는 인스턴스 클래스 예측 결과를 획득하기 위한 제1 예측 서브 유닛;
제1 융합 특징에 기반하여, 픽셀 레벨의 전경 및 배경 예측을 수행하여, 제1 융합 특징에 대응하는 인스턴스 후보 영역의 전경 및 배경 예측 결과를 획득하기 위한 제2 예측 서브 유닛; 및
인스턴스 클래스 예측 결과 및 상기 전경 및 배경 예측 결과에 기반하여, 제1 융합 특징에 대응하는 인스턴스 후보 영역의 인스턴스 분할 결과를 획득하기 위한 획득 서브 유닛을 포함한다.
하나의 선택적인 예에서, 제2 예측 서브 유닛은, 제1 융합 특징에 기반하여, 제1 융합 특징에 대응하는 인스턴 후보 영역에서 전경에 속하는 픽셀 및 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역에서 배경에 속하는 픽셀 중 적어도 하나를 예측하기 위한 것이다.
여기서, 전경은 모든 인스턴스 클래스에 대응하는 부분을 포함하고, 배경은 모든 인스턴스 클래스 대응하는 부분 이외의 부분을 포함하며; 또는, 배경은 모든 인스턴스 클래스에 대응하는 부분을 포함하고, 전경은 모든 인스턴스 클래스 대응하는 부분 이외의 부분을 포함한다.
하나의 선택적인 예에서, 제1 예측 서브 유닛은, 제1 융합 특징에 대해 특징 추출을 수행하기 위한 제1 컨볼루션 네트워크를 포함하며; 제1 컨볼루션 네트워크는 적어도 하나의 완전 컨볼루션 계층을 포함하며; 제1 컨볼루션 네트워크에 따라 출력된 특징에 기반하여 픽셀 레벨의 물체 클래스 예측을 수행하기 위한 제1 완전 컨볼루션 계층을 포함한다.
하나의 선택적인 예에서, 제2 예측 서브 유닛은, 제1 융합 특징에 대해 특징 추출을 수행하기 위한 제2 컨볼루션 네트워크를 포함하며; 제2 컨볼루션 네트워크는 적어도 하나의 완전 컨볼루션 계층; 및 제2 컨볼루션 네트워크에 의해 출력된 특징에 기반하여 픽셀 레벨의 전경 및 배경 예측을 수행하기 위한 완전 연결 계층을 포함한다.
하나의 선택적인 예에서, 획득 서브 유닛은, 제1 융합 특징에 대응하는 인스턴스 후보 영역의 클래스 예측 결과와 전경 및 배경 예측 결과에 대해 픽셀 레벨의 합산 처리를 수행하여, 제1 융합 특징에 대응하는 인스턴스 후보 영역의 인스턴스 분할 결과를 획득하기 위한 것이다.
또한, 다시 도 9를 참조하면, 제1 분할 유닛은, 전경 및 배경 예측 결과를 상기 인스턴스 클래스 예측 결과의 차원과 일치한 전경 및 배경 예측 결과를 획득하기 위한 전환 서브 유닛을 더 포함할 수 있다. 이에 대응하여, 상기 실시예에서, 획득 서브 유닛은 제1 융합 특징에 대응하는 인스턴스 영역의 인스턴스 클래스 예측 결과와, 전환하여 획득된 전경 및 배경 예측 결과에 대해 픽셀 레벨의 합산 처리를 수행하기 위한 것이다.
또한, 본 발명의 상기 실시예의 하나의 실시형태에서, 분할 모듈은, 제1 융합 특징에 기반하여 이미지의 적어도 부분 영역에 대해 시맨틱 분할을 수행하여, 시맨틱 분할 결과을 획득하거나; 또는, 제2 융합 특징에 기반하여 이미지의 적어도 부분 영역에 대해 시맨틱 분할을 수행하여, 시맨틱 분할 결과 획득하기 위한 제3 분할 유닛을 더 포함할 수 있다.
또한, 본 발명의 실시예는 다른 전자 기기를 제공하며, 상기 전자 기기는,
컴퓨터 프로그램을 저장하기 위한 메모리; 및
메모리에 저장된 컴퓨터 프로그램을 실행하고, 컴퓨터 프로그램이 실행될 경우, 본 발명의 실시예에 설명된 인스턴스 분할 방법을 구현하기 위한 프로세서를 포함한다.
도 10은 본 발명의 전자 기기의 하나의 응용 실시예의 구조 예시도이다. 아래에 도 10을 참조하면, 본 발명의 실시예의 단말 기기 또는 서버를 구현하기에 적합한 전자 기기의 구조 모식도를 도시한다. 도 10에 도시된 바와 같이, 상기 전자 기기는 하나 또는 복수의 프로세서, 통신부 등을 포함하며, 상기 하나 또는 복수의 프로세서는 예를 들어, 하나 또는 복수의 중앙 처리 장치(CPU), 및 하나 또는 복수의 그래픽 처리 장치(GPU) 중 적어도 하나이며, 프로세서는 판독 전용 메모리(ROM)에 저장된 실행 가능한 명령어 또는 저장 섹션으로부터 랜덤 액세스 메모리(RAM)에 로딩된 실행 가능 명령어에 따라 다양한 적절한 동작 및 처리를 실행할 수 있다. 통신부는 랜 카드를 포함할 수 있으나 이에 한정되지 않으며, 상기 랜 카드는 인피니 밴드(Infiniband, IB) 랜 카드를 포함할 수 있으나 이에 한정되지 않으며, 프로세서는 판독 전용 메모리 및 랜덤 액세스 메모리 중 적어도 하나와 통신하여 실행 가능한 명령어를 실행할 수 있으며, 프로세서는 버스를 통해 통신부에 연결되고, 통신부를 통해 다른 타겟 기기와 통신함으로써, 본 발명의 실시예에 의해 제공되는 임의의 방법의 대응되는 동작을 완료하며, 예를 들어, 뉴럴 네트워크를 통해 이미지에 대해 특징 추출을 수행하여, 적어도 두 개의 상이한 계층의 특징을 출력하며; 적어도 두 개의 상이한 계층의 특징으로부터 이미지에서의 적어도 하나의 인스턴스 후보 영역에 대응하는 영역 특징을 추출하고, 동일한 인스턴스 후보 영역에 대응하는 영역 특징에 대해 융합을 수행하여, 각 인스턴스 후보 영역의 제1 융합 특징을 획득하며; 각 제1 융합 특징에 기반하여 인스턴스 분할을 수행하여, 상응한 인스턴스 후보 영역의 인스턴스 분할 결과 및 이미지의 인스턴스 분할 결과 중 적어도 하나를 획득한다.
또한, RAM에서, 또한 장치의 동작에 필요한 다양한 프로그램 및 데이터를 저장할 수 있다. CPU, ROM 및 RAM은 버스를 통해 서로 연결된다. RAM이 있는 경우, ROM은 옵션 모듈이다. RAM은 실행 가능 명령어를 저장할 수 있으며, 또는 실행 중, 실행 가능 명령어를 ROM에 기록하며, 실행 가능 명령어는 프로세서로 하여금 본 발명에 따른 상기 임의의 방법의 대응되는 동작을 실행하도록 한다. 입력/출력(I/O) 인터페이스도 버스에 연결된다. 통신부는 통합될 수 있거나, 버스에 연결된 복수의 서브 모듈(예를 들어 복수의 IB 네트워크 카드)을 갖도록 구성될 수 있다.
다음의 구성 요소, 즉 키보드, 마우스 등을 포함하는 입력 부분; 음극 선관(CRT), 액정 디스플레이(LCD), 스피커 등을 포함하는 출력 부분; 하드웨어 등을 포함하는 저장 부분; 및 LAN 카드, 모뎀 등을 포함하는 네트워크 인터페이스의 통신 부분은 I/O 인터페이스에 연결된다. 통신 부분은 인터넷과 같은 네트워크를 통해 통신 처리를 수행한다. 드라이브는 필요에 따라 I/O 인터페이스에 연결될 수도 있다. 자기 디스크, 광 디스크, 광 자기 디스크, 반도체 메모리 등과 같은 탈착 가능한 매체는 필요에 따라 탈착 가능한 매체로부터 판독된 컴퓨터 프로그램이 저장 부분에 설치되도록 필요에 따라 드라이브에 장착된다.
설명해야 할 것은, 도 10에 도시된 아키텍처는 다만 선택적인 구현형태일 뿐, 실천 과정에서, 상기 도 10의 구성 요소의 개수 및 타입은 실제 필요에 따라 선택, 감소, 증가 또는 교체되며; 상이한 기능적 구성 요소 설치에서 분리 설치 또는 통합 설치 등 구현 방식을 채택할 수 있으며, 예를 들어 GPU 및 CPU는 분리 설치되거나 GPU가 CPU에 통합되며, 통신부는 CPU 또는 GPU에 분리 설치 또는 통합 설치될 수 있는 등이다. 이들 대안적인 실시형태는 모두 본 개시에 개시된 보호 범위에 속한다.
특히, 본 발명의 실시예에 따른 흐름도를 참조하여 설명된 과정은 컴퓨터 소프트웨어 프로그램에 의해 구현될 수 있다. 예를 들어,본 발명의 실시예는 컴퓨터 프로그램 제품을 포함하며, 기계 판독 가능 매체에 유형적으로 포함된 컴퓨터 프로그램을 포함하며, 컴퓨터 프로그램은 흐름도에 도시된 방법을 수행하기 위한 프로그램 코드를 포함하며, 프로그램 코드는 본 개시의 실시예에서 제공하는 안면 위조 검출 방법의 단계를 수행하기 위한 명령어를 포함할 수 있다. 이러한 실시예에서, 상기 컴퓨터 프로그램은 통신부를 통해 네트워크로부터 다운로드 및 설치될 수 있는 것 및 탈착 가능한 매체로부터 설치될 수 있는 것 중 적어도 하나이다. 상기 컴퓨터 프로그램이 CPU에 의해 실행될 때, 본 발명의 방법에서 정의된 상기 기능을 실행한다.
또한, 본 발명의 실시예는 컴퓨터 명령어를 포함한 컴퓨터 프로그램을 제공하며, 컴퓨터 명령어가 기기의 프로세서에서 작동될 경우, 본 발명의 상기 임의의 실시예의 인스턴스 분할 방법을 실행한다.
또한, 본 발명의 실시예는 컴퓨터 판독 저장 가능 매체를 더 제공하며, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 본 발명의 상기 임의의 실시예의 인스턴스 분할 방법을 실행한다.
본 발명의 실시예는 자율 주행, 가정용 로봇, 지도 등 분야에서 매우 광범위하게 응용되며, 예를 들어, 본 발명의 실시예는 자동 운전 시나리오에 응용될 수 있고, 자동 운전 시나리오에서의 상이한 교통 참가자를 정확하게 식별할 수 있으며; 본 발명의 실시예는 거리 시나리오에 응용될 수 있고, 거리에서 도로 표지판 품질과 함께 사용되는 상이한 건물 및 물체를 식별함으로써, 정확한 지도의 구성에 도움이 되며; 본 발명의 실시예는 가정용 로봇에 적용될 수 있으며, 예를 들어 로봇이 물체를 잡을 때 각 물체에 대해 정확한 픽셀 레벨의 포시셔닝이 요구되며, 본 발명의 실시예를 사용하여, 물체에 대해 정확한 식별과 위치 결정이 구현될 수 있다. 이해해야 할 것은, 상기는 단지 실시예의 시나리오 일 뿐이고, 본 발명의 보호 범위를 한정하려는 것으로 해석되어서는 안된다.
본 명세서에, 각 실시예는 모두 점진적으로 설명되며, 각 실시예는 다른 실시예와의 차이점에 초점을 맞추고, 각 실시예 사이의 동일하거나 유사한 부분은 서로 참조될 수 있다. 시스템 실시예는 방법 실시예에 거의 대응되므로, 설명이 간단하고, 관련 부분에 대해서는 방법 실시예의 설명을 참조한다.
본 개시의 방법과 장치는 많은 방식으로 구현될 수 있다. 예를 들어, 본 개시의 방법과 장치는 소프트웨어, 하드웨어, 펌웨어 또는 소프트웨어, 하드웨어, 펌웨어의 임의의 조합으로 구현될 수 있다. 달리 구체적으로 언급되지 않는 한, 방법을 위한 상기 단계의 상기 순서는 다만 설명을 위한 것이며, 본 발명의 실시형태의 방법의 단계를 한정하려는 것은 아니다. 또한, 일부 실시예에서, 본 발명은 기록 매체에 기록된 프로그램으로서 구현될 수도 있으며, 이들 프로그램은 본 발명의 방법을 구현하기 위한 기계 판독 가능한 명령어를 포함한다. 따라서, 본 발명은 본 발명에 따른 방법들을 실행하기 위한 프로그램을 저장하는 기록 매체를 더 포함한다.
본 발명의 설명은 예시 및 설명을 목적으로 제공되며, 누락되지 않는 형태로 한정하거나 본 출원을 개시된 형태로 한정하려는 것은 아니다. 많은 보정과 변경이 본 기술분야의 통상의 기술자에게 자명하다. 실시예들은 본 발명의 원리 및 실제 응용을 더 잘 설명하고, 본 기술분야의 통상의 기술자로 하여금 특정 용도에 적합한 다양한 수정들을 갖는 다양한 실시예들을 설계하기 위해 본 발명을 이해하도록 하기 위해 선택되고 설명된다.

Claims (54)

  1. 인스턴스 분할 방법으로서,
    뉴럴 네트워크를 통해 이미지에 대해 특징 추출을 수행하여, 적어도 두 개의 상이한 계층의 특징을 출력하는 단계;
    상기 적어도 두 개의 상이한 계층의 특징으로부터 상기 이미지에서의 적어도 하나의 인스턴스 후보 영역에 대응하는 영역 특징을 추출하고, 동일한 인스턴스 후보 영역에 대응하는 영역 특징에 대해 융합을 수행하여, 각 인스턴스 후보 영역의 제1 융합 특징을 획득하는 단계; 및
    각 제1 융합 특징에 기반하여 인스턴스 분할을 수행하여, 상응한 인스턴스 후보 영역의 인스턴스 분할 결과 및 상기 이미지의 인스턴스 분할 결과 중 적어도 하나를 획득하는 단계를 포함하는 것을 특징으로 하는 인스턴스 분할 방법.
  2. 제1항에 있어서,
    상기 뉴럴 네트워크를 통해 이미지에 대해 특징 추출을 수행하여, 적어도 두 개의 상이한 계층의 특징을 출력하는 단계는, 상기 뉴럴 네트워크를 통해 상기 이미지에 대해 특징 추출을 수행하여, 뉴럴 네트워크에서 상이한 네트워크 깊이를 갖는 적어도 두 개의 네트워크 계층을 통해 적어도 두 개의 상이한 계층의 특징을 출력하는 단계를 포함하는 것을 특징으로 하는 인스턴스 분할 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 적어도 두 개의 상이한 계층의 특징을 출력한 후에, 상기 적어도 두 개의 상이한 계층의 특징에 대해 적어도 하나의 리트레이싱 융합을 수행하여, 제2 융합 특징을 획득하는 단계 - 상기 하나의 리트레이싱 융합은, 상기 뉴럴 네트워크의 네트워크 깊이 방향에 기반하여, 상이한 네트워크 깊이를 갖는 네트워크 계층에 의해 각각 출력된 상이한 계층의 특징에 대해, 두 개의 상이한 계층의 방향에 따라 순차적으로 융합을 수행하는 것을 포함함 - 를 더 포함하고;
    상기 적어도 두 개의 상이한 계층의 특징으로부터 상기 이미지에서의 적어도 하나의 인스턴스 후보 영역에 대응하는 영역 특징을 추출하는 단계는, 상기 제2 융합 특징으로부터 상기 적어도 하나의 인시턴스 후보 영역에 대응하는 영역 특징을 추출하는 단계를 포함하는 것을 특징으로 하는 인스턴스 분할 방법.
  4. 제3항에 있어서,
    상기 두 개의 상이한 계층 방향은, 상위 계층 특징에서 하위 계층 특징으로의 방향, 및 하위 계층 특징에서 상위 계층 특징으로의 방향을 포함하는 것을 특징으로 하는 인스턴스 분할 방법.
  5. 제4항에 있어서,
    상기 두 개의 상이한 계층 방향에 순차적으로 따르는 것은, 상위 계층 특징에서 하위 계층 특징으로의 방향 및 하위 계층 특징에서 상위 계층 특징으로의 방향을 순차적으로 따르는 것; 또는, 하위 계층 특징에서 상위 계층 특징으로의 방향 및 상위 계층 특징에서 하위 계층 특징으로의 방향을 순차적으로 따르는 것을 포함하는 것을 특징으로 하는 인스턴스 분할 방법.
  6. 제5항에 있어서,
    상이한 네트워크 깊이를 갖는 네트워크 계층에 의해 각각 출력된 상이한 계층의 특징에 대해, 상위 계층 특징에서 하위 계층 특징으로의 방향 및 하위 계층 특징에서 상위 계층 특징으로의 방향을 따라 순차적으로 융합을 수행하는 단계는,
    상기 뉴럴 네트워크의 네트워크 깊이의 깊은데서 얕은데로의 방향을 따라, 상기 뉴럴 네트워크에서, 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 높은 계층의 특징에 대해 순차적으로 업 샘플링을 수행한 후, 업 샘플링된 특징을 얕은 네트워크 깊이를 갖는얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 하위 계층의 특징과 융합하여, 제3 융합 특징을 획득하는 단계; 및
    하위 계층 특징에서 상위 계층 특징으로의 방향을 따라, 더 낮은 계층의 융합 특징에 대해 순차적으로 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 상기 제3 융합 특징에서의 더 높은 계층의 융합 특징과 융합하는 단계를 포함하는 것을 특징으로 하는 인스턴스 분할 방법.
  7. 제6항에 있어서,
    상기 더 높은 계층의 특징은, 상기 뉴럴 네트워크에서 상기 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 특징, 또는 상기 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 특징에 대해 적어도 하나의 특징 추출을 수행하여 획득한 특징을 포함하는 것을 특징으로 하는 인스턴스 분할 방법.
  8. 제6항 또는 제7항에 있어서,
    상기 뉴럴 네트워크에서, 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 높은 계층의 특징에 대해 순차적으로 업 샘플링을 수행한 후, 업 샘플링된 특징을 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 낮은 계층의 특징과 융합하는 단계는, 상기 뉴럴 네트워크에서, 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 높은 계층의 특징에 대해 순차적으로 업 샘플링을 수행한 후, 업 샘플링된 특징을 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 인접한 더 낮은 계층의 특징에 대해 융합을 수행하는 단계를 포함하는 것을 특징으로 하는 인스턴스 분할 방법.
  9. 제6항 내지 제8중 어느 한 항에 있어서,
    상기 더 낮은 계층의 융합 특징에 대해 순차적으로 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 상기 제3 융합 특징에서의 더 높은 계층의 융합 특징과 융합하는 단계는, 더 낮은 계층의 융합 특징에 대해 순차적으로 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 상기 제3 융합 특징에서의 더 높은 계층의 인접한 융합 특징과 융합하는 단계를 포함하는 것을 특징으로 하는 인스턴스 분할 방법.
  10. 제5항에 있어서,
    상이한 네트워크 깊이를 갖는 네트워크 계층에 의해 각각 출력된 상이한 계층의 특징에 대해, 하위 계층 특징에서 상위 계층 특징으로의 방향 및 상위 계층 특징에서 하위 계층 특징으로의 방향을 따라 순차적으로 융합을 수행하는 단계는,
    상기 뉴럴 네트워크의 네트워크 깊이의 깊은데서 얕은데로의 방향을 따라, 상기 뉴럴 네트워크에서, 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 낮은 계층의 특징에 대해 순차적으로 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 높은 계층의 특징과 융합하여, 제3 융합 특징을 획득하는 단계; 및
    상위 계층 특징에서 하위 계층 특징으로의 방향을 따라, 더 높은 계층의 융합 특징에 대해 순차적으로 업 샘플링을 수행한 후, 업 샘플링된 특징을 상기 제4 융합 특징에서의 더 낮은 계층의 융합 특징과 융합하는 단계를 포함하는 것을 특징으로 하는 인스턴스 분할 방법.
  11. 제10항에 있어서,
    상기 더 낮은 계층의 특징은, 상기 뉴럴 네트워크에서 상기 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 특징, 또는 상기 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 특징에 대해 적어도 하나의 특징 추출을 수행하여 획득한 특징을 포함하는 것을 특징으로 하는 인스턴스 분할 방법.
  12. 제10항 또는 제11항에 있어서,
    상기 뉴럴 네트워크에서, 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 낮은 계층의 특징에 대해 순차적으로 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 높은 계층의 특징과 융합하는 단계는, 상기 뉴럴 네트워크에서, 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 낮은 계층의 특징에 대해 순차적으로 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 인접한, 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 높은 계층의 특징에 대해 융합을 수행하는 단계를 포함하는 것을 특징으로 하는 인스턴스 분할 방법.
  13. 제10항 내지 제12항 중 어느 한 항에 있어서,
    상기 더 높은 계층의 융합 특징에 대해 순차적으로 업 샘플링을 수행한 후, 업 샘플링된 특징을 상기 제4 융합 특징에서의 더 낮은 계층의 융합 특징과 융합하는 단계는, 더 높은 계층의 융합 특징에 대해 순차적으로 업 샘플링을 수행한 후, 업 샘플링된 특징을 상기 제4 융합 특징에서의 더 낮은 계층의 인접한 융합 특징에 대해 융합을 수행하는 단계를 포함하는 것을 특징으로 하는 인스턴스 분할 방법.
  14. 제1항 내지 제13항 중 어느 한 항에 있어서,
    상기 동일한 인스턴스 후보 영역에 대응하는 영역 특징에 대해 융합을 수행하는 단계는, 동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징에 대해 필셀 레벨의 융합을 각각 수행하는 단계를 포함하는 것을 특징으로 하는 인시턴스 분할 방법.
  15. 제14항에 있어서,
    상기 동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징에 대해 픽셀 레벨의 융합을 수행하는 단계는, 동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징에 대해 요소별 최대를 각각 수행하는 단계; 또는, 동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징에 대해 요소별 평균을 각각 수행하는 단계; 또는, 동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징에 대해 요소별 합산을 각각 수행하는 단계를 포함하는 것을 특징으로 하는 인스턴스 분할 방법.
  16. 제1항 내지 제15항 중 어느 한 항에 있어서,
    상기 각 제1 융합 특징에 기반하여 인스턴스 분할을 수행하여, 상응한 인스턴스 후보 영역의 인스턴스 분할 결과 및 상기 이미지의 인스턴스 분할 결과 중 적어도 하나를 획득하는 단계는,
    제1 융합 특징에 기반하여, 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역에 대해 인스턴스 분할을 수행하여, 상기 대응하는 인스턴스 후보 영역의 인스턴스 분할 결과를 획득하는 단계; 및,
    각 제1 융합 특징에 기반하여 상기 이미지에 대해 인스턴스 분할을 수행하여, 상기 이미지의 인스턴스 분할 결과를 획득하는 단계 중 적어도 하나를 포함하는 것을 특징으로 하는 인스턴스 분할 방법.
  17. 제1항 내지 제16항 중 어느 한 항에 있어서,
    상기 각 제1 융합 특징에 기반하여 인스턴스 분할을 수행하여, 상기 이미지의 인스턴스 분할 결과를 획득하는 단계는,
    각 제1 융합 특징에 기반하여, 각 제1 융합 특징에 각각 대응하는 인스턴스 후보 영역에 대해 인스턴스 분할을 각각 수행하여, 각 인스턴스 후보 영역의 인스턴스 분할 결과를 획득하는 단계; 및
    상기 각 인스턴스 후보 영역의 인스턴스 분할 결과에 기반하여, 상기 이미지의 인스턴스 분할 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 인스턴스 분할 방법.
  18. 제16항 또는 제17항에 있어서.
    상기 제1 융합 특징에 기반하여, 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역에 대해 인스턴스 분할을 수행하여, 상기 대응하는 인스턴스 후보 영역의 인스턴스 분할 결과를 획득하는 단계는,
    상기 제1 융합 특징에 기반하여, 픽셀 레벨의 인스턴스 클래스 예측을 수행하여, 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역의 인스턴스 클래스 예측 결과를 획득하는 단계;
    상기 제1 융합 특징에 기반하여 픽셀 레벨의 전경 및 배경 예측을 수행하여, 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역의 전경 및 배경 예측 결과를 획득하는 단계; 및
    상기 인스턴스 클래스 예측 결과 및 상기 전경 및 배경 예측 결과에 기반하여, 상기 제1 융합 특징에 대응하는 상기 인스턴스 후보 영역의 인스턴스 분할 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 인스턴스 분할 방법.
  19. 제18항에 있어서,
    상기 제1 융합 특징에 기반하여 픽셀 레벨의 전경 및 배경 예측을 수행하는 단계는, 상기 제1 융합 특징에 기반하여, 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역에서 전경에 속하는 픽셀 및 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역에서배경에 속하는 픽셀 중 적어도 하나를 예측하는 단계를 포함하는 것을 특징으로 하는 인스턴스 분할 방법.
  20. 제19항에 있어서,
    상기 전경은 모든 인스턴스 클래스에 대응하는 부분을 포함하고, 상기 배경은 상기 모든 인스턴스 클래스 대응하는 부분 이외의 부분을 포함하며; 또는, 상기 배경은 모든 인스턴스 클래스에 대응하는 부분을 포함하고, 상기 전경은 상기 모든 인스턴스 클래스 대응하는 부분 이외의 부분을 포함하는 것을 특징으로 하는 인스턴스 분할 방법.
  21. 제18항 내지 20항 중 어느 한 항에 있어서,
    상기 제1 융합 특징에 기반하여, 픽셀 레벨의 인스턴스 예측을 수행하는 단계는,
    제1 컨볼루션 네트워크를 통해, 상기 제1 융합 특징에 대해 특징 추출을 수행하는 단계 - 상기 제1 컨볼루션 네트워크는 적어도 하나의 완전 컨볼루션 계층을 포함함 - ; 및
    제1 완전 컨볼루션 계층을 통해, 상기 제1 컨볼루션 네트워크에 의해 출력된 특징에 기반하여 픽셀 레벨의 물체 클래스 예측을 수행하는 단계를 포함하는 것을 특징으로 하는 인스턴스 분할 방법.
  22. 제18항 내지 제21항 중 어느 한 항에 있어서,
    상기 제1 융합 특징에 기반하여 픽셀 레벨의 전경 및 배경 예측을 수행하는 단계는,
    제2 컨볼루션 네트워크를 통해, 상기 제1 융합 특징에 대해 특징 추출을 수행하는 단계 - 상기 제2 컨볼루션 네트워크는 적어도 하나의 완전 컨볼루션 계층을 포함함 - ; 및
    완전 연결 계층을 통해, 상기 제2 컨볼루션 네트워크에 의해 출력된 특징에 기반하여 픽셀 레벨의 전경 및 배경 예측을 수행하는 단계를 포함하는 것을 특징으로 하는 인스턴스 분할 방법.
  23. 제18항 내지 제22항 중 어는 한 항에 있어서,
    상기 인스턴스 클래스 예측 결과 및 상기 전경 및 배경 예측 결과에 기반하여, 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역의 인스턴스 분할 결과를 획득하는 단계는, 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역의 물체 클래스 예측 결과와 전경 및 배경 예측 결과에 대해 픽셀 레벨의 합산 처리를 수행하여, 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역의 인스턴스 분할 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 인스턴스 분할 방법.
  24. 제23항에 있어서,
    상기 제1 융합 특징에 대응하는 인스턴스 후보 영역의 전경 및 배경 예측 결과를 획득한 후에, 상기 전경 및 배경 예측 결과를 상기 인스턴스 클래스 결과의 차원과 일치한 전경 및 배경 예측 결과로 전환하는 단계를 더 포함하며;
    상기 제1 융합 특징에 대응하는 인스턴스 후보 영역의 물체 클래스 예측 결과와 전경 및 배경 예측 결과에 대해 픽셀 레벨의 합산 처리를 수행하는 단계는, 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역의 인스턴스 클래스 예측 결과와, 전환하여 획득된 전경 및 배경 예측 결과에 대해 픽셀 레벨의 합산 처리를 수행하는 단계를 포함하는 것을 특징으로 하는 인스턴스 분할 방법.
  25. 제1항 내지 제15항 중 어느 한 항에 있어서,
    상기 각 인스턴스 후보 영역의 제1 융합 특징을 획득한 후에, 상기 제1 융합 특징에 기반하여 상기 이미지에 대해 적어도 부분 영역에 대해 시맨틱 분할을 수행하여, 시맨틱 분할 결과를 획득하는 단계를 더 포함하는 것을 특징으로 하는 인스턴스 분할 방법.
  26. 제3항 내지 제15항 중 어느 한 항에 있어서,
    상기 각 인스턴스 후보 영역의 제2 융합 특징을 획득한 후에, 상기 제2 융합 특징에 기반하여 상기 이미지에 대해 적어도 부분 영역에 대해 시맨틱 분할을 수행하여, 시맨틱 분할 결과를 획득하는 단계를 더 포함하는 것을 특징으로 하는 인스턴스 분할 방법.
  27. 인스턴스 분할 장치로서,
    이미지에 대해 특징 추출을 수행하여, 적어도 두 개의 상이한 계층의 특징을 출력하기 위한 뉴럴 네트워크;
    상기 적어도 두 개의 상이한 계층의 특징으로부터 상기 이미지에서의 적어도 하나의 인스턴스 후보 영역에 대응하는 영역 특징을 추출하기 위한 추출 모듈;
    동일한 인스턴스 후보 영역에 대응하는 영역 특징에 대해 융합을 수행하여, 각 인스턴스 후보 영역의 제1 융합 특징을 획득하기 위한 제1 융합 모듈; 및
    각 제1 융합 특징에 기반하여 인스턴스 분할을 수행하여, 상응한 인스턴스 후보 영역의 인스턴스 분할 결과 및 상기 이미지의 인스턴스 분할 결과 중 적어도 하나를 획득하기 위한 분할 모듈을 포함하는 것을 특징으로 하는 인스턴스 분할 장치.
  28. 제27항에 있어서,
    상기 뉴럴 네트워크는 상이한 네트워크 깊이를 갖는 적어도 두 개의 네트워크 계층을 포함하되, 상기 이미지에 대해 특징 추출을 수행하여, 상기 상이한 네트워크 깊이를 갖는 적어도 두 개의 네트워크 계층을 통해 적어도 두 개의 상이한 계층의 특징을 출력하기 위한 것임을 특징으로 하는 인스턴스 분할 장치.
  29. 제27항 또는 제28항에 있어서,
    상기 적어도 두 개의 상이한 계층의 특징에 대해 적어도 하나의 리트레이싱 융합을 수행하여, 제2 융합 특징을 획득하기 위한 제2 융합 모듈을 더 포함하며; 상기 하나의 리트레이싱 융합은, 상기 뉴럴 네트워크의 네트워크 깊이 방향에 기반하여, 상이한 네트워크 깊이를 갖는 네트워크 계층에 의해 각각 출력된 상이한 계층의 특징에 대해, 두 개의 상이한 계층의 방향에 따라 순차적으로 융합을 수행하는 것을 포함하고; 상기 추출 모듈은, 제2 융합 특징으로부터 상기 적어도 하나의 인스턴스 후보 영역에 대응하는 영역 특징을 추출하기 위한 것임을 특징으로 하는 인스턴스 분할 장치.
  30. 제29항에 있어서,
    상기 두 개의 상이한 계층 방향은, 상위 계층 특징에서 하위 계층 특징으로의 방향, 및 하위 계층 특징에서 상위 계층 특징으로의 방향을 포함하는 것을 특징으로 하는 인스턴스 분할 장치.
  31. 제30항에 있어서,
    상기 두 개의 상이한 계층 방향에 순차적으로 따르는 것은, 상위 계층 특징에서 하위 계층 특징으로의 방향 및 하위 계층 특징에서 상위 계층 특징으로의 방향을 순차적으로 따르는 것; 또는, 하위 계층 특징에서 상위 계층 특징으로의 방향 및 상위 계층 특징에서 하위 계층 특징으로의 방향을 순차적으로 따르는 것을 포함하는 것을 특징으로 하는 인스턴스 분할 장치.
  32. 제31항에 있어서,
    상기 제2 융합 모듈은, 상이한 네트워크 깊이를 갖는 네트워크 계층에 의해 각각 출력된 상이한 계층의 특징에 대해, 상위 계층 특징에서 하위 계층 특징으로의 방향 및 하위 계층 특징에서 상위 계층 특징으로의 방향을 따라 순차적으로 융합을 수행할 경우, 상기 뉴럴 네트워크의 네트워크 깊이의 깊은데서 얕은데로의 방향을 따라, 상기 뉴럴 네트워크에서, 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 높은 계층의 특징에 대해 순차적으로 업 샘플링을 수행한 후, 업 샘플링된 특징을 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 낮은 계층의 특징과 융합하여, 제3 융합 특징을 획득하며; 하위 계층 특징에서 상위 계층 특징으로의 방향을 따라, 더 낮은 계층의 융합 특징에 대해 순차적으로 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 상기 제3 융합 특징에서의 더 높은 계층의 융합 특징과 융합하기 위한 것임을 특징으로 하는 인스턴스 분할 장치.
  33. 제32항에 있어서,
    상기 더 높은 계층의 특징은,
    상기 뉴럴 네트워크에서 상기 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 특징, 또는 상기 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 특징에 대해 적어도 하나의 특징 추출을 수행하여 획득한 특징을 포함하는 것을 특징으로 하는 인스턴스 분할 장치.
  34. 제32항 또는 제33항에 있어서,
    상기 제2 융합 모듈은 상기 뉴럴 네트워크에서, 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 높은 계층의 특징에 대해 순차적으로 업 샘플링을 수행한 후, 업 샘플링된 특징을 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 낮은 계층의 특징과 융합할 경우, 상기 뉴럴 네트워크에서, 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 높은 계층의 특징에 대해 순차적으로 업 샘플링을 수행한 후, 업 샘플링된 특징을 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 인접한 더 낮은 계층의 특징에 대해 융합을 수행하기 위한 것임을 특징으로 하는 인스턴스 분할 장치.
  35. 제32항 내지 제34항 중 어느 한 항에 있어서,
    상기 제2 융합 모듈은 더 낮은 계층의 융합 특징에 대해 순차적으로 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 상기 제3 융합 특징에서의 더 높은 계층의 융합 특징과 융합할 경우, 더 낮은 계층의 융합 특징에 대해 순차적으로 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 상기 제3 융합 특징에서의 더 높은 계층의 인접한 융합 특징과 융합하기 위한 것임을 특징으로 하는 인스턴스 분할 장치.
  36. 제31항에 있어서,
    상기 제2 융합 모듈은 상이한 네트워크 깊이를 갖는 네트워크 계층에 의해 각각 출력된 상이한 계층의 특징에 대해, 하위 계층 특징에서 상위 계층 특징으로의 방향 및 상위 계층 특징에서 하위 계층 특징으로의 방향을 따라 순차적으로 융합을 수행할 경우,
    상기 뉴럴 네트워크의 네트워크 깊이의 깊은데서 얕은데로의 방향을 따라, 상기 뉴럴 네트워크에서, 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 낮은 계층의 특징에 대해 순차적으로 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 높은 계층의 특징과 융합하여, 제3 융합 특징을 획득하며;
    상위 계층 특징에서 하위 계층 특징으로의 방향을 따라, 더 높은 계층의 융합 특징에 대해 순차적으로 업 샘플링을 수행한 후, 업 샘플링된 특징을 상기 제4 융합 특징에서의 더 낮은 계층의 융합 특징과 융합하기 위한 것임을 특징으로 하는 인스턴스 분할 장치.
  37. 제36항에 있어서,
    상기 더 낮은 계층의 특징은,
    상기 뉴럴 네트워크에서 상기 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 특징, 또는 상기 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 특징에 대해 적어도 하나의 특징 추출을 수행하여 획득한 특징을 포함하는 것을 특징으로 하는 인스턴스 분할 장치.
  38. 제36항 또는 제37항에 있어서,
    상기 제2 융합 모듈은 상기 뉴럴 네트워크에서, 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 낮은 계층의 특징에 대해 순차적으로 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 높은 계층의 특징과 융합할 경우, 상기 뉴럴 네트워크에서, 얕은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된 더 낮은 계층의 특징에 대해 순차적으로 다운 샘플링을 수행한 후, 다운 샘플링된 특징을 깊은 네트워크 깊이를 갖는 네트워크 계층을 통해 출력된, 더 높은 계층의 인접한 특징과 융합하기 위한 것임을 특징으로 하는 인스턴스 분할 장치.
  39. 제36항 내지 제38항 중 어느 한 항에 있어서,
    상기 제2 융합 모듈은 더 높은 계층의 융합 특징에 대해 순차적으로 업 샘플링을 수행한 후, 업 샘플링된 특징을 상기 제4 융합 특징에서의 더 낮은 계층의 융합 특징과 융합할 경우, 더 높은 계층의 융합 특징에 대해 순차적으로 업 샘플링을 수행한 후, 업 샘플링된 특징을 상기 제4 융합 특징에서의 더 낮은 계층의 인접한 융합 특징과 융합하기 위한 것임을 특징으로 하는 인스턴스 분할 장치.
  40. 제27항 내지 제39항 중 어느 한 항에 있어서,
    상기 제1 융합 묘듈은 동일한 인스턴스 후보 영역에 대응하는 영역 특징에 대해 융합을 수행할 경우, 동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징에 대해 필셀 레벨의 융합을 각각 수행하기 위한 것임을 특징으로 하는 인스턴스 분할 장치.
  41. 제40항에 있어서,
    상기 제1 융합 모듈은 동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징에 대해 픽셀 레벨의 융합을 수행할 경우, 동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징에 대해 요소별 최대를 각각 수행하고; 또는, 동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징에 대해 요소별 평균을 각각 수행하며; 또는, 동일한 인스턴스 후보 영역에 대응하는 복수의 영역 특징에 대해 요소별 합산을 각각 수행하기 위한 것임을 특징으로 하는 인스턴스 분할 장치.
  42. 제27항 내지 제41항 중 어는 한 항에 있어서,
    상기 분할 모듈은,
    제1 융합 특징에 기반하여, 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역에 대해 인스턴스 분할을 수행하여, 상기 대응하는 인스턴스 후보 영역의 인스턴스 분할 결과를 획득하기 위한 제1 분할 유닛; 및,
    각 제1 융합 특징에 기반하여 상기 이미지에 대해 인스턴스 분할을 수행하여, 상기 이미지의 인스턴스 분할 결과를 획득하기 위한 제2 분할 유닛 중 적어도 하나를 포함하는 것을 특징으로 하는 인스턴스 분할 장치.
  43. 제27항 내지 제41항 중 어느 한 항에 있어서,
    상기 분할 모듈은,
    각 제1 융합 특징에 기반하여, 각 제1 융합 특징에 각각 대응하는 인스턴스 후보 영역에 대해 인스턴스 분할을 각각 수행하여, 각 인스턴스 후보 영역의 인스턴스 분할 결과를 획득하기 위한 제1 분할 유닛; 및
    상기 각 인스턴스 후보 영역의 인스턴스 분할 결과에 기반하여, 상기 이미지의 인스턴스 분할 결과를 획득하기 위한 획득 유닛을 포함하는 것을 특징으로 하는 인스턴스 분할 장치.
  44. 제42항 또는 제43항에 있어서,
    상기 제1 분할 유닛은,
    상기 제1 융합 특징에 기반하여, 픽셀 레벨의 인스턴스 클래스 예측을 수행하여, 상기 제1 융합 특징에 대응하는 인스턴스 클래스 예측 결과를 획득하기 위한 제1 예측 서브 유닛;
    상기 제1 융합 특징에 기반하여, 픽셀 레벨의 전경 및 배경 예측을 수행하여, 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역의 전경 및 배경 예측 결과를 획득하기 위한 제2 예측 서브 유닛; 및
    상기 인스턴스 클래스 예측 결과, 및 상기 전경 및 배경 예측 결과에 기반하여, 상기 제1 융합 특징에 대응하는 인스턴스 후보 물체 영역의 인스턴스 분할 결과를 획득하기 위한 획득 서브 유닛을 포함하는 것을 특징으로 하는 인스턴스 분할 장치.
  45. 제44항에 있어서,
    상기 제2 예측 서브 유닛은,
    상기 제1 융합 특징에 기반하여, 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역에서 전경에 속하는 픽셀 및 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역에서 배경에 속하는 픽셀 중 적어도 하나를 예측하기 위한 것임을 특징으로 하는 인스턴스 분할 장치.
  46. 제45항에 있어서,
    상기 전경은 모든 인스턴스 클래스에 대응하는 부분을 포함하고, 상기 배경은, 상기 모든 인스턴스 클래스 대응하는 부분 이외의 부분을 포함거나; 또는
    상기 배경은 모든 인스턴스 클래스에 대응하는 부분을 포함하며, 상기 전경은, 상기 모든 인스턴스 클래스 대응하는 부분 이외의 부분을 포함하는 것을 특징으로 하는 인스턴스 분할 장치.
  47. 제44항 내지 제 46항에 있어서,
    상기 제1 예측 서브 유닛은 ,
    상기 제1 융합 특징에 대해 특징 추출을 수행하기 위한 제1 컨볼루션 네트워크 - 상기 제1 컨볼루션 네트워크는 적어도 하나의 완전 컨볼루션 계층을 포함함 - ; 및
    상기 제1 컨볼루션 네트워크에 의해 출력된 특징에 기반하여 픽셀 레벨의 물체 클래스 예측을 수행하기 위한 제1 완전 컨볼루션 계층을 포함하는 것을 특징으로 하는 인스턴스 분할 장치.
  48. 제44항 내지 제 47항 중 어느 한 항에 있어서,
    상기 제2 예측 서브 유닛은,
    상기 제1 융합 특징에 대해 특징 추출을 수행하기 위한 제2 컨볼루션 네트워크 - 상기 제2 컨볼루션 네트워크는 적어도 하나의 완전 컨볼루션 계층을 포함함 - ; 및
    상기 제2 컨볼루션 네트워크에 의해 출력된 특징에 기반하여 픽셀 레벨의 전경 및 배경 예측을 수행하기 위한 완전 연결 계층을 포함하는 것을 특징으로 하는 인스턴스 분할 장치.
  49. 제44항 내지 제48항 중 어느 한 항에 있어서,
    상기 획득 서브 유닛은, 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역의 물체 클래스 예측 결과와 전경 및 배경 예측 결과에 대해 픽셀 레벨의 합산 처리를 수행하여, 상기 제1 융합 특징에 대응하는 인스턴스 후보 영역의 인스턴스 분할 결과를 획득하기 위한 것임을 특징으로 하는 인스턴스 분할 장치.
  50. 제49항에 있어서,
    상기 제1 분할 유닛은,
    상기 전경 및 배경 예측 결과를 상기 인스턴스 클래스 예측 결과의 차원과 일치한 전경 및 배경 예측 결과로 전환하기 위한 전환 서브 유닛을 더 포함하며,
    상기 획득 서브 유닛은, 상기 제1 융합 특징에 대응하는 인스턴스 영역의 인스턴스 클래스 예측 결과와, 전환하여 획득된 전경 및 배경 예측 결과에 대해 픽셀 레벨의 합산 처리를 수행하기 위한 것임을 특징으로 하는 인스턴스 분할 장치.
  51. 제27항 내지 제50항 중 어느 한 항에 있어서,
    상기 분할 모듈은, 상기 제1 융합 특징에 기반하여 상기 이미지의 적어도 부분 영역에 대해 시맨틱 분할을 수행하여, 시맨틱 분할 결과를 획득하기 위한 제3 분할 유닛을 더 포함하는 것을 특징으로 하는 인스턴스 분할 장치.
  52. 제29항 내지 제50항 중 어느 한 항에 있어서,
    상기 분할 모듈은,
    상기 제2 융합 특징에 기반하여 상기 이미지의 적어도 부분 영역에 대해 시맨틱 분할을 수행하여, 시맨틱 분할 결과를 획득하기 위한 제3 분할 유닛을 더 포함하는 것을 특징으로 하는 인스턴스 분할 장치
  53. 전자 기기로서,
    컴퓨터 프로그램을 저장하기 위한 메모리; 및
    상기 메모리에 저장된 컴퓨터 프로그램을 실행하기 위한 프로세서를 포함하며, 상기 컴퓨터 프로그램이 실행될 경우, 제1항 내지 제26항 중 어느 한 항에 따른 방법을 구현하는 것을 특징으로 하는 전자 기기.
  54. 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 저장 매체로서,
    상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 제1항 내지 제26항 중 어느 한 항에 따른 방법을 실행하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장 매체.
KR1020207016941A 2018-02-09 2019-01-30 인스턴스 분할 방법 및 장치, 전자 기기, 프로그램 및 매체 KR102438095B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
CN201810137044.7 2018-02-09
CN201810136371.0A CN108335305B (zh) 2018-02-09 2018-02-09 图像分割方法和装置、电子设备、程序和介质
CN201810136371.0 2018-02-09
CN201810137044.7A CN108460411B (zh) 2018-02-09 2018-02-09 实例分割方法和装置、电子设备、程序和介质
PCT/CN2019/073819 WO2019154201A1 (zh) 2018-02-09 2019-01-30 实例分割方法和装置、电子设备、程序和介质

Publications (2)

Publication Number Publication Date
KR20200087808A true KR20200087808A (ko) 2020-07-21
KR102438095B1 KR102438095B1 (ko) 2022-08-30

Family

ID=67548217

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207016941A KR102438095B1 (ko) 2018-02-09 2019-01-30 인스턴스 분할 방법 및 장치, 전자 기기, 프로그램 및 매체

Country Status (5)

Country Link
US (1) US11270158B2 (ko)
JP (1) JP7032536B2 (ko)
KR (1) KR102438095B1 (ko)
SG (1) SG11201913332WA (ko)
WO (1) WO2019154201A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023106546A1 (ko) * 2021-12-09 2023-06-15 재단법인대구경북과학기술원 상향식 인스턴스 세분화 방법 및 장치

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866526A (zh) * 2018-08-28 2020-03-06 北京三星通信技术研究有限公司 图像分割方法、电子设备及计算机可读存储介质
EP3912126B1 (en) * 2019-01-15 2023-10-11 Services Pétroliers Schlumberger Residual signal detection for noise attenuation
CN111626969B (zh) * 2020-05-22 2023-05-30 张卫东 一种基于注意力机制的玉米病害图像处理方法
CN111652142A (zh) * 2020-06-03 2020-09-11 广东小天才科技有限公司 基于深度学习的题目分割方法、装置、设备和介质
CN112489060B (zh) * 2020-12-07 2022-05-10 北京医准智能科技有限公司 一种用于肺炎病灶分割的系统及方法
CN112465801B (zh) * 2020-12-09 2022-11-29 北京航空航天大学 一种分尺度提取掩码特征的实例分割方法
CN113096140B (zh) * 2021-04-15 2022-11-22 北京市商汤科技开发有限公司 实例分割方法及装置、电子设备及存储介质
US20240193923A1 (en) * 2021-04-28 2024-06-13 Beijing Baidu Netcom Science Technology Co., Ltd. Method of training target object detection model, method of detecting target object, electronic device and storage medium
CN113297991A (zh) * 2021-05-28 2021-08-24 杭州萤石软件有限公司 一种行为识别方法、装置及设备
CN113792738A (zh) * 2021-08-05 2021-12-14 北京旷视科技有限公司 实例分割方法、装置、电子设备和计算机可读存储介质
CN114022865A (zh) * 2021-10-29 2022-02-08 北京百度网讯科技有限公司 基于车道线识别模型的图像处理方法、装置、设备和介质
CN115205906B (zh) * 2022-09-15 2022-12-23 山东能源数智云科技有限公司 基于人体解析的仓储作业人员的检测方法、装置及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016018538A (ja) * 2014-07-11 2016-02-01 キヤノン株式会社 画像認識装置、方法及びプログラム
JP2016045943A (ja) * 2014-08-20 2016-04-04 三菱電機株式会社 シーンの取得画像を意味的にラベル付けする方法
KR20160131848A (ko) * 2015-05-08 2016-11-16 삼성전자주식회사 객체 인식 장치 및 방법

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3156942A1 (en) 2015-10-16 2017-04-19 Thomson Licensing Scene labeling of rgb-d data with interactive option
CN105512661B (zh) * 2015-11-25 2019-02-26 中国人民解放军信息工程大学 一种基于多模态特征融合的遥感影像分类方法
US9881234B2 (en) 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
CN106250812B (zh) 2016-07-15 2019-08-20 汤一平 一种基于快速r-cnn深度神经网络的车型识别方法
CN106709924B (zh) 2016-11-18 2019-11-22 中国人民解放军信息工程大学 基于深度卷积神经网络和超像素的图像语义分割方法
CN107085609A (zh) 2017-04-24 2017-08-22 国网湖北省电力公司荆州供电公司 一种基于神经网络进行多特征融合的行人检索方法
CN107169974A (zh) 2017-05-26 2017-09-15 中国科学技术大学 一种基于多监督全卷积神经网络的图像分割方法
CN107424159B (zh) * 2017-07-28 2020-02-07 西安电子科技大学 基于超像素边缘和全卷积网络的图像语义分割方法
CN107483920B (zh) 2017-08-11 2018-12-21 北京理工大学 一种基于多层级质量因子的全景视频评估方法及系统
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN108460411B (zh) * 2018-02-09 2021-05-04 北京市商汤科技开发有限公司 实例分割方法和装置、电子设备、程序和介质
CN108335305B (zh) * 2018-02-09 2020-10-30 北京市商汤科技开发有限公司 图像分割方法和装置、电子设备、程序和介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016018538A (ja) * 2014-07-11 2016-02-01 キヤノン株式会社 画像認識装置、方法及びプログラム
JP2016045943A (ja) * 2014-08-20 2016-04-04 三菱電機株式会社 シーンの取得画像を意味的にラベル付けする方法
KR20160131848A (ko) * 2015-05-08 2016-11-16 삼성전자주식회사 객체 인식 장치 및 방법

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Kaiming He et al, Mask R-CNN, 2017 IEEE Conference CV.(2017.10.22.) *
Liang-Chieh Chen et al, MaskLab: Instance Segmentation by Refining Object Detection with Semantic and Direction Features, arXiv:1712.04837v1.(2017.12.13.) *
Tsung-Yi Lin et al, Feature Pyramid Networks for Object Detection, 2017 IEEE Conference on CVPR.(2017.07.21.)* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023106546A1 (ko) * 2021-12-09 2023-06-15 재단법인대구경북과학기술원 상향식 인스턴스 세분화 방법 및 장치

Also Published As

Publication number Publication date
US11270158B2 (en) 2022-03-08
US20200134365A1 (en) 2020-04-30
KR102438095B1 (ko) 2022-08-30
JP2021507388A (ja) 2021-02-22
JP7032536B2 (ja) 2022-03-08
WO2019154201A1 (zh) 2019-08-15
SG11201913332WA (en) 2020-01-30

Similar Documents

Publication Publication Date Title
KR102438095B1 (ko) 인스턴스 분할 방법 및 장치, 전자 기기, 프로그램 및 매체
CN108335305B (zh) 图像分割方法和装置、电子设备、程序和介质
CN108460411B (zh) 实例分割方法和装置、电子设备、程序和介质
US10943145B2 (en) Image processing methods and apparatus, and electronic devices
US11321593B2 (en) Method and apparatus for detecting object, method and apparatus for training neural network, and electronic device
CN109508681B (zh) 生成人体关键点检测模型的方法和装置
TWI766175B (zh) 單目圖像深度估計方法、設備及儲存介質
US10846870B2 (en) Joint training technique for depth map generation
US9633479B2 (en) Time constrained augmented reality
CN109118456B (zh) 图像处理方法和装置
EP3836083A1 (en) Disparity estimation system and method, electronic device and computer program product
CN112861830A (zh) 特征提取方法、装置、设备、存储介质以及程序产品
CN113781493A (zh) 图像处理方法、装置、电子设备、介质及计算机程序产品
CN113343981A (zh) 一种视觉特征增强的字符识别方法、装置和设备
JP2023131117A (ja) 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体
Liang et al. Hybrid transformer-CNN networks using superpixel segmentation for remote sensing building change detection
CN113409188A (zh) 一种图像背景替换方法、系统、电子设备及存储介质
CN115272906A (zh) 一种基于点渲染的视频背景人像分割模型及算法
Fujita et al. Cost volume refinement filter for post filtering of visual corresponding
CN113610856A (zh) 训练图像分割模型和图像分割的方法和装置
CN113011410A (zh) 字符识别模型的训练方法、字符识别方法及装置
CN111382696A (zh) 用于检测目标的边界点的方法和装置
Zuo et al. A cross-stage features fusion network for building extraction from remote sensing images
CN116630631B (zh) 一种图像分割方法、装置、电子设备及存储介质
CN116523842A (zh) 遥感目标检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant