KR20200015611A - 시맨틱 분할 모델을 위한 훈련 방법 및 장치, 전자 기기, 저장 매체 - Google Patents

시맨틱 분할 모델을 위한 훈련 방법 및 장치, 전자 기기, 저장 매체 Download PDF

Info

Publication number
KR20200015611A
KR20200015611A KR1020197038767A KR20197038767A KR20200015611A KR 20200015611 A KR20200015611 A KR 20200015611A KR 1020197038767 A KR1020197038767 A KR 1020197038767A KR 20197038767 A KR20197038767 A KR 20197038767A KR 20200015611 A KR20200015611 A KR 20200015611A
Authority
KR
South Korea
Prior art keywords
image
sub
images
training
category
Prior art date
Application number
KR1020197038767A
Other languages
English (en)
Other versions
KR102358554B1 (ko
Inventor
시아오항 잔
지웨이 리우
핑 루오
첸 창게 로이
시아오우 탕
Original Assignee
베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 filed Critical 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Publication of KR20200015611A publication Critical patent/KR20200015611A/ko
Application granted granted Critical
Publication of KR102358554B1 publication Critical patent/KR102358554B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06K9/342
    • G06K9/6256
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/23Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on positionally close patterns or neighbourhood relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

본 출원의 실시예는 시맨틱 분할 모델의 훈련 방법 및 장치, 전자 기기, 저장 매체를 개시하였고, 상기 방법은, 시맨틱 분할 모델을 통해, 적어도 하나의 라벨링되지 않은 이미지에 대해 이미지 시맨틱 분할을 진행하여, 상기 라벨링되지 않은 이미지의 카테고리로서, 예비 시맨틱 분할 결과를 얻는 단계; 컨볼루션 뉴럴 네트워크를 통해, 적어도 하나의 상기 라벨링되지 않은 이미지의 카테고리 및 적어도 하나의 라벨링된 이미지의 카테고리에 기반하여, 적어도 2 개의 이미지에 각각 대응되는 서브 이미지 및 서브 이미지에 대응되는 특징을 얻는 단계 - 상기 적어도 2 개의 이미지는 적어도 하나의 상기 라벨링되지 않은 이미지 및 적어도 하나의 상기 라벨링된 이미지, 상기 적어도 2 개의 서브 이미지는 대응되는 이미지의 카테고리를 반송함 - ; 및 적어도 2 개의 서브 이미지의 카테고리 및 적어도 2 개의 서브 이미지 사이의 특징 거리에 기반하여, 시맨틱 분할 모델을 훈련시키는 단계를 포함한다. 본 출원의 상기 실시예에서 훈련하여 얻은 시맨틱 분할 모델은, 시맨틱 분할에서 높은 정확도를 획득할 수 있다.

Description

시맨틱 분할 모델을 위한 훈련 방법 및 장치, 전자 기기, 저장 매체
관련 출원의 상호 참조
본 출원은 2017년 8워 1일에 중국 특허청에 제출한 출원 번호가 CN201710648545.7이고, 발명의 명칭이 "시맨틱 분할 모델의 훈련 방법 및 장치, 전자 기기, 저장 매체"인 중국 특허 출원의 우선권을 요청하며, 그 전부 내용을 인용하여 본 출원에 결합하였다.
본 출원의 실시예는 컴퓨터 시각 기술에 관한 것이며, 특히 시맨틱 분할 모델의 훈련 방법 및 장치, 전자 기기, 저장 매체에 관한 것이다.
이미지 시맨틱 분할은 입력 이미지의 각 픽셀에 대해 출력시에 대응되는 판단 라벨을 모두 할당함으로써, 이 픽셀이 어느 물체 또는 카테고리에 속할 가능성이 가장 높은지를 표시한다. 이는 컴퓨터 시각 분야에서 하나의 중요한 작업이며, 이 응용에는 기계 장면 이해, 비디오 분석 등이 포함된다.
본 출원의 실시예는 시맨틱 분할 모델의 훈련 기술을 제공한다.
본 출원의 실시예에 따라 제공되는 시맨틱 분할 모델의 훈련 방법은,
시맨틱 분할 모델을 통해, 적어도 하나의 라벨링되지 않은 이미지에 대해 이미지 시맨틱 분할을 진행하여, 상기 라벨링되지 않은 이미지의 카테고리로서, 예비 시맨틱 분할 결과를 얻는 단계;
컨볼루션 뉴럴 네트워크를 통해, 적어도 하나의 상기 라벨링되지 않은 이미지의 카테고리 및 적어도 하나의 라벨링된 이미지의 카테고리에 기반하여, 적어도 2 개의 이미지에 각각 대응되는 서브 이미지 및 서브 이미지에 대응되는 특징을 얻는 단계 - 상기 적어도 2 개의 이미지는 적어도 하나의 상기 라벨링되지 않은 이미지 및 적어도 하나의 상기 라벨링된 이미지를 포함하고, 상기 적어도 2 개의 서브 이미지는 대응되는 이미지의 카테고리를 반송함 - ; 및
적어도 2 개의 서브 이미지의 카테고리 및 적어도 2 개의 서브 이미지 사이의 특징 거리에 기반하여, 시맨틱 분할 모델을 훈련시키는 단계를 포함한다.
본 출원의 실시예의 다른 측면에 따라 제공되는 시맨틱 분할 모델의 훈련 장치는,
시맨틱 분할 모델을 통해, 적어도 하나의 라벨링되지 않은 이미지에 대해 이미지 시맨틱 분할을 진행하여, 상기 라벨링되지 않은 이미지의 카테고리로서, 예비 시맨틱 분할 결과를 얻기 위한 분할 유닛;
컨볼루션 뉴럴 네트워크를 통해, 적어도 하나의 상기 라벨링되지 않은 이미지의 카테고리 및 적어도 하나의 라벨링된 이미지의 카테고리에 기반하여, 적어도 2 개의 이미지에 각각 대응되는 서브 이미지 및 서브 이미지에 대응되는 특징을 얻기 위한 서브 이미지 추출 유닛 - 상기 적어도 2 개의 이미지는 적어도 하나의 상기 라벨링되지 않은 이미지 및 적어도 하나의 상기 라벨링된 이미지를 포함하고, 상기 적어도 2 개의 서브 이미지는 대응되는 이미지의 카테고리를 반송함 - ; 및
적어도 2 개의 서브 이미지의 카테고리 및 적어도 2 개의 서브 이미지 사이의 특징 거리에 기반하여, 시맨틱 분할 모델을 훈련시키기 위한 훈련 유닛을 포함한다.
본 출원의 실시예의 또 다른 측면에 따라 제공되는 전자 기기는, 프로세서를 포함하며, 상기 프로세서는 상기 시맨틱 분할 모델의 훈련 장치를 포함한다.
본 출원의 실시예의 또 다른 측면에 따라 제공되는 전자 기기는, 실행 가능한 명령어를 저장하기 위한 메모리; 및
상기 실행 가능한 명령어를 실행하기 위해 상기 메모리와 통신함으로써 상기 시맨틱 분할 모델의 훈련 방법의 단계를 완성하기 위한 프로세서를 포함한다.
본 출원의 실시예의 또 다른 측면에 따라 제공되는 컴퓨터 저장 매체는, 컴퓨터 판독 가능 명령어를 저장하기 위한 컴퓨터 저장 매체를 제공하며, 상기 명령어가 실행될 때 상기 시맨틱 분할 모델의 훈련 방법의 단계를 실행한다.
본 출원의 실시예의 또 다른 측면에 따라 제공되는 컴퓨터 프로그램은, 컴퓨터 판독 가능 코드를 포함하고, 상기 컴퓨터 판독 가능 코드가 기기에서 작동될 때, 상기 기기 중의 프로세서는 본 출원의 실시예 중 어느 하나에 따른 시맨틱 분할 모델의 훈련 방법에서 각 단계를 구현하기 위한 명령어를 실행한다.
본 출원의 상기 실시예에 따라 제공되는 시맨틱 분할 모델의 훈련 방법 및 장치, 전자 기기, 저장 매체에 기반하여, 시맨틱 분할 모델을 통해 라벨링되지 않은 이미지에 대해 이미지 시맨틱 분할을 진행함으로써, 라벨링되지 않은 이미지로 하여금 하나의 노이즈가 있는 카테고리를 얻게 하며, 라벨링되지 않은 이미지의 카테고리 및 라벨링된 이미지의 카테고리에 기반하여, 적어도 2 개의 이미지에 각각 대응되는 서브 이미지를 얻으며, 라벨링된 이미지와 라벨링되지 않은 이미지를 모두 훈련에 응용하여, 자체 감독 훈련을 구현하며; 컨볼루션 뉴럴 네트워크를 통해, 서브 이미지에 대해 특징 추출을 진행하는 것을 구현하며, 적어도 2 개의 서브 이미지의 카테고리 및 적어도 2 개의 서브 이미지 사이의 특징 거리에 기반하여, 시맨틱 분할 모델에 대한 훈련을 구현하며, 훈련을 통해 비교적 강한 시맨틱 구분 능력을 갖는 자체 감독 학습하는 시맨틱 분할 모델을 얻으며, 시맨틱 분할에서 높은 정확도를 얻을 수 있다.
아래에, 첨부된 도면 및 실시예를 참조하여, 본 출원의 기술 방안을 상세히 설명한다.
본 명세서의 일부를 구성하는 도면은 본 출원의 실시예를 설명하고, 본 명세서의 원리를 설명과 함께 해석하기 위한 것이다.
도면을 참조하면, 본 출원은 다음의 상세한 설명에 따라, 더욱 명확하게 이해될 수 있다.
도 1은 본 출원의 시맨틱 분할 모델의 훈련 방법에 따른 하나의 실시예의 흐름도이다.
도 2는 본 출원의 시맨틱 분할 모델의 훈련 방법에 따른 패치 그래프(patch graph)를 구축하는 하나의 예의 모식도이다.
도 3은 본 출원의 시맨틱 분할 모델의 훈련 방법에 따른 패치 그래프를 구축하는 다른 하나의 예의 모식도이다.
도 4는 본 출원의 시맨틱 분할 모델의 훈련 장치의 하나의 실시예의 구조 모식도이다.
도 5는 본 출원의 전자 기기의 하나의 실시예의 구조 모식도이다.
아래에 첨부 도면을 참조하여 본 출원의 다양한 실시예를 상세히 설명한다. 유의해야 할 것은, 이러한 실시예에서 제시된 부품 및 단계의 상대적 배치, 디지털 표현식 및 수치는 달리 구체적으로 설명되지 않는 한, 본 출원의 범위를 한정하지 않는다.
동시에, 도면에 도시된 각 부분의 크기는 설명의 편의를 위해 실제 비례관계에 의해 그려진 것이 아니라는 것을 알아야 한다.
적어도 하나의 예시적인 실시예에 대한 다음의 설명은 실제로 예시적인 것에 불과하며, 본 출원 및 그 응용이나 사용에 대한 어떠한 한정으로도 간주되지 않는다.
관련 기술 분야의 통상의 기술자에게 공지된 기술, 방법 및 기기는 상세하게 논의되지 않을 수 있지만, 적절한 경우, 상기 기술, 방법 및 기기는 명세서의 일부로 간주되어야 한다.
유의해야 할 것은, 유사한 도면 부호 및 문자는 다음의 도면에서 유사한 항목을 표시하므로, 어느 한 항목이 하나의 도면에서 정의되면, 후속 도면에서 추가로 논의될 필요가 없다.
본 출원의 실시예는 컴퓨터 시스템/서버에 응용될 수 있으며, 이는 다수의 다른 범용 또는 특수 목적 컴퓨팅 시스템 환경 또는 구성과 함께 작동될 수있다. 컴퓨터 시스템/서버와 함께 사용하기에 적합한 잘 알려진 컴퓨팅 시스템, 환경 및 구성 중 적어도 하나의 예는 개인용 컴퓨터 시스템, 서버 컴퓨터 시스템, 씬 클라이언트, 씩 클라이언트, 핸드 헬드 또는 랩톱 기기, 마이크로 프로세서 기반 시스템, 셋톱 박스, 프로그래머블 가전 제품, 네트워크 개인용 컴퓨터, 소형 컴퓨터 시스템, 대형 컴퓨터 시스템 및 상기 시스템 중 어느 하나를 포함하는 분산 클라우드 컴퓨팅 기술 환경을 포함하지만 이에 한정되지 않는다.
컴퓨터 시스템/서버는 컴퓨터 시스템에 의해 실행되는 컴퓨터 시스템 실행 가능 명령어(예를 들어, 프로그램 모듈)의 일반적인 맥락에서 설명 될 수있다. 일반적으로, 프로그램 모듈은 특정 작업을 실행하거나 특정 추상 데이터 타입을 구현하기 위한 루틴, 프로그램, 타겟 프로그램, 어셈블리, 논리, 데이터 구조 등을 포함할 수 있다. 컴퓨터 시스템/서버는 작업이 통신 네트워크를 통해 연결된 원격 처리 장치에 의해 실행되는 분산 클라우드 컴퓨팅 환경에서 구현 될 수있다. 분산 클라우드 컴퓨팅 환경에서, 프로그램 모듈은 저장 기기를 포함하는 로컬 또는 원격 컴퓨팅 시스템 저장 매체에 위치할 수 있다.
도 1은 본 출원의 시맨틱 분할 모델의 훈련 방법에 따른 하나의 실시예의 흐름도이다. 도 1에 도시된 바와 같이, 상기 실시예의 방법은 아래의 단계를 포함한다.
단계 101에 있어서, 시맨틱 분할 모델을 통해, 적어도 하나의 라벨링되지 않은 이미지에 대해 이미지 시맨틱 분할을 진행하여, 상기 라벨링되지 않은 이미지의 카테고리로서, 예비 시맨틱 분할 결과를 얻는다.
여기서, 라벨링되지 않은 이미지는 상기 이미지에서 일부 또는 전부 픽셀의 카테고리(예를 들어, 시맨틱 카테고리)가 불확실하다는 것을 의미하며, 본 실시예에 있어서, 예시적으로, 하나의 공지된 시맨틱 분할 모델이 라벨링되지 않은 이미지에 대해 이미지 시맨틱 분할을 진행하는 것을 통해, 노이즈가 있는 시맨틱 분할 결과를 획득한다.
하나의 선택적인 예에 있어서, 상기 단계 101은 메모리에 저장된 상응하는 명령어를 호출하는 프로세서에 의해 실행될 수 있거나, 프로세서에 의해 작동되는 분할 유닛(41)에 의해 실행될 수도 있다.
단계 102에 있어서, 컨볼루션 뉴럴 네트워크를 통해, 적어도 하나의 라벨링되지 않은 이미지의 카테고리 및 적어도 하나의 라벨링된 이미지의 카테고리에 기반하여, 적어도 2 개의 이미지에 각각 대응되는 서브 이미지 및 서브 이미지에 대응되는 특징을 얻는다.
여기서, 적어도 2 개의 이미지는 적어도 하나의 라벨링되지 않은 이미지 및 적어도 하나의 라벨링된 이미지를 포함하며, 적어도 2 개의 서브 이미지는 대응되는 이미지의 카테고리를 반송한다. 선택적으로, 설정 가능한 크기의 선택 프레임을 통해 이미지에서 이동한 다음, 이미지에서 픽셀의 카테고리에 따라 선택 프레임 내의 픽셀이 동일한 카테고리인지를 다시 판단하며, 하나의 선택 프레임에서 설정 비율을 초과하는 픽셀이 모두 동일한 카테고리에 속하면, 이 선택 프레임을 하나의 서브 이미지로서 출력할 수 있다.
하나의 선택적인 예에 있어서, 상기 단계 102는 메모리에 저장된 상응하는 명령어를 호출하는 프로세서에 의해 실행될 수 있거나, 프로세서에 의해 작동되는 서브 이미지 추출 유닛(42)에 의해 실행될 수도 있다.
단계 103에 있어서, 적어도 2 개의 서브 이미지의 카테고리 및 적어도 2 개의 서브 이미지 사이의 특징 거리에 기반하여, 시맨틱 분할 모델을 훈련시킨다.
하나의 선택적인 예에 있어서, 상기 단계 103은 메모리에 저장된 상응하는 명령어를 호출하는 프로세서에 의해 실행될 수 있거나, 프로세서에 의해 작동되는 훈련 유닛(43)에 의해 실행될 수도 있다.
본 출원의 상기 실시예에 따라 제공되는 시맨틱 분할 모델의 훈련 방법은, 시맨틱 분할 모델을 통해 라벨링되지 않은 이미지에 대해 이미지 시맨틱 분할을 진행하여, 라벨링되지 않은 이미지로 하여금 하나의 노이즈가 있는 카테고리를 얻게 할 수 있으며, 라벨링되지 않은 이미지의 카테고리 및 라벨링된 이미지의 카테고리에 기반하여, 적어도 2 개의 이미지에 각각 대응되는 서브 이미지를 얻으며, 라벨링된 이미지와 라벨링되지 않은 이미지를 훈련에 모두 적용함으로써, 자체 감독 훈련을 구현하며; 컨볼루션 뉴럴 네트워크를 통해, 서브 이미지에 대해 특징 추출을 진행하는 것을 구현하며, 적어도 2 개의 서브 이미지의 카테고리 및 적어도 2 개의 서브 이미지 사이의 특징 거리에 기반하여, 시맨틱 분할 모델에 대한 훈련을 구현하며, 훈련을 통해 비교적 강한 시맨틱 구분 능력을 갖는 자체 감독 학습하는 시맨틱 분할 모델을 얻으며, 시맨틱 분할에서 높은 정확도를 얻을 수 있다.
자체 감독 학습은 라벨링되지 않은 이미지 자체를 사용하여 훈련을 진행하여, 이미지 디스크립터를 획득하고, 이미지 디스크립터는 이미지 시맨틱 정보의 고차원 벡터를 설명하도록 구성될 수 있고; 그 다음, 이러한 이미지 디스크립터를 사용하여 시맨틱 분할의 훈련을 진행한다.
본 출원의 시맨틱 분할 모델의 훈련 방법의 다른 실시예에 있어서, 상기 실시예에 기반하면, 단계 103은,
서브 이미지 사이의 카테고리 관계에 따라, 패치 그래프(patch graph)를 설정하는 단계 - 상기 패치 그래프는 노드와 경계를 포함하며, 노드는 서브 이미지를 포함하고, 경계는 임의의 2 개의 서브 이미지 사이의 특징 거리를 포함함 - ; 및
상기 패치 그래프에서, 동일한 카테고리의 2 개의 서브 이미지 사이의 특징 거리가 제1 기설정 값보다 작게 되고, 상이한 카테고리의 2 개의 서브 이미지 사이의 특징 거리가 제2 기설정 값보다 크게 되도록 시맨틱 분할 모델에 대해 훈련을 진행하는 단계를 포함한다.
상기 실시예에 있어서, 도 2는 본 출원의 시맨틱 분할 모델의 훈련 방법에 따른 패치 그래프를 구축하는 하나의 예의 모식도이다. 도 2에 도시된 바와 같이, 패치 그래프(patch graph)(22)를 설정하기 위해, 먼저 노드(221)를 결정해야 하며, 본 실시예에서 서브 이미지를 노드(221)로 하고, 임의의 하나의 공지된 카테고리 이미지(21)에서 선택 프레임(211)을 통해 적어도 하나의 서브 이미지를 선택하고, 연결 관계가 있는 서브 이미지 사이의 특징 거리를 경계(222)(도 2에서 중간 계층 특징에서 선택된 선택 프레임 중의 특징은 서브 이미지의 특징임)로 하며, 여기서, 서브 이미지 사이의 연결 관계는 서브 이미지에 대응되는 카테고리에 따라 결정되는 것이며; 서브 이미지의 특징은 대응되는 선택 프레임을 통해 컨볼루션 뉴럴 네트워크의 출력 계층에 의해 출력된 특징맵에서 선택된 특징이며; 선택적으로, 상기 출력 계층은 컨볼루션 뉴럴 네트워크에서의 중간 계층 또는 깊은 계층 중의 임의의 하나의 계층이며; 컨볼루션 뉴럴 네트워크의 중간 계층 또는 깊은 계층 중의 하나의 계층을 선택하여 출력 계층으로 하며, 여기서, 이미지의 얕은 계층의 특징은 일반적으로 이미지에서 물체의 일부 변두리(edge), 각도 등 정보를 표상하며, 이미지 중간 계층 특징은 일반적으로 물체의 일부 구성 요소 정보(예컨대, 차량의 바퀴, 얼굴의 코 등)를 표상하며, 이미지 깊은 계층 특징은 일반적으로 전체적인 이미지의 카테고리 정보(예컨대, 사람, 자동차, 말 등)를 표상하며; 서브 이미지를 통해 이미지를 설정하고, 파라미터에 대해 최적화를 진행하며, 중간 계층 또는 깊은 계층 중의 하나의 계층을 라벨링된 이미지 및 라벨링되지 않은 이미지의 출력 계층으로 하며, 또한, 여러 차례의 실천을 거쳐 증명된 바, 중간 계층 특징의 최적화 효과는 깊은 계층 특징보다 우수하며; 여기서, 제1 기설정 값 및 제2 기설정 값은 미리 구축된 것이며, 통상적으로, 제2 기설정 값은 제1 기설정 값보다 크고, 제1 기설정 값 및 제2 기설정 값을 통해 동일한 카테고리의 2 개의 서브 이미지 사이의 특징 거리를 작게 할수록, 상이한 카테고리의 2 개의 서브 이미지 사이의 특징 거리는 커진다.
도 3은 본 출원의 시맨틱 분할 모델의 훈련 방법에 따른 패치 그래프를 구축하는 단계의 다른 하나의 예의 모식도이다. 상기 실시예의 방법은, 컨볼루션 뉴럴 네트워크(도 3에서 CNN임)를 통해, 적어도 하나의 라벨링되지 않은 이미지의 카테고리(상기 라벨링되지 않은 이미지의 카테고리는 공지된 시맨틱 분할 모델에 기반하여 획득될 수 있음) 및 적어도 하나의 라벨링된 이미지의 카테고리에 기반하여, 적어도 2 개의 이미지에 각각 대응되는 서브 이미지 및 서브 이미지에 대응되는 특징(도 3에서 중간 계층 특징에서의 서브 이미지 위치에 대응되는 특징임)을 얻는 단계; 및 서브 이미지 사이의 카테고리 관계에 따라, 패치 그래프(patch graph)를 설정하는 단계 - 상기 패치 그래프는 노드와 경계를 포함하며(도 3에서 패치 그래프의 원은 노드를 의미하고, 2 개의 원 사이를 연결하는 선은 경계를 의미함), 노드는 서브 이미지를 포함하고, 경계는 임의의 2 개의 서브 이미지 사이의 특징 거리를 포함함 - 를 포함한다.
본 출원의 시맨틱 분할 모델의 훈련 방법에 따른 상기 각 실시예의 하나의 선택적인 예에 있어서, 서브 이미지 사이의 카테고리 관계에 따라, 패치 그래프를 구축하는 단계는,
적어도 하나의 서브 이미지를 기준 노드로 선택하고, 적어도 하나의 기준 노드 각각에 대해,
기준 노드와 동일한 카테고리의 서브 이미지를 양의 상관 노드로 하고, 기준 노드와 상이한 카테고리의 서브 이미지를 음의 상관 노드로 하여, 기준 노드와 적어도 하나의 양의 상관 노드 사이에서 양의 상관 연결을 각각 설정하고, 기준 노드와 적어도 하나의 음의 상관 노드 사이에서 음의 상관 연결을 각각 설정하는 단계; 및
적어도 하나의 기준 노드, 기준 노드의 양의 상관 노드, 기준 노드의 음의 상관 노드, 양의 상관 연결 및 음의 상관 연결에 의해 스파스 연결의 이미지를 형성하는 단계를 포함한다.
상기 실시예에 있어서, 패치 그래프를 구축하는 과정은, 적어도 2 개의 서브 이미지로부터 복수 개의 서브 이미지를 무작위로 선택하는 것이며, 무작위로 선택된 서브 이미지를 각각 앵커(anchor)로 하고, 시맨틱 카테고리에 기반하여, 앵커와 동일한 카테고리의 하나의 서브 이미지를 포지티브(positive) 그래프로서 무작위로 선택하며, 앵커와 상이한 시맨틱 카테고리의 하나의 서브 이미지를 네거티브(negative) 그래프로서 무작위로 선택하며, 이때, 하나의 서브 이미지에 기반하여 2 개의 연결, 즉 앵커 - 포지티브(anchor-positive) 및 앵커 - 네거티브(anchor-negative)를 구축하며; 이러한 연결을 기반으로, 하나의 스파스 연결의 패치 그래프를 구축한다.
본 출원의 시맨틱 분할 모델의 훈련 방법에 따른 상기 각 실시예의 하나의 선택적인 예에 있어서, 시맨틱 분할 모델에 대해 훈련을 진행하는 단계는,
컨볼루션 뉴럴 네트워크의 오차를 최소화하기 위해, 기울기 역전파 알고리즘을 통해, 상기 시맨틱 분할 모델에 대해 훈련을 진행하는 단계 - 오차는 컨볼루션 뉴럴 네트워크에 기반하여 획득된 서브 이미지에 대응되는 특징의 삼중 손실임 - 를 포함한다.
본 실시예에서 기울기 역전파 알고리즘을 통해 컨볼루션 뉴럴 네트워크 중의 오차를 감소시켜, 컨볼루션 뉴럴 네트워크에서 제1 계층으로부터 출력 계층으로의 적어도 하나의 계층의 파라미터를 최적화하며, 기울기 역전파 알고리즘(BP, Back Propagation Algorithm)은 관리자의 지도 하에, 복수 계층 뉴런 네트워크에 적합한 학습 알고리즘이며, 이는 기울기 하강법을 기반으로 구축된다. BP 네트워크의 입출력 관계는 실질적으로 맵핑 관계이며, 하나의 n 입력 및 m 출력을 가진 BP 뉴럴 네트워크에 의해 완성되는 기능은 n 차원 유클리드 공간으로부터 m 차원 유클리드 공간까지의 하나의 유한 필드의 연속적인 맵핑이며, 이 하나의 맵핑은 높은 비선형성을 갖는다. BP 알고리즘의 학습 과정은 순전파 과정과 역전파 과정으로 구성된다. 순전파 과정에서, 입력 정보는 입력 계층을 통해 은닉 계층을 지나, 계층 별로 처리되어 출력 계층으로 전송된다. 출력 계층에서 예상 출력 값을 얻지 못하면, 출력과 예상 오차의 제곱의 합을 목표 함수로서 하고, 역전파로 전환하고, 계층별로 각 뉴런 가중치에 대한 목표 함수의 편도 함수(partial derivative)를 계산하여, 목표 함수가 가중치 벡터에 대한 래더(ladder)를 구성하며, 래더를 가중치를 수정하는 근거로 하고, 네트워크의 학습은 가중치 수정 과정에서 완성된다. 오차가 예상 값에 도달하면, 네트워크 학습은 종료된다.
패치 그래프에서의 경계는 출력 계층에 의해 출력된 서브 이미지 사이의 특징 거리에 의해 획득되며, 여기서, 출력 계층은 중간 계층 또는 깊은 계층에서 선택된 하나의 계층이며, 따라서, 최적화된 것은 컨볼루션 뉴럴 네트워크의 모든 계층의 파라미터가 아니라, 제1 계층에서 상기 출력 계층까지의 파라미터이며, 따라서, 오차 계산 과정에서, 마찬가지로, 출력 계층으로부터 제1 계층에서 적어도 하나의 계층까지의 오차를 계산한다.
본 출원의 시맨틱 분할 모델의 훈련 방법에 따른 상기 각 실시예의 하나의 선택적인 예에서, 기울기 역전파 알고리즘을 통해, 시맨틱 분할 모델에 대해 훈련을 진행하는 단계는,
구축된 패치 그래프에서 서브 이미지의 특징 사이의 거리에 따라 손실 함수를 통해 최대 오차를 계산하여 얻는 단계;
최대 오차에 대해 기울기 역전파를 진행하여, 컨볼루션 뉴럴 네트워크에서 적어도 하나의 계층의 오차를 계산하는 단계;
적어도 하나의 계층의 오차에 따라 적어도 하나의 계층의 파라미터의 기울기를 계산하고, 기울기에 따라 상기 컨볼루션 뉴럴 네트워크에서 대응되는 계층의 파라미터를 수정하는 단계;
파라미터를 최적화시킨 후의 컨볼루션 뉴럴 네트워크에 의해 출력된 서브 이미지 사이의 거리에 따라 오차를 계산하여 얻고, 오차를 최대 오차로 하는 단계; 및
최대 오차에 대해 기울기 역전파를 반복 실행하여, 컨볼루션 뉴럴 네트워크에서 적어도 하나의 계층의 오차를 계산하고, 상기 최대 오차가 기설정 값보다 작거나 같을 때까지, 적어도 하나의 계층의 오차에 따라 적어도 하나의 계층의 파라미터의 기울기를 계산하며, 기울기에 따라 컨볼루션 뉴럴 네트워크에서 대응되는 계층의 파라미터를 수정하는 단계를 포함한다.
본 실시예에 있어서, 먼저 하나의 손실 함수를 정의하고, 컨볼루션 뉴럴 네트워크는 이 손실 함수를 최소화하여 네트워크 파라미터를 최적화하며, 상기 손실 함수 공식은 공식 (1)과 같다.
Figure pct00001
공식 (1)
여기서,
Figure pct00002
는 서브 이미지를 기반으로 구축된 패치 그래프에서 앵커와 포지티브 사이의 거리를 표시하고,
Figure pct00003
는 서브 이미지를 기반으로 구축된 패치 그래프에서 앵커와 네거티브 사이의 거리를 표시하며, m은 하나의 상수를 표시하며, 상기 공식은 종래 기술에서 삼중 손실(triplet loss) 함수의 공식에 기반하여 획득된 것이며, 계산된 오차를 통해, 기울기 역전파 알고리즘을 결합하여 컨볼루션 뉴럴 네트워크에서 각 계층의 파라미터에 대한 최적화를 구현할 수 있다.
본 출원의 시맨틱 분할 모델의 훈련 방법의 상기 각 실시예의 하나의 선택적인 예에 있어서, 시맨틱 분할 모델에 대해 훈련을 진행하는 과정은,
컨볼루션 뉴럴 네트워크의 훈련 결과에 기반하여 컨볼루션 뉴럴 네트워크의 파라미터를 획득하는 단계; 및
획득된 컨볼루션 뉴럴 네트워크의 파라미터에 기반하여 시맨틱 분할 모델 중의 파라미터를 초기화하는 단계를 포함할 수 있다.
본 실시예에 있어서, 시맨틱 분할 모델도 컨볼루션 뉴럴 네트워크에 속하므로, 훈련에 의해 얻은 컨볼루션 뉴럴 네트워크의 파라미터는 비교적 강한 시맨틱 카테고리 구별성을 가지며, 시맨틱 분할에서 높은 정확도를 얻을 수 있고, 최초의 시맨틱 분할 모델 중의 파라미터를 상기 컨볼루션 뉴럴 네트워크의 파라미터로 교체하면, 훈련이 완료된 시맨틱 분할 모델을 획득하게 된다.
본 출원의 시맨틱 분할 모델의 훈련 방법의 또 다른 실시예에 있어서, 상기 각 실시예를 기반으로, 단계 102는,
기설정 크기의 선택 프레임이 적어도 2 개의 이미지 상에서 이동하는 것에 응답하여, 선택 프레임 내의 픽셀에 대해 판단을 진행하고, 선택 프레임 내의 픽셀에서 동일한 시맨틱 카테고리의 픽셀이 차지하는 비율이 기설정 값보다 크거나 같을 때, 선택 프레임 내의 이미지를 하나의 서브 이미지로서 출력하고, 서브 이미지에 대해 카테고리로 라벨링하는 단계; 및
컨볼루션 뉴럴 네트워크를 통해 서브 이미지에 대응되는 특징을 얻는 단계를 포함할 수 있다.
본 실시예에 있어서, 하나의 크기가 변화될 수 있는 선택 프레임을 통해 적어도 2 개의 이미지에 대해 분할을 진행하고, 여기서, 적어도 2 개의 이미지는 라벨링되지 않은 이미지 및 라벨링된 이미지를 포함하고, 하나의 카테고리(예를 들어, 시맨틱 카테고리 등)에 속하는 선택 프레임 내의 픽셀이 차지하는 비율이 기설정 값보다 크거나 같을 때, 상기 선택 프레임을 상기 카테고리로 분류할 수 있고, 상기 선택 프레임 내의 픽셀을 하나의 서브 이미지로서 출력할 수 있으며, 선택 프레임의 크기는 조정 가능하고, 하나의 크기의 선택 프레임을 통해 이미지에서 서브 이미지를 획득하지 못하면, 소정의 개수의 서브 이미지를 얻을 때까지, 선택 프레임의 크기를 조정하는 것을 통해, 분할을 다시 진행한다.
본 출원의 시맨틱 분할 모델의 훈련 방법에 따른 상기 각 실시예의 하나의 선택적인 예에 있어서, 단계 102는, 선택 프레임 내의 픽셀에서 동일한 카테고리의 픽셀이 차지하는 비율이 기설정 값보다 작을 때, 상기 선택 프레임을 포기하는 단계를 더 포함할 수 있다.
본 예에 있어서, 선택 가능한 서브 이미지가 누락되는 것을 피하기 위해, 설정된 크기의 선택 프레임에 대해 하나의 이미지에서 픽셀 단위로의 이동을 완성해야 하며, 하나의 선택 프레임에 복수 개의 카테고리가 존재하지만, 상기 복수 개의 카테고리에 대응되는 픽셀 비율이 모두 기설정 값보다 작으면, 상기 선택 프레임은 카테고리를 결정할 수 없으며, 이 때, 선택 프레임을 다음 위치로 이동하고, 다음 위치에서 계속하여 판단해야 하며; 하나의 크기가 설정된 선택 프레임을 통해 하나의 이미지에서 임의의 서브 이미지를 획득하지 못하면, 선택 프레임의 크기를 조정하고, 상기 이미지에 대해 선택을 다시 진행해야 한다.
본 출원의 시맨틱 분할 모델의 훈련 방법에 따른 상기 각 실시예의 하나의 선택적인 예에 있어서, 컨볼루션 뉴럴 네트워크를 통해 서브 이미지에 대응되는 특징을 얻는 단계는,
컨볼루션 뉴럴 네트워크를 통해 각각 라벨링되지 않은 이미지 및 라벨링된 이미지 각각에 대해 특징 추출을 진행하여, 라벨링되지 않은 이미지 및 라벨링된 이미지에 대응하는 특징맵을 획득하는 단계; 및
서브 이미지에 대응되는 선택 프레임의 위치와 크기에 기반하여, 대응되는 특징맵으로부터 대응되는 선택 프레임 내의 특징을 획득하고, 서브 이미지에 대응되는 특징을 결정하는 단계를 포함한다.
본 실시예에 있어서, 서브 이미지의 선택 프레임의 위치와 크기를 획득함으로써, 대응되는 컨볼루션 뉴럴 네트워크의 출력 계층의 특징맵에서 동일한 위치와 크기의 선택 프레임을 통해 서브 이미지에 대응되는 특징을 선택하고, 나아가 서브 이미지의 특징을 통해 임의의 2 개의 서브 이미지 사이의 특징 거리를 획득한다.
본 출원의 시맨틱 분할 모델의 훈련 방법에 따른 상기 각 실시예의 하나의 선택적인 예에 있어서, 단계 102 이전에, 시맨틱 분할 모델의 파라미터에 기반하여, 컨볼루션 뉴럴 네트워크의 파라미터를 초기화하는 단계를 더 포함할 수 있다.
예시적으로, 더욱 정확한 특징을 얻기 위해, 시맨틱 분할 모델의 파라미터를 사용하여 컨볼루션 뉴럴 네트워크의 파라미터에 대해 초기화를 진행한다.
본 출원의 시맨틱 분할 모델의 훈련 방법에 따른 다른 실시예에 있어서, 상기 각 실시예를 기반으로, 단계 101 이전에,
기설정 수렴 조건이 만족될 때까지, 확률적 기울기 하강법을 사용하여 시맨틱 분할 모델에 대해 훈련을 진행하는 단계를 더 포함할 수 있다.
본 실시예는 시맨틱 분할 모델 각각에 대한 미세 조정을 구현하며, 선택적으로, 미세 조정 과정은 다음의 단계를 포함한다. 1. VGG-16 네트워크 구조의 시맨틱 분할 모델을 사용한다. 2. 시맨틱 분할 모델의 초기 학습율을 0.01로 설정하고, 각 30000 라운드마다 반복적으로 10 배 하강한다. 3. 확률적 기울기 하강 알고리즘을 사용하여 시맨틱 분할 작업을 미세 조정하고 최적화하며, 이 과정은 8 개의 GPU 를 이용하여 분산 계산을 한다. 4. 확률적 기울기 하강 알고리즘: 데이터(본 사례는 16 장의 이미지임)를 무작위로 선택하고, 네트워크에 입력하며, 순전파를 진행하여 결과를 얻으며, 이 결과와 라벨링된 결과의 오차를 계산하고, 역전파를 이용하여 적어도 하나의 계층의 오차를 얻는다. 적어도 하나의 계층의 오차에 따라 적어도 하나의 계층의 파라미터의 기울기를 계산하며, 기울기에 따라 파라미터 값을 계산하고; 끊임없이 수정하는 과정에서 모델을 수렴시킨다. 5. 제 60000 라운드 정도까지 반복하여 모델을 수렴시킨다. 6. 이 시맨틱 분할 모델을 이용하여 기존의 개시 데이터 세트에서 테스트를 진행한다.
본 출원의 시맨틱 분할 모델의 훈련 방법에 따른 또 다른 실시예에 있어서, 상기 각 실시예를 기반으로, 단계 102 이전에,
기설정 수렴 조건이 만족될 때까지, 확률적 기울기 하강법을 사용하여 컨볼루션 뉴럴 네트워크에 대해 훈련을 진행하는 단계를 더 포함할 수 있다.
본 실시예는 컨볼루션 뉴럴 네트워크에 대한 미세 조정을 구현하며, 선택적으로, 미세 조정 과정은 다음의 단계를 포함한다. 1. VGG-16 네트워크 구조의 컨볼루션 뉴럴 네트워크를 사용한다. 2. 컨볼루션 뉴럴 네트워크의 초기 학습율을 0.01로 설정하고, 각 30000 라운드마다 반복적으로 10 배 하강한다. 3. 확률적 기울기 하강 알고리즘을 사용하여 시맨틱 분할 작업을 미세 조정하고 최적화하며, 이 과정은 8 개의 GPU 를 이용하여 분산 계산을 한다. 4. 확률적 기울기 하강 알고리즘: 데이터(본 사례는 16 장의 이미지임)를 무작위로 선택하고, 네트워크에 입력하며, 순전파를 이용하여 결과를 얻으며, 이 결과와 라벨링된 결과의 오차를 계산하고, 역전파를 이용하여 적어도 하나의 계층의 오차를 얻는다. 적어도 하나의 계층의 오차에 따라 적어도 하나의 계층의 파라미터의 기울기를 계산하며, 기울기에 따라 파라미터 값을 계산하고; 끊임없이 수정하는 과정에서 네트워크를 수렴시킨다. 5. 제 60000 라운드 정도까지 반복하여 네트워크를 수렴시킨다. 6. 이 컨볼루션 뉴럴 네트워크를 이용하여 기존의 개시 데이터 세트에서 테스트를 진행한다.
본 기술분야의 통상의 기술자는 상기 방법 실시예를 구현하기 위한 모든 또는 일부 동작은 프로그램 명령어와 관련되는 하드웨어를 통해 완성되며, 전술한 프로그램은 컴퓨터 판독 가능 저장 매체에 저장될 수 있으며, 상기 프로그램이 실행될 때, 실행은 상기 방법 실시예의 단계를 포함하며; 전술한 저장 매체는 판독 전용 메모리(Read Only Memory, ROM), 랜덤 액세스 메모리(Random Access Memory, RAM), 자기 디스크 또는 광 디스크와 같은 프로그램 코드를 저장할 수 있는 다양한 매체를 포함한다.
도 4는 본 출원의 시맨틱 분할 모델의 훈련 장치의 하나의 실시예의 구조 모식도이다. 상기 실시예의 장치는 본 출원의 상기 각 방법에 따른 실시예를 구현하기 위한 것일 수 있다. 도 4에 도시된 바와 같이, 상기 실시예의 장치는,
시맨틱 분할 모델을 통해, 적어도 하나의 라벨링되지 않은 이미지에 대해 이미지 시맨틱 분할을 진행하여, 라벨링되지 않은 이미지의 카테고리로서 예비 시맨틱 분할 결과를 얻기 위한 분할 유닛(41);
컨볼루션 뉴럴 네트워크를 통해, 적어도 하나의 라벨링되지 않은 이미지의 카테고리 및 적어도 하나의 라벨링된 이미지의 카테고리에 기반하여, 적어도 2 개의 이미지에 각각 대응되는 서브 이미지 및 서브 이미지에 대응되는 특징을 얻기 위한 서브 이미지 추출 유닛(42) - 적어도 2 개의 이미지는 적어도 하나의 라벨링되지 않은 이미지 및 적어도 하나의 라벨링된 이미지를 포함하며, 적어도 2 개의 서브 이미지는 대응되는 이미지의 카테고리를 반송함 - ; 및
적어도 2 개의 서브 이미지의 카테고리 및 적어도 2 개의 서브 이미지 사이의 특징 거리에 기반하여, 시맨틱 분할 모델을 훈련시키기 위한 훈련 유닛(43)을 포함한다.
본 출원의 상기 실시예에 따라 제공되는 시맨틱 분할 모델의 훈련 장치를 기반으로, 시맨틱 분할 모델을 통해 라벨링되지 않은 이미지에 대해 이미지 시맨틱 분할을 진행하여, 라벨링되지 않은 이미지로 하여금 하나의 노이즈가 있는 카테고리를 얻게 할 수 있으며, 라벨링되지 않은 이미지의 카테고리 및 라벨링된 이미지의 카테고리에 기반하여, 적어도 2 개의 이미지에 각각 대응되는 서브 이미지를 얻으며, 라벨링된 이미지와 라벨링되지 않은 이미지를 훈련에 모두 응용함으로써, 자체 감독 훈련을 구현하며; 컨볼루션 뉴럴 네트워크를 통해, 서브 이미지에 대해 특징 추출을 진행하는 것을 구현하며, 적어도 2 개의 서브 이미지의 카테고리 및 적어도 2 개의 서브 이미지 사이의 특징 거리에 기반하여, 시맨틱 분할 모델에 대한 훈련을 구현하며, 훈련을 통해 비교적 강한 시맨틱 구분 능력을 갖는 자체 감독 학습하는 시맨틱 분할 모델을 얻으며, 시맨틱 분할에서 높은 정확도를 얻을 수 있다.
본 출원의 시맨틱 분할 모델의 훈련 장치의 다른 실시예에 있어서, 상기 실시예에 기반하면, 훈련 유닛(43)은,
서브 이미지 사이의 카테고리 관계에 따라, 패치 그래프를 구축하기 위한 패치 그래프 구축 모듈 - 상기 패치 그래프는 노드와 경계를 포함하며, 노드는 서브 이미지를 포함하고, 경계는 임의의 2 개의 서브 이미지 사이의 특징 거리를 포함함 - ; 및
패치 그래프에서 동일한 카테고리의 2 개의 서브 이미지 사이의 특징 거리가 제1 기설정 값보다 작게 되고, 상이한 카테고리의 2 개의 서브 이미지 사이의 특징 거리가 제2 기설정 값보다 크게 되도록, 시맨틱 분할 모델에 대해 훈련을 진행하하기 위한 모델 훈련 모듈을 포함한다.
상기 실시예에 있어서, 패치 그래프(patch graph)를 구축하기 위해, 먼저 노드를 결정해야 하며, 본 실시예에서 서브 이미지를 노드로 하고, 연결 관계를 갖는 서브 이미지 사이의 특징 거리를 경계로 하며, 여기서, 서브 이미지 사이의 연결 관계는 서브 이미지에 대응되는 카테고리에 따라 결정되는 것이며; 서브 이미지의 특징은 대응되는 선택 프레임을 통해 컨볼루션 뉴럴 네트워크의 출력 계층에 의해 출력된 특징맵에서 선택된 특징이며; 선택적으로, 상기 출력 계층은 컨볼루션 뉴럴 네트워크에서의 중간 계층 또는 깊은 계층 중의 임의의 하나의 계층이며; 컨볼루션 뉴럴 네트워크의 중간 계층 또는 깊은 계층 중의 하나의 계층을 선택하여 출력 계층으로 하며, 여기서, 이미지의 얕은 계층의 특징은 일반적으로 이미지에서 물체의 일부 변두리(edge), 각도 등 정보를 표상하며, 이미지 중간 계층 특징은 일반적으로 물체의 일부 구성 요소 정보(예컨대, 차량의 바퀴, 얼굴의 코 등)를 표상하며, 이미지 깊은 계층 특징은 일반적으로 전체적인 이미지의 카테고리 정보(예컨대, 사람, 자동차, 말 등)를 표상하며; 서브 이미지를 통해 이미지를 구축하고, 파라미터에 대해 최적화를 진행하며, 중간 계층 또는 깊은 계층 중의 하나의 계층을 라벨링된 이미지 및 라벨링되지 않은 이미지의 출력 계층으로 선택하며, 또한, 여러 차례의 실천을 거쳐 증명된 바, 중간 계층 특징의 최적화 효과는 깊은 계층 특징보다 우수하며; 여기서, 제1 기설정 값 및 제2 기설정 값은 미리 구축된 것이며, 통상적으로, 제2 기설정 값은 제1 기설정 값보다 크고, 제1 기설정 값 및 제2 기설정 값을 통해 동일한 카테고리의 2 개의 서브 이미지 사이의 특징 거리를 작게 할수록, 상이한 카테고리의 2 개의 서브 이미지 사이의 특징 거리는 커진다.
본 출원의 시맨틱 분할 모델의 훈련 장치에 따른 상기 각 실시예의 하나의 선택적인 예에 있어서, 패치 그래프 구축 모듈은,
적어도 하나의 서브 이미지를 기준 노드로 선택하기 위한 기준 선택 모듈;
적어도 하나의 기준 노드 각각에 대해, 기준 노드와 동일한 카테고리의 서브 이미지를 양의 상관 노드로 하고, 기준 노드와 상이한 카테고리의 서브 이미지를 음의 상관 노드로 하여, 기준 노드와 적어도 하나의 양의 상관 노드 사이에서 양의 상관 연결을 각각 구축하고, 기준 노드와 적어도 하나의 상기 음의 상관 노드 사이에서 음의 상관 연결을 각각 구축하기 위한 연결 관계 구축 모듈; 및
적어도 하나의 기준 노드, 기준 노드의 양의 상관 노드, 기준 노드의 음의 상관 노드, 양의 상관 연결 및 음의 상관 연결에 의해 스파스 연결의 이미지를 형성하기 위한 연결 이미지 구축 모듈을 포함한다.
본 출원의 시맨틱 분할 모델의 훈련 장치에 따른 상기 각 실시예의 하나의 선택적인 예에 있어서, 모델 훈련 모듈은,
컨볼루션 뉴럴 네트워크의 오차를 최소화하기 위해, 기울기 역전파 알고리즘을 통해, 시맨틱 분할 모델에 대해 훈련을 진행하기 위한 네트워크 훈련 모듈 - 오차는 컨볼루션 뉴럴 네트워크에 기반하여 획득된 서브 이미지에 대응되는 특징의 삼중 손실임 - 을 포함한다.
본 출원의 시맨틱 분할 모델의 훈련 장치에 따른 상기 각 실시예의 하나의 선택적인 예에 있어서, 네트워크 훈련 모듈은 구체적으로,
구축된 패치 그래프에서의 서브 이미지 사이의 특징 거리에 따라 손실 함수를 통해 최대 오차를 계산하여 얻고;
최대 오차에 대해 기울기 역전파를 진행하여, 컨볼루션 뉴럴 네트워크에서 적어도 하나의 계층의 오차를 계산하며;
적어도 하나의 계층의 오차에 따라 적어도 하나의 계층의 파라미터의 기울기를 계산하고, 기울기에 따라 컨볼루션 뉴럴 네트워크에서 대응되는 계층의 파라미터를 수정하며;
파라미터를 최적화시킨 후의 컨볼루션 뉴럴 네트워크에 의해 출력된 서브 이미지 사이의 거리에 따라 오차를 계산하여 얻고, 오차를 최대 오차로 하며; 및
최대 오차에 대해 기울기 역전파를 진행하여, 컨볼루션 뉴럴 네트워크에서 적어도 하나의 계층의 오차를 계산하는 것을 반복적으로 실행하고, 상기 최대 오차가 기설정 값보다 작거나 같을 때까지, 적어도 하나의 계층의 오차에 따라 적어도 하나의 계층의 파라미터의 기울기를 계산하며, 기울기에 따라 컨볼루션 뉴럴 네트워크에서 대응되는 계층의 파라미터를 수정하기 위한 것이다.
본 출원의 시맨틱 분할 모델의 훈련 장치에 따른 상기 각 실시예의 하나의 선택적인 예에 있어서, 모델 훈련 모듈은,
컨볼루션 뉴럴 네트워크의 훈련 결과에 기반하여 컨볼루션 뉴럴 네트워크의 파라미터를 획득하고, 획득된 컨볼루션 뉴럴 네트워크의 파라미터에 기반하여 시맨틱 분할 모델 중의 파라미터를 초기화하기 위한 분할 모델 훈련 모듈을 더 포함한다.
본 출원의 시맨틱 분할 모델의 훈련 장치에 따른 다른 실시예에 있어서, 상기 각 실시예에 기반하여, 서브 이미지 추출 유닛은, 기설정 크기의 선택 프레임이 적어도 2 개의 이미지 상에서 이동하는 것에 응답하여, 선택 프레임 내의 픽셀에 대해 판단을 진행하고, 선택 프레임 내의 픽셀에서 동일한 카테고리의 픽셀이 차지하는 비율이 기설정 값보다 크거나 같을 때, 선택 프레임 내의 이미지를 하나의 서브 이미지로서 출력하며, 서브 이미지에 대해 카테고리로 라벨링하며; 컨볼루션 뉴럴 네트워크를 통해 서브 이미지에 대응되는 특징을 얻기 위한 것이다.
본 실시예에 있어서, 하나의 크기가 변화될 수 있는 선택 프레임을 통해 적어도 2 개의 이미지에 대해 분할을 진행하고, 여기서, 적어도 2 개의 이미지는 라벨링되지 않은 이미지 및 라벨링된 이미지를 포함하고, 하나의 카테고리(예를 들어, 시맨틱 카테고리)에 속하는 선택 프레임 내의 픽셀이 차지하는 비율이 기설정 값보다 크거나 같을 때, 상기 선택 프레임을 상기 카테고리로 분류할 수 있고, 상기 선택 프레임 내의 픽셀을 하나의 서브 이미지로서 출력할 수 있으며, 선택 프레임의 크기는 조정 가능하고, 하나의 크기의 선택 프레임을 통해 이미지에서 서브 이미지를 획득하지 못하면, 소정의 개수의 서브 이미지를 얻을 때까지, 선택 프레임의 크기를 조정하는 것을 통해, 분할을 다시 진행한다.
본 출원의 시맨틱 분할 모델의 훈련 장치에 따른 상기 각 실시예의 하나의 선택적인 예에 있어서, 서브 이미지 추출 유닛은 또한, 선택 프레임 내의 픽셀에서 동일한 카테고리의 픽셀이 차지하는 비율이 기설정 값보다 작을 때, 상기 선택 프레임을 포기하기 위한 것이다.
본 출원의 시맨틱 분할 모델의 훈련 장치에 따른 상기 각 실시예의 하나의 선택적인 예에 있어서, 서브 이미지 추출 유닛은, 컨볼루션 뉴럴 네트워크를 통해 서브 이미지에 대응되는 특징을 얻었을 때, 컨볼루션 뉴럴 네트워크를 통해 라벨링되지 않은 이미지 및 라벨링된 이미지 각각에 대해 특징 추출을 진행하여, 라벨링되지 않은 이미지 및 라벨링된 이미지에 대응하는 특징맵을 획득하며; 서브 이미지에 대응되는 선택 프레임의 위치와 크기에 기반하여, 라벨링된 이미지에 대응되는 특징맵으로부터 대응되는 선택 프레임 내의 특징을 획득하고, 서브 이미지에 대응되는 특징을 결정하기 위한 것이다.
본 출원의 시맨틱 분할 모델의 훈련 장치에 따른 또 다른 실시예에 있어서, 상기 각 실시예에 기반하여, 본 실시예의 장치는, 기설정 수렴 조건이 만족될 때까지, 확률적 기울기 하강법을 사용하여 시맨틱 분할 모델에 대해 훈련을 진행하기 위한 모델 미세 조정 유닛을 더 포함한다.
본 실시예는 시맨틱 분할 모델 각각에 대한 미세 조정을 구현하며, 선택적으로, 미세 조정 과정은 다음의 단계를 포함한다. 1. VGG-16 네트워크 구조의 시맨틱 분할 모델을 사용한다. 2. 시맨틱 분할 모델의 초기 학습율을 0.01로 설정하고, 각 30000 라운드마다 반복적으로 10 배 하강한다. 3. 확률적 기울기 하강 알고리즘을 사용하여 시맨틱 분할 작업을 미세 조정하고 최적화하며, 이 과정은 8 개의 GPU를 이용하여 분산 계산을 한다. 4. 확률적 기울기 하강 알고리즘: 데이터(본 사례는 16 장의 이미지임)를 무작위로 선택하고, 네트워크에 입력하며, 순전파를 이용하여 결과를 얻으며, 이 결과와 라벨링된 결과의 오차를 계산하고, 역전파를 이용하여 적어도 하나의 계층의 오차를 얻는다. 적어도 하나의 계층의 오차에 따라 적어도 하나의 계층의 파라미터의 기울기를 계산하며, 기울기에 따라 파라미터 값을 계산하고; 끊임없이 수정하는 과정에서 모델을 수렴시킨다. 5. 제 60000 라운드 정도까지 반복하여 모델을 수렴한다. 6. 이 시맨틱 분할 모델을 이용하여 기존의 개시 데이터 세트에서 테스트를 진행한다.
본 출원의 시맨틱 분할 모델의 훈련 장치의 또 다른 실시예에 있어서, 상기 각 실시예에 기반하여, 본 실시예의 장치는, 기설정 수렴 조건이 만족될 때까지, 확률적 기울기 하강법을 사용하여 컨볼루션 뉴럴 네트워크에 대해 훈련을 진행하기 위한 네트워크 미세 조정 유닛을 더 포함한다.
본 실시예는 컨볼루션 뉴럴 네트워크에 대한 미세 조정을 구현하며, 선택적으로, 미세 조정 과정은 다음의 단계를 포함한다. 1. VGG-16 네트워크 구조의 컨볼루션 뉴럴 네트워크를 사용한다. 2. 컨볼루션 뉴럴 네트워크의 초기 학습율을 0.01로 설정하고, 각 30000 라운드마다 반복적으로 10 배 하강한다. 3. 확률적 기울기 하강 알고리즘을 사용하여 시맨틱 분할 작업을 미세 조정하고 최적화하며, 이 과정은 8 개의 GPU를 이용하여 분산 계산을 한다. 4. 확률적 기울기 하강 알고리즘: 데이터(본 사례는 16 장의 이미지임)를 무작위로 선택하고, 네트워크에 입력하며, 순전파를 이용하여 결과를 얻으며, 이 결과와 라벨링된 결과의 오차를 계산하고, 역전파를 이용하여 적어도 하나의 계층의 오차를 얻는다. 적어도 하나의 계층의 오차에 따라 적어도 하나의 계층의 파라미터의 기울기를 계산하며, 기울기에 따라 파라미터 값을 계산하고; 끊임없이 수정하는 과정에서 네트워크를 수렴시킨다. 5. 제 60000 라운드 정도까지 반복하여 네트워크를 수렴한다. 6. 이 컨볼루션 뉴럴 네트워크를 이용하여 기존의 개시 데이터 세트에서 테스트를 진행한다.
본 출원의 실시예의 하나의 측면에 따라 제공되는 전자 기기는, 프로세서를 포함하며, 프로세서는 본 출원의 시맨틱 분할 모델의 훈련 장치에 따른 각 실시예 중 어느 한 항을 포함한다.
본 출원의 실시예의 하나의 측면에 따라 제공되는 전자 기기는, 실행 가능한 명령어를 저장하기 위한 메모리; 및
실행 가능한 명령어를 실행하기 위해 메모리와 통신함으로써 본 출원의 시맨틱 분할 모델의 훈련 방법에 따른 각 실시예 중 어느 한 동작을 완성하기 위한 프로세서를 포함한다.
본 출원의 실시예의 하나의 측면에 따라 제공되는 컴퓨터 저장 매체는, 컴퓨터 판독 가능 명령어를 저장하기 위한 것이며, 상기 명령어는 실행될 경우 본 출원의 시맨틱 분할 모델의 훈련 방법에 따른 각 실시예 중 어느 한 동작을 실행한다.
본 출원의 실시예는 또한, 컴퓨터 프로그램을 제공하며, 상기 컴퓨터 프로그램은 컴퓨터 판독 가능 코드를 포함하고, 상기 컴퓨터 판독 가능 코드가 기기에서 작동될 때, 상기 기기 중의 프로세서는 본 출원의 실시예 중 어느 한 시맨틱 분할 모델의 훈련 방법에 따른 각 단계를 구현하기 위한 명령어를 실행한다.
본 출원의 실시예는 또한, 전자 기기를 제공하며, 예를 들어, 이동 단말, 개인용 컴퓨터 (PC), 태블릿 컴퓨터, 서버 등일 수 있다. 아래에 도 5을 참조하면, 본 출원의 실시예에 따른 단말기기 또는 서버를 구현하기에 적합한 전자 기기(500)의 구조 모식도이며, 도 5에 도시된 바와 같이, 전자 기기(500)는 하나 또는 복수 개의 프로세서, 통신부 등을 포함하며, 상기 하나 또는 복수 개의 프로세서는, 예를 들어, 하나 또는 복수 개의 중앙 처리 장치(CPU)(501), 및 하나 또는 복수 개의 그래픽 처리 장치(GPU)(513) 중 적어도 하나이며, 프로세서는 판독 전용 메모리(ROM)(502)에 저장된 실행 가능 명령어 또는 저장 부분(508)으로부터 랜덤 액세스 메모리(RAM)(503)에 로딩된 실행 가능한 명령어에 따라 다양한 적절한 동작 및 처리를 실행할 수 있다. 통신부(512)는 인피니밴드(Infiniband, IB) 네트워크 카드를 포함할 수 있지만 이에 한정되지 않는 네트워크 카드를 포함할 수 있지만 이에 한정되지는 않는다.
프로세서는 실행 가능 명령어를 실행하기 위해, 판독 전용 메모리(502) 및 랜덤 액세스 메모리(503)와 통신할 수 있으며, 버스(504)를 통해 통신부(512)에 연결되고, 통신부(512)를 거쳐 다른 타겟 기기와 통신함으로써, 본 출원의 실시 형태에 의해 제공된 방법 중 어느 하나에 대응되는 동작을 완료하며, 예를 들어, 시맨틱 분할 모델을 통해, 적어도 하나의 라벨링되지 않은 이미지에 대해 이미지 시맨틱 분할을 진행하여, 상기 라벨링되지 않은 이미지의 카테고리로서, 예비 시맨틱 분할 결과를 얻으며; 컨볼루션 뉴럴 네트워크를 통해, 적어도 하나의 라벨링되지 않은 이미지의 카테고리 및 적어도 하나의 라벨링된 이미지의 카테고리에 기반하여, 적어도 2 개의 이미지에 각각 대응되는 서브 이미지 및 서브 이미지에 대응되는 특징을 얻으며, 적어도 2 개의 이미지는 적어도 하나의 라벨링되지 않은 이미지 및 적어도 하나의 라벨링된 이미지, 적어도 2 개의 서브 이미지는 대응되는 이미지의 카테고리를 반송하며; 적어도 2 개의 서브 이미지의 카테고리 및 적어도 2 개의 서브 이미지 사이의 특징 거리에 기반하여, 시맨틱 분할 모델을 훈련시킨다.
또한, RAM(503)에는 장치의 동작에 필요한 다양한 프로그램 및 데이터가 더 저장될 수 있다. CPU(501), ROM(502) 및 RAM(503)은 통신 버스(504)를 통해 서로 연결된다. RAM(503)이 있는 경우, ROM(502)은 선택적 모듈이다. RAM(503)은 실행 가능 명령어를 저장하고, 또는 작동될 경우, ROM(502)에 실행 가능 명령어를 기록하며, 실행 가능 명령어는 CPU(501)로 하여금 상기 통신 방법에 대응하는 동작을 실행하도록 한다. 입력/출력(I/O) 인터페이스(505)도 버스(504)에 연결된다. 통신부(512)는 통합될 수 있거나, 버스에 연결된 복수 개의 서브 모듈(예를 들어 복수 개의 IB 랜 카드)을 갖도록 구성될 수 있다.
다음의 구성 요소, 즉 키보드, 마우스 등을 포함하는 입력 부분(506); 음극 선관(CRT), 액정 디스플레이(LCD), 스피커 등을 포함하는 출력 부분(507); 하드웨어 등을 포함하는 저장 부분(508); 및 LAN 카드, 모뎀 등을 포함하는 네트워크 인터페이스의 통신 부분(509)은 I/O 인터페이스(505)에 연결된다. 통신 부분(509)은 인터넷과 같은 네트워크를 통해 통신 처리를 실행한다. 드라이버(510)는 필요에 따라 I/O 인터페이스(505)에 연결될 수도 있다. 자기 디스크, 광 디스크, 광 자기 디스크, 반도체 메모리 등과 같은 제거 가능한 매체(511)는, 필요에 따라 저장 부분(508)에 장착된 컴퓨터 프로그램을 판독할 수있도록 필요에 따라 드라이버(510)에 장착된다.
설명해야 할 것은, 도 5에 도시된 아키텍쳐는 다만 선택적인 구현 방식일 뿐, 구체적인 실천 과정에서, 상기 도 5의 구성의 개수 및 유형은 실제 필요에 따라 선택, 감소, 증가 또는 교체되며; 상이한 기능적 구성 요소 설치에서 분리 설치 또는 통합 설치 등 구현 방식을 사용할 수 있으며, 예를 들어 GPU(513) 및 CPU(501)는 분리 설치되거나 GPU(513)가 CPU(501)에 통합되며, 통신부는 CPU(501) 또는 GPU(513)에 분리 설치 또는 통합 설치될 수 있는 등이다. 이들 대안적인 실시 형태는 모두 본 출원에 개시된 보호 범위에 속한다.
특히, 본 출원의 실시예에 따른 흐름도를 참조하여 설명된 과정은 컴퓨터 소프트웨어 프로그램에 의해 구현된다. 예를 들어, 본 출원의 실시예는 컴퓨터 프로그램 제품을 포함하며, 기계 판독 가능 매체에 유형적으로 포함된 컴퓨터 프로그램을 포함하며, 컴퓨터 프로그램은 흐름도에 도시된 방법을 실행하기 위한 프로그램 코드를 포함하고, 프로그램 코드는 본 출원의 실시예에 제공되는 방법의 단계에 대응되는 명령어를 포함할 수 있으며, 예를 들어, 시맨틱 분할 모델을 통해, 적어도 하나의 라벨링되지 않은 이미지에 대해 이미지 시맨틱 분할을 진행하여, 라벨링되지 않은 이미지의 카테고리로서 예비 시맨틱 분할 결과를 얻으며; 컨볼루션 뉴럴 네트워크를 통해, 적어도 하나의 라벨링되지 않은 이미지의 카테고리 및 적어도 하나의 라벨링된 이미지의 카테고리에 기반하여, 적어도 2 개의 이미지에 각각 대응되는 서브 이미지 및 서브 이미지에 대응되는 특징을 얻고, 적어도 2 개의 이미지는 적어도 하나의 라벨링되지 않은 이미지 및 적어도 하나의 라벨링된 이미지를 포함하며, 적어도 2 개의 서브 이미지는 이미지에 대응되는 카테고리를 반송하며; 적어도 2 개의 서브 이미지의 카테고리 및 적어도 2 개의 서브 이미지 사이의 특징 거리에 기반하여, 시맨틱 분할 모델을 훈련시킨다. 이러한 실시예에 있어서, 상기 컴퓨터 프로그램은 통신 부분(509)를 통해 네트워크로부터 다운로드 및 설치될 수 있는 것 및 제거 가능한 매체(511)로부터 설치될 수 있는 것 중 적어도 하나이다. 본 출원의 방법에서 정의한 상기 기능은 상기 컴퓨터 프로그램이 중앙 처리 장치(CPU)(501)에 의해 실행될 경우에 실행된다.
본 명세서에, 각 실시예는 모두 점진적으로 설명되며, 각 실시예는 다른 실시예와의 차이점에 초점을 맞추고, 각 실시예 사이의 동일하거나 유사한 부분은 서로 참조될 수 있다. 시스템 실시예는 방법 실시예에 거의 대응되므로, 설명이 비교적 간단하고, 관련 부분에 대해서는 방법 실시예의 설명을 참조한다.
본 출원의 방법과 장치는 많은 방식으로 구현된다. 예를 들어, 본 출원의 방법과 장치는 소프트웨어, 하드웨어, 펌웨어 또는 소프트웨어, 하드웨어, 펌웨어의 임의의 조합으로 구현될 수 있다. 달리 구체적으로 언급되지 않는 한, 상기 방법의 상기 단계의 상기 순서는 다만 구체적인 설명을 위한 것이며, 본 출원의 방법의 단계를 한정하려는 것은 아니다. 또한, 일부 실시예에 있어서, 본 출원 실시예는 기록 매체에 기록된 프로그램으로서 구현될 수도 있으며, 이들 프로그램은 본 출원의 방법을 구현하기 위한 기계 판독 가능 명령어를 포함한다. 따라서, 본 출원은 본 출원에 따른 방법들을 실행하기 위한 프로그램을 저장하는 기록 매체를 더 포함한다.
본 출원의 설명은 예시 및 설명을 목적으로 제공되며, 누락되지 않는 형태로 한정거나 본 출원을 개시된 형태로 한정하려는 것은 아니다. 많은 보정과 변경이 본 기술분야의 통상의 기술자에게 명백하다. 실시예를 선택하고 설명한 것은 본 출원의 원리 및 실제 적용을 더 잘 설명하기 위해서이고, 본 기술분야의 통상의 기술자로 하여금 본 출원을 이해하여, 특정 사용에 적용 가능한 다양한 보정들을 갖는 다양한 실시예들을 설계하도록 한다.

Claims (26)

  1. 시맨틱 분할 모델의 훈련 방법으로서,
    시맨틱 분할 모델을 통해, 적어도 하나의 라벨링되지 않은 이미지에 대해 이미지 시맨틱 분할을 진행하여, 상기 라벨링되지 않은 이미지의 카테고리로서, 예비 시맨틱 분할 결과를 얻는 단계;
    컨볼루션 뉴럴 네트워크를 통해, 적어도 하나의 상기 라벨링되지 않은 이미지의 카테고리 및 적어도 하나의 라벨링된 이미지의 카테고리에 기반하여, 적어도 2 개의 이미지에 각각 대응되는 서브 이미지 및 서브 이미지에 대응되는 특징을 얻는 단계 - 상기 적어도 2 개의 이미지는 적어도 하나의 상기 라벨링되지 않은 이미지 및 적어도 하나의 상기 라벨링된 이미지를 포함하고, 상기 적어도 2 개의 서브 이미지는 대응되는 이미지의 카테고리를 반송함 - ; 및
    적어도 2 개의 서브 이미지의 카테고리 및 적어도 2 개의 서브 이미지 사이의 특징 거리에 기반하여, 시맨틱 분할 모델을 훈련시키는 단계를 포함하는 것을 특징으로 하는 시맨틱 분할 모델의 훈련 방법.
  2. 제1항에 있어서,
    적어도 2 개의 서브 이미지의 카테고리 및 적어도 2 개의 서브 이미지 사이의 특징 거리에 기반하여, 시맨틱 분할 모델을 훈련시키는 단계는,
    서브 이미지 사이의 카테고리 관계에 따라, 패치 그래프를 구축하는 단계 - 상기 패치 그래프는 노드와 경계를 포함하며, 상기 노드는 상기 서브 이미지를 포함하고, 상기 경계는 임의의 2 개의 상기 서브 이미지 사이의 특징 거리를 포함함 - ; 및
    상기 패치 그래프에서, 동일한 카테고리의 2 개의 서브 이미지 사이의 특징 거리가 제1 기설정 값보다 작게 되고, 상이한 카테고리의 2 개의 서브 이미지 사이의 특징 거리가 제2 기설정 값보다 크게 되도록, 상기 시맨틱 분할 모델에 대해 훈련을 진행하는 단계를 포함하는 것을 특징으로 하는 시맨틱 분할 모델의 훈련 방법.
  3. 제2항에 있어서,
    서브 이미지 사이의 카테고리 관계에 따라, 패치 그래프를 구축하는 단계는,
    적어도 하나의 서브 이미지를 기준 노드로 선택하고, 적어도 하나의 기준 노드 각각에 대해,
    상기 기준 노드와 동일한 카테고리의 서브 이미지를 양의 상관 노드로 하고, 상기 기준 노드와 상이한 카테고리의 서브 이미지를 음의 상관 노드로 하여, 상기 기준 노드와 적어도 하나의 상기 양의 상관 노드 사이에서 양의 상관 연결을 각각 구축하고, 상기 기준 노드와 적어도 하나의 상기 음의 상관 노드 사이에서 음의 상관 연결을 각각 구축하는 단계; 및
    적어도 하나의 상기 기준 노드, 상기 기준 노드의 상기 양의 상관 노드, 상기 기준 노드의 상기 음의 상관 노드, 상기 양의 상관 연결 및 상기 음의 상관 연결에 의해, 스파스 연결의 상기 패치 그래프를 형성하는 단계를 포함하는 것을 특징으로 하는 시맨틱 분할 모델의 훈련 방법.
  4. 제2항 또는 제3항에 있어서,
    상기 상기 시맨틱 분할 모델에 대해 훈련을 진행하는 단계는,
    상기 컨볼루션 뉴럴 네트워크의 오차를 최소화하기 위해, 기울기 역전파 알고리즘을 통해, 상기 시맨틱 분할 모델에 대해 훈련을 진행하는 단계 - 상기 오차는 상기 컨볼루션 뉴럴 네트워크에 기반하여 획득된 서브 이미지에 대응되는 특징의 삼중 손실임 - 를 포함하는 것을 특징으로 하는 시맨틱 분할 모델의 훈련 방법.
  5. 제4항에 있어서,
    상기 기울기 역전파 알고리즘을 통해, 상기 시맨틱 분할 모델에 대해 훈련을 진행하는 단계는,
    구축된 상기 패치 그래프에서의 서브 이미지 사이의 특징 거리에 따라, 손실 함수를 통해 최대 오차를 계산하여 얻고, 상기 최대 오차에 대해 기울기 역전파를 진행하여, 상기 컨볼루션 뉴럴 네트워크에서 적어도 하나의 계층의 오차를 계산하는 단계;
    상기 적어도 하나의 계층의 오차에 따라 적어도 하나의 계층의 파라미터의 기울기를 계산하고, 상기 기울기에 따라 상기 컨볼루션 뉴럴 네트워크에서 대응되는 계층의 파라미터를 수정하는 단계;
    파라미터를 최적화시킨 후의 컨볼루션 뉴럴 네트워크에 의해 출력된 서브 이미지 사이의 거리에 따라 오차를 계산하여 얻고, 상기 오차를 최대 오차로 하는 단계;
    상기 최대 오차에 대해 기울기 역전파를 진행하여, 상기 컨볼루션 뉴럴 네트워크에서 적어도 하나의 계층의 오차를 계산하는 것을 반복적으로 실행하는 단계; 및
    상기 최대 오차가 기설정 값보다 작거나 같을 때까지, 상기 적어도 하나의 계층의 오차에 따라 적어도 하나의 계층의 파라미터의 기울기를 계산하고, 상기 기울기에 따라 상기 컨볼루션 뉴럴 네트워크에서 대응되는 계층의 파라미터를 수정하는 단계를 포함하는 것을 특징으로 하는 시맨틱 분할 모델의 훈련 방법.
  6. 제4항 또는 제5항에 있어서,
    상기 시맨틱 분할 모델에 대해 훈련을 진행하는 단계는,
    상기 컨볼루션 뉴럴 네트워크의 훈련 결과에 기반하여 상기 컨볼루션 뉴럴 네트워크의 파라미터를 획득하는 단계; 및
    획득된 상기 컨볼루션 뉴럴 네트워크의 파라미터에 기반하여 상기 시맨틱 분할 모델 중의 파라미터를 초기화하는 단계를 포함하는 것을 특징으로 하는 시맨틱 분할 모델의 훈련 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 컨볼루션 뉴럴 네트워크를 통해, 적어도 하나의 상기 라벨링되지 않은 이미지의 카테고리 및 적어도 하나의 라벨링된 이미지의 카테고리에 기반하여, 적어도 2 개의 이미지에 각각 대응되는 서브 이미지 및 서브 이미지에 대응되는 특징을 얻는 단계는,
    기설정 크기의 선택 프레임이 적어도 2 개의 이미지 상에서 이동하는 것에 응답하여, 선택 프레임 내의 픽셀에 대해 판단을 진행하고, 상기 선택 프레임 내의 픽셀에서 동일한 카테고리의 픽셀이 차지하는 비율이 기설정 값보다 크거나 같을 때, 상기 선택 프레임 내의 이미지를 하나의 서브 이미지로서 출력하고, 상기 서브 이미지에 대해 상기 카테고리로 라벨링하는 단계; 및
    상기 컨볼루션 뉴럴 네트워크를 통해 상기 서브 이미지에 대응되는 특징을 얻는 단계를 포함하는 것을 특징으로 하는 시맨틱 분할 모델의 훈련 방법.
  8. 제7항에 있어서,
    상기 선택 프레임 내의 픽셀에서 동일한 카테고리의 픽셀이 차지하는 비율이 기설정 값보다 작을 때, 상기 선택 프레임을 포기하는 단계를 더 포함하는 것을 특징으로 하는 시맨틱 분할 모델의 훈련 방법.
  9. 제7항 또는 제8항에 있어서,
    상기 컨볼루션 뉴럴 네트워크를 통해 상기 서브 이미지에 대응되는 특징을 얻는 단계는,
    컨볼루션 뉴럴 네트워크를 통해 상기 라벨링되지 않은 이미지 및 상기 라벨링된 이미지 각각에 대해 특징 추출을 진행하여, 상기 라벨링되지 않은 이미지 및 상기 라벨링된 이미지에 대응하는 특징맵을 획득하는 단계; 및
    상기 서브 이미지에 대응되는 선택 프레임의 위치와 크기에 기반하여, 대응되는 특징맵으로부터 대응되는 상기 선택 프레임 내의 특징을 획득하고, 상기 서브 이미지에 대응되는 특징을 결정하는 단계를 포함하는 것을 특징으로 하는 시맨틱 분할 모델의 훈련 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    시맨틱 분할 모델을 통해, 적어도 하나의 라벨링되지 않은 이미지에 대해 이미지 시맨틱 분할을 진행하기 전에,
    기설정 수렴 조건이 만족될 때까지, 확률적 기울기 하강법을 사용하여 상기 시맨틱 분할 모델에 대해 훈련을 진행하는 단계를 더 포함하는 것을 특징으로 하는 시맨틱 분할 모델의 훈련 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    컨볼루션 뉴럴 네트워크를 통해, 적어도 하나의 상기 라벨링되지 않은 이미지의 카테고리 및 적어도 하나의 라벨링된 이미지의 카테고리에 기반하여, 적어도 2 개의 이미지에 각각 대응되는 서브 이미지 및 서브 이미지에 대응되는 특징을 얻는 단계 전에,
    기설정 수렴 조건이 만족될 때까지, 확률적 기울기 하강법을 사용하여 상기 컨볼루션 뉴럴 네트워크에 대해 훈련을 진행하는 단계를 더 포함하는 것을 특징으로 하는 시맨틱 분할 모델의 훈련 방법.
  12. 시맨틱 분할 모델의 훈련 장치로서,
    시맨틱 분할 모델을 통해, 적어도 하나의 라벨링되지 않은 이미지에 대해 이미지 시맨틱 분할을 진행하여, 상기 라벨링되지 않은 이미지의 카테고리로서, 예비 시맨틱 분할 결과를 얻기 위한 분할 유닛;
    컨볼루션 뉴럴 네트워크를 통해, 적어도 하나의 상기 라벨링되지 않은 이미지의 카테고리 및 적어도 하나의 라벨링된 이미지의 카테고리에 기반하여, 적어도 2 개의 이미지에 각각 대응되는 서브 이미지 및 서브 이미지에 대응되는 특징을 얻기 위한 서브 이미지 추출 유닛 - 상기 적어도 2 개의 이미지는 적어도 하나의 상기 라벨링되지 않은 이미지 및 적어도 하나의 상기 라벨링된 이미지를 포함하고, 상기 적어도 2 개의 서브 이미지는 대응되는 이미지의 카테고리를 반송함 - ; 및
    적어도 2 개의 서브 이미지의 카테고리 및 적어도 2 개의 서브 이미지 사이의 특징 거리에 기반하여, 시맨틱 분할 모델을 훈련시키기 위한 라벨링된 이미지 훈련 유닛을 포함하는 것을 특징으로 하는 시맨틱 분할 모델의 훈련 장치.
  13. 제12항에 있어서,
    상기 훈련 유닛은,
    서브 이미지 사이의 카테고리 관계에 따라, 패치 그래프를 구축하기 위한 패치 그래프 구축 모듈 - 상기 패치 그래프는 노드와 경계를 포함하며, 상기 노드는 상기 서브 이미지를 포함하고, 상기 경계는 임의의 2 개의 상기 서브 이미지 사이의 특징 거리를 포함함 - ; 및
    상기 패치 그래프에서, 동일한 카테고리의 2 개의 서브 이미지 사이의 특징 거리가 제1 기설정 값보다 작게 되고, 상이한 카테고리의 2 개의 서브 이미지 사이의 특징 거리가 제2 기설정 값보다 크게 되도록, 상기 시맨틱 분할 모델에 대해 훈련을 진행하기 위한 모델 훈련 모듈을 포함하는 것을 특징으로 하는 시맨틱 분할 모델의 훈련 장치.
  14. 제13항에 있어서,
    상기 패치 그래프 구축 모듈은,
    적어도 하나의 서브 이미지를 기준 노드로 선택하기 위한 기준 선택 모듈;
    적어도 하나의 기준 노드 각각에 대해, 상기 기준 노드와 동일한 카테고리의 서브 이미지를 양의 상관 노드로 하고, 상기 기준 노드와 상이한 카테고리의 서브 이미지를 음의 상관 노드로 하여, 상기 기준 노드와 적어도 하나의 상기 양의 상관 노드 사이에서 양의 상관 연결을 각각 구축하고, 상기 기준 노드와 적어도 하나의 상기 음의 상관 노드 사이에서 음의 상관 연결을 각각 구축하기 위한 연결 관계 구축 모듈; 및
    적어도 하나의 상기 기준 노드, 상기 기준 노드의 상기 양의 상관 노드, 상기 기준 노드의 상기 음의 상관 노드, 상기 양의 상관 연결 및 상기 음의 상관 연결에 의해, 스파스 연결의 상기 이미지를 형성하기 위한 연결 이미지 구축 모듈을 포함하는 것을 특징으로 하는 시맨틱 분할 모델의 훈련 장치.
  15. 제13항 또는 제14항에 있어서,
    상기 모델 훈련 모듈은,
    상기 컨볼루션 뉴럴 네트워크의 오차를 최소화하기 위해, 기울기 역전파 알고리즘을 통해, 상기 시맨틱 분할 모델에 대해 훈련을 진행하기 위한 네트워크 훈련 모듈 - 상기 오차는 상기 컨볼루션 뉴럴 네트워크에 기반하여 획득된 서브 이미지에 대응되는 특징의 삼중 손실임 - 을 포함것을 특징으로 하는 시맨틱 분할 모델의 훈련 장치.
  16. 제15항에 있어서,
    상기 네트워크 훈련 모듈은 구체적으로,
    상기 구축된 패치 그래프에서의 서브 이미지 사이의 특징 거리에 따라 손실 함수를 통해 최대 오차를 계산하여 얻고;
    최대 오차에 대해 기울기 역전파를 진행하여, 상기 컨볼루션 뉴럴 네트워크에서 적어도 하나의 계층의 오차를 계산하며;
    상기 적어도 하나의 계층의 오차에 따라 적어도 하나의 계층의 파라미터의 기울기를 계산하고, 상기 기울기에 따라 상기 컨볼루션 뉴럴 네트워크에서 대응되는 계층의 파라미터를 수정하며;
    파라미터를 최적화시킨 후의 컨볼루션 뉴럴 네트워크에 의해 출력된 서브 이미지 사이의 거리에 따라 오차를 계산하여 얻고, 상기 오차를 최대 오차로 하며; 및
    최대 오차에 대해 기울기 역전파를 진행하여, 상기 컨볼루션 뉴럴 네트워크에서 적어도 하나의 계층의 오차를 계산하는 것을 반복적으로 실행하고, 상기 최대 오차가 기설정 값보다 작거나 같을 때까지, 상기 적어도 하나의 계층의 오차에 따라 적어도 하나의 계층의 파라미터의 기울기를 계산하며, 상기 기울기에 따라 상기 컨볼루션 뉴럴 네트워크에서 대응되는 계층의 파라미터를 수정하는 것임을 특징으로 하는 시맨틱 분할 모델의 훈련 장치.
  17. 제15항 또는 제16항에 있어서,
    상기 모델 훈련 모듈은,
    상기 컨볼루션 뉴럴 네트워크의 훈련 결과에 기반하여 상기 컨볼루션 뉴럴 네트워크의 파라미터를 획득하며; 획득된 상기 컨볼루션 뉴럴 네트워크의 파라미터에 기반하여 상기 시맨틱 분할 모델 중의 파라미터를 초기화시키기 위한 분할 모델 훈련 모듈을 더 포함하는 것을 특징으로 하는 시맨틱 분할 모델의 훈련 장치.
  18. 제12항 내지 제17항 중 어느 한 항에 있어서,
    상기 서브 이미지 추출 유닛은, 기설정 크기의 선택 프레임이 적어도 2 개의 이미지 상에서 이동하는 것에 응답하여, 선택 프레임 내의 픽셀에 대해 판단을 진행하고, 상기 선택 프레임 내의 픽셀에서 동일한 카테고리의 픽셀이 차지하는 비율이 기설정 값보다 크거나 같을 때, 상기 선택 프레임 내의 이미지를 하나의 서브 이미지로서 출력하며, 상기 서브 이미지에 대해 상기 카테고리로 라벨링하며; 상기 컨볼루션 뉴럴 네트워크를 통해 상기 서브 이미지에 대응되는 특징을 얻기 위한 것임을 특징으로 하는 시맨틱 분할 모델의 훈련 장치.
  19. 제18항에 있어서,
    상기 서브 이미지 추출 유닛은 또한, 상기 선택 프레임 내의 픽셀에서 동일한 카테고리의 픽셀이 차지하는 비율이 기설정 값보다 작을 때, 상기 선택 프레임을 포기하기 위한 것임을 특징으로 하는 시맨틱 분할 모델의 훈련 장치.
  20. 제18항 또는 제19항에 있어서,
    상기 서브 이미지 추출 유닛은, 상기 컨볼루션 뉴럴 네트워크를 통해 상기 서브 이미지에 대응되는 특징을 얻을 때, 컨볼루션 뉴럴 네트워크를 통해 상기 라벨링되지 않은 이미지 및 상기 라벨링된 이미지 각각에 대해 특징 추출을 진행하여, 상기 라벨링되지 않은 이미지 및 상기 라벨링된 이미지에 대응하는 특징맵을 획득하며; 상기 서브 이미지에 대응되는 선택 프레임의 위치와 크기에 기반하여, 대응되는 상기 라벨링된 이미지의 특징맵으로부터 대응되는 상기 선택 프레임 내의 특징을 획득하고, 상기 서브 이미지에 대응되는 특징을 결정하기 위한 것임을 특징으로 하는 시맨틱 분할 모델의 훈련 장치.
  21. 제12항 내지 제20항에 있어서,
    상기 장치는, 기설정 수렴 조건이 만족될 때까지, 확률적 기울기 하강법을 사용하여 상기 시맨틱 분할 모델에 대해 훈련을 진행하기 위한 모델 미세 조정 유닛을 더 포함하는 것을 특징으로 하는 시맨틱 분할 모델의 훈련 장치.
  22. 제12항 내지 제21항 중 어느 한 항에 있어서,
    상기 장치는, 기설정 수렴 조건이 만족될 때까지, 확률적 기울기 하강법을 사용하여 상기 컨볼루션 뉴럴 네트워크에 대해 훈련을 진행하기 위한 네트워크 미세 조정 유닛을 더 포함하는 것을 특징으로 하는 시맨틱 분할 모델의 훈련 장치.
  23. 전자 기기로서,
    프로세서를 포함하며, 상기 프로세서는 제12항 내지 제22항 중 어느 한 항에 따른 시맨틱 분할 모델의 훈련 장치를 포함하는 것을 특징으로 하는 전자 기기.
  24. 전자 기기로서,
    실행 가능한 명령어를 저장하기 위한 메모리; 및
    상기 실행 가능한 명령어를 실행하기 위해 상기 메모리와 통신함으로써 제1항 내지 제11항 중 어느 한 항에 따른 상기 시맨틱 분할 모델의 훈련 방법의 단계를 완성하기 위한 프로세서를 포함하는 것을 특징으로 하는 전자 기기.
  25. 컴퓨터 판독 가능 명령어를 저장하기 위한 컴퓨터 저장 매체로서,
    상기 명령어가 실행될 때, 제1항 내지 제11항 중 어느 한 항에 따른 상기 시맨틱 분할 모델의 훈련 방법의 단계를 실행하는 것을 특징으로 하는 컴퓨터 저장 매체.
  26. 컴퓨터 프로그램으로서,
    컴퓨터 판독 가능 코드를 포함하고, 상기 컴퓨터 판독 가능 코드가 기기에서 작동될 때, 상기 기기 중의 프로세서는 제1항 내지 제11항 중 어느 한 항에 따른 상기 시맨틱 분할 모델의 훈련 방법 중 각 단계를 구현하기 위한 명령어를 실행하는 것을 특징으로 하는 컴퓨터 프로그램.
KR1020197038767A 2017-08-01 2018-07-27 시맨틱 분할 모델을 위한 훈련 방법 및 장치, 전자 기기, 저장 매체 KR102358554B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710648545.7 2017-08-01
CN201710648545.7A CN108229479B (zh) 2017-08-01 2017-08-01 语义分割模型的训练方法和装置、电子设备、存储介质
PCT/CN2018/097549 WO2019024808A1 (zh) 2017-08-01 2018-07-27 语义分割模型的训练方法和装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
KR20200015611A true KR20200015611A (ko) 2020-02-12
KR102358554B1 KR102358554B1 (ko) 2022-02-04

Family

ID=62654687

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197038767A KR102358554B1 (ko) 2017-08-01 2018-07-27 시맨틱 분할 모델을 위한 훈련 방법 및 장치, 전자 기기, 저장 매체

Country Status (6)

Country Link
US (1) US11301719B2 (ko)
JP (1) JP6807471B2 (ko)
KR (1) KR102358554B1 (ko)
CN (1) CN108229479B (ko)
SG (1) SG11201913365WA (ko)
WO (1) WO2019024808A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021172674A1 (ko) * 2020-02-28 2021-09-02 연세대학교 산학협력단 재귀 그래프 모델링을 통한 비디오 요약 생성 장치 및 방법
WO2022240250A1 (ko) * 2021-05-14 2022-11-17 (주)로보티즈 3차원 지도 정보를 이용한 의미론적 분할 방법 및 시스템
US11886490B2 (en) 2020-04-03 2024-01-30 Samsung Electronics Co, Ltd. Neural network device for retrieving image and operating method thereof

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229479B (zh) * 2017-08-01 2019-12-31 北京市商汤科技开发有限公司 语义分割模型的训练方法和装置、电子设备、存储介质
US10755142B2 (en) * 2017-09-05 2020-08-25 Cognizant Technology Solutions U.S. Corporation Automated and unsupervised generation of real-world training data
CN110012210B (zh) * 2018-01-05 2020-09-22 Oppo广东移动通信有限公司 拍照方法、装置、存储介质及电子设备
US11030525B2 (en) * 2018-02-09 2021-06-08 Baidu Usa Llc Systems and methods for deep localization and segmentation with a 3D semantic map
CN109101878B (zh) * 2018-07-01 2020-09-29 浙江工业大学 一种用于秸秆燃值估计的图像分析系统及图像分析方法
CN109084955A (zh) * 2018-07-02 2018-12-25 北京百度网讯科技有限公司 显示屏质量检测方法、装置、电子设备及存储介质
CN109190631A (zh) * 2018-08-31 2019-01-11 阿里巴巴集团控股有限公司 图片的目标对象标注方法及装置
CN109087708B (zh) * 2018-09-20 2021-08-31 深圳先进技术研究院 用于斑块分割的模型训练方法、装置、设备及存储介质
JP6695947B2 (ja) * 2018-09-21 2020-05-20 ソニーセミコンダクタソリューションズ株式会社 固体撮像システム、画像処理方法及びプログラム
CN109241951A (zh) * 2018-10-26 2019-01-18 北京陌上花科技有限公司 色情图片识别方法、识别模型构建方法及识别模型和计算机可读存储介质
CN109583328B (zh) * 2018-11-13 2021-09-03 东南大学 一种嵌入稀疏连接的深度卷积神经网络字符识别方法
CN109859209B (zh) * 2019-01-08 2023-10-17 平安科技(深圳)有限公司 遥感影像分割方法、装置及存储介质、服务器
CN109886272B (zh) * 2019-02-25 2020-10-30 腾讯科技(深圳)有限公司 点云分割方法、装置、计算机可读存储介质和计算机设备
CN111626313B (zh) * 2019-02-28 2023-06-02 银河水滴科技(北京)有限公司 一种特征提取模型训练方法、图像处理方法及装置
CN111553362B (zh) * 2019-04-01 2023-05-05 上海卫莎网络科技有限公司 一种视频处理方法、电子设备和计算机可读存储介质
CN111833291B (zh) * 2019-04-22 2023-11-03 上海汽车集团股份有限公司 一种语义分割训练集人工标注评价方法及装置
US11580673B1 (en) * 2019-06-04 2023-02-14 Duke University Methods, systems, and computer readable media for mask embedding for realistic high-resolution image synthesis
US11023783B2 (en) * 2019-09-11 2021-06-01 International Business Machines Corporation Network architecture search with global optimization
US10943353B1 (en) 2019-09-11 2021-03-09 International Business Machines Corporation Handling untrainable conditions in a network architecture search
CN111783779B (zh) * 2019-09-17 2023-12-05 北京沃东天骏信息技术有限公司 图像处理方法、装置和计算机可读存储介质
CN110781895B (zh) * 2019-10-10 2023-06-20 湖北工业大学 一种基于卷积神经网络的图像语义分割方法
CN111062252B (zh) * 2019-11-15 2023-11-10 浙江大华技术股份有限公司 一种实时危险物品语义分割方法、装置及存储装置
KR20210061839A (ko) * 2019-11-20 2021-05-28 삼성전자주식회사 전자 장치 및 그 제어 방법
US11080833B2 (en) * 2019-11-22 2021-08-03 Adobe Inc. Image manipulation using deep learning techniques in a patch matching operation
CN111401474B (zh) * 2020-04-13 2023-09-08 Oppo广东移动通信有限公司 视频分类模型的训练方法、装置、设备及存储介质
CN111612802B (zh) * 2020-04-29 2023-06-20 杭州电子科技大学 一种基于现有图像语义分割模型的再优化训练方法及应用
CN111652285A (zh) * 2020-05-09 2020-09-11 济南浪潮高新科技投资发展有限公司 一种茶饼类别识别方法、设备及介质
CN111611420B (zh) * 2020-05-26 2024-01-23 北京字节跳动网络技术有限公司 用于生成图像描述信息的方法和装置
CN111710009B (zh) * 2020-05-29 2023-06-23 北京百度网讯科技有限公司 人流密度的生成方法、装置、电子设备以及存储介质
CN111814805B (zh) * 2020-06-18 2023-07-11 浙江大华技术股份有限公司 特征提取网络训练方法以及相关方法和装置
CN111667483B (zh) * 2020-07-03 2022-08-30 腾讯科技(深圳)有限公司 多模态图像的分割模型的训练方法、图像处理方法和装置
CN111898696B (zh) * 2020-08-10 2023-10-27 腾讯云计算(长沙)有限责任公司 伪标签及标签预测模型的生成方法、装置、介质及设备
CN111931782B (zh) * 2020-08-12 2024-03-01 中国科学院上海微系统与信息技术研究所 语义分割方法、系统、介质及装置
CN112016599B (zh) * 2020-08-13 2023-09-15 驭势科技(浙江)有限公司 用于图像检索的神经网络训练方法、装置及电子设备
CN112085739B (zh) * 2020-08-20 2024-05-24 深圳力维智联技术有限公司 基于弱监督的语义分割模型的训练方法、装置及设备
US11694301B2 (en) 2020-09-30 2023-07-04 Alibaba Group Holding Limited Learning model architecture for image data semantic segmentation
US20220147761A1 (en) * 2020-11-10 2022-05-12 Nec Laboratories America, Inc. Video domain adaptation via contrastive learning
CN112613515A (zh) * 2020-11-23 2021-04-06 上海眼控科技股份有限公司 语义分割方法、装置、计算机设备和存储介质
CN112559552B (zh) * 2020-12-03 2023-07-25 北京百度网讯科技有限公司 数据对生成方法、装置、电子设备及存储介质
CN112668509B (zh) * 2020-12-31 2024-04-02 深圳云天励飞技术股份有限公司 社交关系识别模型的训练方法、识别方法及相关设备
CN113781383A (zh) * 2021-01-06 2021-12-10 北京沃东天骏信息技术有限公司 处理图像的方法、装置、设备和计算机可读介质
CN112861911B (zh) * 2021-01-10 2024-05-28 西北工业大学 一种基于深度特征选择融合的rgb-d语义分割方法
CN112862792B (zh) * 2021-02-21 2024-04-05 北京工业大学 一种用于小样本图像数据集的小麦白粉病孢子分割方法
CN112686898B (zh) * 2021-03-15 2021-08-13 四川大学 一种基于自监督学习的放疗靶区自动分割方法
CN113011430B (zh) * 2021-03-23 2023-01-20 中国科学院自动化研究所 大规模点云语义分割方法及系统
CN113159057B (zh) * 2021-04-01 2022-09-02 湖北工业大学 一种图像语义分割方法和计算机设备
CN113283434A (zh) * 2021-04-13 2021-08-20 北京工业大学 一种基于分割网络优化的图像语义分割方法及系统
CN113177926B (zh) * 2021-05-11 2023-11-14 泰康保险集团股份有限公司 一种图像检测方法和装置
CN113450311B (zh) * 2021-06-01 2023-01-13 国网河南省电力公司漯河供电公司 基于语义分割和空间关系的带销螺丝缺陷检测方法及系统
US20230004760A1 (en) * 2021-06-28 2023-01-05 Nvidia Corporation Training object detection systems with generated images
CN113627568A (zh) * 2021-08-27 2021-11-09 广州文远知行科技有限公司 一种补标方法、装置、设备及可读存储介质
CN113806573A (zh) * 2021-09-15 2021-12-17 上海商汤科技开发有限公司 标注方法、装置、电子设备、服务器及存储介质
CN113792742A (zh) * 2021-09-17 2021-12-14 北京百度网讯科技有限公司 遥感图像的语义分割方法和语义分割模型的训练方法
CN113837192B (zh) * 2021-09-22 2024-04-19 推想医疗科技股份有限公司 图像分割方法及装置,神经网络的训练方法及装置
WO2023063950A1 (en) * 2021-10-14 2023-04-20 Hewlett-Packard Development Company, L.P. Training models for object detection
CN113642566B (zh) * 2021-10-15 2021-12-21 南通宝田包装科技有限公司 基于人工智能和大数据的药品包装设计方法
CN113642262B (zh) * 2021-10-15 2021-12-21 南通宝田包装科技有限公司 基于人工智能的牙膏包装外观辅助设计方法
US11941884B2 (en) * 2021-11-12 2024-03-26 Adobe Inc. Multi-source panoptic feature pyramid network
CN113936141B (zh) * 2021-12-17 2022-02-22 深圳佑驾创新科技有限公司 图像语义分割方法及计算机可读存储介质
CN114372537B (zh) * 2022-01-17 2022-10-21 浙江大学 一种面向图像描述系统的通用对抗补丁生成方法及系统
CN114693934B (zh) * 2022-04-13 2023-09-01 北京百度网讯科技有限公司 语义分割模型的训练方法、视频语义分割方法及装置
CN114663662B (zh) * 2022-05-23 2022-09-09 深圳思谋信息科技有限公司 超参数搜索方法、装置、计算机设备和存储介质
CN115086503B (zh) * 2022-05-25 2023-09-22 清华大学深圳国际研究生院 信息隐藏方法、装置、设备及存储介质
CN114677567B (zh) * 2022-05-27 2022-10-14 成都数联云算科技有限公司 模型训练方法、装置、存储介质及电子设备
CN117274579A (zh) * 2022-06-15 2023-12-22 北京三星通信技术研究有限公司 图像处理方法及相关设备
CN116883673B (zh) * 2023-09-08 2023-12-26 腾讯科技(深圳)有限公司 语义分割模型训练方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140003713A1 (en) * 2012-06-29 2014-01-02 Behavioral Recognition Systems, Inc. Automatic gain control filter in a video analysis system
US20160055237A1 (en) * 2014-08-20 2016-02-25 Mitsubishi Electric Research Laboratories, Inc. Method for Semantically Labeling an Image of a Scene using Recursive Context Propagation
US20160180151A1 (en) * 2014-12-17 2016-06-23 Google Inc. Generating numeric embeddings of images

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108603922A (zh) 2015-11-29 2018-09-28 阿特瑞斯公司 自动心脏体积分割
CN105787482A (zh) * 2016-02-26 2016-07-20 华北电力大学 一种基于深度卷积神经网络的特定目标轮廓图像分割方法
US9704257B1 (en) * 2016-03-25 2017-07-11 Mitsubishi Electric Research Laboratories, Inc. System and method for semantic segmentation using Gaussian random field network
CN106022221B (zh) 2016-05-09 2021-11-30 腾讯科技(深圳)有限公司 一种图像处理方法及处理系统
JP2018097807A (ja) * 2016-12-16 2018-06-21 株式会社デンソーアイティーラボラトリ 学習装置
JP7203844B2 (ja) * 2017-07-25 2023-01-13 達闥機器人股▲分▼有限公司 トレーニングデータの生成方法、生成装置及びその画像のセマンティックセグメンテーション方法
CN108229479B (zh) * 2017-08-01 2019-12-31 北京市商汤科技开发有限公司 语义分割模型的训练方法和装置、电子设备、存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140003713A1 (en) * 2012-06-29 2014-01-02 Behavioral Recognition Systems, Inc. Automatic gain control filter in a video analysis system
US20160055237A1 (en) * 2014-08-20 2016-02-25 Mitsubishi Electric Research Laboratories, Inc. Method for Semantically Labeling an Image of a Scene using Recursive Context Propagation
US20160180151A1 (en) * 2014-12-17 2016-06-23 Google Inc. Generating numeric embeddings of images

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021172674A1 (ko) * 2020-02-28 2021-09-02 연세대학교 산학협력단 재귀 그래프 모델링을 통한 비디오 요약 생성 장치 및 방법
US11886490B2 (en) 2020-04-03 2024-01-30 Samsung Electronics Co, Ltd. Neural network device for retrieving image and operating method thereof
WO2022240250A1 (ko) * 2021-05-14 2022-11-17 (주)로보티즈 3차원 지도 정보를 이용한 의미론적 분할 방법 및 시스템

Also Published As

Publication number Publication date
JP2020524861A (ja) 2020-08-20
KR102358554B1 (ko) 2022-02-04
CN108229479A (zh) 2018-06-29
US20200134375A1 (en) 2020-04-30
JP6807471B2 (ja) 2021-01-06
CN108229479B (zh) 2019-12-31
SG11201913365WA (en) 2020-01-30
US11301719B2 (en) 2022-04-12
WO2019024808A1 (zh) 2019-02-07

Similar Documents

Publication Publication Date Title
KR20200015611A (ko) 시맨틱 분할 모델을 위한 훈련 방법 및 장치, 전자 기기, 저장 매체
US11763466B2 (en) Determining structure and motion in images using neural networks
US11798132B2 (en) Image inpainting method and apparatus, computer device, and storage medium
US11790549B2 (en) Unsupervised learning of image depth and ego-motion prediction neural networks
US20200311871A1 (en) Image reconstruction method and device
CN110555795A (zh) 高解析度风格迁移
US11182644B2 (en) Method and apparatus for pose planar constraining on the basis of planar feature extraction
TWI721510B (zh) 雙目圖像的深度估計方法、設備及儲存介質
WO2018099473A1 (zh) 场景分析方法和系统、电子设备
US11783500B2 (en) Unsupervised depth prediction neural networks
EP3493105A1 (en) Optimizations for dynamic object instance detection, segmentation, and structure mapping
JP6932254B2 (ja) キーフレームスケジューリング方法及び装置、電子機器、プログラム並びに媒体
US20220277514A1 (en) Reconstructing three-dimensional scenes portrayed in digital images utilizing point cloud machine-learning models
WO2022052782A1 (zh) 图像的处理方法及相关设备
US20220301298A1 (en) Multi-task self-training for learning general representations
JP2023131117A (ja) 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体
CN110633717A (zh) 一种目标检测模型的训练方法和装置
CN115953468A (zh) 深度和自运动轨迹的估计方法、装置、设备及存储介质
CN114998433A (zh) 位姿计算方法、装置、存储介质以及电子设备
WO2024060708A1 (zh) 目标检测方法和装置
US20230145498A1 (en) Image reprojection and multi-image inpainting based on geometric depth parameters
CN113610856A (zh) 训练图像分割模型和图像分割的方法和装置
US20240177456A1 (en) Object detection method for detecting one or more objects using a plurality of deep convolution neural network layers and object detection apparatus using the same method and non-transitory storage medium thereof
CN117746417A (zh) 目标检测模型构建方法、目标检测方法及相关装置
CN116030206A (zh) 地图生成方法、训练方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant