KR20210097762A - 이미지 처리 방법, 장치 및 디바이스, 및 저장 매체 - Google Patents

이미지 처리 방법, 장치 및 디바이스, 및 저장 매체 Download PDF

Info

Publication number
KR20210097762A
KR20210097762A KR1020217020461A KR20217020461A KR20210097762A KR 20210097762 A KR20210097762 A KR 20210097762A KR 1020217020461 A KR1020217020461 A KR 1020217020461A KR 20217020461 A KR20217020461 A KR 20217020461A KR 20210097762 A KR20210097762 A KR 20210097762A
Authority
KR
South Korea
Prior art keywords
feature map
instance
processing
image
candidate region
Prior art date
Application number
KR1020217020461A
Other languages
English (en)
Inventor
루 치
리 장
수 류
샤오융 선
자야 자
위윙 타이
Original Assignee
텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 filed Critical 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Publication of KR20210097762A publication Critical patent/KR20210097762A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • G06K9/00791
    • G06K9/4671
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

이미지 처리 방법이 개시된다. 방법은: 예측될 이미지를 취득하는 단계, 및 예측될 이미지에 대해 특징 추출을 수행하는 단계; 예측될 이미지의 적어도 하나의 후보 지역을 생성하고, 적어도 하나의 후보 지역을 예측될 이미지의 특징 맵에 매핑하는 단계- 하나의 후보 지역은 하나의 인스턴스를 포함함 -; 및 타겟 네트워크에 기초하여 매핑된 특징 맵을 처리하고, 투시 마스크를 사용하여 예측될 이미지에서 차폐된(shielded) 인스턴스의 전체 구조를 표시하고, 비-투시 마스크를 사용하여 차폐된 인스턴스의 보이지 않는 부분을 표시하는 단계- 투시 마스크와 비-투시 마스크는 차폐된 인스턴스의 상대적인 차폐(shielding) 관계를 표현함 -를 포함한다.

Description

이미지 처리 방법, 장치 및 디바이스, 및 저장 매체
본 출원은, 그 전체 내용이 참조로서 본 명세서에 포함되는, 2019년 4월 25일자로 중국 특허청에 출원되고 발명의 명칭이 "IMAGE PROCESSING METHOD, APPARATUS, AND DEVICE, AND STORAGE MEDIUM"인 중국 특허 출원 제2019103388350호에 대한 우선권을 주장한다.
본 개시내용은 인공 지능(AI) 기술 분야 및 컴퓨터 비전 기술 분야에 관한 것으로, 특히, 이미지 처리 방법, 장치, 및 디바이스, 및 저장 매체(storage medium)에 관한 것이다.
인스턴스 세그먼트화(instance segmentation)은 각각의 인스턴스에 대한 이미지를 찾고 각각의 인스턴스의 카테고리(category)를 결정하기 위해 사용되는 이미지 인식(image recognition) 기술이다. 이 기술은 보통 자율-주행(self-driving) 분야에서 차량을 전방에 정확하게 위치시키기 위해 사용되어, 다음 단계의 운전 제어(subsequent driving control) 전략을 선택하는 것을 보조한다.
그러나, 이미지 내의 인스턴스는 보이는(visible) 부분 및 폐색된(occluded) 보이지 않는(invisible) 부분을 포함한다. 인스턴스의 세그먼트화 동안, 보이는 부분은 세그먼트화를 통해 획득될 필요가 있을 뿐만 아니라, 인스턴스의 폐색된 보이지 않는 부분도 추리될 필요가 있다. 이러한 방식으로, 완전한 타겟(target)이 결정될 수 있다.
따라서, 이미지에서 각각의 인스턴스의 폐색된 보이지 않는 부분을 추리하기 위해 이미지를 처리하는 방법은 본 기술분야의 통상의 기술자의 주의를 끌고 있다.
본 개시내용의 실시예들은 이미지 처리 방법, 장치, 및 디바이스, 및 저장 매체를 제공한다. 기술적 해결책들은 다음과 같다.
이미지 처리 디바이스에 의해 수행되는 이미지 처리 방법으로서, 방법은:
예측될(to-be-predicted) 이미지를 획득하고, 예측될 이미지에 대해 특징 추출(feature extraction)을 수행하여, 예측될 이미지의 특징 맵(feature map)을 획득하는 단계;
예측될 이미지의 적어도 하나의 후보 영역(candidate region)을 생성하고, 적어도 하나의 후보 영역을 예측될 이미지의 특징 맵에 매핑(mapping)하는 단계- 하나의 후보 영역은 하나의 인스턴스를 포함함 -; 및
타겟 네트워크(target network)에 기초하여 매핑된 특징 맵을 처리하고, 투시 마스크(perspective mask)를 사용하여 예측될 이미지에서 폐색된 인스턴스의 전체 구조를 표시하고, 비-투시 마스크(non-perspective mask)를 사용하여 폐색된 인스턴스의 보이지 않는 부분을 표시하는 단계- 투시 마스크 및 비-투시 마스크는 폐색된 인스턴스의 상대적인 폐색 관계(occlusion relationship)를 표현함 -를 포함한다.
이미지 처리 디바이스에 배치되는 이미지 처리 장치로서, 장치는:
예측될 이미지를 획득하고, 예측될 이미지의 특징 맵을 획득하도록 구성되는 획득 모듈(obtaining module);
예측될 이미지에 대해 특징 추출을 수행하도록 구성되는 특징 추출 모듈;
예측될 이미지의 적어도 하나의 후보 영역을 생성하도록 구성되는 생성 모듈(generation module);
적어도 하나의 후보 영역을 예측될 이미지의 특징 맵에 매핑하도록 구성되는 매핑 모듈- 하나의 후보 영역은 하나의 인스턴스를 포함함 -; 및
타겟 네트워크에 기초하여 매핑된 특징 맵을 처리하고, 투시 마스크를 사용하여 예측될 이미지에서 폐색된 인스턴스의 전체 구조를 표시하고, 비-투시 마스크를 사용하여 폐색된 인스턴스의 보이지 않는 부분을 표시하도록 구성되는 처리 모듈- 투시 마스크와 비-투시 마스크는 폐색된 인스턴스의 상대적인 폐색 관계를 표현함 -을 포함한다.
하나 이상의 컴퓨터 판독가능(computer-readable) 저장 매체가 제공되고, 각각의 저장 매체는 적어도 하나의 컴퓨터 판독가능 명령어를 저장하고, 적어도 하나의 컴퓨터 판독가능 명령어는 하나 이상의 프로세서(processor)에 의해 로딩 및 실행되어 전술된 이미지 처리 방법을 구현한다.
이미지 처리 디바이스로서, 하나 이상의 프로세서 및 메모리(memory)를 포함하고, 하나 이상의 메모리는 적어도 하나의 컴퓨터 판독가능 명령어를 저장하고, 적어도 하나의 컴퓨터 판독가능 명령어는 전술된 이미지 처리 방법을 구현하기 위해 하나 이상의 프로세서에 의해 로딩되고 실행된다.
본 개시내용의 하나 이상의 실시예의 세부 사항들은 첨부 도면들과 아래의 설명들에서 제공된다. 본 개시내용의 명세서, 첨부 도면들, 및 청구항들에 기초하여, 본 개시내용의 다른 특징들, 목적들, 및 이점들이 더 명확해진다.
본 개시내용의 실시예들에서의 기술적 해결책들을 보다 명확하게 설명하기 위해, 이하에서는 실시예들을 설명하기 위해 요구되는 첨부 도면들을 간단히 소개한다. 분명히, 다음의 설명에서의 첨부 도면들은 본 개시내용의 일부 실시예들만을 도시하고, 본 기술 분야의 통상의 기술자는 여전히 창조적인 노력들 없이 이 첨부 도면들로부터 다른 도면들을 도출할 수 있다.
도 1은 본 개시내용의 실시예에 따른 이미지의 개략적인 다이어그램이다.
도 2는 본 개시내용의 실시예에 따른 다른 이미지의 개략적인 다이어그램이다.
도 3은 본 개시내용의 실시예에 따른 다른 이미지의 개략적인 다이어그램이다.
도 4는 본 개시내용의 실시예에 따른 이미지 처리 방법에 수반되는 구현 환경의 개략적인 다이어그램이다.
도 5는 본 개시내용의 실시예에 따른 이미지 처리 방법에 수반되는 네트워크 구조의 구조 다이어그램이다.
도 6은 본 개시내용의 실시예에 따른 멀티-브랜치(multi-branch) 코딩의 프로세스의 개략적인 다이어그램이다.
도 7은 본 개시내용의 실시예에 따른 다른 이미지의 개략적인 다이어그램이다.
도 8은 본 개시내용의 실시예에 따른 다른 이미지의 개략적인 다이어그램이다.
도 9는 본 개시내용의 실시예에 따른 다른 이미지의 개략적인 다이어그램이다.
도 10은 본 개시내용의 실시예에 따른 다른 이미지의 개략적인 다이어그램이다.
도 11은 본 개시내용의 실시예에 따른 다른 이미지의 개략적인 다이어그램이다.
도 12는 본 개시내용의 실시예에 따른 다른 이미지의 개략적인 다이어그램이다.
도 13은 본 개시내용의 실시예에 따른 다른 이미지의 개략적인 다이어그램이다.
도 14는 본 개시내용의 실시예에 따른 다른 이미지의 개략적인 다이어그램이다.
도 15는 본 개시내용의 실시예에 따른 다른 이미지의 개략적인 다이어그램이다.
도 16은 본 개시내용의 실시예에 따른 다른 이미지의 개략적인 다이어그램이다.
도 17은 본 개시의 실시예에 따른 이미지 처리 방법의 흐름도이다.
도 18은 본 개시의 실시예에 따른 다른 이미지 처리 방법의 흐름도이다.
도 19는 본 개시의 실시예에 따른 다른 이미지 처리 방법의 흐름도이다.
도 20은 본 개시내용의 실시예에 따른 다른 이미지의 개략적인 다이어그램이다.
도 21은 본 개시내용의 실시예에 따른 이미지 처리 장치의 개략적인 구조 다이어그램이다.
도 22는 본 개시의 실시예에 따른 이미지 처리 디바이스의 개략적인 구조 다이어그램이다.
도 23은 본 개시내용의 실시예에 따른 이미지 처리 디바이스의 개략적인 구조 다이어그램이다.
본 개시내용의 목적들, 기술적 해결책들, 및 이점들을 더 명확하게 하기 위해, 이하에서는 첨부 도면들을 참조하여 본 개시내용의 구현들을 상세히 추가로 설명한다. 본 명세서에 설명된 특정 구현들은 본 개시내용을 제한하는 대신에, 본 개시내용을 설명하기 위해서만 사용된다는 것이 이해될 것이다.
본 개시내용의 실시예들이 상세히 설명되고 기술되기 전에, 본 개시내용의 실시예들에 수반되는 일부 용어들이 먼저 설명되고 기술된다.
인스턴스: 본 개시내용의 실시예들에서, 인스턴스는 이미지에 등장하는(appearing) 특정 타겟 또는 객체(object)를 지칭한다. 예를 들어, 자율-주행 시나리오에서, 인스턴스는 전방에 나타나는 차량 또는 사람일 수 있다.
인스턴스 세그먼트화: 각각의 인스턴스에 대한 이미지를 찾고 각각의 인스턴스의 카테고리를 결정하기 위해 사용되는 이미지 인식 기술이다. 즉, 인스턴스 세그먼트화는 픽셀(pixel) 레벨에서 타겟의 윤곽(contour)을 인식하는 작업이다. 예를 들어, 기계(machine)는 타겟 검출 방법을 사용함으로써 이미지로부터 상이한 인스턴스들을 자동으로 마킹(mark)하고, 이후 시맨틱 세그먼트화(semantic segmentation) 방법을 사용함으로써 상이한 인스턴스 영역들에서 픽셀들에 하나씩 주석을 단다(annotate).
예에서, 인스턴스 세그먼트화는 보통 자율-주행 분야에서 차량을 전방에 정확하게 위치시키기 위해 사용되고, 다음 단계의 운전 제어 전략을 선택하는 것을 보조한다.
예 1: 시맨틱 세그먼트화 방법에서, 동일한 카테고리에 속하는 상이한 인스턴스들은 구별되지 않는다. 예를 들어, 이미지 내에 2마리의 고양이가 있는 경우, 2마리의 고양이의 모든 픽셀들은 시맨틱 세그먼트화 방법을 사용함으로써 고양이의 카테고리로 예측된다. 인스턴스 세그먼트화에서, 이미지 내의 어느 픽셀들이 첫 번째 고양이에 속하고 어느 픽셀들이 두 번째 고양이에 속하는지가 구별될 필요가 있다.
예 2: 도 1은, 분류(classification)와 포지셔닝(positioning), 객체 검출(object detection), 및 인스턴스 세그먼트화 간의 차이를 도시한다.
상부 좌측 다이어그램은 분류 및 포지셔닝을 사용하여 이미지를 처리한 결과를 도시한다. 이미지 분류 처리는 카테고리 레이블(label)을 이미지에 할당하는 것이고, 포지셔닝은 이미지에서 타겟의 위치를 획득하는 것이다.
상부 우측 다이어그램은 객체 검출을 사용하여 동일한 이미지를 처리한 결과를 도시한다. 객체 검출은 사용자들이 관심을 갖는 고정된 카테고리들의 그룹으로부터 시작하여 수행된다. 카테고리들 중 어느 하나가 입력된 이미지 내에 나타날 때마다, 경계 상자(bounding box)가 카테고리에 속하는 객체 주위에 그려지고, 객체의 카테고리 레이블이 예측된다. 분류 및 포지셔닝 및 객체 검출 사이의 차이는 객체 검출에서, 분류는 단일 타겟에 대해서만 수행되고, 단일 타겟의 경계 상자가 그려진다는 점에 있다.
도 1의 하부 다이어그램은 인스턴스 세그먼트화를 사용하여 동일한 이미지를 처리한 결과를 도시한다. 인스턴스 세그먼트화는 시맨틱 세그먼트화를 타겟 검출과 조합하는 기술이다. 주어진 이미지에 대해, 이미지 내의 타겟들의 위치들 및 신원들이 예측될 수 있다(이는 타겟 검출과 유사하다). 그러나, 타겟의 경계 상자를 예측하는 것보다 타겟의 전체(entire) 세그먼트화 마스크를 예측하는 것이 더 좋다. 즉, 입력된 이미지에서 어느 픽셀이 어느 타겟에 대응하는지가 예측된다. 이에 대응하여, 이미지 내의 각각의 양(sheep)은 상이한 세그먼트화 마스크를 갖는다.
그러나, 시맨틱 세그먼트화에서, 모든 양의 세그먼트화 마스크들은 동일하다. 즉, 시맨틱 세그먼트화는 각각의 픽셀의 카테고리를 출력하는(outputting) 전략이다. 다시 말해, 시맨틱 세그먼트화에서, 각각의 픽셀은 몇몇의 가능한 카테고리들 중 하나로 분류된다. 이는 도 1에서 양을 표시하는 모든 픽셀이 하나의 카테고리로 분류되고, 2마리의 상이한 양이 출력에서 구별되지 않는다는 것을 의미한다.
투시 인스턴스 세그먼트화: 인스턴스 세그먼트화 기술의 새로운 방향으로서, 투시 인스턴스 세그먼트화는 이미지에서 각각의 인스턴스를 세그먼트화하는 인간 능력을 모방하는 것을 타겟으로 하며, 세그먼트화된 객체는 폐색된 인스턴스의 보이지 않는 부분을 추가로 포함한다. 즉, 투시 인스턴스 세그먼트화는 인간 시각(human vision)의 추리 능력(deduction capability)과 유사하고, 이에 의해 폐색된 인스턴스의 보이지 않는 부분은 가려지지 않은 인스턴스의 보이는 부분에 기초하여 추리될 수 있어, 완전한 타겟을 결정한다.
투시 마스크: 주어진 픽셀이 인스턴스의 일부에 속하는지 여부를 설명할 수 있는 이진(binary) 마스크이다. 예를 들어, 픽셀이 인스턴스에 속하는 경우, 식별자(identifier)는 1이고, 픽셀이 인스턴스에 속하지 않는 경우, 식별자는 0이다.
본 개시내용의 실시예들에서, 투시 마스크는 인스턴스의 보이는 부분 및 보이지 않는 부분 둘 다를 포함하는, 인스턴스의 전체 구조에 특정적이다. 즉, 투시 마스크는 인스턴스의 전체 구조를 표시하기 위해 사용된다.
예에서, 인스턴스의 비-투시적 마스크는 투시적 마스크 및 인스턴스의 상대적인 폐색 순서(order)에 기초한 계산을 통해 획득될 수 있다. 비-투시 마스크는 또한 이진 마스크이고, 또한 주어진 픽셀이 인스턴스의 일부에 속하는지를 설명하기 위해 사용된다. 그러나, 비-투시 마스크는 인스턴스의 보이지 않는 부분에만 특정적이다. 즉, 비-투시 마스크는 폐색된 인스턴스의 보이지 않는 부분을 표시한다. 또한, 폐색된 인스턴스의 투시 마스크 및 비-투시 마스크는 인스턴스의 상대적인 폐색 관계를 추가로 표현할 수 있다.
전술된 바와 같이, 투시 인스턴스 세그먼트화는 인스턴스의 복잡한 구조를 추리할 필요가 있다. 결과적으로, 이러한 작업은 중요하고 미래적이지만, 인스턴스의 보이지 않는 부분을 정확하고 일관되게 마킹하기 어렵기 때문에 관련 기술은 상세히 주석이 달린 대규모 데이터세트(dataset)가 부족하다. 이것은 시각적인(visual) 인식의 프론티어를 탐색하는 것에 큰 장애물을 초래한다. 데이터-구동(data-driven) 딥 러닝 방법은 데이터세트들의 부족에 의해 제한되며, 이는 투시 인스턴스 세그먼트화 작업의 탐색을 추가로 제한한다. 또한, 관련 기술에서, 투시 인스턴스 세그먼트화 작업은 보통 Mask R-CNN 모델과 같은 종래의 인스턴스 세그먼트화 네트워크를 사용한다. 투시 인스턴스 세그먼트화 작업에 대한 특별한 개선은 없다.
다시 말해서, 관련 기술은 상세히 주석이 달린 대규모 투시 인스턴스 세그먼트 데이터세트 및 투시 인스턴스 세그먼트화 작업에 특정한 네트워크가 부족하다. 관련 기술은 투시 인스턴스 세그먼트화 작업을 탐색하지 않고, 따라서 관련 기술은 제품들의 요건들을 충족시키지 않는다. 도 2 및 도 3에 도시된 바와 같이, 훈련(training)의 횟수가 증가함에 따라, 인스턴스의 폐색된 부분을 추리하기 위한 Mask R-CNN 모델의 능력은 더 열악해진다. 도 2는 20,000회의 훈련에 대응하고, 도 3은 24,000회의 훈련에 대응한다.
전술된 문제들에 기초하여, 본 개시내용의 실시예는 이미지 처리 방법을 제안한다. 이 방법은 이미지에서 각각의 인스턴스의 픽셀-레벨(pixel-level) 위치를 예측할 수 있을 뿐만 아니라, 폐색된 각각의 인스턴스의 보이지 않는 부분을 추정(infer)할 수 있다.
한편, 본 개시내용의 일 실시예에서, 대규모 투시 인스턴스 데이터세트는 미세하게 주석이 달린다. 예에서, 수량의 측면에서, 데이터세트는 약 15,000장의 이미지를 포함한다. 품질의 측면에서, 본 개시내용의 일 실시예에서, 각각의 인스턴스의 시맨틱 레이블, 투시 마스크, 및 상대적 폐색 순서는 주석이 달린다. 따라서, 각각의 인스턴스의 비-투시 마스크는 계산을 통해 쉽게 획득될 수 있고, 이는 데이터세트를 더 보편적으로 만든다.
다른 한편으로는, 본 개시의 일 실시예는 멀티-브랜치 코딩의 멀티태스킹 프레임워크(multitasking framework)를 제안한다. 이러한 네트워크는 폐색된 인스턴스의 보이지 않는 부분을 더 잘 추리할 수 있어서, 네트워크는 인간 시각과 유사한 추리 능력을 갖는다.
본 개시내용의 일 실시예에서 제공되는 이미지 처리 방법에 수반되는 구현 환경이 이하에서 상세히 기술된다.
도 4를 참조하면, 구현 환경은 이미지 처리 디바이스(401)를 포함한다. 이미지 처리 디바이스(401)는 기계 학습 능력을 갖는 컴퓨터 디바이스이다. 예를 들어, 컴퓨터 디바이스는 개인용 컴퓨터, 서버 등과 같은 고정된 컴퓨터 디바이스일 수 있다. 대안적으로, 컴퓨터 디바이스는 태블릿 컴퓨터(tablet computer), 스마트폰(smartphone), 전자책 리더(ebook reader) 등과 같은 모바일(mobile) 컴퓨터 디바이스일 수 있다. 이는 본 개시내용의 이 실시예에서 구체적으로 제한되지 않는다.
본 발명의 일 실시예에서, 이미지 처리 디바이스(401)는 도 5에 도시된 네트워크에 제공된다. 네트워크에서의 멀티-브랜치 코딩의 상세한 구조가 도 6에 도시된다.
이미지 처리 디바이스(401)는 외부에서 입력된 예측될 이미지를 수신하고, 네트워크에 기초하여 본 개시내용의 일 실시예에서 제공되는 이미지 처리 방법을 수행하도록 구성된다.
실시예에서, 이미지 처리 방법이 AI의 분야에서 자율-주행 시나리오에 적용되는 예를 사용함으로써, 예측될 이미지는 촬영 디바이스에 의해 캡처된 거리 풍경(streetscape) 이미지일 수 있다. 다시 말해서, 촬영 디바이스는 자율-주행 차량에 대해 배치되는 카메라일 수 있다. 즉, 본 개시내용의 일 실시예에서 제공되는 이미지 처리 방법은 AI 분야에 적용될 수 있다. 예를 들어, 방법은 AI의 분야에서 자율-주행 차량에 적용될 수 있다. 또한, 본 개시내용의 일 실시예에서의 응용 시나리오는 자율-주행 시나리오 및 인간 지능을 시뮬레이팅(simulating)하기 위해 사용되는 다른 시나리오를 포함하지만, 이에 제한되지 않는다. 인간 지능을 시뮬레이팅, 확장, 및 확장하기 위해 현재 연구되고 개발된 신흥 과학 및 기술로서, AI는 이미지 처리, 얼굴 인식, 게임, 의료, 및 다른 분야들에 널리 적용되어 왔다.
본 개시내용의 일 실시예에서 제공되는 이미지 처리 방법은 도 5에 도시된 네트워크에 상세히 주석이 달린 대규모 훈련 데이터세트를 포함한다.
훈련 데이터세트의 측면에서, 위에 설명된 바와 같이, 훈련 데이터세트에서의 각각의 이미지에 대해, 이미지에서의 각각의 인스턴스는 주석이 달리고, 주석 정보는 시맨틱 레이블, 상대적인 폐색 순서, 및 투시 마스크를 포함한다. 도 5에 도시된 네트워크는 훈련 데이터세트에 기초하여 훈련되고, 이는 네트워크에 제공된 이미지 처리 디바이스(401)가 투시 인스턴스 세그먼트화를 수행하는 것을 가능하게 한다.
네트워크의 측면에서, 투시 인스턴스 세그먼트화 작업에 대해, 본 개시내용의 일 실시예는 분류 및 회귀(regression) 브랜치 및 Mask 브랜치에 기초하여 폐색 분류 브랜치를 추가로 제공한다. 분류 및 회귀 브랜치는 이미지에서 인스턴스의 일반적인 영역 및 인스턴스의 시맨틱 레이블을 검출하도록 구성되고, Mask 브랜치는 인스턴스의 일반적인 영역에 대해 정확한 마스크 세그먼트화를 추가로 수행하도록 구성되고, 폐색 분류 브랜치는 인스턴스가 가려지는지를 결정하고, 폐색 분류 정보를 제공하도록 구성된다.
또한, 본 개시내용의 일 실시예는 멀티-브랜치 코딩을 추가로 제안한다. 즉, 본 개시내용의 일 실시예에서, 분류 및 회귀 브랜치의 특징 정보, 폐색 분류 브랜치의 특징 정보, 및 Mask 브랜치의 특징 정보가 융합된다. 융합된 특징 정보는 Mask 브랜치가 투시 인스턴스 세그먼트화를 추리하는 것을 보조한다.
본 개시내용의 일 실시예에서, Mask 브랜치는 도 5에 도시된 2개의 브랜치로 추가로 세그먼트화된다. 2개의 브랜치는 각각 투시 세그먼트화 및 비-투시 세그먼트화를 수행하도록 구성되고, 인스턴스의 전체 구조 및 인스턴스의 보이지 않는 부분에 각각 대응한다. 본 명세서에서 비-투시 세그먼트화 브랜치는 제1 마스크 브랜치이라고도 지칭되고, 투시 세그먼트화 브랜치는 제2 마스크 브랜치이라고도 지칭될 수 있다.
본 개시내용의 일 실시예에 수반되는 훈련 데이터세트가 아래에 설명된다.
본 개시내용의 일 실시예에서, 훈련 데이터세트는 또한 투시 인스턴스 데이터세트로서 지칭될 수 있다. 실시예에서, 자율-주행 시나리오에서, 훈련 데이터세트는 자율-주행 데이터세트 KITTI로부터 올 수 있고, 이는 KITTI INStance 데이터세트(KINS)라고도 지칭된다.
본 개시내용의 일 실시예에서, KITTI 데이터세트에서 14,991장의 이미지들은 주석이 달려서, 대규모 투시 인스턴스 데이터세트, 즉, KINS를 형성한다.
실시예에서, 데이터세트는 2개의 부분으로 세그먼트화된다. 7474장의 이미지는 모델 또는 네트워크 훈련을 위해 사용되고, 나머지 7517장의 이미지는 네트워크 또는 모델 테스팅(model testing)을 위해 사용된다.
실시예에서, 3가지 유형의 인스턴스 주석이 있다: 투시 마스크, 시맨틱 레이블, 및 상대적인 폐색 순서.
본 개시내용의 일 실시예에서, 고품질이고 일관된 주석 정보를 획득하기 위해, 다음의 3개의 인스턴스 주석 규칙들이 뒤따를 수 있다:
(1) 시맨틱 주석 달기가 특정 시맨틱 카테고리에서 수행된다.
(2) 이미지 내의 인스턴스들 간의 상대적인 폐색 순서에 주석이 달린다.
(3) 폐색된 각각의 인스턴스의 보이지 않는 부분을 포함하여, 각각의 인스턴스에 대해 픽셀-레벨 주석 달기가 수행된다.
전술된 3개의 규칙에 기초하여, 본 개시내용의 일 실시예에서, 이미지에서 인스턴스들을 마킹하기 위해 다음의 단계들이 수행될 수 있다.
첫째, 각각의 이미지에 대해, 시니어(senior) 주석자(annotator)는 이미지 내의 특정 인스턴스의 특정 유형 및 경계 상자에 주석을 달 수 있다. 주석 순서는 또한 가까운 것으로부터 먼 것까지의 상대적 폐색 순서를 따를 필요가 있다.
둘째, N개의 주석자는 이미지 내의 각각의 인스턴스에 대해 투시 마스크 주석 달기를 수행한다. 실시예에서, N의 값은 3일 수 있고, 즉, 3개의 주석자는 동일한 인스턴스에 대해 투시 마스크 주석 달기를 수행한다. 이는 본 개시내용의 이 실시예에서 구체적으로 제한되지 않는다.
셋째, 각각의 주석자의 픽셀-레벨 주석들이 집계(aggregate)된다.
실시예에서, 주석 달기는 전술된 주석 규칙들을 충족시키는 주석 툴을 사용하여 완료될 수 있다. 이는 본 개시내용의 일 실시예에서 구체적으로 제한되지 않는다. 주석 달기를 수행하기 위해 사용되는 주석 달기 도구의 인터페이스가 도 7에 도시될 수 있다.
실시예에서, 주석 달기의 상세한 프로세스는 다음과 같다:
(1) 시맨틱 주석 달기
본 개시내용의 일 실시예에서, 인스턴스들은 특수 카테고리들에 속한다. 실시예에서, KINS 데이터세트의 경우, 시맨틱 레이블은 일반(general) 카테고리들과 하위 카테고리들(sub-categories) 사이의 포함 관계를 정의하는 조직화된 2층(two-layer) 구조이다. 즉, 시맨틱 레이블은 인스턴스의 카테고리를 표시하기 위해 사용된다.
KINS 데이터세트 내의 모든 이미지들이 거리 풍경 이미지들인 경우, 2개의 대표 카테고리가 일반 카테고리들로서 선택되고, 8개의 대표 카테고리가 하위 카테고리들로서 선택된다. 일반적인 카테고리는 인간 및 차량을 포함할 수 있다. 또한, "사람"의 일반 카테고리는 3개의 하위 카테고리, 즉 "보행자", "라이딩하는 사람(biker)" 및 "앉아있는 사람(seated person)"으로 세분화(subdivide)된다. "차량"의 일반 카테고리는 5개의 하위 카테고리, 즉 "자동차", "전기 자동차", "트럭", "컨버터블(convertible)" 및 '다른 차량'으로 세분화된다. 다른 차량은 전술된 4가지 유형의 차량 이외의 다른 차량들을 지칭한다.
(2) 상대적인 폐색 순서
실시예에서, 각각의 이미지에 대해, 시니어 주석자는 경계 상자들을 사용함으로써 이미지 내의 모든 인스턴스들에 주석을 달 수 있고, 인스턴스들을 정렬(sort)하여 상대적 폐색 순서를 획득할 수 있다.
폐색된 인스턴스들의 순서에 대해, 이미지 내의 인스턴스들은 먼저 접속 해제된(disconnected) 몇몇의 클러스터(cluster)들로 세그먼트화된다. 각각의 클러스터는 몇몇의 접속된 인스턴스들을 포함하여, 정렬에 의해 폐색 순서의 획득을 용이하게 한다. 예를 들어, 도 3에서, 좌측 상의 자동차 및 우측 상의 자동차는 2개의 접속 해제된 클러스터에 속한다.
즉, 상대적인 폐색 순서는 각각의 인스턴스와 카메라 사이의 거리에 기초하여 획득된다. 인스턴스와 카메라 사이의 더 짧은 거리는 인스턴스가 가려지지 않을 더 높은 확률을 표시한다.
도 8 내지 도 13을 참조하면, 동일한 클러스터에서 인스턴스들은 가까운 인스턴스로부터 시작하는 순서로 주석이 달리고, 즉, 카메라로부터 최단 거리를 갖는 인스턴스로부터 시작하는 주석이 수행된다. 도 8은 도 9에 대응하고, 도 10은 도 11에 대응하고, 도 12는 도 13에 대응한다. 도 8, 도 10, 및 도 11은 상대적인 폐색 순서 주석 달기가 수행되지 않은 거리 풍경 이미지들을 도시하고, 도 9, 도 11, 및 도 13은 상대적인 폐색 순서 주석 달기가 수행된 거리 풍경 이미지들을 도시한다.
실시예에서, 가려지지 않은 비-중첩된(non-overlapped) 인스턴스의 상대 폐색 순서는 0으로 마킹되고, 클러스터에서 폐색된 중첩된(overlapped) 인스턴스들은 순서대로 1부터 마킹된다. 폐색이 발생할 때마다, 상대적인 폐색 순서는 1만큼 증가한다.
(3) 투시 마스크 주석 달기
본 개시내용의 일 실시예에서, N개의 주석자는 이미지 내의 각각의 인스턴스에 대해 투시 마스크 주석 달기를 수행한다. 실시예에서, 3개의 주석자는 각각의 인스턴스에 대응하는 경계 상자에서 각각의 인스턴스의 투시 마스크를 마킹할 수 있다. 이 단계의 중점은 N개의 주석자가 각각 폐색된 인스턴스의 일부를 추정하고, 그 후 N개의 주석자에 의해 예측되는 동일한 인스턴스의 마스크들에 기초하여 인스턴스의 투시 마스크를 결정한다는 것이다. 실시예에서, 인스턴스에 대한 투시 마스크 주석은 N개의 주석자의 다수결 투표를 통해 결정된다.
실시예에서, 도 14 내지 도 16은 이미지의 인스턴스들에 주석을 다는 프로세스를 도시한다. 도 14는 주석이 달려 있지 않은 원본(original) 이미지를 도시하고, 도 15는 투시 인스턴스 세그먼트화를 이용한 주석 달기의 결과를 도시하고, 도 16은 상대적인 폐색 순서를 이용한 주석 달기의 결과를 도시한다. 더 밝은 컬러는 대응하는 인스턴스가 가려지지 않을 더 높은 확률을 표시한다.
실시예에서, 훈련 데이터세트에 기초하여 모델을 훈련하기 위해 다음의 단계들이 수행될 수 있다:
첫째, 훈련 샘플 이미지들을 획득하고, 훈련 샘플 이미지들 내의 각각의 인스턴스의 주석 정보는: 각각의 인스턴스의 상대적인 폐색 순서, 각각의 인스턴스의 카테고리를 표시하기 위해 사용되는 시맨틱 레이블, 및 각각의 인스턴스의 투시 마스크를 포함한다.
훈련 샘플 이미지들은 훈련 데이터세트에 포함된 이미지들을 지칭한다.
둘째, 훈련 샘플 이미지들에서의 폐색된 인스턴스들에 대해, 폐색된 인스턴스들의 상대적인 폐색 순서들 및 투시 마스크들에 기초하여 폐색된 인스턴스들의 비-투시 마스크들을 결정하고, 투시 마스크들, 비-투시 마스크들, 및 시맨틱 레이블들로 주석이 달린 훈련 샘플 이미지들에 따라 모델 훈련을 수행하여, 타겟 네트워크를 획득한다.
인스턴스가 다른 인스턴스에 의해 가려지는지 또는 인스턴스가 다른 인스턴스를 가리는지는 상대적인 폐색 순서에 따라 추정될 수 있다. 인스턴스가 다른 인스턴스에 의해 가려지는 경우, 인스턴스를 구체적으로 가리는 인스턴스들의 수량은 인스턴스의 상대적인 폐색 순서에 따라 추가로 결정될 수 있다. 일 실시예에서, 인스턴스의 비-투시 마스크는 다른 인스턴스의 투시 마스크 및 인스턴스의 투시 마스크에 따라 추정될 수 있다.
본 개시내용의 일 실시예에서, 도 5에 도시된 구조를 갖는 초기 네트워크는 전술된 주석 정보를 운반하는 훈련 샘플 이미지들에 기초하여 훈련된다. 훈련 프로세스는 네트워크 파라미터(parameter)를 지속적으로 최적화하는 프로세스이다. 실시예에서, 최적화는 크로스-엔트로피(cross-entropy) 손실 함수(loss function)를 사용하여 수행될 수 있다. 이는 본 개시내용의 일 실시예에서 구체적으로 제한되지 않는다. 훈련이 완료된 후, 도 5에 도시된 타겟 네트워크가 획득될 수 있다. 또한, 훈련이 완료된 후에, 네트워크는 네트워크의 예측 능력을 체크하기 위해 테스트 데이터(test data)에 기초하여 테스트될 수 있다.
타겟 네트워크는 전술된 주석 정보를 운반하는 훈련 샘플 이미지들에 기초하여 훈련되어, 타겟 네트워크는 투시 인스턴스 세그먼트화를 정확하게 표시할 수 있을 뿐만 아니라, 인스턴스의 카테고리 정보, 폐색 분류 정보 등 또한 결정할 수 있다. 특히, 모델 훈련이 훈련 샘플 이미지들에 기초하여 수행된 후에, 획득된 타겟 네트워크는 폐색된 예측될 이미지 내의 인스턴스의 보이지 않는 부분을 정확하게 결정할 수 있다. 즉, 타겟 네트워크는 인간 시각과 유사한 추리 능력을 가지며, 투시 인스턴스 세그먼트화를 적절히 추리할 수 있다. 따라서, 이러한 이미지 처리 방식은 비교적 양호한 지능을 갖고, 다양한 이미지 처리가 풍부해진다.
본 개시내용의 실시예들에서 제공되는 이미지 처리 방법이 아래에 상세히 설명된다. 이하의 실시예들에서의 제1, 제2, 제3, 및 제4와 같은 설명들은 순서와 같은 임의의 다른 제한을 구성하기보다는 단지 상이한 객체들을 구별하도록 의도된다.
도 17은 본 개시의 실시예에 따른 이미지 처리 방법의 흐름도이다. 도 17을 참조하면, 본 개시내용의 일 실시예에서 제공되는 방법은 이미지 처리 디바이스에 적용된다. 방법은 구체적으로 이하의 단계들을 포함한다:
1701. 예측될 이미지를 획득하고, 예측될 이미지에 대해 특징 추출을 수행하여, 예측될 이미지의 특징 맵을 획득한다.
자율-주행 시나리오에서, 예측될 이미지는 무인 차량(unmanned vehicle)에 배치된 촬영 디바이스에 의해 캡처된 거리 풍경 이미지일 수 있다. 거리 풍경 이미지는 다음을 포함하지만, 이에 제한되지 않는다: 차량, 사람, 도로의 양 측의 나무들, 교통 표지판(traffic sign), 및 광고판(billboard).
실시예에서, 도 5를 참조하면, 컨볼루션 백본(convolutional backbone) 구조는 예측될 이미지에 대해 특징 추출을 수행하기 위해 사용될 수 있다. 컨볼루션 백본 구조는 복수의 컨볼루션 계층(layer) 및 복수의 풀링(pooling) 계층을 포함할 수 있다. 즉, 컨볼루션 백본 구조에 입력된 후에, 복수의 컨볼루션 계층 및 복수의 풀링 계층을 사용하여 검출될(to-be-detected) 이미지를 처리하여, 전체 이미지의 특징 맵을 획득한다.
또한, 예측될 이미지가 컨볼루션 백본 구조에 입력되기 전에, 예측될 이미지에 대해 전-처리 동작(pre-processing operation)이 추가로 수행될 수 있다. 전-처리 동작은 치수(dimension) 조정(adjustment) 및 잡음 감소를 포함하지만, 이에 제한되지 않는다. 이는 본 개시내용의 일 실시예에서 구체적으로 제한되지 않는다.
1702. 예측될 이미지의 적어도 하나의 후보 영역을 생성하고, 적어도 하나의 후보 영역을 예측될 이미지의 특징 맵에 매핑하며, 하나의 후보 영역은 하나의 인스턴스를 포함한다.
본 개시내용의 일 실시예에서, 예측될 이미지의 적어도 하나의 후보 영역은 영역 생성 네트워크에 기초하여 생성될 수 있다. 실시예에서, 영역 생성 네트워크는 영역 제안 네트워크(region proposal network, RPN)일 수 있다. 이는 본 개시내용의 일 실시예에서 구체적으로 제한되지 않는다.
적어도 하나의 후보 영역은 필터링(filtering) 후의 이미지 전경(foreground) 인스턴스를 포함하는 나머지 후보 영역을 지칭한다. 자율-주행 시나리오에서, 이미지 전경 인스턴스는 이미지 전경에 속하는 차량 또는 사람을 지칭한다.
실시예에서, 예측될 이미지의 특징 맵은 보통 컨볼루션 백본 구조의 마지막 컨볼루션 계층에 의해 출력되는 특징 맵이어서, 적어도 하나의 후보 영역이 특징 맵에 매핑된다.
또한, 적어도 하나의 후보 영역은 본 명세서에서 관심 영역(region of interest, ROI)이라고도 지칭된다. 이것은 또한 본 개시내용의 일 실시예에서 구체적으로 제한되지 않는다.
1703. 타겟 네트워크에 기초하여 매핑된 특징 맵을 처리하고, 투시 마스크를 사용하여 예측될 이미지에서 폐색된 인스턴스의 전체 구조를 표시하고, 비-투시 마스크를 사용하여 폐색된 인스턴스의 보이지 않는 부분을 표시하고, 투시 마스크와 비-투시 마스크는 폐색된 인스턴스의 상대적인 폐색 관계를 표현한다.
본 개시내용의 일 실시예에서, 타겟 네트워크는 적어도 제1 브랜치 구조를 포함한다. 실시예에서, 도 5에 도시된 바와 같이, 제1 브랜치 구조는 투시 세그먼트화 브랜치 및 비-투시 세그먼트화 브랜치를 지칭한다. 제1 브랜치 구조는 본 명세서에서 Mask 브랜치이라고도 한다.
다른 가능한 구현에서, 타겟 네트워크는 폐색 분류 정보를 결정하기 위한 제2 브랜치 구조를 추가로 포함한다. 폐색 분류 정보는 인스턴스가 가려지지 않거나 가려지는 것을 표시하기 위해 사용된다. 도 5를 참조하면, 제2 브랜치 구조는 폐색 분류 브랜치를 참조한다.
또한, 타겟 네트워크는 분류 브랜치 및 회귀 브랜치를 추가로 포함한다. 본 명세서에서, 분류 브랜치 및 회귀 브랜치는 집합적으로(collectively) 제3 브랜치 구조 또는 검출 상자(detection box) 브랜치이라고 지칭된다. 분류 브랜치는 인스턴스들에 대한 분류를 수행하는 것을 담당하고, 회귀 브랜치는 이미지에서 인스턴스들의 위치들을 결정하는 것을 담당한다.
본 개시내용의 일 실시예에서, 도 5를 참조하면, 적어도 하나의 후보 영역의 매핑이 완료된 이후, 픽셀 수정(correction)은 추가로 ROI Align 계층을 사용함으로써 각각의 ROI에 대해 수행될 필요가 있다.
ROI Align은 ROI Pooling 작업에서 2회의 양자화에 의해 야기되는 영역 오정렬(mis-alignment)의 문제를 해결할 수 있다. ROI Align의 아이디어는, 양자화 작업을 취소하고, 이중선형 보간(bilinear interpolation) 방법을 사용함으로써 부동 소수점 수들인 좌표들(coordinates)을 갖는 픽셀 포인트들의 이미지 수치 값들(numerical values)을 획득하여, 전체 특징 집계 프로세스를 연속적인 작업으로 변환하는 것이다.
실시예에서, ROI Align 작업의 프로세스는: 양자화를 수행하지 않고 모든 ROI들, 및 부동 소수점 수들의 나머지 경계(bound)들을 횡단(traverse)하는 것이다. 각각의 ROI는 k*k 유닛들로 세그먼트화되고, 양자화는 또한 각각의 유닛의 경계에 대해서 수행되지 않는다. 4개의 고정된 좌표 위치가 각각의 유닛에서 계산되고, 4개의 위치의 값들은 이중선형 보간 방법을 사용하여 계산되고, 그 후 최대 풀링 작업이 수행된다.
ROI Align은 다음을 실현한다: 먼저, 예측될 원본 이미지의 픽셀들과 특징 추출 후에 획득되는 특징 맵 사이의 대응관계가 확립되고, 그 후 특징 맵과 고정된 치수의 특징 맵 사이의 대응관계가 확립된다. 즉, 각각의 ROI는 ROI Align 계층을 사용하여 고정된 차원들의 특징 맵을 생성한다.
본 개시내용의 일 실시예에서, 도 5를 참조하면, 각각의 후보 영역에 대해, 복수의 특징 맵들은 픽셀 수정이 후보 영역에 대해서 수행된 이후 획득된다. 도 5에 도시된 바와 같이, 각각의 ROI에 대해, 도 5의 삼각형 기호(symbol), 스핀들(spindle) 기호, 및 육각형(hexagonal) 기호 각각은 특징 맵의 유형을 지칭한다.
식별을 용이하게 하기 위해, 본 명세서에서 육각형 기호에 대응하는 특징 맵은 제1 특징 맵이라고 지칭되고, 스핀들 기호에 대응하는 특징 맵은 제2 특징 맵이라고 지칭되고, 삼각형 기호에 대응하는 특징 맵은 제3 특징 맵이라고 지칭된다. 도 5에 도시된 바와 같이, 제1 특징 맵 및 제2 특징 맵의 치수는 동일하고, 제3 특징 맵의 치수보다 더 작다. 예를 들어, 제1 특징 맵 및 제2 특징의 치수는 7*7이고, 제3 특징 맵의 치수는 14*14이다.
일 실시예에서, 도 5를 참조하면, 본 개시의 일 실시예에서, 특징 융합은 마스크 예측(mask prediction) 동안 멀티-브랜치 코딩을 이용하여 수행된다. 즉, 도 5에 도시된 멀티-브랜치 코딩 모듈을 사용하여 폐색 분류 브랜치의 특징(제1 특징 맵), 검출 상자 브랜치의 특징(제2 특징 맵), 및 마스크 예측에 사용되는 특징(제3 특징 맵)에 대해 특징 융합이 수행된다. 이것은 검출 상자 브랜치, 폐색 분류 브랜치, 및 Mask 브랜치의 특징들을 융합함으로써 Mask 브랜치가 투시 인스턴스 세그먼트화를 추리하는 것을 보조한다.
실시예에서, 도 18을 참조하면, 타겟 네트워크에 기초하여 매핑된 특징 맵을 처리하는 단계는 다음의 단계들을 포함한다:
단계 1703-1. 각각의 후보 영역에 대해, 각각의 후보 영역의 제1 특징 맵을 처리를 위해 제2 브랜치 구조에 입력하여, 각각의 후보 영역에 포함된 인스턴스의 폐색 분류 정보를 획득한다.
단계 1703-2. 각각의 후보 영역의 제1 특징 맵, 제2 특징 맵, 및 제3 특징 맵에 대해 특징 융합을 수행하고; 획득된 융합된 특징 맵을 처리를 위해 제1 브랜치 구조에 입력한다.
본 개시내용의 일 실시예에서 제공되는 방법에서, 예측될 이미지가 획득된 후에, 예측될 이미지에 대해 특징 추출이 먼저 수행되고, 예측될 이미지의 적어도 하나의 후보 영역이 생성된다. 다음으로, 적어도 하나의 후보 영역은 예측될 이미지의 특징 맵에 매핑되고, 하나의 후보 영역은 하나의 인스턴스를 포함한다. 다음으로, 투시 마스크를 사용하여 인스턴스의 전체 구조를 표시하고 비-투시 마스크를 사용하여 폐색된 인스턴스의 보이지 않는 부분을 표시하기 위해, 매핑된 특징 맵은 타겟 네트워크에 기초하여 처리된다. 타겟 네트워크는 특징 맵을 처리하여, 인스턴스의 투시 마스크 및 비-투시 마스크를 획득한다. 따라서, 본 개시내용의 일 실시예에서, 인스턴스의 전체 구조가 정확하게 결정될 수 있을 뿐만 아니라, 폐색된 인스턴스의 보이지 않는 부분 또한 정확하게 결정될 수 있다. 즉, 타겟 네트워크는 인간 시각과 유사한 추리 능력을 가지며, 투시 인스턴스 세그먼트화를 적절히 추리할 수 있다. 따라서, 이러한 이미지 처리 방식은 비교적 양호한 지능을 갖고, 다양한 이미지 처리가 풍부해진다.
또한, 본 개시내용의 일 실시예에서, 네트워크 구조에 대해, 폐색 분류 브랜치가 검출 상자 브랜치 및 Mask 브랜치에 기초하여 추가로 추가된다. 폐색 분류 브랜치는 인스턴스의 폐색 분류 정보를 효과적으로 결정, 즉, 폐색 분류 브랜치는 인스턴스가 가려지거나 가려지지 않은 것으로 효과적으로 결정할 수 있다. 이러한 이미지 처리 방식은 비교적 양호한 지능을 가지며, 다양한 이미지 처리가 풍부해진다.
또한, 본 개시내용의 일 실시예는 멀티-브랜치 코딩을 사용하여 다중-특징(multi-feature) 융합을 추가로 제안한다. 멀티-브랜치 융합을 사용함으로써, 타겟 네트워크는 폐색된 인스턴스의 보이지 않는 부분을 더 잘 추리할 수 있다. 다시 말해서, 다중-특징 융합을 사용함으로써, 타겟 네트워크는 인간 시각과 유사한 추리 능력을 갖고, 인스턴스의 보이지 않는 부분을 더 적절히 추리할 수 있다.
다음 단계의 설명을 용이하게 하기 위해, 도 5에서 폐색 분류 브랜치에 접속된 완전히 접속된(fully connected, FC) 계층은 제1 FC 계층으로 지칭되고, 분류 브랜치에 접속된 FC 계층은 제2 FC 계층으로 지칭되며, 회귀 브랜치에 접속된 FC 계층은 제3 FC 계층으로 지칭된다.
검출 상자 브랜치
다른 실시예에서, 도 19를 참조하면, 타겟 네트워크에 기초하여 매핑된 특징 맵을 처리하는 단계는 이하의 단계들을 추가로 포함한다:
단계 1703-3. 각각의 후보 영역의 제2 특징 맵을 처리를 위해 제3 브랜치 구조에 입력하여, 각각의 후보 영역에 포함된 인스턴스의 시맨틱 레이블 및 위치 정보를 획득한다.
실시예에서, 도 5를 참조하면, 제2 특징 맵을 처리를 위해 제3 브랜치 구조에 입력하는 것은 다음을 포함하지만, 이에 제한되지 않는다: 제2 특징 맵을 처리를 위해 제2 FC 계층에 입력하는 단계; 제2 FC 계층에서 처리된 제2 특징 맵을 처리를 위해 제3 브랜치 구조에 포함된 분류 브랜치에 입력하여, 각각의 후보 영역에 포함된 인스턴스의 시맨틱 레이블을 획득하는 단계; 제2 특징 맵을 처리를 위해 제3 FC 계층에 입력하는 단계; 및 제3 FC 계층에서 처리되는 제2 특징 맵을 처리를 위해 제3 브랜치 구조에 포함되는 회귀 브랜치에 입력하여, 각각의 후보 영역에 포함된 인스턴스의 위치 정보를 획득하는 단계. 위치 정보는 각각의 후보 영역에 포함된 인스턴스의 경계 상자의 오프셋(offset)일 수 있다. 본 개시내용의 일 실시예에서, 인스턴스 주석 달기 동안 각각의 인스턴스의 경계 상자에 주석이 달려서, 각각의 인스턴스의 위치 정보가 예측될 수 있다.
본 개시내용의 일 실시예에서 제공되는 방법에서, 타겟 네트워크는 검출 상자 브랜치, 폐색 분류 브랜치, 및 Mask 브랜치를 포함한다. 검출 상자 브랜치를 사용함으로써, 인스턴스의 분류 및 포지셔닝이 완료될 수 있는데, 즉, 검출될 이미지에서의 인스턴스의 카테고리 레이블 및 인스턴스의 특정 위치가 결정된다.
폐색 분류 브랜치
일반적으로, 512개의 후보 영역이 영역 생성 네트워크에서 샘플링되고, 128개의 후보 영역만이 이미지 전경을 포함한다. 또한, 훈련 프로세스에서의 통계에 따르면, 일반적으로 이미지 전경을 포함하는 128개의 후보 영역 중 최대 40개의 후보 영역에서 폐색이 발생하고, 폐색된 면적들의 대부분은 1 내지 10개의 픽셀만을 포함한다. 폐색 샘플들과 비-폐색(de-occlusion) 샘플들 사이의 극단적인 불균형(imbalance)은 네트워크 훈련의 품질에 크게 영향을 미친다. 또한, 후보 영역들의 특징들이 추출된 후에, 작은 영역들의 특징들은 분명하지 않다. 전술된 것에 기초하여, 본 개시내용의 일 실시예에서, 폐색된 면적이 경계 상자의 면적보다 미리 설정된 백분율만큼 더 큰 면적을 갖는 후보 영역이 폐색 샘플로서 선택된다. 실시예에서, 미리 설정된 백분율의 값은 5%일 수 있다. 이는 본 개시내용의 일 실시예에서 구체적으로 제한되지 않는다.
전술된 설명들에 기초하여, 실시예에서, 단계 1703-1에서, 제1 특징 맵을 처리를 위해 제2 브랜치 구조에 입력하여, 각각의 후보 영역에 포함된 인스턴스의 폐색 분류 정보를 획득하는 것은 다음을 포함하지만 이에 제한되지 않는다: 제2 브랜치 구조에 기초하여, 각각의 후보 영역에 포함된 인스턴스의 폐색된 면적이 타겟 임계값에 도달하는지를 결정하는 단계; 및 각각의 후보 영역에 포함된 인스턴스의 폐색된 면적이 타겟 임계값에 도달할 때, 폐색 분류 정보가 각각의 후보 영역에 포함된 인스턴스가 폐색된다는 것을 표시하는 것으로 결정하는 단계. 또한, 인스턴스가 가려질 때, 폐색 상황의 구체적인 설명, 예를 들어, 폐색된 인스턴스들의 수량 및 인스턴스들의 상대적인 폐색 순서들이, 추가로 제공될 수 있다. 이는 본 개시내용의 일 실시예에서 구체적으로 제한되지 않는다.
타겟 임계값은 경계 상자의 면적의 5%일 수 있다. 이는 본 개시내용의 일 실시예에서 구체적으로 제한되지 않는다.
실시예에서, 도 5를 참조하면, 제1 특징 맵이 처리를 위해 제2 브랜치 구조에 입력되기 전에, 제1 특징 맵은 처리를 위해 제1 FC 계층에 먼저 입력될 수 있다. 그 후, 제1 FC 계층에서 처리된 제1 특징 맵은 처리를 위해 제2 브랜치 구조에 입력된다.
실시예에서, 폐색 분류 브랜치의 구조는 검출 상자 브랜치에서의 분류 브랜치의 구조와 일치하는데, 즉, 폐색된 및 가려지지 않은 것의 이진 분류는 마지막 계층에서만 수행된다. 일 실시예에서, 분류 브랜치는 4개의 컨볼루션 계층 및 하나의 FC 계층을 포함한다. 폐색 분류 브랜치는 또한 4개의 컨볼루션 계층 및 하나의 FC 계층을 포함하고, 하나의 이진 분류 소프트맥스(softmax) 계층을 추가로 포함한다.
본 개시내용의 일 실시예에서 제공되는 방법에서, 타겟 네트워크는 검출 상자 브랜치, 폐색 분류 브랜치, 및 Mask 브랜치를 포함한다. 폐색 분류 브랜치를 사용함으로써, 인스턴스의 폐색 분류 정보가 효과적으로 결정될 수 있는데, 즉, 인스턴스가 가려지는지 또는 가려지지 않는지가 효과적으로 결정될 수 있다.
멀티-브랜치 특징 융합
폐색 분류 브랜치를 사용함으로써, 타겟 네트워크는 유효 폐색 특징들을 추출할 수 있다. 본 개시내용의 일 실시예에서, 투시 마스크 또는 비-투시 마스크를 예측하기 위한 타겟 네트워크의 능력을 추가로 개선하기 위해, 본 개시내용의 일 실시예는 특징 융합을 수행하는 멀티-브랜치 코딩 모듈을 추가로 제안하여, 마스크 예측에서의 전역적(global) 정보를 확대한다. Mask 브랜치는 정제된(refined) 픽셀-레벨 마스크 예측을 수행하도록 의도된다. 검출 상자 브랜치 및 폐색 분류 브랜치의 특징 정보는 Mask 브랜치를 안내하기 위한 전역적 안내(guidance) 정보로서 사용될 수 있다.
실시예에서, 멀티-브랜치 코딩 모듈의 구조가 도 6에 도시된다. 먼저, 폐색 분류 브랜치의 특징 정보 및 검출 상자 브랜치의 특징 정보가 연접되고(CONCAT), 그 후 하나의 디컨볼루션(deconvolutional, DECONV) 계층 및 2개의 컨볼루션(CONV) 계층을 수반하여 추가로 융합된다. 그 후, 융합된 특징 정보 및 Mask 브랜치의 특징 정보가 연접되고 그 후 융합되어, 3개의 컨볼루션 계층을 수반한다. 최종적으로 융합된 특징 정보는 투시 마스크 또는 비-투시 마스크를 예측하기 위해 사용된다.
전술된 설명들에 기초하여, 실시예에서, 단계 1703-2에서, 제1 특징 맵, 제2 특징 맵, 및 제3 특징 맵에 대해 특징 융합을 수행하는 것은 다음을 포함하지만 이에 제한되지 않는다:
제1 특징 맵 및 제2 특징 맵에 대해 연접을 수행하여, 제1 중간(intermediate) 특징 맵을 획득하는 단계; 하나의 디컨볼루션 계층 및 2개의 컨볼루션 계층을 순차적으로(in sequence) 사용하여 제1 중간 특징 맵을 처리하여, 제2 중간 특징 맵을 획득하는 단계; 및 제2 중간 특징 맵 및 제3 특징 맵에 대해 연접을 수행하여, 제3 중간 특징 맵을 획득하고, 3개의 컨볼루션 계층을 순차적으로 사용해서 제3 중간 특징 맵을 처리하여, 융합된 특징 맵을 획득하는 단계.
융합된 특징 맵은 도 6에 도시된 오각형(pentagon) 기호에 대응한다. 컨볼루션 작업은 특징의 공간(spatial) 치수를 유지하지만, 디컨볼루션 작업은 특징의 공간 치수를 증가시킨다.
또한, 단계 1703-2에서, 획득된 융합된 특징 맵을 제1 브랜치 구조에 입력하여, 폐색된 각각의 후보 영역에 포함된 인스턴스의 보이지 않는 부분을 획득하는 것은 다음을 포함하지만, 이에 제한되지 않는다:
단계 a. 융합된 특징 맵을 처리를 위해 제1 디컨볼루션 계층에 입력하여, 제1 처리된 특징 맵을 획득한다.
이 단계는 디컨볼루션 작업을 이용하여, 특징의 공간 차원(dimension)을 증가시키는 것, 즉, 해상도를 개선하는 것이다.
단계 b. 제1 처리된 특징 맵을 제1 브랜치 구조에 포함된 제1 마스크 브랜치에 입력하고, 각각의 후보 영역에 포함된 인스턴스가 폐색된 인스턴스일 때, 각각의 후보 영역에 포함된 인스턴스의 비-투시 마스크를 획득한다.
폐색된 각각의 후보 영역에 포함된 인스턴스의 보이지 않는 부분은 비-투시 마스크에 기초하여 결정될 수 있다.
다른 가능한 구현에서, 본 개시내용의 실시예들은 다음을 추가로 포함한다:
단계 c. 융합된 특징 맵을 처리를 위해 제2 디컨볼루션 계층에 입력하여, 제2 처리된 특징 맵을 획득한다.
단계 d. 제2 처리된 특징 맵을 제1 브랜치 구조에 포함된 제2 마스크 브랜치에 입력하여, 각각의 후보 영역에 포함된 인스턴스의 투시 마스크를 획득한다.
각각의 후보 영역에 포함된 인스턴스의 전체 구조는 투시 마스크에 기초하여 결정될 수 있다. 전체 구조는 보이는 부분 및 보이지 않는 부분을 포함한다.
실시예에서, Mask 브랜치의 구조는 검출 상자 브랜치에서의 분류 브랜치의 구조와 일치한다. 예를 들어, Mask 브랜치에서의 투시 세그먼트화 브랜치 및 비-투시 세그먼트화 브랜치 각각은 4개의 컨볼루션 계층을 포함한다. 이는 본 개시내용의 일 실시예에서 구체적으로 제한되지 않는다.
본 개시내용의 일 실시예에서 제공되는 방법에서, 멀티-브랜치 융합을 사용함으로써, 타겟 네트워크는 투시 인스턴스 세그먼트화를 더 잘 추리할 수 있다.
다른 실시예에서, 본 개시내용의 일 실시예에서 제공되는 이미지 처리 방법의 응용 시나리오는 다음의 2개의 예를 포함하지만, 이에 제한되지 않는다:
예 1: 본 개시내용의 일 실시예에서 제공되는 투시 인스턴스 세그먼트화는 자율-주행 시나리오에 적용가능하다.
이 시나리오에서, 자율-주행 차량이 운전 중일 때, 자율-주행 차량에 장착된 카메라는 실시간으로 도 8, 도 10, 도 12, 및 도 13에 도시된 거리 풍경 이미지들을 캡처할 수 있다. 캡처된 거리 풍경 이미지들은 이동 중인(moving) 차량, 정적(static) 차량, 보행자, 및 라이딩하는 사람을 포함할 수 있다. 시야의 범위에 의해 제한되는, 현재 거리 풍경 이미지들 내의 일부 인스턴스들은 다른 인스턴스들에 의해 가려질 수 있다. 폐색된 부분이 보이지 않기 때문에, 즉, 시선에 의해 도달불가능(unreachable)하기 때문에, 자율-주행은 악영향을 받을 수 있다. 예를 들어, 자율-주행 차량은 시간 안에 폐색된 인스턴스를 회피하는 데 실패한다.
본 개시내용의 일 실시예에서 제공된 투시 인스턴스 세그먼트화 작업은 정확한 운전 제어 전략을 수행함에 있어서 자율-주행 시스템을 보조할 수 있다. 예를 들어, 투시 인스턴스 세그먼트화에 기초하여, 거리 풍경 이미지에서 폐색된 인스턴스의 보이는 부분을 획득할 때, 자율-주행 시스템은 보이는 부분에 기초하여 인스턴스의 보이지 않는 부분을 추가로 추리할 수 있는데, 즉, 인스턴스의 전체 구조를 획득할 수 있다. 이러한 방식으로, 자율-주행 시스템에서 검출 신호 지터(jitter)의 발생이 효과적으로 감소될 수 있고, 자율-주행 차량은 현재 도로 상태에 따라 운전 제어 전략을 정확하게 수행할 수 있다.
예 2: 본 개시내용의 일 실시예에서 제공되는 투시 인스턴스 세그먼트화는 촬영 시나리오 또는 다운로드 시나리오에 추가로 적용가능하다.
실시예에서, 촬영 시나리오는 지능형 로봇이 작업을 실행하는 촬영 시나리오일 수 있다. 즉, 본 개시내용의 한 실시예에서 제공된 투시 인스턴스 세그먼트화 작업은 대안적으로 지능형 로봇 시나리오에 적용가능하다. 예를 들어, 지능형 로봇은 청소 작업을 실행한다. 지능형 로봇에 대해 배치된 카메라는 실시간으로 전방 이미지들을 캡처할 수 있다. 캡처된 이미지들은 지능형 로봇의 주행에 영향을 미치는 장애물(obstacle)들을 포함할 수 있으며, 이는 도 8, 도 10, 도 12 및 도 13에 도시된 폐색과 유사하다. 도 20을 참조하면, 캡처된 이미지들 내의 일부 장애물들은 다른 장애물들에 의해 가려질 수 있다. 폐색된 부분은 보이지 않기 때문에, 즉, 시선에 의해 도달불가능하기 때문에, 지능형 로봇에 의한 청소 작업의 실행은 악영향을 받을 수 있다. 그러나, 본 개시내용의 한 실시예에서 제공된 투시 인스턴스 세그먼트화 작업은 예시의 보이는 부분에 기초하여 폐색된 보이지 않는 부분을 추리할 수 있고, 이는 지능형 로봇이 청소 작업을 완료하는 것을 효과적으로 보조한다.
다운로드 시나리오에 대해, 다운로드된 이미지 내의 일부 사람들 또는 객체들은 다른 사람들 또는 객체들에 의해 가려질 수 있다. 대안적으로, 네트워크에 의해 제한되면, 다운로드된 이미지는 유효 정보의 일부만을 포함할 수 있고, 다른 정보는 손실된다. 대부분의 경우에, 사용자는 완전한 타겟을 보기를 원한다. 본 개시내용의 한 실시예에서 제공된 투시 인스턴스 세그먼트화 작업은, 사용자가 완전한 타겟을 보는 것을 돕기 위해, 인스턴스의 보이는 부분에 기초하여, 인스턴스의 보이지 않는 부분을 추리할 수 있다.
즉, 본 개시내용의 일 실시예에서 제공되는 이미지 처리 방법은 자연적인 이미지에 포함되는 높은 시맨틱 구조를 갖는 타겟에서 잘 수행한다.
결론적으로, 전술된 이미지 처리 방법은 다양한 응용 시나리오들에 적용될 수 있다. 방법은 상이한 유형들의 훈련 데이터가 훈련을 위해 제공되는 한 전술된 2개의 시나리오와 다른 시나리오들에 적용가능하다.
단계들이 실시예들의 흐름도들에서 화살표들의 지시(instruction)들에 따라 순차적으로 디스플레이되지만, 이러한 단계들이 반드시 화살표들에 의해 지시되는 시퀀스에 따라 순차적으로 수행되는 것은 아니라는 것이 이해될 것이다. 본 개시내용에서 달리 명시적으로 특정되지 않는 한, 단계들의 실행은 엄격하게 제한되지 않고, 단계들은 다른 시퀀스들로 수행될 수 있다. 또한, 각각의 실시예에서의 단계들 중 적어도 일부는 복수의 서브-단계(sub-step) 또는 복수의 스테이지(stage)를 포함할 수 있다. 서브-단계들 또는 스테이지들이 반드시 동일한 순간에 수행되는 것은 아니다. 대신에, 이들은 상이한 순간들에 수행될 수 있다. 서브-단계들 또는 스테이지들이 반드시 순차적으로 수행되는 것은 아니다. 그 대신에, 이들은 차례로 또는 다른 단계들 또는 서브-단계들 중 적어도 일부 또는 다른 단계들의 스테이지들과 교대로(alternately) 수행될 수 있다. 도 21은 본 개시내용의 실시예에 따른 이미지 처리 장치의 개략적인 구조 다이어그램이다. 장치는 전술된 실시예에서 이미지 처리 디바이스에 대해 배치될 수 있다. 도 21을 참조하면, 장치는:
예측될 이미지를 획득하도록 구성되는 획득 모듈(2101);
예측될 이미지에 대해 특징 추출을 수행하여, 예측될 이미지의 특징 맵을 획득하도록 구성되는 특징 추출 모듈(2102);
예측될 이미지의 적어도 하나의 후보 영역을 생성하도록 구성되는 생성 모듈(2103);
적어도 하나의 후보 영역을 예측될 이미지의 특징 맵에 매핑하도록 구성되는 매핑 모듈(2104)- 하나의 후보 영역은 하나의 인스턴스를 포함함 -; 및
타겟 네트워크에 기초하여 매핑된 특징 맵을 처리하고, 투시 마스크를 사용하여 예측될 이미지에서 폐색된 인스턴스의 전체 구조를 표시하고, 비-투시 마스크를 사용하여 폐색된 인스턴스의 보이지 않는 부분을 표시하도록 구성되는 처리 모듈(2105)- 투시 마스크와 비-투시 마스크는 폐색된 인스턴스의 상대적인 폐색 관계를 표현함 -을 포함한다.
본 개시내용의 일 실시예에서 제공되는 장치에서, 예측될 이미지가 획득된 후에, 예측될 이미지에 대해 특징 추출이 먼저 수행되고, 예측될 이미지의 적어도 하나의 후보 영역이 생성된다. 다음으로, 적어도 하나의 후보 영역은 예측될 이미지의 특징 맵에 매핑되고, 하나의 후보 영역은 하나의 인스턴스를 포함한다. 다음으로, 매핑된 특징 맵은 타겟 네트워크에 기초하여 처리되어, 투시 마스크를 사용하여 인스턴스의 전체 구조를 표시하고 비-투시 마스크를 사용하여 폐색된 인스턴스의 보이지 않는 부분을 표시한다. 타겟 네트워크는 특징 맵을 처리하여, 인스턴스의 투시 마스크 및 비-투시 마스크를 획득한다. 따라서, 본 개시내용의 일 실시예에서, 인스턴스의 전체 구조가 정확하게 결정될 수 있을 뿐만 아니라, 폐색된 인스턴스의 보이지 않는 부분 또한 정확하게 결정될 수 있다. 즉, 타겟 네트워크는 인간 시각과 유사한 추리 능력을 가지며, 투시 인스턴스 세그먼트화를 적절히 추리할 수 있다. 따라서, 이러한 이미지 처리 방식은 비교적 양호한 지능을 갖고, 다양한 이미지 처리가 풍부해진다.
실시예에서, 처리 모듈(2105)은 각각의 후보 영역에 대해 픽셀 보정을 수행하여, 각각의 후보 영역의 특징 맵을 획득하도록 추가로 구성된다.
각각의 후보 영역의 특징 맵은 제1 특징 맵, 제2 특징 맵, 및 제3 특징 맵을 포함하고, 제1 특징 맵 및 제2 특징 맵의 치수는 동일하고 제3 특징 맵의 치수보다 더 작다.
실시예에서, 처리 모듈(2105)은, 각각의 후보 영역에 대해, 제1 특징 맵, 제2 특징 맵, 및 제3 특징 맵에 대해 특징 융합을 수행하고; 획득된 융합된 특징 맵을 처리를 위해 타겟 네트워크의 제1 브랜치 구조에 입력하도록 추가로 구성된다.
실시예에서, 타겟 네트워크는 제2 브랜치 구조를 추가로 포함하고, 처리 모듈(2107)은 각각의 후보 영역에 대해, 제1 특징 맵을 처리를 위해 제2 브랜치 구조에 입력하여, 각각의 후보 영역에 포함된 인스턴스의 폐색 분류 정보를 획득하도록 추가로 구성된다.
실시예에서, 타겟 네트워크는 제3 브랜치 구조를 추가로 포함하고, 처리 모듈(2105)은, 각각의 후보 영역에 대해, 제2 특징 맵을 처리를 위해 제3 브랜치 구조에 입력하여, 각각의 후보 영역에 포함된 인스턴스의 시맨틱 레이블 및 위치 정보를 획득하도록 추가로 구성된다.
실시예에서, 처리 모듈(2105)은 제1 특징 맵 및 제2 특징 맵에 대해 연접을 수행하여, 제1 중간 특징 맵을 획득하고; 하나의 디컨볼루션 계층 및 2개의 컨볼루션 계층을 순차적으로 사용해서 제1 중간 특징 맵을 처리하여, 제2 중간 특징 맵을 획득하고; 제2 중간 특징 맵 및 제3 특징 맵에 대해 연접을 수행하여, 제3 중간 특징 맵을 획득하고, 3개의 컨볼루션 계층들을 순차적으로 사용해서 제3 중간 특징 맵을 처리하여, 융합된 특징 맵을 획득하도록 추가로 구성된다.
일 실시예에서, 처리 모듈(2105)은 융합된 특징 맵을 처리를 위해 제1 디컨볼루션 계층에 입력하여, 제1 처리된 특징 맵을 획득하고; 제1 처리된 특징 맵을 제1 브랜치 구조에 포함된 제1 마스크 브랜치에 입력하고, 각각의 후보 영역에 포함된 인스턴스가 폐색된 인스턴스일 때, 각각의 후보 영역에 포함된 인스턴스의 비-투시 마스크를 획득하도록 추가로 구성된다.
일 실시예에서, 처리 모듈(2105)은 융합된 특징 맵을 처리를 위해 제2 디컨볼루션 계층에 입력하여, 제2 처리된 특징 맵을 획득하고; 제2 처리된 특징 맵을 제1 브랜치 구조에 포함된 제2 마스크 브랜치에 입력하여, 각각의 후보 영역에 포함된 인스턴스의 투시 마스크를 획득하도록 추가로 구성된다.
실시예에서, 처리 모듈(2105)은 제2 브랜치 구조에 기초하여, 각각의 후보 영역에 포함된 인스턴스의 폐색된 면적이 타겟 임계값에 도달하는지를 결정하고; 각각의 후보 영역에 포함된 인스턴스의 폐색된 면적이 타겟 임계값에 도달할 때, 폐색 분류 정보가 각각의 후보 영역에 포함된 인스턴스가 폐색된다는 것을 표시하는 것으로 결정하도록 추가로 구성된다.
실시예에서, 처리 모듈(2105)은 제1 특징 맵을 처리를 위해 제1 FC 계층에 입력하고; 제1 FC 계층에서 처리된 제1 특징 맵을 처리를 위해 제2 브랜치 구조에 입력하도록 추가로 구성된다.
실시예에서, 처리 모듈(2105)은 제2 특징 맵을 처리를 위해 제2 FC 계층에 입력하고; 제2 FC 계층에서 처리된 제2 특징 맵을 처리를 위해 제3 브랜치 구조에 포함된 분류 브랜치에 입력하여, 분류 정보를 획득하고; 제2 특징 맵을 처리를 위해 제3 FC 계층에 입력하고; 제3 FC 계층에서 처리된 제2 특징 맵을 처리를 위해 제3 브랜치 구조에 포함된 회귀 브랜치에 입력하여, 위치 정보를 획득하도록 추가로 구성된다.
일 실시예에서, 장치는 다음을 추가로 포함한다:
훈련 샘플 이미지들을 획득- 훈련 샘플 이미지들에서의 각각의 인스턴스의 주석 정보는 적어도 카테고리를 표시하기 위해 사용되는 시맨틱 레이블, 상대적인 폐색 순서, 및 투시 마스크를 포함함 -하고; 상대적인 폐색 순서들 및 훈련 샘플 이미지들에서 폐색된 인스턴스들의 투시 마스크들에 기초하여, 훈련 샘플 이미지들에서 폐색된 인스턴스들의 비-투시 마스크들을 결정하고; 투시 마스크들, 비-투시 마스크들, 및 시맨틱 레이블들로 주석이 달린 훈련 샘플 이미지들에 따라 모델 훈련을 수행하여 타겟 네트워크를 획득하도록 구성되는 훈련 모듈.
전술된 선택적인 기술적 해결책들의 임의의 조합이 본 개시내용의 선택적인 실시예를 형성하기 위해 사용될 수 있다. 세부 사항들은 본 명세서에서 다시 설명하지 않는다.
이미지 처리 장치가 이미지들을 처리할 때, 전술된 실시예는 단지 다양한 기능 모듈들을 세그먼트화하는 예시를 사용하여 설명된다. 실제 적용에서, 전술된 기능 할당은 필요에 따라 상이한 기능 모듈들에 의해 완료되는데, 즉, 장치의 내부 구조는 상이한 기능 모듈들로 세그먼트화되어, 위에 설명된 기능들의 전부 또는 일부를 완료한다. 또한, 전술된 실시예에서 제공되는 이미지 처리 장치는 이미지 처리 방법과 동일한 아이디어에 속한다. 그 구체적인 구현 프로세스에 대한 방법 실시예를 참조하고, 세부 사항들은 본 명세서에서 다시 설명되지 않는다.
도 22는 본 개시내용의 예시적인 실시예에 따른 이미지 처리 디바이스(2200)의 구조 블록 다이어그램이다. 디바이스(2200)는 휴대용 모바일 단말(portable mobile terminal), 예를 들어, 스마트폰, 태블릿 컴퓨터, MP3(moving picture experts group audio layer III) 플레이어, MP4(moving picture experts group audio layer IV) 플레이어, 노트북 컴퓨터, 또는 데스크톱 컴퓨터일 수 있다. 디바이스(2200)는 또한 사용자 장비, 휴대용 단말, 랩톱 단말, 데스크톱 단말, 또는 다른 이름으로 지칭될 수 있다.
일반적으로, 디바이스(2200)는 프로세서(2201) 및 메모리(2202)를 포함한다.
프로세서(2201)는 하나 이상의 프로세싱 코어(processing core)를 포함할 수 있고, 예를 들어, 4-코어 프로세서 또는 8-코어 프로세서일 수 있다. 프로세서(2201)는, 디지털 신호 처리(digital signal processing, DSP), 필드-프로그램가능 게이트 어레이(field-programmable gate array, FPGA), 프로그램가능 로직 어레이(programmable logic array, PLA) 중 적어도 하나의 하드웨어 형태로 구현될 수 있다. 프로세서(2201)는 대안적으로 메인 프로세서 및 코프로세서(coprocessor)를 포함할 수 있다. 메인 프로세서는 중앙 처리 유닛(central processing unit, CPU)이라고도 하는 활성 상태(active state)에서 데이터를 처리하도록 구성된다. 코프로세서는 대기 상태(standby state)에서 데이터를 처리하도록 구성되는 저전력(low-power) 프로세서이다. 일부 실시예들에서, 그래픽 처리 유닛(graphics processing unit, GPU)은 프로세서(2201)에 통합될 수 있다. GPU는, 디스플레이 스크린에 디스플레이될 콘텐츠를 렌더링(rendering)하고 그리는(drawing) 것을 담당하도록 구성된다. 일부 실시예들에서, 프로세서(2201)는 AI 프로세서를 추가로 포함할 수 있다. AI 프로세서는 기계 학습에 관련된 컴퓨팅 작업을 처리하도록 구성된다.
메모리(2202)는 하나 이상의 컴퓨터 판독가능 저장 매체를 포함할 수 있다. 컴퓨터 판독가능 저장 매체는 비일시적(non-transient)일 수 있다. 메모리(2202)는 고속 랜덤 액세스 메모리(random access memory, RAM), 및 하나 이상의 자기 디스크 저장 디바이스 및 플래시 저장 디바이스와 같은 비휘발성(non-volatile) 메모리를 추가로 포함할 수 있다. 일부 실시예들에서, 메모리(2202) 내의 비일시적 컴퓨터 판독가능 저장 매체는 적어도 하나의 컴퓨터 판독가능 명령어를 저장하도록 구성되고, 적어도 하나의 컴퓨터 판독가능 명령어는 본 개시내용의 방법 실시예들에서 제공되는 이미지 처리 방법을 구현하기 위해 프로세서(2201)에 의해 실행되도록 구성된다.
일부 실시예들에서, 디바이스(2200)는 주변 기기 인터페이스(2203) 및 적어도 하나의 주변 기기를 선택적으로 추가로 포함할 수 있다. 프로세서(2201), 메모리(2202), 및 주변 기기 인터페이스(2203)는 버스(bus) 또는 신호 케이블(signal cable)을 사용하여 접속될 수 있다. 각각의 주변 기기는 버스, 신호 케이블, 또는 회로 보드를 사용하여 주변 기기 인터페이스(2203)에 접속될 수 있다. 구체적으로, 주변 기기는 무선 주파수(radio frequency, RF) 회로(2204), 터치 디스플레이 스크린(2205), 카메라(2206), 오디오 회로(2207), 포지셔닝 컴포넌트(2208) 및 전원(2209) 중 적어도 하나를 포함한다.
주변 기기 인터페이스(2203)는 입력/출력(I/O)에 관련된 적어도 하나의 주변 기기를 프로세서(2201) 및 메모리(2202)에 접속하도록 구성될 수 있다. 일부 실시예들에서, 프로세서(2201), 메모리(2202), 및 주변 기기 인터페이스(2203)는 동일한 칩 또는 회로 보드에 통합된다. 일부 다른 실시예들에서, 프로세서(2201), 메모리(2202), 및 주변 기기 인터페이스(2203) 중 임의의 것 또는 둘 다는 독립적인 칩 또는 회로 보드에 대해 구현될 수 있다. 이것은 일 실시예에서 제한되지 않는다.
RF 회로(2204)는, 전자기(electromagnetic) 신호라고도 하는 RF 신호를 수신 및 전송하도록 구성된다. RF 회로(2204)는 전자기 신호를 사용하여 통신 네트워크 및 또 다른 통신 디바이스와 통신한다. RF 회로(2204)는 송신을 위해 전기적 신호를 전자기 신호로 변환하거나, 또는 수신된 전자기 신호를 전기적 신호로 변환한다.
디스플레이 스크린(2205)은 사용자 인터페이스(user interface, UI)를 디스플레이하도록 구성된다. UI는 그래프, 텍스트, 아이콘, 비디오, 및 이들의 임의의 조합을 포함할 수 있다. 디스플레이 스크린(2205)이 터치 디스플레이 스크린일 때, 디스플레이 스크린(2205)은 또한 디스플레이 스크린(2205)의 표면에 대해 또는 그 위에 터치 신호를 수집(collect)할 수 있다. 터치 신호는 처리를 위한 제어 신호로서 프로세서(2201)에 입력될 수 있다. 이 경우, 디스플레이 스크린(2205)은 소프트 버튼 및/또는 소프트 키보드라고도 하는 가상 버튼 및/또는 가상 키보드를 제공하도록 추가로 구성될 수 있다. 일부 실시예들에서, 디바이스(2200)의 전방 표면 패널에 대해 배치된 하나의 디스플레이 스크린(2205)이 있을 수 있다. 일부 다른 실시예들에서, 디바이스(2200)의 상이한 표면들에 대해 각각 또는 접힌(folded) 설계로 배치된 적어도 2개의 디스플레이 스크린(2205)이 존재한다. 또 다른 실시예들에서, 디스플레이 스크린(2205)은 디바이스(2200)의 만곡된(curved) 표면 또는 접힌 표면에 대해 배치된 플렉시블 디스플레이 스크린일 수 있다. 디스플레이 스크린(2205)은 비-직사각형(non-rectangular) 불규칙 그래프, 즉, 특수 형상(special-shaped)의 스크린을 갖도록 추가로 설정될 수 있다. 디스플레이 스크린(2205)은 액정 디스플레이(liquid-crystal display, LCD), 유기 발광 다이오드(organic light-emitting diode, OLED) 등과 같은 재료들을 사용하여 준비될 수 있다.
카메라 컴포넌트(2206)는 이미지들 또는 비디오들을 수집하도록 구성된다. 일 실시예에서, 카메라 컴포넌트(2206)는 전면(front-facing) 카메라 및 후면(rear-facing) 카메라를 포함한다. 일반적으로, 전면 카메라는 단말의 전방 패널에 대해 배치되고, 후면 카메라는 단말의 후방 표면에 대해 배치된다. 일부 실시예들에서, 각각 메인(main) 카메라, 피사계 심도(depth-of-field) 카메라, 광각(wide-angle) 카메라 및 텔레포토(telephoto) 카메라 중 임의의 것인 적어도 2개의 후방 카메라가 존재하여, 메인 카메라와 피사계 심도 카메라의 융합을 통한 배경 블러(background blur), 메인 카메라와 광각 카메라의 융합을 통한 파노라마 촬영 및 가상 현실(virtual reality, VR) 촬영, 또는 다른 융합 촬영 기능들을 달성한다.
오디오 회로(2207)는 마이크로폰 및 스피커를 포함할 수 있다. 마이크로폰은 사용자 및 주변의 음파(sound wave)들을 수집하고, 음파를 전기적 신호로 변환하고 신호를 처리를 위해 프로세서(2201)에 입력하거나, 또는 음성 통신(voice communication)을 구현하기 위해 신호를 무선 주파수 회로(2204)에 입력하도록 구성된다. 스테레오(stereo) 사운드 수집 또는 잡음 감소의 목적으로, 디바이스(2200)의 상이한 부분들에 각각 배치되는 복수의 마이크로폰이 존재할 수 있다.
포지셔닝 컴포넌트(2208)는, 내비게이션(navigation) 또는 위치-기반 서비스(location-based service, LBS)를 구현하기 위해, 디바이스(2200)의 현재 지리적 위치를 포지셔닝하도록 구성된다.
전원(2209)은 디바이스(2200) 내의 컴포넌트들에 전력을 공급하도록 구성된다.
일부 실시예들에서, 디바이스(2200)는 하나 이상의 센서(2210)를 추가로 포함한다. 하나 이상의 센서(2210)는 가속도(acceleration) 센서(2211), 자이로스코프(gyroscope) 센서(2212), 압력(pressure) 센서(2213), 지문(fingerprint) 센서(2214), 광(optical) 센서(2215), 및 근접(proximity) 센서(2216)를 포함하지만, 이들로 제한되지 않는다.
가속도 센서(2211)는 디바이스(2200)에 의해 설정된 좌표 시스템의 3개의 좌표축 상의 가속도를 검출할 수 있다.
자이로스코프 센서(2212)는 디바이스(2200)의 몸체(body) 방향 및 회전(rotation) 각도를 검출할 수 있다. 자이로스코프 센서(2212)는 가속도 센서(2211)와 협력하여 디바이스(2200)에 대해서 사용자에 의해 수행되는 3D 동작(action)을 수집할 수 있다.
압력 센서(2213)는 디바이스(2200)의 측면 프레임 및/또는 터치 디스플레이 스크린(2205)의 하부 계층에 대해 배치될 수 있다.
지문 센서(2214)는 사용자의 지문을 수집하도록 구성되고, 프로세서(2201)는 지문 센서(2214)에 의해 수집된 지문에 따라 사용자의 신원을 인식하거나, 또는 지문 센서(2214)는 수집된 지문에 기초하여 사용자의 신원을 인식한다.
광 센서(2215)는 주변 광 강도를 수집하도록 구성된다.
거리(distance) 센서라고도 하는 근접 센서(2216)는 보통 디바이스(2200)의 전방 패널에 대해 배치된다. 근접 센서(2216)는 사용자와 디바이스(2200)의 전방 표면 사이의 거리를 수집하도록 구성된다.
본 기술분야의 통상의 기술자는 도 22에 도시된 구조가 디바이스(2200)에 대한 제한을 구성하지 않고, 단말이 도면에 도시된 것들보다 더 많거나 더 적은 컴포넌트들을 포함할 수 있거나, 일부 컴포넌트들이 결합될 수 있거나, 또는 상이한 컴포넌트 배치가 사용될 수 있다는 것을 이해할 수 있다.
도 23은 본 개시내용의 일 실시예에 따른 이미지 처리 디바이스의 개략적인 구조 다이어그램이다. 디바이스(2300)는 상이한 구성들 또는 성능으로 인해 크게 다를(vary) 수 있고, 하나 이상의 프로세서(CPUs)(2301) 및 하나 이상의 메모리(2302)를 포함할 수 있다. 메모리(2302)는 적어도 하나의 컴퓨터 판독가능 명령어를 저장하고, 적어도 하나의 컴퓨터 판독가능 명령어는 전술된 방법 실시예들에서 제공되는 이미지 처리 방법을 구현하기 위해 프로세서(2301)에 의해 로딩되고 실행된다. 물론, 서버는 또한 유선 또는 무선 네트워크 인터페이스, 키보드, I/O 인터페이스 및 I/O를 용이하게 하는 다른 컴포넌트들을 가질 수 있다. 디바이스는 또한 디바이스 기능들을 구현하기 위해 다른 컴포넌트들을 포함할 수 있다. 세부 사항들은 본 명세서에서 다시 설명하지 않는다.
예시적인 실시예에서, 컴퓨터 판독가능 저장 매체, 예를 들어, 컴퓨터 판독가능 명령어들을 포함하는 메모리가 추가로 제공된다. 컴퓨터 판독가능 명령어들은 단말 내의 프로세서에 의해 실행되어 전술된 실시예에서의 이미지 처리 방법을 구현할 수 있다. 예를 들어, 컴퓨터 판독가능 저장 매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 또는 광 데이터 저장 디바이스일 수 있다.
본 기술분야의 통상의 기술자는 전술된 실시예들의 단계들의 전부 또는 일부가 하드웨어를 사용하여 구현될 수 있거나, 프로그램 컴퓨터 판독가능 명령어들 관련 하드웨어에 의해 구현될 수 있다는 것을 이해할 수 있다. 프로그램은 컴퓨터 판독가능 저장 매체에 저장될 수 있다. 위에 언급된 저장 매체는 판독 전용(read-only) 메모리, 자기 디스크, 광 디스크 등일 수 있다.
전술된 설명들은 단지 본 개시의 예시적인 실시예들일 뿐이며, 본 개시를 제한하려는 의도는 아니다. 본 개시내용의 사상 및 원리 내에서 이루어지는 임의의 수정, 등가의 대체, 또는 개선 등은 본 개시내용의 보호 범위 내에 있다.

Claims (20)

  1. 이미지 처리 디바이스에 의해 수행되는 이미지 처리 방법으로서,
    예측될 이미지(to-be-predicted)를 획득하고, 상기 예측될 이미지에 대해 특징 추출을 수행하여, 상기 예측될 이미지의 특징 맵을 획득하는 단계;
    상기 예측될 이미지의 적어도 하나의 후보 영역을 생성하고, 상기 적어도 하나의 후보 영역을 상기 예측될 이미지의 상기 특징 맵에 매핑하는 단계- 하나의 후보 영역은 하나의 인스턴스를 포함함 -; 및
    타겟 네트워크에 기초하여 상기 매핑된 특징 맵을 처리하고, 투시 마스크를 사용하여 상기 예측될 이미지에서 폐색된 인스턴스의 전체 구조를 표시하고, 비-투시 마스크를 사용하여 상기 폐색된 인스턴스의 보이지 않는 부분을 표시하는 단계- 상기 투시 마스크 및 상기 비-투시 마스크는 상기 폐색된 인스턴스의 상대적인 폐색 관계를 표현함 -를 포함하는 방법.
  2. 제1항에 있어서, 상기 적어도 하나의 후보 영역을 상기 예측될 이미지의 상기 특징 맵에 매핑하는 상기 단계 후에, 상기 방법은 추가로,
    각각의 후보 영역에 대해 픽셀 보정을 수행하여, 상기 각각의 후보 영역의 특징 맵을 획득하는 단계를 포함하고,
    상기 각각의 후보 영역의 상기 특징 맵은 제1 특징 맵, 제2 특징 맵, 및 제3 특징 맵을 포함하고, 상기 제1 특징 맵 및 상기 제2 특징 맵의 치수들은 동일하고 상기 제3 특징 맵의 치수보다 작은 방법.
  3. 제2항에 있어서, 타겟 네트워크에 기초하여 상기 매핑된 특징 맵을 처리하는 것은:
    상기 각각의 후보 영역에 대해, 상기 제1 특징 맵, 상기 제2 특징 맵, 및 상기 제3 특징 맵에 대해 특징 융합을 수행하는 것; 및
    획득된 융합된 특징 맵을 처리를 위해 상기 타겟 네트워크의 제1 브랜치 구조에 입력하는 것을 포함하는 방법.
  4. 제2항에 있어서, 상기 타겟 네트워크는 제2 브랜치 구조를 추가로 포함하고, 상기 방법은 추가로,
    상기 각각의 후보 영역에 대해, 상기 제1 특징 맵을 처리를 위해 상기 제2 브랜치 구조에 입력하여, 상기 각각의 후보 영역에 포함된 인스턴스의 폐색 분류 정보를 획득하는 단계를 포함하는 방법.
  5. 제2항에 있어서, 상기 타겟 네트워크는 제3 브랜치 구조를 추가로 포함하고, 상기 방법은 추가로,
    상기 각각의 후보 영역에 대해, 상기 제2 특징 맵을 처리를 위해 상기 제3 브랜치 구조에 입력하여, 상기 각각의 후보 영역에 포함된 인스턴스의 시맨틱 레이블 및 위치 정보를 획득하는 단계를 포함하는 방법.
  6. 제3항에 있어서, 상기 제1 특징 맵, 상기 제2 특징 맵, 및 상기 제3 특징 맵에 대해 특징 융합을 수행하는 것은,
    상기 제1 특징 맵 및 상기 제2 특징 맵에 대해 연접(concatenation)을 수행하여, 제1 중간 특징 맵을 획득하는 것;
    하나의 디컨볼루션 계층 및 2개의 컨볼루션 계층을 순차적으로 사용해서 상기 제1 중간 특징 맵을 처리하여, 제2 중간 특징 맵을 획득하는 것; 및
    상기 제2 중간 특징 맵 및 상기 제3 특징 맵에 대해 연접을 수행하여, 제3 중간 특징 맵을 획득하고, 3개의 컨볼루션 계층들을 순차적으로 사용해서 상기 제3 중간 특징 맵을 처리하여, 상기 융합된 특징 맵을 획득하는 것을 포함하는 방법.
  7. 제3항에 있어서, 상기 획득된 융합된 특징 맵을 처리를 위해 상기 타겟 네트워크의 제1 브랜치 구조에 입력하는 것은,
    상기 융합된 특징 맵을 처리를 위해 제1 디컨볼루션 계층에 입력하여, 제1 처리된 특징 맵을 획득하는 것; 및
    상기 제1 처리된 특징 맵을 상기 제1 브랜치 구조에 포함된 제1 마스크 브랜치에 입력하고, 상기 각각의 후보 영역에 포함된 인스턴스가 폐색된 인스턴스일 때, 상기 각각의 후보 영역에 포함된 상기 인스턴스의 비-투시 마스크를 획득하는 것을 포함하는 방법.
  8. 제7항에 있어서, 상기 획득된 융합된 특징 맵을 처리를 위해 상기 타겟 네트워크의 제1 브랜치 구조에 입력하는 것은 추가로,
    상기 융합된 특징 맵을 처리를 위해 제2 디컨볼루션 계층에 입력하여, 제2 처리된 특징 맵을 획득하는 것; 및
    상기 제2 처리된 특징 맵을 상기 제1 브랜치 구조에 포함된 제2 마스크 브랜치에 입력하여, 상기 각각의 후보 영역에 포함된 상기 인스턴스의 투시 마스크를 획득하는 것을 포함하는 방법.
  9. 제4항에 있어서, 상기 제1 특징 맵을 처리를 위해 상기 제2 브랜치 구조에 입력하여, 상기 각각의 후보 영역에 포함된 인스턴스의 폐색 분류 정보를 획득하는 상기 단계는,
    상기 제2 브랜치 구조 및 상기 제1 특징 맵에 기초하여, 상기 각각의 후보 영역에 포함된 상기 인스턴스의 폐색된 면적이 타겟 임계값에 도달하는지를 결정하는 단계; 및
    상기 각각의 후보 영역에 포함된 상기 인스턴스의 상기 폐색된 면적이 상기 타겟 임계값에 도달할 때, 상기 폐색 분류 정보가 상기 각각의 후보 영역에 포함된 상기 인스턴스가 폐색된다는 것을 표시하는 것으로 결정하는 단계를 포함하는 방법.
  10. 제4항에 있어서, 상기 제1 특징 맵을 처리를 위해 상기 제2 브랜치 구조에 입력하는 것은,
    상기 제1 특징 맵을 처리를 위해 제1 완전히 접속된 계층에 입력하는 것; 및
    상기 제1 완전히 접속된 계층에서 처리된 상기 제1 특징 맵을 처리를 위해 상기 제2 브랜치 구조에 입력하는 것을 포함하는 방법.
  11. 제5항에 있어서, 상기 제2 특징 맵을 처리를 위해 상기 제3 브랜치 구조에 입력하는 것은,
    상기 제2 특징 맵을 처리를 위해 제2 완전히 접속된 계층에 입력하는 것;
    상기 제2 완전히 접속된 계층에서 처리된 상기 제2 특징 맵을 처리를 위해 상기 제3 브랜치 구조에 포함된 분류 브랜치에 입력하여, 분류 정보를 획득하는 것;
    상기 제2 특징 맵을 처리를 위해 제3 완전히 접속된 계층에 입력하는 것; 및
    상기 제3 완전히 접속된 계층에서 처리된 상기 제2 특징 맵을 처리를 위해 상기 제3 브랜치 구조에 포함된 회귀 브랜치에 입력하여, 상기 위치 정보를 획득하는 것을 포함하는 방법.
  12. 제1항에 있어서,
    훈련 샘플 이미지들을 획득하는 단계- 상기 훈련 샘플 이미지들 내의 각각의 인스턴스의 주석 정보는 적어도 카테고리를 표시하기 위해 사용되는 시맨틱 레이블, 상대적인 폐색 순서, 및 투시 마스크를 포함함 -;
    상대적인 폐색 순서들 및 상기 훈련 샘플 이미지들에서 폐색된 인스턴스들의 투시 마스크들에 기초하여, 상기 훈련 샘플 이미지들에서 상기 폐색된 인스턴스들의 비-투시 마스크들을 결정하는 단계; 및
    상기 투시 마스크들, 상기 비-투시 마스크들, 및 시맨틱 레이블들로 주석이 달린 상기 훈련 샘플 이미지들에 따라 모델 훈련을 수행하여 상기 타겟 네트워크를 획득하는 단계를 추가로 포함하는 방법.
  13. 이미지 처리 디바이스에 배치되는 이미지 처리 장치로서,
    예측될 이미지를 획득하도록 구성되는 획득 모듈;
    상기 예측될 이미지에 대해 특징 추출을 수행하여, 상기 예측될 이미지의 특징 맵을 획득하도록 구성되는 특징 추출 모듈;
    상기 예측될 이미지의 적어도 하나의 후보 영역을 생성하도록 구성되는 생성 모듈;
    상기 적어도 하나의 후보 영역을 상기 예측될 이미지의 상기 특징 맵에 매핑하도록 구성되는 매핑 모듈- 하나의 후보 영역은 하나의 인스턴스를 포함함 -; 및
    타겟 네트워크에 기초하여 상기 매핑된 특징 맵을 처리하고, 투시 마스크를 사용하여 상기 예측될 이미지에서 폐색된 인스턴스의 전체 구조를 표시하고, 비-투시 마스크를 사용하여 상기 폐색된 인스턴스의 보이지 않는 부분을 표시하도록 구성되는 처리 모듈- 상기 투시 마스크와 상기 비-투시 마스크는 상기 폐색된 인스턴스의 상대적인 폐색 관계를 표현함 -을 포함하는 장치.
  14. 제13항에 있어서, 상기 처리 모듈은 추가로 각각의 후보 영역에 대해 픽셀 보정을 수행하여, 상기 각각의 후보 영역의 특징 맵을 획득하도록 구성되고, 상기 각각의 후보 영역의 특징 맵은 제1 특징 맵, 제2 특징 맵, 및 제3 특징 맵을 포함하고, 상기 제1 특징 맵과 상기 제2 특징 맵의 치수들은 동일하고 상기 제3 특징 맵의 치수보다 작은 장치.
  15. 제14항에 있어서, 상기 처리 모듈은 추가로, 상기 각각의 후보 영역에 대해, 상기 제1 특징 맵, 상기 제2 특징 맵, 및 상기 제3 특징 맵에 대해 특징 융합을 수행하고; 획득된 융합된 특징 맵을 처리를 위해 상기 타겟 네트워크의 제1 브랜치 구조에 입력하도록 구성되는 장치.
  16. 제14항에 있어서, 상기 타겟 네트워크는 제2 브랜치 구조를 추가로 포함하고; 상기 처리 모듈은 추가로, 상기 각각의 후보 영역에 대해, 상기 제1 특징 맵을 처리를 위해 상기 제2 브랜치 구조에 입력하여, 상기 각각의 후보 영역에 포함된 인스턴스의 폐색 분류 정보를 획득하도록 구성되는 장치.
  17. 제14항에 있어서, 상기 타겟 네트워크는 제3 브랜치 구조를 추가로 포함하고; 상기 처리 모듈은 추가로, 상기 각각의 후보 영역에 대해, 상기 제2 특징 맵을 처리를 위해 상기 제3 브랜치 구조에 입력하여, 상기 각각의 후보 영역에 포함된 인스턴스의 시맨틱 레이블 및 위치 정보를 획득하도록 구성되는 장치.
  18. 제15항에 있어서, 상기 처리 모듈은 추가로 상기 제1 특징 맵 및 상기 제2 특징 맵에 대해 연접을 수행하여, 제1 중간 특징 맵을 획득하고; 하나의 디컨볼루션 계층 및 2개의 컨볼루션 계층을 순차적으로 사용해서 상기 제1 중간 특징 맵을 처리하여, 제2 중간 특징 맵을 획득하고; 상기 제2 중간 특징 맵 및 상기 제3 특징 맵에 대해 연접을 수행하여, 제3 중간 특징 맵을 획득하고, 3개의 컨볼루션 계층들을 순차적으로 사용해서 상기 제3 중간 특징 맵을 처리하여, 상기 융합된 특징 맵을 획득하도록 구성되는 장치.
  19. 하나 이상의 컴퓨터 판독가능 저장 매체로서, 각각의 저장 매체는 적어도 하나의 컴퓨터 판독가능 명령어를 저장하고, 상기 적어도 하나의 컴퓨터 판독가능 명령어는 하나 이상의 프로세서에 의해 로딩 및 실행되어 제1항 내지 제12항 중 어느 한 항에 따른 상기 이미지 처리 방법을 구현하는 저장 매체.
  20. 이미지 처리 디바이스로서, 하나 이상의 프로세서 및 메모리를 포함하고, 상기 메모리는 적어도 하나의 컴퓨터 판독가능 명령어를 저장하고, 상기 적어도 하나의 컴퓨터 판독가능 명령어는 상기 하나 이상의 프로세서에 의해 로딩 및 실행되어 제1항 내지 제12항 중 어느 한 항에 따른 상기 이미지 처리 방법을 구현하는 디바이스.
KR1020217020461A 2019-04-25 2020-03-30 이미지 처리 방법, 장치 및 디바이스, 및 저장 매체 KR20210097762A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910338835.0 2019-04-25
CN201910338835.0A CN110070056B (zh) 2019-04-25 2019-04-25 图像处理方法、装置、存储介质及设备
PCT/CN2020/082109 WO2020216008A1 (zh) 2019-04-25 2020-03-30 图像处理方法、装置、存储介质及设备

Publications (1)

Publication Number Publication Date
KR20210097762A true KR20210097762A (ko) 2021-08-09

Family

ID=67368922

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217020461A KR20210097762A (ko) 2019-04-25 2020-03-30 이미지 처리 방법, 장치 및 디바이스, 및 저장 매체

Country Status (6)

Country Link
US (1) US20210279503A1 (ko)
EP (1) EP3961485A4 (ko)
JP (1) JP7248799B2 (ko)
KR (1) KR20210097762A (ko)
CN (1) CN110070056B (ko)
WO (1) WO2020216008A1 (ko)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070056B (zh) * 2019-04-25 2023-01-10 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质及设备
CN110766007B (zh) * 2019-10-28 2023-09-22 深圳前海微众银行股份有限公司 证件遮挡检测方法、装置、设备及可读存储介质
CN110866897B (zh) * 2019-10-30 2022-10-14 上海联影智能医疗科技有限公司 一种图像检测方法及计算机可读存储介质
CN110929651B (zh) 2019-11-25 2022-12-06 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及存储介质
EP3832491A1 (en) * 2019-12-06 2021-06-09 Idemia Identity & Security France Methods for processing a plurality of candidate annotations of a given instance of an image, and for learning parameters of a computational model
CN113468931B (zh) * 2020-03-31 2022-04-29 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及存储介质
CN113469173A (zh) * 2020-03-31 2021-10-01 珠海格力电器股份有限公司 一种信号灯遮挡检测方法、装置、终端及计算机可读介质
CN111598133B (zh) 2020-04-22 2022-10-14 腾讯医疗健康(深圳)有限公司 基于人工智能的图像显示方法、装置、系统、设备及介质
US11494933B2 (en) * 2020-06-30 2022-11-08 Ncr Corporation Occluded item detection for vision-based self-checkouts
CN111932545A (zh) * 2020-07-14 2020-11-13 浙江大华技术股份有限公司 图像处理方法、目标计数方法及其相关装置
CN111899204B (zh) * 2020-07-30 2024-04-09 平安科技(深圳)有限公司 车损检测数据合成方法、装置及存储介质
CN112417967B (zh) * 2020-10-22 2021-12-14 腾讯科技(深圳)有限公司 障碍物检测方法、装置、计算机设备和存储介质
TWI786463B (zh) * 2020-11-10 2022-12-11 中華電信股份有限公司 適用於全景影像的物件偵測裝置和物件偵測方法
CN112489060B (zh) * 2020-12-07 2022-05-10 北京医准智能科技有限公司 一种用于肺炎病灶分割的系统及方法
CN112843730A (zh) * 2020-12-31 2021-05-28 上海米哈游天命科技有限公司 一种拍摄方法、装置、设备及存储介质
CN112967200A (zh) * 2021-03-05 2021-06-15 北京字跳网络技术有限公司 图像处理方法、装置、电子设备、介质和计算机程序产品
CN113222830A (zh) * 2021-03-05 2021-08-06 北京字跳网络技术有限公司 图像处理方法和装置
CN112967198A (zh) * 2021-03-05 2021-06-15 北京字跳网络技术有限公司 图像处理方法和装置
CN113033334A (zh) * 2021-03-05 2021-06-25 北京字跳网络技术有限公司 图像处理方法、装置、电子设备、介质和计算机程序产品
KR102496769B1 (ko) * 2021-04-08 2023-02-06 고려대학교 산학협력단 분류 결과 설명이 가능한 반 사실적 맵 생성 방법 및 그 장치
CN113205546A (zh) * 2021-04-30 2021-08-03 四川云从天府人工智能科技有限公司 获得目标车辆运动轨迹的方法、系统、介质及设备
CN113256656A (zh) * 2021-05-28 2021-08-13 北京达佳互联信息技术有限公司 图像分割方法和装置
US20220414887A1 (en) * 2021-06-25 2022-12-29 Honda Motor Co., Ltd. Systems and methods for birds eye view segmentation
CN113695256B (zh) * 2021-08-18 2023-05-23 国网江苏省电力有限公司电力科学研究院 一种电网异物检测识别方法及装置
CN113537173B (zh) * 2021-09-16 2022-03-18 中国人民解放军国防科技大学 一种基于面部补丁映射的人脸图像真伪识别方法
KR20230132312A (ko) 2022-03-08 2023-09-15 광주과학기술원 계층적 가림 추론 모듈 및 이를 이용한 비가시 물체 인스턴스 분할 시스템 및 방법
GB202204205D0 (en) * 2022-03-24 2022-05-11 Supponor Tech Limited Image processing method and apparatus
GB202204204D0 (en) * 2022-03-24 2022-05-11 Supponor Tech Limited Image processing method and apparatus
CN115331245B (zh) * 2022-10-12 2023-02-03 中南民族大学 一种基于图像实例分割的表格结构识别方法

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7995056B1 (en) * 2003-12-22 2011-08-09 Nvidia Corporation Culling data selection system and method
US8269769B1 (en) * 2003-12-22 2012-09-18 Nvidia Corporation Occlusion prediction compression system and method
US10839510B2 (en) * 2015-08-19 2020-11-17 Colorado Seminary, Which Owns And Operates The University Of Denver Methods and systems for human tissue analysis using shearlet transforms
US9881234B2 (en) * 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
CN109313627A (zh) * 2016-03-17 2019-02-05 映佳控制公司 对丢失的输入信息具有鲁棒性的用于处理任务的方法和系统
CN106097353B (zh) * 2016-06-15 2018-06-22 北京市商汤科技开发有限公司 基于多层次局部区域融合的物体分割方法及装置、计算设备
US11423548B2 (en) * 2017-01-06 2022-08-23 Board Of Regents, The University Of Texas System Segmenting generic foreground objects in images and videos
CN106780536A (zh) * 2017-01-13 2017-05-31 深圳市唯特视科技有限公司 一种基于对象掩码网络的形状感知实例分割方法
US10445928B2 (en) * 2017-02-11 2019-10-15 Vayavision Ltd. Method and system for generating multidimensional maps of a scene using a plurality of sensors of various types
US10067509B1 (en) * 2017-03-10 2018-09-04 TuSimple System and method for occluding contour detection
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN107704862A (zh) * 2017-11-06 2018-02-16 深圳市唯特视科技有限公司 一种基于语义实例分割算法的视频对象分割方法
CN108875732B (zh) * 2018-01-11 2022-07-12 北京旷视科技有限公司 模型训练与实例分割方法、装置和系统及存储介质
CN108805889B (zh) * 2018-05-07 2021-01-08 中国科学院自动化研究所 边缘引导的精细化显著性物体分割方法与系统、设备
CN108734211B (zh) * 2018-05-17 2019-12-24 腾讯科技(深圳)有限公司 图像处理的方法和装置
CN108710919A (zh) * 2018-05-25 2018-10-26 东南大学 一种基于多尺度特征融合深度学习的裂缝自动化勾画方法
CN108830220B (zh) * 2018-06-15 2021-01-05 山东大学 基于深度学习的视觉语义库构建及全局定位方法
GB2576322B (en) * 2018-08-13 2022-11-09 Imperial College Innovations Ltd Mapping object instances using video data
CN109325412B (zh) * 2018-08-17 2023-11-24 平安科技(深圳)有限公司 行人识别方法、装置、计算机设备及存储介质
CN109242869B (zh) * 2018-09-21 2021-02-02 安徽科大讯飞医疗信息技术有限公司 一种图像实例分割方法、装置、设备及存储介质
CN109087346B (zh) * 2018-09-21 2020-08-11 北京地平线机器人技术研发有限公司 单目深度模型的训练方法、训练装置和电子设备
JP7052663B2 (ja) * 2018-09-26 2022-04-12 トヨタ自動車株式会社 物体検出装置、物体検出方法及び物体検出用コンピュータプログラム
CN109389078B (zh) * 2018-09-30 2022-06-21 京东方科技集团股份有限公司 图像分割方法、相应的装置及电子设备
CN109508720B (zh) * 2018-10-23 2021-04-23 高新兴科技集团股份有限公司 一种车辆颜色识别方法及装置
CN109447169B (zh) * 2018-11-02 2020-10-27 北京旷视科技有限公司 图像处理方法及其模型的训练方法、装置和电子系统
CN109543682A (zh) * 2018-11-23 2019-03-29 电子科技大学 一种基于深度学习的指针式仪表读数方法
CN109635740B (zh) * 2018-12-13 2020-07-03 深圳美图创新科技有限公司 视频目标检测方法、装置及图像处理设备
CN109583517A (zh) * 2018-12-26 2019-04-05 华东交通大学 一种适用于小目标检测的增强的全卷积实例语义分割算法
CN110070056B (zh) * 2019-04-25 2023-01-10 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质及设备

Also Published As

Publication number Publication date
US20210279503A1 (en) 2021-09-09
JP2022514917A (ja) 2022-02-16
EP3961485A4 (en) 2022-07-13
WO2020216008A1 (zh) 2020-10-29
CN110070056A (zh) 2019-07-30
JP7248799B2 (ja) 2023-03-29
CN110070056B (zh) 2023-01-10
EP3961485A1 (en) 2022-03-02

Similar Documents

Publication Publication Date Title
US20210279503A1 (en) Image processing method, apparatus, and device, and storage medium
Ghasemi et al. Deep learning-based object detection in augmented reality: A systematic review
US20210158533A1 (en) Image processing method and apparatus, and storage medium
CN111563502B (zh) 图像的文本识别方法、装置、电子设备及计算机存储介质
JP2022515620A (ja) 人工知能による画像領域の認識方法、モデルのトレーニング方法、画像処理機器、端末機器、サーバー、コンピュータ機器及びコンピュータプログラム
JP5887775B2 (ja) ヒューマンコンピュータインタラクションシステム、手と手指示点位置決め方法、及び手指のジェスチャ決定方法
CN109345510A (zh) 物体检测方法、装置、设备、存储介质及车辆
CN109635783B (zh) 视频监控方法、装置、终端和介质
TW201947451A (zh) 車輛定損的交互處理方法、裝置、處理設備及客戶端
CN110400304B (zh) 基于深度学习的物体检测方法、装置、设备及存储介质
CN113076814B (zh) 文本区域的确定方法、装置、设备及可读存储介质
CN111739005B (zh) 图像检测方法、装置、电子设备及存储介质
US20210209385A1 (en) Method and apparatus for recognizing wearing state of safety belt
WO2017169273A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US11748913B2 (en) Modeling objects from monocular camera outputs
CN111597922A (zh) 细胞图像的识别方法、系统、装置、设备及介质
CN111753739A (zh) 物体检测方法、装置、设备以及存储介质
Huang et al. Measuring the absolute distance of a front vehicle from an in-car camera based on monocular vision and instance segmentation
CN109815854A (zh) 一种用于在用户设备上呈现图标的关联信息的方法与设备
WO2020000171A1 (en) Method and apparatus for computer vision
CN113723164A (zh) 获取边缘差异信息的方法、装置、设备及存储介质
CN115130456A (zh) 语句解析、匹配模型的训练方法、装置、设备及存储介质
WO2017169272A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN109857244A (zh) 一种手势识别方法、装置、终端设备、存储介质及vr眼镜
KR20210026176A (ko) 딥 러닝을 위한 라벨링 이미지 생성 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right