KR102406765B1 - 대상물 예측 방법 및 장치, 전자 기기 및 기억 매체 - Google Patents

대상물 예측 방법 및 장치, 전자 기기 및 기억 매체 Download PDF

Info

Publication number
KR102406765B1
KR102406765B1 KR1020207022191A KR20207022191A KR102406765B1 KR 102406765 B1 KR102406765 B1 KR 102406765B1 KR 1020207022191 A KR1020207022191 A KR 1020207022191A KR 20207022191 A KR20207022191 A KR 20207022191A KR 102406765 B1 KR102406765 B1 KR 102406765B1
Authority
KR
South Korea
Prior art keywords
prediction
target
result
information
results
Prior art date
Application number
KR1020207022191A
Other languages
English (en)
Other versions
KR20200105500A (ko
Inventor
단 슈
완리 오우양
시아오강 왕
세베 니쿠
Original Assignee
상하이 센스타임 인텔리전트 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 상하이 센스타임 인텔리전트 테크놀로지 컴퍼니 리미티드 filed Critical 상하이 센스타임 인텔리전트 테크놀로지 컴퍼니 리미티드
Publication of KR20200105500A publication Critical patent/KR20200105500A/ko
Application granted granted Critical
Publication of KR102406765B1 publication Critical patent/KR102406765B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06K9/628
    • G06K9/6292
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본원은 대상물 예측 방법 및 장치, 전자 기기 및 기억 매체에 관한 것으로, 상기 방법은 뉴럴 네트워크에 응용되는 방법으로서, 예측 대상의 대상물의 특징을 추출하여, 예측 대상의 대상물의 특징 정보를 얻는 것과, 특징 정보에 기초하여, 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하는 것과, 복수의 중간 예측 결과를 융합하여, 융합 정보를 얻는 것과, 융합 정보에 기초하여, 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정하는 것을 포함하는 것으로, 본원의 실시예에 의하면, 예측 대상의 대상물의 특징 정보를 추출하고, 특징 정보에 기초하여 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하고, 상기 복수의 중간 예측 결과를 융합함으로써 융합 정보를 얻고, 상기 융합 정보에 기초하여, 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정할 수 있고, 복수의 목표 예측 결과의 정확도 향상에 기여하는 것이다.

Description

대상물 예측 방법 및 장치, 전자 기기 및 기억 매체
본원은 2018년 05월 04일에 중국 특허국에 제출된 출원번호 201810421005.X, 발명의 명칭 「대상물 예측 방법 및 장치, 전자 기기 및 기억 매체」의 중국 특허출원의 우선권을 주장하고, 그 개시 전체가 참조에 의해 본원에 포함된다.
본원은 컴퓨터 기술 분야에 관한 것으로, 특히 대상물 예측 방법 및 장치, 전자 기기 및 기억 매체에 관한 것이다.
심층 학습 기술의 급속한 발전에 따라, 뉴럴 네트워크는 다양한 대상물(object) 예측 태스크(task)에 응용 가능해지고 있다. 그러나, 관련 기술에서는 복수의 목표(target) 예측을 동시에 행하는 경우, 얻어진 복수의 목표 예측 결과의 정확도가 낮다.
이와 같이, 복수의 목표 예측을 동시에 행하는 것이 매우 복잡하다는 것을 알 수 있다. 복수의 목표 예측을 동시에 행하는 경우에서의 복수의 목표 예측 결과의 정확도 향상이 긴급한 과제이다.
이를 감안하여, 본원은 대상물 예측의 기술적 해결 수단을 제공한다.
본원의 일 측면에 의하면, 뉴럴 네트워크에 응용되는 대상물 예측 방법으로서,
예측 대상의 대상물의 특징을 추출하여, 상기 예측 대상의 대상물의 특징 정보를 얻는 것과, 상기 특징 정보에 기초하여, 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하는 것과, 상기 복수의 중간 예측 결과를 융합하여, 융합 정보를 얻는 것과, 상기 융합 정보에 기초하여, 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정하는 것을 포함하는 대상물 예측 방법이 제공된다.
본원의 다른 일 측면에 의하면, 뉴럴 네트워크에 응용되는 대상물 예측 방법으로서,
예측 대상의 대상물을 뉴럴 네트워크에서의 특징 추출 네트워크에 입력하고 특징을 추출하여, 상기 예측 대상의 대상물에 대한 특징 정보를 얻는 것과, 상기 특징 정보를 상기 뉴럴 네트워크에서의 제1 예측 네트워크에 입력하고 처리하여, 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하는 것과, 상기 중간 예측 결과를 상기 뉴럴 네트워크의 융합 네트워크에 입력하고 융합하여, 상기 융합 정보를 얻는 것과, 상기 융합 정보를 상기 뉴럴 네트워크에서의 복수의 제2 예측 네트워크에 각각 입력하고 처리하여, 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정하는 것과, 상기 복수의 중간 예측 결과, 복수의 중간 예측 결과의 어노테이션 정보(annotation information), 복수의 목표 예측 결과 및 복수의 목표 예측 결과의 어노테이션 정보에 기초하여, 상기 뉴럴 네트워크의 모델 손실을 특정하는 것과, 상기 모델 손실에 기초하여, 상기 뉴럴 네트워크의 네트워크 파라미터값을 조정하는 것을 포함하는 대상물 예측 방법이 제공된다.
본원의 다른 일 측면에 의하면, 뉴럴 네트워크에 응용되는 대상물 예측 장치로서,
예측 대상의 대상물의 특징을 추출하여, 상기 예측 대상의 대상물의 특징 정보를 얻도록 구성된 특징 추출 모듈과,
상기 특징 정보에 기초하여, 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하도록 구성된 중간 예측 결과 특정 모듈과,
상기 복수의 중간 예측 결과를 융합하여, 융합 정보를 얻도록 구성된 융합 모듈과,
상기 융합 정보에 기초하여, 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정하도록 구성된 목표 예측 결과 특정 모듈을 포함하는 대상물 예측 장치가 제공된다.
본원의 다른 일 측면에 의하면, 뉴럴 네트워크에 응용되는 대상물 예측 장치로서,
예측 대상의 대상물을 뉴럴 네트워크에서의 특징 추출 네트워크에 입력하고 특징을 추출하여, 상기 예측 대상의 대상물에 대한 특징 정보를 얻도록 구성된 제1 정보 취득 모듈과,
상기 특징 정보를 상기 뉴럴 네트워크에서의 제1 예측 네트워크에 입력하고 처리하여, 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하도록 구성된 제1 결과 특정 모듈과,
상기 중간 예측 결과를 상기 뉴럴 네트워크의 융합 네트워크에 입력하고 융합하여, 상기 융합 정보를 얻도록 구성된 제2 정보 취득 모듈과,
상기 융합 정보를 상기 뉴럴 네트워크에서의 복수의 제2 예측 네트워크에 각각 입력하고 처리하여, 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정하도록 구성된 제2 결과 특정 모듈과,
상기 복수의 중간 예측 결과, 복수의 중간 예측 결과의 어노테이션 정보, 복수의 목표 예측 결과 및 복수의 목표 예측 결과의 어노테이션 정보에 기초하여, 상기 뉴럴 네트워크의 모델 손실을 특정하도록 구성된 모델 손실 특정 모듈과,
상기 모델 손실에 기초하여, 상기 뉴럴 네트워크의 네트워크 파라미터값을 조정하도록 구성된 파라미터 조정 모듈을 포함하는 대상물 예측 장치가 제공된다.
본원의 다른 일 측면에 의하면, 상기 대상물 예측 방법을 실행하도록 구성된 프로세서와, 프로세서가 실행 가능한 명령을 기억하기 위한 메모리를 포함하는 전자 기기가 제공된다.
본원의 다른 일 측면에 의하면, 컴퓨터 프로그램 명령이 기억되어 있는 컴퓨터 판독 가능한 기억 매체로서, 상기 컴퓨터 프로그램 명령이 프로세서에 의해 실행되면, 상기 대상물 예측 방법을 실현하는 컴퓨터 판독 가능한 기억 매체가 제공된다.
본원의 다른 일 측면에 의하면, 컴퓨터 판독 가능한 코드를 포함하는 컴퓨터 프로그램으로서, 상기 컴퓨터 판독 가능한 코드가 전자 기기에서 실행되면, 상기 전자 기기 내의 프로세서에 상기 대상물 예측 방법을 실현하기 위한 명령을 실행시키는 컴퓨터 프로그램이 제공된다.
본원의 실시예에 의하면, 예측 대상의 대상물의 특징 정보를 추출하고, 특징 정보에 기초하여 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하고, 상기 복수의 중간 예측 결과를 융합함으로써 융합 정보를 얻고, 상기 융합 정보에 기초하여, 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정할 수 있고, 복수의 목표 예측 결과의 정확도 향상에 기여한다.
이하, 도면을 참조하면서 예시적인 실시예를 상세하게 설명함으로써, 본원의 다른 특징 및 방면은 명확해진다.
명세서에 포함되고, 또한 명세서의 일부를 구성하는 도면은 명세서와 함께 본원의 예시적인 실시예, 특징 및 방면을 나타내며, 또한 본원의 원리를 해석하기 위해 사용된다.
도 1은 예시적인 실시예에 기초하여 나타내는 대상물 예측 방법의 흐름도이다.
도 2는 예시적인 실시예에 기초하여 나타내는 대상물 예측 방법의 흐름도이다.
도 3은 예시적인 실시예에 기초하여 나타내는 대상물 예측 방법의 응용 장면의 모식도이다.
도 4는 예시적인 실시예에 기초하여 나타내는 확장 합성곱(dilated convolution)의 모식도이다.
도 5는 예시적인 실시예에 기초하여 나타내는 대상물 예측 방법의 흐름도이다.
도 6은 예시적인 실시예에 기초하여 나타내는 대상물 예측 방법의 흐름도이다.
도 7a는 예시적인 실시예에 기초하여 나타내는 대상물 예측 방법의 응용 장면의 모식도이다.
도 7b는 예시적인 실시예에 기초하여 나타내는 대상물 예측 방법의 응용 장면의 모식도이다.
도 7c는 예시적인 실시예에 기초하여 나타내는 대상물 예측 방법의 응용 장면의 모식도이다.
도 8은 예시적인 실시예에 기초하여 나타내는 대상물 예측 방법의 흐름도이다.
도 9는 예시적인 실시예에 기초하여 나타내는 대상물 예측 방법에서의 뉴럴 네트워크의 훈련의 흐름도이다.
도 10은 예시적인 실시예에 기초하여 나타내는 대상물 예측 방법에서의 뉴럴 네트워크의 훈련의 흐름도이다.
도 11은 예시적인 실시예에 기초하여 나타내는 대상물 예측 방법의 흐름도이다.
도 12는 예시적인 실시예에 기초하여 나타내는 대상물 예측 방법의 흐름도이다.
도 13은 예시적인 실시예에 기초하여 나타내는 대상물 예측 장치의 블록도이다.
도 14는 예시적인 실시예에 기초하여 나타내는 대상물 예측 장치의 블록도이다.
도 15는 예시적인 실시예에 기초하여 나타내는 대상물 예측 장치의 블록도이다.
도 16은 예시적인 실시예에 기초하여 나타내는 대상물 예측 장치의 블록도이다.
도 17은 예시적인 실시예에 기초하여 나타내는 전자 기기의 블록도이다.
이하에 도면을 참조하면서 본원의 다양한 예시적 실시예, 특징 및 방면을 상세하게 설명한다. 도면에서의 동일한 부호는 동일하거나 또는 유사한 기능을 갖는 요소를 나타낸다. 도면에 실시예의 다양한 방면을 나타냈지만, 특별히 언급하지 않는 한, 비례를 따라 도면을 그릴 필요가 없다.
여기서, 「예시적인」이라는 용어는 「예, 실시예로서 사용되는 것 또는 설명적인 것」을 의미한다. 여기서, 「예시적인」으로서 설명되는 어떠한 실시예도 다른 실시예보다 바람직하거나 또는 우수한 것으로 해석되어서는 안된다.
또한, 본원을 보다 효과적으로 설명하기 위해, 이하의 구체적인 실시형태에서 많은 구체적인 상세를 나타낸다. 당업자이면 어떠한 구체적인 상세가 없어도, 본원은 동일하게 실시 가능한 것을 이해해야 한다. 일부 실시예에서는 본원의 취지를 강조하기 위해, 당업자에게 이미 알려진 방법, 수단, 요소 및 회로에 대해 상세한 설명을 행하지 않는다.
도 1은 예시적인 실시예에 기초하여 나타내는 대상물 예측 방법의 흐름도이다. 상기 방법은 전자 기기에 사용될 수 있다. 상기 전자 기기는 단말, 서버 또는 다른 형태의 기기로서 제공될 수 있다. 도 1에 나타내는 바와 같이, 본원의 실시예에 따른 대상물 예측 방법은
단계(S101)에서, 예측 대상의 대상물의 특징을 추출하여, 상기 예측 대상의 대상물의 특징 정보를 얻는 것과,
단계(S102)에서, 상기 특징 정보에 기초하여, 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하는 것과,
단계(S103)에서, 상기 복수의 중간 예측 결과를 융합하여, 융합 정보를 얻는 것과,
단계(S104)에서, 상기 융합 정보에 기초하여, 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정하는 것을 포함한다.
본원의 실시예에 의하면, 예측 대상의 대상물의 특징 정보를 추출하고, 특징 정보에 기초하여 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하고, 상기 복수의 중간 예측 결과를 융합함으로써 융합 정보를 얻고, 상기 융합 정보에 기초하여, 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정할 수 있고, 복수의 목표 예측 결과의 정확도 향상에 기여한다.
관련 기술에서는 심층 학습 기술은 다양한 대상물 예측 태스크, 예를 들면, 심도 추정 예측 태스크(심도 추정은 장면의 3차원 정보를 제공할 수 있음), 장면 분할 예측 태스크(장면 분할은 장면의 2차원 시멘틱(semantics)을 생성할 수 있음) 등에 사용될 수 있다. 대상물 예측은 다양한 중요 응용 분야에서 널리 응용 가능하고, 예를 들면, 심도 추정 예측 및 장면 분할 예측은 지적 비디오 분석, 도로 장면 모델링 및 자동 운전 등의 응용 분야에서 응용 가능하다.
실제 사용에서는 복수의 목표 예측을 동시에 행하는 경우가 있다. 예를 들면, 동일한 카메라에 의한 이미지 또는 시퀀스에 대해 심도 추정 및 장면 분할을 동시에 행하는 경우가 있다. 그러나, 복수의 목표 예측을 동시에 행하는 프로세스에서는, 예를 들면, 심도 추정이 연속적인 회귀 과제이지만, 장면 분할이 분산적인 분류 과제인 것과 같이, 복수의 목표 예측 태스크에 큰 차이가 존재할 수 있다. 따라서, 복수의 목표 예측을 동시에 행한 복수의 목표 예측 결과의 정확도가 낮은 경우가 많아, 예측 성능이 나쁘다. 이와 같이, 복수의 목표 예측을 동시에 행하는 것이 매우 복잡하다는 것을 알 수 있다. 복수의 목표 예측을 동시에 행하는 경우에서의 복수의 목표 예측 결과의 정확도 향상이 긴급한 과제이다.
본원의 실시예에서는 예측 대상의 대상물의 특징을 추출하여, 상기 예측 대상의 대상물의 특징 정보를 얻고, 상기 특징 정보에 기초하여, 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정할 수 있다. 여기서, 복수의 중간 예측 결과는 복수의 계층(예를 들면, 하위 계층에서 상위 계층)의 중간 예측 결과로 해도 된다. 이에 의해, 최종 복수의 목표 예측의 특정을 보조할 수 있는 멀티모달(multi-modal) 데이터를 생성한다. 상기 복수의 중간 예측 결과를 융합함으로써 융합 정보를 얻고, 상기 융합 정보에 기초하여, 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정한다. 이와 같이, 예측 대상의 대상물의 복수의 목표 예측 결과를 직접 특정하고, 또한 최종 예측층에서만 상호작용에 의해 복수의 목표 예측 결과를 개선하는 방식, 또는 조합 최적화의 목표 함수를 이용하고 훈련하여 얻어진 모델에 의해 복수의 목표 예측 결과를 직접 얻는 방식에 비해, 본원의 실시예는 예측 대상의 대상물에 기초하여 특정된 복수의 중간 예측 결과를 이용하여 최종 복수의 목표 예측 결과의 특정을 보조적으로 지도하고, 복수의 목표 예측 결과의 정확도 향상에 기여한다.
또한, 본원의 실시예는 각종 멀티 태스크 예측, 예를 들면, RGB-D에 의한 행동 인식, 멀티 센서에 의한 지적 비디오 감시, 심도 추정과 장면 분할의 듀얼 태스크 예측 등에 응용 가능한 것을 이해해야 한다. 여기서, 뉴럴 네트워크는 예측 대상의 대상물에 기초하여 훈련하여 얻어져도 된다. 예측 대상의 대상물은 각종 이미지, 예를 들면, RGB 이미지 등이어도 되고, 본원은 이를 한정하지 않는다. 예측 대상의 대상물의 복수의 중간 예측 결과는 목표 예측 결과를 포함해도 되고, 복수의 목표 예측 결과에 관련되거나, 또는 서로 보완하도록 해도 된다. 본원은 복수의 중간 예측 결과와 복수의 목표 예측 결과의 대응 관계, 중간 예측 결과의 수, 목표 예측 결과의 수 등을 한정하지 않는다.
이하, 설명의 편의상, 예측 대상의 대상물이 RGB 이미지이고, 중간 예측 결과가 심도 추정 중간 예측 결과, 표면 법선 중간 예측 결과, 윤곽 중간 예측 결과 및 시멘틱 세그먼테이션 중간 예측 결과를 포함하고, 목표 예측 결과가 심도 추정 결과 및 장면 분할 결과를 포함하는 것을 예로 들어 설명한다.
예를 들면, 예측 대상의 대상물(예를 들면, 단일 RGB 이미지)의 특징을 추출하고, 상기 예측 대상의 대상물의 특징 정보를 얻는다. 예를 들면, 예측 대상의 대상물을 뉴럴 네트워크에서의 특징 추출 네트워크에 입력하고 특징을 추출하여, 예측 대상의 대상물에 대한 특징 정보를 얻도록 해도 된다. 여기서, 특징 추출 네트워크는 각종 합성곱 뉴럴 네트워크를 포함해도 된다. 예를 들면, 특징 추출 네트워크는 Alex Net 네트워크 구조, VGG 네트워크 구조 및 ResNet 네트워크 구조 중 하나를 사용해도 되고, 본원은 이를 한정하지 않는다.
도 2는 예시적인 실시예에 기초하여 나타내는 대상물 예측 방법의 흐름도이다. 도 3은 예시적인 실시예에 기초하여 나타내는 대상물 예측 방법의 응용 장면의 모식도이다. 가능한 일 실시형태에서는 도 2에 나타내는 바와 같이, 단계(S101)는
단계(S1011)에서, 예측 대상의 대상물의 특징을 추출하여, 복수의 계층의 특징을 얻는 것과,
단계(S1012)에서, 상기 복수의 계층의 특징을 집약하여, 상기 예측 대상의 대상물에 대한 특징 정보를 얻는 것을 포함해도 된다.
예를 들면, 예측 대상의 대상물의 특징을 추출하고, 예를 들면, 합성곱 뉴럴 네트워크를 포함하는 특징 추출 네트워크에 의해 예측 대상의 대상물의 특징을 추출한다. 여기서, 합성곱 뉴럴 네트워크는 복수의 계층의 합성곱층, 예를 들면, 1계층째의 합성곱층에서 N계층째의 합성곱층을 포함해도 되고, 각 계층의 합성곱층은 하나 이상의 서브 합성곱층을 포함해도 된다. 예측 대상의 대상물의 특징을 추출함으로써, 복수의 계층의 특징을 얻을 수 있다(예를 들면, 각 계층의 합성곱층에서의 마지막 서브 합성곱층의 특징을 각 계층의 특징으로서 특정한다). 예를 들면, 도 3에 나타내는 바와 같이, 4개의 계층의 특징을 얻을 수 있다.
가능한 일 실시형태에서는 합성곱 뉴럴 네트워크를 포함하는 특징 추출 네트워크에 의해 예측 대상의 대상물의 특징을 추출하는 경우, 확장 합성곱에 의해 합성곱의 수용야(receptive field)를 확대하고, 얻어진 복수의 계층의 특징에 의해 넓은 범위의 정보를 포함시키도록 해도 된다.
예를 들면, 합성곱 뉴럴 네트워크에서의 복수의 계층의 합성곱층의 마지막 서브 합성곱층의 합성곱 구조는 확장 합성곱 구조로 해도 된다.
도 4는 예시적인 실시예에 기초하여 나타내는 확장 합성곱의 모식도이다. 가능한 일 실시형태에서는 도 4에 나타내는 바와 같이, 상기 확장 합성곱은 구멍의 사이즈가 1이고, 합성곱 커널의 사이즈가 3*3이다. 상기 서브 합성곱층은 특징 추출 프로세서에서, 도 4에서의 원이 형성된 점은 3*3 합성곱 커널과의 합성곱이 행해지고, 나머지 점(구멍)은 합성곱이 행해지지 않는다. 이와 같이, 확장 합성곱에 의해, 합성곱의 수용야가 확대되고, 특징을 추출하여 얻어진 복수의 계층의 특징에 의해 넓은 범위의 정보가 포함된다. 본원은 예측 대상의 대상물의 특징을 추출하여 복수의 계층의 특징을 얻는 방식, 확장 합성곱에서의 구멍의 사이즈 등을 한정하지 않는다.
가능한 일 실시형태에서는 복수의 계층의 특징을 집약하여, 상기 예측 대상의 대상물에 대한 특징 정보를 얻도록 해도 된다. 예를 들면, 합성곱 뉴럴 네트워크에서의 각 계층의 특징을 집약하여, 예를 들면, 앞에서 3개의 하위 계층의 특징을 마지막 계층의 합성곱층의 특징에 집약(예를 들면, 중첩에 의한 융합)하여, 상기 예측 대상의 대상물에 대한 특징 정보를 얻도록 해도 된다.
가능한 일 실시형태에서는 복수의 계층의 특징을 집약하는 경우, 각 하위 계층의 특징을 합성곱에 의해 다운 샘플링하고, 이중 선형 보간법에 의해 마지막 계층의 합성곱층의 특징과 동일한 해상도의 특징을 얻도록 해도 된다.
예를 들면, 각 계층의 특징은 해상도가 상이하고, 예를 들면, 최하위 계층의 특징은 해상도가 가장 높고, 최상위(예를 들면, 마지막 계층의 합성곱층의 특징)는 해상도가 가장 낮다. 복수의 계층의 특징을 집약하는 경우, 각 하위 계층의 특징을 합성곱에 의해 다운 샘플링하고, 이중 선형 보간법에 의해 마지막 계층의 합성곱층의 특징과 동일한 해상도의 특징을 얻어, 집약하도록(예를 들면, 처리 후의 해상도가 동일한 복수의 계층의 특징을 중첩하고 융합하여, 예측 대상의 대상물의 특징 정보를 얻도록)해도 된다. 또한, 각 하위 계층의 특징에 대해 합성곱을 행함으로써, 특징 채널의 수를 제어하여, 집약 처리에 있어서 보다 효율적으로 기억할 수 있음을 이해해야 한다.
이와 같이, 상기 예측 대상의 대상물에 대한 중간 예측 결과를 보다 효과적으로 예측하기 위한 특징 정보를 얻을 수 있다. 본원은 예측 대상의 대상물의 특징을 추출하여, 상기 예측 대상의 대상물의 특징 정보를 얻는 방식을 한정하지 않는다.
도 1에 나타내는 바와 같이, 단계(S102)에서 상기 특징 정보에 기초하여, 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정한다.
예를 들면, 예측 대상의 대상물의 특징 정보에 기초하여, 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하도록 해도 된다. 예를 들면, 예측 대상의 대상물의 특징 정보를 상이한 중간 예측 태스크로서 재구성하고, 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하도록 해도 된다. 중간 예측 결과는 목표 예측 결과의 특정을 보조하기 위해 사용될 수 있다.
도 5는 예시적인 실시예에 기초하여 나타내는 대상물 예측 방법의 흐름도이다. 가능한 일 실시형태에서는 도 5에 나타내는 바와 같이, 단계(S102)는 이하의 단계를 포함해도 된다.
단계(S1021)에서, 상기 특징 정보를 재구성하여, 복수의 재구성 특징을 얻는다.
예를 들면, 특징 정보를 재구성하고, 예를 들면, 특징 정보에 대해 역합성곱을 행하여, 복수의 재구성 특징을 얻도록 해도 된다. 예를 들면, 도 3에 나타내는 바와 같이, 특징 정보에 대해 역합성곱을 행하여, 4개의 재구성 특징을 각각 얻도록 해도 된다. 특징 정보에 대해 역합성곱을 행하는 경우, 해상도가 서로 동일하고, 또한 특징 정보의 해상도의 2배인 4개의 재구성 특징을 얻을 수 있다.
단계(S1022)에서, 복수의 재구성 특징에 기초하여, 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정한다.
예를 들면, 복수의 재구성 특징에 대해 각각 합성곱을 행하여, 복수의 중간 예측 태스크의 중간 예측 결과를 얻도록 해도 된다. 여기서, 복수의 재구성 특징에 대해 각각 합성곱을 행함으로써, 대응하는 복수의 중간 예측 태스크의 중간 정보를 얻을 수 있다. 복수의 중간 예측 태스크의 중간 정보를 이중 선형 보간법에 의해 처리하여, 해상도가 예측 대상의 대상물의 원래 해상도의 4분의 1인 복수의 중간 예측 결과를 얻도록 해도 된다. 예를 들면, 도 3에 나타내는 바와 같이, 상기 예측 대상의 대상물에 대한 심도 추정 중간 예측 결과, 표면 법선 중간 예측 결과, 윤곽 중간 예측 결과 및 시멘틱 세그먼테이션 중간 예측 결과를 특정할 수 있다.
이와 같이, 상기 특징 정보에 기초하여, 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정할 수 있다. 상기 복수의 중간 예측 결과는 복수의 목표 예측 결과의 특정을 보조하기 위해 사용될 수 있다. 본원은 상기 특징 정보에 기초하여, 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하는 방식을 한정하지 않는다.
도 1에 나타내는 바와 같이, 단계(S103)에서 상기 복수의 중간 예측 결과를 융합하여, 융합 정보를 얻는다.
예를 들면, 예측 대상의 대상물에 대한 복수의 중간 예측 결과(멀티모달 데이터)를 특정하면 다양한 방식으로 복수의 중간 예측 결과를 융합하여, 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정하기 위해 사용되는 융합 정보를 얻을 수 있다. 여기서, 융합 정보는 하나 이상으로 해도 된다. 융합 정보는 하나로 하는 경우, 상기 융합 정보는 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 각각 특정하기 위해 사용되도록 해도 된다. 상기 융합 정보는 복수개로 해도 되고, 예를 들면, 복수의 중간 예측 결과를 융합하여, 각 목표 예측 결과를 특정하기 위한 복수의 융합 정보를 각각 얻도록 해도 된다. 이와 같이, 복수의 중간 예측 결과를 융합함으로써, 복수의 관련 태스크(중간 예측 결과)에서 유래하는 보다 많은 정보를 효과적으로 결합하고, 이에 의해 복수의 목표 예측 결과의 정확도를 향상시키는 융합 정보를 얻는다. 본원은 융합 정보를 얻는 방식, 융합 정보의 수 등을 한정하지 않는다.
예를 들면, 심도 추정 중간 예측 결과, 표면 법선 중간 예측 결과, 윤곽 중간 예측 결과 및 시멘틱 세그먼테이션 중간 예측 결과를 융합하여, 융합 정보를 얻는다.
도 6은 예시적인 실시예에 기초하여 나타내는 대상물 예측 방법의 흐름도이다. 도 7a, 도 7b 및 도 7c는 각각 예시적인 실시예에 기초하여 나타내는 대상물 예측 방법의 응용 장면의 모식도이다. 가능한 일 실시형태에서는, 도 6에 나타내는 바와 같이, 단계(S103)는 이하의 단계를 포함해도 된다.
단계(S1031)에서, 상기 복수의 중간 예측 결과를 재처리하여, 복수의 중간 예측 결과의 재처리 결과를 얻는다.
예를 들면, 보다 풍부한 정보를 얻고, 또한 복수의 중간 예측 결과 사이의 차를 작게 하기 위해 복수의 중간 예측 결과를 재처리하여, 예를 들면, 복수의 중간 예측 결과에 대해 합성곱을 행하여, 복수의 중간 예측 결과의 재처리 결과를 얻도록 해도 된다. 여기서, 얻어진 복수의 중간 예측 결과의 재처리 결과는 중간 예측 결과의 크기와 동일하도록 해도 된다.
예를 들면, 도 7a, 7b 및 7c에 나타내는 바와 같이,
Figure 112020079964483-pct00001
,
Figure 112020079964483-pct00002
,
Figure 112020079964483-pct00003
Figure 112020079964483-pct00004
는 각각 4개의 중간 예측 결과(예를 들면, 심도 추정 중간 예측 결과, 표면 법선 중간 예측 결과, 윤곽 중간 예측 결과 및 시멘틱 세그먼테이션 중간 예측 결과)를 나타낸다. 상기 복수의 중간 예측 결과를 재처리하여, 복수의 중간 예측 결과의 재처리 결과, 예를 들면,
Figure 112020079964483-pct00005
,
Figure 112020079964483-pct00006
,
Figure 112020079964483-pct00007
Figure 112020079964483-pct00008
의 4개의 대응하는 재처리 결과를 얻는다.
단계(S1032)에서, 상기 복수의 중간 예측 결과의 재처리 결과를 융합하여, 융합 정보를 얻는다.
예를 들면, 복수의 중간 예측 결과의 재처리 결과를 융합하여, 융합 정보를 얻도록 해도 된다.
가능한 일 실시형태에서는 단계(S1032)는 상기 복수의 중간 예측 결과의 재처리 결과를 중첩하여, 융합 정보를 얻는 것을 포함해도 된다.
도 7a에 나타내는 바와 같이,
Figure 112020079964483-pct00009
,
Figure 112020079964483-pct00010
,
Figure 112020079964483-pct00011
Figure 112020079964483-pct00012
의 4개의 대응하는 재처리 결과를 중첩하여(예를 들면, 선형 중첩 등), 융합 정보
Figure 112020079964483-pct00013
을 얻는다. 상기 융합 정보
Figure 112020079964483-pct00014
은 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정하기 위해 사용될 수 있고, 예를 들면, 도 7a에 나타내는 바와 같이, 상기 융합 정보
Figure 112020079964483-pct00015
을 심도 추정 태스크 분기 및 장면 분할 태스크 분기에 각각 입력하고, 상기 예측 대상의 대상물에 대한 심도 추정 결과 및 장면 분할 결과를 특정할 수 있다.
이와 같이, 복수의 목표 예측 결과를 특정하기 위한 융합 정보를 얻을 수 있다. 본원은 중간 예측 결과의 재처리 결과를 중첩하는 방식을 한정하지 않는다.
가능한 일 실시형태에서는 복수의 중간 예측 결과는 목표 예측 결과와의 관련도가 가장 높은 제1 중간 예측 결과 및 제2 중간 예측 결과를 포함한다.
예를 들면, 상술한 바와 같이, 복수의 중간 예측 결과는 각각 심도 추정 중간 예측 결과, 표면 법선 중간 예측 결과, 윤곽 중간 예측 결과 및 시멘틱 세그먼테이션 중간 예측 결과이다. 여기서, 목표 예측 결과가 심도 추정 결과인 것을 예로 들어 설명하고, 복수의 중간 예측 결과를 제1 중간 예측 결과와 제2 중간 예측 결과로 나누어도 된다. 단, 제1 중간 예측 결과는 목표 예측 결과(심도 추정 결과)와의 관련도가 가장 높은 심도 추정 중간 예측 결과로 한다. 다른 세 개의 중간 예측 결과는 제2 중간 예측 결과로 해도 된다.
가능한 일 실시형태에서는 단계(S1032)는 추가로
상기 제2 중간 예측 결과의 재처리 결과를 처리하여, 참조 결과를 얻는 것과,
상기 제1 중간 예측 결과의 재처리 결과와 상기 참조 결과를 중첩하여, 상기 목표 예측 결과에 대한 융합 정보를 얻는 것을 포함해도 된다.
이하에 융합 정보를 특정하기 위한 하나의 예시적인 식 (1)을 제공한다.
Figure 112020079964483-pct00016
식 (1) 중,
Figure 112020079964483-pct00017
는 k번째 목표 예측 결과에 대한 융합 정보를 나타내고,
Figure 112020079964483-pct00018
는 k번째 목표 예측 결과에 대한 융합 정보를 특정하는 프로세스에서의, k번째의 중간 예측 결과(제1 중간 예측 결과)의 재처리 결과를 나타내고,
Figure 112020079964483-pct00019
는 합성곱 조작을 나타내고,
Figure 112020079964483-pct00020
는 t번째 중간 예측 결과(제2 중간 예측 결과)의 재처리 결과를 나타내고,
Figure 112020079964483-pct00021
는 t번째 중간 예측 결과 및 k번째 중간 예측 결과에 관련된 합성곱 커널의 파라미터를 나타내고, 여기서, k, t, T는 양의 정수이고, t는 변수이고, t값은 1 내지 T로 하고, t≠k이다. ←는 그 우측 부분의 중첩에 의해 좌측 부분의 융합 정보를 얻을 수 있는 것을 나타낸다.
예를 들면, 상술한 바와 같이 2개의 목표 예측 태스크를 포함하고, 예측 대상의 대상물에 대한 2개의 목표 예측 결과를 특정한다. 여기서, 첫번째 목표 예측 결과(심도 추정 결과, k=1)의 융합 정보를 특정하는 것을 예로 들어 설명한다.
예를 들면,
Figure 112020079964483-pct00022
(심도 추정 중간 예측 결과),
Figure 112020079964483-pct00023
,
Figure 112020079964483-pct00024
Figure 112020079964483-pct00025
중,
Figure 112020079964483-pct00026
을 1번째 목표 예측 결과와의 관련도가 가장 높은 제1 중간 예측 결과로 특정하고,
Figure 112020079964483-pct00027
,
Figure 112020079964483-pct00028
Figure 112020079964483-pct00029
를 각각 제2 중간 예측 결과로 특정할 수 있다.
가능한 일 실시형태에서는 상기 제2 중간 예측 결과의 재처리 결과를 처리하여, 참조 결과를 얻는다.
예를 들면, 식 (1)에 의해, 예를 들면,
Figure 112020079964483-pct00030
,
Figure 112020079964483-pct00031
Figure 112020079964483-pct00032
에 대해 각각 합성곱을 행하여, 3개의 참조 결과를 각각 얻도록 상기 제2 중간 예측 결과의 재처리 결과를 처리하도록 해도 된다.
가능한 일 실시형태에서는 상기 제1 중간 예측 결과의 재처리 결과와 상기 참조 결과를 중첩하여, 상기 목표 예측 결과에 대한 융합 정보를 얻을 수 있다.
예를 들면, 식 (1)에 의해 상기 제1 중간 예측 결과의 재처리 결과와 상기 참조 결과를 중첩하여(예를 들면, 화소의 각각에 대해, 제1 중간 예측 결과의 재처리 결과인 상기 화소 정보와 별도의 3개의 참조 결과인 상기 화소 정보를 중첩하여), 상기 목표 예측 결과에 대한 융합 정보를 얻을 수 있다. 예를 들면, 도 7b에 나타내는 바와 같이, 첫번째 목표 예측 결과에 대한 융합 정보로서, 첫번째 목표 예측 결과를 특정하기 위해 사용되는 융합 정보
Figure 112020079964483-pct00033
을 얻는다. 또한, 식 (1)에 의해 복수의 목표 예측 결과에 대한 융합 정보를 각각 얻을 수 있음을 이해해야 한다.
이와 같이, 복수의 목표 예측 결과에 대한 융합 정보로서, 목표 예측 결과와의 관련도가 가장 높은 제1 중간 예측 결과의 재처리 결과에서의 정보를 보다 많이 포함하고, 멀티모달 데이터의 원활한 융합을 실현 가능한 융합 정보를 특정할 수 있다. 본원은 상기 제1 중간 예측 결과의 재처리 결과와 상기 참조 결과를 중첩하여, 상기 목표 예측 결과에 대한 융합 정보를 얻는 구체적인 방식을 한정하지 않는다.
가능한 일 실시형태에서는, 단계(S1032)는 추가로 상기 제1 중간 예측 결과의 재처리 결과에 기초하여, 어텐션(Attention) 메커니즘에 의해 특정되는 참조 계수인 어텐션 계수를 특정하는 것과,
상기 제2 중간 예측 결과의 재처리 결과를 처리하여, 참조 결과를 얻는 것과,
상기 참조 결과와 상기 어텐션 계수의 내적을 구하여, 어텐션 내용을 얻는 것과,
상기 제1 중간 예측 결과의 재처리 결과와 상기 어텐션 내용을 중첩하여, 상기 목표 예측 결과에 대한 융합 정보를 얻는 것을 포함해도 된다.
이하에, 어텐션 계수를 특정하기 위한 하나의 예시적인 식 (2)를 제공한다.
Figure 112020079964483-pct00034
식 (2) 중,
Figure 112020079964483-pct00035
는 k번째 목표 예측 결과에 대한 융합 정보를 특정하는 프로세스에서, 제1 중간 예측 결과의 재처리 결과에 기초하여 특정되는 어텐션 계수를 나타낸다.
Figure 112020079964483-pct00036
는 합성곱 조작을 나타내고,
Figure 112020079964483-pct00037
는 합성곱 파라미터를 나타내고,
Figure 112020079964483-pct00038
는 k번째 목표 예측 결과에 대한 융합 정보를 특정하는 프로세서에서의, k번째의 중간 예측 결과(제1 중간 예측 결과)의 재처리 결과를 나타내고, σ는 sigmoid 함수를 나타낸다.
예를 들면, 상기 제1 중간 예측 결과의 재처리 결과에 기초하여, 어텐션 메커니즘에 의해 특정되는 참조 계수인 어텐션 계수를 특정하도록 해도 된다. 여기서, 첫번째 목표 예측 결과(심도 추정 결과, k=1)의 융합 정보를 특정하는 것을 예로 들어 설명한다.
예를 들면, 도 7c에 나타내는 바와 같이, 제1 중간 예측 결과의 재처리 결과
Figure 112020079964483-pct00039
에 기초하여, 어텐션 메커니즘에 의해 특정되는 참조 계수이고, 또한 복수의 제2 중간 예측 결과를 필터링하여, 정보의 전달이나 융합을 지도하기 위해 사용되는(예를 들면, 제2 중간 예측 결과에서 유래하는 정보를 보다 주의하거나 또는 무시하기 위해 사용되는) 것이 가능한 어텐션 계수
Figure 112020079964483-pct00040
을 특정해도 된다.
이하에 융합 정보를 특정하기 위한 하나의 예시적인 식 (3)을 제공한다.
Figure 112020079964483-pct00041
식 (3) 중,
Figure 112020079964483-pct00042
는 k번째 목표 예측 결과에 대한 융합 정보를 나타내고,
Figure 112020079964483-pct00043
는 k번째 목표 예측 결과에 대한 융합 정보를 특정하는 프로세서에서의, k번째의 중간 예측 결과(제1 중간 예측 결과)의 재처리 결과를 나타내고,
Figure 112020079964483-pct00044
는 합성곱 조작을 나타내고,
Figure 112020079964483-pct00045
는 t번째 중간 예측 결과(제2 중간 예측 결과)의 재처리 결과를 나타내고,
Figure 112020079964483-pct00046
는 t번째 중간 예측 결과에 관련되는 합성곱 커널의 파라미터를 나타내고,
Figure 112020079964483-pct00047
는 k번째 목표 예측 결과에 대한 융합 정보를 특정하는 프로세스에서, 제1 중간 예측 결과의 재처리 결과에 기초하여 특정된 어텐션 계수를 나타내고,
Figure 112020079964483-pct00048
는 내적을 구하는 처리를 나타내고, 여기서 k, t, T는 양의 정수이고, t는 변수이고, t값은 1 내지 T로 하고, t≠k이다. ←는 그 우측 부분의 중첩에 의해 좌측 부분의 융합 정보를 얻을 수 있는 것을 나타낸다.
가능한 일 실시형태에서는 상기 제2 중간 예측 결과의 재처리 결과를 처리하여, 참조 결과를 얻도록 해도 된다.
예를 들면, 식 (3)에 의해 상기 제2 중간 예측 결과의 재처리 결과를 처리하고, 예를 들면,
Figure 112020079964483-pct00049
,
Figure 112020079964483-pct00050
Figure 112020079964483-pct00051
에 대해 각각 합성곱을 행하여, 3개의 참조 결과를 각각 얻도록 해도 된다.
가능한 일 실시형태에서는 상기 참조 결과와 상기 어텐션 계수의 내적을 구하여, 어텐션 내용을 얻도록 해도 된다.
예를 들면, 식 (2)에 의해 어텐션 계수를 특정하여 얻을 수 있다. 예를 들면, 각 화소가 대응하는 어텐션 계수를 얻을 수 있다. 참조 결과와 상기 어텐션 계수의 내적을 구하여, 어텐션 내용을 얻을 수 있다.
Figure 112020079964483-pct00052
,
Figure 112020079964483-pct00053
Figure 112020079964483-pct00054
에 의해 얻어진 참조 결과와 어텐션 계수의 내적을 구하여, 각각 대응하는 어텐션 내용을 얻을 수 있다.
가능한 일 실시형태에서는 상기 제1 중간 예측 결과의 재처리 결과와 상기 어텐션 내용을 중첩하여, 상기 목표 예측 결과에 대한 융합 정보를 얻는다.
예를 들면, 식 (3)에 의해 상기 제1 중간 예측 결과의 재처리 결과와 상기 복수의 어텐션 내용을 중첩하여(예를 들면, 화소의 각각에 대해 제1 중간 예측 결과의 재처리 결과인 상기 화소 정보와 별도의 3개의 어텐션 내용인 상기 화소 정보를 중첩하여), 상기 목표 예측 결과에 대한 융합 정보를 얻을 수 있다. 예를 들면, 도 7c에 나타내는 바와 같이, 첫번째 목표 예측 결과에 대한 융합 정보로서, 첫번째 목표 예측 결과를 특정하기 위해 사용되는 것이 가능한 융합 정보
Figure 112020079964483-pct00055
을 얻는다. 또한, 식 (1)에 의해 복수의 목표 예측 결과에 대한 융합 정보를 각각 얻을 수 있음을 이해해야 한다.
이와 같이, 복수의 목표 예측 결과에 대한 목표 예측 결과와의 관련도가 가장 높은 제1 중간 예측 결과의 재처리 결과에서의 정보를 보다 많이 포함하는 융합 정보를 특정할 수 있고, 제1 중간 예측 결과의 재처리 결과에 기초하여 특정된 어텐션 계수에 의해, 복수의 제2 중간 예측 결과를 필터링하여 정보의 전달이나 융합을 지도하고(예를 들면, 제2 중간 예측 결과에서 유래하는 정보를 보다 주의하거나 또는 무시하기 위해 사용되고), 이에 의해 복수의 목표 예측 결과에 대한 융합 정보의 지향성을 향상시킬 수 있다. 본원은 어텐션 계수를 특정하는 방식, 참조 결과를 특정하는 방식, 어텐션 내용을 특정하는 방식 및 융합 정보를 특정하는 방식을 한정하지 않는다.
도 1에 나타내는 바와 같이, 단계(S104)에서 상기 융합 정보에 기초하여, 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정한다.
예를 들면, 융합 정보에 기초하여, 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정하도록 해도 된다. 예를 들면, 특정된 융합 정보가 하나인 경우, 상기 융합 정보를 목표 예측 태스크를 위한 복수의 분기에 각각 입력하고, 복수의 목표 예측 결과를 특정하도록 해도 된다. 특정된 융합 정보가 상이한 목표 예측 태스크에 대한 상이한 융합 정보인 경우, 대응하는 융합 정보를 대응하는 목표 예측 태스크의 분기에 입력하고, 복수의 목표 예측 결과를 특정하도록 해도 된다. 또한, 복수의 목표 예측 태스크는 하나의 서브 네트워크(예를 들면, 뉴럴 네트워크의 제2 예측 네트워크)에 의해 실현될 수 있음을 이해해야 한다. 상기 서브 네트워크는 상이한 분기를 포함해도 되고, 각 분기는 태스크의 복잡도에 따라 상이한 심도의 각종 네트워크를 채용하여, 상이한 네트워크 파라미터 및 상이한 설계를 가져도 된다. 본원은 상기 융합 정보에 기초하여, 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정하는 방식, 복수의 목표 예측 태스크의 서브 네트워크의 구조 및 설계 등을 한정하지 않는다.
예를 들면, 상기 융합 정보에 기초하여, 상기 예측 대상의 대상물에 대한 심도 추정 결과 및 장면 분할 결과를 특정한다.
도 8은 예시적인 실시예에 기초하여 나타내는 대상물 예측 방법의 흐름도이다. 가능한 일 실시형태에서는, 도 8에 나타내는 바와 같이, 단계(S104)는
단계(S1041)에서, 복수의 목표 예측 결과에 대한 융합 정보를 특정하는 것과,
단계(S1042)에서, 상기 융합 정보를 처리하여, 목표 특징을 얻는 것과,
단계(S1043)에서 상기 목표 특징에 기초하여, 복수의 목표 예측 결과를 특정하는 것을 포함해도 된다.
예를 들면, 복수의 목표 예측 결과에 대한 융합 정보를 특정해도 된다. 예를 들면, 도 7b에 나타내는 바와 같이, 심도 추정 결과에 대한 융합 정보가
Figure 112020079964483-pct00056
, 장면 분할 결과에 대한 융합 정보가
Figure 112020079964483-pct00057
인 것으로 특정한다. 융합 정보를 처리하여 목표 특징을 얻고, 목표 특징에 기초하여, 복수의 목표 예측 결과를 특정하도록 해도 된다.
여기서, 심도 추정 결과를 특정하는 것을 예로 들어 설명한다.
예를 들면, 심도 추정 결과에 대한 융합 정보
Figure 112020079964483-pct00058
을 처리하여, 목표 특징을 얻도록 해도 된다. 예를 들면, 융합 정보
Figure 112020079964483-pct00059
에 대해 역합성곱을 2회 연속적으로 행하도록 해도 된다. 상술한 바와 같이, 복수의 중간 예측 결과의 해상도는 예측 대상의 대상물의 원래 해상도의 4분의 1이기 때문에, 역합성곱을 2회 연속적으로 행함으로써(1회마다 2배로 확대함으로써), 해상도가 예측 대상의 대상물의 원래 해상도와 동일한 목표 특징을 얻을 수 있다. 목표 특징에 기초하여, 목표 예측 결과를 특정할 수 있다. 예를 들면, 상기 목표 특징에 대해 합성곱을 행하고, 목표 예측 결과를 특정하여 얻을 수 있다.
이와 같이, 융합 정보에 기초하여, 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정할 수 있다. 본원은 융합 정보에 기초하여, 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정하는 방식을 한정하지 않는다.
또한, 상기 방법은 훈련시켜 둔 뉴럴 네트워크를 사용하여 복수의 목표 예측 결과를 특정하는 장면에 적용해도 되고, 또한 뉴럴 네트워크의 훈련 프로세스에 적용해도 되는 것을 이해해야 하고, 본원의 실시예는 이를 한정하지 않는다. 가능한 일 실시형태에서는 훈련시켜 둔 뉴럴 네트워크를 사용하여 복수의 목표 예측 결과를 특정하기 전에 예측 대상의 대상물에 기초하여, 상기 뉴럴 네트워크를 훈련하는 단계를 포함해도 된다.
도 9는 예시적인 실시예에 기초하여 나타내는 대상물 예측 방법에서의 뉴럴 네트워크의 훈련의 흐름도이다. 가능한 일 실시형태에서는, 도 9에 나타내는 바와 같이, 예측 대상의 대상물에 기초하여, 상기 뉴럴 네트워크를 훈련하는 단계는,
단계(S105)에서, 상기 예측 대상의 대상물을 상기 뉴럴 네트워크에서의 특징 추출 네트워크에 입력하고 특징을 추출하여, 상기 예측 대상의 대상물에 대한 특징 정보를 얻는 것과,
단계(S106)에서, 상기 특징 정보를 상기 뉴럴 네트워크에서의 제1 예측 네트워크에 입력하고 처리하여, 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하는 것과,
단계(S107)에서, 상기 중간 예측 결과를 상기 뉴럴 네트워크의 융합 네트워크에 입력하고 융합하여, 상기 융합 정보를 얻는 것과,
단계(S108)에서, 상기 융합 정보를 상기 뉴럴 네트워크에서의 복수의 제2 예측 네트워크에 각각 입력하고 처리하여, 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정하는 것과,
단계(S109)에서, 상기 복수의 중간 예측 결과, 복수의 중간 예측 결과의 어노테이션 정보, 복수의 목표 예측 결과 및 복수의 목표 예측 결과의 어노테이션 정보에 기초하여, 상기 뉴럴 네트워크의 모델 손실을 특정하는 것과,
단계(S110)에서, 상기 모델 손실에 기초하여, 상기 뉴럴 네트워크의 네트워크 파라미터값을 조정하는 것을 포함해도 된다.
예를 들면, 예측 대상의 대상물을 상기 뉴럴 네트워크에서의 특징 추출 네트워크에 입력하고 특징을 추출하여, 상기 예측 대상의 대상물에 대한 특징 정보를 얻도록 해도 된다. 상기 특징 정보를 상기 뉴럴 네트워크에서의 제1 예측 네트워크에 입력하고 처리하여, 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정한다. 예를 들면, 4개의 중간 예측 결과를 특정한다.
상기 중간 예측 결과를 상기 뉴럴 네트워크의 융합 네트워크에 입력하고 융합하여, 상기 융합 정보를 얻고, 상기 융합 정보를 상기 뉴럴 네트워크에서의 복수의 제2 예측 네트워크에 각각 입력하고 처리하여, 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정한다. 상기 복수의 중간 예측 결과, 복수의 중간 예측 결과의 어노테이션 정보, 복수의 목표 예측 결과 및 복수의 목표 예측 결과의 어노테이션 정보에 기초하여, 상기 뉴럴 네트워크의 모델 손실을 특정한다.
예를 들면, 상기 예측 대상의 대상물에 대한 4개의 중간 예측 결과를 특정하고, 상기 예측 대상의 대상물에 대한 2개의 목표 예측 결과를 최종적으로 특정하는 경우, 훈련 프로세스에서는 특정되는 뉴럴 네트워크의 모델 손실은 6개의 손실 함수의 손실의 합(4개의 중간 예측 결과 각각의 손실, 2개의 목표 예측 결과 각각의 손실을 포함함)으로 해도 된다. 여기서, 각 손실 함수는 상이한 타입인 것을 포함해도 되고, 예를 들면, 윤곽 중간 예측 태스크에서는 손실 함수는 교차 엔트로피 손실 함수로 해도 되고, 시멘틱 세그먼테이션 중간 예측 태스크(장면 분할 예측 태스크)에서는 손실 함수는 Softmax 손실 함수로 해도 된다. 심도 추정 중간 예측 태스크(심도 추정 예측 태스크), 표면 법선 중간 예측 태스크에서는 손실 함수는 유클리드 거리 손실 함수로 해도 된다. 뉴럴 네트워크의 모델 손실을 특정하는 경우에는 각 손실 함수의 손실 가중치는 전부 동일하게 하지 않아도 된다. 예를 들면, 심도 추정 중간 예측 태스크, 심도 추정 예측 태스크, 장면 분할 예측 태스크 및 시멘틱 세그먼테이션 중간 예측 태스크의 손실 함수의 손실 가중치는 1로 해도 되고, 표면 법선 중간 예측 태스크 및 윤곽 중간 예측 태스크의 손실 함수의 손실 가중치는 0.8로 해도 된다. 본원은 손실 함수의 타입, 각 손실 함수의 손실 가중치 등을 한정하지 않는다.
가능한 일 실시형태에서는 상기 모델 손실에 기초하여, 상기 뉴럴 네트워크의 네트워크 파라미터값을 조정해도 된다. 예를 들면, 후방 구배 알고리즘 등을 사용하여 네트워크 파라미터값을 조정한다. 적절한 방식으로 뉴럴 네트워크의 네트워크 파라미터값을 조정할 수 있음을 이해해야 하고, 본원은 이를 한정하지 않는다.
수회 조정한 후, 미리 설정된 훈련 조건을 만족하는 경우, 예를 들면, 조정 횟수가 미리 설정된 훈련 횟수 임계값에 도달한 경우, 또는 모델 손실이 미리 설정된 손실 임계값 이하가 되는 경우, 현재 뉴럴 네트워크를 최종 뉴럴 네트워크로서 특정하고, 뉴럴 네트워크의 훈련 프로세스를 완료시킬 수 있다. 또한, 당업자이면 실제 상황에 따라 훈련 조건 및 손실 임계값를 설정할 수 있음을 이해해야 하고, 본원은 이를 한정하지 않는다.
이와 같이, 복수의 목표 예측 결과를 정확하게 취득 가능한 뉴럴 네트워크를 훈련하여 얻을 수 있다. 훈련 프로세스에서는 예측 대상의 대상물(예를 들면, 하나의 RGB 이미지)을 입력함으로써, 특징 정보를 얻고, 특징 정보에 기초하여 복수의 중간 예측 결과를 얻을 수 있다. 복수의 중간 예측 결과는 보다 상위의 특징을 학습하기 위한 감시 정보(supervision information)로서 사용할 수 있을 뿐만 아니라, 보다 풍부한 멀티모달 데이터를 제공하여 최종 목표 예측 태스크를 개선하고, 최종의 복수의 목표 예측 결과의 특정을 보조하고, 복수의 목표 예측 태스크의 일반화 성능 및 예측 성능을 동시에 향상시키고, 복수의 목표 예측 결과의 정확도를 향상시킬 수도 있다.
또한, 본원의 실시예에 의하면, 예측 대상의 대상물을 입력하여 뉴럴 네트워크를 훈련하는 프로세스에서는 상이한 손실 함수를 직접 사용하고, 복수의 목표 예측 결과를 동시에 직접 훈련하는 것이 아니라, 복수의 중간 예측 결과를 특정하고, 복수의 중간 예측 결과에 의해 복수의 목표 예측 결과의 특정을 보조하고, 이에 의해 뉴럴 네트워크의 훈련의 복잡도가 저하되어, 높은 훈련 효율 및 효과가 보증된다.
도 10은 예시적인 실시예에 기초하여 나타내는 대상물 예측 방법에서의 뉴럴 네트워크의 훈련의 흐름도이다. 가능한 일 실시형태에서는 도 10에 나타내는 바와 같이, 예측 대상의 대상물에 기초하여, 상기 뉴럴 네트워크를 훈련하는 단계는 추가로,
단계(S111)에서, 상기 예측 대상의 대상물을 상기 뉴럴 네트워크에서의 특징 추출 네트워크에 입력하고 특징을 추출하여, 상기 예측 대상의 대상물에 대한 특징 정보를 얻기 전에, 상기 복수의 목표 예측 결과의 어노테이션 정보를 특정하는 것과,
단계(S112)에서, 상기 복수의 목표 예측 결과의 어노테이션 정보에 기초하여, 상기 복수의 중간 예측 결과의 어노테이션 정보를 특정하는 것을 포함한다.
예를 들면, 상술한 바와 같이, 목표 예측 결과는 심도 추정 결과 및 장면 분할 결과를 포함한다. 뉴럴 네트워크를 훈련하는 프로세스에서는 이 2개의 목표 예측 결과의 어노테이션 정보를 특정하도록 해도 된다. 예를 들면, 수동 태깅(tagging) 등의 방식으로 특정한다. 심도 추정 결과 및 장면 분할 결과의 어노테이션 정보에 기초하여, 상기 복수의 중간 예측 결과의 어노테이션 정보를 특정하도록 해도 된다. 예를 들면, 중간 예측 결과는 심도 추정 중간 예측 결과, 표면 법선 중간 예측 결과, 윤곽 중간 예측 결과 및 시멘틱 세그먼테이션 중간 예측 결과를 포함한다. 여기서, 심도 추정 결과 및 장면 분할 결과의 어노테이션 정보를 각각 심도 추정 중간 예측 결과 및 시멘틱 세그먼테이션 중간 예측 결과의 어노테이션 정보로서 특정하도록 해도 된다. 윤곽 중간 예측 결과의 어노테이션 정보는 장면 분할 결과의 어노테이션 정보에 기초하여 추산하여 얻고, 표면 법선 중간 예측 결과의 어노테이션 정보는 심도 추정 결과의 어노테이션 정보에 기초하여 추산하여 얻도록 해도 된다.
이와 같이, 뉴럴 네트워크의 훈련 프로세스에서는 상기 복수의 목표 예측 결과의 어노테이션 정보에 기초하여, 상기 복수의 중간 예측 결과의 어노테이션 정보를 특정함으로써 과도한 어노테이션 태스크를 완료하는 경우 없이, 많은 어노테이션 정보를 감시 정보로서 뉴럴 네트워크를 훈련하여, 뉴럴 네트워크의 훈련의 효율을 향상시킨다. 본원은 상기 복수의 목표 예측 결과의 어노테이션 정보에 기초하여, 상기 복수의 중간 예측 결과의 어노테이션 정보를 특정하는 방식을 한정하지 않는다.
도 11은 예시적인 실시예에 기초하여 나타내는 대상물 예측 방법의 흐름도이다. 상기 방법은 전자 기기에 사용될 수 있다. 상기 전자 기기는 단말, 서버 또는 다른 형태의 기기로서 제공할 수 있다. 도 11에 나타내는 바와 같이, 본원의 실시예에 따른 대상물 예측 방법은,
단계(S201)에서, 예측 대상의 대상물을 뉴럴 네트워크에서의 특징 추출 네트워크에 입력하고 특징을 추출하여, 상기 예측 대상의 대상물에 대한 특징 정보를 얻는 것과,
단계(S202)에서, 상기 특징 정보를 상기 뉴럴 네트워크에서의 제1 예측 네트워크에 입력하고 처리하여, 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하는 것과,
단계(S203)에서, 상기 중간 예측 결과를 상기 뉴럴 네트워크의 융합 네트워크에 입력하고 융합하여, 상기 융합 정보를 얻는 것과,
단계(S204)에서, 상기 융합 정보를 상기 뉴럴 네트워크에서의 복수의 제2 예측 네트워크에 각각 입력하고 처리하여, 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정하는 것과,
단계(S205)에서, 상기 복수의 중간 예측 결과, 복수의 중간 예측 결과의 어노테이션 정보, 복수의 목표 예측 결과 및 복수의 목표 예측 결과의 어노테이션 정보에 기초하여, 상기 뉴럴 네트워크의 모델 손실을 특정하는 것과,
단계(S206)에서, 상기 모델 손실에 기초하여, 상기 뉴럴 네트워크의 네트워크 파라미터값을 조정하는 것을 포함한다.
본원의 실시예에 의하면, 예측 대상의 대상물에 기초하여, 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정하기 위해 사용되는 것이 가능한 뉴럴 네트워크를 훈련하여 얻을 수 있다.
예를 들면, 상술한 바와 같이 뉴럴 네트워크를 훈련하여 얻을 수 있고, 여기는 설명을 생략한다.
도 12는 예시적인 실시예에 기초하여 나타내는 대상물 예측 방법의 흐름도이다. 가능한 일 실시형태에서는 도 12에 나타내는 바와 같이, 상기 방법은 추가로,
단계(S207)에서, 예측 대상의 대상물을 뉴럴 네트워크에서의 특징 추출 네트워크에 입력하고 특징을 추출하여, 상기 예측 대상의 대상물에 대한 특징 정보를 얻기 전에, 상기 복수의 목표 예측 결과의 어노테이션 정보를 특정하는 것과,
단계(S208)에서, 상기 복수의 목표 예측 결과의 어노테이션 정보에 기초하여, 상기 복수의 중간 예측 결과의 어노테이션 정보를 특정하는 것을 포함한다.
예를 들면, 상술한 바와 같고, 여기서는 설명을 생략한다.
이상, 본원의 예시적인 실시예를 설명하였다. 예시적인 실시예에 대한 상기 설명은 본원을 한정하는 것이 아니고, 예시적인 실시예에서의 각 기술적 특징은 실제 필요 및 논리에 따라 임의로 조합, 수정 및 변경하여, 상이한 기술적 해결 수단을 형성할 수 있고, 상기 기술적 해결 수단은 전부 본원의 실시예의 일부에 속하는 것을 이해해야 한다.
도 13은 예시적인 실시예에 기초하여 나타내는 대상물 예측 장치의 블록도이다. 도 13에 나타내는 바와 같이, 상기 대상물 예측 장치는,
예측 대상의 대상물의 특징을 추출하여, 상기 예측 대상의 대상물의 특징 정보를 얻도록 구성된 특징 추출 모듈(301)과,
상기 특징 정보에 기초하여, 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하도록 구성된 중간 예측 결과 특정 모듈(302)과,
상기 복수의 중간 예측 결과를 융합하여, 융합 정보를 얻도록 구성된 융합 모듈(303)과,
상기 융합 정보에 기초하여, 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정하도록 구성된 목표 예측 결과 특정 모듈(304)을 포함한다.
도 14는 예시적인 실시예에 기초하여 나타내는 대상물 예측 장치의 블록도이다. 도 14에 나타내는 바와 같이, 가능한 일 실시형태에서는 상기 특징 추출 모듈(301)은,
예측 대상의 대상물의 특징을 추출하여, 복수의 계층의 특징을 얻도록 구성된 특징 취득 서브 모듈(3011)과,
상기 복수의 계층의 특징을 집약하여, 상기 예측 대상의 대상물에 대한 특징 정보를 얻도록 구성된 특징 정보 취득 서브 모듈(3012)을 포함한다.
도 14에 나타내는 바와 같이, 가능한 일 실시형태에서는, 상기 중간 예측 결과 특정 모듈(302)은,
상기 특징 정보를 재구성하여, 복수의 재구성 특징을 얻도록 구성된 재구성 특징 취득 서브 모듈(3021)과,
복수의 재구성 특징에 기초하여, 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하도록 구성된 중간 예측 결과 취득 서브 모듈(3022)을 포함한다.
도 14에 나타내는 바와 같이, 가능한 일 실시형태에서는 상기 융합 모듈(303)은,
상기 복수의 중간 예측 결과를 재처리하여, 복수의 중간 예측 결과의 재처리 결과를 얻도록 구성된 재처리 결과 취득 서브 모듈(3031)과,
상기 복수의 중간 예측 결과의 재처리 결과를 융합하여, 융합 정보를 얻도록 구성된 융합 정보 취득 서브 모듈(3032)을 포함한다.
가능한 일 실시형태에서는 상기 융합 정보 취득 서브 모듈(3032)은,
상기 복수의 중간 예측 결과의 재처리 결과를 중첩하여, 융합 정보를 얻도록 구성된다.
가능한 일 실시형태에서는 상기 복수의 중간 예측 결과는 목표 예측 결과와의 관련도가 가장 높은 제1 중간 예측 결과 및 제2 중간 예측 결과를 포함하고,
상기 융합 정보 취득 서브 모듈(3032)은,
상기 제2 중간 예측 결과의 재처리 결과를 처리하여, 참조 결과를 얻는 것과,
상기 제1 중간 예측 결과의 재처리 결과와 상기 참조 결과를 중첩하여, 상기 목표 예측 결과에 대한 융합 정보를 얻는 것에 사용되도록 구성된다.
가능한 일 실시형태에서는 상기 복수의 중간 예측 결과는 목표 예측 결과와의 관련도가 가장 높은 제1 중간 예측 결과 및 제2 중간 예측 결과를 포함하고,
상기 융합 정보 취득 서브 모듈(3032)은,
상기 제1 중간 예측 결과의 재처리 결과에 기초하여, 어텐션 메커니즘에 의해 특정되는 참조 계수인 어텐션 계수를 특정하는 것과,
상기 제2 중간 예측 결과의 재처리 결과를 처리하여, 참조 결과를 얻는 것과,
상기 참조 결과와 상기 어텐션 계수의 내적을 구하여, 어텐션 내용을 얻는 것과,
상기 제1 중간 예측 결과의 재처리 결과와 상기 어텐션 내용을 중첩하여, 상기 목표 예측 결과에 대한 융합 정보를 얻는 것에 사용되도록 구성된다.
도 14에 나타내는 바와 같이, 가능한 일 실시형태에서는 상기 목표 예측 결과 특정 모듈(304)은,
복수의 목표 예측 결과에 대한 융합 정보를 특정하도록 구성된 융합 정보 특정 서브 모듈(3041)과,
상기 융합 정보를 처리하여, 목표 특징을 얻도록 구성된 목표 특징 취득 서브 모듈(3042)과,
상기 목표 특징에 기초하여, 복수의 목표 예측 결과를 특정하도록 구성된 목표 예측 결과 특정 서브 모듈(3043)을 포함한다.
가능한 일 실시형태에서는 상기 뉴럴 네트워크는 예측 대상의 대상물에 기초하여 훈련하여 얻어진다.
도 14에 나타내는 바와 같이 가능한 일 실시형태에서는 상기 장치는 추가로,
상기 예측 대상의 대상물을 상기 뉴럴 네트워크에서의 특징 추출 네트워크에 입력하고 특징을 추출하여, 상기 예측 대상의 대상물에 대한 특징 정보를 얻도록 구성된 제1 취득 모듈(305)과,
상기 특징 정보를 상기 뉴럴 네트워크에서의 제1 예측 네트워크에 입력하고 처리하여, 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하도록 구성된 제1 특정 모듈(306)과,
상기 중간 예측 결과를 상기 뉴럴 네트워크에서의 융합 네트워크에 입력하고 융합하여, 상기 융합 정보를 얻도록 구성된 제2 취득 모듈(307)과,
상기 융합 정보를 상기 뉴럴 네트워크에서의 복수의 제2 예측 네트워크에 각각 입력하고 처리하여, 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정하도록 구성된 제2 특정 모듈(308)과,
상기 복수의 중간 예측 결과, 복수의 중간 예측 결과의 어노테이션 정보, 복수의 목표 예측 결과 및 복수의 목표 예측 결과의 어노테이션 정보에 기초하여, 상기 뉴럴 네트워크의 모델 손실을 특정하도록 구성된 제3 특정 모듈(309)과,
상기 모델 손실에 기초하여, 상기 뉴럴 네트워크의 네트워크 파라미터값을 조정하도록 구성된 네트워크 파라미터값 조정 모듈(310)을 포함한다.
도 14에 나타내는 바와 같이, 가능한 일 실시형태에서는 상기 장치는 추가로,
상기 예측 대상의 대상물을 상기 뉴럴 네트워크에서의 특징 추출 네트워크에 입력하고 특징을 추출하여, 상기 예측 대상의 대상물에 대한 특징 정보를 얻기 전에, 상기 복수의 목표 예측 결과의 어노테이션 정보를 특정하도록 구성된 어노테이션 정보 특정 모듈(311)과,
상기 복수의 목표 예측 결과의 어노테이션 정보에 기초하여, 상기 복수의 중간 예측 결과의 어노테이션 정보를 특정하도록 구성된 중간 어노테이션 정보 특정 모듈(312)을 포함한다.
도 14에 나타내는 바와 같이, 가능한 일 실시형태에서는 상기 중간 예측 결과 특정 모듈(302)은,
상기 특징 정보에 기초하여, 상기 예측 대상의 대상물에 대한 심도 추정 중간 예측 결과, 표면 법선 중간 예측 결과, 윤곽 중간 예측 결과 및 시멘틱 세그먼테이션 중간 예측 결과를 특정하도록 구성된 제1 특정 서브 모듈(3023)을 포함하고,
상기 융합 모듈(303)은,
상기 심도 추정 중간 예측 결과, 상기 표면 법선 중간 예측 결과, 상기 윤곽 중간 예측 결과 및 상기 시멘틱 세그먼테이션 중간 예측 결과를 융합하여, 융합 정보를 얻도록 구성된 취득 서브 모듈(3033)을 포함하고,
상기 목표 예측 결과 특정 모듈(304)은,
상기 융합 정보에 기초하여, 상기 예측 대상의 대상물에 대한 심도 추정 결과 및 장면 분할 결과를 특정하도록 구성된 제2 특정 서브 모듈(3044)을 포함한다.
도 15는 예시적인 실시예에 기초하여 나타내는 대상물 예측 장치의 블록도이다. 도 15에 나타내는 바와 같이, 상기 대상물 예측 장치는,
예측 대상의 대상물을 뉴럴 네트워크에서의 특징 추출 네트워크에 입력하고 특징을 추출하여, 상기 예측 대상의 대상물에 대한 특징 정보를 얻도록 구성된 제1 정보 취득 모듈(401)과,
상기 특징 정보를 상기 뉴럴 네트워크에서의 제1 예측 네트워크에 입력하고 처리하여, 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하도록 구성된 제1 결과 특정 모듈(402)과,
상기 중간 예측 결과를 상기 뉴럴 네트워크의 융합 네트워크에 입력하고 융합하여, 상기 융합 정보를 얻도록 구성된 제2 정보 취득 모듈(403)과,
상기 융합 정보를 상기 뉴럴 네트워크에서의 복수의 제2 예측 네트워크에 각각 입력하고 처리하여, 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정하도록 구성된 제2 결과 특정 모듈(404)과,
상기 복수의 중간 예측 결과, 복수의 중간 예측 결과의 어노테이션 정보, 복수의 목표 예측 결과 및 복수의 목표 예측 결과의 어노테이션 정보에 기초하여, 상기 뉴럴 네트워크의 모델 손실을 특정하도록 구성된 모델 손실 특정 모듈(405)과,
상기 모델 손실에 기초하여, 상기 뉴럴 네트워크의 네트워크 파라미터값을 조정하도록 구성된 파라미터 조정 모듈(406)을 포함한다.
도 16은 예시적인 실시예에 기초하여 나타내는 대상물 예측 장치의 블록도이다. 도 16에 나타내는 바와 같이, 가능한 일 실시형태에서는 상기 장치는 추가로,
예측 대상의 대상물을 뉴럴 네트워크에서의 특징 추출 네트워크에 입력하고 특징을 추출하여, 상기 예측 대상의 대상물에 대한 특징 정보를 얻기 전에, 상기 복수의 목표 예측 결과의 어노테이션 정보를 특정하도록 구성된 제1 정보 특정 모듈(407)과,
상기 복수의 목표 예측 결과의 어노테이션 정보에 기초하여, 상기 복수의 중간 예측 결과의 어노테이션 정보를 특정하도록 구성된 제2 정보 특정 모듈(408)을 포함한다.
도 17은 예시적인 실시예에 기초하여 나타내는 전자 기기의 블록도이다. 예를 들면, 전자 기기는 단말, 서버 또는 다른 형태의 기기로서 제공된다. 도 17을 참조하면 기기(1900)는 하나 이상의 프로세서를 포함하는 처리 컴포넌트(1922) 및 처리 컴포넌트(1922)에 의해 실행 가능한 명령, 예를 들면, 애플리케이션 프로그램을 기억하기 위한 메모리(1932)를 대표로 하는 메모리 리소스를 포함한다. 메모리(1932)에 기억되는 애플리케이션 프로그램은 각각이 하나의 명령군에 대응하는 하나 이상의 모듈을 포함해도 된다. 또한, 처리 컴포넌트(1922)는 명령을 실행함으로써 상기 방법을 실행하도록 구성된다.
기기(1900)는 기기(1900)의 전원 관리를 실행하도록 구성된 하나의 전원 컴포넌트(1926), 기기(1900)를 네트워크에 접속하도록 구성된 하나의 유선 또는 무선 네트워크 인터페이스(1950) 및 하나의 입출력(I/O) 인터페이스(1958)를 추가로 포함해도 된다. 기기(1900)는 메모리(1932)에 기억되는 오퍼레이팅 시스템, 예를 들면, Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM 또는 유사한 것에 기초하여 동작할 수 있다.
예시적인 실시예에서는 추가로 컴퓨터 판독 가능한 기억 매체, 예를 들면, 컴퓨터 프로그램 명령을 포함하는 메모리(1932)가 제공되고, 상기 컴퓨터 프로그램 명령이 기기(1900)의 처리 컴포넌트(1922)에 의해 실행되면 상기 방법을 실행할 수 있다.
예시적인 실시예에서는 컴퓨터 판독 가능한 코드를 포함하는 컴퓨터 프로그램으로서, 상기 컴퓨터 판독 가능한 코드가 전자 기기에서 실행되면, 상기 전자 기기 내의 프로세서에 상기 방법을 실현하기 위한 명령을 실행시키는 컴퓨터 프로그램을 추가로 제공한다.
본원은 시스템, 방법 및/또는 컴퓨터 프로그램 제품이어도 된다. 컴퓨터 프로그램 제품은 프로세서에 본원의 각 방면을 실현시키기 위한 컴퓨터 판독 가능한 프로그램 명령을 갖고 있는 컴퓨터 판독 가능한 기억 매체를 포함해도 된다.
컴퓨터 판독 가능한 기억 매체는 명령 실행 장치에 의해 사용되는 명령을 저장 및 기억 가능한 유형 장치여도 된다. 컴퓨터 판독 가능한 기억 매체는 예를 들면, 전기 기억 장치, 자기 기억 장치, 광 기억 장치, 전자 기억 장치, 반도체 기억 장치 또는 이것들의 임의의 적당한 조합이어도 되지만, 이들에 한정되지 않는다. 컴퓨터 판독 가능한 기억 매체의 더욱 구체적인 예(비망라적 리스트)로는 휴대형 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그래머블 판독 전용 메모리(EPROM 또는 플래시 메모리), 정적 랜덤 액세스 메모리(SRAM), 휴대형 콤팩트 디스크 판독 전용 메모리(CD-ROM), 디지털 다용도 디스크(DVD), 메모리 스틱, 플로피 디스크, 예를 들면, 명령이 기억되어 있는 천공 카드 또는 슬롯 내 돌기 구조와 같은 기계적 부호화 장치 및 이것들의 임의의 적당한 조합을 포함한다. 여기서 사용되는 컴퓨터 판독 가능한 기억 매체는 순시 신호 자체, 예를 들면, 무선 전파 또는 기타 자유롭게 전파되는 전자파, 도파관 또는 다른 전송 매체를 경유하여 전파되는 전자파(예를 들면, 광파이버 케이블을 통과하는 펄스광) 또는 전선을 경유하여 전송되는 전기 신호로 해석되는 것은 아니다.
여기서 기술된 컴퓨터 판독 가능한 프로그램 명령은 컴퓨터 판독 가능한 기억 매체에서 각 계산/처리 기기에 다운로드되어도 되고, 또는 네트워크, 예를 들면, 인터넷, 로컬 에어리어 네트워크, 광역 네트워크 및/또는 무선 네트워크에 의해 외부 컴퓨터 또는 외부 기억 장치에 다운로드되어도 된다. 네트워크는 구리 전송 케이블, 광파이버 전송, 무선 전송, 라우터, 방화벽, 교환기, 게이트웨이 컴퓨터 및/또는 에지 서버를 포함해도 된다. 각 계산/처리 기기 내의 네트워크 어댑터 카드 또는 네트워크 인터페이스는 네트워크에서 컴퓨터 판독 가능한 프로그램 명령을 수신하고, 상기 컴퓨터 판독 가능한 프로그램 명령을 전송하고, 각 계산/처리 기기 내의 컴퓨터 판독 가능한 기억 매체에 기억시킨다.
본원의 동작을 실행하기 위한 컴퓨터 프로그램 명령은 어셈블러 명령, 명령 세트 아키텍처(ISA) 명령, 기계어 명령, 기계 의존 명령, 마이크로 코드, 펌웨어 명령, 상태 설정 데이터 또는 Smalltalk, C++ 등의 오브젝트 지향 프로그래밍 언어 및 「C」언어 또는 유사한 프로그래밍 언어 등의 일반적인 절차형 프로그래밍 언어를 포함하는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성된 소스 코드 또는 목적 코드(object code)여도 된다. 컴퓨터 판독 가능한 프로그램 명령은 완전히 사용자의 컴퓨터에서 실행되어도 되고, 부분적으로 사용자의 컴퓨터에서 실행되어도 되고, 독립형 소프트웨어 패키지로서 실행되어도 되고, 부분적으로 사용자의 컴퓨터에서 또한 부분적으로 리모트 컴퓨터에서 실행되어도 되고, 또는 완전히 리모트 컴퓨터 혹은 서버에서 실행되어도 된다. 리모트 컴퓨터에 관여하는 경우, 리모트 컴퓨터는 로컬 에어리어 네트워크(LAN) 또는 광역 네트워크(WAN)를 포함하는 임의의 종류의 네트워크를 경유하여 사용자의 컴퓨터에 접속되어도 되고, 또는 (예를 들면, 인터넷 서비스 프로바이더를 이용해 인터넷을 경유하여) 외부 컴퓨터에 접속되어도 된다. 일부 실시예에서는 컴퓨터 판독 가능한 프로그램 명령의 상태 정보를 이용하여, 예를 들면, 프로그래머블 논리 회로, 필드 프로그래머블 게이트 어레이(FPGA) 또는 프로그래머블 논리 어레이(PLA) 등의 전자 회로를 퍼스널라이즈하고, 상기 전자 회로에 의해 컴퓨터 판독 가능한 프로그램 명령을 실행함으로써, 본원의 각 방면을 실현하도록 해도 된다.
또한, 여기서 본원의 실시예에 따른 방법, 장치(시스템) 및 컴퓨터 프로그램 제품의 흐름도 및/또는 블록도를 참조하면서 본원의 각 방면을 설명했지만, 흐름도 및/또는 블록도의 각 블록 및 흐름도 및/또는 블록도의 각 블록의 조합은 전부 컴퓨터 판독 가능한 프로그램 명령에 의해 실현할 수 있음을 이해해야 한다.
상기 컴퓨터 판독 가능한 프로그램 명령은 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그래머블 데이터 처리 장치의 프로세서에 제공되어 상기 명령이 컴퓨터 또는 기타 프로그래머블 데이터 처리 장치의 프로세서에 의해 실행되면, 흐름도 및/또는 블록도의 하나 이상의 블록에서 지정된 기능/동작을 실현하도록 기계를 제조해도 된다. 또한, 상기 컴퓨터 판독 가능한 프로그램 명령은 컴퓨터 판독 가능한 기억 매체에 기억시키고, 컴퓨터, 프로그래머블 데이터 처리 장치 및/또는 기타 기기를 특정 방식으로 동작시키도록 해도 된다. 명령을 기억하고 있는 컴퓨터 판독 가능한 기억 매체에는 흐름도 및/또는 블록도의 하나 이상의 블록에서 지정된 기능/동작의 각 측면을 실현하기 위한 명령을 갖는 제품을 포함한다.
컴퓨터 판독 가능한 프로그램 명령을 컴퓨터, 기타 프로그래머블 데이터 처리 장치 또는 기타 기기에 로딩하고, 컴퓨터, 기타 프로그래머블 데이터 처리 장치 또는 기타 기기에 일련의 동작 단계를 실행시킴으로써, 컴퓨터에 의해 실행되는 프로세스를 생성하고, 컴퓨터, 기타 프로그래머블 데이터 처리 장치 또는 기타 장치에서 실행되는 명령에 의해 흐름도 및/또는 블록도의 하나 이상의 블록에서 지정된 기능/동작을 실현한다.
도면 중 흐름도 및 블록도는 본원의 복수의 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 실현 가능한 시스템 아키텍처, 기능 및 동작을 나타낸다. 이 점에서는 흐름도 또는 블록도에서의 각 블록은 하나의 모듈, 프로그램 세그먼트 또는 명령의 일부분을 대표할 수 있고, 상기 모듈, 프로그램 세그먼트 또는 명령의 일부분은 지정된 논리 기능을 실현하기 위한 하나 이상의 실행 가능 명령을 포함한다. 몇 가지 대안으로서의 실현 형태에서는 블록에 표기되는 기능은 도면에 기재된 순서와 상이하게 실현해도 된다. 예를 들면, 두 개의 연속적인 블록은 실질적으로 동시에 실행해도 되고, 또한 이러한 기능에 의해 반대 순서로 실행해도 된다. 또한, 블록도 및/또는 흐름도에서의 각 블록 및 블록도 및/또는 흐름도에서의 블록의 조합은 지정되는 기능 또는 동작을 실행하는 하드웨어에 기초하는 전용 시스템에 의해 실현해도 되고, 또는 전용 하드웨어와 컴퓨터 명령의 조합에 의해 실현해도 되는 것에도 주의해야 한다.
이상, 본원의 각 실시예를 기술했지만, 상기 설명은 예시적인 것에 불과하고, 망라적인 것이 아니며, 또한 개시된 각 실시예에 한정되는 것도 아니다. 당업자에게 있어서, 설명된 각 실시예의 범위 및 정신에서 벗어나지 않고, 다양한 수정 및 변경이 자명하다. 본 명세서에 선택된 용어는 각 실시예의 원리, 실제 적용 또는 시장에서의 기술에 대한 기술적 개선을 바람직하게 해석하거나, 또는 다른 당업자에게 본 명세서에 개시된 각 실시예를 이해시키기 위한 것이다.

Claims (31)

  1. 뉴럴 네트워크에 응용되는 대상물 예측 방법으로서,
    예측 대상의 대상물의 특징을 추출하여 상기 예측 대상의 대상물의 특징 정보를 얻는 것과,
    상기 특징 정보에 기초하여 상기 예측 대상의 대상물의 멀티 모달리티에 대한 복수의 중간 예측 결과를 특정하는 것과,
    상기 복수의 중간 예측 결과를 융합하여 융합 정보를 얻는 것과,
    상기 융합 정보에 기초하여 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정하는 것을 포함하고,
    상기 복수의 중간 예측 결과를 융합하여 융합 정보를 얻는 것은,
    상기 복수의 중간 예측 결과를 재처리하여 복수의 중간 예측 결과의 재처리 결과를 얻는 것과,
    상기 복수의 중간 예측 결과의 재처리 결과를 융합하여 융합 정보를 얻는 것을 포함하는, 대상물 예측 방법.
  2. 제 1 항에 있어서,
    예측 대상의 대상물의 특징을 추출하여 상기 예측 대상의 대상물의 특징 정보를 얻는 것은,
    예측 대상의 대상물의 특징을 추출하여 복수의 계층의 특징을 얻는 것과,
    상기 복수의 계층의 특징을 집약하여 상기 예측 대상의 대상물에 대한 특징 정보를 얻는 것을 포함하는, 대상물 예측 방법.
  3. 제 1 항에 있어서,
    상기 특징 정보에 기초하여 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하는 것은,
    상기 특징 정보를 재구성하여 복수의 재구성 특징을 얻는 것과,
    복수의 재구성 특징에 기초하여 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하는 것을 포함하는, 대상물 예측 방법.
  4. 삭제
  5. 제 1 항에 있어서,
    상기 복수의 중간 예측 결과의 재처리 결과를 융합하여 융합 정보를 얻는 것은,
    상기 복수의 중간 예측 결과의 재처리 결과를 중첩하여 융합 정보를 얻는 것을 포함하는, 대상물 예측 방법.
  6. 제 1 항에 있어서,
    상기 복수의 중간 예측 결과는 목표 예측 결과와의 관련도가 가장 높은 제1 중간 예측 결과 및 제2 중간 예측 결과를 포함하고,
    상기 복수의 중간 예측 결과의 재처리 결과를 융합하여 융합 정보를 얻는 것은,
    상기 제2 중간 예측 결과의 재처리 결과를 처리하여 참조 결과를 얻는 것과,
    상기 제1 중간 예측 결과의 재처리 결과와 상기 참조 결과를 중첩하여 상기 목표 예측 결과에 대한 융합 정보를 얻는 것을 포함하는, 대상물 예측 방법.
  7. 제 1 항에 있어서,
    상기 복수의 중간 예측 결과는 목표 예측 결과와의 관련도가 가장 높은 제1 중간 예측 결과 및 제2 중간 예측 결과를 포함하고,
    상기 복수의 중간 예측 결과의 재처리 결과를 융합하여 융합 정보를 얻는 것은,
    상기 제1 중간 예측 결과의 재처리 결과에 기초하여, 어텐션 메커니즘에 의해 특정되는 참조 계수인 어텐션 계수를 특정하는 것과,
    상기 제2 중간 예측 결과의 재처리 결과를 처리하여 참조 결과를 얻는 것과,
    상기 참조 결과와 상기 어텐션 계수의 내적을 구하여 어텐션 내용을 얻는 것과,
    상기 제1 중간 예측 결과의 재처리 결과와 상기 어텐션 내용을 중첩하여 상기 목표 예측 결과에 대한 융합 정보를 얻는 것을 포함하는, 대상물 예측 방법.
  8. 제 1 항에 있어서,
    상기 융합 정보에 기초하여 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정하는 것은,
    복수의 목표 예측 결과에 대한 융합 정보를 특정하는 것과,
    상기 융합 정보를 처리하여 목표 특징을 얻는 것과,
    상기 목표 특징에 기초하여 복수의 목표 예측 결과를 특정하는 것을 포함하는, 대상물 예측 방법.
  9. 제 1 항에 있어서,
    상기 뉴럴 네트워크는 예측 대상의 대상물에 기초하여 훈련하여 얻어지는, 대상물 예측 방법.
  10. 제 9 항에 있어서,
    예측 대상의 대상물에 기초하여 상기 뉴럴 네트워크를 훈련하는 단계는,
    상기 예측 대상의 대상물을 상기 뉴럴 네트워크에서의 특징 추출 네트워크에 입력하고 특징을 추출하여, 상기 예측 대상의 대상물에 대한 특징 정보를 얻는 것과,
    상기 특징 정보를 상기 뉴럴 네트워크에서의 제1 예측 네트워크에 입력하고 처리하여, 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하는 것과,
    상기 중간 예측 결과를 상기 뉴럴 네트워크의 융합 네트워크에 입력하고 융합하여 융합 정보를 얻는 것과,
    상기 융합 정보를 상기 뉴럴 네트워크에서의 복수의 제2 예측 네트워크에 각각 입력하고 처리하여, 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정하는 것과,
    상기 복수의 중간 예측 결과, 복수의 중간 예측 결과의 어노테이션 정보, 복수의 목표 예측 결과, 및 복수의 목표 예측 결과의 어노테이션 정보에 기초하여, 상기 뉴럴 네트워크의 모델 손실을 특정하는 것과,
    상기 모델 손실에 기초하여 상기 뉴럴 네트워크의 네트워크 파라미터값을 조정하는 것을 포함하는, 대상물 예측 방법.
  11. 제 10 항에 있어서,
    예측 대상의 대상물에 기초하여 상기 뉴럴 네트워크를 훈련하는 단계는 추가로,
    상기 예측 대상의 대상물을 상기 뉴럴 네트워크에서의 특징 추출 네트워크에 입력하고 특징을 추출하여, 상기 예측 대상의 대상물에 대한 특징 정보를 얻기 전에, 상기 복수의 목표 예측 결과의 어노테이션 정보를 특정하는 것과,
    상기 복수의 목표 예측 결과의 어노테이션 정보에 기초하여 상기 복수의 중간 예측 결과의 어노테이션 정보를 특정하는 것을 포함하는, 대상물 예측 방법.
  12. 제 1 항에 있어서,
    상기 특징 정보에 기초하여 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하는 것은,
    상기 특징 정보에 기초하여, 상기 예측 대상의 대상물에 대한 심도 추정 중간 예측 결과, 표면 법선 중간 예측 결과, 윤곽 중간 예측 결과, 및 시멘틱 세그먼테이션 중간 예측 결과를 특정하는 것을 포함하고,
    상기 복수의 중간 예측 결과를 융합하여 융합 정보를 얻는 것은,
    상기 심도 추정 중간 예측 결과, 상기 표면 법선 중간 예측 결과, 상기 윤곽 중간 예측 결과, 및 상기 시멘틱 세그먼테이션 중간 예측 결과를 융합하여 융합 정보를 얻는 것을 포함하고,
    상기 융합 정보에 기초하여 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정하는 단계는,
    상기 융합 정보에 기초하여 상기 예측 대상의 대상물에 대한 심도 추정 결과 및 장면 분할 결과를 특정하는 것을 포함하는, 대상물 예측 방법.
  13. 뉴럴 네트워크에 응용되는 대상물 예측 방법으로서,
    예측 대상의 대상물을 뉴럴 네트워크에서의 특징 추출 네트워크에 입력하고 특징을 추출하여, 상기 예측 대상의 대상물에 대한 특징 정보를 얻는 것과,
    상기 특징 정보를 상기 뉴럴 네트워크에서의 제1 예측 네트워크에 입력하고 처리하여, 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하는 것과,
    상기 중간 예측 결과를 상기 뉴럴 네트워크의 융합 네트워크에 입력하고 융합하여 융합 정보를 얻는 것과,
    상기 융합 정보를 상기 뉴럴 네트워크에서의 복수의 제2 예측 네트워크에 각각 입력하고 처리하여, 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정하는 것과,
    상기 복수의 중간 예측 결과, 복수의 중간 예측 결과의 어노테이션 정보, 복수의 목표 예측 결과, 및 복수의 목표 예측 결과의 어노테이션 정보에 기초하여, 상기 뉴럴 네트워크의 모델 손실을 특정하는 것과,
    상기 모델 손실에 기초하여 상기 뉴럴 네트워크의 네트워크 파라미터값을 조정하는 것을 포함하는, 대상물 예측 방법.
  14. 제 13 항에 있어서,
    예측 대상의 대상물을 뉴럴 네트워크에서의 특징 추출 네트워크에 입력하고 특징을 추출하여, 상기 예측 대상의 대상물에 대한 특징 정보를 얻기 전에, 상기 복수의 목표 예측 결과의 어노테이션 정보를 특정하는 것과,
    상기 복수의 목표 예측 결과의 어노테이션 정보에 기초하여 상기 복수의 중간 예측 결과의 어노테이션 정보를 특정하는 것을 추가로 포함하는, 대상물 예측 방법.
  15. 뉴럴 네트워크에 응용되는 대상물 예측 장치로서,
    예측 대상의 대상물의 특징을 추출하여 상기 예측 대상의 대상물의 특징 정보를 얻도록 구성된 특징 추출 모듈과,
    상기 특징 정보에 기초하여 상기 예측 대상의 대상물의 멀티 모달리티에 대한 복수의 중간 예측 결과를 특정하도록 구성된 중간 예측 결과 특정 모듈과,
    상기 복수의 중간 예측 결과를 융합하여 융합 정보를 얻도록 구성된 융합 모듈과,
    상기 융합 정보에 기초하여 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정하도록 구성된 목표 예측 결과 특정 모듈을 포함하고,
    상기 융합 모듈은,
    상기 복수의 중간 예측 결과를 재처리하여 복수의 중간 예측 결과의 재처리 결과를 얻도록 구성된 재처리 결과 취득 서브 모듈과,
    상기 복수의 중간 예측 결과의 재처리 결과를 융합하여 융합 정보를 얻도록 구성된 융합 정보 취득 서브 모듈을 포함하는, 대상물 예측 장치.
  16. 제 15 항에 있어서,
    상기 특징 추출 모듈은,
    예측 대상의 대상물의 특징을 추출하여 복수의 계층의 특징을 얻도록 구성된 특징 취득 서브 모듈과,
    상기 복수의 계층의 특징을 집약하여 상기 예측 대상의 대상물에 대한 특징 정보를 얻도록 구성된 특징 정보 취득 서브 모듈을 포함하는, 대상물 예측 장치.
  17. 제 15 항에 있어서,
    상기 중간 예측 결과 특정 모듈은,
    상기 특징 정보를 재구성하여 복수의 재구성 특징을 얻도록 구성된 재구성 특징 취득 서브 모듈과,
    복수의 재구성 특징에 기초하여 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하도록 구성된 중간 예측 결과 취득 서브 모듈을 포함하는, 대상물 예측 장치.
  18. 삭제
  19. 제 15 항에 있어서,
    상기 융합 정보 취득 서브 모듈은,
    상기 복수의 중간 예측 결과의 재처리 결과를 중첩하여 융합 정보를 얻도록 구성되는, 대상물 예측 장치.
  20. 제 15 항에 있어서,
    상기 복수의 중간 예측 결과는 목표 예측 결과와의 관련도가 가장 높은 제1 중간 예측 결과 및 제2 중간 예측 결과를 포함하고,
    상기 융합 정보 취득 서브 모듈은,
    상기 제2 중간 예측 결과의 재처리 결과를 처리하여 참조 결과를 얻는 것과,
    상기 제1 중간 예측 결과의 재처리 결과와 상기 참조 결과를 중첩하여, 상기 목표 예측 결과에 대한 융합 정보를 얻는 것에 사용되도록 구성되는, 대상물 예측 장치.
  21. 제 15 항에 있어서,
    상기 복수의 중간 예측 결과는 목표 예측 결과와의 관련도가 가장 높은 제1 중간 예측 결과 및 제2 중간 예측 결과를 포함하고,
    상기 융합 정보 취득 서브 모듈은,
    상기 제1 중간 예측 결과의 재처리 결과에 기초하여, 어텐션 메커니즘에 의해 특정되는 참조 계수인 어텐션 계수를 특정하는 것과,
    상기 제2 중간 예측 결과의 재처리 결과를 처리하여 참조 결과를 얻는 것과,
    상기 참조 결과와 상기 어텐션 계수의 내적을 구하여 어텐션 내용을 얻는 것과,
    상기 제1 중간 예측 결과의 재처리 결과와 상기 어텐션 내용을 중첩하여, 상기 목표 예측 결과에 대한 융합 정보를 얻는 것에 사용되도록 구성되는, 대상물 예측 장치.
  22. 제 15 항에 있어서,
    상기 목표 예측 결과 특정 모듈은,
    복수의 목표 예측 결과에 대한 융합 정보를 특정하도록 구성된 융합 정보 특정 서브 모듈과,
    상기 융합 정보를 처리하여 목표 특징을 얻도록 구성된 목표 특징 취득 서브 모듈과,
    상기 목표 특징에 기초하여 복수의 목표 예측 결과를 특정하도록 구성된 목표 예측 결과 특정 서브 모듈을 포함하는, 대상물 예측 장치.
  23. 제 15 항에 있어서,
    상기 뉴럴 네트워크는 예측 대상의 대상물에 기초하여 훈련하여 얻어지는, 대상물 예측 장치.
  24. 제 23 항에 있어서,
    상기 예측 대상의 대상물을 상기 뉴럴 네트워크에서의 특징 추출 네트워크에 입력하고 특징을 추출하여, 상기 예측 대상의 대상물에 대한 특징 정보를 얻도록 구성된 제1 취득 모듈과,
    상기 특징 정보를 상기 뉴럴 네트워크에서의 제1 예측 네트워크에 입력하고 처리하여, 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하도록 구성된 제1 특정 모듈과,
    상기 중간 예측 결과를 상기 뉴럴 네트워크의 융합 네트워크에 입력하고 융합하여 융합 정보를 얻도록 구성된 제2 취득 모듈과,
    상기 융합 정보를 상기 뉴럴 네트워크에서의 복수의 제2 예측 네트워크에 각각 입력하고 처리하여, 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정하도록 구성된 제2 특정 모듈과,
    상기 복수의 중간 예측 결과, 복수의 중간 예측 결과의 어노테이션 정보, 복수의 목표 예측 결과, 및 복수의 목표 예측 결과의 어노테이션 정보에 기초하여, 상기 뉴럴 네트워크의 모델 손실을 특정하도록 구성된 제3 특정 모듈과,
    상기 모델 손실에 기초하여 상기 뉴럴 네트워크의 네트워크 파라미터값을 조정하도록 구성된 네트워크 파라미터값 조정 모듈을 추가로 포함하는, 대상물 예측 장치.
  25. 제 24 항에 있어서,
    상기 예측 대상의 대상물을 상기 뉴럴 네트워크에서의 특징 추출 네트워크에 입력하고 특징을 추출하여, 상기 예측 대상의 대상물에 대한 특징 정보를 얻기 전에, 상기 복수의 목표 예측 결과의 어노테이션 정보를 특정하도록 구성된 어노테이션 정보 특정 모듈과,
    상기 복수의 목표 예측 결과의 어노테이션 정보에 기초하여 상기 복수의 중간 예측 결과의 어노테이션 정보를 특정하도록 구성된 중간 어노테이션 정보 특정 모듈을 추가로 포함하는, 대상물 예측 장치.
  26. 제 15 항에 있어서,
    상기 중간 예측 결과 특정 모듈은,
    상기 특징 정보에 기초하여, 상기 예측 대상의 대상물에 대한 심도 추정 중간 예측 결과, 표면 법선 중간 예측 결과, 윤곽 중간 예측 결과, 및 시멘틱 세그먼테이션 중간 예측 결과를 특정하도록 구성된 제1 특정 서브 모듈을 포함하고,
    상기 융합 모듈은,
    상기 심도 추정 중간 예측 결과, 상기 표면 법선 중간 예측 결과, 상기 윤곽 중간 예측 결과, 및 상기 시멘틱 세그먼테이션 중간 예측 결과를 융합하여 융합 정보를 얻도록 구성된 취득 서브 모듈을 포함하고,
    상기 목표 예측 결과 특정 모듈은,
    상기 융합 정보에 기초하여, 상기 예측 대상의 대상물에 대한 심도 추정 결과 및 장면 분할 결과를 특정하도록 구성된 제2 특정 서브 모듈을 포함하는, 대상물 예측 장치.
  27. 뉴럴 네트워크에 응용되는 대상물 예측 장치로서,
    예측 대상의 대상물을 뉴럴 네트워크에서의 특징 추출 네트워크에 입력하고 특징을 추출하여, 상기 예측 대상의 대상물에 대한 특징 정보를 얻도록 구성된 제1 정보 취득 모듈과,
    상기 특징 정보를 상기 뉴럴 네트워크에서의 제1 예측 네트워크에 입력하고 처리하여, 상기 예측 대상의 대상물에 대한 복수의 중간 예측 결과를 특정하도록 구성된 제1 결과 특정 모듈과,
    상기 중간 예측 결과를 상기 뉴럴 네트워크의 융합 네트워크에 입력하고 융합하여 융합 정보를 얻도록 구성된 제2 정보 취득 모듈과,
    상기 융합 정보를 상기 뉴럴 네트워크에서의 복수의 제2 예측 네트워크에 각각 입력하고 처리하여, 상기 예측 대상의 대상물에 대한 복수의 목표 예측 결과를 특정하도록 구성된 제2 결과 특정 모듈과,
    상기 복수의 중간 예측 결과, 복수의 중간 예측 결과의 어노테이션 정보, 복수의 목표 예측 결과, 및 복수의 목표 예측 결과의 어노테이션 정보에 기초하여, 상기 뉴럴 네트워크의 모델 손실을 특정하도록 구성된 모델 손실 특정 모듈과,
    상기 모델 손실에 기초하여 상기 뉴럴 네트워크의 네트워크 파라미터값을 조정하도록 구성된 파라미터 조정 모듈을 포함하는, 대상물 예측 장치.
  28. 제 27 항에 있어서,
    예측 대상의 대상물을 뉴럴 네트워크에서의 특징 추출 네트워크에 입력하고 특징을 추출하여, 상기 예측 대상의 대상물에 대한 특징 정보를 얻기 전에, 상기 복수의 목표 예측 결과의 어노테이션 정보를 특정하도록 구성된 제1 정보 특정 모듈과,
    상기 복수의 목표 예측 결과의 어노테이션 정보에 기초하여, 상기 복수의 중간 예측 결과의 어노테이션 정보를 특정하도록 구성된 제2 정보 특정 모듈을 추가로 포함하는, 대상물 예측 장치.
  29. 제 1 항 내지 제 3 항 및 제 5 항 내지 제 14 항 중 어느 한 항의 대상물 예측 방법을 실행하도록 구성된 프로세서와,
    상기 프로세서가 실행 가능한 명령을 기억하기 위한 메모리를 포함하는, 전자 기기.
  30. 컴퓨터 프로그램 명령이 기억되어 있는 컴퓨터 판독 가능한 기억 매체로서,
    상기 컴퓨터 프로그램 명령이 프로세서에 의해 실행되면, 제 1 항 내지 제 3 항 및 제 5 항 내지 제 14 항 중 어느 한 항의 대상물 예측 방법을 실현하는, 컴퓨터 판독 가능한 기억 매체.
  31. 컴퓨터 판독 가능한 코드를 포함하는 컴퓨터 프로그램으로서, 상기 컴퓨터 판독 가능한 코드가 전자 기기에서 실행되면, 상기 전자 기기 내의 프로세서에 제 1 항 내지 제 3 항 및 제 5 항 내지 제 14 항 중 어느 한 항의 대상물 예측 방법을 실현하기 위한 명령을 실행시키는, 컴퓨터로 판독 가능한 기억 매체에 기억된 컴퓨터 프로그램. 
KR1020207022191A 2018-05-04 2019-03-06 대상물 예측 방법 및 장치, 전자 기기 및 기억 매체 KR102406765B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810421005.XA CN110443266B (zh) 2018-05-04 2018-05-04 对象预测方法及装置、电子设备和存储介质
CN201810421005.X 2018-05-04
PCT/CN2019/077152 WO2019210737A1 (zh) 2018-05-04 2019-03-06 对象预测方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
KR20200105500A KR20200105500A (ko) 2020-09-07
KR102406765B1 true KR102406765B1 (ko) 2022-06-08

Family

ID=68386249

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207022191A KR102406765B1 (ko) 2018-05-04 2019-03-06 대상물 예측 방법 및 장치, 전자 기기 및 기억 매체

Country Status (6)

Country Link
US (1) US11593596B2 (ko)
JP (1) JP7085632B2 (ko)
KR (1) KR102406765B1 (ko)
CN (1) CN110443266B (ko)
SG (1) SG11202007158UA (ko)
WO (1) WO2019210737A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930386B (zh) * 2019-11-20 2024-02-20 重庆金山医疗技术研究院有限公司 图像处理方法、装置、设备及存储介质
CN111767810B (zh) * 2020-06-18 2022-08-02 哈尔滨工程大学 一种基于D-LinkNet的遥感图像道路提取方法
EP4094199A1 (en) * 2020-07-14 2022-11-30 Google LLC Neural network models using peer-attention
US20220201317A1 (en) * 2020-12-22 2022-06-23 Ssimwave Inc. Video asset quality assessment and encoding optimization to achieve target quality requirement
US20240193923A1 (en) * 2021-04-28 2024-06-13 Beijing Baidu Netcom Science Technology Co., Ltd. Method of training target object detection model, method of detecting target object, electronic device and storage medium
CN113313511A (zh) * 2021-04-30 2021-08-27 北京奇艺世纪科技有限公司 一种视频流量预测方法、装置、电子设备及介质
CN113947246B (zh) * 2021-10-21 2023-06-13 腾讯科技(深圳)有限公司 基于人工智能的流失处理方法、装置及电子设备
CN114511452B (zh) * 2021-12-06 2024-03-19 中南大学 融合多尺度空洞卷积和三元组注意力的遥感图像检索方法
CN114639070B (zh) * 2022-03-15 2024-06-04 福州大学 融合注意力机制的人群运动流量分析方法
CN117457101B (zh) * 2023-12-22 2024-03-26 中国农业科学院烟草研究所(中国烟草总公司青州烟草研究所) 一种烘烤烟叶含水量预测方法、介质及系统
CN118133191A (zh) * 2024-05-08 2024-06-04 海信集团控股股份有限公司 一种多模态数据的目标检测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101169827A (zh) 2007-12-03 2008-04-30 北京中星微电子有限公司 一种对图像中的特征点进行跟踪的方法及装置
CN106203318A (zh) * 2016-06-29 2016-12-07 浙江工商大学 基于多层次深度特征融合的摄像机网络行人识别方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7596243B2 (en) * 2005-09-16 2009-09-29 Sony Corporation Extracting a moving object boundary
WO2015078017A1 (en) * 2013-11-30 2015-06-04 Xiaoou Tang Method and system for exacting face features from data of face images
CN104217216B (zh) * 2014-09-01 2017-10-17 华为技术有限公司 生成检测模型的方法和设备、用于检测目标的方法和设备
US10860837B2 (en) * 2015-07-20 2020-12-08 University Of Maryland, College Park Deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition
US10417529B2 (en) * 2015-09-15 2019-09-17 Samsung Electronics Co., Ltd. Learning combinations of homogenous feature arrangements
KR20170050448A (ko) * 2015-10-30 2017-05-11 삼성에스디에스 주식회사 이미지 상의 객체 검출 방법 및 객체 검출 장치
US10275684B2 (en) 2015-11-04 2019-04-30 Samsung Electronics Co., Ltd. Authentication method and apparatus, and method and apparatus for training a recognizer
US10002313B2 (en) * 2015-12-15 2018-06-19 Sighthound, Inc. Deeply learned convolutional neural networks (CNNS) for object localization and classification
CN105701508B (zh) * 2016-01-12 2017-12-15 西安交通大学 基于多级卷积神经网络的全局‑局部优化模型及显著性检测算法
US10467459B2 (en) * 2016-09-09 2019-11-05 Microsoft Technology Licensing, Llc Object detection based on joint feature extraction
CN106845549B (zh) * 2017-01-22 2020-08-21 珠海习悦信息技术有限公司 一种基于多任务学习的场景与目标识别的方法及装置
CN107704866B (zh) * 2017-06-15 2021-03-23 清华大学 基于新型神经网络的多任务场景语义理解模型及其应用
CN109493347B (zh) * 2017-09-12 2021-03-23 深圳科亚医疗科技有限公司 在图像中对稀疏分布的对象进行分割的方法和系统
US11037032B2 (en) * 2017-10-06 2021-06-15 Wisconsin Alumni Research Foundation Methods, systems, and media for detecting the presence of an analyte
CN108108657B (zh) * 2017-11-16 2020-10-30 浙江工业大学 基于多任务深度学习的修正局部敏感哈希车辆检索方法
CN107967451B (zh) * 2017-11-23 2021-04-27 常州大学 一种对静止图像进行人群计数的方法
CN107958216A (zh) * 2017-11-27 2018-04-24 沈阳航空航天大学 基于半监督的多模态深度学习分类方法
US10740654B2 (en) * 2018-01-22 2020-08-11 Qualcomm Incorporated Failure detection for a neural network object tracker

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101169827A (zh) 2007-12-03 2008-04-30 北京中星微电子有限公司 一种对图像中的特征点进行跟踪的方法及装置
CN106203318A (zh) * 2016-06-29 2016-12-07 浙江工商大学 基于多层次深度特征融合的摄像机网络行人识别方法

Also Published As

Publication number Publication date
JP7085632B2 (ja) 2022-06-16
CN110443266B (zh) 2022-06-24
SG11202007158UA (en) 2020-08-28
KR20200105500A (ko) 2020-09-07
US11593596B2 (en) 2023-02-28
JP2021512407A (ja) 2021-05-13
CN110443266A (zh) 2019-11-12
US20200364518A1 (en) 2020-11-19
WO2019210737A1 (zh) 2019-11-07

Similar Documents

Publication Publication Date Title
KR102406765B1 (ko) 대상물 예측 방법 및 장치, 전자 기기 및 기억 매체
Wang et al. Adaptive fusion for RGB-D salient object detection
KR102593020B1 (ko) 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체
CN111738231B (zh) 目标对象检测方法、装置、计算机设备和存储介质
EP4156017A1 (en) Action recognition method and apparatus, and device and storage medium
KR102095097B1 (ko) 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템 및 그 방법
CN113066017B (zh) 一种图像增强方法、模型训练方法及设备
Dong et al. IoT-based 3D convolution for video salient object detection
KR20220038475A (ko) 비디오 콘텐츠 인식 방법 및 장치, 저장 매체, 및 컴퓨터 디바이스
WO2023174098A1 (zh) 一种实时手势检测方法及装置
CN114973049B (zh) 一种统一卷积与自注意力的轻量视频分类方法
CN113486887B (zh) 三维场景下的目标检测方法和装置
CN114494981B (zh) 一种基于多层次运动建模的动作视频分类方法及系统
WO2021046953A1 (zh) 一种图像的超分辨率处理方法、系统及设备
JP7213291B2 (ja) 画像を生成するための方法及装置
US20210158554A1 (en) Artificial intelligence for generating depth map
Tripathy et al. AMS-CNN: Attentive multi-stream CNN for video-based crowd counting
CN115249304A (zh) 检测分割模型的训练方法、装置、电子设备和存储介质
CN114821488A (zh) 基于多模态网络的人群计数方法、系统及计算机设备
WO2023091249A1 (en) Neural semantic fields for generalizable semantic segmentation of 3d scenes
Zhou et al. Pass: Patch automatic skip scheme for efficient on-device video perception
CN115495677B (zh) 视频的时空定位方法和存储介质
Kang et al. Tunable U-Net: Controlling image-to-image outputs using a tunable scalar value
O’Mahony et al. Convolutional Neural Networks for 3D Vision System Data: A review
Rezaei Abkenar et al. Salient region detection using feature extraction in the non‐subsampled contourlet domain

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant