KR20200049833A - 깊이 추정 방법 및 장치, 전자 기기, 프로그램 및 매체 - Google Patents

깊이 추정 방법 및 장치, 전자 기기, 프로그램 및 매체 Download PDF

Info

Publication number
KR20200049833A
KR20200049833A KR1020207009470A KR20207009470A KR20200049833A KR 20200049833 A KR20200049833 A KR 20200049833A KR 1020207009470 A KR1020207009470 A KR 1020207009470A KR 20207009470 A KR20207009470 A KR 20207009470A KR 20200049833 A KR20200049833 A KR 20200049833A
Authority
KR
South Korea
Prior art keywords
image
neural network
binocular
sample
parallax
Prior art date
Application number
KR1020207009470A
Other languages
English (en)
Other versions
KR102295403B1 (ko
Inventor
유에 루오
시지에 렌
Original Assignee
선전 센스타임 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 선전 센스타임 테크놀로지 컴퍼니 리미티드 filed Critical 선전 센스타임 테크놀로지 컴퍼니 리미티드
Publication of KR20200049833A publication Critical patent/KR20200049833A/ko
Application granted granted Critical
Publication of KR102295403B1 publication Critical patent/KR102295403B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • G06T7/85Stereo camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 발명 실시예는 깊이 추정 방법 및 장치, 전자 기기, 프로그램 및 매체를 개시하였고, 상기 방법은 단일 그림을 양안 이미지 중의 제1 이미지로 하여, 제1 뉴럴 네트워크를 통해, 상기 제1 이미지에 기반하여 상기 양안 이미지 중의 제2 이미지를 획득하는 단계; 및 제2 뉴럴 네트워크를 통해, 상기 제1 이미지와 상기 제2 이미지에 대해 양안 스테레오 매칭을 수행함으로써, 상기 제1 이미지에 대응하는 깊이 정보를 획득하는 단계를 포함한다. 본 발명 실시예에 있어서, 양안 카메라가 필요 없이 단일 그림에 기반하여 깊이 추정을 구현함으로써, 양안 카메라에 의해 생성된 추가적인 하드웨어의 비용 지출을 방지하여, 비용을 감소시키며; 또한 양안 카메라의 설정이 정확하지 않음으로 인한 깊이 정보의 오류를 방지할 수 있어, 깊이 추정의 정확성을 향상시킨다.

Description

깊이 추정 방법 및 장치, 전자 기기, 프로그램 및 매체
본 발명은 2018년 02월 01일에 중국 특허청에 제출한 출원 번호가 CN 201810103195.0이고, 발명의 명칭이 “깊이 추정 방법 및 장치, 전자 기기, 프로그램 및 매체”인 중국 특허 출원의 우선권을 요청하며, 그 전부 내용을 원용하여 본 발명에 결합하였다.
본 발명은 컴퓨터 비전 기술에 관한 것으로, 특히 깊이 추정 방법 및 장치, 전자 기기, 컴퓨터 프로그램 및 컴퓨터 판독 가능한 저장 매체에 관한 것이다.
깊이 추정은 컴퓨터 비전 분야에서 중요한 문제이다. 정확한 깊이 추정 방법은 자율주행, 3D 장면 재구축 및 증강 현실 등과 같은 많은 분야에서 중요한 이용 가치를 갖는다.
컨볼루션 뉴럴 네트워크 발전의 구동 하에, 깊이 추정 관련 기술은 빠르게 발전하였다.
본 발명 실시예는 깊이 추정 기술 방안을 제공한다.
본 발명 실시예의 일 측면에 따르면, 깊이 추정 방법을 제공하였고, 상기 깊이 추정 방법은,
단일 그림을 양안 이미지 중의 제1 이미지로 하여, 제1 뉴럴 네트워크를 통해, 상기 제1 이미지에 기반하여 상기 양안 이미지 중의 제2 이미지를 획득하는 단계; 및
제2 뉴럴 네트워크를 통해, 상기 제1 이미지와 상기 제2 이미지에 대해 양안 스테레오 매칭을 수행함으로써, 상기 제1 이미지에 대응하는 깊이 정보를 획득하는 단계를 포함한다.
본 발명 실시예의 다른 하나의 측면에 따르면, 깊이 추정 장치를 제공하며, 상기 깊이 추정 장치는,
단일 그림을 양안 이미지 중의 제1 이미지로 하여, 제1 뉴럴 네트워크를 통해, 상기 제1 이미지에 기반하여 상기 양안 이미지 중의 제2 이미지를 획득하기 위한 이미지 획득 모듈; 및
제2 뉴럴 네트워크를 통해, 상기 제1 이미지와 상기 제2 이미지에 대해 양안 스테레오 매칭을 수행함으로써, 상기 제1 이미지에 대응하는 깊이 정보를 획득하기 위한 스테레오 매칭 모듈을 포함한다.
본 발명 실시예의 다른 측면에 따르면, 전자 기기를 제공하며, 상기 전자 기기는,
실행 가능한 명령어를 저장하기 위한 메모리; 및
상기 실행 가능한 명령어를 실행함으로써 본 발명의 상기 임의의 실시예에 따른 방법의 단계를 완료하기 위해 상기 메모리와 통신하기 위한 프로세서를 포함한다.
본 발명 실시예의 또 다른 측면에 따르면, 컴퓨터 판독 가능한 코드를 포함하는 컴퓨터 프로그램을 제공하며, 상기 컴퓨터 판독 가능한 코드가 기기에서 작동될 때, 상기 기기 중의 프로세서는 본 발명 상기 실시예 중 어느 하나에 따른 상기 방법의 단계를 구현하기 위한 명령어를 실행한다.
본 발명 실시예의 또 다른 측면에 따르면, 컴퓨터 판독 가능한 명령어를 저장하기 위한 컴퓨터 판독 가능한 저장 매체를 제공하며, 상기 명령어가 실행될 때 본 발명 상기 실시예 중 어느 하나에 따른 상기 방법의 단계를 구현한다.
본 발명의 상기 실시예에 의해 제공되는 깊이 추정 방법 및 장치, 전자 기기, 컴퓨터 프로그램 및 컴퓨터 판독 가능한 저장 매체에 기반하여, 단일 그림을 양안 이미지 중의 제1 이미지로 하여, 제1 뉴럴 네트워크를 통해, 제1 이미지에 기반하여 양안 이미지 중의 제2 이미지를 획득하고, 제2 뉴럴 네트워크를 통해, 제1 이미지와 제2 이미지에 대해 양안 스테레오 매칭을 수행함으로써, 제1 이미지에 대응하는 깊이 정보를 획득하며, 따라서 단일 그림에 기반하여 양안 카메라가 필요 없이 상기 단일 그림 중의 장면의 깊이 추정을 구현함으로써, 양안 카메라에 의해 생성된 추가적인 하드웨어의 비용 지출을 방지하여, 비용을 감소시키며; 또한 양안 카메라의 설정이 정확하지 않음으로 인한 깊이 정보의 오류를 방지할 수 있어, 깊이 추정의 정확성을 향상시킨다.
아래에 도면 및 실시예를 통해, 본 발명의 기술방안을 더욱 상세히 설명한다.
본 명세서의 일부를 구성하는 도면은 본 발명의 실시예를 설명하고, 본 발명의 원리를 설명과 함께 설명하기 위한 것이다.
이하의 상세한 설명에 따르면, 도면을 참조하여 보다 명확하게 본 발명을 이해할 수 있다.
도 1은 본 발명 깊이 추정 방법의 일 실시예의 흐름도이다.
도 2는 본 발명 깊이 추정 방법의 다른 일 실시예의 흐름도이다.
도 3은 본 발명 깊이 추정 방법의 일 응용 실시예의 흐름도이다.
도 4는 도 3에 도시된 실시예에 대응하는 예시적 블록도이다.
도 5는 본 발명 깊이 추정 장치의 일 실시예의 구조 예시도이다.
도 6은 본 발명 깊이 추정 장치의 다른 일 실시예의 구조 예시도이다.
도 7은 본 발명 깊이 추정 장치의 또 다른 일 실시예의 구조 예시도이다.
도 8은 본 발명 전자 기기의 일 응용 실시예의 구조 예시도이다.
이하, 도면을 참조하여 본 발명의 다양한 예시적 실시예를 상세히 설명한다. 유의해야 할 것은, 달리 구체적으로 업급되지 않는 한, 이러한 실시예들에서 제시된 구성 요소, 단계의 상대적 배열, 숫자 표현 및 값은 본 발명의 범위를 한정하지 않는다.
또한, 설명의 편의를 위해, 도면에 도시된 각 부분의 크기는 실제 비율로 도시되지 않았다는 것을 이해해야 한다.
적어도 하나의 예시적 실시예에 대한 다음의 설명은 실제로 예시적일 뿐이며, 본 발명 및 그 응용 또는 사용을 한정하려는 것은 아니다.
관련 기술분야의 통상의 기술자에게 공지된 기술, 방법 및 기기는 상세하게 논의되지 않을 수 있지만, 상기 기술, 방법 및 기기는 적절한 상황에서 본 명세서의 일부로서 고려되어야 한다.
유의해야 할 것은, 다음의 도면에서 유사한 참조 번호와 문자는 유사한 항목을 표시하므로, 어느 한 항목이 하나의 도면에서 정의되면, 후속 도면에서 이에 대해 추가로 논의할 필요가 없다.
본 발명 실시예들은 다수의 다른 범용 또는 특수 목적 컴퓨팅 시스템 환경 또는 구성과 함께 동작될 수 있는 단말 기기, 컴퓨터 시스템 및 서버와 같은 전자 기기에 응용될 수 있다. 단말 기기, 컴퓨터 시스템 및 서버와 같은 전자 기기와 함께 사용되기에 적합한 잘 알려진 단말 기기, 컴퓨팅 시스템, 환경 및 구성 중 적어도 하나의 예는 개인용 컴퓨터 시스템, 서버 컴퓨터 시스템, 씬 클라이언트, 씩 클라이언트, 핸드헬드 또는 랩톱 기기, 마이크로 프로세서 기반 시스템, 셋톱 박스, 프로그래머블 가전 제품, 네트워크 개인용 컴퓨터, 소형 컴퓨터 시스템, 메인 프레임 컴퓨터 시스템 및 상기 임의의 시스템을 포함한 분산 클라우드 컴퓨팅 기술 환경을 포함하나 이에 한정되지 않는다.
단말 기기, 컴퓨터 시스템, 서버 등 전자 기기는 컴퓨터 시스템에 의해 수행되는 컴퓨터 시스템의 수행 가능 명령어(예를 들어, 프로그램 모듈)의 일반적인 맥락에서 설명될 수 있다. 일반적으로, 프로그램 모듈은 특정 작업을 실행하거나 특정 추상 데이터 타입을 구현하기 위한 루틴, 프로그램, 타겟 프로그램, 어셈블리, 논리, 데이터 구조 등을 포함할 수 있다. 컴퓨터 시스템/서버는 작업이 통신 네트워크를 통해 연결된 원격 처리 장치에 의해 실행되는 분산 클라우드 컴퓨팅 환경에서 구현 될 수있다. 분산 클라우드 컴퓨팅 환경에서, 프로그램 모듈은 저장 기기를 포함하는 로컬 또는 원격 컴퓨팅 시스템 저장 매체에 위치할 수 있다.
도 1은 본 발명 깊이 추정 방법의 일 실시예의 흐름도이다. 도 1에 도시된 바와 같이, 상기 실시예의 깊이 추정 방법은 다음의 단계를 포함한다.
단계 102에 있어서, 단일 그림을 양안 이미지 중의 제1 이미지로 하여, 제1 뉴럴 네트워크를 통해, 상기 제1 이미지에 기반하여 양안 이미지 중의 제2 이미지를 획득한다.
양안 이미지는 양안 카메라를 통해 촬영된 2 개의 이미지이거나, 다안 카메라에 의해 촬영된 복수 개의 이미지 중의 2 개의 이미지이며, 왼쪽 이미지 및 오른쪽 이미지로 지칭될 수 있다. 여기서, 제1 이미지가 왼쪽 이미지이면, 제2 이미지는 오른쪽 이미지이고; 또는, 제1 이미지가 오른쪽 이미지이면, 제2 이미지는 왼쪽 이미지이다. 또한, 양안 이미지는 메인 이미지 및 서브 이미지로 지칭될 수 있고, 양안 이미지 중의 어느 하나의 이미지가 메인 이미지로이면, 다른 하나의 이미지는 서브 이미지이다.
하나의 선택적인 예에서, 상기 단계 102는 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 수행될 수 있거나, 프로세서에 의해 작동되는 이미지 획득 모듈에 의해 실행될 수도 있다.
단계 104에 있어서, 제2 뉴럴 네트워크를 통해, 상기 제1 이미지와 제2 이미지에 대해 양안 스테레오 매칭을 수행함으로써, 상기 제1 이미지에 대응하는 깊이 정보를 획득한다.
본 발명의 적어도 하나의 실시예에서, 제1 뉴럴 네트워크, 제2 뉴럴 네트워크는 각각 하나의 멀티 계층 뉴럴 네트워크(즉, 깊이 뉴럴 네트워크)일 수 있고, 예를 들어, 멀티 계층의 컨볼루션 뉴럴 네트워크이고, 예를 들어, 르넷(LeNet), 알렉스넷(AlexNet), (구글넷)GoogLeNet, VGG, 레지듀얼 네트워크(Residual Network, ResNet) 등 임의의 뉴럴 네트워크일 수 있다. 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크는 동일한 타입 및 동일한 구조를 사용하는 뉴럴 네트워크일 수 있거나 상이한 타입 및 상이한 구조를 사용한 뉴럴 네트워크일 수도 있다.
하나의 선택적인 예에서, 상기 단계 104는 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 작동될 수 있고, 프로세서에 의해 작동되는 스테레오 매칭 모듈에 의해 실행될 수도 있다.
본 발명을 구현하는 과정에서, 발명자는 연구를 통해 현재 깊이 추정 방법은 주로 두 가지 종류로 나눌 수 있다는 것을 발견하였다. 첫 번째는 대량의 픽셀 레벨의 깊이 라벨을 사용하여 뉴럴 네트워크에 대해 모니터링을 수행하고, 훈련된 뉴럴 네트워크에 의한 획득을 통해 깊이 추정을 수행하는 것이지만, 깊이 라벨을 획득하는 것은 비용이 많이 들뿐만 아니라, 현재 기술로는 고품질과 고밀도의 깊이 라벨을 얻을 수 없다. 두 번째는 양안 스테레오 매칭에 기반한 깊이 추정 방법이며, 이러한 깊이 추정 방법에서, 상이한 방향으로부터 촬영된 두 개의 이미지는 입력으로 사용되며, 기하학적 공간의 규칙에 따라, 깊이는 두 개의 이미지의 대응하는 픽셀 사이의 시차를 계산함으로서 획득될 수 있다. 그러나, 상기 종류의 예측 방법의 정확률은 양안 카메라의 설정에 의해 한정되며, 상기 종류의 방법은 양안 카메라가 필요하므로 추가 하드웨어의 비용 지출이 발생한다. 본 발명 상기 실시예에 의해 제공된 깊이 추정 방법에 기반하면, 단일 그림을 양안 이미지 중의 제1 이미지로 하여, 제1 뉴럴 네트워크를 통해, 제1 이미지에 기반하여 양안 이미지 중의 제2 이미지를 획득하며, 제2 뉴럴 네트워크를 통해, 제1 이미지와 제2 이미지에 대해 양안 스테레오 매칭을 수행함으로써, 깊이 정보를 획득하므로, 단일 그림에 기반하여 양안 카메라가 필요 없이 상기 단일 그림 중의 장면의 깊이 추정을 구현함으로써, 양안 카메라에 의해 생성된 추가적인 하드웨어의 비용 지출을 방지하여, 비용을 감소시키며; 또한, 양안 카메라의 설정이 정확하지 않음으로 인한 깊이 정보의 오류를 방지할 수 있어, 깊이 추정의 정확성을 향상시킨다.
도 2는 본 발명 깊이 추정 방법의 다른 일 실시예의 흐름도이다. 도 2에 도시된 바와 같이, 상기 실시예의 깊이 추정 방법은 다음의 단계를 포함한다
단계 202에 있어서, 단일 그림을 양안 이미지 중의 제1 이미지로 하여, 제1 뉴럴 네트워크를 통해 상기 제1 이미지에 대해 처리를 수행하여, N 개의 채널의 시차 확률맵을 출력한다.
여기서, N 개의 채널 중 상이한 채널은 상이한 시차에 대응하며, 각 채널의 시차 확률맵은 제1 이미지에서 픽셀이 제1 수평 방향으로 i 개의 시차만큼 시프트될 확률을 나타내고, 확률이 정규화된 후, 모든 채널에서의 동일한 픽셀의 확률값의 합은 1이며; i=0, 1, …, N-1이며, N의 값은 1보다 큰 양의 정수이다. 제1 이미지가 왼쪽 이미지이면, 제1 수평 방향은 수평 왼쪽 방향이며; 제1 이미지가 오른쪽 이미지이면, 제1 수평 방향은 수평 오른쪽 방향이다. 즉, 제1 이미지가 왼쪽 이미지이면, i 번째 채널의 시차 확률맵은 상기 왼쪽 이미지에서 픽셀이 수평 왼쪽으로 i 개의 시차만큼 시프트될 확률을 나타내며, 예를 들어, N의 값이 5이고, 제1 이미지가 왼쪽 이미지라고 가정하면, 1, 2, 3, 4, 5 번째 채널의 시차 확률맵은 상기 왼쪽 이미지에서 픽셀이 수평 왼쪽으로 0, 1, 2, 3, 4 개의 시차만큼 시프트될 확률을 각각 나타내며, 상기 왼쪽 이미지에서 어느 하나의 픽셀이 수평 왼쪽으로 0, 1, 2, 3, 4 개의 시차만큼 시프트될 확률은, 예를 들어, 0.3, 0.4, 0.2, 0.1 및 0으로 분류될 수 있다.
하나의 선택적인 예에서, 상기 단계 202는 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 실행될 수 있거나, 프로세서에 의해 작동되는 이미지 획득 모듈의 제1 서브 뉴럴 네트워크 유닛에 의해 실행될 수 있다.
단계 204에 있어서, 상기 N 개의 채널의 시차 확률맵에 따라, 제1 이미지를 제1 수평 방향으로 i 개의 픽셀만큼 시프트하여, N 개의 시프트맵을 얻는다.
여기서, i=0, 1, …, N-1이며, N의 값은 1보다 큰 양의 정수이다.
하나의 선택적인 예에서, 상기 단계 204는 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 실행될 수 있거나, 프로세서에 의해 작동되는 이미지 획득 모듈의 시프트 유닛에 의해 실행될 수도 있다.
단계 206에 있어서, 상기 N 개의 시프트맵 중의 각 시프트맵을 대응하는 채널의 시차 확률맵에 각각 점곱하여, N 개의 점곱 결과를 얻는다.
하나의 선택적인 예에서, 상기 단계 206은 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 실행될 수 있거나, 프로세서에 의해 작동되는 이미지 획득 모듈의 점곱 유닛에 의해 실행될 수도 있다.
단계 208에 있어서, 상기 N 개의 점곱 결과를 픽셀에 기반하여 중첩함으로써, 상기 양안 이미지 중의 제2 이미지를 얻는다.
양안 카메라에 의해 촬영된 왼쪽, 오른쪽 이미지는 기본 공간 규칙을 준수하므로, 양안 이미지 중의 제1 이미지가 양안 카메라에 의해 촬영된 왼쪽 이미지일 때, 양안 이미지 중의 제2 이미지는 양안 카메라에 의해 촬영된 오른쪽 이미지이며, 또는 양안 이미지 중의 제1 이미지가 양안 카메라에 의해 촬영된 오른쪽 이미지일 때, 양안 이미지 중의 제2 이미지는 양안 카메라에 의해 촬영된 왼쪽 이미지이므로, 본 발명 실시예에에서 획득된 제2 이미지와 제1 이미지에 서로 대응하는 픽셀의 시차는 공간 기하학적 규칙을 준수 한다. 본 발명 실시예 중 어느 하나의 실시형태에서, 제1 이미지에서 전경 물체에 대응하는 픽셀은 시차 확률맵 중의 대응하는 픽셀 위치에 있고, 큰 시차에 대응하는 채널의 시차 확률맵에서 큰 확률값을 가지며; 제1 이미지에서 배경 물체에 대응하는 픽셀은 시차 확률맵 중의 대응하는 픽셀 위치에 있고, 작은 시차에 대응하는 채널의 시차 확률맵에서 큰 확률값을 가진다. 예를 들어, 제1 이미지는 배경 및 전경 물체로서의 얼굴을 포함하고, 얼굴에 대응하는 픽셀은 N 개의 채널의 시차 확률맵에서 큰 시차에 대응하는 채널의 시차 확률맵 중의 확률값이 0.8이며, N 개의 채널의 시차 확률맵에서 작은 시차에 대응하는 채널의 시차 확률맵 중의 확률값이 0.1이며; 배경에 대응하는 픽셀은 N 개의 채널의 시차 확률맵에서 작은 시차에 대응하는 채널의 시차 확률맵 중의 확률값이 0.9이고, N 개의 채널의 시차 확률맵에서 큰 시차에 대응하는 채널의 시차 확률맵 중의 확률값이 0이다.
하나의 선택적인 예에서, 상기 단계 208은 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 실행될 수 있거나, 프로세서에 의해 작동되는 이미지 획득 모듈의 가산 유닛에 의해 실행될 수도 있다.
단계 210에 있어서, 제2 뉴럴 네트워크를 통해, 양안 이미지 중 다른 하나의 이미지에 대한 하나의 이미지의 픽셀의 위치 관계를 나타내기 위한 상관 계수를 획득한다.
제1 이미지 중의 픽셀을 제1 수평 방향을 따라 이동시키면 바로 제2 이미지 중의 픽셀이 획득될 수 있으며, 제1 이미지 중의 각 픽셀 위치는 하나의 변수로 간주될 수 있으며, 상기 변수의 값은 시차 확률맵에서의 대응하는 시차값이고, 0, 1, …, N-1일 수 있으며, 총 N 개이다. 제1 이미지에서의 각 픽셀 위치의 변수와 제2 이미지에서의 d 개의 인접한 픽셀 위치의 변수의 상관 계수를 획득하고 대응하는 픽셀 위치 및 채널에 저장하며, 제1 이미지에서의 모든 픽셀 위치의 상관 계수에 의해 제2 이미지에 대한 제1 이미지의 픽셀의 위치 관계의 상관 계수를 얻는다. 여기서, d의 값은 정수이고, 예를 들어, 그 값은 -40 ~ +40일 수 있다. 양안 이미지 중 다른 하나의 이미지에 대한 하나의 이미지의 픽셀의 위치 관계의 상관 계수는 하나의 이미지 중 모든 픽셀 위치의 변수와 제2 이미지 중 d 개의 인접한 픽셀 위치의 변수의 상관 계수를 포함하며, 이는 하나의 W*H*N의 상관 계수맵 또는 하나의 상관 계수 매트릭스로 표시될 수 있다. 여기서, W, H, N은 하나의 이미지의 너비, 높이 및 채널 개수로 표시될 수 있고, W, H, N의 값은 모두 0보다 큰 정수이다.
상기 하나의 이미지가 왼쪽 이미지이고, 다른 하나의 이미지가 오른쪽 이미지라고 가정하면, 왼쪽 이미지 및 오른쪽 이미지가 수직 방향에서 정렬되므로, 왼쪽 이미지의 픽셀이 수평 방향에서 왼쪽으로 이동하면 오른쪽 이미지의 픽셀을 바로 얻을 수 있다. 따라서, 수평 방향에서 적어도 하나의 픽셀 위치의 상관 계수를 계산하는 것은 수평 방향에서 좌우 이미지의 대응하는 픽셀을 더 잘 매칭시키도록 도움을 준다.
여기서, 양안 이미지 중 하나의 이미지는 제1 이미지 또는 제2 이미지를 포함하며, 다른 하나의 이미지는 상기 양안 이미지 중의 제2 이미지 또는 제1 이미지에 대응한다.
하나의 선택적인 예에서, 상기 단계 210은 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 작동될 수 있고, 프로세서에 의해 작동되는 스테레오 매칭 모듈의 제1 획득 유닛에 의해 실행될 수도 있다.
단계 212에 있어서, 다른 하나의 이미지와 상관 계수에 기반하여, 제1 이미지와 제2 이미지의 시차맵(disparity)을 생성한다.
여기서, 시차맵 중 적어도 하나의 픽셀의 값은 제1 이미지의 촬영 장면 중의 특정 포인트의 시차, 즉 상기 특정 포인트가 제1 이미지 좌표계에서의 좌표와 제2 이미지 좌표계에서의 좌표 사이의 차이값이다.
하나의 선택적인 예에서, 상기 단계 212는 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 작동될 수 있고, 프로세서에 의해 작동되는 스테레오 매칭 모듈의 생성 유닛에 의해 실행될 수도 있다.
단계 214에 있어서, 상기 시차맵에 기반하여 제1 이미지에 대응하는 깊이 정보를 획득한다.
본 발명 실시예의 또 다른 실시형태에서, 상기 시차맵 및 카메라 파라미터에 기반하여 상기 제1 이미지에 대응하는 깊이 정보를 획득할 수 있으며, 예를 들어, 상기 시차맵, 제1 이미지의 카메라의 초점 거리 및 양안 이미지에 대응하는 양안 카메라 사이의 거리에 기반하여, 상기 제1 이미지에 대응하는 깊이 정보를 획득할 수 있다.
예를 들어, 식 Z=f×B/Disp를 통해, 상기 제1 이미지에 대응하는 깊이 정보를 획득할 수 있으나 이에 한정되는 것은 아니다.
여기서, Disp는 예측된 시차맵을 나타내고, f는 제1 이미지를 촬영하는 카메라의 초점 거리이고, B는 양안 카메라 사이의 거리이며, Z는 예측될 단안 글로벌 깊이맵이다.
하나의 선택적인 예에서, 상기 단계 214는 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 작동될 수 있고, 프로세서에 의해 작동되는 스테레오 매칭 모듈의 제3 획득 유닛에 의해 실행될 수도 있다.
본 발명 실시예에서, 단안 깊이 추정의 문제를 양안 스테레오 매칭의 문제로 변환시키고, 이러한 방식으로, 비교적 어려운 깊이 추정 문제를 2 개의 이미지의 유사한 픽셀 포인트를 매칭시키는 문제로 변환시키며, 이러한 매칭은 단일 그림 중 적어도 2 개의 픽셀 간의 기하학적 관계를 더이상 추측할 필요가 없어서, 계산 복잡도를 감소시킨다. 또한, 본 발명 실시예에서 깊이 학습 방법의 사용은, 제2 이미지 및 양안 스테레오 매칭을 합성하는 두 가지 단계를 더 잘 구현할 수 있고, 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크에 기하학적 변환을 명시적으로 설정함으로써, 조작 결과의 정확성을 향상시킨다.
본 발명 실시예 단일 그림을 사용하여 서로 대응하는 오른쪽 이미지를 합성한 후 양안 스테레오 매칭을 수행함으로써, 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크에 대해 훈련을 수행할 때, 모니터링함에 있어서 대량의 정밀한 깊이 라벨을 더이상 필요로 하지 않으며, 다만 쉽게 얻을 수 있는 교정된 양안 이미지를 사용하여 제1 뉴럴 네트워크(이미지 합성 네트워크라고도 지칭함)를 훈련키고, 대량의 컴퓨터 랜더링의 양안 이미지 및 깊이맵을 사용하여 제2 뉴럴 네트워크(양안 스테레오 매칭 네트워크라고도 지칭함)를 훈련시킬 필요가 있으며, 대량의 정밀한 깊이 라벨에 비해, 훈련 데이터 오버헤드를 감소시킨다.
본 발명 실시예 중 어느 하나의 실시형태에서, 단계 202에서, 제1 뉴럴 네트워크를 통해 제1 이미지에 대해 처리를 수행하여, 시차 확률맵을 출력하는 단계는,
각각 제1 뉴럴 네트워크 중의 2 개 또는 2 개 이상의 네트워크 깊이의 네트워크 계층을 통해 제1 이미지에 대해 특징 추출을 수행하여, 2 개 또는 2 개 이상의 스케일(즉 크기)의 특징맵을 얻는 단계 - 본 발명에서, 적어도 2 개는 2 개 또는 2 개 이상을 의미함 - ;
상기 2 개 또는 2 개 이상의 스케일의 특징맵에 기반하여 N 개의 채널의 2 개 또는 2 개 이상의 해상도의 예비 시차 확률맵을 각각 획득하는 단계; 및
각 채널에 대해, 각각 상기 2 개 또는 2 개 이상의 해상도의 예비 시차 확률맵을 제1 이미지의 해상도까지 확대한 후 중첩하여, N 개의 채널의 시차 확률맵을 획득하는 단계를 포함할 수 있다.
뉴럴 네트워크 중의 풀링 계층 효과로 인해, 뉴럴 네트워크의 상이한 단계에서 상이한 크기 및 상이한 해상도의 특징맵을 생성할 수 있고, 상이한 크기 및 해상도에 기반한 특징맵은 상이한 크기 및 상이한 해상도의 예비 시차 확률맵을 생성할 수 있으므로, 깊이 정보를 예측하기 위한 상이한 지역 정보 및 상이한 글로벌 정보를 제공함에 있어서 도움이 된다.
예를 들어, 제1 이미지는 W*H*N이 200*200*3인 빨간색, 초록색, 파란색(RGB) 이미지이며, 제1 뉴럴 네트워크의 어느 한 네트워크 깊이의 네트워크 계층을 통해 100*100*64의 특징맵을 얻고, 계속하여 다른 하나의 네트워크 깊이의 네트워크 계층을 통해 50*50*128의 특징맵을 얻으며, 이 두 개의 상이한 크기의 특징맵에 기반하여, 상이한 크기 및 상이한 해상도의 예비 시차 확률맵을 획득할 수 있으며, 예를 들어, 100*100*N 및 50*50*N의 예비 시차 확률맵을 얻는다. 여기서, 제1 이미지의 해상도는 200*200이고, 2 개의 예비 시차 확률맵의 해상도는 각각 100*100 및 50*50이며, 2 개의 예비 시차 확률맵의 해상도는 각각 제1 이미지의 해상도 크기의 1/2*1/2, 1/4*1/4이다.
본 실시예에 기반하여, 제1 뉴럴 네트워크 중의 2 개 또는 2 개 이상의 네트워크 깊이의 네트워크 계층에 의해 추출된 특징의 크기는 상이하며, 여기서, 네트워크 깊이가 비교적 얕은 네트워크 계층에 의해 추출된 특징은 수용야가 비교적 작으며, 제1 이미지 중 작은 영역의 정보를 구현하고, 네트워크 깊이가 비교적 깊은 네트워크 계층에 의해 추출된 특징은 수용야가 비교적 크며, 제1 이미지 중 큰 영역의 정보 심지어 글로벌 정보를 구현할 수 있으며, 상이한 해상도의 특징맵을 사용하는 동시에 상이한 시야 영역의 정보를 제공하여, 더욱 정확한 확률 시차맵을 생성할 수 있다.
본 발명 실시예 중 어느 하나의 실시형태에서, 단계 210은,
하나의 이미지와 다른 하나의 이미지 에 대해 특징 추출을 각각 수행하는 단계를 포함할 수 있다. 예를 들어, 하나의 컨볼루션 뉴럴 네트워크를 통해, 하나의 이미지와 다른 하나의 이미지에 대해 특징 추출을 각각 수행할 수 있으며;
제2 뉴럴 네트워크를 통해, 추출된 하나의 이미지의 특징과 다른 하나의 이미지의 특징에 기반하여, 하나의 이미지와 다른 하나의 이미지에서 픽셀의 위치 관계를 획득하고, 상관 계수를 출력한다.
이에 상응하여, 본 발명 실시예의 다른 하나의 실시형태에서, 단계 212는, 다른 하나의 이미지의 특징과 상관 계수를 중첩하여, 제1 이미지와 제2 이미지의 시차맵을 생성하는 단계를 포함할 수 있다. 이러한 방식으로, 단일 그림에 기반하여 상기 단일 그림 촬영 장면의 양안 이미지 중의 시차맵을 획득할 수 있으며, 비교적 어려운 깊이 추정 문제를 2 개의 이미지의 유사한 픽셀 포인트를 매칭시키는 문제로 변환시키며, 이러한 매칭은 단일 그림 중 적어도 2 개의 픽셀 간의 기하학적 관계를 더이상 추측할 필요가 없어서, 계산 복잡도를 감소시킨다. 또한, 본 실시예에서 깊이 학습 방법의 사용은, 제2 뉴럴 네트워크에서 명시적으로 기하학적 변환을 설정함으로써 연산 결과의 정확성을 향상시킨다.
선택적으로, 본 발명 실시예의 또 다른 실시형태에서, 상기 단계 212는, 다른 하나의 이미지의 특징과 상관 계수를 중첩하여, 중첩 결과를 얻는 단계 - 상기 중첩 결과는 예를 들어, 하나의 특징맵일 수 있음 - ; 및 중첩 결과의 특징을 추출하여, 추출된 중첩 결과의 특징과 중첩 결과를 병합하여, 제1 이미지와 제2 이미지의 시차맵을 획득하는 단계를 포함할 수 있다.
그 중 하나의 실시형태에서, 하나의 컨볼루션 뉴럴 네트워크를 통해 중첩 결과의 특징을 추출할 수 있으며, 상기 컨볼루션 뉴럴 네트워크는, 예를 들어, 예시적으로 하나의 컨볼루션 계층 및 하나의 활성화 계층(ReLu)을 포함할 수 있지만 이에 한정되지 않는다. 상기 컨볼루션 뉴럴 네트워크는, 예를 들어, 하나의 인코딩-디코딩 모델을 통해 구현될 수 있으며, 컨볼루션 계층을 통해 중첩 결과에 대한 특징 추출을 수행하여, 하나의 중첩 결과와 동일한 크기의 특징맵을 얻으며, 상기 특징맵과 중첩 결과를 병합(concat)하여, 제1 이미지와 제2 이미지의 시차맵을 획득한다.
본 발명 실시예는 중첩 결과에 대해 특징 추출을 추가로 수행함으로써, 수용야의 범위를 증가시킬 수 있고, 다음 추출된 중첩 결과의 특징과 중첩 결과를 병합하여, 제1 이미지와 제2 이미지의 시차맵을 획득함으로써, 시차맵으로 하여금 비교적 많은 정보를 병합할 수 있도록 하여, 더 많은 글로벌 정보를 획득할 수 있으므로, 후속적으로 예측될 제1 이미지에 대응하는 깊이 정보를 향상시킴에 있어서 도움이 된다.
도 3은 본 발명 깊이 추정 방법의 일 응용 실시예의 흐름도이다. 도 4는 도 3에 도시된 실시예에 대응하는 예시적 블록도이다. 상기 응용 실시예에서, 왼쪽 이미지 및 오른쪽 이미지를 각각 본 발명 상기 적어도 하나의 실시예 중의 제1 이미지 및 제2 이미지로 사용하여 설명한다. 도 3 및 도 4를 참조하면, 상기 응용 실시예는 다음의 단계를 포함한다.
단계 302에 있어서, 단일 그림을 양안 이미지 중의 왼쪽 이미지로 하여, 제1 뉴럴 네트워크를 통해 상기 왼쪽 이미지에 대해 처리를 수행함으로써, N 개의 채널의 시차 확률맵을 출력한다.
여기서, 각 채널은 왼쪽 이미지에서 픽셀이 수평 왼쪽으로 i 개의 시차만큼 시프트될 확률을 나타내고; i=0, 1, …, N-1이며, N의 값은 1보다 큰 양의 정수이다.
하나의 선택적인 예에서, 상기 단계 302는 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 수행될 수 있거나, 프로세서에 의해 작동되는 이미지 획득 모듈의 제1 서브 뉴럴 네트워크 유닛에 의해 실행될 수 있다.
단계 304에 있어서, 상기 N 개의 채널의 시차 확률맵에 따라, 왼쪽 이미지를 제1 수평 방향으로 i 개의 픽셀만큼 각각 시프트하여, N 개의 시프트맵을 얻는다.
하나의 선택적인 예에서, 상기 단계 304는 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 수행될 수 있거나, 프로세서에 의해 작동되는 이미지 획득 모듈의 시프트 유닛에 의해 실행될 수도 있다.
단계 306에 있어서, 상기 N 개의 시프트맵 중의 각 시프트맵을 대응하는 채널의 시차 확률맵에 각각 점곱하여, N 개의 점곱 결과를 얻는다.
하나의 선택적인 예에서, 상기 단계 306은 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 수행될 수 있거나, 프로세서에 의해 작동되는 이미지 획득 모듈의 점곱 유닛에 의해 실행될 수도 있다.
단계 308에 있어서, 상기 N 개의 점곱 결과를 픽셀에 기반하여 중첩함으로써, 양안 이미지 중의 오른쪽 이미지를 얻는다.
하나의 선택적인 예에서, 상기 단계 308은 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 수행될 수 있거나, 프로세서에 의해 작동되는 이미지 획득 모듈의 가산 유닛에 의해 실행될 수도 있다.
단계 310에 있어서, 제2 뉴럴 네트워크를 통해, 왼쪽 이미지와 오른쪽 이미지에 대해 특징 추출을 각각 수행한다.
하나의 선택적인 예에서, 상기 단계 310은 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 작동될 수 있고, 프로세서에 의해 작동되는 스테레오 매칭 모듈의 제1 획득 유닛의 제2 서브 뉴럴 네트워크 유닛에 의해 실행될 수도 있다.
단계 312에 있어서, 제2 뉴럴 네트워크를 통해, 추출된 왼쪽 이미지의 특징과 오른쪽 이미지의 특징에 기반하여, 왼쪽 이미지와 오른쪽 이미지 중 픽셀의 위치 관계를 획득하고, 상관 계수를 출력한다.
하나의 선택적인 예에서, 상기 단계 312는 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 작동될 수 있고, 프로세서에 의해 작동되는 스테레오 매칭 모듈의 제1 획득 유닛의 획득 서브 유닛에 의해 실행된다.
단계 314에 있어서, 왼쪽 이미지의 특징과 상관 계수를 중첩하여, 중첩 결과를 얻으며, 상기 중첩 결과는, 예를 들어 하나의 특징맵일 수 있다.
선택적으로, 왼쪽 이미지의 픽셀과 정렬된 시차맵을 얻기 위해, 먼저 왼쪽 이미지로부터 얻어진 특징맵을 뉴럴 네트워크를 통해 특징 추출을 추가로 수행한 후, 추출된 특징과 상관 계수를 중첩시킬 수 있다. 여기서, 예시적으로 상기 뉴럴 네트워크는 하나의 컨볼루션 계층 및 하나의 활성화 계층으로 구성될 수 있으며, 왼쪽 이미지로부터 얻어진 특징맵에 대해 특징 추출을 추가로 수행함으로써, 수용야의 범위를 증가시켜, 추가로 처리된 특징맵(feature)을 얻은 후, 상관 계수에 중첩될 수 있어, 중첩 결과에 더 많은 글로벌 정보가 포함될 수 있으므로, 후속적으로 얻어진 시차맵 및 깊이 정보의 정확성을 향상시킨다.
하나의 선택적인 예에서, 상기 단계 314는 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 작동될 수 있고, 프로세서에 의해 작동되는 스테레오 매칭 모듈의 생성 유닛의 중첩 서브 유닛에 의해 실행될 수 있다.
단계 316에 있어서, 제2 뉴럴 네트워크를 통해, 중첩 결과의 특징을 추출하고, 추출된 중첩 결과의 특징과 중첩 결과를 병합하여, 제1 이미지와 제2 이미지의 시차맵을 획득한다.
하나의 선택적인 예에서, 상기 단계 316은 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 작동될 수 있고, 프로세서에 의해 작동되는 스테레오 매칭 모듈의 생성 유닛의 병합 서브 유닛에 의해 실행될 수 있다.
단계 318에 있어서, 상기 시차맵에 기반하여, 제1 이미지의 카메라의 초점 거리 및 양안 이미지에 대응하는 양안 카메라 사이의 거리를 촬영함으로써, 제1 이미지에 대응하는 깊이 정보를 획득한다.
하나의 선택적인 예에서, 상기 단계 318은 메모리에 저장된 대응하는 명령어를 호출함으로써 프로세서에 의해 작동될 수 있고, 프로세서에 의해 작동되는 스테레오 매칭 모듈의 제3 획득 유닛에 의해 실행될 수도 있다.
본 발명의 상기 적어도 하나의 실시예에 기반하여, 깊이 정보를 획득한 후, 또한 제1 이미지에 대응하는 깊이 정보와 제2 이미지에 기반하여, 상기 제1 이미지에서 장면의 3D 공간 장면을 획득할 수 있다.
본 발명 실시예는, 예를 들어 다음의 측면을 응용할 수 있지만 이에 한정되지는 않는다.
측면 1에 있어서, 단일 그림에 대해 글로벌 깊이 추정을 수행한다.
측면 2에 있어서, 본 발명 실시예는 3D 장면 재구성에 응용될 수 있어, 제1 이미지에 대응하는 예측하여 얻어진 깊이 정보(글로벌 깊이맵이라고도 지칭함)는 자율 주행, 3D 장면 복구, 3D 영화 제작 등과 같은 다양한 장면에 응용될 수 있다. 본 발명 실시예를 사용하여, 단일 그림만으로도 비교적 우수한 효과를 바로 얻을 수 있어, 비용을 감소시킨다.
제1 이미지에 대응하는 예측하여 얻어진 깊이 정보, 결합하여 합성된 오른쪽 이미지를 사용하여, 원래 이미지(즉, 제1 이미지) 중의 전체 장면의 3D 공간 장면이 복구될 수 있고, 복구된 3D 공간 장면은 3D 영화, 자율주행 등과 같은 많은 장면에 응용될 수 있다.
선택적으로, 본 발명 상기 적어도 하나의 실시예에서, 제1 뉴럴 네트워크는 제1 샘플 세트 중의 샘플 양안 이미지를 사용하여 미리 훈련되어 얻어질 수 있고, 상기 제1 샘플 세트는 적어도 한 그룹의 제1 샘플 양안 이미지를 포함하는 것; 및 제2 뉴럴 네트워크는 제2 샘플 세트 중의 샘플 양안 이미지를 이용하여 미리 훈련되어 얻어질 수 있는 것 중 적어도 하나이다.
이에 상응하여, 본 발명의 상기 적어도 하나의 실시예 전에, 상기 방법은,
제1 샘플 세트 중의 샘플 양안 이미지를 이용하여 제1 뉴럴 네트워크 훈련을 수행하고, 제2 샘플 세트 중의 샘플 양안 이미지 및 깊이맵을 이용하여 제2 뉴럴 네트워크에 대해 훈련을 수행하는 단계를 더 포함할 수 있다. 여기서, 제1 샘플 세트는 적어도 한 그룹의 제1 샘플 양안 이미지를 포함하며, 각 그룹의 제1 샘플 양안 이미지는 제1 이미지 및 제2 이미지를 포함하며; 제2 샘플 세트는 적어도 한 그룹의 제2 샘플 양안 이미지 및 시차맵 라벨을 포함한다.
그 중 하나의 실시형태에서, 제1 샘플 세트 중의 샘플 양안 이미지를 사용하여 제1 뉴럴 네트워크에 대해 훈련을 수행하는 단계는,
제1 뉴럴 네트워크를 통해, 적어도 한 그룹의 제1 샘플 양안 이미지 중의 제1 이미지에 의해, 적어도 한 그룹의 제1 샘플 양안 이미지 중의 제2 이미지를 획득하고 출력하는 단계; 및
제1 뉴럴 네트워크에 의해 출력된 제2 이미지와 적어도 한 그룹의 제1 샘플 양안 이미지 중의 제2 이미지 사이의 제1 차이값을 획득하고, 제1 차이값에 기반하여 제1 뉴럴 네트워크에 대해 제1 훈련 완료 조건을 충족시킬 때까지 훈련을 수행하는 단계를 포함할 수 있다.
그 중 하나의 선택적인 예에서, 제1 뉴럴 네트워크에 의해 출력된 제2 이미지와 적어도 한 그룹의 제1 샘플 양안 이미지 중의 제2 이미지 사이의 제1 차이값을 획득하고, 제1 차이값에 기반하여 제1 뉴럴 네트워크에 대해 제1 훈련 완료 조건을 충족시킬 때까지 훈련을 수행하는 단계는,
제1 뉴럴 네트워크에 의해 출력된 제2 이미지와 적어도 한 그룹의 제1 샘플 양안 이미지 중의 제2 이미지 사이의 픽셀에서의 제1 차이값, 예를 들어, 픽셀에서의 차이값의 절대값의 합을 획득하는 단계; 및
제1 차이값에 기반하여 제1 훈련 완료 조건을 충족시킬 때까지 제1 뉴럴 네트워크에서의 네트워크 파라미터의 파라미터값을 조정하는 단계를 포함할 수 있다,
여기서, 제1 훈련 완료 조건은, 예를 들어, 제1 차이값이 제1 기설정된 임계값보다 작은 것, 및 제1 뉴럴 네트워크에 대한 훈련 횟수가 제1 기설정된 횟수에 도달하는 것 중 적어도 하나를 포함할 수 있지만 이에 한정되지 않는다.
다른 하나의 실시형태에서, 제2 샘플 세트 중의 샘플 양안 이미지 및 시차맵 라벨을 사용하여 제2 뉴럴 네트워크에 대해 훈련을 수행하는 단계는,
제2 뉴럴 네트워크를 통해, 적어도 한 그룹의 제2 샘플 양안 이미지의 시차맵을 획득하고 출력하는 단계; 및
제2 뉴럴 네트워크에 의해 출력된 시차맵과 적어도 한 그룹의 제2 샘플 양안 이미지의 시차맵 라벨 사이의 제2 차이값을 획득하고, 제2 차이값에 기반하여 제2 훈련 완료 조건을 충족시킬 때까지 제2 뉴럴 네트워크에 대해 훈련을 수행하는 단계를 포함할 수 있다.
그 중 하나의 선택적인 예에서, 제2 뉴럴 네트워크에 의해 출력된 시차맵과 적어도 한 그룹의 제2 샘플 양안 이미지의 시차맵 라벨 사이의 제2 차이값을 획득하고, 제2 차이값에 기반하여 제2 훈련 완료 조건을 충족시킬 때까지 제2 뉴럴 네트워크에 대해 훈련을 수행하는 단계는,
제2 뉴럴 네트워크에 의해 출력된 시차맵과 적어도 한 그룹의 제2 샘플 양안 이미지의 시차맵 라벨 사이의 픽셀에서의 제2 차이값, 예를 들어, 픽셀에서의 차이값의 절대값의 합을 획득하는 단계; 및
제2 차이값에 기반하여 제2 뉴럴 네트워크에서의 네트워크 파라미터의 파라미터값을 조정하는 단계를 포함할 수 있다.
여기서, 제2 훈련 완료 조건은, 예를 들어, 제2 차이값이 제2 기설정된 임계값보다 작은 것, 및 제2 뉴럴 네트워크에 대한 훈련 횟수가 제2 기설정된 횟수에 도달하는 것 중 적어도 하나를 포함할 수 있지만 이에 한정되지 않는다.
실제로 수집된 깊이맵 라벨은 획득하기 어렵고, 본 발명 실시예에 기반한 실제 응용에서, 컴퓨터 합성된 왼쪽 이미지, 오른쪽 이미지 및 깊이맵 라벨을 제2 샘플 세트 중의 제2 샘플 양안 이미지 및 제2 샘플이미지에 대응하는 깊이맵 라벨로 사용하여, 제2 뉴럴 네트워크를 훈련시킬 수 있다.
또한, 본 발명의 상기 실시예에서 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크의 단계적 훈련이 완료된 후, 상기 방법은,
제3 샘플 세트 중의 샘플 양안 이미지 및 제3 샘플이미지에 대응하는 깊이맵 라벨을 이용하여 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크에 대해 훈련을 수행하는 단계를 더 포함할 수 있다.
여기서, 제3 샘플 세트는 적어도 한 그룹의 제3 샘플 양안 이미지 및 제3 샘플이미지에 대응하는 깊이맵 라벨을 포함한다.
그 중 하나의 실시형태에서, 제3 샘플 세트 중의 샘플 양안 이미지 및 제3 샘플이미지에 대응하는 깊이맵 라벨을 이용하여 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크훈련을 수행하는 단계는,
제1 뉴럴 네트워크를 통해, 적어도 한 그룹의 제3 샘플 양안 이미지 중의 제1 이미지에 의해, 적어도 한 그룹의 제3 샘플 양안 이미지 중의 제2 이미지를 획득하는 단계;
제2 뉴럴 네트워크를 통해, 적어도 한 그룹의 제3 샘플 양안 이미지의 시차맵을 획득하는 단계;
적어도 한 그룹의 제3 샘플 양안 이미지의 시차맵에 기반하여 적어도 한 그룹의 깊이 정보를 획득하는 단계;
적어도 한 그룹의 깊이 정보와 적어도 한 그룹의 제3 샘플 양안 이미지의 깊이맵 라벨 사이의 제3 차이값을 획득하는 단계 - 상기 제3 차이값은, 예를 들어 픽셀에서의 차이값의 절대값의 합임 - ; 및
상기 제3 훈련 완료 조건을 충족시킬 때가지 제3 차이값에 기반하여 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크에서의 네트워크 파라미터의 파라미터값을 조정하는 단계를 포함할 수 있다.
여기서, 제3 훈련 완료 조건은, 예를 들어, 제3 차이값이 제3 기설정된 임계값보다 작은 것, 및 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크에 대한 훈련 횟수가 제3 기설정된 횟수에 도달하는 것 중 적어도 하나를 포함할 수 있지만 이에 한정되지 않는다.
본 발명 실시예에 의해 제공된 임의의 깊이 추정 방법은 임의의 적합한 데이터 처리 능력을 구비한 기기에 의해 실행될 수 있으며, 단말 기기 및 서버 등을 포함하지만 이에 한정되지 않는다. 또는, 본 발명 실시예에 의해 제공된 임의의 깊이 추정 방법은 프로세서에 의해 실행될 수 있고, 예컨대, 프로세서는 메모리에 저장된 상응하는 명령어를 호출함으로써 본 발명 실시예에 언급된 임의의 깊이 추정 방법을 실행한다. 아래에 더이상 설명하지 않는다.
당업자는 상기 방법 실시예를 구현하기 위한 모든 또는 일부 단계는 프로그램 명령어와 관련되는 하드웨어를 통해 완성되며, 전술한 프로그램은 컴퓨터 판독 가능한 저장 매체에 저장될 수 있으며, 상기 프로그램이 수행될 때, 수행은 상기 방법 실시예의 단계를 포함하며; 전술한 저장 매체는 판독 전용 메모리(Read Only Memory, ROM), 랜덤 액세스 메모리(Random Access Memory, RAM), 자기 디스크 또는 광 디스크와 같은 프로그램 코드를 저장할 수 있는 다양한 매체를 포함하는 것을 이해할 수 있다.
도 5는 본 발명 깊이 추정 장치의 일 실시예의 구조 예시도이다. 상기 실시예의 깊이 추정 장치는 본 발명의 상기 적어도 하나의 깊이 추정 방법 실시예를 구현하기 위한 것일 수 있다. 도 5에 도시된 바와 같이, 상기 실시예의 깊이 추정 장치는 이미지 획득 모듈 및 스테레오 매칭 모듈을 포함한다. 여기서,
이미지 획득 모듈은, 단일 그림을 양안 이미지 중의 제1 이미지로 하여, 제1 뉴럴 네트워크를 통해, 제1 이미지에 기반하여 양안 이미지 중의 제2 이미지를 획득하기 위한 것이다.
스테레오 매칭 모듈은, 제2 뉴럴 네트워크를 통해, 제1 이미지와 제2 이미지에 대해 양안 스테레오 매칭을 수행함으로서, 제1 이미지에 대응하는 깊이 정보를 회득하기 위한 것이다.
본 발명 상기 실시예에 기반하여 제공된 깊이 추정 장치, 단일 그림을 양안 이미지 중의 제1 이미지로 하여, 제1 뉴럴 네트워크를 통해, 제1 이미지 획득 양안 이미지 중의 제2 이미지, 제2 뉴럴 네트워크를 통해, 제1 이미지와 제2 이미지에 대해 양안 스테레오 매칭을 수행함으로서, 제1 이미지에 대응하는 깊이 정보를 획득하며, 따라서 단일 그림에 기반하여 양안 카메라가 필요 없이 상기 단일 그림 중의 장면의 깊이 추정을 구현함으로써, 양안 카메라에 의해 생성된 추가적인 하드웨어의 비용 지출을 방지하여, 비용을 감소시키며; 또한, 양안 카메라의 설정이 정확하지 않음으로 인한 깊이 정보의 오류를 방지할 수 있어, 깊이 추정의 정확성을 향상시킨다.
도 6은 본 발명 깊이 추정 장치의 다른 일 실시예의 구조 예시도이다. 도 6에 도시된 바와 같이, 본 발명의 적어도 하나의 실시예 중 하나의 실시형태에서, 이미지 획득 모듈은, 제1 서브 뉴럴 네트워크 유닛, 시프트 유닛, 점곱 유닛 및 가산 유닛을 포함한다. 여기서,
제1 서브 뉴럴 네트워크 유닛은, 제1 이미지에 대해 처리를 수행하여, N 개의 채널의 시차 확률맵을 출력하기 위한 것이며, 각 채널의 시차 확률맵은 상기 제1 이미지에서 픽셀이 제1 수평 방향으로 i 개의 시차만큼 시프트될 확률을 나타내고, i=0, 1, …, N-1이며, N의 값은 1보다 큰 양의 정수이다.
시프트 유닛은, N 개의 채널의 시차 확률맵에 따라, 상기 제1 이미지를 제1 수평 방향으로 i 개의 픽셀만큼 시프트하여, N 개의 시프트맵을 얻기 위한 것이다.
점곱 유닛은, N 개의 시프트맵 중의 각 시프트맵을 대응하는 채널의 시차 확률맵에 각각 점곱하여, N 개의 점곱 결과를 얻기 위한 것이다.
가산 유닛은, N 개의 점곱 결과를 픽셀에 기반하여 중첩함으로써, 제2 이미지를 얻기 위한 것이다.
그 중 하나의 선택적인 예에서, 제1 서브 뉴럴 네트워크 유닛은, 2 개 또는 2 개 이상의 네트워크 깊이의 네트워크 계층을 포함하며, 각각 2 개 또는 2 개 이상의 네트워크 깊이의 네트워크 계층을 통해, 제1 이미지 특징 추출을 수행하여, 2 개 또는 2 개 이상의 스케일의 특징맵을 획득하고; 2 개 또는 2 개 이상의 스케일의 특징맵에 기반하여 N 개의 채널의, 2 개 또는 2 개 이상의 해상도의 예비 시차 확률맵을 각각 획득하며; 각 채널에 대해, 각각 2 개 또는 2 개 이상의 해상도의 예비 시차 확률맵을 제1 이미지의 해상도까지 확대한 후 중첩함으로써, N 개의 채널의 시차 확률맵을 얻기 위한 것이다.
선택적으로, 제1 이미지에서 전경 물체에 대응하는 픽셀은 N 개의 채널의 시차 확률맵 중의 대응하는 픽셀 위치에 있고, 큰 시차에 대응하는 채널의 시차 확률맵에서 큰 확률값을 가지며; 제1 이미지에서 배경 물체에 대응하는 픽셀은 N 개의 채널의 시차 확률맵 중의 대응하는 픽셀 위치에 있고, 작은 시차에 대응하는 채널의 시차 확률맵에서 큰 확률값을 가진다.
또한, 다시 도 6을 참조하면, 본 발명 적어도 하나의 실시예의 다른 하나의 실시형태에서, 스테레오 매칭 모듈은, 제1 획득 유닛, 생성 유닛 및 제3 획득 유닛을 포함할 수 있다. 여기서,
제1 획득 유닛은, 양안 이미지 중 다른 하나의 이미지에 대한 하나의 이미지의 픽셀의 위치 관계를 나타내기 위한 상관 계수를 획득하기 위한 것이고; 양안 이미지 중 하나의 이미지는 제1 이미지 또는 제2 이미지를 포함하고, 다른 하나의 이미지는 상기 하나의 이미지에 대응하여 제2 이미지 또는 제1 이미지를 포함한다.
생성 유닛은, 다른 하나의 이미지와 상관 계수에 기반하여, 제1 이미지와 제2 이미지의 시차맵을 생성하기 위한 것이다.
제3 획득 유닛은, 시차맵에 기반하여 제1 이미지에 대응하는 깊이 정보를 획득하기 위한 것이다.
그 중 하나의 선택적인 예에서, 제1 획득 유닛은, 하나의 이미지와 다른 하나의 이미지에 대해 특징 추출을 각각 수행하기 위한 제2 서브 뉴럴 네트워크 유닛; 및 추출된 하나의 이미지의 특징과 다른 하나의 이미지의 특징에 기반하여, 하나의 이미지와 다른 하나의 이미지에서 픽셀의 위치 관계를 획득하고, 양안 이미지 중 다른 하나의 이미지에 대한 하나의 이미지의 픽셀의 위치 관계를 나타내기 위한 상관 계수를 출력하기 위한 획득 서브 유닛을 포함할 수 있다.이에 상응하여, 다른 하나의 선택적인 예에서, 생성 유닛은 다른 하나의 이미지의 특징과 상관 계수를 중첩하여, 제1 이미지와 제2 이미지의 시차맵을 생성하기 위한 것이다.
다른 하나의 선택적인 예에서, 생성 유닛은, 다른 하나의 이미지의 특징과 상관 계수를 중첩하여, 중첩 결과를 얻기 위한 중첩 서브 유닛; 중첩 결과의 특징을 추출하고, 추출된 중첩 결과의 특징과 중첩 결과를 병합하여, 제1 이미지와 제2 이미지의 시차맵을 획득하기 위한 병합 서브 유닛을 포함할 수 있다.
또 다른 하나의 선택적인 예에서, 제3 획득 유닛은 시차맵에 기반하여, 제1 이미지의 카메라의 초점 거리 및 양안 이미지에 대응하는 양안 카메라 사이의 거리를 촬영함으로써, 제1 이미지에 대응하는 깊이 정보를 획득하기 위한 것이다.
또한, 본 발명의 상기 적어도 하나의 실시예의 깊이 추정 장치에서, 상기 장치는, 제1 이미지에 대응하는 깊이 정보와 제2 이미지에 기반하여, 제1 이미지에서 장면의 3D 공간 장면을 획득하기 위한 획득 모듈을 더 포함할 수 있다.
도 7에 도시된 바와 같이, 도 7은 본 발명 깊이 추정 장치의 또 다른 일 실시예의 구조 예시도이다. 도 7에서, 이미지 획득 모듈 및 스테레오 매칭 모듈은 도 6에 도시된 임의의 실시예의 구조를 선택적으로 채택하여 구현할 수 있으며, 다른 구조를 채택하여 구현할 수도 있다.
또한, 본 발명의 상기 적어도 하나의 실시예의 깊이 추정 장치에서, 제1 뉴럴 네트워크는 제1 샘플 세트 중의 샘플 양안 이미지를 사용하여 미리 훈련되어 얻어질 수 있고, 제1 샘플 세트는 적어도 한 그룹의 제1 샘플 양안 이미지를 포함하는 것; 및 제2 뉴럴 네트워크는 제2 샘플 세트 중의 샘플 양안 이미지를 사용하여 미리 훈련되어 얻어질 수 있고, 제2 샘플 세트는 적어도 한 그룹의 제2 샘플 양안 이미지 및 시차맵 라벨을 포함하는 것 중 적어도 하나를 포함할 수 있다.
다시 도 7을 참조하면, 본 발명 깊이 추정 장치의 다른 하나의 실시예에서, 상기 장치는 제1 훈련 모듈을 더 포함한다. 상기 실시예에서, 제1 뉴럴 네트워크는, 적어도 한 그룹의 제1 샘플 양안 이미지 중의 제1 이미지에 의해, 적어도 한 그룹의 제1 샘플 양안 이미지 중의 제2 이미지를 획득하고 출력하기 위한 것이다. 제1 훈련 모듈은, 제1 뉴럴 네트워크에 의해 출력된 제2 이미지와 적어도 한 그룹의 제1 샘플 양안 이미지 중의 제2 이미지 사이의 제1 차이값을 획득하고, 제1 차이값에 기반하여 제1 뉴럴 네트워크에 대해 제1 훈련 완료 조건을 충족시킬 때까지 훈련을 수행하기 위한 것이다.
그 중 하나의 실시형태에서, 제1 훈련 모듈은, 제1 뉴럴 네트워크에 의해 출력된 제2 이미지와 적어도 한 그룹의 제1 샘플 양안 이미지 중의 제2 이미지 사이의 픽셀에서의 제1 차이값을 획득하고;
제1 차이값에 기반하여 제1 훈련 완료 조건을 충족시킬 때까지 제1 뉴럴 네트워크에서의 네트워크 파라미터의 파라미터값을 조정하기 위한 것이다. 여기서, 제1 훈련 완료 조건은, 예를 들어, 제1 차이값이 제1 기설정된 임계값보다 작은 것, 및 제1 뉴럴 네트워크에 대한 훈련 횟수가 제1 기설정된 횟수에 도달하는 것 중 적어도 하나를 포함할 수 있지만 이에 한정되지 않는다.
다시 도 7을 참조하면, 본 발명 깊이 추정 장치의 다른 하나의 실시예에서, 상기 장치는 제2 훈련 모듈을 더 포함할 수 있다. 상기 실시예에서, 제2 뉴럴 네트워크는, 적어도 한 그룹의 제2 샘플 양안 이미지의 시차맵을 획득하고 출력하기 위한 것이다. 제2 훈련 모듈은, 제2 뉴럴 네트워크에 의해 출력된 시차맵과 적어도 한 그룹의 제2 샘플 양안 이미지의 시차맵 라벨 사이의 제2 차이값을 획득하고, 제2 차이값에 기반하여 제2 훈련 완료 조건을 충족시킬 때까지 제2 뉴럴 네트워크에 대해 훈련을 수행하기 위한 것이다.
그 중 하나의 실시형태에서, 제2 훈련 모듈은 구체적으로, 제2 뉴럴 네트워크에 의해 출력된 시차맵과 적어도 한 그룹의 제2 샘플 양안 이미지의 시차맵 라벨 사이의 픽셀에서의 제2 차이값을 획득하고;
제2 차이값에 기반하여 제2 뉴럴 네트워크에서의 네트워크 파라미터의 파라미터값을 조정하기 위한 것이다. 여기서, 제2 훈련 완료 조건은, 예를 들어, 제2 차이값이 제2 기설정된 임계값보다 작은 것, 및 제2 뉴럴 네트워크에 대한 훈련 횟수가 제2 기설정된 횟수에 도달하는 것 중 적어도 하나를 포함할 수 있지만 이에 한정되지 않는다.
또한, 다시 도 7을 참조하면, 본 발명 깊이 추정 장치의 다른 하나의 실시예에서, 상기 장치는 제3 샘플 세트 중의 샘플 양안 이미지 및 제3 샘플이미지에 대응하는 깊이맵 라벨을 이용하여 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크에 대해 훈련을 수행하기 위한 제3 훈련 모듈을 더 포함할 수 있다. 여기서, 제3 샘플 세트는 적어도 한 그룹의 제3 샘플 양안 이미지 및 제3 샘플이미지에 대응하는 깊이맵 라벨을 포함한다.
그 중 하나의 실시형태에서, 제1 뉴럴 네트워크는 적어도 한 그룹의 제3 샘플 양안 이미지 중의 제1 이미지에 의해, 적어도 한 그룹의 제3 샘플 양안 이미지 중의 제2 이미지를 획득하기 위한 것이며; 제2 뉴럴 네트워크는, 적어도 한 그룹의 제3 샘플 양안 이미지의 시차맵을 획득하기 위한 것이다.
제3 훈련 모듈은, 적어도 한 그룹의 제3 샘플 양안 이미지의 시차맵에 기반하여 적어도 한 그룹의 깊이 정보를 획득하고; 적어도 한 그룹의 깊이 정보와 적어도 한 그룹의 제3 샘플 양안 이미지의 깊이맵 라벨 사이의 제3 차이값을 획득하며; 제3 차이값에 기반하여 제3 훈련 완료 조건을 충족시킬 때까지 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크에서의 네트워크 파라미터의 파라미터값을 조정하기 위한 것이다. 여기서, 제3 훈련 완료 조건은, 예를 들어, 제3 차이값이 제3 기설정된 임계값보다 작은 것, 및 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크에 대한 훈련 횟수가 제3 기설정된 횟수에 도달하는 것 중 적어도 하나를 포함할 수 있지만 이에 한정되지 않는다. 본 발명의 깊이 추정 장치 실시예 중 적어도 하나의 방안의 기술적 효과는, 상응한 방법 실시예 중의 상응한 설명을 참조할 수 있으며, 여기서 더이상 설명하지 않는다.
또한, 본 발명 실시예에 의해 제공된 전자 기기는,
실행 가능한 명령어를 저장하기 위한 메모리; 및
상기 실행 가능한 명령어를 실행함으로써 본 발명의 상기 임의의 실시예에 따른 깊이 추정 방법의 단계를 완료하기 위해, 상기 메모리와 통신하기 위한 프로세서를 포함한다.
도 8은 본 발명 전자 기기의 일 응용 실시예의 구조 예시도이다. 아래에 도 8을 참조하면, 본 발명의 실시예의 단말 기기 또는 서버를 구현하기에 적합한 전자 기기의 구조 모식도를 도시한다. 도 8에 도시된 바와 같이, 상기 전자 기기는 하나 또는 복수 개의 프로세서, 통신부 등을 포함하며, 상기 하나 또는 복수 개의 프로세서는 예를 들어, 하나 또는 복수 개의 중앙처리장치(CPU)(801) 및 하나 또는 복수 개의 가속 유닛(GPU)(813) 중 적어도 하나이며, 가속 유닛(813)은 GPU, FPGA, 다른 타입의 전용 프로세서 등을 포함할 수 있지만 이에 한정되지 않으며, 프로세서는 판독 전용 메모리(ROM)(802)에 저장된 수행 가능 명령어 또는 저장 부분(808)으로부터 랜덤 액세스 메모리(RAM)(803)에 로딩된 수행 가능 명령어에 따라 다양한 적절한 단계 및 처리를 실행할 수 있다. 통신부(812)는 네트워크 카드를 포함할 수 있지만 이에 한정되지 않으며, 상기 네트워크 카드는 인피니밴드(Infiniband, IB) 네트워크 카드를 포함할 수 있지만 이에 한정되지 않으며, 프로세서는 실행 가능한 명령어를 실행하기 위해 판독 전용 메모리(802) 및 랜덤 액세스 메모리(803) 중 적어도 하나에서 통신할 수 있며, 버스(804)와 통신부(812)를 연결하고, 통신부(812)를 통해 다른 목표 기기와 통신함으로써, 본 발명 실시예에 의해 제공된 임의의 방법에 대응하는 단계를 완성하며, 예를 들어, 단일 그림을 양안 이미지 중의 제1 이미지로 하여, 제1 뉴럴 네트워크를 통해, 상기 제1 이미지에 기반하여 상기 양안 이미지 중의 제2 이미지를 획득하고; 제2 뉴럴 네트워크를 통해, 상기 제1 이미지와 상기 제2 이미지에 대해 양안 스테레오 매칭을 수행함으로써, 상기 제1 이미지에 대응하는 깊이 정보를 획득한다.
본 발명의 전자 기기 중 각 방안의 기술적 효과는, 상응한 방법 실시예 중의 상응한 설명을 참조할 수 있으며, 여기서 더이상 설명하지 않는다.
또한, RAM(803)에는, 장치의 단계에 필요한 다양한 프로그램 및 데이터가 더 저장될 수 있다. CPU(801), ROM(802) 및 RAM(803)은 통신 버스(804)를 통해 서로 연결된다. RAM(803)이 있는 경우, ROM(802)은 옵션 모듈이다. RAM(803)은 실행 가능한 명령어를 저장하거나, 작동되는 동안 ROM(802)에 실행 가능한 명령어를 기록하며, 실행 가능한 명령어는 프로세서로 하여금 본 발명의 상기 임의의 방법의 대응하는 단계를 실행하도록 한다. 입력/출력(I/O) 인터페이스(505)도 버스(504)에 연결된다. 통신부(512)는 통합될 수 있거나, 버스에 연결된 복수 개의 서브 모듈(예를 들어 복수 개의 IB 랜 카드)을 갖도록 구성될 수 있다.
키보드, 마우스 등을 포함하는 입력 부분(806); 음극 선관(CRT), 액정 디스플레이(LCD), 스피커 등을 포함하는 출력 부분(807); 하드웨어 등을 포함하는 저장 부분(808); 및 LAN 카드, 모뎀 등을 포함하는 네트워크 인터페이스 카드의 통신 부분(809) 등 구성 요소는 입력/출력(I/O) 인터페이스(805)에 연결된다. 통신 부분(809)은 인터넷과 같은 네트워크를 통해 통신 처리를 실행한다. 드라이버(810)는 필요에 따라 I/O 인터페이스(805)에 연결될 수도 있다. 자기 디스크, 광 디스크, 광 자기 디스크, 반도체 메모리 등과 같은 탈착 가능한 매체(811)는 필요에 따라 제거 가능한 매체로부터 판독된 컴퓨터 프로그램이 저장 부분(808)에 설치되도록 필요에 따라 드라이버(810)에 장착된다.
설명해야 할 것은, 도 8에 도시된 아키텍쳐는 다만 선택적인 구현 방식일 뿐, 구체적인 실천 과정에서, 상기 도 8의 구성 요소의 개수 및 유형은 실제 필요에 따라 선택, 감소, 증가 또는 교체되며; 상이한 기능적 구성 요소 설치에서 분리 설치 또는 통합 설치 등 구현 방식을 사용할 수 있으며, 예를 들어 GPU(813) 및 CPU(801)는 분리 설치되거나 가속 유닛(813)이 CPU(801)에 통합되며, 통신부는 CPU(801) 또는 가속 유닛(813)에 분리 설치 또는 통합 설치될 수 있는 등이다. 이들 대안적인 실시 형태는 모두 본 개시에 개시된 보호 범위에 속한다.
특히, 본원의 실시예에 따른 흐름도를 참조하여 설명된 과정은 컴퓨터 소프트웨어 프로그램에 의해 구현될 수 있다. 예를 들어, 본 개시의 실시예는 컴퓨터 프로그램 제품을 포함하며, 기계 판독 가능 매체에 유형적으로 포함된 컴퓨터 프로그램을 포함하며, 컴퓨터 프로그램은 흐름도에 도시된 방법을 수행하기 위한 프로그램 코드를 포함하며, 프로그램 코드는 본 개시의 실시예에 의해 제공된 깊이 추정 방법의 단계를 실행하기 위한 명령어를 포함할 수 있다. 이러한 실시예에 있어서, 상기 컴퓨터 프로그램은 통신 부분을 통해 네트워크로부터 다운로드 및 설치될 수 있으며, 및/또는 제거 가능한 매체로부터 설치될 수 있다. 상기 컴퓨터 프로그램이 CPU에 의해 실행될 때, 본 발명의 방법에서 정의된 상기 기능을 실행한다.
또한, 본 발명 실시예는 컴퓨터 판독 가능한 코드를 포함하는 컴퓨터 프로그램을 제공하며, 상기 컴퓨터 판독 가능한 코드가 기기에서 작동될 때, 상기 기기 중의 프로세서는 본 발명 실시예 중 어느 하나에 따른 상기 깊이 추정 방법 중의 단계를 구현하기 위한 명령어를 실행한다.
또한, 본 발명 실시예는 컴퓨터 판독 가능한 명령어를 저장하기 위한 컴퓨터 판독 가능한 저장 매체를 제공하며, 명령어가 실행될 때 본 발명 실시예 중 어느 하나에 따른 상기 깊이 추정 방법 중의 단계를 구현한다.
당업자는 상기 방법 실시예를 구현하기 위한 모든 또는 일부 단계는 프로그램 명령어와 관련되는 하드웨어를 통해 완성되며, 전술한 프로그램은 컴퓨터 판독 가능한 저장 매체에 저장될 수 있으며, 상기 프로그램이 실행될 때, 실행은 상기 방법 실시예의 단계를 포함하며; 전술한 저장 매체는 판독 전용 메모리(Read Only Memory, ROM), 랜덤 액세스 메모리(Random Access Memory, RAM), 자기 디스크 또는 광 디스크와 같은 프로그램 코드를 저장할 수 있는 다양한 매체를 포함할 수 있음을 이해할 수 있다.
본 명세서에, 각 실시예는 모두 점진적으로 설명되며, 각 실시예는 다른 실시예와의 차이점에 초점을 맞추고, 각 실시예 사이의 동일하거나 유사한 부분은 서로 참조될 수 있다. 시스템 실시예는 방법 실시예에 기본상 대응되므로, 설명이 비교적 간단하고, 관련 부분에 대해서는 방법 실시예의 설명을 참조한다.
본 개시의 방법과 장치는 많은 방식으로 구현될 수 있다. 예를 들어, 본 개시의 방법과 장치는 소프트웨어, 하드웨어, 펌웨어 또는 소프트웨어, 하드웨어, 펌웨어의 임의의 조합으로 구현될 수 있다. 달리 구체적으로 언급되지 않는 한, 상기 방법의 상기 단계의 상기 순서는 다만 설명을 위한 것이며, 본 개시의 방법의 단계를 한정하려는 것은 아니다. 또한, 일부 실시예에 있어서, 본 개시는 기록 매체에 기록된 프로그램으로서 구현될 수도 있으며, 이들 프로그램은 본 개시의 방법을 구현하기 위한 기계 판독 가능한 명령어를 포함한다. 따라서, 본 발명은 본 발명에 따른 방법들을 실행하기 위한 프로그램을 저장하는 기록 매체를 더 포함한다.
본 발명의 설명은 예시 및 설명을 목적으로 제공되며, 누락되지 않는 형태로 한정하거나 본 출원을 개시된 형태로 한정하려는 것은 아니다. 많은 보정과 변경이 본 기술분야의 통상의 기술자에게 명백하다. 실시예들은 본 개시의 원리 및 실제 응용을 더 잘 설명하고, 본 기술분야의 통상의 기술자로 하여금 특정 용도에 적합한 다양한 수정들을 갖는 다양한 실시예들을 설계하기 위해 본 개시를 이해하도록 하기 위해 선택되고 설명된다.

Claims (37)

  1. 깊이 추정 방법으로서,
    단일 그림을 양안 이미지 중의 제1 이미지로 하여, 제1 뉴럴 네트워크를 통해, 상기 제1 이미지에 기반하여 상기 양안 이미지 중의 제2 이미지를 획득하는 단계; 및
    제2 뉴럴 네트워크를 통해, 상기 제1 이미지와 상기 제2 이미지에 대해 양안 스테레오 매칭을 수행함으로써, 상기 제1 이미지에 대응하는 깊이 정보를 획득하는 단계를 포함하는 것을 특징으로 하는 깊이 추정 방법.
  2. 제1항에 있어서,
    제1 뉴럴 네트워크를 통해, 상기 제1 이미지에 기반하여 상기 양안 이미지 중의 제2 이미지를 획득하는 단계는,
    제1 뉴럴 네트워크를 통해 상기 제1 이미지에 대해 처리를 수행하여, N 개의 채널의 시차 확률맵을 출력하는 단계 - 각 채널의 시차 확률맵은 상기 제1 이미지에서 픽셀이 제1 수평 방향으로 i 개의 시차만큼 시프트될 확률을 나타내고, i=0, 1, …, N-1이며, N의 값은 1보다 큰 양의 정수임 - ;
    상기 N 개의 채널의 시차 확률맵에 따라, 상기 제1 이미지를 제1 수평 방향으로 i 개의 픽셀만큼 각각 시프트하여, N 개의 시프트맵을 얻는 단계;
    상기 N 개의 시프트맵 중의 각 시프트맵을 대응하는 채널의 시차 확률맵에 각각 점곱하여, N 개의 점곱 결과를 얻는 단계; 및
    상기 N 개의 점곱 결과를 픽셀에 기반하여 중첩함으로써, 상기 제2 이미지를 얻는 단계를 포함하는 것을 특징으로 하는 깊이 추정 방법.
  3. 제2항에 있어서,
    상기 제1 뉴럴 네트워크를 통해 상기 제1 이미지에 대해 처리를 수행하여, N 개의 채널의 시차 확률맵을 출력하는 단계는,
    각각 제1 뉴럴 네트워크 중 적어도 2 개의 네트워크 깊이의 네트워크 계층을 통해 상기 제1 이미지에 대해 특징 추출을 수행하여, 적어도 2 개의 스케일의 특징맵을 획득하는 단계;
    상기 적어도 2 개의 스케일의 특징맵에 기반하여 N 개의 채널의, 적어도 2 개의 해상도의 예비 시차 확률맵을 각각 획득하는 단계; 및
    각 채널에 대해, 각각 상기 적어도 2 개의 해상도의 예비 시차 확률맵을 상기 제1 이미지의 해상도까지 확대한 후 중첩하여, 상기 N 개의 채널의 시차 확률맵을 얻는 단계를 포함하는 것을 특징으로 하는 깊이 추정 방법.
  4. 제2항 또는 제3항 중 어느 한 항에 있어서,
    상기 제1 이미지에서 전경 물체에 대응하는 픽셀은 상기 N 개의 채널의 시차 확률맵 중의 대응하는 픽셀 위치에 있고, 큰 시차에 대응하는 채널의 시차 확률맵에서 큰 확률값을 가지며; 상기 제1 이미지에서 배경 물체에 대응하는 픽셀은 상기 N 개의 채널의 시차 확률맵 중의 대응하는 픽셀 위치에 있고, 작은 시차에 대응하는 채널의 시차 확률맵에서 큰 확률값을 가지는 것을 특징으로 하는 깊이 추정 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 제1 이미지와 상기 제2 이미지에 대해 양안 스테레오 매칭을 수행함으로써, 상기 제1 이미지에 대응하는 깊이 정보를 획득하는 단계는,
    상기 양안 이미지 중 다른 하나의 이미지에 대한 하나의 이미지의 픽셀의 위치 관계를 나타내기 위한 상관 계수를 획득하는 단계 - 상기 양안 이미지 중 하나의 이미지는 상기 제1 이미지 또는 상기 제2 이미지를 포함하고, 상기 다른 하나의 이미지는 상기 하나의 이미지에 대응하도록 상기 제2 이미지 또는 상기 제1 이미지를 포함함 - ;
    상기 다른 하나의 이미지와 상기 상관 계수에 기반하여, 상기 제1 이미지와 상기 제2 이미지의 시차맵을 생성하는 단계; 및
    상기 시차맵에 기반하여 상기 제1 이미지에 대응하는 깊이 정보를 획득하는 단계를 포함하는 것을 특징으로 하는 깊이 추정 방법.
  6. 제5항에 있어서,
    상기 양안 이미지 중 다른 하나의 이미지에 대한 하나의 이미지의 픽셀의 위치 관계를 나타내기 위한 상관 계수를 획득하는 단계는,
    상기 하나의 이미지와 상기 다른 하나의 이미지에 대해 각각 특징 추출을 수행하는 단계; 및
    추출된 상기 하나의 이미지의 특징과 상기 다른 하나의 이미지의 특징에 기반하여, 상기 하나의 이미지와 상기 다른 하나의 이미지에서 픽셀의 위치 관계를 획득하고, 상기 양안 이미지 중 다른 하나의 이미지에 대한 하나의 이미지의 픽셀의 위치 관계를 나타내기 위한 상기 상관 계수를 출력하는 단계를 포함하는 것을 특징으로 하는 깊이 추정 방법.
  7. 제6항에 있어서,
    상기 다른 하나의 이미지와 상기 상관 계수에 기반하여, 제1 이미지와 상기 제2 이미지의 시차맵을 생성하는 단계는,
    상기 다른 하나의 이미지의 특징과 상기 상관 계수를 중첩하여, 상기 제1 이미지와 상기 제2 이미지의 시차맵을 생성하는 단계를 포함하는 것을 특징으로 하는 깊이 추정 방법.
  8. 제7항에 있어서,
    상기 다른 하나의 이미지의 특징과 상기 상관 계수를 중첩하여, 상기 제1 이미지와 상기 제2 이미지의 시차맵을 생성하는 단계는,
    상기 다른 하나의 이미지의 특징과 상기 상관 계수를 중첩하여, 중첩 결과를 얻는 단계; 및
    상기 중첩 결과의 특징을 추출하고, 추출된 상기 중첩 결과의 특징과 상기 중첩 결과를 병합하여, 상기 제1 이미지와 상기 제2 이미지의 시차맵을 획득하는 단계를 포함하는 것을 특징으로 하는 깊이 추정 방법.
  9. 제6항 내지 제8항 중 어느 한 항에 있어서,
    상기 시차맵에 기반하여 상기 제1 이미지에 대응하는 깊이 정보를 획득하는 단계는,
    상기 시차맵, 상기 제1 이미지를 촬영한 카메라의 초점 거리 및 상기 양안 이미지에 대응하는 양안 카메라 사이의 거리에 기반하여, 상기 제1 이미지에 대응하는 깊이 정보를 획득하는 단계를 포함하는 것을 특징으로 하는 깊이 추정 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    상기 깊이 추정 방법은,
    상기 제1 이미지에 대응하는 상기 깊이 정보와 상기 제2 이미지에 기반하여, 상기 제1 이미지에서 장면의 3D 공간 장면을 획득하는 단계를 더 포함하는 것을 특징으로 하는 깊이 추정 방법.
  11. 제5항 내지 제10항 중 어느 한 항에 있어서,
    상기 제1 뉴럴 네트워크는 제1 샘플 세트 중의 샘플 양안 이미지를 사용하여 미리 훈련되어 얻어지고, 상기 제1 샘플 세트는 적어도 한 그룹의 제1 샘플 양안 이미지를 포함하는 것; 및
    상기 제2 뉴럴 네트워크는 제2 샘플 세트 중의 샘플 양안 이미지를 사용하여 미리 훈련되어 얻어지고, 상기 제2 샘플 세트는 적어도 한 그룹의 제2 샘플 양안 이미지 및 시차맵 라벨을 포함하는 것; 중 적어도 하나를 포함하는 것을 특징으로 하는 깊이 추정 방법.
  12. 제11항에 있어서,
    상기 제1 뉴럴 네트워크의 훈련은,
    상기 제1 뉴럴 네트워크를 통해, 상기 적어도 한 그룹의 제1 샘플 양안 이미지 중의 제1 이미지에 의해, 상기 적어도 한 그룹의 제1 샘플 양안 이미지 중의 제2 이미지를 획득하고 출력하는 단계; 및
    상기 제1 뉴럴 네트워크에 의해 출력된 제2 이미지와 상기 적어도 한 그룹의 제1 샘플 양안 이미지 중의 제2 이미지 사이의 제1 차이값을 획득하고, 상기 제1 차이값에 기반하여 제1 훈련 완료 조건을 충족시킬 때까지 상기 제1 뉴럴 네트워크에 대해 훈련을 수행하는 단계를 포함하는 것을 특징으로 하는 깊이 추정 방법.
  13. 제12항에 있어서,
    상기 제1 뉴럴 네트워크에 의해 출력된 제2 이미지와 상기 적어도 한 그룹의 제1 샘플 양안 이미지 중의 제2 이미지 사이의 제1 차이값을 획득하고, 상기 제1 차이값에 기반하여 제1 훈련 완료 조건을 충족시킬 때까지 상기 제1 뉴럴 네트워크에 대해 훈련을 수행하는 단계는,
    상기 제1 뉴럴 네트워크에 의해 출력된 제2 이미지와 상기 적어도 한 그룹의 제1 샘플 양안 이미지 중의 제2 이미지 사이의 픽셀에서의 제1 차이값을 획득하는 단계; 및
    상기 제1 차이값에 기반하여 제1 훈련 완료 조건을 충족시킬 때까지 상기 제1 뉴럴 네트워크에서의 네트워크 파라미터의 파라미터값을 조정하는 단계를 포함하고;
    상기 제1 훈련 완료 조건은 상기 제1 차이값이 제1 기설정된 임계값보다 작은 것, 및 상기 제1 뉴럴 네트워크에 대한 훈련 횟수가 제1 기설정된 횟수에 도달하는 것 중 적어도 하나를 포함하는 것을 특징으로 하는 깊이 추정 방법.
  14. 제11항 내지 제13항 중 어느 한 항에 있어서,
    상기 제2 뉴럴 네트워크의 훈련은,
    상기 제2 뉴럴 네트워크를 통해, 상기 적어도 한 그룹의 제2 샘플 양안 이미지의 시차맵을 획득하고 출력하는 단계; 및
    상기 제2 뉴럴 네트워크에 의해 출력된 시차맵과 상기 적어도 한 그룹의 제2 샘플 양안 이미지의 시차맵 라벨 사이의 제2 차이값을 획득하고, 상기 제2 차이값에 기반하여 제2 훈련 완료 조건을 충족시킬 때까지 상기 제2 뉴럴 네트워크에 대해 훈련을 수행하는 단계를 포함하는 것을 특징으로 하는 깊이 추정 방법.
  15. 제14항에 있어서,
    상기 제2 뉴럴 네트워크에 의해 출력된 시차맵과 상기 적어도 한 그룹의 제2 샘플 양안 이미지의 시차맵 라벨 사이의 제2 차이값을 획득하고, 상기 제2 차이값에 기반하여 제2 훈련 완료 조건을 충족시킬 때까지 상기 제2 뉴럴 네트워크에 대해 훈련을 수행하는 단계는,
    상기 제2 뉴럴 네트워크에 의해 출력된 시차맵과 상기 적어도 한 그룹의 제2 샘플 양안 이미지의 시차맵 라벨 사이의 픽셀에서의 제2 차이값을 획득하는 단계; 및
    상기 제2 차이값에 기반하여 제2 훈련 완료 조건을 충족시킬 때까지 상기 제2 뉴럴 네트워크에서의 네트워크 파라미터의 파라미터값을 조정하는 단계를 포함하고;
    상기 제2 훈련 완료 조건은 상기 제2 차이값이 제2 기설정된 임계값보다 작은 것, 및 상기 제2 뉴럴 네트워크에 대한 훈련 횟수가 제2 기설정된 횟수에 도달하는 것 중 적어도 하나를 포함하는 것을 특징으로 하는 깊이 추정 방법.
  16. 제11항 내지 제15항 중 어느 한 항에 있어서,
    상기 제1 뉴럴 네트워크 및 상기 제2 뉴럴 네트워크의 훈련은,
    제3 샘플 세트 중의 샘플 양안 이미지 및 제3 샘플이미지에 대응하는 깊이맵 라벨을 이용하여 상기 제1 뉴럴 네트워크 및 상기 제2 뉴럴 네트워크에 대해 훈련을 수행하는 단계를 더 포함하고;
    상기 제3 샘플 세트는 적어도 한 그룹의 제3 샘플 양안 이미지 및 제3 샘플이미지에 대응하는 깊이맵 라벨을 포함하는 것을 특징으로 하는 깊이 추정 방법.
  17. 제16항에 있어서,
    상기 제3 샘플 세트 중의 샘플 양안 이미지 및 제3 샘플이미지에 대응하는 깊이맵 라벨을 이용하여 상기 제1 뉴럴 네트워크 및 상기 제2 뉴럴 네트워크에 대해 훈련을 수행하는 단계는,
    상기 제1 뉴럴 네트워크를 통해, 상기 적어도 한 그룹의 제3 샘플 양안 이미지 중의 제1 이미지에 의해, 상기 적어도 한 그룹의 제3 샘플 양안 이미지 중의 제2 이미지를 획득하는 단계;
    상기 제2 뉴럴 네트워크를 통해, 상기 적어도 한 그룹의 제3 샘플 양안 이미지의 시차맵을 획득하는 단계;
    상기 적어도 한 그룹의 제3 샘플 양안 이미지의 시차맵에 기반하여 적어도 한 그룹의 깊이 정보를 획득하는 단계;
    상기 적어도 한 그룹의 깊이 정보와 상기 적어도 한 그룹의 제3 샘플 양안 이미지의 깊이맵 라벨 사이의 제3 차이값을 획득하는 단계; 및
    상기 제3 차이값에 기반하여 제3 훈련 완료 조건을 충족시킬 때까지 상기 제1 뉴럴 네트워크 및 상기 제2 뉴럴 네트워크에서의 네트워크 파라미터의 파라미터값을 조정하는 단계를 포함하며;
    상기 제3 훈련 완료 조건은 상기 제3 차이값이 제3 기설정된 임계값보다 작은 것, 및 상기 제1 뉴럴 네트워크 및 상기 제2 뉴럴 네트워크에 대한 훈련 횟수가 제3 기설정된 횟수에 도달하는 것 중 적어도 하나를 포함하는 것을 특징으로 하는 깊이 추정 방법.
  18. 깊이 추정 장치로서,
    단일 그림을 양안 이미지 중의 제1 이미지로 하여, 제1 뉴럴 네트워크를 통해, 상기 제1 이미지에 기반하여 상기 양안 이미지 중의 제2 이미지를 획득하기 위한 이미지 획득 모듈; 및
    제2 뉴럴 네트워크를 통해, 상기 제1 이미지와 상기 제2 이미지에 대해 양안 스테레오 매칭을 수행함으로써, 상기 제1 이미지에 대응하는 깊이 정보를 획득하기 위한 스테레오 매칭 모듈을 포함하는 것을 특징으로 하는 깊이 추정 장치.
  19. 제18항에 있어서,
    상기 이미지 획득 모듈은,
    상기 제1 이미지에 대해 처리를 수행하여, N 개의 채널의 시차 확률맵을 출력하기 위한 제1 서브 뉴럴 네트워크 유닛 - 각 채널의 시차 확률맵은 상기 제1 이미지에서 픽셀이 제1 수평 방향으로 i 개의 시차만큼 시프트될 확률을 나타내고, i=0, 1, …, N-1이며, N의 값은 1보다 큰 양의 정수임 - ;
    상기 N 개의 채널의 시차 확률맵에 따라, 상기 제1 이미지를 제1 수평 방향으로 i 개의 픽셀만큼 시프트하여, N 개의 시프트맵을 얻기 위한 시프트 유닛;
    상기 N 개의 시프트맵 중의 각 시프트맵을 대응하는 채널의 시차 확률맵에 각각 점곱하여, N 개의 점곱 결과를 얻기 위한 점곱 유닛; 및
    상기 N 개의 점곱 결과를 픽셀에 기반하여 중첩함으로써, 상기 제2 이미지를 얻기 위한 가산 유닛을 포함하는 것을 특징으로 하는 깊이 추정 장치.
  20. 제19항에 있어서,
    상기 제1 서브 뉴럴 네트워크 유닛은, 적어도 2 개의 네트워크 깊이의 네트워크 계층을 포함하며, 상기 제1 서브 뉴럴 네트워크 유닛은,
    적어도 2 개의 네트워크 깊이의 네트워크 계층을 각각 통해 상기 제1 이미지에 대해 특징 추출을 수행하여, 적어도 2 개의 스케일의 특징맵을 획득하고;
    상기 적어도 2 개의 스케일의 특징맵에 기반하여 N 개의 채널의, 적어도 2 개의 해상도의 예비 시차 확률맵을 각각 획득하며;
    각 채널에 대해, 각각 상기 적어도 2 개의 해상도의 예비 시차 확률맵을 상기 제1 이미지의 해상도까지 확대한 후 중첩하여, 상기 N 개의 채널의 시차 확률맵을 얻기 위한 것을 특징으로 하는 깊이 추정 장치.
  21. 제19항 또는 제20항에 있어서,
    상기 제1 이미지에서 전경 물체에 대응하는 픽셀은 상기 N 개의 채널의 시차 확률맵 중의 대응하는 픽셀 위치에 있고, 큰 시차에 대응하는 채널의 시차 확률맵에서 큰 확률값을 가지며; 상기 제1 이미지에서 배경 물체에 대응하는 픽셀은 상기 N 개의 채널의 시차 확률맵 중의 대응하는 픽셀 위치에 있고, 작은 시차에 대응하는 채널의 시차 확률맵에서 큰 확률값을 가지는 것을 특징으로 하는 깊이 추정 장치.
  22. 제18항 내지 제21항 중 어느 한 항에 있어서,
    상기 스테레오 매칭 모듈은,
    상기 양안 이미지 중 다른 하나의 이미지에 대한 하나의 이미지의 픽셀의 위치 관계를 나타내기 위한 상관 계수를 획득하기 위한 제1 획득 유닛 - 상기 양안 이미지 중 하나의 이미지는 상기 제1 이미지 또는 상기 제2 이미지를 포함하고, 상기 다른 하나의 이미지는 상기 하나의 이미지에 대응하도록 상기 제2 이미지 또는 상기 제1 이미지를 포함함 - ;
    상기 다른 하나의 이미지와 상기 상관 계수에 기반하여, 상기 제1 이미지와 상기 제2 이미지의 시차맵을 생성하기 위한 생성 유닛; 및
    상기 시차맵에 기반하여 상기 제1 이미지에 대응하는 깊이 정보를 획득하기 위한 제3 획득 유닛을 포함하는 것을 특징으로 하는 깊이 추정 장치.
  23. 제22항에 있어서,
    상기 제1 획득 유닛은,
    상기 하나의 이미지와 상기 다른 하나의 이미지에 대해 각각 특징 추출을 수행하기 위한 제2 서브 뉴럴 네트워크 유닛; 및
    추출된 상기 하나의 이미지의 특징과 상기 다른 하나의 이미지의 특징에 기반하여, 상기 하나의 이미지와 상기 다른 하나의 이미지에서 픽셀의 위치 관계를 획득하고, 상기 양안 이미지 중 다른 하나의 이미지에 대한 하나의 이미지의 픽셀의 위치 관계를 나타내기 위한 상기 상관 계수를 출력하기 위한 획득 서브 유닛을 포함하는 것을 특징으로 하는 깊이 추정 장치.
  24. 제23항에 있어서,
    상기 생성 유닛은, 상기 다른 하나의 이미지의 특징과 상기 상관 계수를 중첩하여, 상기 제1 이미지와 상기 제2 이미지의 시차맵을 생성하기 위한 것임을 특징으로 하는 깊이 추정 장치.
  25. 제24항에 있어서,
    상기 생성 유닛은,
    상기 다른 하나의 이미지의 특징과 상기 상관 계수를 중첩하여, 중첩 결과를 얻기 위한 중첩 서브 유닛; 및
    상기 중첩 결과의 특징을 추출하고, 추출된 상기 중첩 결과의 특징과 상기 중첩 결과를 병합하여, 상기 제1 이미지와 상기 제2 이미지의 시차맵을 획득하기 위한 병합 서브 유닛을 포함하는 것을 특징으로 하는 깊이 추정 장치.
  26. 제23항 내지 제25항 중 어느 한 항에 있어서,
    상기 제3 획득 유닛은, 상기 시차맵, 상기 제1 이미지를 촬영한 카메라의 초점 거리 및 상기 양안 이미지에 대응하는 양안 카메라 사이의 거리에 기반하여, 상기 제1 이미지에 대응하는 깊이 정보를 획득하기 위한 것임을 특징으로 하는 깊이 추정 장치.
  27. 제18항 내지 제26항 중 어느 한 항에 있어서,
    상기 제1 이미지에 대응하는 상기 깊이 정보와 상기 제2 이미지에 기반하여, 상기 제1 이미지에서 장면의 3D 공간 장면을 획득하기 위한 획득 모듈을 더 포함하는 것을 특징으로 하는 깊이 추정 장치.
  28. 제22항 내지 제27항 중 어느 한 항에 있어서,
    상기 제1 뉴럴 네트워크는 제1 샘플 세트 중의 샘플 양안 이미지를 사용하여 미리 훈련되어 얻어지고, 상기 제1 샘플 세트는 적어도 한 그룹의 제1 샘플 양안 이미지를 포함하는 것; 및
    상기 제2 뉴럴 네트워크는 제2 샘플 세트 중의 샘플 양안 이미지를 사용하여 미리 훈련되어 얻어지고, 상기 제2 샘플 세트는 적어도 한 그룹의 제2 샘플 양안 이미지 및 시차맵 라벨을 포함하는 것; 중 적어도 하나를 포함하는 것을 특징으로 하는 깊이 추정 장치.
  29. 제28항에 있어서,
    상기 제1 뉴럴 네트워크는, 상기 적어도 한 그룹의 제1 샘플 양안 이미지 중의 제1 이미지에 의해, 상기 적어도 한 그룹의 제1 샘플 양안 이미지 중의 제2 이미지를 획득하고 출력하기 위한 것이고;
    상기 상기 깊이 추정 장치는,
    상기 제1 뉴럴 네트워크에 의해 출력된 제2 이미지와 상기 적어도 한 그룹의 제1 샘플 양안 이미지 중의 제2 이미지 사이의 제1 차이값을 획득하고, 상기 제1 차이값에 기반하여 제1 훈련 완료 조건을 충족시킬 때까지 상기 제1 뉴럴 네트워크에 대해 훈련을 수행하기 위한 제1 훈련 모듈을 더 포함하는 것을 특징으로 하는 깊이 추정 장치.
  30. 제29항에 있어서,
    상기 제1 훈련 모듈은,
    상기 제1 뉴럴 네트워크에 의해 출력된 제2 이미지와 상기 적어도 한 그룹의 제1 샘플 양안 이미지 중의 제2 이미지 사이의 픽셀에서의 제1 차이값을 획득하고;
    상기 제1 차이값에 기반하여 제1 훈련 완료 조건을 충족시킬 때까지 상기 제1 뉴럴 네트워크에서의 네트워크 파라미터의 파라미터값을 조정하기 위한 것이며,
    상기 제1 훈련 완료 조건은 상기 제1 차이값이 제1 기설정된 임계값보다 작은 것, 및 상기 제1 뉴럴 네트워크에 대한 훈련 횟수가 제1 기설정된 횟수에 도달하는 것 중 적어도 하나를 포함하는 것을 특징으로 하는 깊이 추정 장치.
  31. 제28항 내지 제30항 중 어느 한 항에 있어서,
    상기 제2 뉴럴 네트워크는, 상기 적어도 한 그룹의 제2 샘플 양안 이미지의 시차맵을 획득하고 출력하기 위한 것이고;
    상기 깊이 추정 장치는,
    상기 제2 뉴럴 네트워크에 의해 출력된 시차맵과 상기 적어도 한 그룹의 제2 샘플 양안 이미지의 시차맵 라벨 사이의 제2 차이값을 획득하고, 상기 제2 차이값에 기반하여 제2 훈련 완료 조건을 충족시킬 때까지 상기 제2 뉴럴 네트워크에 대해 훈련을 수행하기 위한 제2 훈련 모듈을 더 포함하는 것을 특징으로 하는 깊이 추정 장치.
  32. 제31항에 있어서,
    상기 제2 훈련 모듈은,
    상기 제2 뉴럴 네트워크에 의해 출력된 시차맵과 상기 적어도 한 그룹의 제2 샘플 양안 이미지의 시차맵 라벨 사이의 픽셀에서의 제2 차이값을 획득하고;
    상기 제2 차이값에 기반하여 제2 훈련 완료 조건을 충족시킬 때까지 상기 제2 뉴럴 네트워크에서의 네트워크 파라미터의 파라미터값을 조정하기 위한 것이며;
    상기 제2 훈련 완료 조건은 상기 제2 차이값이 제2 기설정된 임계값보다 작은 것, 및 상기 제2 뉴럴 네트워크에 대한 훈련 횟수가 제2 기설정된 횟수에 도달하는 것 중 적어도 하나를 포함하는 것을 특징으로 하는 깊이 추정 장치.
  33. 제28항 내지 제33항 중 어느 한 항에 있어서,
    제3 샘플 세트 중의 샘플 양안 이미지 및 제3 샘플이미지에 대응하는 깊이맵 라벨을 이용하여 상기 제1 뉴럴 네트워크 및 상기 제2 뉴럴 네트워크에 대해 훈련을 수행하기 위한 제3 훈련 모듈을 더 포함하고;
    상기 제3 샘플 세트는 적어도 한 그룹의 제3 샘플 양안 이미지 및 제3 샘플이미지에 대응하는 깊이맵 라벨을 포함하는 것을 특징으로 하는 깊이 추정 장치.
  34. 제33항에 있어서,
    상기 제1 뉴럴 네트워크는, 상기 적어도 한 그룹의 제3 샘플 양안 이미지 중의 제1 이미지에 의해, 상기 적어도 한 그룹의 제3 샘플 양안 이미지 중의 제2 이미지를 획득하기 위한 것이고;
    상기 제2 뉴럴 네트워크는, 상기 적어도 한 그룹의 제3 샘플 양안 이미지의 시차맵을 획득하기 위한 것이며;
    상기 제3 훈련 모듈은,
    상기 적어도 한 그룹의 제3 샘플 양안 이미지의 시차맵에 기반하여 적어도 한 그룹의 깊이 정보를 획득하고;
    상기 적어도 한 그룹의 깊이 정보와 상기 적어도 한 그룹의 제3 샘플 양안 이미지의 깊이맵 라벨 사이의 제3 차이값을 획득하며;
    상기 제3 차이값에 기반하여 제3 훈련 완료 조건을 충족시킬 때까지 상기 제1 뉴럴 네트워크 및 상기 제2 뉴럴 네트워크에서의 네트워크 파라미터의 파라미터값을 조정하기 위한 것이며;
    상기 제3 훈련 완료 조건은 상기 제3 차이값이 제3 기설정된 임계값보다 작은 것, 및 상기 제1 뉴럴 네트워크 및 상기 제2 뉴럴 네트워크에 대한 훈련 횟수가 제3 기설정된 횟수에 도달하는 것 중 적어도 하나를 포함하는 것을 특징으로 하는 깊이 추정 장치.
  35. 전자 기기로서,
    실행 가능한 명령어를 저장하기 위한 메모리; 및
    상기 실행 가능한 명령어를 실행함으로써 제1항 내지 제17항 중 어느 한 항에 따른 방법의 단계를 완료하기 위해 상기 메모리와 통신하기 위한 프로세서를 포함하는 것을 특징으로 하는 전자 기기.
  36. 컴퓨터 판독 가능 코드를 포함하는 컴퓨터 프로그램으로서,
    상기 컴퓨터 판독 가능 코드가 기기에서 작동될 때, 상기 기기 중의 프로세서는 제1항 내지 제17항 중 어느 한 항에 따른 방법의 단계를 구현하기 위한 명령어를 실행하는 것을 특징으로 하는 컴퓨터 프로그램.
  37. 컴퓨터 판독 가능한 명령어를 저장하기 위한 컴퓨터 판독 가능한 저장 매체로서,
    상기 명령어가 실행될 때 제1항 내지 제17항 중 어느 한 항에 따른 방법 중의 단계를 구현하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장 매체.
KR1020207009470A 2018-02-01 2019-01-30 깊이 추정 방법 및 장치, 전자 기기, 프로그램 및 매체 KR102295403B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810103195.0A CN108335322B (zh) 2018-02-01 2018-02-01 深度估计方法和装置、电子设备、程序和介质
CN201810103195.0 2018-02-01
PCT/CN2019/073820 WO2019149206A1 (zh) 2018-02-01 2019-01-30 深度估计方法和装置、电子设备、程序和介质

Publications (2)

Publication Number Publication Date
KR20200049833A true KR20200049833A (ko) 2020-05-08
KR102295403B1 KR102295403B1 (ko) 2021-08-31

Family

ID=62928066

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207009470A KR102295403B1 (ko) 2018-02-01 2019-01-30 깊이 추정 방법 및 장치, 전자 기기, 프로그램 및 매체

Country Status (6)

Country Link
US (1) US11308638B2 (ko)
JP (1) JP6951565B2 (ko)
KR (1) KR102295403B1 (ko)
CN (1) CN108335322B (ko)
SG (1) SG11202003141PA (ko)
WO (1) WO2019149206A1 (ko)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108335322B (zh) * 2018-02-01 2021-02-12 深圳市商汤科技有限公司 深度估计方法和装置、电子设备、程序和介质
CN110622213B (zh) * 2018-02-09 2022-11-15 百度时代网络技术(北京)有限公司 利用3d语义地图进行深度定位和分段的系统和方法
CN109299656B (zh) * 2018-08-13 2021-10-22 浙江零跑科技股份有限公司 一种车载视觉系统场景视深确定方法
CN109598754B (zh) * 2018-09-29 2020-03-17 天津大学 一种基于深度卷积网络的双目深度估计方法
US10503966B1 (en) * 2018-10-11 2019-12-10 Tindei Network Technology (Shanghai) Co., Ltd. Binocular pedestrian detection system having dual-stream deep learning neural network and the methods of using the same
CN111209770B (zh) * 2018-11-21 2024-04-23 北京三星通信技术研究有限公司 一种车道线识别方法及装置
CN111210467A (zh) * 2018-12-27 2020-05-29 上海商汤智能科技有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
CN111383256B (zh) * 2018-12-29 2024-05-17 北京市商汤科技开发有限公司 图像处理方法、电子设备及计算机可读存储介质
CN109741388B (zh) * 2019-01-29 2020-02-28 北京字节跳动网络技术有限公司 用于生成双目深度估计模型的方法和装置
CN109840500B (zh) * 2019-01-31 2021-07-02 深圳市商汤科技有限公司 一种三维人体姿态信息检测方法及装置
CN110223334B (zh) * 2019-05-07 2021-09-14 深圳云天励飞技术有限公司 一种景深图获取方法及装置
CN109934307B (zh) * 2019-05-08 2021-04-09 北京奇艺世纪科技有限公司 视差图预测模型训练方法、预测方法、装置及电子设备
US20200364491A1 (en) * 2019-05-15 2020-11-19 Getac Technology Corporation Image detection scanning method for object surface defects and image detection scanning system thereof
CN112434702A (zh) * 2019-08-26 2021-03-02 阿里巴巴集团控股有限公司 图像处理方法、装置、计算机设备、存储介质
US11294996B2 (en) 2019-10-15 2022-04-05 Assa Abloy Ab Systems and methods for using machine learning for image-based spoof detection
US11348375B2 (en) 2019-10-15 2022-05-31 Assa Abloy Ab Systems and methods for using focal stacks for image-based spoof detection
WO2021084530A1 (en) * 2019-10-27 2021-05-06 Ramot At Tel-Aviv University Ltd. Method and system for generating a depth map
CN111047634B (zh) * 2019-11-13 2023-08-08 杭州飞步科技有限公司 场景深度的确定方法、装置、设备及存储介质
CN112991254A (zh) 2019-12-13 2021-06-18 上海肇观电子科技有限公司 视差估计系统、方法、电子设备及计算机可读存储介质
CN113034568B (zh) * 2019-12-25 2024-03-29 杭州海康机器人股份有限公司 一种机器视觉深度估计方法、装置、系统
CN111652922B (zh) * 2020-06-04 2023-09-08 江苏天宏机械工业有限公司 一种基于双目视觉的单目视频深度估计方法
US11275959B2 (en) * 2020-07-07 2022-03-15 Assa Abloy Ab Systems and methods for enrollment in a multispectral stereo facial recognition system
US11836965B2 (en) * 2020-08-12 2023-12-05 Niantic, Inc. Determining visual overlap of images by using box embeddings
CN112489103B (zh) * 2020-11-19 2022-03-08 北京的卢深视科技有限公司 一种高分辨率深度图获取方法及系统
CN112446328B (zh) * 2020-11-27 2023-11-17 汇纳科技股份有限公司 单目深度的估计系统、方法、设备及计算机可读存储介质
CN112903952B (zh) * 2021-01-21 2022-05-27 北京航空航天大学 一种金属板结构损伤评价系统和方法
CN112861940A (zh) * 2021-01-26 2021-05-28 上海西井信息科技有限公司 双目视差估计方法、模型训练方法以及相关设备
CN112949504B (zh) * 2021-03-05 2024-03-19 深圳市爱培科技术股份有限公司 立体匹配方法、装置、设备及存储介质
CN112967332B (zh) * 2021-03-16 2023-06-16 清华大学 基于门控成像的双目深度估计方法、装置及计算机设备
CN112862877B (zh) * 2021-04-09 2024-05-17 北京百度网讯科技有限公司 用于训练图像处理网络和图像处理的方法和装置
US11823402B2 (en) 2021-05-03 2023-11-21 Electronics And Telecommunications Research Institute Method and apparatus for correcting error in depth information estimated from 2D image
KR102641108B1 (ko) * 2021-08-03 2024-02-27 연세대학교 산학협력단 깊이맵 완성 장치 및 방법
CN113928282A (zh) * 2021-11-24 2022-01-14 扬州大学江都高端装备工程技术研究所 融合路面环境和车辆安全模型的辅助巡航主动刹车方法
CN114627535B (zh) * 2022-03-15 2024-05-10 平安科技(深圳)有限公司 基于双目摄像头的坐标匹配方法、装置、设备及介质
CN114615507B (zh) * 2022-05-11 2022-09-13 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种图像编码方法、解码方法及相关装置
CN115937290B (zh) * 2022-09-14 2024-03-22 北京字跳网络技术有限公司 一种图像深度估计方法、装置、电子设备及存储介质
CN116129036B (zh) * 2022-12-02 2023-08-29 中国传媒大学 一种深度信息引导的全方向图像三维结构自动恢复方法
CN117726666B (zh) * 2024-02-08 2024-06-04 北京邮电大学 跨相机单目图片度量深度估计方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523464A (zh) * 2011-12-12 2012-06-27 上海大学 一种双目立体视频的深度图像估计方法
CN107578435A (zh) * 2017-09-11 2018-01-12 清华-伯克利深圳学院筹备办公室 一种图像深度预测方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02101584A (ja) * 1988-10-11 1990-04-13 Nippon Telegr & Teleph Corp <Ntt> ステレオ画像処理方式
CN101907448B (zh) * 2010-07-23 2013-07-03 华南理工大学 一种基于双目三维视觉的深度测量方法
KR101691034B1 (ko) * 2010-08-03 2016-12-29 삼성전자주식회사 3차원 그래픽 기반 단말기에서 객체 렌더링 시 부가정보 합성 장치 및 방법
JP6210483B2 (ja) * 2012-04-26 2017-10-11 国立大学法人山口大学 立体内視鏡画像からの3次元形状取得装置
CN102750702B (zh) * 2012-06-21 2014-10-15 东华大学 基于优化bp神经网络模型的单目红外图像深度估计方法
US10356383B2 (en) * 2014-12-24 2019-07-16 Reald Spark, Llc Adjustment of perceived roundness in stereoscopic image of a head
US9811756B2 (en) * 2015-02-23 2017-11-07 Mitsubishi Electric Research Laboratories, Inc. Method for labeling images of street scenes
CN109314774B (zh) * 2016-07-06 2021-05-25 深圳市大疆创新科技有限公司 用于立体成像的系统和方法
GB2553782B (en) * 2016-09-12 2021-10-20 Niantic Inc Predicting depth from image data using a statistical model
CN106355570B (zh) * 2016-10-21 2019-03-19 昆明理工大学 一种结合深度特征的双目立体视觉匹配方法
CN106612427B (zh) * 2016-12-29 2018-07-06 浙江工商大学 一种基于卷积神经网络的时空一致性深度图序列的生成方法
CN106504190B (zh) * 2016-12-29 2019-09-13 浙江工商大学 一种基于3d卷积神经网络的立体视频生成方法
CN108335322B (zh) * 2018-02-01 2021-02-12 深圳市商汤科技有限公司 深度估计方法和装置、电子设备、程序和介质
RU2698402C1 (ru) * 2018-08-30 2019-08-26 Самсунг Электроникс Ко., Лтд. Способ обучения сверточной нейронной сети для восстановления изображения и система для формирования карты глубины изображения (варианты)

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523464A (zh) * 2011-12-12 2012-06-27 上海大学 一种双目立体视频的深度图像估计方法
CN107578435A (zh) * 2017-09-11 2018-01-12 清华-伯克利深圳学院筹备办公室 一种图像深度预测方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Junyuan Xie 등, Deep3D: Fully Automatic 2D-to-3D Video Conversion with Deep Convolutional Neural Networks, arXiv:1604.03650v1.(2016.04.13.)* *
Nikolaus Mayer 등, A Large Detaset Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation, arXiv:1512.02134v1.(2015.12.07.)* *
Philipp Fischer 등, FlowNet: Learning Optical Flow with Convolutional Networks, arXiv:1504.06852v2.(2015.05.04.)* *

Also Published As

Publication number Publication date
US20200226777A1 (en) 2020-07-16
KR102295403B1 (ko) 2021-08-31
CN108335322A (zh) 2018-07-27
JP2020535547A (ja) 2020-12-03
SG11202003141PA (en) 2020-05-28
JP6951565B2 (ja) 2021-10-20
US11308638B2 (en) 2022-04-19
CN108335322B (zh) 2021-02-12
WO2019149206A1 (zh) 2019-08-08

Similar Documents

Publication Publication Date Title
KR102295403B1 (ko) 깊이 추정 방법 및 장치, 전자 기기, 프로그램 및 매체
TWI766175B (zh) 單目圖像深度估計方法、設備及儲存介質
WO2018166438A1 (zh) 图像处理方法、装置及电子设备
CN109087346B (zh) 单目深度模型的训练方法、训练装置和电子设备
JP2020535547A5 (ja) 深度推定方法及び装置、電子機器並びに媒体
TW202117611A (zh) 電腦視覺訓練系統及訓練電腦視覺系統的方法
WO2020146911A2 (en) Multi-stage multi-reference bootstrapping for video super-resolution
WO2022156626A1 (zh) 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品
KR20180087918A (ko) 실감형 인터랙티브 증강현실 가상체험 학습 서비스 방법
KR20100109069A (ko) 시각적 관심맵 생성 장치 및 방법
JP5911292B2 (ja) 画像処理装置、撮像装置、画像処理方法、および、画像処理プログラム
US20230394834A1 (en) Method, system and computer readable media for object detection coverage estimation
CN110740309A (zh) 一种图像显示方法、装置、电子设备及存储介质
US10298914B2 (en) Light field perception enhancement for integral display applications
CN110335228B (zh) 一种图像视差的确定方法、装置及系统
KR20170073937A (ko) 영상 데이터 전송 방법 및 장치, 및 3차원 영상 생성 방법 및 장치
Lee et al. Automatic 2d-to-3d conversion using multi-scale deep neural network
KR102067423B1 (ko) 지피유 가속 컴퓨팅을 이용한 3차원 복원 클라우드 포인트 생성 방법
JP5906165B2 (ja) 仮想視点画像合成装置、仮想視点画像合成方法及び仮想視点画像合成プログラム
US11810308B2 (en) Vertical disparity detection in stereoscopic images using a deep neural network
JP2024521816A (ja) 無制約画像手ぶれ補正
US11043152B2 (en) Method and apparatus for filling holes in naked-eye 3D multi-viewpoint image, and electronic device for performing the method
US20240054667A1 (en) High dynamic range viewpoint synthesis
Truong et al. Novel View Synthesis for Sparse RGB-D camera networks
CN116883770A (zh) 深度估计模型的训练方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant