KR20220003171A

KR20220003171A - 콘볼루셔널 이미지 변환 추정을 수행하기 위한 방법 및 시스템

Info

Publication number: KR20220003171A
Application number: KR1020217043357A
Authority: KR
Inventors: 다니엘 데톤; 토마스 잔 말리시예위츠; 앤드류 라비노비치
Original assignee: 매직 립, 인코포레이티드
Priority date: 2016-05-20
Filing date: 2017-05-19
Publication date: 2022-01-07
Also published as: KR102442018B1; AU2017267983B2; IL262886A; US11062209B2; KR20190010582A; US10489708B2; KR102506459B1; US20170337470A1; US20210365785A1; IL262886B; IL295245B1; US20200097819A1; JP7241210B2; CA3021085A1; AU2017267983A1; KR20220125380A; US11593654B2; KR102347204B1; CN109154973B; KR20210019609A

Abstract

이미지에 기초하여 신경 네트워크(neural network)에 대한 입력들을 생성하기 위한 방법은, 이미지를 수신하는 단계, 이미지 내의 포지션을 식별하는 단계, 및 포지션에서 이미지의 서브세트를 식별하는 단계를 포함한다. 이미지의 서브세트는 코너들의 제1 세트에 의해 정의된다. 이 방법은 또한, 코너들의 제2 세트를 형성하도록 코너들의 제1 세트 중 적어도 하나를 섭동시키는 단계를 포함한다. 코너들의 제2 세트는 이미지의 수정된 서브세트를 정의한다. 이 방법은, 이미지의 서브세트와 이미지의 수정된 서브세트 간의 비교에 기초하여 호모그래피(homography)를 결정하는 단계, 호모그래피를 이미지에 적용함으로써 변환된 이미지를 생성하는 단계, 및 포지션에서 변환된 이미지의 서브세트를 식별하는 단계를 더 포함한다.

Description

콘볼루셔널 이미지 변환 추정을 수행하기 위한 방법 및 시스템{METHOD AND SYSTEM FOR PERFORMING CONVOLUTIONAL IMAGE TRANSFORMATION ESTIMATION}

[0001] 본 출원은, "Deep Image Homography Estimation"란 명칭으로 2016년 5월 20일에 출원된 미국 가특허 출원 번호 제62/339,799호를 우선권으로 주장하며, 그로써, 이 출원의 개시내용은 모든 목적을 위해 그 전체가 인용에 의해 포함된다.

[0002] 한 쌍의 이미지들로부터 2 차원(2D) 호모그래피(homography)(또는 사영 변환(projective transformation))을 추정하는 것은 컴퓨터 비전에서 기본 작업이다. 호모그래피는 회전 전용 움직임들, 평면 장면들 및/또는 객체들이 뷰어로부터 아주 멀리 떨어져 있는 장면들을 포함하는 시나리오들에서 단안 SLAM(simultaneous localization and mapping) 시스템들의 필수적인 부분이다. 카메라 중심을 중심으로 한 회전을 겪은 2개의 이미지들에 관련된 변환(transformation)이 호모그래피라는 것은 잘 알려져 있고, 호모그래피들은 파노라마들을 생성하는데 필수적이라는 것은 놀랄 일이 아니다. 평면 및 대개-평면 장면들을 다루기 위해, 대중적인 SLAM 알고리즘인 ORB-SLAM은 호모그래피 추정과 기본 행렬 추정의 조합을 사용한다. 호모그래피들의 부가적인 애플리케이션들은 증강 현실 및 카메라 교정을 포함한다.

[0003] 호모그래피 추정에 대한 종래의 접근법은 2개의 스테이지들 즉, 코너 추정 및 견고한 호모그래피 추정을 포함한다. 견고성(robustness)은 대형의 그리고 오버-컴플릿(over-complete) 지점 세트를 리턴함으로써 코너 검출 스테이지에 도입되는 반면, 호모그래피 추정 단계에 대한 견고성은 RANSAC의 과도한 사용 또는 제곱 손실 함수(squared loss function)의 강건함(robustification)으로서 나타난다. 코너들은 사람이 만든 선형 구조들만큼 신뢰성있진 않기 때문에, 연구 커뮤니티는 특징 검출 단계에 라인 특징들 및 더 복잡한 지오메트리들을 부가하는 데 상당한 노력을 기울여 왔다. 한 쌍의 이미지들이 주어지면, 그 쌍과 관련된 호모그래피를 리턴하는 단일의 견고한 알고리즘에 대한 필요성이 당 분야에 존재한다.

[0004] 본 발명의 실시예에 따라, 이미지에 기초하여 신경 네트워크에 대한 입력들을 생성하기 위한 방법이 제공된다. 방법은, 이미지를 수신하는 단계, 이미지 내의 포지션을 식별하는 단계, 및 포지션에서 이미지의 서브세트를 식별하는 단계를 포함한다. 이미지의 서브세트는 코너들의 제1 세트에 의해 정의된다. 이 방법은 또한, 코너들의 제2 세트를 형성하도록 코너들의 제1 세트 중 적어도 하나의 코너를 섭동시키는 단계를 포함한다. 코너들의 제2 세트는 이미지의 수정된 서브세트를 정의한다. 방법은 이미지의 서브세트와 이미지의 수정된 서브세트 간의 비교에 기초하여 호모그래피(homography)를 결정하는 단계를 더 포함한다. 방법은 또한, 호모그래피를 이미지에 적용함으로써 변환된 이미지를 생성하는 단계 및 포지션에서 변환된 이미지의 서브세트를 식별하는 단계를 포함한다.

[0005] 본 발명의 다른 실시예에 따라, 신경 네트워크를 트레이닝하기 위한 방법이 제공된다. 방법은 복수의 이미지들을 수신하는 단계를 포함한다. 복수의 이미지들의 각각의 개별 이미지에 대해, 방법은, 개별 이미지의 서브세트, 변환된 이미지의 서브세트, 및 개별 이미지의 서브세트 및 변환된 이미지의 서브세트에 기초한 호모그래피를 포함하는 트레이닝 트리플렛(training triplet)을 생성하는 단계, 및 신경 네트워크에 의해, 개별 이미지의 서브세트 및 변환된 이미지의 서브세트에 기초하여 추정된 호모그래피를 생성하는 단계를 포함한다. 방법은 또한, 추정된 호모그래피를 호모그래피와 비교하는 단계 및 비교에 기초하여 신경 네트워크를 수정하는 단계를 포함한다.

[0006] 본 발명의 특정 실시예에 따라, 2개의 이미지들에 기초하여 추정된 호모그래피를 생성하기 위한 방법이 제공된다. 방법은, 제1 카메라 포즈(camera pose)에 기초한 제1 이미지를 수신하는 단계, 및 제2 카메라 포즈에 기초한 제2 이미지를 수신하는 단계를 포함한다. 방법은 또한, 제1 이미지 및 제2 이미지를 신경 네트워크에 입력하는 단계, 및 신경 네트워크에 의해, 제1 이미지 및 제2 이미지에 기초하여 추정된 호모그래피를 생성하는 단계를 포함한다. 신경 네트워크는, 복수의 이미지들을 수신함으로써 사전에 트레이닝되었다. 복수의 이미지들의 각각의 개별 이미지에 대해, 방법은, 개별 이미지 내의 포지션을 식별하는 단계 및 포지션에서 개별 이미지의 서브세트를 식별하는 단계를 포함한다. 개별 이미지의 서브세트는 코너들의 제1 세트에 의해 정의된다. 방법은 또한, 코너들의 제2 세트를 형성하도록 코너들의 제1 세트 중 적어도 하나의 코너를 섭동시키는 단계 ― 코너들의 제2 세트는 개별 이미지의 수정된 서브세트를 정의함 ― , 및 이미지의 서브세트와 이미지의 수정된 서브세트 간의 비교에 기초하여 호모그래피를 결정하는 단계를 포함한다. 방법은, 호모그래피를 개별 이미지에 적용함으로써 변환된 이미지를 생성하는 단계, 포지션에서 변환된 이미지의 서브세트를 식별하는 단계, 개별 이미지의 서브세트 및 변환된 이미지의 서브세트에 기초하여 특정한 추정된 호모그래피를 생성하는 단계, 특정한 추정된 호모그래피를 호모그래피와 비교하는 단계, 및 비교에 기초하여 신경 네트워크를 수정하는 단계를 더 포함한다.

[0007] 종래 기술들에 비해 본 발명에 의해 다수의 장점들이 달성된다. 예컨대, 본 발명의 실시예들은 입력 이미지들 중 하나에서 어떠한 코너들도 검출되지 않을 때 이미지들 간의 변환을 추정하는 능력을 제공한다. 또한, 본 발명의 실시예들은 검출된 코너들이 입력 이미지들 중 하나의 입력 이미지의 작은 서브세트에 집중될 때 이미지들 간의 변환을 추정하는 능력을 제공한다. 다른 구현들에서, 실시예들은 이미지들 중 하나가 흐릿하거나 저조도(low-light) 시나리오에서 취해질 때 이미지들 간의 변환을 추정하는 능력을 제공한다. 부가적으로, 광범위한 이미지 양식들(그레이스케일 이미지들, 컬러(RGB) 이미지들, 깊이(RGB-D) 이미지들, 적외선 이미지들 및 하이퍼스펙트럴(hyperspectral) 이미지들을 포함함(그러나 이에 제한되지 않음))에 대해 단일 알고리즘을 사용하여 이미지들 간의 변환을 추정하는 능력이 일부 실시예들에 의해 제공된다. 본 발명의 이들 및 다른 실시예들은 다수의 본 발명의 이점들 및 특징들과 함께, 아래의 텍스트 및 첨부된 도면들과 함께 보다 상세하게 설명된다.

[0008] 본 발명의 추가의 이해를 제공하도록 포함되고 본 명세서에 통합되어 본 명세서의 일부를 구성하는 첨부 도면들은, 본 발명의 실시예들을 예시하고, 상세한 설명과 함께 본 발명의 원리들을 설명하는 역할을 한다. 본 발명의 기본적인 이해 및 본 발명이 실시될 수 있는 다양한 방식들을 위해 필요할 수 있는 것보다 본 발명의 구조적 세부사항들을 보다 상세히 나타내기 위한 시도는 이루어지지 않는다.
[0009] 도 1은 본 발명의 실시예에 따라, 2개의 이미지들 사이의 호모그래피의 상이한 파라미터화들을 예시한다.
[0010] 도 2는 본 발명의 실시예에 따라, 신경 네트워크를 트레이닝하기 위한 시스템을 예시한다.
[0011] 도 3은 본 발명의 실시예에 따라, 이미지에 기초하여 신경 네트워크에 대한 입력들을 생성하기 위한 방법을 예시한다.
[0012] 도 4는 본 발명의 실시예에 따라 신경 네트워크를 트레이닝하기 위한 방법을 예시한다.
[0013] 도 5a 내지 도 5f는 신경 네트워크에 대한 입력들을 생성하기 위한 다양한 동작들을 예시한다.
[0014] 도 6은 본 발명의 실시예에 따라, 2개의 이미지들에 기초하여 추정된 호모그래피를 생성하기 위한 방법을 예시한다.
[0015] 도 7은 본 발명의 실시예에 따라, 상이한 코너들의 잠재적인 2D 변위들에 대한 스코어들에 대응하는 4개의 플롯들을 예시한다.
[0016] 도 8은 본 발명의 실시예에 따라, 종래 기술들 및 본 발명의 실시예들의 평균 코너 에러(mean average corner error)를 보여주는 플롯들을 예시한다.
[0017] 도 9a 내지 도 9d는 종래 기술 및 본 발명의 실시예를 사용한 호모그래피 추정 결과들을 예시한다.
[0018] 도 10a 내지 도 10d는 종래 기술 및 본 발명의 실시예를 사용한 호모그래피 추정 결과들을 예시한다.
[0019] 도 11a 내지 도 11d는 종래 기술 및 본 발명의 실시예를 사용한 호모그래피 추정 결과들을 예시한다.
[0020] 도 12는 본 발명의 실시예에 따른 단순화된 컴퓨터 시스템을 예시한다.
[0021] 첨부된 도면들에서, 유사한 컴포넌트들 및/또는 특징들은 동일 수치 참조 라벨을 가질 수 있다. 추가로, 동일한 유형의 다양한 컴포넌트들은, 참조 라벨 및 그 다음의 문자, 또는 참조 라벨 및 그 다음의 대시기호에 뒤이어 유사한 컴포넌트들 및/또는 특징들 사이를 구별하는 제2 수치 참조 라벨에 의해 구별될 수 있다. 제1 수치 참조 라벨만이 본 명세서에서 사용되는 경우, 설명은, 첨자와 관계없이 동일한 제1 수치 참조 라벨을 갖는 유사한 컴포넌트들 및/또는 특징들 중 임의의 하나에 적용 가능하다.

[0022] 본 발명의 실시예들은 한 쌍의 이미지들 상에서 호모그래피 추정을 수행하기 위한 딥 콘볼루셔널 신경 네트워크(deep convolutional neural network)에 관한 것이다. 실시예들은 호모그래피 추정 작업에 적합한 VGG(Visual Geometry Group) 스타일 네트워크의 사용을 포함한다. 구현에서, 추정 성능을 개선하기 위해 4-지점 파라미터화가 사용된다. 딥(deep) 네트워크들은 아무런 사전준비 없이 트레이닝되는데 상당량의 데이터를 활용하기 때문에, 트레이닝 트리플렛(training triplet)들(

,

, H^AB)의 준-무한 데이터세트가 MS-COCO 데이터세트와 같은 실제 이미지들의 기존 데이터세트로부터 생성될 수 있다. 본원에서 설명된 바와 같이, 트레이닝 트리플렛들(

,

, H^AB)은 실제 이미지들의 큰 데이터세트에 랜덤 사영 변환들을 적용함으로써 생성될 수 있다. 본 발명의 실시예들은 또한, 분류로서 호모그래피 추정 문제의 부가적인 공식화를 포함하며, 이는 호모그래피들에 대한 분포를 생성하고 추정된 호모그래피의 신뢰도를 결정하는 데 사용될 수 있다.

[0023] 도 1은 본 발명의 실시예에 따라, 2개의 이미지들 사이의 호모그래피의 상이한 파라미터화들을 예시한다. 일부 경우들에서, 제1 카메라 포즈(106a)로부터 캡처된 객체(104)의 제1 이미지(102a) 및 제2 카메라 포즈(106b)로부터 캡처된 객체(104)의 제2 이미지(102b)는 호모그래피(H)에 의해 관련 가능하게 될 수 있다. 예컨대, 일부 실시예들에서, 호모그래피(H)가 제1 이미지(102a)에 적용되어 제2 이미지(102b)를 생성 및/또는 재생성할 수 있고, 역 호모그래피(H^-1)가 제2 이미지(102b)에 적용되어 제1 이미지(102a)를 생성 및/또는 재생성할 수 있다. 일부 실시예들에서, 객체(104)는 호모그래피(H)를 사용하여 제2 이미지(102b)가 완벽하게 생성될 수 있도록 평면 표면일 수 있다. 일부 실시예들에서, 객체(104)는 비-평면일 수 있지만, 제1 이미지(102a) 및 제2 이미지(102b)가 호모그래피(H)에 의해 대략적으로 관련될 수 있도록 제1 카메라 포즈(106a) 및 제2 카메라 포즈(106b)로부터 충분한 거리에 있을 수 있다.

[0024] 호모그래피(H)를 파라미터화하는 가장 간단한 방식은 3x3 행렬 및 고정 스케일을 사용하는 것일 수 있다. 호모그래피는 좌측 이미지의 픽셀들([u, v])을 우측 이미지의 픽셀들([u', v'])에 매핑하고 다음 수식에 따라 스케일에 맞게 정의된다.

(수식 1)

3x3 행렬 호모그래피는 회전 및 병진이동 항들을 포함할 수 있다. 예컨대, 부분 행렬 [H₁₁ H₁₂; H₂₁ H₂₂]은 호모그래피에서의 회전 항들을 나타내는 반면, 벡터 [H₁₃ H₂₃]는 병진이동 오프셋이다. 최적화 문제의 일부로서 회전 및 병진이동 항들을 밸런싱(balancing)하는 것은 어려울 수 있다. 따라서, 일부 실시예들에서, 단일 종류의 위치 변수, 즉 코너 위치에 기초한 대안적인 파라미터화가 딥 호모그래피 추정에 더 적합할 수 있다.

[0025] 4-지점 파라미터화는, Δu₁ =

- u₁가 제1 코너에 대한 u-오프셋이 되게 하고, Δu₂ =

- u₂가 제2 코너에 대한 u-오프셋이 되게 하고, Δu₃ =

- u₃가 제3 코너에 대한 u-오프셋이 되게 하고, Δu₄ =

- u₄가 제4 코너에 대한 u-오프셋이 되게 함으로써 구현될 수 있다. 따라서, 4-지점 파라미터화는 다음과 같은 호모그래피를 나타낸다:

(수식 2)

여기서 Δv_i =

- v_i 는, i-번째 코너에 대한 v-오프셋이다. 호모그래피의 행렬 공식화와 등가로, 4-지점 파라미터화는 8개의 숫자들을 사용한다. 4개의 코너들의 변위가 알려지면, H_4point가 H_matrix로 컨버팅될 수 있다. 이는 다양한 기술들을 사용하여, 예컨대, 정규화된 DLT(Direct Linear Transform) 알고리즘 또는 OpenCV의 함수 getPerspectiveTransform()를 사용하여 달성될 수 있다.

[0026] 도 2는 본 발명의 실시예에 따라, 신경 네트워크(201)를 트레이닝하기 위한 시스템(200)을 예시한다. 시스템(200)은 트레이닝 트리플렛 생성기(207)에 복수의 이미지들을 제공하는 데 사용될 수 있는 이미지 데이터베이스(205)를 포함할 수 있다. 일부 경우들에서, 트레이닝 트리플렛 생성기(207)는 이미지 데이터베이스(205)로부터 입력 이미지(I^A)를 수신할 수 있고 이미지(I^A)의 서브세트(

), 변환된 이미지(I^B)의 서브세트(

) 및 이미지(I^A)를 변환된 이미지(I^B)에 관련시키는 호모그래피(H^AB)(본원에서 트레이닝 트리플렛으로 지칭됨)을 생성할 수 있다. 트레이닝 트리플렛 생성기(207)에 의해 수행되는 다양한 동작들은 도 4 및 도 5a 내지 도 5f를 참조하여 더 상세하게 설명된다. 일부 구현들에서, 호모그래피(H^AB)는, 그것이 서브세트(

)를 서브세트(

)에 정확히 매핑하기 때문에, 그라운드 트루(ground truth) 호모그래피로 지칭될 수 있다.

[0027] 본 발명의 일부 애플리케이션들에서, 신경 네트워크(201)는 Batch-Norm 및 ReLU들과 함께 3x3 콘볼루셔널 블록들을 활용하며, 이는 Oxford VGG Net과 유사할 수 있다. 신경 네트워크(201)는 128x128x2 크기의 2-채널 그레이스케일 이미지를 입력으로서 취할 수 있다. 예컨대, 호모그래피(H^AB)에 의해 관련되는 2개의 입력 이미지들은 채널-단위로 스택되고 신경 네트워크(201)에 공급될 수 있다. 일부 경우들에서, 2번의 콘볼루션들 이후 마다 최대 풀링 계층(max pooling layer)(2x2, 스트라이드(stride) 2)을 갖는 8개의 콘볼루셔널 계층들이 사용된다. 8개의 콘볼루셔널 계층들은 계층 당 다음과 같은 수의 필터들, 즉 64개, 64개, 64개, 64개, 128개, 128개, 128개, 128개를 가질 수 있다. 콘볼루셔널 계층들 뒤에는 2개의 완전히 연결된 계층들이 이어질 수 있다. 제1 완전히 연결된 계층은 1024개의 유닛들을 가질 수 있다. 0.5의 확률을 갖는 드롭아웃(dropout)은 최종 콘볼루셔널 계층과 제1 완전히-연결된 계층 이후에 적용될 수 있다.

[0028] 일부 실시예들에서, 2개의 상이한 네트워크들은 신경 네트워크(201), 즉 회귀 네트워크 및/또는 분류 네트워크로 구현될 수 있다. 네트워크들은 마지막 계층까지 동일한 아키텍처를 공유할 수 있으며, 여기서 하나의 네트워크는 실수 값 출력들을 생성하고 다른 네트워크는 이산량(discrete quantity)들을 생성한다. 회귀 네트워크는 8개의 실수 값 번호들을 직접 생성할 수 있고 트레이닝 동안 최종 계층으로서 유클리드(L2) 손실을 사용한다. 분류 네트워크는 양자화 스킴(quantization scheme)을 사용할 수 있고, 마지막 계층에서 소프트맥스(softmax)를 가질 수 있고, 트레이닝 동안 크로스 엔트로피 손실 함수(cross entropy loss function)를 사용할 수 있다. 양자화는 일부 고유한 양자화 에러가 있음을 표시할 수 있지만, 분류 네트워크는 분류 네트워크를 사용하여 생성된 코너들 각각에 대한 신뢰도를 생성하는 것이 가능할 수 있다. 일부 경우들에서, 21개의 양자화 빈(quantization bin)들이 8개의 출력 차원들 각각에 대해 사용되며, 이는 168개의 출력 뉴런들을 갖는 최종 계층을 발생시킨다.

[0029] 일부 경우들에서, 신경 네트워크(201)는 확률 구배 하강(stochastic gradient descent) 알고리즘으로 지칭될 수 있는 반복적 알고리즘 또는 반복적 최적화 알고리즘을 사용하여 트레이닝된다. 이러한 반복적 최적화 알고리즘들은 신경 네트워크의 가중치들에 대한 랜덤 세팅(random setting)으로 시작하고, 네트워크 가중치들과 관련하여 신경 네트워크의 에러 신호의 파생물인 "구배(Gradient)"를 사용하여 한 방향으로 가중치들을 반복적으로 이동시킨다. 일부 구현들에서, 구배 컴퓨테이션은 미적분의 연쇄 법칙을 사용하여 수행된다. 구배는 하나의 트레이닝 트리플렛을 사용하여 결정될 수 있으며, 이 경우에, 배치 크기(batch size)는 1의 배치 크기이다. 대안적으로, 구배는 훈련 트리플렛의 세트, 예컨대, 64개의 트리플렛을 사용하여 결정될 수 있다. 이 구현에서, 트레이닝은 64의 미니-배치로 수행된다.

[0030] 도 2에 예시된 바와 같이, 서브세트들(

및

)이 신경 네트워크(201)에 입력되고, 추정된 호모그래피(

^AB)는 서브세트들(

및

)에 기초하여 신경 네트워크(201)에 의해 생성되고, 추정된 호모그래피(

^AB)와 호모그래피(H^AB) 간의 비교가 에러 신호 생성기(211)에 의해 이루어지고, 에러 신호(209)가 에러 신호 생성기(211)에 의해 생성되고, 신경 네트워크(201)는 에러 신호(209)에 기초하여 수정된다. 일부 경우들에서, 에러 신호(209)에 기초하여 신경 네트워크(201)에 대해 이루어지는 수정들은, 동일한 입력 이미지들을 사용한 신경 네트워크(201)에 의한 후속 실행들 이후에 에러 신호(209)가 0을 향하여 구동되도록(예컨대, 감소되도록) 이루어진다. 예컨대, 에러 신호(209)가

와 동일한 경우, 신경 네트워크(201)는 추정된 호모그래피(

^AB)가 후속 실행들 이후에 호모그래피(H^AB)에 더 근접하게 구동되도록 수정(또는 자체-수정)될 수 있다. 이는 신경 네트워크(201) 내의 콘볼루셔널 계층들을 수정함으로써 달성될 수 있다.

[0031] 도 3은 본 발명의 실시예에 따라, 이미지(이를테면, 이미지(I^A))에 기초하여 신경 네트워크(이를테면, 신경 네트워크(201))에 대한 입력들을 생성하기 위한 방법(300)을 예시한다. 방법(300)의 동작들은 임의의 순서로 수행될 수 있고, 모든 동작들이 방법(300)의 수행 동안 수행될 필요는 없다. 방법(300)의 다양한 동작들이 도 5a 내지 도 5f와 관련하여 도시된다.

[0032] 블록(302)에서, 이미지(I^A)(예컨대, 도 5a에 예시된 이미지(510))가 수신된다. 이미지(I^A)는 벡터 또는 픽셀(예컨대, 래스터) 기반인 2-차원(2D) 이미지일 수 있다. 예컨대, 이미지(I^A)의 각각의 픽셀은 그레이스케일 값(픽셀 당 1개의 수치 값을 포함함) 또는 RGB 컬러 모델(픽셀 당 3개의 수치 값들을 포함함)을 사용하여 표현될 수 있다. 일부 실시예들에서, 이미지(I^A)는 깊이 맵일 수 있고, 이미지(I^A)의 각각의 픽셀은 깊이 값일 수 있다. 이미지(I^A)는 정사각형, 직사각형 또는 일부 다른 형상일 수 있다. 이미지(I^A)를 수신하는 것은 시스템(200)의 내부 또는 외부의 일부 소스로부터 이미지(I^A)를 수신, 리트리브(retrieve) 및/또는 획득하는 것을 포함할 수 있다. 예컨대, 도 2에 예시된 바와 같이, 트레이닝 트리플렛 생성기(207)는 이전의 이미지를 사용하여 트레이닝 트리플렛을 생성한 후에(예컨대, 직후에) 이미지 데이터베이스(205)로부터 이미지(I^A)를 리트리브할 수 있다.

[0033] 블록(304)에서, 포지션(p)이 이미지(I^A) 내에서 식별된다. 포지션(p)은 이미지(I^A) 내의 단일 위치(예컨대, 픽셀 위치)를 포함할 수 있거나 또는 이미지(I^A) 내의 다수의 위치들(예컨대, 다수의 픽셀 위치들), 이를테면, 이미지(I^A)의 서브세트 내의 모든 픽셀들 또는 이미지(I^A)의 서브세트의 4개의 코너들의 위치들을 포함할 수 있다. 일부 실시예들에서, 포지션(p)은 이미지(I^A)의 후속적으로 식별된 서브세트의 중심 픽셀 위치에 대응하며, 중심 픽셀 위치는 이미지(I^A)의 평균 수직 픽셀 위치와 이미지(I^A)의 평균 수평 픽셀 위치의 교차부이다. 일부 실시예들에서 그리고 아래에서 보다 완전히 설명되는 바와 같이, 포지션(p)을 식별하는 것은, 이미지(I^A)의 후속적으로 식별된 서브세트가 이미지(I^A) 밖으로 연장되지 않도록 이미지(I^A) 내의 픽셀 위치를 랜덤으로 선택하는 것을 포함할 수 있다. 일부 실시예들에서, 포지션(p)을 식별하는 것은, 후속적으로 식별된 섭동 구역(perturbation region)들이 이미지(I^A) 밖으로 연장되지 않도록 이미지(I^A) 내의 픽셀 위치를 랜덤으로 선택하는 것을 포함할 수 있다.

[0034] 블록(306)에서, 이미지(I^A)의 서브세트(

)가 포지션(p)에서 식별된다. 일부 실시예들에서, 서브세트(

)는 도 5a를 참조하여 도시된 서브세트(520)와 유사하거나 상이할 수 있다. 예컨대, 서브세트(

)는 제1 코너(525a), 제2 코너(525b), 제3 코너(525c) 및 제4 코너(525d)에 의해 정의되는 정사각형일 수 있다. 서브세트(

)는 도 5a에서 정사각형으로 도시되지만, 다른 실시예들에서, 서브세트(

)는 직사각형, 삼각형, 원형, 타원형 또는 일부 다른 다각형일 수 있다. 따라서, 본 발명의 실시예들은 정사각형 이미지들로 제한되지 않는다. 또한, 서브세트(

)는 픽셀들의 단일의 연속적인 그룹핑(grouping)일 필요가 없고, 픽셀들의 다수의 연결되지 않은 그룹핑들의 조합일 수 있다. 선택적으로, 서브세트(

)(및 유사하게, 포지션(p))는 원하는 유형의 트레이닝 이미지들, 이를테면, 풍경들, 도시 경관들, 사람, 동물들, 벽들, 천장들, 바닥들 등과 같은 특징들을 배타적으로 포함하는 트레이닝 이미지들에 기초하여 식별될 수 있다.

[0035] 블록(308)에서, 서브세트(

)를 정의하는 코너들 중 적어도 하나가 섭동되어 하나 또는 그 초과의 섭동된 코너들을 형성한다. 일부 실시예에서, 서브세트(

)를 정의하는 코너들 중 적어도 하나를 섭동시키는 것은 도 5b 및 5c를 참조하여 도시된 것과 유사하거나 상이할 수 있다. 예컨대, 도 5b를 참조하면, 4개의 섭동 구역들(535)이 서브세트(520)의 코너들(525) 각각 주위에 형성될 수 있다. 구체적으로, 제1 섭동 구역(535a)은 제1 코너(525a) 주위에 형성되고, 제2 섭동 구역(535b)은 제2 코너(525b) 주위에 형성되고, 제3 섭동 구역(535c)은 제3 코너(525c) 주위에 형성되고, 제4 섭동 구역(535d)은 제4 코너(525d) 주위에 형성된다. 섭동 구역들 각각은 섭동된 코너들(540)의 가능한 위치들을 표현하고, 새로운 코너 위치들에 대한 일부 확률 분포와 연관될 수 있다. 예컨대, 일부 실시예들에서, 균일한 분포가 이용되어서, 소정의 섭동 구역 내의 임의의 픽셀 위치는 소정의 섭동 구역 내의 임의의 다른 픽셀 위치가 새로운 코너 위치가 되는 경우와 마찬가지일 것이다. 다른 실시예들에서, 정규 분포가 사용되어서, 코너들(525)에 더 근접한 픽셀 위치들이 새로운 코너 위치들로서 선택될 가능성이 매우 높다.

[0036] 일부 실시예들에서, 변위 벡터들(530)은 코너들(525)을 섭동된 코너들(540)에 관련시키기 위해 코너들(525) 각각에 대해 생성된다. 구체적으로, 제1 변위 벡터(530a)는 제1 섭동 구역(535a)에 의해 정의된 확률 분포를 샘플링하는 것에 기초하여 생성될 수 있고, 제1 섭동된 코너(540a)를 형성하도록 제1 코너(525a)와 결합(예컨대, 부가)될 수 있다. 유사하게, 제2 변위 벡터(530b)는 제2 섭동 구역(535b)에 의해 정의된 확률 분포를 샘플링하는 것에 기초하여 생성될 수 있고, 제2 섭동된 코너(540b)를 형성하도록 제2 코너(525b)와 결합(예컨대, 부가)될 수 있다. 유사한 동작들이 제3 변위 벡터(530c) 및 제4 변위 벡터(530d)에 대해 수행될 수 있다.

[0037] 일부 경우들에서, 섭동 구역들(535) 각각은 2ρ의 폭 및 높이를 갖는다. 즉, 서브세트(

)를 정의하는 코너들(525) 각각은 수직 및 수평 방향들 둘 모두에서 범위 [-ρ, ρ] 내의 값에 의해 섭동될 수 있다. 본 개시내용의 일부 구현들에서, 포지션(p) 및 섭동 범위(ρ)는 섭동 구역들(535)이 이미지(I^A) 외부로 연장되지 않도록 선택될 수 있다. 예컨대, 포지션(p)이 서브세트(

)의 중심 픽셀 위치에 대응하고 서브세트(

)가 l의 길이 및 높이를 갖는 경우, 섭동 구역들(535)은, 포지션(p)이 이미지(I^A)의 모든 에지들로부터 적어도 ρ + l/2의 거리 만큼 떨어져 있도록 그것이 선택될 때 이미지(I^A) 외부로 연장되지 않는다. 일부 경우들에서, 포지션(p)은 이미지(I^A)의 모든 에지들로부터 적어도 ρ + l/2 거리 만큼 떨어진 구역에 의해 정의된 균일한 확률 분포를 사용하여 이미지(I^A) 내의 픽셀 위치가 되도록 랜덤으로 선택된다.

[0038] 섭동된 코너들(540)은 이미지(I^A)의 수정된 서브세트(545)를 정의한다. 코너들(525) 중 적어도 하나의 코너가 섭동될 때, 수정된 서브세트(545)는 서브세트(

)와 상이하여서, 수정된 서브세트(545)는 서브세트(

)보다 적어도 하나의 픽셀을 더 많이, 적어도 하나의 픽셀을 더 적게, 또는 이와 상이한 적어도 하나의 픽셀을 포함한다. 수정된 서브세트(545) 그 자체는 서브세트(

)의 서브세트일 수 있거나, 또는 서브세트(

)는 그 자체가 수정된 서브세트(545)의 서브세트일 수 있다. 도 5b 및 도 5c는 섭동되는 서브세트(520)의 모든 4개의 코너들을 도시하지만, 일부 실시예들에서, 1, 2 또는 3개의 코너들이 섭동될 수 있다. 일부 경우들에서, 변위 벡터들(530)은 동일하여서, 수정된 서브세트(545)는 서브세트(

)와 크기가 동일하지만, 미리 결정된 방향으로 시프트될 수 있다.

[0039] 블록(310)에서, 호모그래피(H^AB)는 서브세트(

)와 수정된 서브세트(545) 사이의 비교에 기초하여 결정된다. 일부 경우들에서, 서브세트(

)와 수정된 서브세트(545) 사이의 비교에 기초하여 호모그래피(H^AB)를 결정하는 것은 코너들(525)과 섭동된 코너들(540) 간의 비교를 포함할 수 있다. 예컨대,

수식(수학식 2)을 사용하여, u-오프셋들 및 v-오프셋들이 변위 벡터들(530), 즉 코너들(525)과 섭동된 코너들(540) 사이의 벡터들과 동일하게 세팅될 수 있다. 결정된 후, 호모그래피(H^AB)는 하나의 파라미터화(parameterization)로부터 다른 파라미터화로 컨버팅될 수 있다. 예컨대, 결정된 후, 호모그래피(H^AB)는

로부터

로 컨버팅될 수 있거나, 또는 그 반대도 가능하다.

[0040] 블록(312)에서, 변환된 이미지(I^B)는 이미지(I^A)에 호모그래피(H^AB)를 적용함으로써 생성된다. 다양한 방식들이 호모그래피를 결정하기 위해 고려되기 때문에, 호모그래피(H^AB)를 이미지(I^A)에 적용하는 것은 호모그래피(H^AB)를 직접 적용하는 것 또는 호모그래피(H^AB)의 역(예컨대,

)를 이미지(I^A)에 적용하는 것을 포함할 수 있다. 일부 실시예들에서, 변환된 이미지(I^B)는 도 5d를 참조하여 도시된 변환된 이미지(550)와 유사하거나 상이할 수 있다. 호모그래피(H^AB)를 이미지(I^A)에 적용하는 것은, 호모그래피(H^AB)와 이미지(I^A) 사이에서, 곱셈, 나눗셈, 더하기, 뺄셈, 콘볼루션 등을 포함(그러나 이에 제한되지 않음)하는 다양한 연산들 중 하나 또는 그 초과를 수행하는 것을 포함할 수 있다. 일부 실시예들에서, 이미지(I^B)는 I^B = I^A

가 되도록 호모그래피(H^AB)의 역을 이미지(I^A)와 곱함으로써 생성된다.

[0041] 본원에서 설명된 바와 같이, 호모그래피 변환(H^AB)은 동차 좌표(homogeneous coordinate)(도 1 참조)들에서 3-차원 양들로 표현되는 2-차원 지점들 사이에 정의된다. 따라서 수식

는 수학적으로 정확하다. 그러나, 높이(H), 폭(W) 및 차원(D)의 이미지에 호모그래피를 적용할 때, 유사한 축약식(shorthand equation) 즉

가 활용될 수 있다. 이 수식에서, 호모그래피를 통한 D-차원 이미지의 변환은 (u', v')로 참조되는, I'로부터 정수-값 픽셀 위치를 취하고, 역 변환을 적용하여 원래의 이미지(u, v)의 실수-값 좌표들을 획득하고, 그 후, 원래의 이미지로부터 D-차원 픽셀 값을 보간하기 위해 이중 선형 보간을 사용함으로써 수행된다. 즉, 호모그래피들을 지점들에 적용할 때, 수학적 정밀도가 활용되지만, 호모그래피들을 이미지들에 적용할 때, 각각의 픽셀의 D-차원 값의 값을 추론하도록 보간 방법이 활용된다. 보간은 임의의 수의 차원(D)의 이미지들에 대해 유사한 방식으로 구현되기 때문에, 그레이스케일 이미지들, 컬러 이미지들, RGB-D 이미지들은 물론, 임의의 큰 차원 D의 이미지들에 대해 동일한 수식 즉 ,

가 활용될 수 있다. 본원에서 이미지들에 호모그래피를 적용하는 것에 관한 논의는 지점들에 호모그래피를 적용하고 픽셀 값들을 보간하는 관점에서 당업자에 의해 이해될 것이란 점이 인지되어야 한다. 따라서, 이미지 호모그래피에 대한 동등성을 갖는 수식들은 보간에 기초한 근사로서 이 관점에서 이해되어야 한다.

[0042] 블록(314)에서, 이미지(I^B)의 서브세트(

)가 포지션(p)에서 식별된다. 일부 실시예들에서, 서브세트(

)는 도 5d를 참조하여 도시된 서브세트(555)와 유사하거나 상이할 수 있다. 예컨대, 서브세트(

)는 서브세트(

)와 픽셀 위치들은 동일하지만 픽셀 값들은 동일하지 않은 정사각형일 수 있다. 예컨대, 서브세트(

)는 서브세트(

)와 크기(예컨대, 폭 및 높이)가 동일할 수 있다. 서브세트(

)는 도 5d에서 정사각형으로 도시되지만, 다른 실시예들에서, 서브세트(

)는 직사각형, 삼각형, 원형, 타원형 또는 일부 다른 다각형일 수 있다. 또한, 서브세트(

)는 픽셀들의 단일의 연속적인 그룹핑(grouping)일 필요가 없고, 픽셀들의 다수의 연결되지 않은 그룹핑들의 조합일 수 있다.

[0043] 블록(316)에서, 서브세트(

)가 경계 아티팩트들(예컨대, 미지의 픽셀들)을 포함하는지가 결정된다. 예컨대, 이미지(I^A) 외부의 픽셀 위치들을 포함하는 섭동 구역들(535)로 인해, 서브세트(

)는 이미지(I^B) 외부로 연장되는 픽셀 위치들을 포함할 수 있다. 이러한 경계 아티팩트들이 신경 네트워크(201)의 잘못된 트레이닝으로 이어질 수 있기 때문에, 경계 아티팩트들을 갖는 서브세트(

)가 검출될 때 방법(300)을 (예컨대, 블록(304) 또는 블록(308)에서) 재시작하는 것이 유리할 수 있다. 도 5e를 참조하여 도시된 바와 같이, 서브세트(

)가 다양한 코너들을 포함하는 경우, 결정이 내려지기 위해 경계 아티팩트들에 대해 코너들만이 검사될 필요가 있다. 서브세트(

)가 경계 아티팩트들을 포함하지 않는다고 결정될 때, 방법(300)은 블록(318)으로 진행될 수 있다.

[0044] 블록(318)에서, 서브세트(

), 서브세트(

) 및 호모그래피(H^AB)를 (도 5f에서 도시된 바와 같이) 결합함으로써 트레이닝 트리플렛(

,

, H^AB)이 생성된다. 블록(318)은 신경 네트워크(201) 및/또는 에러 신호 생성기(211)에 트레이닝 트리플렛(

,

, H^AB)을 출력, 전송, 라우팅 및/또는 제공함으로써 수행될 수 있다.

[0045] 도 3에 예시된 특정 단계들은 본 발명의 실시예에 따라, 이미지에 기초하여 신경 네트워크에 대한 입력들을 생성하는 특정 방법을 제공한다는 것이 인지되어야 한다. 또한, 단계들의 다른 시퀀스들이 대안적인 실시예들에 따라 수행될 수 있다. 예컨대, 본 발명의 대안적인 실시예들은, 위에서 약술된 단계들을 상이한 순서로 수행할 수 있다. 더욱이, 도 3에 예시된 개별 단계들은, 개별 단계에 적절한 바와 같은 다양한 시퀀스들로 수행될 수 있는 다수의 서브-단계들을 포함할 수 있다. 또한, 부가적인 단계들이 특정한 애플리케이션들에 의존하여 부가되거나 또는 제거될 수 있다. 당업자는, 다수의 변동들, 수정들, 및 대안들을 인지할 것이다.

[0046] 도 4는 본 발명의 실시예에 따라, 신경 네트워크(201)를 트레이닝하기 위한 방법(400)을 예시한다. 방법(400)의 동작들은 임의의 순서로 수행될 수 있고, 모든 동작들이 방법(400)의 수행 동안 수행될 필요는 없다. 방법(400)의 다양한 동작들이 도 2 및 도 5a 내지 도 5f와 관련하여 도시된다. 블록(402)에서, 복수의 이미지들이 수신된다. 복수의 이미지들 각각에 대해, 블록들(404 내지 412)이 수행될 수 있다.

[0047] 블록(404)에서, 트레이닝 트리플렛(

,

, H^AB)은 예컨대, 도 3을 참조하여 예시된 이미지에 기초하여 신경 네트워크에 대한 입력들을 생성하는 방법과 관련하여 설명된 바와 같은 하나 또는 그 초과의 동작들을 수행함으로써 생성될 수 있다. 블록(406)에서, 트레이닝 트리플렛(

,

, H^AB)은 예컨대, 신경 네트워크(201) 또는 신경 네트워크(201)에 커플링된 하나 또는 그 초과의 컴포넌트들(예컨대, 에러 신호 생성기(211))에 트레이닝 트리플렛(

,

, H^AB)을 출력 및/또는 전송함으로써 신경 네트워크(201)에 제공된다.

[0048] 블록(408)에서, 추정된 호모그래피(

^AB)는 서브세트들(

, 및

)에 기초하여 신경 네트워크(201)에 의해 생성된다. 블록(410)에서, 추정된 호모그래피(

^AB)가 호모그래피(H^AB)와 비교된다. 비교는 추정된 호모그래피(

^AB) 및 호모그래피(H^AB)에 기초하여 하나 또는 그 초과의 수학적 연산들을 수행하는 것을 포함할 수 있다. 블록(410)은 신경 네트워크(201)에 의해, 에러 신호 생성기(211)에 의해, 또는 신경 네트워크(201)에 커플링된 일부 다른 컴포넌트에 의해 수행될 수 있다. 일부 실시예들에서, 블록(410)은 에러 신호 생성기(211)에 의해,

와 동일한 에러 신호(209)를 계산하는 것을 포함한다. 블록(412)에서, 신경 네트워크(201)는 블록(410)에서 이루어진 비교에 기초하여 수정된다. 예컨대, 신경 네트워크(201)는 추정된 호모그래피(

^AB)가 후속 실행들 이후에 호모그래피(H^AB)에 더 근접하게 구동되도록 수정(또는 자체-수정)될 수 있다. 또한, 신경 네트워크(201)에 대해 이루어지는 수정의 정도는 에러 신호(209)에 비례할 수 있다.

[0049] 블록(414)에서, 부가적인 이미지들이 존재하는지가 결정된다. 부가적인 이미지들이 존재하는 경우, 방법(400)은 블록(404)으로 리턴하고, 트레이닝 트리플렛(

,

, H^AB)은 다음 이미지(I^A)에 대해 생성될 수 있다. 부가적인 이미지들이 존재하지 않는 경우, 방법(400)은 종료된다. 일부 실시예들에서, 부가적인 이미지들이 존재하는 않는다고 결정될 때, 방법(400)은 블록(404)으로 리턴하고, 상이한 트레이닝 트리플렛들(

,

, H^AB)이 이전에 사용된 이미지들에 대해 생성될 수 있다. 예컨대, 트레이닝 트리플렛들(

,

, H^AB)은 상이한 섭동 구역들을 사용하여 생성될 수 있거나, 또는 방법(400)의 이전 반복들 동안과 상이하게 랜덤으로 샘플링되는 유사한 섭동 구역들을 사용하여 생성될 수 있다.

[0050] 일부 실시예들에서, 신경 네트워크(201)를 트레이닝하는 데 사용되는 트레이닝 이미지들의 유형들은 애플리케이션-특정 호모그래피 추정 엔진이 구축될 수 있도록 선택될 수 있다. 예컨대, 호모그래피 추정을 통해 평면 SLAM을 사용하여 실내 공장 바닥을 돌아다니는 로봇은 실내 공장의 로봇의 이미지 센서로부터 캡처된 이미지들만으로 트레이닝될 수 있다.

[0051] 도 4에 예시된 특정 단계들은 본 발명의 실시예에 따라, 신경 네트워크를 트레이닝하는 특정 방법을 제공한다는 것이 인지되어야 한다. 또한, 단계들의 다른 시퀀스들이 대안적인 실시예들에 따라 수행될 수 있다. 예컨대, 본 발명의 대안적인 실시예들은, 위에서 약술된 단계들을 상이한 순서로 수행할 수 있다. 더욱이, 도 4에 예시된 개별 단계들은, 개별 단계에 적절한 바와 같은 다양한 시퀀스들로 수행될 수 있는 다수의 서브-단계들을 포함할 수 있다. 또한, 부가적인 단계들이 특정한 애플리케이션들에 의존하여 부가되거나 또는 제거될 수 있다. 당업자는, 다수의 변동들, 수정들, 및 대안들을 인지할 것이다.

[0052] 본 발명의 일 구현에서, 신경 네트워크(201)는 0.9의 모멘텀(momentum)을 갖는 확률 구배 하강(SGD; stochastic gradient descent)을 사용하여 단일 Titan X GPU 상에서 약 8 시간 동안 트레이닝된다. 0.005의 기본 러닝 레이트(base learning rate)가 사용될 수 있고 러닝 레이트는 매 30,000회 반복들 이후에 10배씩 감소될 수 있다. 신경 네트워크(201)는 64의 배치 크기를 사용하여 총 90,000회 반복들 동안 트레이닝될 수 있다. 일부 구현들에서, 대중적인 오픈-소스 딥 러닝 패키지, 이를테면, Caffe가 활용할 수 있다. 트레이닝 데이터를 생성하기 위해, MS-COCO 트레이닝 세트가 활용될 수 있다. 모든 이미지들은 320x240으로 크기가 재조정되고 그레이스케일로 컨버팅될 수 있다. 일부 실시예들에서, 호모그래피에 의해 관련된 128x128 크기의 이미지 패치들의 50만개의 쌍들이 생성될 수 있다. 각각의 섭동 구역의 ρ 값은 32로 세팅될 수 있으며, 이는, 128x128 그레이스케일 이미지의 각각의 코너가 총 이미지 에지 크기의 최대 1/4만큼 섭동될 수 있다는 것을 의미한다. 위에서 논의된 바와 같이, 극단적인 이미지 변환들을 회피하기 위해 더 큰 섭동 구역들이 회피될 수 있다. 일부 경우들에서, 신경 네트워크(201)의 가중치들은 랜덤 값들로 초기화되고 아무런 사전준비 없이(즉, 어떠한 사전 트레이닝도 없이) 트레이닝된다. MS-COCO 검증 세트는 오버피팅(overfitting)을 모니터하는 데 사용될 수 있다.

[0053] 도 6은 본 발명의 실시예에 따라, 2개의 이미지들에 기초하여 추정된 호모그래피(

^AB)를 생성하기 위한 방법(600)을 예시한다. 방법(600)의 동작들은 임의의 순서로 수행될 수 있고, 모든 동작들이 방법(600)의 수행 동안 수행될 필요는 없다. 단계(602)에서, 신경 네트워크(201)는, 예컨대, 도 4를 참조하여 예시된 신경 네트워크를 트레이닝하는 방법과 관련하여 설명된 바와 같은 하나 또는 그 초과의 동작들을 수행함으로써 복수의 이미지들을 사용하여 트레이닝된다. 단계(604)에서, 제1 카메라 포즈에 기초한 제1 이미지가 수신된다. 제1 이미지는 카메라에 의해 캡처된 2D 이미지일 수 있다. 제1 이미지를 수신하는 것은 제1 이미지를 수신, 리트리브, 획득 및/또는 캡처하는 것을 포함할 수 있다. 단계(606)에서, 제2 카메라 포즈에 기초한 제2 이미지가 수신된다. 제2 이미지는 제1 이미지와 동일한 카메라에 의해 또는 상이한 카메라에 의해 캡처된 2D 이미지일 수 있다. 단계(608)에서, 제1 이미지 및 제2 이미지는 신경 네트워크(201)에 입력된다. 단계(610)에서, 추정된 호모그래피(

^AB)는 제1 이미지 및 제2 이미지에 기초하여 생성될 수 있다. 예컨대, 제1 이미지 및 제2 이미지는 스택되고, 출력으로서 추정된 호모그래피(

^AB)를 생성할 수 있는 신경 네트워크(201)에 공급될 수 있다. RGB 이미지들 외에도, 본 발명의 실시예들은 그레이스케일 이미지들, 컬러 이미지들, RGBD 이미지들, 적외선 이미지들 등을 포함(그러나 이에 제한되지 않음)하는, 다양한 차원들 및 양식들의 광범위한 이미지들에 적용 가능하다.

[0054] 도 6에 예시된 특정 단계들은 본 발명의 실시예에 따라, 2개의 이미지들에 기초하여 추정된 호모그래피를 생성하는 특정 방법을 제공한다는 것이 인지되어야 한다. 또한, 단계들의 다른 시퀀스들이 대안적인 실시예들에 따라 수행될 수 있다. 예컨대, 본 발명의 대안적인 실시예들은, 위에서 약술된 단계들을 상이한 순서로 수행할 수 있다. 더욱이, 도 6에 예시된 개별 단계들은, 개별 단계에 적절한 바와 같은 다양한 시퀀스들로 수행될 수 있는 다수의 서브-단계들을 포함할 수 있다. 또한, 부가적인 단계들이 특정한 애플리케이션들에 의존하여 부가되거나 또는 제거될 수 있다. 당업자는, 다수의 변동들, 수정들, 및 대안들을 인지할 것이다.

[0055] 도 7은 본 발명의 실시예에 따라, 상이한 코너들의 잠재적인 2D 변위들에 대한 스코어들에 대응하는 4개의 플롯들을 예시한다. 일부 실시예들(일반적으로, 분류 네트워크를 활용하는 실시예들)에서, 신경 네트워크(201)는 특정 코너 위치와 연관된 신뢰도가 획득될 수 있도록 각각의 잠재적인 2D 변위에 대한 스코어들을 생성한다. 예컨대, 도 7을 참조하면, 코너(4)와 연관된 스코어들의 분포는 코너(3)와 연관된 스코어들의 분포보다 좁기 때문에, 코너(4)에 대한 코너 위치는 코너(3)에 대한 코너 위치보다 더 큰 신뢰도로 추정될 수 있다.

[0056] 도 8은 종래 기술들 및 본 발명의 실시예들의 평균 코너 에러(mean average corner error)(픽셀들로 표현됨)를 도시하는 플롯(800)을 예시한다. 본 개시내용의 일 구현에서, Warped MS-COCO 14 Test Set는, 테스트 세트로부터 5,000개의 이미지들을 선정하고 각각의 이미지를 그레이스케일 640x480으로 크기 재조정함으로써 생성되었다. 256x256 크기의 이미지 패치들의 쌍들은 방법(300) 및 ρ = 64를 사용하여 대응하는 그라운드 트루(ground truth) 호모그래피로 생성되었다. 신경 네트워크(201)의 분류 및 회귀 변환들이 종래의 기술과 비교되었다. 본 개시내용의 일부 실시예들이 고정 크기의 128x128x2 입력을 기대하기 때문에, Warped MS-COCO 14 Test Set로부터의 이미지 쌍들은 신경 네트워크(201)를 통과하기 전에 256x256x2로부터 128x128x2로 크기가 재조정된다. 네트워크에 의해 출력된 4-지점 파라미터화된 호모그래피는 이를 고려하기 위해 2의 팩터로 곱해질 수 있다. 분류 네트워크를 평가할 때, 최고 신뢰도를 갖는 코너 변위가 4개의 리턴된 코너들 각각에 대해 선정된다.

[0057] 이러한 구현의 결과들이 도 8에 도시된다. 평균 코너 에러(mean average corner error)는 4개의 코너들 각각에 대한 추정된 코너와 실제 코너 사이의 평균 에러에 대응한다. 일부 실시예들에서, 이 메트릭을 측정하기 위해, 그라운드 트루 코너 포지션과 추정된 코너 포지션 사이의 L2 거리가 컴퓨팅된다. 도 8에서, 바(bar)(802)는 회귀 네트워크를 사용하는 본 개시내용의 실시예들에 대응하고, 바(804)는 종래 접근법(ORB + RANSAC)에 대응하고, 바(806)는 분류 네트워크를 사용하는 본 개시내용의 실시예들에 대응하며, 상이한 코너들(이를테면, 도 7을 참조하여 도시된 것들)의 잠재적인 2D 변위들에 대한 스코어들이 추정된 호모그래피(

^AB)에 추가로 생성된다. 회귀 네트워크가 최상으로 수행되지만, 분류 네트워크는 신뢰도들을 생성하고 결과들을 시각적으로 디버깅하는 의미있는 방식을 제공한다

[0058] 도 9a 내지 도 9d는 종래 기술 및 본 발명의 실시예를 사용한 호모그래피 추정 결과들을 예시한다. 도 9a 및 도 9b는, ORB-기반 호모그래피 추정의 출력을 예시하고, 도 9c 및 도 9d는 본 발명의 실시예들의 출력을 도시한다. 도 9a를 참조하면, 이미지(905)의 구역(910)이 정의된다. 도 9b를 참조하면, 이미지(905)가 변환되어 이미지(915)를 형성한다. 도 9b에서, 구역(910)은 이미지(905)와 이미지(915) 사이에서 사용된 것과 동일한 변환을 사용하여 구역(920)으로 변환된다. 따라서, 호모그래피(H^AB)는 구역(910)과 구역(920) 사이에 정의된다. 이 호모그래피(H^AB)는, 그것이 구역(910)을 구역(920)에 정확히 매핑하기 때문에 그라운드 트루 호모그래피로 지칭될 수 있다. 도 9b에서, ORB와 같은 종래의 특징 검출기를 사용하여 추정된 호모그래피를 생성하려는 시도가 이루어졌다. 그러나 큰 비율의 균일한 하늘을 포함하는 이미지에는 특징 검출기가 적절히 기능할 정도로 충분한 수의 특징들이 없기 때문에, 어떠한 추정된 호모그래피도 생성되지 않았다.

[0059] 종래의 방법과 대조적으로, 도 9c 및 도 9d는 본 발명의 실시예들을 사용하여 생성된 그라운드 트루 호모그래피 및 추정된 호모그래피를 예시한다. 도 9a와 동일한 도 9c를 참조하면, 이미지(905)의 구역(910)이 정의된다. 도 9d에서, 구역(920)은 호모그래피(H^AB)(즉, 그라운드 트루 호모그래피)를 통해 구역(910)과 관련된다. 부가적으로, 도 9D에서, 구역(940)은 본 발명의 실시예들을 사용하여 결정된 추정된 호모그래피(

^AB)에 의해 구역(910)과 관련된다. 사실상 중첩되는 구역들을 초래하는, 서브세트(920)와 서브세트(940) 사이의 차이들은 이 예에서 무시할 정도로 작다. 따라서, 추정된 호모그래피는 종래의 방법들이 임의의 추정된 호모그래피를 생성하는 데 실패했음에도 불구하고, 그라운드 트루 호모그래피와 근접하게 매칭된다.

[0060] 도 10a 내지 도 10d는 종래 기술 및 본 발명의 실시예를 사용한 호모그래피 추정 결과들을 예시한다. 도 10a 및 도 10b는, ORB-기반 호모그래피 추정의 출력을 예시하고, 도 10c 및 도 10d는 본 발명의 실시예들의 출력을 도시한다. 도 9a/9b 및 9c/9d와 유사한 방식으로, 이미지(1005)의 구역(1010)이 정의된다. 도 10b를 참조하면, 이미지(1005)가 변환되어 이미지(1015)를 형성한다. 도 10b에서, 구역(1010)은 이미지(1005)와 이미지(1015) 사이에서 사용된 것과 동일한 변환을 사용하여 구역(1020)으로 변환된다. 따라서, (그라운드 트루) 호모그래피(H^AB)는 구역(1010)과 구역(1020) 사이에 정의된다. 구역(1010) 및 구역(1030)은, ORB-기반 호모그래피 추정을 사용하여 결정된 추정된 호모그래피(

^AB)에 의해 관련된다. 도 10a 및 도 10b를 참조하면, 특징 검출 프로세스는 구역(1010)의 특징들을 구역(1030)의 특징들과 연결하는 라인들(1025)에 의해 예시된다. 추정된 호모그래피를 생성하기 위해 ORB-기반 호모그래피 추정을 사용하여 충분한 특징들이 검출되었지만, 추정된 호모그래피에 대한 평균 코너 에러는 91.67이었다.

[0061] 도 10c 및 도 10d를 참조하여, 그라운드 트루 호모그래피와 본 발명의 실시예들을 사용하여 생성된 추정된 호모그래피가 예시 및 비교된다. 도 10a와 동일한 도 10c를 참조하면, 이미지(1005)의 구역(1010)이 정의된다. 도 10d에서, 구역(1020)은 호모그래피(H^AB)(즉, 그라운드 트루 호모그래피)를 통해 구역(1010)과 관련된다. 부가적으로, 도 10D에서, 구역(1040)은 본 발명의 실시예들을 사용하여 결정된 추정된 호모그래피(

^AB)에 의해 구역(1010)과 관련된다. 사실상 중첩되는 구역들을 초래하는, 서브세트(1020)와 서브세트(1040) 사이의 차이들은 이 예에서 무시할 정도로 작다. 이 결과는 본 발명의 실시예들을 사용하여 달성된 4.10의 평균 코너 에러와 비교하면, 도 10b의 서브세트(1030)(91.67의 평균 코너 에러)와 현저한 대조를 이룬다.

[0062] 도 11a 내지 도 11d는 종래 기술 및 본 발명의 실시예를 사용한 호모그래피 추정 결과들을 예시한다. 도 11a 및 도 11b는, ORB-기반 호모그래피 추정의 출력을 예시하고, 도 11c 및 도 11d는 본 발명의 실시예들의 출력을 도시한다. 카메라에 의해 캡처될 수 있는 실제 이미지들을 시뮬레이팅하기 위해 소량의 가우스 노이즈(Gaussian noise)가 도 11a 및 도 11b의 이미지들 각각에 부가되었다. 도 11a를 참조하면, 이미지(1105)의 구역(1110)이 정의된다. 도 11b를 참조하면, 이미지(1105)가 변환되어 이미지(1115)를 형성한다. 도 11b에서, 구역(1110)은 이미지(1105)와 이미지(1115) 사이에서 사용된 것과 동일한 변환을 사용하여 구역(1120)으로 변환된다. 따라서, (그라운드 트루) 호모그래피(H^AB)는 구역(1110)과 구역(1120) 사이에 정의된다. 구역(1110) 및 구역(1130)은, ORB-기반 호모그래피 추정을 사용하여 결정된 추정된 호모그래피(

^AB)에 의해 관련된다. 도 11a 및 도 11b를 참조하면, 특징 검출 프로세스는 구역(1110)의 특징들을 구역(1130)의 특징들과 연결하는 라인들(1125)에 의해 예시된다. 추정된 호모그래피를 생성하기 위해 ORB-기반 호모그래피 추정을 사용하여 충분한 특징들이 검출되었지만, 추정된 호모그래피에 대한 평균 코너 에러는 91.67이었다.

[0063] 도 11c 및 도 11d를 참조하여, 그라운드 트루 호모그래피와 본 발명의 실시예들을 사용하여 생성된 추정된 호모그래피가 예시 및 비교된다. 도 11a와 동일한 도 11c를 참조하면, 이미지(1105)의 구역(1110)이 정의된다. 도 11d에서, 구역(1120)은 호모그래피(H^AB)(즉, 그라운드 트루 호모그래피)를 통해 구역(1110)과 관련된다. 부가적으로, 도 11d에서, 구역(1140)은 본 발명의 실시예들을 사용하여 결정된 추정된 호모그래피(

^AB)에 의해 구역(1110)과 관련된다. 서브세트의 상당 부분에 걸쳐 분포된 매우 다수의 특징들이 ORB-기반 호모그래피 추정을 사용하여 발견되었지만, 종래 방법들로부터 발생된 평균 코너 에러는 재차, 본 발명의 실시예들을 사용하여 달성된 것보다 상당히 컸다(7.40과 비해 51.92). 따라서, 본 발명의 실시예들은 상이한 카메라 관점들이 이미지 변환을 초래하는 애플리케이션들 뿐만 아니라 이미지들이 흐려지고(blurred) 그리고/또는 흐려지고/변환되는 애플리케이션들에서도 사용하기에 적합하다.

[0064] 도 12는 본 발명의 실시예에 따른 단순화된 컴퓨터 시스템(1200)을 예시한다. 도 12에 예시된 바와 같은 컴퓨터 시스템(1200)은 본원에서 설명된 바와 같은 디바이스들, 이를테면, 휴대용 전자 디바이스, 모바일 전화 또는 다른 디바이스에 통합될 수 있다. 도 12는, 다양한 실시예들에 의해 제공되는 방법들의 단계들 중 일부 또는 전부를 수행할 수 있는 컴퓨터 시스템(1200)의 일 실시예의 개략적인 예시를 제공한다. 도 12가 단지 다양한 컴포넌트들의 일반화된 예시만을 제공하는 것으로 의도되며, 그 컴포넌트들 중 임의의 또는 모든 컴포넌트는 적절히 활용될 수 있다는 것이 주의되어야 한다. 따라서, 도 12는, 개별 시스템 엘리먼트들이 어떻게 상대적으로 분리되어 구현될 수 있는지 또는 상대적으로 더 통합된 방식으로 구현될 수 있는지를 광범위하게 예시한다.

[0065] 버스(1205)를 통해 전기적으로 커플링될 수 있는(또는 그렇지 않으면, 적절히 통신할 수 있는) 하드웨어 엘리먼트들을 포함하는 컴퓨터 시스템(1200)이 도시된다. 하드웨어 엘리먼트들은, 하나 또는 그 초과의 범용 프로세서들 및/또는 (디지털 신호 프로세싱 칩들, 그래픽 가속 프로세서들 등과 같은) 하나 또는 그 초과의 특수-목적 프로세서들을 제한 없이 포함하는 하나 또는 그 초과의 프로세서들(1210); 마우스, 키보드, 카메라 등을 제한 없이 포함할 수 있는 하나 또는 그 초과의 입력 디바이스들(1215); 및 디스플레이 디바이스, 프린터 등을 제한 없이 포함할 수 있는 하나 또는 그 초과의 출력 디바이스들(1220)을 포함할 수 있다.

[0066] 컴퓨터 시스템(1200)은, 로컬 및/또는 네트워크 액세스 가능 저장소를 제한 없이 포함할 수 있고 그리고/또는 디스크 드라이브, 드라이브 어레이, 광학 저장 디바이스, 고체-상태 저장 디바이스, 예컨대 "RAM"(random access memory) 및/또는 "ROM"(read-only memory)(프로그래밍 가능하고, 플래시-업데이트 가능하고, 기타 등등이 가능할 수 있음)를 제한 없이 포함할 수 있는 하나 또는 그 초과의 비-일시적인 저장 디바이스들(1225)을 더 포함하고 그리고/또는 이들과 통신할 수 있다. 그러한 저장 디바이스들은, 다양한 파일 시스템들, 데이터베이스 구조들 등을 제한 없이 포함하는 임의의 적절한 데이터 저장소들을 구현하도록 구성될 수 있다.

[0067] 컴퓨터 시스템(1200)은 또한, 모뎀, 네트워크 카드(무선 또는 유선), 적외선 통신 디바이스, 무선 통신 디바이스 및/또는 칩셋 등, 이를테면, Bluetooth^TM 디바이스, 802.11 디바이스, WiFi 디바이스, WiMax 디바이스, 셀룰러 통신 설비들 등을 제한 없이 포함할 수 있는 통신 서브시스템(1230)을 포함할 수 있다. 통신 서브시스템(1230)은 데이터가 네트워크, 이를테면, 일 예를 들자면, 아래에서 설명되는 네트워크, 다른 컴퓨터 시스템들, 텔레비전들, 및/또는 본원에서 설명된 임의의 다른 디바이스들과 교환될 수 있도록 하나 또는 그 초과의 입력 및/또는 출력 통신 인터페이스들을 포함할 수 있다. 원하는 기능성 및/또는 다른 구현 관심사들에 의존하여, 휴대용 전자 디바이스 또는 유사한 디바이스는 통신 서브시스템(1230)을 통해 이미지 및/또는 다른 정보를 통신할 수 있다. 다른 실시예들에서, 휴대용 전자 디바이스, 예컨대, 제1 전자 디바이스는 입력 디바이스(1215)로서 컴퓨터 시스템(1200), 예컨대, 전자 디바이스에 통합될 수 있다. 일부 실시예들에서, 컴퓨터 시스템(1200)은 위에서 설명된 바와 같이, RAM 또는 ROM 디바이스를 포함할 수 있는 작동(working) 메모리(1235)를 더 포함할 것이다.

[0068] 컴퓨터 시스템(1200)은 또한, 운영 체제(1240), 디바이스 드라이버들, 실행 가능 라이브러리들, 및/또는 하나 또는 그 초과의 애플리케이션 프로그램들(1245)과 같은 다른 코드를 포함하는, 작동 메모리(1235) 내에 현재 로케이팅되는 것으로서 도시되는 소프트웨어 엘리먼트들을 포함할 수 있으며, 그 엘리먼트들은, 본원에서 설명된 바와 같이, 다양한 실시예들에 의해 제공된 컴퓨터 프로그램들을 포함할 수 있고, 그리고/또는 다른 실시예들에 의해 제공된 방법들을 구현하고, 그리고/또는 시스템들을 구성하도록 설계될 수 있다. 단지 예로서, 도 12와 관련하여 설명된 것들과 같이 위에서 논의된 방법들에 관하여 설명된 하나 또는 그 초과의 절차들은, 컴퓨터 및/또는 컴퓨터 내의 프로세서에 의해 실행 가능한 코드 및/또는 명령들로서 구현될 수 있으며; 그 후, 일 양상에서, 그러한 코드 및/또는 명령들은, 설명된 방법들에 따라 하나 또는 그 초과의 동작들을 수행하도록 범용 컴퓨터 또는 다른 디바이스를 구성 및/또는 적응시키는 데 사용될 수 있다.

[0069] 이들 명령들 및/또는 코드의 세트는, 위에서 설명된 저장 디바이스(들)(1225)와 같은 비-일시적인 컴퓨터-판독 가능 저장 매체 상에 저장될 수 있다. 일부 경우들에서, 저장 매체는, 컴퓨터 시스템(1200)과 같은 컴퓨터 시스템 내에 포함될 수 있다. 다른 실시예들에서, 저장 매체는 컴퓨터 시스템과 별개일 수 있고, 예컨대, 컴팩트 디스크와 같은 제거 가능 매체일 수 있고 그리고/또는 저장 매체가 저장 매체 상에 저장된 명령들/코드로 범용 컴퓨터를 프로그래밍하고, 구성하고 그리고/또는 적응시키는 데 사용될 수 있도록 설치 패키지로 제공될 수 있다. 이들 명령들은, 컴퓨터 시스템(1200)에 의해 실행 가능한 실행가능 코드의 형태를 취할 수 있고, 그리고/또는 예컨대, 다양한 일반적으로 이용 가능한 컴파일러들, 설치 프로그램들, 압축/압축해제 유틸리티들 등을 사용하여, 컴퓨터 시스템(1200) 상에 컴파일 및/또는 설치하게 되면, 실행 가능 코드의 형태를 취하는 소스 및/또는 설치 가능한 코드의 형태를 취할 수 있다.

[0070] 특정 요건들에 따라 상당한 변동들이 이루어질 수 있음이 당업자들에게 명백할 것이다. 예컨대, 맞춤화된 하드웨어가 또한 사용될 수 있고, 그리고/또는 특정한 엘리먼트들이 하드웨어, 애플릿(applet)들 등과 같은 이식 가능한 소프트웨어 등을 포함하는 소프트웨어, 또는 둘 모두로 구현될 수 있다. 추가로, 네트워크 입력/출력 디바이스들과 같은 다른 컴퓨팅 디바이스들에 대한 연결이 이용될 수 있다.

[0071] 위에 언급된 바와 같이, 일 양상에서, 일부 실시예들은 본 기술의 다양한 실시예들에 따른 방법들을 수행하기 위해 컴퓨터 시스템, 이를테면, 컴퓨터 시스템(1200)을 이용할 수 있다. 실시예들의 세트에 따라, 프로세서(1210)가 작동 메모리(1235)에 포함되는 운영 체제(1240) 및/또는 다른 코드, 이를테면, 애플리케이션 프로그램(1245)에 포함될 수 있는 하나 또는 그 초과의 명령들의 하나 또는 그 초과의 시퀀스들을 실행하는 것에 대한 응답으로, 그러한 방법들의 절차들 중 일부 또는 전부가 컴퓨터 시스템(1200)에 의해 수행된다. 그러한 명령들은, 저장 디바이스(들)(1225) 중 하나 또는 그 초과와 같은 다른 컴퓨터-판독 가능 매체로부터 작동 메모리(1235)로 판독될 수 있다. 단지 예로서, 작동 메모리(1235)에 포함된 명령들의 시퀀스들의 실행은 프로세서(들)(1210)로 하여금, 본원에서 설명된 방법들의 하나 또는 그 초과의 절차들을 수행하게 할 수 있다. 부가적으로 또는 대안적으로, 본원에서 설명된 방법들의 부분들은 특수 하드웨어를 통해 실행될 수 있다.

[0072] 본원에서 사용된 바와 같이, "머신-판독 가능 매체" 및 "컴퓨터-판독 가능 매체"라는 용어들은 머신이 특정한 방식으로 동작하게 하는 데이터를 제공하는 것에 참여하는 임의의 매체를 지칭한다. 컴퓨터 시스템(1200)을 사용하여 구현되는 실시예에서, 다양한 컴퓨터-판독 가능 매체들이, 실행을 위한 명령들/코드를 프로세서(들)(1210)에 제공하는 데 수반될 수 있고, 그리고/또는 그러한 명령들/코드를 저장 및/또는 반송(carry)하는 데 사용될 수 있다. 다수의 구현들에서, 컴퓨터-판독 가능 매체는 물리적이고 그리고/또는 유형의(tangible) 저장 매체이다. 그러한 매체는 비-휘발성 매체들 또는 휘발성 매체들의 형태를 취할 수 있다. 비-휘발성 매체들은, 예컨대, 저장 디바이스(들)(1225)와 같이 광학 및/또는 자기 디스크들을 포함한다. 휘발성 매체들은 작동 메모리(1235)와 같은 동적 메모리를 제한 없이 포함한다.

[0073] 물리적인 및/또는 유형의 컴퓨터-판독 가능 매체들의 일반적인 형태들은, 예컨대, 플로피 디스크, 플렉시블 디스크, 하드 디스크, 자기 테이프, 또는 임의의 다른 자기 매체, CD-ROM, 임의의 다른 광학 매체, 펀치카드들, 페이퍼테이프, 홀들의 패턴들을 갖는 임의의 다른 물리적인 매체, RAM, PROM, EPROM, FLASH-EPROM, 임의의 다른 메모리 칩 또는 카트리지, 또는 컴퓨터가 명령들 및/또는 코드를 판독할 수 있는 임의의 다른 매체를 포함한다.

[0074] 다양한 형태들의 컴퓨터-판독 가능 매체들은, 실행을 위해 하나 또는 그 초과의 명령들의 하나 또는 그 초과의 시퀀스들을 프로세서(들)(1210)에 반송하는 데 수반될 수 있다. 단지 예로서, 명령들은 초기에, 원격 컴퓨터의 자기 디스크 및/또는 광학 디스크 상에서 반송될 수 있다. 원격 컴퓨터는, 자신의 동적 메모리로 명령들을 로딩하고, 컴퓨터 시스템(1200)에 의해 수신 및/또는 실행되도록 송신 매체를 통해 신호들로서 명령들을 전송할 수 있다.

[0075] 통신 서브시스템(1230) 및/또는 그의 컴포넌트들은 일반적으로 신호들을 수신할 것이고, 그 후, 버스(1205)는 신호들 및/또는 신호들에 의해 반송된 데이터, 명령들 등을 작동 메모리(1235)에 반송할 수 있으며, 그 메모리로부터, 프로세서(들)(1210)는 명령들을 리트리브(retrieve) 및 실행한다. 작동 메모리(1235)에 의해 수신된 명령들은 선택적으로, 프로세서(들)(1210)에 의한 실행 이전 또는 그 이후, 비-일시적인 저장 디바이스(1225)에 저장될 수 있다.

[0076] 위에서 논의된 방법들, 시스템들, 및 디바이스들은 예들이다. 다양한 구성들은 다양한 절차들 또는 컴포넌트들을 적절히 생략, 치환 또는 부가할 수 있다. 예컨대, 대안적인 구성들에서, 방법들은 설명되는 것과 상이한 순서로 수행될 수 있고, 그리고/또는 다양한 스테이지들이 부가, 생략 및/또는 결합될 수 있다. 또한, 소정의 구성들에 대해 설명된 특징들은 다양한 다른 구성들로 결합될 수 있다. 구성들의 상이한 양상들 및 엘리먼트들은 유사한 방식으로 결합될 수 있다. 또한, 기술은 발전하며, 따라서 대부분의 엘리먼트들은 예들이고, 본 개시내용 또는 청구항들의 범위를 제한하지 않는다.

[0077] 특정한 세부사항들은, 구현들을 포함하는 예시적인 구성들의 완전한 이해를 제공하기 위해 설명에서 제공된다. 그러나, 구성들은 이 특정한 세부사항들 없이 실시될 수 있다. 예컨대, 잘-알려진 회로들, 프로세스들, 알고리즘들, 구조들, 및 기술들은 구성들을 불명료하게 하는 것을 회피하기 위해 불필요한 세부사항 없이 도시되었다. 이러한 설명은 예시적인 구성들만을 제공하며, 청구항들의 범위, 적용 가능성, 또는 구성들을 제한하지 않는다. 오히려, 구성들의 이전 설명은, 설명된 기술들을 구현하기 위한 가능한 설명을 당업자들에게 제공할 것이다. 다양한 변화들이 본 개시내용의 사상 또는 범위를 벗어나지 않으면서 엘리먼트들의 기능 및 어레인지먼트(arrangement)에서 행해질 수 있다.

[0078] 또한, 구성들은, 개략적 흐름도 또는 블록도로서 도시된 프로세스로서 설명될 수 있다. 각각이 순차적인 프로세스로서 동작들을 설명할 수 있지만, 동작들의 대부분은 병렬로 또는 동시에 수행될 수 있다. 부가적으로, 동작들의 순서는 재배열될 수 있다. 프로세스는, 도면에 포함되지 않는 부가적인 단계들을 가질 수 있다. 또한, 방법들의 예들은, 하드웨어, 소프트웨어, 펌웨어, 미들웨어, 마이크로코드, 하드웨어 디스크립션(description) 언어들, 또는 이들의 임의의 결합에 의해 구현될 수 있다. 소프트웨어, 펌웨어, 미들웨어 또는 마이크로코드로 구현되는 경우, 필요한 작업들을 수행하기 위한 프로그램 코드 또는 코드 세그먼트들은, 저장 매체와 같은 비-일시적인 컴퓨터-판독 가능 매체에 저장될 수 있다. 프로세서들은 설명된 작업들을 수행할 수 있다.

[0079] 몇 개의 예시적인 구성들을 설명하였지만, 다양한 수정들, 대안적인 구성들, 및 등가물들은 본 개시내용의 사상을 벗어나지 않으면서 사용될 수 있다. 예컨대, 위의 엘리먼트들은 더 큰 시스템의 컴포넌트일 수 있으며, 여기서, 다른 규칙들은 본 기술의 애플리케이션에 우선할 수 있거나 그렇지 않으면 본 발명의 애플리케이션을 수정할 수 있다. 또한, 다수의 단계들은, 위의 엘리먼트들이 고려되기 전에, 그 동안, 또는 그 이후에 착수될 수 있다. 따라서, 위의 설명은 청구항들의 범위를 제한하지 않는다.

[0080] 본원에서 그리고 첨부된 청구항들에 이용된 바와 같이, 단수 형태들은, 맥락에서 명확히 다르게 나타내지 않으면 복수의 지시대상들을 포함한다. 따라서, 예컨대, "사용자"에 대한 참조는 복수의 그러한 사용자들을 포함하고, "프로세서"에 대한 참조는 당업자에게 알려진 하나 또는 그 초과의 프로세서들 및 그의 등가물들에 대한 참조를 포함하는 식이다.

[0081] 또한, 본 명세서에서 그리고 다음의 청구항들에서 사용될 때, "포함하는"("comprise", "comprising", "contains", "containing", "include", "including", 및 "includes")이란 단어는 언급된 특징들, 정수들, 컴포넌트들 또는 단계들의 존재를 특정하도록 의도되지만, 이들은 하나 또는 그 초과의 다른 특징들, 정수들, 컴포넌트들, 단계들, 동작들 또는 그룹들의 존재 또는 부가를 배제하지 않는다.

[0082] 또한, 본원에서 설명된 예들 및 실시예들은 단지 예시 목적들을 위한 것이고, 다양한 수정들 또는 이를 고려한 변화들이 당업자에게 연상될 것이며 본 출원의 사상 및 범위 및 첨부된 청구항들의 범위 내에 포함될 것임이 이해된다.

Claims

2개의 이미지들을 기초로 호모그래피를 생성하기 위한 방법으로서,
복수의 이미지들을 이용하여 신경 네트워크를 트레이닝(training)하는 단계;
제1 카메라 포즈(camera pose)에 기초한 제1 이미지를 수신하는 단계;
제2 카메라 포즈에 기초한 제2 이미지를 수신하는 단계;
상기 제1 이미지 및 상기 제2 이미지를 상기 신경 네트워크에 입력하는 단계; 및
상기 신경 네트워크에 의해, 상기 제1 이미지 및 상기 제2 이미지에 기초하여 상기 호모그래피를 생성하는 단계
를 포함하는,
2개의 이미지들을 기초로 호모그래피를 생성하기 위한 방법.
제1항에 있어서,
상기 신경 네트워크를 트레이닝하는 단계는,
복수의 이미지들을 수신하는 단계; 및
상기 복수의 이미지들의 각각의 개별 이미지에 대해:
상기 복수의 이미지들 각각에 대한 트레이닝 트리플렛(training triplet)을 생성하는 단계 - 상기 트레이닝 트리플렛은, 상기 복수의 이미지들 각각에 대하여, 상기 복수의 이미지들 각각의 서브 이미지, 상기 복수의 이미지들 각각에 기초하여 변환된 서브 이미지 및 상기 서브 이미지와 상기 변환된 서브 이미지에 기초한 호모그래피를 포함함 - ;
상기 신경 네트워크에 의해, 상기 서브 이미지 및 상기 변환된 서브 이미지에 기초하여 추정된 호모그래피를 생성하는 단계;
상기 추정된 호모그래피를 상기 호모그래피와 비교하는 단계; 및
상기 비교에 기초하여 상기 신경 네트워크를 수정하는 단계
를 포함하는,
2개의 이미지들을 기초로 호모그래피를 생성하기 위한 방법.
제2항에 있어서,
상기 서브 이미지, 상기 변환된 서브 이미지 및 상기 호모그래피를 상기 신경 네트워크에 전송하는 단계를 더 포함하는,
2개의 이미지들을 기초로 호모그래피를 생성하기 위한 방법.
제2항에 있어서,
상기 변환된 서브 이미지가 경계 아티팩트들을 포함하지 않는 것으로 결정하는 단계를 더 포함하는,
2개의 이미지들을 기초로 호모그래피를 생성하기 위한 방법.
제2항에 있어서,
상기 트레이닝 트리플렛을 생성하는 단계는,
a) 상기 복수의 이미지들 중 하나의 이미지 내의 포지션을 식별하는 단계;
b) 상기 포지션에서 상기 서브 이미지를 식별하는 단계 - 상기 서브 이미지는 제1 세트의 코너들에 의해 정의됨 - ;
c) 제2 세트의 코너들을 형성하도록 상기 제1 세트의 코너들 중 적어도 하나를 섭동시키는 단계 - 상기 제2 세트의 코너들은 수정된 서브 이미지를 정의함 - ;
d) 상기 서브 이미지와 상기 수정된 서브 이미지 간의 비교에 기초하여 상기 호모그래피를 결정하는 단계;
e) 상기 호모그래피를 상기 이미지에 적용함으로써 변환된 이미지를 생성하는 단계;
f) 상기 포지션에서 상기 변환된 이미지의 상기 변환된 서브 이미지를 식별하는 단계; 및
상기 복수의 이미지들 중 나머지 이미지들에 대하여 a) 내지 f)를 반복하는 단계
를 포함하는,
2개의 이미지들을 기초로 호모그래피를 생성하기 위한 방법.
제5항에 있어서,
상기 포지션은 상기 이미지의 랜덤으로 선택된 픽셀인,
2개의 이미지들을 기초로 호모그래피를 생성하기 위한 방법.
제5항에 있어서,
상기 포지션은 상기 서브 이미지의 중심 픽셀 위치에 대응하는,
2개의 이미지들을 기초로 호모그래피를 생성하기 위한 방법.
제5항에 있어서,
상기 제2 세트의 코너들 각각은 상기 제1 세트의 코너들 중 하나를 둘러싸는 섭동(perturbation) 구역 내에 위치하는,
2개의 이미지들을 기초로 호모그래피를 생성하기 위한 방법.
제8항에 있어서,
각각의 섭동 구역의 폭은 2 ρ와 동일하고, 각각의 섭동 구역의 높이는 2 ρ와 동일하고, 상기 ρ는 범위 [-ρ, ρ] 내의 랜덤 섭동 값 ρ인,
2개의 이미지들을 기초로 호모그래피를 생성하기 위한 방법.
제5항에 있어서,
상기 비교에 기초하여 상기 호모그래피를 결정하는 단계는, 제1 세트의 코너들과 제2 세트의 코너들 사이의 하나 이상의 변위 벡터들을 결정하는 단계를 포함하고, 상기 하나 이상의 변위 벡터들 각각은 제1 차원 및 제2 차원에서 대응하는 코너들 사이의 오프셋을 나타내는,
2개의 이미지들을 기초로 호모그래피를 생성하기 위한 방법.
제5항에 있어서,
상기 호모그래피를 상기 이미지에 적용함으로써 변환된 이미지를 생성하는 단계는, 상기 변환된 이미지를 생성하기 위해 상기 호모그래피의 역(inverse)을 상기 이미지에 적용하는 단계를 포함하는,
2개의 이미지들을 기초로 호모그래피를 생성하기 위한 방법.