KR102644273B1

KR102644273B1 - 상이한 fov를 갖는 카메라들을 이용한 시차 추정 시스템 및 방법

Info

Publication number: KR102644273B1
Application number: KR1020190106440A
Authority: KR
Inventors: 모스타파 엘 카미; 하오위 런; 시안즈 두; 정원 이
Original assignee: 삼성전자주식회사
Priority date: 2018-10-29
Filing date: 2019-08-29
Publication date: 2024-03-06
Also published as: TW202016505A; KR20200049502A; US20200134848A1; US11055866B2; CN111105450A

Abstract

전자 장치 및 방법이 여기에 개시된다. 전자 장치는 제1 FOV를 갖는 제1 카메라, 제1 FOV 보다 좁은 제2 FOV를 갖는 제2 카메라, 및 프로세서를 포함하며, 상기 프로세서는 상기 제1 카메라로 통합 FOV를 갖는 제1 이미지를 캡쳐하고, 상기 제2 카메라로 제2 이미지를 캡쳐하고, 상기 제1 이미지와 상기 제2 이미지 사이의 중첩 FOV를 결정하고, 상기 중첩 FOV에 기반한 중첩 FOV 시차 추정값을 생성하고, 통합 FOV 시차 추정값을 생성하고, 상기 통합 FOV 시차 추정값을 상기 중첩 FOV 시차 추정값에 병합하도록 구성된다.

Description

상이한 FOV를 갖는 카메라들을 이용한 시차 추정 시스템 및 방법 {SYSTEM AND METHOD FOR DISPARITY ESTIMATION USING CAMERAS WITH DIFFERENT FIELDS OF VIEW}

본 개시는 일반적으로 이미지 처리 시스템에 관한 것이다. 특히, 본 개시는 상이한 FOV를 갖는 카메라들을 이용한 시차 추정 방법 및 시스템에 관한 것이다.

최근 캡쳐된 장면에서의 화소의 실제 심도 추정에 대한 관심이 있다. 심도 추정은 멀리 있는 배경의 물체(object)로부터 가까운 전경(foreground)의 물체를 구분하는 능력과 같은 많은 어플리케이션을 갖는다. 정확한 심도 추정은 장면 내 배경으로부터 전경의 관심 물체(object of interest)를 구분(separation)할 수 있게 한다. 정확한 전경-배경 구분은 캡쳐된 이미지를 처리하여 보케 효과(Bokeh effect)와 같은 효과를 에뮬레이션 할 수 있게 한다. 보케 효과는 배경에서의 소프트 아웃-오브-포커스 블러(out-of-focus blur)이며, 얕은 심도(depth-of-field)를 에뮬레이션 하기 위해 카메라를 피사체에 가까이하고 피사체를 배경으로부터 멀어 지게 하는 것뿐만 아니라, 일반적으로 빠른 셔터 스피드 와 넓은 조리개를 갖는 고가의 카메라에서 적절한 설정을 사용하여 해결된다.

정확한 심도 추정은, 피사체에 초점을 맞춘 보케 효과를 이용하여 미적으로 더욱 쾌적한 이미지를 얻을 수 있도록, 비전문적인 사진가 또는 작은 렌즈를 갖는 카메라(예를 들어, 휴대 전화의 카메라)에 의한 영상을 처리할 수 있게 해준다. 정확한 심도 추정의 다른 어플리케이션은 3D 물체 재구성 및 가상 현실(VR) 어플리케이션을 포함한다.(VR 어플리케이션에서는 배경 또는 피사체를 변경하고 원하는 VR에 따라 렌더링하는 것이 요구된다.) 캡쳐된 장면에서의 정확한 심도 추정의 다른 어플리케이션들로는 차량 자동화, 감시 카메라, 셀프 드라이빙 어플리케이션을 포함하며, 또한 카메라만 사용하거나 또는 복수의 센서에서의 심도 추정 및 카메라 입력을 사용하여, 물체 탐지 정확도와 카메라까지의 거리 추정이 개선된 안정성 향상이 있다.

본 개시의 기술적 사상의 실시예들에 따른 과제는 상이한 FOV를 갖는 카메라들을 이용한 시차 추정 방법 및 시스템을 제공하는데 있다.

본 발명의 일 실시예에 따른 전자 장치는 제1 FOV(field of view)를 갖는 제1 카메라; 상기 제1 FOV 보다 좁은 제2 FOV를 갖는 제2 카메라; 및 프로세서를 포함할 수 있다. 상기 프로세서는 상기 제1 카메라로 통합 FOV를 갖는 제1 이미지를 캡쳐하고, 상기 제2 카메라로 제2 이미지를 캡쳐하고, 상기 제1 이미지와 상기 제2 이미지 사이의 중첩 FOV를 결정하고, 상기 중첩 FOV에 기반한 중첩 FOV 시차 추정값을 생성하고, 통합 FOV 시차 추정값을 생성하고, 상기 통합 FOV 시차 추정값을 상기 중첩 FOV 시차 추정값에 병합하도록 구성될 수 있다.

본 발명의 일 실시예에 따른 시차 추정 방법은 제1 FOV를 갖는 제1 카메라로 통합 FOV를 갖는 제1 이미지를 캡쳐하며, 상기 제1 FOV보다 좁은 제2 FOV를 갖는 제2 카메라로 제2 이미지를 캡쳐하며 상기 제1 이미지와 상기 제2 이미지 사이의 중첩 FOV를 결정하며, 상기 중첩 FOV에 기반하여 중첩 FOV 시차 추정값을 생성하고, 통합 FOV 시차 추정값을 생성하며, 상기 통합 FOV 시차 추정값을 상기 중첩 FOV 시차 추정값에 병합하는 것을 포함할 수 있다.

본 개시의 실시예들에 따르면, 상이한 FOV를 갖는 카메라들을 이용하여 와이드 FOV에 대해서도 시차를 추정할 수 있다.

도 1은 일 실시예에 따른 보케 효과의 다이어그램이다.
도 2는 일 실시예에 따른 스테레오 매칭 시스템의 다이어그램이다.
도 3은 일 실시예에 따라 유사한 FOV를 갖는 두 이미지를 사용하여 하나의 이미지에 보케 효과를 적용하기 위한 플로우 차트이다.
도 4는 일 실시예에 따른 통합 FOV 및 중첩 FOV를 나타내는 이미지의 다이어그램이다.
도 5는 일 실시예에 따른 통합 FOV의 시차 생성을 나타내는 플로우 차트이다.
도 6은 일 실시예에 따른 RGB(red-green-blue)-SIDE(single image disparity estimation) 네트워크의 다이어그램이다.
도 7은 일 실시예에 따른 텔레-와이드 스테레오 매칭 네트워크의 다이어그램이다.
도 8은 일 실시예에 따른 멀티-태스크 텔레-와이드 스테레오 매칭 네트워크의 다이어그램이다.
도 9는 일 실시예에 따른 시차 개선 시스템의 다이어그램이다.
도 10 내지 도 13은 일 실시예에 따라 병합되고, 후처리될 시차 추정값들을 생성하는 시스템들의 다이어그램이다.
도 14는 일 실시예에 따른 시차 병합 및 시차 선택의 다이어그램이다.
도 15는 일 실시예에 따른 시차 병합 및 시차 선택의 다이어그램이다.
도 16은 일 실시예에 따라 4대의 카메라를 사용한 통합 FOV 및 중첩 FOV의 다이어그램이다.
도 17은 일 실시예에 따른 네트워크 환경의 전자 장치의 블록 다이어그램이다.

이하, 첨부 된 도면을 참조하여 본 개시의 실시예를 상세히 설명한다. 비록 상이한 도면에 도시되어 있지만, 동일한 요소는 동일한 참조 번호로 표시될 것이다. 이하의 설명에서, 상세한 구성 및 구성 요소와 같은 특정 세부 사항은 본 개시의 실시예의 전반적인 이해를 돕기 위해 제공된다. 따라서, 당업자는 본 명세서에 설명된 실시예들의 다양한 변경 및 수정이 본 개시의 범위를 벗어나지 않고 이루어질 수 있음을 명백히 알 수 있다. 또한, 공지된 기능 및 구성에 대한 설명은 명료성 및 간결성을 위해 생략되었다. 이하에서 설명되는 용어는 본 개시의 기능을 고려하여 정의된 용어로서 사용자, 사용자의 의도 또는 관습에 따라 달라질 수 있다. 그러므로, 용어의 정의는 본 명세서 전반에 걸친 내용을 기반으로 결정되어야 한다.

본 개시는 다양한 변형 및 다양한 실시예를 가질 수 있으며, 이들 실시예들은 첨부된 도면을 참조하여 상세하게 설명된다. 그러나, 본 개시는 실시예들에 한정되지 않으며, 모든 변형, 등가물 및 대안들을 포함하는 것으로 이해되어야 한다.

"제1", "제2" 등과 같은 서수(序數)를 포함하는 용어들이 다양한 요소를 설명하기 위해 사용될 수 있으나, 구조 요소는 상기 용어들에 의해 제한되지 않는다. 이 용어들은 오직 한 요소를 다른 요소로부터 구별하기 위해 사용된다. 예를 들어, 본 개시의 범위를 벗어나지 않고, 제1 구조 요소는 제2 구조 요소로 지칭될 수 있다. 유사하게, 제2 구조 요소는 제1 구조 요소로 지칭될 수 있다. 본 명세서에서 사용된 바와 같이, "및/또는"은 하나 이상의 관련된 아이템들의 임의의 조합 및 모든 조합을 포함한다.

본 명세서에서 사용된 용어는 본 개시의 다양한 실시예를 설명하기 위해 사용되었으나, 본 개시를 제한하고자 하는 것은 아니다. 단수 형태는 문맥상 명백히 달리 지시하지 않는 한 복수 형태 용어를 포함한다. 본 개시에서, "포함한다" 또는 "가지고 있다."라는 용어는 특징, 수, 단계, 동작, 구조적 요소, 부품 또는 이들의 조합의 존재를 나타내며, 다른 특징, 숫자, 단계, 동작, 구조적 요소, 부품 또는 이들의 조합의 존재 또는 가능성을 배제하지 않는다.

다르게 정의되지 않는 한, 본 명세서에서 사용되는 모든 용어는 본 개시가 속하는 기술 분야의 당업자에 의해 이해되는 것과 동일한 의미를 갖는다. 일반적으로 사용되는 사전에 정의된 것과 같은 용어는 관련 분야의 문맥상의 의미와 동일한 의미를 갖는 것으로 해석되어야 하며, 본 개시에서 명확하게 정의되지 않는 한 이상적이거나 과도하게 공식적인 의미를 갖는 것으로 해석되어서는 안된다.

일 실시예에 따른 전자 장치는 다양한 유형의 전자 장치 중 하나일 수 있다. 전자 장치는, 예를 들어, 휴대용 통신 장치(예: 스마트폰), 컴퓨터, 휴대용 멀티미디어 장치, 휴대용 의료 장치, 카메라, 웨어러블 장치, 또는 가정용 기기를 포함할 수 있다. 본 개시의 실시예에 따르면, 전자 장치는 상술된 것에 제한되지 않는다.

본 개시에 사용되는 용어는 본 개시를 제한하고자 하는 것이 아니라, 대응하는 실시예에 대한 다양한 변경, 등가물 또는 대체물들 포함하고자 하는 것이다. 첨부 도면의 설명과 관련하여, 유사한 참조 번호는 유사하거나 관련된 구성 요소를 나타내기 위해 사용될 수 있다. 하나의 항목에 해당하는 단수 형태의 명사는 관련 문맥에서 명백하게 다르게 표시되지 않는 이상, 하나 이상의 사물을 포함할 수 있다. 본 명세서에서 사용된 바와 같이, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나" 및 "A, B 또는 C 중 적어도 하나"와 같은 각 문구는 문구들 중 대응하는 것과 함께 열거된 항목들의 가능한 모든 조합을 포함할 수 있다. 본 명세서에서 사용된 바와 같이, "제1", "제2", "첫 번째", 및 "두 번째"와 같은 용어는 대응하는 구성 요소를 다른 구성 요소와 구별하기 위해 사용될 수 있다. 그러나, 구성 요소들을 다른 측면(예: 중요도 또는 순서)으로 제한하고자 하는 것은 아니다. 한 요소가 "동작 가능하게" 또는 "통신적으로" 라는 용어와 함께 또는 그런 용어를 사용하지 않고, 다른 요소와 "결합된(coupled with, coupled to)", 또는 "연결된(connected with, connected to)" 것으로 언급된다면, 그 요소는 다른 요소와 직접적으로(예: 유선), 무선으로, 또는 제3의 요소를 통해 결합될 수 있음을 의미한다.

본 명세서에서 사용된 바와 같이, "모듈"이라는 용어는 하드웨어, 소프트웨어 또는 펌웨어로 구현되는 유닛을 포함할 수 있으며, 예를 들어 "로직", "로직 블록", "파트" 및 "회로"와 같은 다른 용어와 상호 교환 가능하게 사용될 수 있다. 모듈은 하나 이상의 기능을 수행하도록 구성된 단일 통합 구성 요소 또는 그 최소 단위 혹은 일부일 수 있다. 예를 들어, 일 실시예에 따르면 모듈은 ASIC(application-specific integrated circuit)의 형태로 구현될 수 있다.

본 시스템 및 방법은 상이한 FOV(field of view)를 갖는 두 개의 카메라에 의해 캡쳐된 장면 내의 요소들의 실제 심도 추정을 제공한다. 두 개의 스테레오 교정된 이미지들로부터의 정확한 심도 추정은, 두 이미지들에서의 픽셀들 간의 시차(disparity)(예: 수평 방향의 변위)를 계산함으로써 획득될 수 있다.

본 시스템 및 방법은 두 이미지들의 통합 FOV(union of FOVs)의 모든 요소들의 심도 추정을 제공한다. 두 개의 카메라가 제공될 수 있는데, 하나는 와이드 FOV를 가지며 광학 줌이 낮거나 없는 것과 연관되며, 다른 하나는 좁은 FOV를 가지며 광학 줌이 큰 것과 연관된다. 최근의 모바일 장치는 두 개 이상의 카메라가 장착되어 있다. 여분의 카메라를 활용하기 위해, 근거리 및 원거리 모두에서 좋은 해상도를 갖도록 서로 다른 광학 줌을 갖는 렌즈들이 종종 선택된다. 특히, 렌즈의 줌 레벨은 사용자가 렌즈 및 모바일 장치의 물리적 제약, 또는 자가운전 어플리케이션과 같은 안전 목적 및 보정을 이유로 변경하지 않을 수 있다.

본 시스템 및 방법은 다수의 스테레오 카메라들로부터의 시차를 결정하기 위해 다수의(예를 들어, 3개 이상) 카메라들로 확장될 수 있다.

예를 들어, 장치 내의 하나의 렌즈는 1배 줌(예: 무배율)으로 설정되고 와이드-앵글 FOV(예: 와이드 FOV)를 갖는 반면, 장치 내의 다른 렌즈는 2배 줌(예: 2배율)을 가지며 더 좁은 망원 FOV(예: 텔레 FOV)를 갖는다. 이 두 FOV의 통합은 넓은 FOV의 통합이다. 본 명세서에 개시된 바와 같이, 비록 대응 픽셀들은 FOV들의 교차점인 텔레 FOV에 대해서만 존재할 것이지만, 통합 FOV의 심도 추정, 즉 이 경우 전체 와이드 FOV에 대한 심도 추정이 수행된다.

본 개시의 실시예는 두 개 이상의 카메라를 사용하여 FOV들이 중첩하는 교차점만이 아니라, 통합 FOV에 대한 심도 추정을 수행할 수 있는 딥 뉴럴 네트워크(deep neural network)를 위한 통합된 아키텍처, 여러 작업에 대한 통합된 아키텍처를 동시에 트레이닝하는 방법 및 단일 이미지 심도 추정(single image depth estimation)과 스테레오 심도 추정 알고리즘/프로세스의 결과를 융합하는 방법을 제공한다. FOV들의 중첩된 교차점에 국한된 것보다는 모든 카메라에 걸친 전체 FOV에 대한 심도 추정에 이점이 있다. 또한, 넓은 1배 줌과 망원 2배 고정 줌으로 고정된 프리셋 줌을 갖는 듀얼 카메라의 경우, 좁은 망원 FOV인 교차 FOV(intersection FOV) 보다는 전체 와이드 FOV에 대해 보케 효과를 적용하여 전체 와이드 FOV에 걸쳐 미적으로 더 나은 이미지의 생성하는 것에 이점이 있다.

도 1은 일 실시예에 따른 보케 효과의 다이어그램이다. 보케 효과는 가까운 피사체를 더 선명하게 하거나 초점을 맞추면서, 멀리 있는 피사체가 포커스를 벗어나게 하여 이미지 내의 배경 피사체를 흐리게 처리하는 것이다. 이미지(100)는 텔레 FOV의 보케 효과를 도시하며, 이미지(102)는 와이드 FOV의 보케 효과를 도시한다. 중첩 FOV(104)는 이미지(100)의 전체 FOV에 대응한다. 보케 효과는 얕은 피사계 심도(depth of field)를 얻기 위해, 큰 조리개(낮은 f값)와 긴 초점 거리를 갖는 고가의 카메라로 얻을 수 있다. 이 렌즈들은 이미지 센서 및 렌즈의 치수 및 비용 제약 때문에, 저렴하고, 작은 카메라 또는 모바일 장치에 내장된 카메라에서는 찾기가 어렵다.

도 2는 일 실시예에 따른 스테레오 매칭 시스템(200)의 다이어그램이다. 정확한 심도 추정이 없는 시스템은 두 개의 대응하는 픽셀간의 시차 d(카메라(201)에 대한 점 P의 수평 거리(x1)와 카메라(202)에 대한 점(P)의 수평 거리(x2) 사이의 차이로서의 수평 변이)를 결정하기 위해 동일한 FOV를 갖는 두 개의 카메라(201, 202)로부터 캡쳐된 2개의 교정된 이미지 사이의 스테레오 매칭에 의존할 수 있다. 각 픽셀에 대하여, 카메라 베이스 라인(b) 및 초점 거리(f)에 대한 지식에 의해 시차는 피사체(P)의 심도(z)의 척도로 변환될 수 있다.

최근의 전자 장치에는 두 개 이상의 카메라가 장착되어 있다. 두 카메라의 사양은 각각 (f/1.7, 26mm, 1x optical zoom) 및 (f/2.4, 52mm, 2x optical zoom)일 수 있다. 제1 카메라가 더 넓은 조리개를 갖는 반면, 제2 카메라는 더 긴 초점 거리 및 두 배의 광학 줌을 갖는다. 그러나, 제2 카메라의 FOV는 2배 줌(예: 텔레 FOV)의 이미지에서의 중심 부분에 불과하다. 제1 카메라의 FOV는 1배 줌에서의 와이드 FOV이다. 서로 다른 FOV를 갖는 카메라들을 사용하는 이유 중 하나는 더 큰 조리개 카메라가 저조도(low light) 설정 및 빠른 셔터 속도에서 더 좋은 이미지를 얻기 위해 사용되고, 2배 줌 카메라는 2배의 광학 줌 및 2x FOV에서 더 높은 해상도를 제공하는 다양성 때문이다.

스테레오 시차 매칭의 한 가지 응용은 관심 물체(object of interest)에 초점을 유지하면서 배경을 흐리게 함으로써 이미지 내에서 보케 효과를 생성하는 것이다. 그러나, 이 경우 스테레오 매칭은 두 개의 카메라에서 중첩되는 센터 FOV에 대해서만 수행된다. 따라서, 만약 사용자가 이미지를 캡쳐하기 위해 보케 효과를 적용하려고 하면, 보케 효과는 중앙의 텔레 FOV에 대해서만 수행되며, 도 1의 이미지(100)를 산출한다.

도 3은 일 실시예에 따라 이미지에 보케 효과를 적용하기 위한 플로우 차트(300)이다. 단계(302)에서 두 이미지 간의 중첩 FOV가 결정된다. 예를 들어, 도 1을 참조하면, 중첩 FOV(104)는 이미지(100)의 전체 FOV에 대응한다.

단계(304)에서, 동일한 FOV 및 해상도를 갖는 두 개의 이미지가 생성된다. 두 개의 이미지들은 더 큰 FOV를 갖는 이미지(102)로부터 중첩 FOV(104)를 절단(cropping)하고, 고해상도를 갖는 이미지(100)에서 중첩 FOV를 다운 스케일링함으로써 생성될 수 있다.

단계(306)에서, 두 이미지 간의 시차 정보가 결정된다. 시차 정보는 단계(304)에서 생성된 두 이미지에 대해 스테레오 매칭 알고리즘/프로세스를 적용하여 결정될 수 있다. 시차 정보는, 중첩 FOV(104)에 대해 이미지(100)의 픽셀들 및 이에 대응하는 이미지(102)의 픽셀들 간의 수평 변이(horizontal shift)에 대응할 수 있다.

단계(308)에서, 두 이미지의 심도 정보가 생성된다. 심도 정보는 적절한 반전 및 스케일링에 의해 단계(306)로부터의 시차 정보를 변환함으로써 생성될 수 있다.

단계(310)에서, 보케 알고리즘/프로세스가 적용된다. 보케 알고리즘/프로세스는 멀리 있는 물체를 흐리게하고 근처의 물체에 초점을 맞추어 이미지(100)와 유사한 결과를 산출할 수 있다. 보케 효과는 이미지(100)의 텔레 FOV에만 적용된다.

본 명세서에 기술된 바와 같이, 중첩 FOV는, 비록 FOV가 서로 다른 스케일에 있더라도, 사용되는 모든 카메라에 있는 FOV를 지칭할 수 있다. 통합 FOV는 하나의 기준 카메라의 FOV를, 기준 이미지의 스케일로 스케일을 조정한 다른 카메라의 FOV로 보강(augmenting)한 결과를 지칭할 수 있다.

도 4는 일 실시예에 따른 통합 FOV 및 중첩 FOV를 나타내는 이미지의 다이어그램이다. 이미지(400)는 통합 FOV를 나타내며, 이미지(402)는 중첩 FOV를 나타낸다. 이미지(400)는 이미지(402)와 중첩된 부분(404)을 포함한다. 이미지(402)는 중첩 FOV에서 이미지(400)의 해상도와 매치되도록 2배만큼 다운샘플링된다. 관심 물체는 이미지(402)의 텔레 FOV의 중심에 위치하지 않을 수 있으며, 이미지(402)의 텔레 FOV에 의해 완전히 포착되지 않을 수 있다. 따라서, 본 명세서에서 개시된 바와 같이, 시차 추정값은 이미지(402)의 중첩 FOV를 사용하여 이미지(400)의 통합 FOV로부터 생성될 수 있다.

도 5는 일 실시예에 따른 통합 FOV의 시차 생성을 나타내는 플로우 차트(500)이다. 단계(502)에서, 통합 FOV에 대한 심도 추정값 및 시차 추정값이 생성된다. 심도 추정값은 단일 이미지 심도 추정(single image depth estimation; SIDE)으로 장면 이해를 이용함으로써 생성될 수 있다.

도 6은 일 실시예에 따른 RGB-SIDE의 다이어그램이다. RGB-SIDE 네트워크는 완전 컨볼루션 뉴럴 네트워크(fully convolutional neural network)로 구현된다. 시차 추정은 풀 와이드 FOV(예: 통합 FOV(400))에 대해 수행되며, 풀 와이드 FOV의 특정 부분에서는 단 하나의 카메라로부터의 정보만 이용 가능하다. 통합 FOV 이미지는 인풋(600)이며, 시차 추정은 아웃풋(602)이다. RGB-SIDE 네트워크는 역 심도(inverse depth)를 추정하며, 역 심도는 현재 카메라 세팅(예: 카메라 베이스 라인, 카메라 초점 거리 등)을 이용하여 네트워크 내에서 암시적으로 시차로 스케일링 된다. 이렇게 함으로써, 회귀(regression) 기반의 손실 함수(loss function)가 시차 에러의 척도로 사용될 수 있으며, 각 픽셀에 대하여 추정된 시차와 실제 시차의 거리는 확률적 경사 하강(stochastic gradient descent) 최적화에 사용되는 에러 비용 함수(error cost functions)를 제공한다.

RGB-SIDE 네트워크는 카메라 렌즈에 대한 서로 다른 물체의 상대적 위치를 학습하기 위해 장면을 이해할 필요가 있으므로, 풀 와이드 이미지(400)가 한 번에 처리된다. 이 솔루션의 장점은 아웃풋이 풀 와이드 FOV에 대한 시차 추정값을 단일 이미지와 단일 블록만을 사용하여 제공하는 데 있다. 이 솔루션의 단점은 정확도가 낮다는 것이며, 추정된 시차 또는 심도가 매우 조악하며, 에지(edge)가 흐릿해 지고 큰 에러가 발생하기 쉽다는 것이다. 이러한 이유는 FOV에서 물체의 심도를 추정하기 위해, 물체들의 크기뿐만 아니라 물체들 간의 상대적 위치 및 장면 이해에 의존하기 때문이다.

단계(504)에서, 중첩 FOV의 시차 추정값이 생성된다. 시차 추정값은 스테레오 매칭 시차 추정(stereo matching disparity estimation; SMDE)을 사용하여 두 개의 이미지(예: 도 3의 단계(304)에서 생성된 두 개의 이미지) 사이에서 생성된다. SMDE 네트워크는 두 인풋 이미지로부터의 시차를 추정한다. SMDE 네트워크는 뉴럴 네트워크를 사용하여 시차를 추정할 수 있다. 복수 타입의 SMDE 네트워크가 사용될 수 있다. 예를 들어, TW-SMNet(tele-wide SMDE)는 중첩 FOV에 적용되거나(TW-SMNet(T)) 또는 통합 FOV에 적용될 수 있다(TW-SMNet(W)). 멀티-태스크 TW-SMNet(MT-TW-SMNet)는 TW-SMNet(W)에 추가적인 SIDE 네트워크를 부가한 것이다.

도 7은 일 실시예에 따른 TW-SMNet의 다이어그램이다. 네트워크에서, 이미지(400) 및 이미지(402)는 각각 네트워크의 인풋(700) 및 인풋(702)이다. TW-SMNet은 스테레오 매칭을 이용하여 두 인풋 이미지들로부터 시차를 추정한다. 클래식 기법에 의한 스테레오 매칭은 동일한 수평선을 따라 교정된 이미지의 특징을 매칭시키는 것을 포함한다. 딥 뉴럴 네트워크(deep neural network)는 비용 볼륨이라고 지칭되는 볼륨을 구성하기 위해 서로 다른 시차 변이에서 이미지들의 특징 맵(feature map)의 변이 버전(shifted version)을 생성함으로써 스테레오 매칭을 수행할 수 있다. 스테레오 매칭 딥 뉴럴 네트워크는 딥 피처(deep feature)들 사이의 거리 또는 변이된 딥 피처들 간의 상관관계(correlation)와 같은 비용 볼륨의 계산에 의존한다.

TW-SMNet(T)에 대하여, 시차 추정은 스테레오 매칭을 사용하여 오직 중첩 영역에 대해서만 제공된다. 중첩된 부분(404)은 이미지(400)와 이미지(402)에서의 중첩 FOV들이다. 시차 추정은 와이드 FOV 이미지(400)에서만 중첩된 부분(404)을 고려하며, 중첩된 부분(404)을 텔레 FOV 이미지(402)에 대해 스테레오 매칭하는 것에 의해 수행된다. 알고리즘 또는 뉴럴 네트워크는 중첩 영역만을 사용하여 실제 시차로 회귀(regress)하도록 설계되었다. 이 방식은 텔레 영역에서의 시차 추정값에 대해 최상의 정확도를 제공한다.

TW-SMNet(W)에 대해, 알고리즘/프로세스는 이미지(400)의 풀 와이드 FOV를 사용하여 통합 FOV에 대한 시차를 추정한다. 이미지(402)는 이미지(400)에서의 중첩된 부분(404)의 해상도와 일치하도록 스케일링된다. 그러나, 중첩된 부분(404)의 외부의 주변 영역 나타내는 누락 영역(missing region)은 풀 와이드 FOV의 크기에 도달하도록 제로 패딩(zero padding)된다. 이 블록의 아웃풋은 풀 와이드 FOV의 시차 맵에 대한 추정값이다. 이 방식은 텔레 영역에서의 시차 추정값 및 주변 영역에서의 개략적인 추정값에 대한 상당한 정확도를 제공할 것이다.

도 8은 일 실시예에 따른 MT-TW-SMNet의 다이어그램이다. 도 8에서 인풋(800)은 와이드 FOV 이미지(400)이며, 인풋(802)은 텔레 FOV 이미지(402)이다. 인풋(800)에 추가 SIDE 네트워크가 적용된다.

이 네트워크는 스테레오 매칭에 의한 시차 추정을 위해 트레이닝된다. 이미지(400)에 국한된 SIDE 기반 추정을 위한 추가적인 헤드(head)가 비용 볼륨(804) 이전에 네트워크에 추가된다. 두 헤드는 함께 트레이닝 되어, 더 나은 장면 이해 능력을 갖도록 SIDE 브랜치(branch)가 공유된 층들을 돕는다. 네트워크 스테레오 매칭 손실은 SIDE 손실에 대해 정규화된다. 따라서, 손실 함수(loss function)는 SMDE 브랜치로부터의 시차 추정값의 정확도뿐만 아니라 SIDE 브랜치로부터의 시차 추정값의 정확도를 고려한 결합된 손실 함수(806)이며, 시스템은 시차를 아웃풋(808)으로 산출한다. 이것은 스테레오 이미지에서 대응하는 물체가 없어서 스테레오 매칭이 수행되지 않는 주변 영역(중첩되지 않는 FOV)에서의 시차 추정의 성능을 향상시킨다. 그러나, 이 네트워크에서는 SMDE 및 SIDE 브랜치로부터의 시차 맵들의 함수인 시차 맵이 하나만 출력된다. 이 네트워크는 더 나은 정확도를 갖는 스테레오 매칭 시차 맵만을 최종 아웃풋으로 선택할 수 있다.

단계(506)에서, 통합 FOV 시차가 개선된다. 도 9는 일 실시예에 따른 시차 개선 시스템의 다이어그램이다. 도 9에서, TW-SMNet(904)의 인풋(900)은 와이드 FOV 이미지(400)이며, TW-SMNet(904)의 인풋(902)는 텔레 FOV 이미지(402)이다. TW-SMNet(904)는 시차를 생성하고 출력한다. 와이드 FOV 이미지(400)는 또한 SIDE RGB-시차(SIDE-RGBD) 추정 네트워크(910)의 인풋(908)이며, TW-SMNet(904)의 시차 아웃풋은 SIDE-RGBD 네트워크(910)의 인풋(906)이다.

단계(508)에서, 추정된 시차들이 병합(merge)된다. 도 10 내지 도 13은 일 실시예에 따라 병합되고, 후처리될 시차 추정값들을 생성하는 시스템들의 다이어그램이다.

도 10은 RGB SIDE + TW-SMNet(T) 시스템(1000)을 도시한다. 와이드 FOV 이미지(1002)는 RGB SIDE 네트워크(1006) 및 TW-SMNet(T)(1008)의 인풋이다. 텔레 FOV 이미지(1004)는 TW-SMNet(T)(1008)의 인풋이다. 단계(1010)에서, 시차 추정의 결과물이 병합되며, 단계(1012)에서 시차 맵이 후처리된다.

도 11은 RGB SIDE + TW-SMNet(T) 시스템(1100)을 도시한다. 와이드 FOV 이미지(1102)는 RGBD SIDE 네트워크(1106) 및 TW-SMNet(1108)의 인풋이며, 텔레 FOV 이미지(1104)는 TW-SMNet(1108)의 인풋이다. TW-SMNet(1108)로부터의 시차 추정값은 RGBD SIDE 네트워크(1106)의 인풋이다. 단계(1110)에서 시차 추정의 결과물이 병합되며, 단계(1112)에서 시차 맵이 처리된다.

도 12는 RGB SIDE + RGB SIDE + TW-SMNet 시스템(1200)을 도시한다. 와이드 FOV 이미지(1202)는 RGBD SIDE 네트워크(1206), RGB SIDE 네트워크(1208) 및 TW-SMNet(1210)의 인풋이며, 텔레 FOV 이미지(1204)는 TW-SMNet(1210)의 인풋이다. RGB SIDE 네트워크(1208)로부터의 시차 추정값은 RGBD SIDE 네트워크(1206)의 인풋이다. RGBD SIDE 네트워크(1206) 및 TW-SMNet(1210)으로부터의 시차 추정의 결과물은 단계(1212)에서 병합되며, 단계(1214)에서 시차 맵이 처리된다.

도 13은 RGB SIDE + RGB SIDE + MT-TW-SMNet 시스템(1300)을 도시한다. 와이드 FOV 이미지(1302)는 RGBD SIDE 네트워크(1306), RGB SIDE 네트워크(1308) 및 MT-TW-SMNet(1310)의 인풋이며, 텔레 FOV 이미지(1304)는 MT-TW-SMNet(1310)의 인풋이다. RGB SIDE 네트워크(1308)로부터의 시차 추정값은 RGBD SIDE 네트워크(1306)의 인풋이다. RGBD SIDE 네트워크(1306) 및 MT-TW-SMNet(1310)으로부터의 시차 추정의 결과물은 단계(1312)에서 병합되며, 단계(1314)에서 시차 맵이 처리된다.

시차 병합은 아래 수학식 1과 같이, 두 시차 맵들(d₁, d₂)의 중첩 FOV 사이의 바이어스(b)를 추정함으로써, 바이어스 조정에 기반하여 수행될 수 있다.

n은 중첩 FOV의 픽셀 수이다. 시차 맵(d₂)의 주변 시차(surrounding disparity)는 바이어스(b)에 기반하여 조정될 수 있으며, 그 후 시차 맵(d₁)을 이용한 가중치 합 또는 시차 선택이 적용될 수 있다.

시차 병합은 아래 수학식 2와 같이 스케일 조정에 기반하여 수행될 수 있으며, 스케일 차이(s)는 두 시차 맵들(d₁, d₂)의 중첩 FOV 사이에서 추정된다. n은 중첩 FOV의 픽셀 수이다.

시차 맵(d₂)의 주변 시차(surrounding disparity)는 스케일 차이(s)에 기반하여 조정될 수 있으며, 그 후 시차 맵(d₁)을 이용한 가중치 합 또는 시차 선택이 적용될 수 있다.

단계(510)에서, 시차 맵이 선택된다. 시차 병합은 뉴럴 네트워크로부터 학습된 비선형 함수에 의해 달성될 수 있으며, 다층 모래시계 네트워크(stacked hourglass network)로 구현될 수 있다. 도 14는 일 실시예에 따른 시차 병합 및 시차 선택의 다이어그램이다. 도 14에서, SIDE 시차(1402) 및 SMDE 시차(1404)가 시차 병합 네트워크에 의해 병합된다. 네트워크는 기준 참값 시차(ground truth disparity)에 대한 회귀(regression)를 통해 훈련될 수 있다. 네트워크를 훈련시키는 한 가지 방법은 시차들을 각 레벨별로 정량화(quantize)하고 각 레벨에 대한 소프트 확률(soft probability)을 산출하는 분류 인자(classifier)를 학습하게 하는 것이다. 회귀된 아웃풋 병합 시차(1406)는 추정된 확률로 계산된 시차의 기대값이다. 게다가, 아웃풋 병합 시차(output merged disparity)(1406)는 SIDE(1402) 및 SMDE(1404)에 의해 얻은 인풋 시차들의 비선형 함수이다.

중첩 FOV의 시차는 SMDE를 사용함으로써 가장 정확할 수 있다. 따라서, 셀렉터(1408)는 주변 영역에 대한 아웃풋 병합 시차(1406) 또는 중첩 텔레 FOV에 대한 SMDE(1404)로부터의 시차를 선택할 수 있다.

도 15는 일 실시예에 따른 시차 병합 및 시차 선택의 다이어그램이다. 도 15에서 스테레오 매칭(SM)(예: TW-SMNet(T))을 사용하여 중첩 영역에 대한 더 정확한 시차 추정이 이루어질 수 있다. 그러나, 제로 패딩된 와이드 FOV들에 대한 스테레오 매칭은 풀 와이드 FOV에 대해 TW-SMNet(W)를 사용함으로써 중첩 영역 및 주변 영역 모두에 대한 시차 추정값을 생성할 수 있으며, 주변 영역에 대해 보다 정확한 시차 추정값을 생성할 수 있도록 융합 네트워크(fusion network)를 사용하여 병합될 수 있다. 그러나, 복잡성이 허용되는 경우, 중첩 텔레 영역에 대한 정확한 스테레오 매칭으로부터의 시차 추정값을 나타내는 시차 블록에 대한 제3의 인풋을 사용함으로써 중첩 텔레 FOV에 대한 최고의 알고리즘/프로세스를 활용할 수 있다. 예를 들어, SIDE 시차(1502) 및 TW-SMNet(W) 시차(1504)는 병합 시차(1508)로 병합되며, TW-SMNet(T) 시차(1506)와 병합 시차(1508) 사이의 선택(1510)이 수행된다.

와이드 FOV 및 텔레 FOV의 RGB 이미지 특징은 시차 병합 블록의 인풋이 될 수 있다. 에지 맵(edge maps) 또는 시맨틱 분할(semantic segmentation)과 같이 RGB 이미지들로부터 추출된 다른 특징들은 서로 다른 시차 맵들과 함께 인풋 특징으로 연결(concatenate)될 수 있다.

단계(512)에서, 시차 맵들은 퀄리티 향상을 위해 후처리된다. 예를 들어, 시차 맵들은 도 10 내지 도 13의 후처리 블록(post processing blocks)을 통해 사후 처리된다. 후처리 블록은 지각적으로 만족스러운 시차 맵을 제공하는 것을 목적으로 한다. 뉴럴 네트워크에서와 같이 비선형 연산을 이용하여 병합한 후에도, 중첩 FOV와 중첩되지 않는 FOV사이의 경계 주위의 불연속성이 관찰될 수 있다. 후처리는 경계 효과가 드러나지 않도록, 이러한 효과를 부드럽게 하는 것을 목표로 한다. 또한, 후처리는 원하는 어플리케이션에 대한 출력 시차를 조정하는데 사용된다.

중첩 영역의 경계 주변에서의 시차의 급격한 변화를 감소시키기 위한 후처리의 일례는 시차를 평활화(smoothing)하는 것이다. 그러나, 에지는 종종 하나의 물체를 나타내며, 물체를 평활화된 심도 추정값으로 채우는 것이 목표이다. 한 가지 해결책은 에지 보존 평활화(edge preserving smoothing)를 사용하는 것이다. 에지 보존 평활화는 반복적으로 구현될 수 있는 가중 평균으로서의 필터링된 아웃풋을 계산함으로써 구현될 수 있다. 양방향 필터와 같은 로컬 필터가 사용될 수 있다. 한 가지 제한점은 양방향 필터 및 다른 로컬 필터는 시차 맵에서 특정 에지들을 보존할지 또는 평활화지 여부의 모호성을 해결할 수 없다는 것이다. RGB 이미지를 평활화의 지침(guidance)으로 사용하여, RGB 이미지의 에지를 보존한다. 이것은 에지 가이드 필터링(edge guided filtering)으로 지칭될 수 있다. 데이터 제약 조건과 평활화 프라이어(smoothness prior)로 정의되며 FGS(fast global smoother)라고 불리는, 글로벌 목적 함수(global objective functions)의 최적화가 또한 이용될 수 있다. 따라서, 경계 주변의 FGS 필터링된 값은 전체 시차 맵에 의존한다. 일 예로, 경계 주변의 필터링된 값은 FGS를 배치(deploy)함으로써 글로벌 필터를 사용하여 계산된다. 그 후, 병합 시차에서 경계 주위의 스트립(strip)만이 필터링된 것으로 대체되며, 나머지는 기존 병합 값을 배치한다.

상술한 바와 같이, 현재 시스템과 방법은 두 개의 카메라만을 이용한다. 그러나, 두 개 이상의 카메라로 쉽게 확장될 수 있다. 도 16은 일 실시예에 따라 4대의 카메라를 사용한 통합 FOV 및 중첩 FOV의 다이어그램이다. 도 16은 카메라가 수렴되는 구성(verged camera configuration)(1602)을 도시한다. 어두운 영역은 모든 카메라에서 볼 수 있는 공통된 3D 공간인 중첩 FOV(1604)를 나타내며, 점선 영역은 통합 FOV(1606)를 나타낸다.

직접적인 접근법은 각 기준 이미지가 교정되고, 각 기준 이미지는 N-1개의(N은 카메라 개수) 교정된 이미지들과 각각 스테레오 매칭되는 것이다. 딥 러닝 접근법을 사용하여, 카메라들 간의 중첩 FOV(1604)에 대한 매우 정확한 심도 추정값을 얻을 수 있다. 서로에 대한 카메라들의 위치는 고정되어 있으므로, 임의의 한 쌍의 교정된 이미지 간의 시차는 나머지 쌍들 사이의 특정 값으로 변환되어야 하며, 이는 중첩 FOV(1604)에 대해 더 정확한 결과를 얻기 위해 사용될 수 있다. 통합 FOV(1606)의 일부는 두 개의 카메라 사이에서 중첩되지만 모든 카메라에서 중첩되지 않는다. 이 카메라 쌍들 사이의 스테레오 매칭은 이 영역에 대한 정확한 시차 추정값을 얻기 위해 사용될 수 있다. 하나의 카메라에서만 보이는 통합 FOV(1606) 내의 영역들에서 SIDE(single image disparity estimation)가 이용될 것이다. 대안적으로, 통합 FOV(1606)는, 적어도 카메라들 사이에서 중첩되는 통합 FOV(1606) 내의 일부분에 대한 시차 추정값뿐만 아니라, 모든 인풋 이미지들을 이용할 수 있다. 상술된 시차 맵 간의 병합 및 후처리 평활화에 대한 다른 접근법이 이 실시예에도 적용될 수 있다.

도 16에 대응하는 다른 실시예는 3대의 카메라가 사용되는 시스템이다. 제1 카메라는 텔레 FOV, 제2 카메라는 와이드 FOV, 그리고 제3 카메라는 울트라-와이드 FOV를 가질 수 있다. 도 5에 대해 상술된 바와 같이, 통합 FOV 시차 추정값 및 중첩 FOV 시차 추정값은 텔레 FOV의 이미지 및 와이드 FOV의 이미지에 병합될 수 있다. 이 방법은 그 전에 추정된 와이드 FOV의 심도를 사용하여 울트라-와이드 FOV 및 와이드 FOV 간의 스테레오 매칭에 의해 울트라-와이드 FOV에 대한 심도 추정값을 생성하도록 회귀적으로 반복될 수 있다. 이러한 예들에서, 울트라-와이드 FOV는 통합 FOV로 이용될 수 있으며, 와이드 FOV는 중첩 FOV로 이용될 수 있다.

도 17은 일 실시예에 따른 네트워크 환경(1700)의 전자 장치(1701)의 블록 다이어그램이다. 도 17을 참조하면, 네트워크 환경(1700)의 전자 장치(1701)는 제1 네트워크(1798)(예: 단거리 무선 통신 네트워크)를 통해 전자 장치(1702)와 통신할 수 있으며, 제2 네트워크(1799)(예: 장거리 무선 통신 네트워크)를 통해 전자 장치(1704) 또는 서버(1708)와 통신할 수 있다. 전자 장치(1701)는 서버(1708)를 통해 전자 장치(1704)와 통신할 수 있다. 전자 장치(1701)는 프로세서(1720), 메모리(1730), 입력 장치(1750), 사운드 출력 장치(1755), 디스플레이 장치(1760), 오디오 모듈(1770), 센서 모듈(1776), 인터페이스(1777), 햅틱 모듈(1779), 카메라 모듈(1780), 전력 관리 모듈(1788), 배터리(1789), 통신 모듈(1790), SIM(subscriber identification module)(1796) 또는 안테나 모듈(1797)을 포함할 수 있다. 일 실시예에서, 전자 장치(1701)의 적어도 하나의 구성 요소(예: 디스플레이 장치(1760) 또는 카메라 모듈(1780))가 생략될 수 있으며, 또는 하나 이상의 다른 구성 요소가 전자 장치(1701)에 추가될 수 있다. 일 실시예에서, 일부 구성 요소들은 단일 집적 회로(IC)로 구현될 수 있다. 예를 들어, 지문 센서, 홍채 센서 또는 조도 센서 등의 센서 모듈(1776)은 디스플레이 장치(1760)(예: 디스플레이)에 내장될 수 있다.

예를 들어, 프로세서(1720)는 프로세서(1720)와 결합된 전자 장치(1701)의 적어도 하나의 다른 구성 요소(예: 하드웨어 또는 소프트웨어 컴포넌트)를 컨트롤하기 위한 소프트웨어(예: 프로그램(1740))를 실행할 수 있으며, 다양한 데이터 처리 또는 계산을 할 수 있다. 데이터 처리 또는 계산의 적어도 일부로서, 프로세서(1720)는 휘발성 메모리(1732) 내부에 다른 구성 요소(예: 센서 모듈(1776) 또는 통신 모듈(1790))로부터 수신된 명령 또는 데이터를 로딩할 수 있다. 프로세스(1720)는 휘발성 메모리(1732)에 저장된 명령 또는 데이터를 처리할 수 있으며, 결과 데이터를 비휘발성 메모리(1734)에 저장할 수 있다. 프로세서(1720)는 메인 프로세서(1721)(예: CPU(central processing unit) 또는 AP(application processor)) 및 메인 프로세서(1721)와 독립적으로 동작하거나 또는 함께 동작하는 보조 프로세서(1723)(예: GPU(graphics processing unit), ISP(image signal processor), 센서 허브 프로세서 또는 CP(communication processor))를 포함할 수 있다. 부가적으로 또는 대안적으로, 보조 프로세서(1723)는 메인 프로세서(1721)보다 적은 전력을 소비하거나 특정 기능을 수행하도록 구성될 수 있다. 보조 프로세서(1723)는 메인 프로세서(1721)와 별개로 또는 그 일부로서 구현될 수 있다.

보조 프로세서(1723)는 전자 장치(1701)의 구성 요소들 중에서 적어도 하나의 구성 요소(예: 디스플레이 장치(1760), 센서 모듈(1776) 또는 통신 모듈(1790)) 와 연관된 기능들 또는 상태들 중 적어도 일부를 제어할 수 있다. 보조 프로세서(1723)는 상기 기능들 및 상태들을 메인 프로세서(1721)가 비활성 상태인 경우에는 메인 프로세서(1721)를 대신하여 제어하며, 또는 메인 프로세서(1721)가 활성 상태(예를 들어, 어플리케이션을 실행 중인 경우)일 때는 메인 프로세서(1721)와 함께 제어할 수 있다. 일 실시예에서, 보조 프로세서(1723)(예: ISP 또는 CP)는 보조 프로세서(1723)에 기능적으로 연관되는 다른 구성 요소(예: 카메라 모듈(1780) 또는 통신 모듈(1790))의 일부로서 구현될 수 있다.

메모리(1730)는 전자 장치(1701)의 적어도 하나의 구성 요소(예: 프로세서(1720) 또는 센서 모듈(1776))에 사용되는 다양한 데이터를 저장할 수 있다. 다양한 데이터는, 예를 들어, 소프트웨어(예: 프로그램(1740)) 및 그와 관련된 명령에 대한 인풋 데이터 또는 아웃풋 데이터를 포함할 수 있다. 메모리(1730)는 휘발성 메모리(1732) 또는 비휘발성 메모리(1734)를 포함할 수 있다.

프로그램(1740)은 메모리(1730) 내에 소프트웨어로서 저장될 수 있으며, 예를 들어, OS(operating system)(1742), 미들웨어(1744) 또는 어플리케이션(1746)을 포함할 수 있다.

입력 장치(1750)는 외부(예: 사용자)로부터 전자 장치(1701)의 프로세서(1720)와 같은 다른 구성 요소에 사용될 명령 또는 데이터를 수신할 수 있다. 입력 장치(1750)는, 예를 들어, 마이크로폰, 마우스 또는 키보드를 포함할 수 있다.

사운드 출력 장치(1755)는 전자 장치(1701)의 외부로 사운드 신호를 출력할 수 있다. 사운드 출력 장치(1755)는, 예를 들어, 스피커 또는 수신기를 포함할 수 있다. 스피커는 멀티미디어 재생 또는 녹음과 같은 일반적 목적으로 사용될 수 있으며, 수신기는 착신(incoming call)을 수신하는데 사용될 수 있다. 일 실시예에 따르면, 수신기는 스피커와 별개로 또는 스피커의 일부로서 구현될 수 있다.

디스플레이 장치(1760)는 전차 장치(1701)의 외부(예: 사용자)로 정보를 시각적으로 제공할 수 있다. 디스플레이 장치(1760)는, 예를 들어, 디스플레이, 홀로그램 장치 또는 프로젝터를 포함할 수 있다. 디스플레이 장치(1760)는 디스플레이, 홀로그램 장치 및 프로젝터 중 대응하는 것을 제어하기 위한 제어 회로를 포함할 수 있다. 일 실시예에 따르면, 디스플레이 장치(1760)는 터치를 검출하도록 적응된 터치 회로 또는 터치에 의한 힘의 강도를 측정하도록 적응된 센서 회로(예: 압력 센서)를 포함할 수 있다.

오디오 모듈(1770)은 사운드를 전기 신호로 변환하거나 또는 그 반대로 변환할 수 있다. 일 실시예에 따르면, 오디오 모듈(1770)은 입력 장치(1750)를 통해 사운드를 얻을 수 있으며, 사운드 출력 장치(1755) 또는 전자 장치(1701)에 직접적으로(유선) 또는 무선으로 연결된 외부의 전자 장치(1702)의 헤드폰을 통해 사운드를 출력할 수 있다.

센서 모듈(1776)은 전자 장치(1701)의 동작 상태(예: 전원 또는 온도) 또는 전자 장치(1701) 외부의 환경 상태(예: 사용자의 상태)를 검출할 수 있다. 그리고, 센서 모듈(1776)은 검출된 상태에 대응하는 전기 신호 또는 데이터 값을 생성할 수 있다. 센서 모듈(1776)은, 예를 들어, 제스처 센서, 자이로 센서, 대기압 센서, 자기 센서, 가속도 센서, 그립 센서, 근접 센서, 컬러 센서, 적외선(IR) 센서, 생체 인식 센서, 온도 센서, 습도 센서 또는 조도 센서를 포함할 수 있다.

인터페이스(1777)는 전자 장치(1701)가 전자 장치(1702)에 직접적으로(유선) 또는 무선으로 연결되도록 사용되는 하나 이상의 특정 프로토콜을 지원할 수 있다. 일 실시예에서, 인터페이스(1777)는 HDMI(high definition multimedia interface), USB(universal serial bus) 인터페이스, SD(secure digital) 카드 인터페이스 또는 오디오 인터페이스를 포함할 수 있다.

접속 단자(1778)는 전자 장치(1701)가 전자 장치(1702)와 물리적으로 연결될 수 있도록 연결 비아를 포함할 수 있다. 일 실시예에서, 접속 단자(1778)는 HDMI 커넥터, USB 커넥터, SD 카드 커넥터 또는 오디오 커넥터(예: 헤드폰 커넥터)를 포함할 수 있다.

햅틱 모듈(1779)은 전기 신호를 사용자가 촉각 또는 운동 감각으로 인식할 수 있는 기계적 자극(예: 진동 또는 움직임) 또는 전기적 자극으로 변환할 수 있다. 일 실시예에서, 햅틱 모듈(1779)은 모터, 압전 소자 또는 전기 자극기를 포함할 수 있다.

카메라 모듈(1780)은 정지 영상 또는 동영상을 캡쳐할 수 있다. 일 실시예에서, 카메라 모듈(1780)은 하나 이상의 렌즈, 이미지 센서, 이미지 신호 프로세서 또는 플래시를 포함할 수 있다.

전력 관리 모듈(1788)은 전자 장치(1701)에 공급되는 전력을 관리할 수 있다. 전력 관리 모듈(1788)은, 예를 들어, PMIC(power management integrated circuit)의 적어도 일부로서 구현될 수 있다.

배터리(1789)는 전자 장치(1701)의 적어도 하나의 구성 요소에 전력을 공급할 수 있다. 일 실시예에서, 배터리(1789)는, 예를 들어, 충전식이 아닌 일차 전지, 충전식 이차전지 또는 연료 전지를 포함할 수 있다.

통신 모듈(1790)은 전자 장치(1701)와 외부 전자 장치(예: 전자 장치(1702), 전자 장치(1704) 또는 서버(1708)) 사이의 직접(유선) 통신 채널 또는 무선 통신 채널을 설정할 수 있으며, 설정된 통신 채널을 통해 통신을 수행할 수 있다. 통신 모듈(1790)은 프로세서(1720)(예: AP)와 독립적으로 동작할 수 있으며 직접(유선) 통신 또는 무선 통신을 지원하는 하나 이상의 통신 프로세서를 포함할 수 있다. 일 실시예에서, 통신 모듈(1790)은 무선 통신 모듈(1792)(예: 셀룰러 통신 모듈, 근거리 무선 통신 모듈 또는 GNSS(global navigation satellite system) 통신 모듈) 또는 유선 통신 모듈(1794)(예: LAN(local area network) 통신 모듈 또는 PLC(power line communication) 모듈)을 포함할 수 있다. 이들 중에서 대응하는 통신 모듈은 제1 네트워크(1798)(예: 블루투스, Wi-Fi 다이렉트, 또는 IrDA(Infrared Data Association) 표준과 같은 근거리 통신 네트워크) 또는 제2 네트워크(1799)(예: 셀룰러 네트워크, 인터넷, 또는 LAN, WAN등의 컴퓨터 네트워크와 같은 장거리 통신 네트워크)를 통해 외부 전자 장치와 통신할 수 있다. 이 다양한 타입의 통신 모듈은 단일 구성 요소(예: 단일 IC)로 구현되거나 서로 분리된 복수 구성 요소(예: 복수 IC)로 구현될 수 있다. 무선 통신 모듈(1792)은 SIM(1796)에 저장된 가입자 정보(예: IMSI(international mobile subscriber identity))를 사용하여 제1 네트워크(1798) 또는 제2 네트워크(1799)와 같은 통신 네트워크의 전자 장치(1701)를 식별 및 인증할 수 있다.

안테나 모듈(1797)은 전자 장치(1701)의 외부(예: 외부 전자 장치)로부터 또는 외부로 신호 또는 전력을 송신 또는 수신할 수 있다. 일 실시예에서, 안테나 모듈(1797)은 하나 이상의 안테나를 포함할 수 있다. 그 중에서, 제1 네트워크(1798) 또는 제2 네트워크(1799)와 같은 통신 네트워크에 사용되는 통신 방식에 적합한 적어도 하나 이상의 안테나는, 예를 들어, 통신 모듈(1790)(예: 무선 통신 모듈(1792))에 의해 선택될 수 있다. 그 후, 신호 또는 전력은 선택된 적어도 하나의 안테나를 통해 통신 모듈(1790)과 외부 전자 장치 사이에서 송신 또는 수신될 수 있다.

적어도 일부의 상술된 구성 요소들은 서로 연결될 수 있으며, 주변간 통신 (inter-peripheral communication) 방식(예: 버스, GPIO(general purpose input and output), SPI(serial peripheral interface), 또는 MIPI(mobile industry processor interface))을 통해 그 사이에서 신호(예: 명령 또는 데이터)를 통신할 수 있다.

일 실시예에서, 명령 또는 데이터는 제2 네트워크(1799)와 결합된 서버(1708)를 통해 전자 장치(1701) 및 외부 전자 장치(1704) 사이에서 송신 또는 수신될 수 있다. 각 전자 장치(1702) 및 전자 장치(1704)는 전자 장치(1701)와 동일하거나 다른 형태의 장치일 수 있다. 전자 장치(1701)에서 실행될 전부 또는 일부의 동작들은 외부의 전자 장치(1702) 및 전자 장치(1704) 어느 하나 또는 그 이상에서 수행될 수 있다. 예를 들어, 전자 장치(1701)는 자동적으로 또는 사용자나 다른 장치의 요청에 응답하여 기능 또는 서비스를 수행해야 한다. 기능 또는 서비스를 대신 수행하거나 추가로 수행하는 전자 장치(1701)는 하나 이상의 외부 전자 장치에 기능 또는 서비스의 적어도 일부를 수행하도록 요청할 수 있다. 요청을 수신하는 하나 이상의 외부 전자 장치들은 요청된 기능 또는 서비스의 적어도 일부, 또는 요청과 관련된 부가적인 기능 혹은 부가적인 서비스를 수행할 수 있으며, 수행 결과를 전자 장치(1701)로 전송할 수 있다. 전자 장치(1701)는 요청에 대항 응답의 적어도 일부로서, 결과에 대한 부가적인 처리 또는 처리 없이 결과를 제공할 수 있다. 이를 위해, 예를 들어 클라우드 컴퓨팅, 분산 컴퓨팅 또는 클라이언트-서버 컴퓨팅 기술이 사용될 수 있다.

일 실시예는, 기계(예: 전자 장치(1701))에 의해 판독 가능한 저장 매체(예: 내부 메모리(1736) 또는 외부 메모리(1738))에 저장된 하나 이상의 명령어를 포함하는 소프트웨어(예: 프로그램(1740))로서 구현될 수 있다. 예를 들어, 전자 장치(1701)의 프로세서는 저장 매체에 저장된 하나 이상의 명령어들 중에서 적어도 하나를 호출할 수 있으며, 프로세서의 제어 하에 하나 이상의 다른 구성 요소를 사용하거나, 또는 사용하지 않고 수행할 수 있다. 따라서, 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 기계가 동작될 수 있다. 하나 이상의 명령어는 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행 가능한 코드를 포함할 수 있다. 기계 판독 가능한 저장 매체는 비일시적 저장 매체의 형태로 제공될 수 있다. "비일시적"이라는 용어는 저장 매체가 유형(有形)의 장치(tangible device)라는 것을 나타내며, 신호(예: 전자파)를 포함하지 않는다. 그러나, 이 용어는 데이터가 저장 매체에 반영구적으로 저장되는 장소와 데이터가 저장 매체에 일시적으로 저장되는 장소를 구별하는 것은 아니다.

일 실시예에 따르면, 본 개시의 방법은 컴퓨터 프로그램 제품에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 판매자와 구매자 사이에서 제품으로 거래될 수 있다. 컴퓨터 프로그램 제품은 기계 판독 가능한 저장 매체(예: CD-ROM)의 형태로 배포되거나, 어플리케이션 스토어(예: Play StoreTM)를 통해 온라인으로 배포(예: 다운로드 또는 업로드)되거나 또는 두 사용자의 장치(예: 스마트폰) 사이에서 직접적으로 배포될 수 있다. 온라인으로 배포되는 경우, 컴퓨터 프로그램 제품의 적어도 일부는 제조사 서버의 메모리, 어플리케이션 스토어의 서버 또는 중계 서버와 같은 기계 판독 가능한 저장 매체에 적어도 일시적으로 저장되거나 일시적으로 생성될 수 있다.

일 실시예에 따르면, 상술된 구성 요소들 중에서 각 구성 요소(예: 모듈 또는 프로그램)는 단일 엔티티 또는 복수 엔티티를 포함할 수 있다. 하나 이상의 상술된 구성 요소들은 생략될 수 있으며, 하나 이상의 다른 구성 요소들이 추가될 수 있다. 대안적으로 또는 부가적으로, 복수의 구성 요소(예: 모듈 또는 프로그램)들은 하나의 구성 요소로 통합될 수 있다. 이 경우, 통합된 구성 요소는 통합 이전에 복수의 구성 요소들 중 대응하는 구성 요소에 의해 수행되는 것과 동일하거나 비슷한 방식으로, 복수의 구성 요소들 각각의 하나 이상의 기능을 여전히 수행할 수 있다. 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작은 순차적으로, 병렬적으로, 반복적으로 또는 경험적으로 수행될 수 있다 또는, 하나 이상의 동작들이 서로 다른 순서로 실행되거나 생략되고, 혹은 하나 이상의 다른 동작들이 추가될 수 있다.

본 개시의 특정 실시예가 본 명세서에 설명되었으나, 본 개시는 본 개시의 범위를 벗어나지 않고 다양한 형태로 변형될 수 있다. 따라서, 본 개시의 범위는 기술된 실시예에 기초하여 결정되어서는 안되며, 오히려 첨부된 청구항 및 그 등가물에 기초하여 결정된다.

Claims

제1 FOV(field of view)를 갖는 제1 카메라;
상기 제1 FOV 보다 좁은 제2 FOV를 갖는 제2 카메라; 및
프로세서를 포함하며, 상기 프로세서는
상기 제1 카메라로 통합 FOV를 갖는 제1 이미지를 캡쳐하고,
상기 제2 카메라로 제2 이미지를 캡쳐하고,
상기 제1 이미지와 상기 제2 이미지 사이의 중첩 FOV를 결정하고,
상기 중첩 FOV에 기반한 중첩 FOV 시차 추정값을 생성하고,
상기 제1 이미지에서의 상기 중첩 FOV의 해상도로 스케일 조정된 상기 제2 이미지를 기반으로 통합 FOV 시차 추정값을 생성하고,
상기 통합 FOV 시차 추정값을 상기 중첩 FOV 시차 추정값에 병합하도록 구성되는 전자 장치.
제1항에 있어서,
상기 중첩 FOV 시차 추정값은 상기 중첩 FOV을 이용한 스테레오 매칭 네트워크 시차 추정을 사용하여 생성되는 전자 장치.
제1항에 있어서,
상기 프로세서는 상기 제1 이미지로부터 상기 결정된 중첩 FOV를 절단하고, 상기 제2 이미지의 상기 중첩 FOV를 상기 제1 이미지에 대응하는 해상도로 스케일링하도록 추가로 구성되는 전자 장치.
제3항에 있어서,
상기 프로세서는 상기 중첩 FOV 시차 추정값을 이용하여 상기 통합 FOV 시차 추정값을 개선하도록 추가로 구성되는 전자 장치.
제1항에 있어서,
상기 통합 FOV 시차 추정값은 상기 제1 이미지만의 제1 FOV에 대한 심도 추정 및 상기 제1 카메라의 카메라 베이스 라인과 초점 거리에 기초한 정보에 기반하여 생성되는 전자 장치.
제1항에 있어서,
상기 프로세서는 상기 두 시차 추정값들의 상기 중첩 FOV들의 바이어스 및 스케일 조정에 기반하여, 상기 통합 FOV 시차 추정값을 상기 중첩 FOV 시차 추정값에 병합하도록 구성되는 전자 장치.
제1항에 있어서,
상기 통합 FOV 시차 추정값은 RGB(red-green-blue) SIDE(single image depth estimation) 네트워크의 시차 추정값에 기반하여 생성되는 전자 장치.
제1항에 있어서,
상기 통합 FOV 시차 추정값은 제로 패딩된 중첩 FOV 및 상기 통합 FOV 사이에서 SMDE(stereo matching disparity estimation) 네트워크로부터 더 생성되는 전자 장치.
제1항에 있어서,
상기 통합 FOV 시차 추정값은 제로 패딩된 중첩 FOV 및 상기 통합 FOV 사이에서 MT-SMDE(multi-task stereo matching disparity and single-image depth estimation) 네트워크로부터 더 생성되는 전자 장치.
제1항에 있어서,
상기 제1 FOV보다 넓은 제3 FOV를 갖는 제3 카메라를 더 포함하며,
상기 프로세서는 제3 카메라로 제3 FOV를 갖는 제3 이미지를 캡쳐하며, 상기 제1 이미지의 상기 통합 FOV에 대한 심도 추정에 기반하여 상기 제3 이미지의 심도 추정을 생성하도록 추가로 구성되는 전자 장치.
제1 FOV를 갖는 제1 카메라로 통합 FOV를 갖는 제1 이미지를 캡쳐하며,
상기 제1 FOV보다 좁은 제2 FOV를 갖는 제2 카메라로 제2 이미지를 캡쳐하며,
상기 제1 이미지와 상기 제2 이미지 사이의 중첩 FOV를 결정하며,
상기 중첩 FOV에 기반하여 중첩 FOV 시차 추정값을 생성하고,
상기 제1 이미지에서의 상기 중첩 FOV의 해상도로 스케일 조정된 상기 제2 이미지를 기반으로 통합 FOV 시차 추정값을 생성하며,
상기 통합 FOV 시차 추정값을 상기 중첩 FOV 시차 추정값에 병합하는 것을 포함하는 시차 추정 방법.
제11항에 있어서,
상기 중첩 FOV 시차 추정값은 상기 중첩 FOV을 이용한 스테레오 매칭 네트워크 시차 추정을 사용하여 생성되는 시차 추정 방법.
제11항에 있어서,
상기 제1 이미지로부터 상기 결정된 중첩 FOV를 절단하고, 상기 제2 이미지의 상기 중첩 FOV를 상기 제1 이미지에 대응하는 해상도로 스케일링하는 것을 더 포함하는 시차 추정 방법.
제13항에 있어서,
상기 중첩 FOV 시차 추정값을 이용하여 상기 통합 FOV 시차 추정값을 개선하는 것을 더 포함하는 시차 추정 방법.
제11항에 있어서,
상기 통합 FOV 시차 추정값은 상기 제1 이미지만의 제1 FOV에 대한 심도 추정 및 상기 제1 카메라의 카메라 베이스 라인과 초점 거리에 기초한 정보에 기반하여 생성되는 시차 추정 방법.
제11항에 있어서,
상기 통합 FOV 시차 추정값을 상기 중첩 FOV 시차 추정값에 병합하는 것은 상기 두 시차 추정값들의 상기 중첩 FOV들의 바이어스 및 스케일 조정에 기반하여 수행되는 시차 추정 방법.
제11항에 있어서,
상기 통합 FOV 시차 추정값은 RGB SIDE 네트워크의 시차 추정값에 기반하여 생성되는 시차 추정 방법.
제11항에 있어서,
상기 통합 FOV 시차 추정값은 제로 패딩된 중첩 FOV 및 상기 통합 FOV 사이에서 SMDE 네트워크로부터 더 생성되는 시차 추정 방법.
제11항에 있어서,
상기 통합 FOV 시차 추정값은 제로 패딩된 중첩 FOV 및 상기 통합 FOV 사이에서 MT-SMDE 네트워크로부터 더 생성되는 시차 추정 방법.
제11항에 있어서,
상기 제1 FOV보다 넓은 제3 FOV를 갖는 제3 카메라로 제3 이미지를 캡쳐하며,
상기 제1 이미지의 상기 통합 FOV에 대한 심도 추정에 기반하여 상기 제3 이미지의 심도 추정을 생성하는 시차 추정 방법.