KR102295809B1

KR102295809B1 - 이동체의 전방향에 대한 거리 취득 장치 및 방법

Info

Publication number: KR102295809B1
Application number: KR1020190134052A
Authority: KR
Inventors: 임종우
Original assignee: 주식회사 멀티플아이
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2021-09-01
Also published as: KR20210049581A; US20210124367A1; US11307595B2

Abstract

이동체용 비전 장치가 개시된다. 본 이동체용 비전 장치는 상호 이격 배치되며, 이동체의 이동 방향에 대한 사선 방향으로 배치되는 복수의 카메라, 및 복수의 카메라 각각에서 촬상된 이미지를 수신하고, 수신된 복수의 이미지를 스테레오 정합하여 이동체 전방향에 대한 거리 정보를 생성하는 프로세서를 포함한다.

Description

이동체의 전방향에 대한 거리 취득 장치 및 방법{APPARATUS FOR ACQUISITION DISTANCE FOR ALL DIRECTIONS OF VEHICLE}

본 개시는 이동체의 전방향에 대한 거리 취득 장치 및 방법에 관한 것으로, 구체적으로, 이동체 코너 면에 위치하는 4개의 촬상 장치에서 촬상된 이미지를 이용하여 이동체의 전방향에 대한 거리 정보를 취득할 수 있는 거리 취득 장치 및 방법에 관한 것이다.

최근 자율 주행 등이 부각되면서, 차량 주변의 환경 정보를 확인할 수 있는 다양한 기술들이 이용되고 있다. 그 중에서도 가장 중요한 정보는 주변에 위치하는 객체와의 거리를 확인하는 것이다.

이를 위하여, 종래에는 LiDAR, RADAR 센서를 이용하거나, 일반 스테레오 카메라를 이용하였다. 그러나 LiDAR, RADAR 센서를 이용하는 방식은, 가격, 소모 전력량 등이 일반 카메라에 비하여 매우 놓고, 레이저를 쏘아 거리를 측정하므로 센서 간에 간섭이 있을 수 있다. 또한, 기계가 회전하면서 동작하므로 기계적으로 불안정하며 측정 해상도도 카메라에 비해 낮은 문제점이 있다.

그리고 일반적인 스테레오 카메라 방식은 차량의 전방향의 거리를 추정하기 위해서는 너무 많은 카메라(예를 들어, 12대)가 필요하고, 각 쌍으로부터 거리 추정을 할 때 쌍 사이에 인접 영역에 대한 정보 전파가 어렵고 경계면에서 비연속성 문제가 있었다.

따라서 본 개시는 상술한 바와 같은 문제점을 해결하기 위한 고안된 것으로, 이동체 코너 면에 위치하는 4개의 촬상 장치에서 촬상된 이미지를 이용하여 이동체의 전방향에 대한 거리 정보를 취득할 수 있는 거리 취득 장치 및 방법을 제공하는 데 있다.

따라서 본 개시는 상술한 바와 같은 문제점을 해결하기 위한 고안된 것으로, 본 개시의 일 실시 예에 따른 이동체용 비전 장치는 상호 이격 배치되며, 상기 이동체의 이동 방향에 대한 사선 방향으로 배치되는 복수의 카메라, 및 상기 복수의 카메라 각각에서 촬상된 이미지를 수신하고, 수신된 복수의 이미지를 스테레오 정합하여 상기 이동체 전방향에 대한 거리 정보를 생성하는 프로세서를 포함한다.

이 경우, 상기 복수의 카메라는 200도 이상의 화각을 갖는 4개의 카메라일 수 있다.

이 경우, 상기 이동체는 차량이고, 상기 4개의 카메라는 상기 차량의 루프의 각 코너 영역에 상기 이동체의 이동 방향에 대한 사선 방향으로 배치될 수 있다.

한편, 상기 프로세서는, 상기 수신된 복수의 이미지 각각을 가상의 3차원 도형에 투영하고, 투영된 영상을 이용하여 스테레오 정합을 수행할 수 있다.

이 경우, 본 비전 장치는 상기 복수의 카메라 각각에 대한 자세 정보를 저장하는 메모리를 더 포함하고, 상기 프로세서는, 상기 저장된 자세 정보를 이용하여 상기 복수의 이미지 각각을 상기 가상의 3차원 도형에 투영할 수 있다.

이 경우, 상기 프로세서는 기설정된 주기 단위로 상기 복수의 카메라 각각의 자세 정보를 산출하여, 상기 저장된 자세 정보를 업데이트할 수 있다.

한편, 상기 가상의 3차원 도형은, 구형, 정육면체, 직육면체 또는 원기둥 중 하나일 수 있다.

한편, 상기 프로세서는 상기 수신된 복수의 이미지 각각에 대한 특징 맵을 생성하고, 생성된 복수의 특징 맵 각각을 가상의 3차원 도형에 투영할 수 있다.

이 경우, 상기 프로세서는 상기 3차원 도형에 투영된 복수의 특징 맵을 병합하여 상기 이동체 전방향에 대한 공간 지도를 생성하고, 상기 생성된 공간 지도를 이용하여 상기 이동체 전방향에 대한 거리 지도(Depth map)을 생성할 수 있다.

한편, 상기 프로세서는 상기 거리 정보에 기초하여 상기 이동체의 6 자유도 자세를 산출할 수 있다.

한편, 상기 프로세서는 상기 복수의 카메라 간에 화각이 겹치는 영역은 평면 모델에 투영하고, 화각이 겹치지 않는 영역은 원통 모델에 투영하여 상기 수신된 이미지에 대한 이미지 처리를 수행할 수 있다.

한편, 본 개시의 일 실시 예에 따른 거리 정보를 생성하는 방법은 상호 이격 배치되며, 이동체의 이동 방향에 대한 사선 방향으로 배치되는 복수의 카메라 각각으로부터 이미지를 수신하는 단계, 및 수신된 복수의 이미지를 스테레오 정합하여 상기 이동체 전방향에 대한 거리 정보를 생성하는 단계를 포함한다.

이 경우, 상기 거리 정보를 생성하는 단계는 상기 수신된 복수의 이미지 각각을 가상의 3차원 도형에 투영하는 단계, 및 투영된 영상을 이용하여 스테레오 정합을 수행하는 단계를 포함할 수 있다.

이 경우, 상기 투영하는 단계는 상기 복수의 카메라 각각에 대한 기저장된 자세 정보를 이용하여 상기 복수의 이미지 각각을 상기 가상의 3차원 도형에 투영할 수 있다.

한편, 상기 거리 정보를 생성하는 단계는 상기 수신된 복수의 이미지 각각에 대한 특징 맵을 생성하는 단계를 더 포함하고, 상기 투영하는 단계는, 생성된 복수의 특징 맵 각각을 가상의 3차원 도형에 투영할 수 있다.

이 경우, 상기 스테레오 정합을 수행하는 단계는 상기 3차원 도형에 투영된 복수의 특징 맵을 병합하여 상기 이동체 전방향에 대한 공간 지도를 생성하는 단계, 및 하고, 상기 생성된 공간 지도를 이용하여 상기 이동체 전방향에 대한 거리 지도(Depth map)을 생성하는 단계를 포함할 수 있다.

한편, 본 방법은 상기 거리 정보에 기초하여 상기 이동체의 6 자유도 자세를 산출하는 단계를 더 포함할 수 있다.

한편, 본 방법은 상기 복수의 카메라 간에 화각이 겹치는 영역은 평면 모델에 투영하고, 화각이 겹치지 않는 영역은 원통 모델에 투영하여 상기 수신된 이미지에 대한 이미지 처리를 단계를 더 포함할 수 있다.

본 개시는 이상과 같은 목적을 달성하기 위한 것으로, 본 개시에 따른 비전 장치 및 방법은 4대의 카메라만을 이용하여 이동체의 전방향에 대한 거리 정보 생성이 가능하다. 그리고 비전 장치 및 방법은 다중 광각 영상의 왜곡을 카메라 간의 기하학적 관계와 렌즈 왜곡 파라미터를 동시에 이용하여 보정하는바, 카메라 간의 영상 대응 쌍을 효과적으로 추정할 수 있다. 또한, 비전 장치 및 방법은 카메라의 촬상 방향에 대한 오차를 실시간으로 보상할 수 있어, 성능 저하를 방지할 수 있다.

도 1은 본 개시의 일 실시 예에 따른 비전 장치의 간단한 구성을 나타낸 블럭도,
도 2는 본 개시의 일 실시 예에 따른 비전 장치의 구체적인 구성을 나타낸 블럭도,
도 3은 본 개시의 복수의 카메라가 차량에 배치된 경우의 예를 도시한 도면,
도 4는 본 개시의 복수의 카메라의 촬상 범위를 설명하기 위한 도면,
도 5는 본 개시의 일 실시 예에 따라 캘리브레이션 방법을 설명하기 위한 도면,
도 6은 본 개시의 일 실시 예에 따라 스테레오 매핑 방법을 설명하기 위한 도면,
도 7은 본 개시의 일 실시 예에 따라 인공지능 신경망을 이용한 거리 추정 방법을 설명하기 위한 도면,
도 8 은 본 개시의 일 실시 예에 따라 어안 영상 투영 모델을 설명하기 위한 도면,
도 9는 본 개시의 일 실시 예에 따른 어안 영상 투영 모델을 이용한 경우의 스테레오 영상의 예를 도시한 도면,
도 10은 본 개시의 일 실시 예에 따른 자세 추정 알고리즘을 설명하기 위한 도면, 그리고,
도 11은 본 개시의 일 실시 예에 따른 거리 정보를 생성하는 방법을 설명하기 위한 흐름도이다.

이하에서는 첨부 도면을 참조하여 본 개시에 대해서 자세하게 설명한다. 본 명세서에서 언급되는 전송 또는 전달이라 함은, 데이터나 정보 또는 신호의 전송 등을 의미할 수 있으며, 필요에 따라서 암호화/복호화가 적용될 수 있다.

또한, 본 명세서에서 "A로부터 B로 전송(전달)" 또는 "A가 B로부터 수신"과 같은 형태의 표현은 중간에 다른 매개체가 포함되어 전송(전달) 또는 수신되는 것도 포함하며, 반드시 A로부터 B까지 직접 전송(전달) 또는 수신되는 것만을 표현하는 것은 아니다. 또한, 본 명세서에서 도시 및 언급되는 각 장치들은 서로 독립적인 장치로 구현될 수도 있지만, 반드시 이에 한정되는 것은 아니며 하나의 장치 안에 포함되는 여러 부품들로 구현될 수도 있다.

본 개시의 설명에 있어서 각 단계의 순서는 선행 단계가 논리적 및 시간적으로 반드시 후행 단계에 앞서서 수행되어야 하는 경우가 아니라면 각 단계의 순서는 비제한적으로 이해되어야 한다. 즉, 위와 같은 예외적인 경우를 제외하고는 후행 단계로 설명된 과정이 선행단계로 설명된 과정보다 앞서서 수행되더라도 개시의 본질에는 영향이 없으며 권리범위 역시 단계의 순서에 관계없이 정의되어야 한다.

그리고 본 명세서에서 "A 또는 B"라고 기재한 것은 A와 B 중 어느 하나를 선택적으로 가리키는 것뿐만 아니라 A와 B 모두를 포함하는 것도 의미하는 것으로 정의된다. 또한, 본 명세서에서 "포함"이라는 용어는 포함하는 것으로 나열된 요소 이외에 추가로 다른 구성요소를 더 포함하는 것도 포괄하는 의미를 가진다.

본 명세서에서는 본 개시의 설명에 필요한 필수적인 구성요소만을 설명하며, 본 개시의 본질과 관계가 없는 구성요소는 언급하지 아니한다. 그리고 언급되는 구성요소만을 포함하는 배타적인 의미로 해석되어서는 아니되며 다른 구성요소도 포함할 수 있는 비배타적인 의미로 해석되어야 한다.

후술하는 본 새시의 각 단계의 수학적 연산 및 산출은 해당 연산 또는 산출을 하기 위해 공지되어 있는 코딩 방법 및/또는 본 발명에 적합하게 고안된 코딩에 의해서 컴퓨터 연산으로 구현될 수 있다.

이하에서는 첨부된 도면을 이용하여 본 개시의 다양한 실시 예들에 대하여 구체적으로 설명한다.

도 1은 본 개시의 일 실시 예에 따른 비전 장치의 간단한 구성을 나타낸 블럭도이다.

도 1을 참조하면, 비전 장치(100)는 복수의 카메라(110) 및 프로세서(120)를 포함할 수 있다. 여기서 비전 장치(100)는 이동체 주변 환경을 감지하는 비전 기반의 장치로, 이동체의 전방향에 대한 거리 정보를 갖는 거리 지도(Depth map)를 생성할 수 있다. 또한, 비전 장치(100)는 이동체의 주행 시스템과 결합되어 주행 보조 시스템, 어라운드 뷰 장치, 자율 주행 시스템 등일 수도 있다.

여기서 이동체는 승용차 등과 같은 자동차나, 드론 등의 이동 물체일 수 있다.

복수의 카메라(110)는 이동체의 이동 방향에 대한 사선 방향으로 배치될 수 있다. 이러한 카메라는 4대로 구성될 수 있으며, 각 카메라는 시야각이 200도 이상인 어안 렌즈 카메라일 수 있다. 여기서 사선 방향은 이동 방향(예를 들어, 전면)에 대해서 좌측으로 대략 45도(또는 -45도, 225도, -225도) 사선 방향일 수 있다. 상술한 수치는 예시에 불가하며, 카메라의 개수 및 각 카메라의 화각에 따라 다양한 값이 이용될 수 있다.

이와 같이 카메라 각각은 넓은 시야각을 갖는바, 4대의 카메라를 이용하여 이동체의 전방향(전방, 양 측면, 후면)에 대한 이미지 생성이 가능하다. 또한, 각 방향에 대해서 두 대의 카메라가 동일한 영역을 오버랩하여 촬상하는바, 거리 추정이 가능하다. 복수의 카메라의 구체적인 배치 구조 및 그에 따른 효과에 대해서는 도 3 및 도 4를 참조하여 후술한다.

프로세서(120)는 비전 장치(100) 내의 각 구성을 제어한다. 예를 들어, 프로세서(120)는 후술하는 메모리(140)에 저장된 적어도 하나의 인스트럭션을 실행함으로써 비전 장치(100)의 동작을 전반적으로 제어할 수 있다. 이러한 프로세서(120)는 하나의 CPU로 구성될 수 있으며, CPU, GPU, ASIC 등 다양한 장치의 조합으로 구현될 수 있다.

프로세서(120)는 복수의 카메라(110) 각각에서 촬상된 이미지를 수신할 수 있다. 예를 들어, 복수의 카메라(110)에서 출력되는 영상은 직접 프로세서(120)에 전달될 수도 있으며, 별도의 장치(예를 들어, 중계기 등)를 통하여 전달될 수도 있다. 한편, 구현시에 각 영상은 유선 통신 방식뿐만 아니라, 무선 통신 방식으로도 프로세서(120)에 전달될 수도 있다.

그리고 프로세서(120)는 수신된 이미지에 대한 이미지 처리를 수행할 수 있다. 예를 들어, 본 개시에서 사용하는 카메라는 어안 렌즈 카메라이며, 어안 렌즈 카메라는 일반적인 카메라와 다른 왜곡 특성을 갖는다. 이러한 점에서, 후술하는 대응 쌍 추정 등을 더욱 빠르게 수행할 수 있도록, 프로세서(120)는 수신된 이미지에 대해서 어안 렌즈 특유의 왜곡을 보상하는 이미지 처리를 우선적으로 수행할 수 있다.

예를 들어, 프로세서(120)는 복수의 카메라 간에 화각이 겹치는 영역은 평면 모델에 투영하고, 화각이 겹치지 않는 영역은 원통 모델에 투영하여 수신된 이미지에 대한 이미지 처리를 수행할 수 있다.

이때, 프로세서(120)는 평면 모델과 원통 모델을 부드럽게 이어지는 하이브리드 투명 모델을 이용하여 원통 모델에 투영된 이미지와 평면 모델에 투영된 이미지를 결합할 수 있다.

그리고 프로세서(120)는 수신된 복수의 이미지를 스테레오 정합하여 이동체 전방향에 대한 거리 정보를 생성할 수 있다.

이때, 프로세서(120)는 선행적으로 입력된 복수의 이미지(또는 이미지 처리된 이미지)에서 특징 맵을 생성할 수 있다. 예를 들어, 프로세서(120)는 합성 뉴럴 네트워크에 이미지를 입력하여, 복수의 특징 맵을 추출할 수 있다. 특징 맵을 이용하는 경우, 스테레오 매핑 과정에서의 연산량을 줄일 수 있는 효과가 있다.

그리고 프로세서(120)는 복수의 이미지(또는 복수의 특징 맵)를 가상의 3차원 도형에 투영할 수 있다. 예를 들어, 프로세서(120)는 복수의 카메라(110) 각각에 대한 자세 정보를 이용하여 복수의 이미지 각각을 가상의 3차원 도형에 투영할 수 있다.

여기서 자세 정보는 해당 카메라의 촬상 방향에 대한 정보이다. 이러한 자세 정보를 생성하는 구체적인 방법은 도 5를 참조하여 후술한다. 그리고 3차원 도형은 구형, 정육면체, 직육면체 또는 원기둥 중 하나일 수 있다. 구형에 이미지를 투영하는 동작 예에 대해서는 도 6을 참조하여 후술한다.

그리고 프로세서(120)는 3차원 도형에 투영된 복수의 이미지 각각을 병합하여 이동체 전방향에 대한 공간 지도를 생성할 수 있다. 예를 들어, 3차원 도형에 투영된 특징 맵 각각을 병합하여 3차원 전방향 영역에 대한 물리적인 공간 정보를 포함하도록 변환할 수 있다. 또는 복수의 이미지를 구형 스윕 알고리즘(spherical sweep algorithm)을 이용하여 비용 맵(Cost map)을 산출할 수 있다.

그리고 프로세서(120)는 생성된 공간 지도(또는 비용 맵)를 이용하여 이동체 전방향에 대한 거리 지도(Depth map)를 생성할 수 있다. 예를 들어, 프로세서(120)는 ( , , n)-wise 3D convolution와 공간 지도를 이용하여 이동체의 전방향에 대한 거리 지도를 생성할 수 있다.

그리고 프로세서(120)는 이동체의 자세를 산출할 수 있다. 구체적인 자세 산출 동작은 도 10을 참조하여 후술한다.

또한, 프로세서(120)는 생성된 거리 지도를 이용하여 사용자에게 필요한 알람을 주거나, 주행 경로를 변경하는 등의 작업을 수행할 수도 있다.

한편, 이상에서는 비전 장치를 구성하는 간단한 구성에 대해서만 도시하고 설명하였지만, 구현시에는 다양한 구성이 추가로 구비될 수 있다. 이에 대해서는 도 2를 참조하여 이하에서 설명한다.

도 2는 본 개시의 일 실시 예에 따른 비전 장치의 구체적인 구성을 나타낸 블럭도이다.

도 2를 참조하면, 비전 장치(100)는 복수의 카메라(110), 프로세서(120), 통신 장치(130), 메모리(140) 및 디스플레이(150)를 포함할 수 있다.

복수의 카메라(110)에 대해서는 도 1과 관련하여 설명하였는바, 중복 설명은 생략한다. 그리고 프로세서(120)에 대해서도 도 1과 관련하여 설명하였는바, 도 1에서 설명한 내용은 중복 기재하지 않고, 도 2에 추가된 구성과 관련된 내용만 이하에서 설명한다.

통신 장치(130)는 비전 장치(100) 내부의 각 구성을 연결할 수 있다. 예를 들어, 통신 장치(130)는 복수의 카메라 각각과 유선 또는 무선 방식으로 연결될 수 있으며, 각 카메라로부터 이미지(또는 영상)를 수신하고, 수신된 이미지를 프로세서(120)에 제공할 수 있다.

그리고 통신 장치(130)는 외부 장치와 연결하기 위해 형성되고, 근거리 통신망(LAN: Local Area Network) 및 인터넷망을 통해 비전 장치(100)에 접속되는 형태뿐만 아니라 USB(Universal Serial Bus) 포트, 무선 통신망을 통하여 접속되는 형태도 가능하다.

예를 들어, 통신 장치(130)는 GPS 위성, 기지국, 지도 서버 등에 연결될 수 있으며, GPS 위성이 발신하는 GPS 신호를 수신하여 프로세서(120)에 제공할 수 있다.

그리고 통신 장치(130)는 생성한 거리 정보(구체적으로, 거리 지도)를 외부 장치(예를 들어, 이동체)에 제공할 수 있다.

메모리(140)는 비전 장치(100)에 관한 적어도 하나의 인스트럭션(instruction)이 저장될 수 있다. 예를 들어, 메모리(140)에는 본 개시의 다양한 실시 예에 따라 비전 장치(100)가 동작하기 위한 각종 프로그램(또는 소프트웨어)이 저장될 수 있다.

그리고 메모리(140)는 복수의 카메라에서 촬상된 이미지를 저장할 수 있으며, 이미지 처리된 이미지를 저장할 수도 있다. 또한, 메모리(140)는 프로세서(120)에서 생성한 이동체의 전 방향에 대한 거리 정보 즉, 거리 지도를 저장할 수 있다.

그리고 메모리(140)는 복수의 카메라 각각에 대한 자세 정보를 저장할 수 있다. 또한, 메모리(140)는 산출된 이동체의 자세 정보를 저장할 수 있다.

디스플레이(150)는 비전 장치(100)에서 제공되는 각종 정보를 표시할 수 있다. 이러한 디스플레이(250)는 LCD(Liquid Crystal Display), CRT(Cathode Ray Tube), OLED(Organic Light Emitting Diodes) 등과 같은 모니터일 수 있다.

이러한 디스플레이(150)는 이동체의 전방향에 대한 거리 정보를 표시하거나, 이동체의 전방향에 대한 이미지(어라운드뷰)를 표시할 수 있다. 또한, 디스플레이(150)는 이동체 주변에 특정 물체와의 거리가 급격히 가까워져 알람이 필요한 경우, 알람을 표시하는 등의 동작을 수행할 수도 잇다.

프로세서(120)는 메모리(140)에 저장된 자세 정보를 이용하여 스테레오 매핑을 수행할 때, 저장된 자세 정보를 이용하여 구면에 투영할 수 있다. 그리고 프로세서(120)는 주기적으로 각 카메라의 자세 정보를 산출하고, 산출된 자세 정보를 기초로 기저장된 자세 정보를 업데이트할 수 있다.

그리고 프로세서(120)는 생성된 거리 정보(즉, 거리 맵) 등의 정보를 메모리(140)에 저장할 수 있다.

이상과 같이 본 개시의 일 실시 예에 따른 비전 장치는 4대의 카메라만을 이용하여 이동체의 전방향에 대한 거리 정보 생성이 가능하다. 그리고 비전 장치는 다중 광각 영상의 왜곡을 카메라 간의 기하학적 관계와 렌즈 왜곡 파라미터를 동시에 이용하여 보정하는바, 카메라 간의 영상 대응 쌍을 효과적으로 추정할 수 있다. 또한, 비전 장치는 카메라의 촬상 방향에 대한 오차를 실시간으로 보상할 수 있어, 성능 저하를 방지할 수 있다.

한편, 도 1 및 도 2를 도시하고 설명함에 있어서, 본 비전 장치(100)가 이동체와 구분된 장치인 것으로 도시하고 설명하였지만, 구현시에 비전 장치(100)는 이동체의 일 구성이거나, 자율 주행 시스템 내의 일부 구성일 수 있다.

도 3은 본 개시의 복수의 카메라가 차량에 배치된 경우의 예를 도시한 도면이고, 도 4는 본 개시의 복수의 카메라의 촬상 범위를 설명하기 위한 도면이다.

도 3 및 도 4를 참조하면, 복수의 카메라(110)는 4대의 카메라를 포함한다. 이러한 복수의 카메라는 차량의 루프의 각 코너에 배치될 수 있다.

예를 들어, 제1 카메라(110-1)는 차량 루프의 전면 영역 중 우측에 배치되어, 전면 및 우측(즉, 사선 방향)을 촬상방향으로 차량의 전면 및 우측을 촬상할 수 있다.

그리고 제2 카메라(110-2)는 차량 루프의 전면 영역 중 좌측에 배치될 수 있다. 이러한 제2 카메라(110-2)는 전면 및 좌측을 촬상방향으로 하여 차량의 전면 및 좌측 방향을 촬상할 수 있다.

이와 같이 차량의 전면 방향에 대해서 제1 카메라(110-1) 및 제2 카메라(110-2)가 상호 오버랩하여 촬상을 수행하는바, 차량 전면 방향에 위치하는 물체에 대한 거리 추정이 가능하다.

그리고 제3 카메라(110-3)는 차량 루프의 후면 영역 중 좌측에 배치되어, 후면 및 좌측을 촬상방향으로 하여 차량의 좌측 및 후면 영역을 촬상할 수 있다.

이와 같이 차량의 좌측에 대해서 제2 카메라(110-2) 및 제3 카메라(110-3)가 상호 오버랩하여 촬상을 수행하는바, 차량 좌측에 위치하는 물체에 대한 거리 추정이 가능하다.

그리고 제4 카메라(110-4)는 차량 루프의 후면 영역 중 뒤쪽에 배치되어, 후면 및 우측 방향을 중심축으로 하여 차량의 후면 및 우측을 촬상할 수 있다.

이와 같이 차량의 후면 방향에 대해서 제3 카메라(110-3) 및 제4 카메라(110-4)가 상호 오버랩하여 촬상을 수행하는바, 차량 후면 방향에 위치하는 물체에 대한 거리 추정이 가능하다.

또한, 차량의 우측에 대해서 제4 카메라(110-4) 및 제1 카메라(110-1)가 상호 오버랩하여 촬상을 수행하는바, 차량 우측에 위치하는 물체에 대한 거리 추정이 가능하다.

또한, 상술한 제1 내지 제4 카메라는 200도 이상의 넓은 화각을 갖고, 적어도 100mm(바람직하게는 80~100mm) 갖는바, 차량의 전면/좌측면/우측면/후면 각각에 대해서 상호 이격된 2대의 카메라가 촬상을 수행할 수 있다. 도시된 예에서는 각 카메라는 220도의 화각을 가지나, 해당 화각에 본 개시가 한정되는 것은 아니다.

이상과 같이 본 개시에서는 4개의 카메라가 220도의 화각을 갖는바, 비전 시스템은 전체적으로 수평 방향에 대해서 360 화각(FOV)을 갖고, 수직 방향에 대해서 180 화각을 가질 수 있다.

한편, 도시된 예에서는 복수의 카메라가 차량의 루프에 배치되는 것으로 도시하고 설명하였지만, 구현시에는 차량의 필러(예를 들어, A필러, C 필러)에 배치될 수도 있다. 또는 복수의 카메라 중 2개는 보닛(bonnet)이나 사이드미러에 배치될 수도 있다. 또한, 이상에서는 차량이 승용차인 것으로 도시하고 설명하였지만, 구현시에는 화물차 또는 다양한 산업용 차량이 이용될 수 있으며, 이러한 경우, 각 차량에서 해당 차량의 전방향을 측정하기 적합한 영역에 배치될 수 있다.

또한, 바퀴로 동작하는 이동체뿐만 아니라, 캐터필러로 동작하는 이동체나 프로펠러로 동작하는 드론 등의 무인 항공기에도 적용될 수 있다.

한편, 도 4 및 도 5를 도시함에 있어서, 4대의 카메라를 이용하여 비전 장치를 구성하였지만, 구현시에는 5대 이상의 카메라를 이용하여 비전 장치를 구성할 수도 있다. 또한, 이상에서는 일반적인 가시광선 대의 이미지를 생성하는 카메라를 이용하였지만, 구현시에 각 카메라는 가시광선 영역뿐만 아니라, 적외선 영역에 대한 촬상도 가능하여 야간에는 적외선 이미지를 이용하여 상술한 동작을 수행할 수도 있다.

이상과 같이 본 개시에 따른 비전 시스템은 물체까지의 거리에 비해 카메라 사이의 간격이 매우 넓다. 그리고 장착된 카메라가 초광각의 시야각(ultra-wide FOV)을 갖는 특성이 있다. 따라서, 이와 같은 환경에서 장착된 카메라에서 촬상된 이미지를 이용하여 거리를 측정하기 위해서는 우선적으로 설치된 카메라의 3차원 자세를 정확하게 추정할 필요가 있다.

이하에서는 도 5를 참조하여 본 개시에 따른 자체 추정 방법을 설명한다.

도 5는 본 개시의 일 실시 예에 따라 캘리브레이션 방법을 설명하기 위한 도면이다.

렌즈 왜곡은 다항식으로 모델링될 수 있다. 그리고 투영 함수(

)가 3차원 좌표(X)에서 정규화된 이미지 플랜 상에 2차원 좌표(x)로 매핑한다면, 이를 수학식 1과 같이 표현할 수 있다.

[수학식 1]

여기서, x는 2차원 좌표, X는 3차원 좌표,

는 어안 렌즈의 고유 매개 변수이다.

정규화된 이미지 좌표(x)는 아핀 변환(affine transformation)(A(x))에 의하여 픽셀 좌표로 변환될 수 있다.

카메라 캘리브레이션 시에 체커 보드가 이용될 수 있다. 예를 들어, 각 카메라에 대해서 렌즈 초기 파라미터 및 채커 보드와의 상대적 위치를 산출하고, 이러한 상대적 위치를 이용하여 리그를 초기화하고 모든 외적 및 내적 매개변수를 최적화하는 동작을 수행할 수 있다.

큰 체커 보드가 충분한 겹침을 보장하기 위하여 사용될 수 있다. 여기서 외부 파라미터는

로 표현될 수 있다. 그리고, r은 축 각도 회전이고, t는 변환 백터(

)이다.

그리고 강성 변환 행렬(

)은

로 주어질 수 있다. 여기서,

는 r에 대응되는 3 x 3 회전 행렬일 수 있다.

i 번 째 카메라의 체커 보드 이미지로부터, 렌즈 내부 파라미터는

,

이고, 체커 보드에 대한 카메라의 상대적 위치는

로 표현할 수 있다. 여기서 k는 캡처 인덱스이다.

카메라 i에서부터 j까지의 상대적인 위치는 동시에 촬영된 한 쌍의 이미지(i, k), (j, k)의 쌍으로부터

로 계산될 수 있다. 여기서

는 조성(composition) 연산이고,

는 인버스 연산이다.

외부 보정에 대해서, 모든 카메라 포즈(

), 채커 보드의 포즈(

)가 도 5의 중간에 도시된 바와 같이, 제2 카메라 좌표 시스템에서 초기화될 수 있다. 구현시에는 제2 카메라 이외에 다른 카메라를 먼저 초기화할 수도 있다.

그리고 수학식 2와 같이, 체커 보드 영상의 코너 좌표에 대한 영상 간의 재투영 오차(re-projection error)를 최소화하도록 캘리브레이션을 수행할 수 있다.

[수학식 2]

여기서, {(i, k)}는 i번째 카메라에서 체커 보드 위치(k)의 관측치 세트이다. 그리고,

는 체커 보드 내의 코너 위치(

)의 좌표이다. 그리고,

는 i 번째 이미지 내의

의 픽셀 좌표이다. 이와 같은 최적화에 Ceres solver가 이용될 수 있다.

이러한 점을 참조하면, 먼저, 체크 무늬(또는 격자 무늬)를 갖는 체커 보드를 두 카메라 사이에 배치하여 촬상을 수행할 수 있다(510). 여기서 체크 보드는 기설정된 크기를 가질 수 있으며, 복수의 체크 무늬를 가질 수 있다.

이와 같이 두 카메라가 하나의 체커 보드를 동시에 촬상한 경우, 프로세서(120)는 각 카메라의 출력 영상에서 체커 보드가 위치하는 영역을 감지하고, 감지된 체커 보드 영역을 기초로 두 카메라의 자세를 추정하거나 두 카메라에 대한 캘리브레이션을 수행할 수 있다(520). 예를 들어, 제2 카메라(110-2)를 기준으로 제1 카메라(110-1)를 캘리브레이션하고, 순차적으로 제2 카메라(110-2)를 기준으로 제3 카메라(110-3)를 캘리브레이션하고, 마지막으로 제4 카메라(110-4)를 캘리브레이션 할 수 있다.

한편, 구현시에는 4 방위(전면, 좌측, 우측, 뒤쪽)중 적어도 3곳 이상에 체커 보드를 배치하여 동시에 4개의 카메라에 대한 캘리브레이션을 수행할 수도 있다. 이때, 프로세서(120)는 상술한 바와 같이, 체커 보드 영상의 코너 좌표에 대한 영상 간의 재투영 오차(re-projection error)를 최소화하도록 캘리브레이션을 수행할 수 있다.

그리고 캘리 브레이션이 완료되면, 복수의 카메라 각각에 대한 자세 정보(530)를 산출할 수 있다. 예를 들어, 체커 보드를 차량을 기준으로 하여 기설정된 위치에 위치한 경우(예를 들어, 차량의 정면에서 3m 방향, 바닥에서 1m 높이)에 위치한 경우, 상술한 과정에서 각 카메라의 자세를 보다 정확하게 추정할 수 있다.

도 6은 본 개시의 일 실시 예에 따라 스테레오 매핑 방법을 설명하기 위한 도면이다.

한편, 차량 주변의 전방향에 대한 거리 추정을 위하여, 다양한 스테레오 매핑 방법을 이용할 수 있다. 예를 들어, plane-sweep 알고리즘, local sphere-sweep 알고리즘, global(spherical)-sweep 알고리즘이 이용될 수 있다.

상술한 바와 같이 본 개시에 비전 시스템에서는 상호 이격된 복수의 카메라를 이용한다는 점에서, global(spherical)-sweep 알고리즘이 가장 적합하다. 이러한 점에서, 이하에서는 global(spherical)-sweep 알고리즘에 대해서 설명한다.

한편, 구현시에는 global(spherical)-sweep 알고리즘뿐만 아니라, 상술한 plane-sweep 알고리즘, local sphere-sweep 알고리즘을 사용할 수도 있으며, 상술한 알고리즘을 변형하여 이용할 수도 있다.

도 6을 참조하면, 앞선 과정에서 추정된 카메라 자세를 기초로, 카메라가 장착된 리그의 중심을 원점으로 설정하고, 일정 단위로 샘플링된 거리를 반지름으로 하는 가상의 구면(630)을 설정할 수 있다. 구체적으로, 스윕(sweep)의 중심은 어느 곳이든 가능하지만, 구형 이미지의 왜곡을 최소화하기 위하여, 원점에 대한 리그를 중심으로 선택하고, xy평면을 카메라 중심에 가깝게 정렬할 수 있다.

이와 같은 구형 좌표 시스템에서,

는

에 대응될 수 있다. 리그 좌표 시스템에서 카메라 외부 파라미터를

로 변환한다면, 투영 함수는

와 같이 표현할 수 있다.

따라서, 각 카메라(110)에서 촬상된 영상(610-1, 610-2)을 상술한 가상의 구면에 투영하고(620-1, 620-2), 투영된 영상을 스테레오 정합하여 전방향에 대한 거리를 추정할 수 있다.

구체적으로, 뒤틀린 구형 이미지(S) 내의 각 픽셀은

로 표현될 수 있다. 이러한 구형 이미지(S)는

해상도를 가지며,

내지

까지의

변화량을 가질 수 있다.

는

에서

범위를 갖지만, 천장 또는 바닥은 관심 분야가 아닌바, 작은 범위를 이용할 수 있다. N 구는 인버스 깊이가 균일하도록 샘플링되고, 예를 들어, 최소 깊이가

일 때, n번째 구까지의 인버스 깊이는

일 수 있다. 즉, 구의 반지름은

(n은 0이 아님)일 수 있다.

도 6의 630을 참조하면, 구 이미지의 픽셀 값은 다음과 같은 수학식 3과 같이 표현될 수 있다.

[수학식 3]

여기서, Ii는 i번째 카메라에서 캡처된 이미지이다. n이 0일 때,

이 사용될 수 있다. 한편, 투영된 픽셀이 입력 영상의 가시 영역에 없다면, 추가적인 처리가 수행되지 않을 수 있다.

한편, 도 6에서는 구면을 이용하였지만, 전방향을 커버할 수 있다면 투영되는 3차원 도형은 주변 환경에 따라 정육면체, 직육면체, 원기둥 등 다양한 형태가 이용될 수 있다.

한편, 스테레오 정합은 서로 이격된 위치에서 촬상된 두 개의 이미지를 이용한다. 보통의 화각을 갖는 카메라에서 촬상된 이미지를 이용하는 경우에는 영상을 좌 또는 우로 단순히 이동(ID-shift)시킴으로써 스테레오 정합을 수행할 수 있다.

이와 같은 방식을 차량의 전방향에 대한 거리를 추정하는데 이용한다면, 최소 12대(카메라의 화각이 60도인 경우, 2*6대)의 카메라가 필요하다. 또한, 각 쌍으로부터 거리 추정을 할 때 쌍 사이에 인접 영역에 대한 정보 전파가 어렵고, 경계면에서 비연속성 문제가 발생한다.

따라서, 본 개시에서는 넓은 광각을 갖는 렌즈를 이용하되, 이동체의 코너 영역에 사선 방향으로 배치함으로써 적은 수의 카메라로 차량의 전방향에 대한 거리를 추정한다.

도 7은 본 개시의 일 실시 예에 따라 인공지능 신경망을 이용한 거리 추정 방법을 설명하기 위한 도면이다.

도 7을 참조하면, 본 개시에 따른 거리 추정 방법은 1) 단항 특징 추출(unary feature extraction), 2) 구형 스윕(Spherical sweeping), 3) 비용 볼륨 계산(Cost volume computation)으로 구성된다. 한편, 도 7의 동작에 대한 네트워크 아크텍쳐는 다음과 같은 표 1과 같다.

[표 1]

먼저, 단항 특징 추출 단계(720)는, 각 카메라에서 취득한 입력 영상(710)에서 특징 맵을 추출할 수 있다. 예를 들어, 4개의 카메라 각각에서 취득된 4개의 입력 영상(710) 각각을 컨볼루션 신경망(2D CNN(Convolution Neural Network))에 넣어 특징 맵을 추출할 수 있다.

특징 맵을 이용함으로써, 카메라에서 생성한 이미지를 그대로 이용하는 것보다 적은 연산량으로 투영, 매칭 등의 동작을 수행할 수 있다. 한편, 시스템의 리소스가 상당히 높은 경우에는 특징 맵을 생성하는 과정은 생략될 수 있다.

구형 스윕(Spherical sweeping) 단계(730)는, 4개의 특징 맵을 2-c-iii의 global (spherical)-sweep 과정을 통해 구면에 투영한다(730). 구체적으로, 도 6에서 설명한 바와 같은 방식을 이용하여 특징 맵을 구면에 투영할 수 있다. 한편, 도 7에서는 특징 맵을 투영한다는 점에서, 수학식 3은 수학식 4로 표현될 수 있다.

[수학식 4]

그리고 비용 볼륨 계산(Cost volume computation) 단계(740)는 3차원 전방향 영역에 대한 물리적인 공간 정보를 포함하도록 변환하고, 병합 결과를 3D encoder-decoder에 반영하여 거리 지도을 생성할 수 있다.

구체적으로, 구형 특징 맵은 3x3x3 합성을 통하여 4D 초기 비용 볼륨으로 통합될 수 있다. 그리고 3D 인코더-디코더 아크텍처를 이용하여 비용을 세분화하고 정규화할 수 있다.

마지막으로, 인버스 깊이 인덱스(

)는 아래와 같은 수학식 5로 계산될 수 있다.

[수학식 5]

여기서, C는 (H x W x N)에 대한 정규화된 비용 볼륨이다.

엔드 투 엔드 방식으로 네트워크를 학습시키기 위하여, 입력 이미지와 수학식 6과 같은 그라운드 트루 인버스 뎁스 인덱스(ground truth inverse depth index)를 이용할 수 있다.

[수학식 6]

여기서,

는 그라운드 트루 인버스 뎁스이고,

는 최소 인버스 뎁스이고,

는 최대 인버스 깊이이다. 그리고 그라운드 트루(ground truth) 및 예측되는 인덱스 사이의 절대 오차 손실을 다음과 같이 정의할 수 있다.

[수학식 7]

도 8 은 본 개시의 일 실시 예에 따라 어안 영상 투영 모델을 설명하기 위한 도면이다. 도 9는 본 개시의 일 실시 예에 따른 어안 영상 투영 모델을 이용한 경우의 스테레오 영상의 예를 도시한 도면이다.

종래의 어안 이미지는 동일한 물체이나 왜곡으로 인해 상이하게 투영되므로, 영상의 유사성을 통해 대응 쌍을 찾는 기존 컴퓨터 비전 알고리즘의 현저한 성능 저하을 초래한다. 이러한 한계는 대응 쌍을 기반으로 움직임을 추정하는 본 개시의 기술 성능에 영향을 미친다.

따라서, 본 개시는 서로 다른 카메라 간의 자세 정보를 통해 서로 다른 어안 이미지의 왜곡을 효과적으로 바로잡는 영상 투영 모델을 이용하여 기존의 영상 유사도 기반 대응쌍 추정 알고리즘의 성능 저항을 방지할 수 있다.

예를 들어, 모든 카메라의 3차원 위치를 가장 잘 설명하는 하나의 평면(rig-plane)(810)을 최소자승법을 통해 결정할 수 있다.

이후에 서로 다른 인접 카메라 간(inter-view)을 연결하는 선에 평행하고, rig-plane)에 수직인 평면식(820)을 구하고, 카메라 간의 화각이 겹치는 부분은 해당 평면 모델에 투영하여 왜곡을 보정하고, 화각이 겹치지 않는 부분은 원통 모델에 투영하여 왜곡을 개선할 수 있다. 예를 들어, 도 9에 도시된 바와 같이 하단의 두 이미지를 상술한 방식으로 왜곡 개선하여 도 9의 상단과 같은 보정 이미지를 생성할 수 있다.

그리고 평면 모델과 원통 모델을 부드럽게 이어주는 하이브리드 투영 모델을 이용할 수 있다.

기존의 자세 추정 방식은 단안 카메라 영상 내의 2차원 점과 실제 3차원 점의 대응 쌍을 알고있는 경우에 동작 가능하다. 그러나 본 개시는 다중 카메라 시스템에 적용된다는 점에서, 본 개시의 비전 시스템에 적용되는 자체 추정 알고리즘에 대해서 도 10을 참조하여 이하에 설명한다.

도 10은 본 개시의 일 실시 예에 따른 자세 추정 알고리즘을 설명하기 위한 도면이다.

도 10을 참조하면, 다중 카메라 시스템에서 2차원 영상 점과 실제 3차원 점의 대응 쌍 3개를 아는 경우, 이들의 확률적 분포를 고려하여 자세를 추정할 수 있다.

이하에서는 관측점이 많은 카메라에서 뽑은 3개의 대응 쌍이 사용되었을 때 구해진 카메라 자세가 관측 값이 적은 값에 비해 더 정확할 것이라는 가정한다.

이 경우, 각 카메라를 임의로 선택하고, 해당 카메라에서 관측된 대응 쌍을 선택하는 과정에서 관측값이 많은 카메라를 확률적으로 더 많이 선택할 수 있다.

이로써 구해진 자세를 모든 카메라의 관측 대응 쌍에 적용하여 기하학적 정합성을 확인하고, 임계치 이하의 오차를 가지는 대응 쌍의 개수가 가장 많을 경우, 이때 자세를 최적으로 설정할 수 있다.

그리고 반복을 종료한 이후, 최적으로 설정된 자세를 자세 추정 결과를 사용할 수 있다.

한편, 본 개시에 따른 비전 시스템은 차량과 같은 이동체에 설치되어 동작한다. 따라서, 차량의 떨림과 같은 물리적 요인으로 인해 카메라의 자세는 변경될 수 있다. 그러나, 상술한 바와 같이 카메라의 자세 정보가 이용된다는 점에서, 변경된 자세를 반영하지 않는 경우 최종 결과에는 오차가 반영될 수 밖에 없다.

따라서, 이러한 카메라 자세의 변경에 따른 오차을 반영하기 위하여, 본 개시에서는 카메라의 자세 및 환경 지도에 더불어, 카메라 간의 상대적 자세, 즉, 외부 파라미터 역시 동시에 최적화하여 전체 시스템의 안정성을 확보한다.

예를 들어, 모든 관측 값을 사용하여 카메라 자세 및 3차원 점 그리고, 카메라 외부 파라미터를 기하학적 오차를 최소화하는 방향으로 최적화한 후, 이중 기준 임계치 3배 이상의 관측값을 선별할 수 있다.

이후에 선별된 관측 값을 이용하여 상술한 최적화 방법을 다시 진행하고, 이중 기준 임계치 1.5배 이하의 관측값을 선별할 수 있다.

다시 선별된 관측 값을 이용하여 상술한 최적화 과정을 진행하고, 기준 임계치 이하의 관측 값을 선별하고 최적화된 카메라 자세, 3차원 점, 외부 파라미터를 최종 산출물로 사용하여 전체 시스템에 재사용할 수 있다.

비전 시스템이 실제 차량에 적용되는 경우, 차량의 급격한 움직임, 도로 상태에 따른 차량의 떨림 등으로 발생하는 다중 카메라 간 물리적인 관계에 오차가 발생할 수 있다.

그러나 본 개시는 상술한 바와 같이 카메라 자세를 실시간으로 확인하여 보정할 수 있는바, 운행 진행에 따라 성능이 저하되는 것을 방지할 수 있다.

도 11은 본 개시의 일 실시 예에 따른 거리 정보를 생성하는 방법을 설명하기 위한 흐름도이다.

도 11을 참조하면, 상호 이격 배치되며, 이동체의 이동 방향에 대한 사선 위치에 배치되는 복수의 카메라 각각으로부터 이미지를 수신한다(S1110).

그리고 수신된 복수의 이미지를 스테레오 정합하여 이동체 전방향에 대한 거리 정보를 생성한다(S1120). 예를 들어, 수신된 복수의 이미지 각각을 가상의 3차원 도형에 투영하고, 투영된 영상을 이용하여 스테레오 정합을 수행할 수 있다. 구체적인 스테레오 정합 방법에 대해서는 앞서 설명하였는자 중복 설명은 생략한다.

이와 같이 생성된 거리 정보를 이용하여 이동체 주변의 거리를 추정할 수 있다(S1130). 예를 들어, 추정된 거리를 이용하여 물체의 접근을 감지하거나, 위험 사항 여부 등을 확인할 수 있다.

이상과 같이 본 개시에 따른 거리 정보를 생성하는 방법은 4대의 카메라만을 이용하여 이동체의 전방향에 대한 거리 정보 생성이 가능하다. 한편, 본 개시의 일 실시 예에 따른 거리 정보를 생성하는 방법은 각 단계들을 수행하기 위한 프로그램 코드 형태로 구현되어, 기록 매체에 저장되고 배포될 수도 있다. 이 경우, 기록 매체가 탑재된 장치는 상술한 암호화 또는 암호문 처리 등의 동작들을 수행할 수 있다.

이러한 기록 매체는, ROM, RAM, 메모리 칩, 메모리 카드, 외장형 하드, 하드, CD, DVD, 자기 디스크 또는 자기 테이프 등과 같은 다양한 유형의 컴퓨터 판독 가능 매체가 될 수 있다.

이상 첨부 도면을 참고하여 본 개시에 대해서 설명하였지만 본 개시의 권리범위는 후술하는 특허청구범위에 의해 결정되며 전술한 실시 예 및/또는 도면에 제한되는 것으로 해석되어서는 안 된다. 그리고 특허청구범위에 기재된 개시의, 당업자에게 자명한 개량, 변경 및 수정도 본 개시의 권리범위에 포함된다는 점이 명백하게 이해되어야 한다.

100: 이동체 110: 카메라
120: 프로세서 130: 통신 장치
140: 메모리 150: 디스플레이

Claims

이동체의 전방향에 위치한 적어도 하나의 물체에 대한 거리를 취득하는 방법에 있어서,
(a) 복수의 카메라 - 상기 복수의 카메라는 광각의 FOV를 가지며 상기 복수의 카메라 각각의 FOV를 통해 이동체의 전방향(omni-direction)을 촬상함 - 가 상기 이동체에 상호 이격 배치된 상태에서, 상기 복수 카메라에서 촬상된 복수의 이미지가 수신되면, 비전 장치가, 상기 복수의 이미지를 구형 스윕 네트워크에 입력하여, 상기 구형 스윕 네트워크로 하여금, (i) 상기 복수 카메라로부터 획득된 상기 복수의 이미지 상의 복수의 픽셀들을 소정의 기준점에서 소정 이격 거리별로 샘플링할 때 상기 이격 거리 각각을 반지름들로 하는 N개의 구로 구성된 가상의 구형 좌표 시스템에 투영하여 복수의 구형 이미지를 생성하도록 하고, (ii) 상기 구형 이미지에 3차원 컨캐터네이션(concatenation) 연산을 적용하여 4차원 초기 비용 볼륨을 생성하도록 하는 단계;
(b) 상기 비전 장치가, 상기 4차원 초기 비용 볼륨을 복수의 3차원 컨벌루션 연산 레이어와 이에 대응되는 복수의 3차원 디컨벌루션 연산 레이어를 포함하는 비용 볼륨 계산(cost volume computation) 네트워크에 입력하여 3차원 최종 비용 볼륨을 생성하는 단계; 및
(c) 상기 비전 장치가, 상기 3차원 최종 비용 볼륨을 이용하여 상기 N개의 구의 상기 반지름들에 대한 역수를 나타내는 인버스 뎁스들에 대한 인버스 뎁스 인덱스들을 생성하고, 상기 인버스 뎁스 인덱스들로부터 추출한 상기 인버스 뎁스들로부터 상기 반지름들을 추출하여 상기 이동체의 전방향에 위치한 적어도 하나의 물체에 대한 거리를 획득하는 단계;
를 포함하는 방법.
제1항에 있어서,
(d) 상기 비전 장치가, 상기 인버스 뎁스 인덱스들과 상기 인버스 뎁스 인덱스들에 대응되는 그라운드 트루스 인버스 뎁스 인덱스들을 참조하여 생성한 적어도 하나의 절대 오차 손실을 이용한 엔드 투 엔드 방식으로 상기 비용 볼륨 계산 네트워크와 상기 구형 스윕 네트워크 중 적어도 일부를 학습하는 단계;
를 추가로 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 복수의 구형 이미지 상에 위치한 특정 픽셀 각각의 위치는 상기 구형 좌표 시스템의 특정 방위각과 특정 극각으로 표시하며,
상기 (c) 단계에서,
상기 비전 장치는 상기 3차원 최종 비용 볼륨을 상기 구형 좌표 시스템의 각각의 방위각과 극각을 따라 정규화하여 상기 인버스 뎁스 인덱스를 생성하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 (a) 단계 이전에,
상기 비전 장치는 상기 복수의 카메라 각각의 외적 매개변수와 내적 매개변수에 대한 최적화 연산을 수행하는 캘리브레이션 프로세스를 수행하되,
상기 최적화 연산은, 격자 무늬를 가지는 체커 보드를 상호 이격 배치된 상기 복수의 카메라 중 인접한 두 개의 카메라 사이에 배치하고 촬상을 수행하여 상기 두 개의 카메라로부터 획득한 출력 영상으로부터 상기 체커 보드 내의 코너 좌표를 각각 감지하고, 감지된 상기 코너 좌표를 참조하여 상기 출력 영상 간의 재투영 오차(re-projection error)를 최소화하도록 상기 두 개의 카메라에 대한 특정 외적 매개변수와 특정 내적 매개변수를 최적화하는 상기 캘리브레이션 프로세스를 반복 수행하여, 상기 복수의 카메라 전체에 대하여 상기 외적 매개변수와 상기 내적 매개변수를 최적화하는 연산인 것을 특징으로 하는 방법.
제1항에 있어서,
상기 복수의 카메라는 상기 이동체 상에 위치한 리그에 상호 이격 배치되며,
상기 (a) 단계 이전에,
상기 비전 장치는 상기 리그에 대한 리그 자세 정보에 대응되는 상기 복수의 카메라에 대한 카메라 자세 정보에 대한 제1 기하학적 오차, 상기 이동체의 위치에 대한 환경 지도에 대응되는 3차원 위치점에 대한 제2 기하학적 오차, 및 카메라 간의 상대적 자세에 대한 정보를 포함하는 외적 매개변수에 대한 제3 기하학적 오차를 최소화하여 상기 이동체의 움직임에 따른 카메라 자세 정보 변경을 추적하는 최적화 프로세스를 수행하는 방법.
제5항에 있어서,
상기 복수 카메라에서 촬상된 상기 복수의 이미지가 수신되면, 상기 비전 장치는 최소자승법을 이용하여 상기 복수의 카메라를 포함하는 평면(rig-plane)을 결정하고, 상기 복수의 카메라 중 인접한 두 개의 카메라 간을 연결하는 선(base-line)에 평행하고, 상기 평면에 수직인 평면식을 구하고, 상기 두 개의 카메라 간의 FOV가 겹치는 부분에서 촬상된 제1 이미지 부분을 상기 평면식에 평행인 평면 모델에 투영하며, 상기 두 개의 카메라 간의 FOV가 겹치지 않는 부분에서 촬상된 제2 이미지 부분은 상기 평면식에 수직인 원통 모델에 투영하고, 상기 평면 모델과 상기 원통 모델을 결합하여 하이브리드 투영 모델을 생성하는 이미지 처리 프로세스를 반복 수행하여, 상기 복수의 카메라에서 촬상된 상기 복수의 이미지에 대한 이미지 처리를 수행하여 상기 최적화 프로세스에 이용하는 것을 특징으로 하는 방법.
제6항에 있어서,
상기 비전 장치는 상기 이미지 처리를 수행한 다음, 상기 복수의 카메라 중 특정 카메라를 선정하여 상기 특정 카메라에 의해 촬상된 특정 이미지에 대응되는 2차원 영상 점과 실제 3차원 영상 점의 특정 대응 쌍 3개로 구성된 복수의 세트를 샘플링하고, 상기 복수의 세트마다 상기 특정 대응 쌍 3개를 참조로 하여 생성된 상기 리그에 대한 상기 리그 자세 정보를 상기 복수의 카메라의 상기 복수의 이미지로부터 관측된 복수의 대응 쌍에 적용하여 기하학적 정합성을 확인하고, 기설정된 임계치 이하의 오차를 가지는 상기 복수의 대응 쌍의 개수가 가장 많은 특정 세트에 대응되는 특정 리그 자세 정보를 상기 리그에 대한 최적화된 리그 자세 정보로 설정함으로써 상기 제1 기하학적 오차를 최소화하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 (a) 단계에서,
상기 복수 카메라에서 촬상된 상기 복수의 이미지가 수신되면, 상기 비전 장치는 상기 복수의 이미지를 복수의 2차원 컨벌루션 레이어에 입력하여 상기 복수 이미지에 대응되는 복수의 특징 맵을 생성하고, 상기 복수의 특징 맵으로부터 상기 복수의 구형 이미지를 생성하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 복수의 카메라는 상기 이동체 상에 위치한 리그에 상호 이격 배치되며,
상기 비전 장치는 상기 리그의 중심을 상기 기준점으로 설정하는 것을 특징으로 하는 방법.
이동체의 전방향에 위치한 적어도 하나의 물체에 대한 거리를 취득하는 비전 장치에 있어서,
이동체의 전방향에 위치한 적어도 하나의 물체에 대한 거리를 취득하기 위한 인스트럭션들이 저장된 메모리; 및
상기 메모리에 저장된 상기 인스트럭션들에 따라 상기 이동체의 전방향에 위치한 적어도 하나의 상기 물체에 대한 상기 거리를 취득하기 위한 동작을 수행하는 프로세서;
를 포함하되,
상기 프로세서는, (I) 복수의 카메라 - 상기 복수의 카메라는 광각의 FOV를 가지며 상기 복수의 카메라 각각의 FOV를 통해 상기 이동체의 전방향(omni-direction)을 촬상함 - 가 상기 이동체에 상호 이격 배치된 상태에서, 상기 복수 카메라에서 촬상된 복수의 이미지가 수신되면, 상기 복수의 이미지를 구형 스윕 네트워크에 입력하여, 상기 구형 스윕 네트워크로 하여금, (i) 상기 복수 카메라로부터 획득된 상기 복수의 이미지 상의 복수의 픽셀들을 소정의 기준점에서 소정 이격 거리별로 샘플링할 때 상기 이격 거리 각각을 반지름들로 하는 N개의 구로 구성된 가상의 구형 좌표 시스템에 투영하여 복수의 구형 이미지를 생성하도록 하고, (ii) 상기 구형 이미지에 3차원 컨캐터네이션(concatenation) 연산을 적용하여 4차원 초기 비용 볼륨을 생성하도록 하는 프로세스, (II) 상기 4차원 초기 비용 볼륨을 복수의 3차원 컨벌루션 연산 레이어와 이에 대응되는 복수의 3차원 디컨벌루션 연산 레이어를 포함하는 비용 볼륨 계산(cost volume computation) 네트워크에 입력하여 3차원 최종 비용 볼륨을 생성하는 프로세스, 및 (III) 상기 3차원 최종 비용 볼륨을 이용하여 상기 N개의 구의 상기 반지름들에 대한 역수를 나타내는 인버스 뎁스들에 대한 인버스 뎁스 인덱스들을 생성하고, 상기 인버스 뎁스 인덱스들로부터 추출한 상기 인버스 뎁스들로부터 상기 반지름들을 추출하여 상기 이동체의 상기 전방향에 위치한 적어도 하나의 상기 물체에 대한 상기 거리를 획득하는 프로세스를 수행하는 비전 장치.
제10항에 있어서,
(IV) 상기 프로세서가, 상기 인버스 뎁스 인덱스들과 상기 인버스 뎁스 인덱스들에 대응되는 그라운드 트루스 인버스 뎁스 인덱스들을 참조하여 생성한 적어도 하나의 절대 오차 손실을 이용한 엔드 투 엔드 방식으로 상기 비용 볼륨 계산 네트워크와 상기 구형 스윕 네트워크 중 적어도 일부를 학습하는 프로세스;
를 추가로 수행하는 것을 특징으로 하는 비전 장치.
제10항에 있어서,
상기 복수의 구형 이미지 상에 위치한 특정 픽셀 각각의 위치는 상기 구형 좌표 시스템의 특정 방위각과 특정 극각으로 표시하며,
상기 (III) 프로세스에서,
상기 프로세서는 상기 3차원 최종 비용 볼륨을 상기 구형 좌표 시스템의 각각의 방위각과 극각을 따라 정규화하여 상기 인버스 뎁스 인덱스를 생성하는 것을 특징으로 하는 비전 장치.
제10항에 있어서,
상기 (I) 프로세스 이전에,
상기 프로세서는 상기 복수의 카메라 각각의 외적 매개변수와 내적 매개변수에 대한 최적화 연산을 수행하는 캘리브레이션 프로세스를 수행하되,
상기 최적화 연산은, 격자 무늬를 가지는 체커 보드를 상호 이격 배치된 상기 복수의 카메라 중 인접한 두 개의 카메라 사이에 배치하고 촬상을 수행하여 상기 두 개의 카메라로부터 획득한 출력 영상으로부터 상기 체커 보드 내의 코너 좌표를 각각 감지하고, 감지된 상기 코너 좌표를 참조하여 상기 출력 영상 간의 재투영 오차(re-projection error)를 최소화하도록 상기 두 개의 카메라에 대한 특정 외적 매개변수와 특정 내적 매개변수를 최적화하는 상기 캘리브레이션 프로세스를 반복 수행하여, 상기 복수의 카메라 전체에 대하여 상기 외적 매개변수와 상기 내적 매개변수를 최적화하는 연산인 것을 특징으로 하는 비전 장치.
제10항에 있어서,
상기 복수의 카메라는 상기 이동체 상에 위치한 리그에 상호 이격 배치되며,
상기 (I) 프로세스 이전에,
상기 프로세서는 상기 리그에 대한 리그 자세 정보에 대응되는 상기 복수의 카메라에 대한 카메라 자세 정보에 대한 제1 기하학적 오차, 상기 이동체의 위치에 대한 환경 지도에 대응되는 3차원 위치점에 대한 제2 기하학적 오차, 및 카메라 간의 상대적 자세에 대한 정보를 포함하는 외적 매개변수에 대한 제3 기하학적 오차를 최소화하여 상기 이동체의 움직임에 따른 카메라 자세 정보 변경을 추적하는 최적화 프로세스를 수행하는 비전 장치.
제14항에 있어서,
상기 복수 카메라에서 촬상된 상기 복수의 이미지가 수신되면, 상기 프로세서는 최소자승법을 이용하여 상기 복수의 카메라를 포함하는 평면(rig-plane)을 결정하고, 상기 복수의 카메라 중 인접한 두 개의 카메라 간을 연결하는 선(base-line)에 평행하고, 상기 평면에 수직인 평면식을 구하고, 상기 두 개의 카메라 간의 FOV가 겹치는 부분에서 촬상된 제1 이미지 부분을 상기 평면식에 평행인 평면 모델에 투영하며, 상기 두 개의 카메라 간의 FOV가 겹치지 않는 부분에서 촬상된 제2 이미지 부분은 상기 평면식에 수직인 원통 모델에 투영하고, 상기 평면 모델과 상기 원통 모델을 결합하여 하이브리드 투영 모델을 생성하는 이미지 처리 프로세스를 반복 수행하여, 상기 복수의 카메라에서 촬상된 상기 복수의 이미지에 대한 이미지 처리를 수행하여 상기 최적화 프로세스에 이용하는 것을 특징으로 하는 비전 장치.
제15항에 있어서,
상기 프로세서는 상기 이미지 처리를 수행한 다음, 상기 복수의 카메라 중 특정 카메라를 선정하여 상기 특정 카메라에 의해 촬상된 특정 이미지에 대응되는 2차원 영상 점과 실제 3차원 영상 점의 특정 대응 쌍 3개로 구성된 복수의 세트를 샘플링하고, 상기 복수의 세트마다 상기 특정 대응 쌍 3개를 참조로 하여 생성된 상기 리그에 대한 상기 리그 자세 정보를 상기 복수의 카메라의 상기 복수의 이미지로부터 관측된 복수의 대응 쌍에 적용하여 기하학적 정합성을 확인하고, 기설정된 임계치 이하의 오차를 가지는 상기 복수의 대응 쌍의 개수가 가장 많은 특정 세트에 대응되는 특정 리그 자세 정보를 상기 리그에 대한 최적화된 리그 자세 정보로 설정함으로써 상기 제1 기하학적 오차를 최소화하는 것을 특징으로 하는 비전 장치.
제10항에 있어서,
상기 (I) 프로세스에서,
상기 복수 카메라에서 촬상된 상기 복수의 이미지가 수신되면, 상기 프로세서는 상기 복수의 이미지를 복수의 2차원 컨벌루션 레이어에 입력하여 상기 복수 이미지에 대응되는 복수의 특징 맵을 생성하고, 상기 복수의 특징 맵으로부터 상기 복수의 구형 이미지를 생성하는 것을 특징으로 하는 비전 장치.
제10항에 있어서,
상기 복수의 카메라는 상기 이동체 상에 위치한 리그에 상호 이격 배치되며,
상기 프로세서는 상기 리그의 중심을 상기 기준점으로 설정하는 것을 특징으로 하는 비전 장치.