KR20220137558A

KR20220137558A - 프레임 카메라에 대한 이벤트 카메라의 픽셀 단위로의 등록 방법

Info

Publication number: KR20220137558A
Application number: KR1020220041066A
Authority: KR
Inventors: 다니엘 뻬로네; 쟈끄 망데르쉬에드; 스테판 발렁뜨
Original assignee: 프로페시
Priority date: 2021-04-02
Filing date: 2022-04-01
Publication date: 2022-10-12
Also published as: CN115205346A; EP4068207A1; JP2022159253A; US20220329771A1

Abstract

본 발명은 이벤트 기반 카메라(EVC)에 의해 픽셀 이벤트 스트림([x2,y2,t0,σ])에 제공되는 픽셀들에 프레임 기반 카메라(FMC)에 의해 제공되는 이미지의 픽셀들을 등록하는 방법에 관한 것으로, 프레임 기반 카메라로부터, 각각 노출 기간(T)을 사용하여 생성되는 이미지 프레임들(I)을 획득하는 단계; 하나 이상의 상기 이미지 프레임으로부터, 상기 이미지 프레임의 획득 기간(T)과 관련되는 제1 포인트 행렬(I)을 생성하는 단계; 상기 획득 기간 동안 생성된 픽셀 이벤트 스트림을 획득하는 단계; 상기 제1 포인트 행렬의 획득 기간 동안 발생하는, 상기 픽셀 이벤트 스트림의 픽셀 이벤트들로부터 제2 포인트 행렬(J)을 생성하는 단계; 상기 제1 및 제2 포인트 행렬의 포인트들 중 적어도 일부에 적용되는 상관 스코어링 함수(S)를 계산하는 단계; 및 상기 제2 포인트 행렬과 관련된 제1 포인트 행렬의 포인트들의 깊이로 인한 상기 제1 포인트 행렬에서 상기 제2 포인트 행렬의 포인트들의 각각의 위치들(x, y)을 상기 상관 스코어링 함수를 최대화하여 추정하는 단계;를 포함한다.

Description

프레임 카메라에 대한 이벤트 카메라의 픽셀 단위로의 등록 방법{METHOD OF PIXEL-BY-PIXEL REGISTRATION OF AN EVENT CAMERA TO A FRAME CAMERA}

본 발명은 스테레오 대응점을 사용하여 카메라들로부터 상이한 거리들에 있는 객체들을 보여주는 장면의 존재에서 프레임 카메라에 대한 이벤트 기반 카메라의 픽셀 단위로의 등록 방법 및 장치에 관한 것이다.

이벤트 기반 카메라는, 셔터를 기존 프레임 기반 카메라들의 이미지 센서들로서 사용하여 이미지들이나 프레임들을 캡처하지는 않지만 밝기의 국부적 변화에 응답하는 시각 센서를 포함하며, 따라서 시각 센서의 각 픽셀은 독립적으로 및 비동기적으로 동작하여 밝기에서의 상대적 변화들이 발생할 때 이를 보고하고 이들 변화가 발생하지 않을 때는 침묵을 유지한다.

이미지 등록은 동일한 장면을 보는 2개의 카메라에 의해 이미징된 객체들 간의 픽셀 단위 매핑 또는 링크를 설정하는 프로세스이다. 이러한 등록은 센서들이 2개의 개별 카메라에 통합될 때 필요하다. 따라서, 2개의 카메라는 필연적으로 서로 다른 각각의 뷰 포인트를 갖는다. 서로 다른 뷰 포인트로부터 카메라에 의해 보이는 객체들의 장면 깊이(들)는 시차(parallax)를 초래하고, 이 시차는 결과적으로 카메라 센서들의 초점 평면들에 투영된 이미지 객체들의 디스패리티(disparity)를 초래한다.

이러한 등록은 이벤트들을 사용하는 이미지 및 비디오 개선 또는 이벤트 노이즈 제거와 같은 이벤트 개선을 위해 수행된다. 이러한 등록은 또한 장면의 3D 정보를 필요로 하는 모든 애플리케이션에서 사용될 깊이 또는 디스패리티 맵을 생성하기 위해 수행된다. 프레임 기반 또는 이벤트 기반의 동일 유형의 2개 이상의 카메라를 포함하는 3D 추정 솔루션이 존재한다.

통상적인 스테레오 비전에서, 사람의 양안시와 유사한 방식으로 한 장면에서 2개의 서로 다른 뷰의 이미지들을 얻기 위해 서로 이격된 채로 수평으로 정렬되는 2개의 카메라를 사용한다. 이들 2개의 이미지에서 이미징된 객체들을 상관시킴으로써, 대응하는 이미지 포인트들의 수평 좌표들에서의 차이를 인코딩하는 디스패리티 맵의 형태로 상대적인 깊이 정보가 얻어질 수 있다. 디스패리티 맵의 값들은 대응 픽셀 위치에서의 장면 깊이에 반비례한다.

사람이 2개의 이미지를 비교하려면 2개의 이미지를 입체 장치에 중첩해야 하는바, 오른쪽 카메라로부터의 이미지는 관찰자의 오른쪽 눈에 표시되고 왼쪽 카메라로부터의 이미지는 왼쪽 눈에 표시된다. 컴퓨터 비전 시스템에서 여러 가지 사전 처리 단계가 수행될 수 있다.

1. 각 이미지가 왜곡되지 않아 배럴 왜곡과 접선 왜곡이 제거된다. 이는 관찰된 이미지가 이상적인 핀홀 카메라의 투영과 정합되게 한다.

2. 각 이미지는 이미지 교정으로 알려진 이미지 쌍의 비교가 가능하도록 공통 평면에 투영된다.

3. 2개의 이미지를 비교하는 정보 측정이 최소화된다. 이는 2개의 이미지에서 피처들의 위치들에 대한 최상의 추정치를 제공하고 디스패리티 맵을 생성한다.

4. 선택적으로, 디스패리티 맵은 깊이 맵을 형성하도록 3D 포인트 클라우드에 투영된다. 카메라 투영 파라미터들을 사용함으로써 알려진 스케일에서 측정치들 제공하도록 포인트 클라우드가 계산될 수 있다.

2개의 프레임 기반 카메라 간에 등록을 수행하기 위한 많은 솔루션이 이미 존재한다. 이러한 솔루션들은 양안시 원리들([1], [2], [3], [4], [5])을 사용하여 듀얼 카메라 시스템으로부터 깊이 정보를 검색하기 위해 개발되었다. 이러한 솔루션들은 종종 다음 단계들을 필요로 한다.

카메라 조정: 오프라인으로 수행되는 이 프로세스는 카메라 시스템에 대한 완전한 지식이 있어야 함을 요한다.

카메라 교정: 이 프로세스는 대응 픽셀에 대한 검색이 센서의 픽셀 행을 따라 수행되도록 카메라 뷰 포인트를 교정한다. 카메라 교정이 수행되지 않으면 센서의 픽셀 행을 따르지 않는 픽셀 당 에피폴라 곡선을 계산하여 이 검색을 계속 수행할 수 있다. 따라서 교정 알고리즘은 덜 효율적이다.

정합: 정합은 종종, 픽셀들 간에서 시프트(디스패리티라고도 함)가 원활하게 변화하도록 하는 정규화 기간(regularization terms)의 추가와 함께, 픽셀들 간의 광도 측정 거리를 최소화하고자 하는 최적화 알고리즘을 포함한다.

2개의 이벤트 기반 카메라 간에서 등록을 수행하기 위해 측광 정합 대신 시간 정합을 사용하는 것이 가능함을 [6, 14]에 나타냈다.

일반적으로 스테레오 방법으로 알려진 이러한 방법들은 카메라들로부터 나오는 신호들의 서로 다른 특성 때문에 1개의 프레임 기반 카메라와 1개의 이벤트 기반 카메라를 결합한 한 쌍의 카메라로 쉽게 일반화될 수 없다. 프레임 기반 카메라들의 2D 픽셀 어레이는 규칙적으로 샘플링된 시간 간격으로 충돌하는 광의 세기(또는 칼러 세기)를 측정하여 2D 이미지를 생성하는 반면, 이벤트 기반 카메라는 2D 이미지를 생성하지 않고 개별 이벤트들의 스트림을 생성하며, 이들 이벤트들은 충돌하는 광의 상대적 밝기 변화가 검출되자마자 비동기적으로 생성된다.

추가로, 이벤트 기반 카메라들은 프레임 기반 카메라들과 다른(일반적으로 낮은) 공간 해상도를 가질 수 있다. 그러므로 이벤트 기반 카메라의 한 픽셀이 예를 들어 프레임 기반 카메라에서 많은 픽셀들에 대응할 수 있기 때문에, 2개의 카메라 간의 매핑은 전단사(bijective)일 수 없다.

일부 프레임 기반 카메라들은 글로벌 셔터를 사용할 때처럼 단일의 시간 인스턴스에서 전체 장면의 스냅샷을 촬영하는 것보다는 수직 또는 수평으로 장면을 빠르게 스캔함으로써 각 프레임을 캡처하는 롤링 셔터 센서를 갖는다. 일반적으로 롤링 셔터 센서의 한 픽셀 행 또는 여러 개의 픽셀 행의 그룹은 단일 인스턴트에 서 스캔되고, 센서의 픽셀 행들 또는 픽셀 행들의 그룹은 서로 다른 인스턴트에서 스캔된다. 명시적으로 처리하지 않으면, [5]에 보인 바와 같이 롤링 셔터가 스테레오 시스템에서 추정된 깊이를 편향(bias)시킬 수 있다.

따라서, 이벤트 기반 센서로부터의 픽셀 이벤트들과 프레임 기반 센서로부터의 이미지들 간에 픽셀 단위의 등록을 설정하는 것이 바람직할 수 있다. 또한, 프레임 기반 카메라가 롤링 셔터 센서를 갖는 경우에 대해 해결하는 것이 또한 바람직할 수 있다.

이벤트 기반 카메라(EVC)에 의해 픽셀 이벤트 스트림에 제공되는 픽셀들에 프레임 기반 카메라에 의해 제공되는 이미지의 픽셀들을 등록하는 방법이 설명된다. 이 방법은, 프레임 기반 카메라로부터 이미지 프레임들을 획득하는 단계로서, 각각의 이미지 프레임은 노출 기간을 사용하여 생성되는, 단계; 하나 이상의 상기 이미지 프레임들로부터 제1 포인트 행렬을 생성하는 단계로서, 상기 제1 포인트 행렬은 상기 이미지 프레임들의 획득 기간과 관련되는, 단계; 상기 획득 기간 동안 생성된 픽셀 이벤트 스트림을 획득하는 단계; 상기 제1 포인트 행렬의 획득 기간 동안 발생하는, 상기 픽셀 이벤트 스트림의 픽셀 이벤트들로부터 제2 포인트 행렬을 생성하는 단계; 상기 제1 및 제2 포인트 행렬의 포인트들 중 적어도 일부에 적용되는 상관 스코어링 함수를 계산하는 단계; 그리고 상기 제2 포인트 행렬과 관련된 상기 제1 포인트 행렬의 포인트들의 깊이로 인한 상기 제1 포인트 행렬에서 상기 제2 포인트 행렬의 포인트들의 각각의 위치들을 상기 상관 스코어링 함수를 최대화하여 추정하는 단계;를 포함한다.

일 실시형태에 따르면, 이 방법은 제1 이미지 해상도를 갖는 공통 이미지 평면에 제1 포인트 행렬을 투영함으로써 획득되는 교정된 제1 포인트 행렬을 생성하고, 제1 이미지 해상도를 갖는 공통 이미지 평면에 제2 포인트 행렬을 투영함으로써 획득되는 교정된 제2 포인트 행렬을 생성하는 단계를 더 포함하고, 제2 포인트 행렬의 포인트들 각각의 위치 추정은 교정된 상기 제1 및 제2 포인트 행렬로부터 수행된다.

일 실시형태에 따르면, 제1 포인트 행렬에서 제2 포인트 행렬의 포인트들의 위치는 디스패리티 맵 또는 인접 포인트들의 적어도 하나의 패치의 깊이 맵에 의해 표현되거나, 또는 이미지 프레임들 중 하나에 기초하여 교정된 이미지를 생성하는데 사용된다.

일 실시형태에 따르면, 이 방법은 프레임 기반 또는 이벤트 기반 카메라의 이미지 평면에 대해, 디스패리티 또는 깊이 맵을 생성하고 그리고 교정을 행하지 않거나 혹은 수정된 이미지를 교정하지 않는 단계를 더 포함한다.

일 실시형태에 따르면, 상관 스코어링 함수는 제 1 및 제 2 포인트 행렬의 조합으로 인한 결합된 포인트 행렬에서 인접 포인트들의 적어도 하나의 패치의 평활도를 평가한다.

일 실시형태에 따르면, 상관 스코어링 함수는 결합된 포인트 행렬의 2D 기울기의 놈(norm), 결합된 포인트 행렬의 로컬 패치들의 분산, 및 제1 및 제2 포인트 행렬에 적용된 상호 상관 함수 중 하나이다.

일 실시형태에 따르면, 이 방법은, 제1 포인트 행렬의 노출 기간 동안 발생하는 픽셀 이벤트 스트림으로부터 픽셀 이벤트들을 통합함으로써 제3 포인트 행렬을 생성하는 단계와; 이미지 프레임들의 해상도로 공통 이미지 평면에 제3 포인트 행렬의 포인트들을 투영하기 위해 제3 포인트 행렬을 교정하는 단계와; 디스패리티 맵에 의해 정의된 포인트 변환을 적용함으로써 교정된 제3 포인트 행렬의 포인트를 변환하여 변환된 포인트 행렬을 생성하는 단계와; 변환된 이미지를 프레임 기반 카메라의 이미지 평면에 투영하기 위해 변환된 포인트 행렬을 교정하지 않는 단계; 및

흐릿함이 제거된 이미지를 획득하기 위해, 제1 포인트 행렬을 생성하는데 사용된 이미지 프레임들 중 하나를 교정되지 않은 변환된 포인트 행렬과 결합하는 단계를 포함한다.

일 실시형태에 따르면, 제1 포인트 행렬은 프레임 기반 카메라로부터 획득된 이미지 프레임들 중 하나이고, 제2 포인트 행렬은 제1 포인트 행렬의 노출 기간 동안 발생하는 픽셀 이벤트 스트림으로부터의 픽셀 이벤트들을 통합하여 생성된다.

일 실시형태에 따르면, 제2 또는 제3 포인트 행렬은 흐릿함이 제거된 이미지를 획득하기 위해 이미지 프레임들 중 하나에 곱해지는 보정 포인트 행렬이며, 흐릿함이 제거된 이미지는 이미지 프레임들의 프레임 레이트보다 높은 프레임 레이트로 슬로우 모션 비디오 스트림을 제공하기 위해, 이미지 프레임들의 프레임 레이트 또는 2개의 연속하는 프레임 사이의 간격으로 생성된다.

일 실시형태에 따르면, 제1 포인트 행렬은 프레임 기반 카메라로부터 획득된 2개의 연속적인 이미지 프레임의 비율을 계산하여 생성되고, 제2 포인트 행렬은 2개의 연속적인 이미지 프레임에 대응하는 인스턴트들에 의해 한계가 정해진 기간 동안 발생하는 픽셀 이벤트 스트림으로부터의 픽셀 이벤트들을 통합하여 생성된다.

일 실시형태에 따르면, 상관 스코어링 함수는 제1 및 제2 포인트 행렬의 인접 포인트들의 적어도 하나의 패치에 적용되는 상호 상관 함수, 제1 및 제2 포인트 행렬의 인접 포인트들의 적어도 하나의 패치에 적용된 절대적인 포인트별 차이의 합, 및 제1 및 제2 포인트 행렬의 인접 포인트들의 적어도 하나의 패치에 적용된 제곱된 포인트별 차이의 합 중 하나이다.

일 실시형태에 따르면, 제1 포인트 행렬의 포인트들은 프레임 기반 카메라로부터 획득된 2개의 연속적인 이미지 프레임들에서 대응하는 픽셀들 간의 비교에 기초하여 결정된 이진값들을 갖고, 제2 포인트 매트릭스의 포인트들은 2개의 연속적인 이미지 프레임에 대응하는 인스턴트에 의해 한계가 정해진 기간 동안 이벤트 스트림의 대응하는 픽셀에 대한 적어도 하나의 이벤트의 존재에 의존하여 0 또는 1로 설정되는 이진값을 갖는다.

일 실시형태에 따르면, 스코어링 함수는 제1 및 제2 포인트 매트릭스에서 인접 포인트들의 패치들에 적용되는 논리 연산을 사용하여 제1 포인트 매트릭스와 제2 포인트 매트릭스 사이의 유사성을 평가한다.

일 실시형태는 또한 프레임 기반 카메라, 이벤트 기반 카메라, 및 프레임 기반 및 이벤트 기반 카메라에 의해 제공되는 신호를 수신 및 처리하는 프로세서를 포함하는 스테레오 카메라 장치에 관한 것일 수 있으며, 프로세서는 위에서 정의한 방법의 단계들을 구현하도록 구성된다.

일 실시형태는 또한 컴퓨터의 내부 메모리에 직접 적재할 수 있고, 컴퓨터에 의해 실행될 때 컴퓨터로 하여금 위에 정의된 방법의 단계를 구현하도록 하는 코드 부분들을 포함하는 컴퓨터 프로그램물에 관한 것일 수 있다.

본 발명의 방법 및/또는 장치를 다음의 도면과 설명을 참조하여 더 상세하게 설명한다. 다음의 도면들은 비제한적으로 주어진 것이다. 도면에서, 달리 특정되지 않는 한 서로 다른 도면들에서 유사한 참조부호는 유사한 요소들을 지칭할 수 있다.

도 1은 일 실시예에 따른 스테레오 카메라 시스템의 블록도이다.
도 2는 일 실시예에 따른, 이벤트 기반 카메라를 프레임 기반 카메라에 픽셀 단위로 등록하는 방법의 단계들을 보여주는 블록도이다.
도 3a, 3b, 3c는 각각 이상적인 및 실제 픽셀 신호, 보정 신호 및 실제 및 보정 신호의 조합의 시변 곡선을 보여준다.
도 4는 롤링 셔터 카메라와 글로벌 셔터 카메라에서의 통합 또는 노출 기간을 나타내는 블록도이다.
도 5 및 6은 다른 실시예에 따른 이벤트 기반 카메라를 프레임 기반 카메라에 픽셀 단위로 등록하는 방법의 단계를 나타내는 블록도이다.

도 1은 프레임 기반 카메라(FMC), 이벤트 기반 카메라(EVC) 및 카메라(FMC, EVC)에 의해 제공되는 신호를 수신 및 처리하는 프로세서(PRC)를 포함하는 스테레오 카메라 장치(SVS)를 도시한다. 프레임 기반 카메라(FMC)와 이벤트 기반 카메라(EVC)는 카메라(FMC, EVC)로부터 서로 다른 거리에 있는 객체를 포함하는 동일한 장면을 관찰한다. 프레임 기반 카메라(FMC)는 장면의 이미지 프레임을 캡처하여 생성한다. 카메라(FMC)에 의해 생성된 이미지 프레임은 RGB 이미지와 같은 그레이스케일 또는 컬러 이미지일 수 있다. 이벤트 기반 카메라(EVC)는 장면에서 검출되고 이미지 프레임을 획득하는 동안 캡처된 움직이는 객체와 관련된 비동기 이벤트 스트림을 생성한다. 프레임 기반 카메라(FMC) 및 이벤트 기반 카메라(EVC) 각각은 각각의 포인팅 방향(z1, z2) 및 각각의 이미지 평면(O1, x1, y1), (O2, x2, y2)을 갖도록 카메라 시스템(SVS) 내로 통합된다. 포인트(01, 02)는 카메라(FMC, EVC)의 센서들의 각 중앙(또는 상부 좌측 코너)에 위치한다. 포인트(01, 02)는 거리(dx)로 서로 이격되어 있다. 포인팅 방향(z1, z2)은 반드시 동일한 것은 아니다. 이미지 평면(O1, x1, y1), (O2, x2, y2)의 축(x1, x2) 및 축(y1, y2)에 대해서도 마찬가지이다. 또한, 이벤트 기반 시각 센서들은 일반적으로 프레임 기반 센서보다 해상도가 낮고, 카메라(FMC, EVC)의 각 이미지 평면에 장면을 포커싱하는 렌즈들은 자체 왜곡을 가질 수 있다.

다음으로, 프레임 기반 카메라(FMC)에 의해 제공되는 프레임들의 픽셀들과 이벤트 기반 카메라(EVC)에 의해 제공되는 픽셀 이벤트들 사이의 픽셀 단위 등록을 위한 여러 가지 방법이 개시된다. 이러한 등록은 특히 필요한데, 그 이유는 각 카메라(FMC, EVC)는 이들 자신의 고유한 뷰 포인트를 가지고 있고 관찰된 장면의 객체 깊이들로 인해 어떤 시차가 초래되고 이 시차로 인해 카메라(FMC, EVC)의 센서들에 각각 이미징된 이미지 객체들 사이에 디스패리티 또는 시프트가 초래되기 때문이다.

등록의 제1 핵심 컴포넌트는, 카메라(FMC)는 33ms의 프레임 기간을 갖는 하나의 이미지 프레임을 생성하는 반면 카메라(EVC)는 프레임 기간 동안 초당 1.2 10⁹개의 이벤트, 즉 4 10⁷개의 이벤트를 제공할 수 있다는 것을 알면서, 카메라(EVC)의 이벤트들과 카메라(FMC)의 프레임들 간을 정확히 동기화시키는 것이다.

일 실시예에 따르면, 카메라(FMC, EVC)의 클록은 카메라(FMC, EVC)중 하나의 카메라에서 다른 카메라로 전송되는 동기화 신호를 사용하여 동기화된다. 이러한 동기화 신호는 노출 시간의 시작을 표시하기 위해 플래시를 트리거하도록 카메라(FMC)에 의해 일반적으로 제공되는 플래시 신호일 수 있다. 카메라(FMC)가 글로벌 셔터 센서를 갖는 경우 카메라(FMC)로부터 각 이미지 프레임의 노출 시간 역시 프로세서(PRC)로 전송된다. 카메라(FMC)가 롤링 셔터 센서를 갖는 경우 제1 행의 노출 시작 및 이 제1 행의 노출 시작 시간에 대한 이미지 센서의 마지막 행의 노출 시작 시간이 프로세서(PRC)로 전송된다.

등록의 제2 핵심 컴포넌트는 이미지 프레임들의 픽셀과 이벤트 간의 스테레오 정합 거리를 결정하는 것이다. 일 실시예에 따르면, 정합은 이미지 프레임(I)과 이미지 프레임(I)의 노출 기간 동안 발생하는 일련의 이벤트(E) 사이에서 결정된다. 프레임(I)의 노출 기간 내에서 관찰된 이미지의 상당한 깊이 변화가 없으므로 장면에서 이미지 프레임(I)과 이벤트(E)세트 간의 매핑이 일정하다고 가정한다.

도 2는 프로세서(PRC)에 의해 구현될 수 있는 픽셀 단위 등록 방법의 실시예의 단계 S01 내지 S08을 도시한다. 프레임 기반 카메라(FMC)에 의해 제공되는 프레임들의 픽셀과 이벤트 기반 카메라(EVC)에 의해 제공되는 픽셀 이벤트 간에 등록이 수행된다. 카메라(FMC)는 인스턴트(f)에서 이미지 프레임(I)을 생성하며, 여기서 I(x1, y1)는 노출 기간(T)에 따른 카메라(FMC)의 이미지 평면(O1, x1, y1)에 있는 픽셀들의 픽셀 좌표이다(도 1 참조). 카메라(EVC)는 [x2,y2,t0,σ]로 표시된 픽셀 이벤트를 생성하며, 여기서 (x2, y2)는 카메라(EVC)의 이미지 평면(O2, x2, y2)에 있는 픽셀의 픽셀 좌표이고, t0은 이벤트 시간이며, σ는 +1과 동일한 극성이다. 밝기 변화가 대수 밝기 변화 임계값 c에 대해 양이면 +1이고 음이면 -1이다. 주목할 사항으로, 밝기 임계값 c는 양극과 음극에 대해 서로 다른 값을 가질 수 있지만 명확성을 위해 이 가능성은 생략된다.

단계 S01에서, 이미지 프레임(I)은 W x H 픽셀의 주어진 크기를 갖는 교정된 이미지(RI)를 생성하도록 교정되며, 프레임(I)의 픽셀은 공통 이미지 평면(O, x, y)에 투영된다. 교정 계산은 선형 변환, 축(x1, y1 및 z1)을 중심으로 한 회전, 이미지 크기 W x H를 얻기 위한 스케일링 변환 및 이미지 왜곡을 보정하기 위한 다른 변환을 포함할 수 있다. 이러한 변환들을 정의하는 파라미터 중 일부는 조정에 의해 얻어질 수 있다.

단계 S01과 병행하여, 단계 S02에서 카메라(FMC)의 이미지 평면(O2, x2, y2)에 포인트 행렬(J)이 구축된다. 단계 S02는 인스턴트(f)와 노출 기간 지속 시간(T)를 이용하여 수행된다.

잠재적으로 흐릿한 이미지(I)와 대응 이벤트 간의 관계는 다음 식으로 표현될 수 있다.

여기서,

I(x1,y1,[f-T/2,f+T/2])는 f-T/2에서 시작하여 f+T/2에서 끝나는 노출 기간을 갖는 이미지 평면(O1, x1, y1)에서 카메라(FMC)에 의해 생성된 이미지(I)의 좌표(x1, y1)에서의 픽셀 값이고,

I_s는 시간(h)에서 촬영한 가상의 인스턴트 노출 기간을 가진 이미지 프레임이고,

h는 시간 간격

에 있도록 제한되지 않는 임의의 시간이고,

ev(x2,y2,s)는 대수 밝기 임계값이 c이고, 밝기 변화가 양(positive)이면 극성이 σ=+1이고, 음(negative)이면 극성이 σ=-1인 상황에서 시간(t0)에서 트리거되는 카메라(EVC)의 이미지 평면(O2, x2, y2)에 있는 픽셀(x, y)로부터 수신되는 이벤트[x2, y2, t0]가 있을 때마다 수신된 이벤트 스트림 ev(x2, y2, s)=σ δ_t0(x2, y2, s)를 나타내는 시간(s)의 연속 함수이며, δ_t0는 픽셀 좌표(x2, y2) 및 시간(s)의 함수로서 변화하는 임펄스 또는 디랙(Dirac) 함수이고, ev(x2, y2, t0)=σ에서 시간(s)=t0을 제외하고는 제로와 같다.

m(x1, y1, p)=(x2, y2)는 이미지 평면(O1, x1, y1)의 좌표(x1, y1)에서 프레임 기반 카메라(FMC)에 의해 제공되는 프레임의 각 픽셀을 이벤트 기반 카메라(EVC)의 이미지 평면(O2, x2, y2)에 매핑하는 변환이고, 그리고

p는 하나의 픽셀에 대해 정의되고, 결정될 p의 하나의 값에 도달하는 그러한 매핑을 수행하는 데 필요한 파라미터이다.

밝기 임계값 c는 양극성 및 음극성에 대해 서로 다른 값을 가질 수 있지만 명확성을 위해 이 가능성은 생략된다.

매핑 함수(m)는 이론적으로 프레임 기반 카메라(FMC)의 좌표 평면(O1, x1, y1)으로부터 이벤트 기반 카메라(EVC)의 좌표 평면(O2, x2, y2)으로의 매핑일 수 있다. 그러나 널리 사용되는 핀홀 카메라 모델(6장[11] 참조)과 얇은 렌즈 가정(3장[11] 참조)에서는 제약이 있다. 실제로 매핑 함수(m)는 ([12]와 같은 모델 사용하여)렌즈 왜곡을 고려하여 제거한다. [13]에 개시된 알고리즘에 따르면, 이미지 교정은 카메라의 한 포인트가 동일한 수직 좌표(y)의 다른 카메라에서 찾을 수 있도록 해준다. 교정은 카메라(FMC) 및 카메라(EVC)로부터 각각의 카메라 이미지에 호모그래피(R_F, R_E)를 적용한다. 변환(m)은 좌표(x, y)의 픽셀에 대해 다음 식으로 정의할 수 있다.

m(x,y,p)=dist_E(R_E ^-1(R_F dist_F ^-1([x,y]^T) + ([p,0]^T)))

여기서, dist_E 및 dist_F ^-1은 각각 카메라(EVC)의 순방향 왜곡 함수와 카메라(FMC)의 역방향 왜곡 함수로서, 완벽한 핀홀 투영 모델에서 벗어나는 카메라 렌즈 왜곡을 모델링한다. [x,y]^T는 벡터의 전치[x,y]를 나타내며, p는 이벤트에 좌표를 맞추는 데 필요한 파라미터이다. 문헌에서 p=d(x,y)는 "디스패리티 맵"이라고 칭하며, 교정된 카메라 시스템의 수평 시프트에 대응한다. 이러한 함수들은 일반적으로 카메라의 조정 절차에서 얻을 수 있다.

식 (1)은 다음과 같이 쓰여질 수 있다.

여기서,

h는 임의의 시간이므로 식(3) 및 (4)는 이미지(I)와 포인트 행렬(J)를 결합하여 시간(f)에 취해진 노출 기간(T)과 함께 이미지

로부터 어떤 시간(h)에 순간적인 노출 기간을 갖는 이미지(I)s(x1, y1, h)를 생성하기 위해 사용된다.

식(3) 및 (4)로부터, 각각의 흐릿한 프레임(I)에 대해 단일의 흐릿함이 제거된 픽쳐(Is)를 제공하여 프레임 기반 프레임으로부터의 초기 비디오 스트림과 동일한 프레임 레이트를 갖는 흐릿함이 제거된 비디오 스트림을 제공하는 것이 가능하다. 일 실시예에 따르면, 식(3) 및 (4)는 h의 값을 변경함으로써 여러 번 적용되어, 연속적인 이미지 프레임(I)의 각 쌍 사이에서 다수의 이미지들을 획득하고, 이미지 프레임(I)보다 높은 프레임 레이트에서 슬로우 모션 비디오 스트림을 제공한다.

이미지(J)는 이미지 평면(O1, x1, y1)에서 위의 식(4)을 사용하여 단계 S02에서 계산된다.

단계 S03에서, 포인트 행렬(J)은 W x H 포인트의 주어진 크기를 갖고 좌표(x, y)의 포인트가 공통 이미지 평면(O1, x, y) 내에 국한된 교정된 포인트 행렬(RJ)을 제공하도록 교정된다. 단계 S01, S03에서 이미지 교정은 보정된 이미지(RI)와 보정된 포인트 행렬(R)이 동일한 초점 거리를 갖도록 수행된다.

이미지(I)는 프레임 기반 카메라(FMC)에 의해 동작되는 노출 시간 동안, 관찰된 장면에서 움직이는 객체로 인해 흐릿해질 수 있다. 흐릿함은 식(3)을 사용하여 프레임 기반 노출 기간(T) 동안 이벤트 스트림([x2, y2, t0, σ])에 의해 기록된 밝기 변화를 통합하여 보정될 수 있다.

포인트 행렬(RJ)의 포인트(RJ(x, y, h, p))는 교정된 이미지(RI)에 적용되는 흐릿함을 없애는 보정 신호를 나타낸다. 파라미터(p)가 정확하면 이미지(RI(x, y))에서 포인트(RJ(x, y, h, p))의 위치가 적절하게 평가되어 흐릿함이 제거된 픽쳐(Is)를 생성하고, 이 픽쳐는 평활한 세기 기울기와 함께 선명한 에지를 갖게될 것이다. 비-에지 픽셀에서, 평활도는 서로 가까운 칼러 또는 그레이 레벨의 유사도를 측정한다.

그러나 프레임 기반 카메라(FMC)의 노출 기간(T)의 지속 시간이 충분히 짧으면 이미지 프레임(I)이 흐려지지 않고 포인트 행렬(1/RJ(x, y ,h, p))의 선명한 에지들과 유사할 선명한 에지들을 갖는다. 이미지(I(x, y))와 포인트 행렬(RJ(x, y, h, p)) 사이의 공간 정렬이 정확하면, 선명한 구조들이 정합하며, 오정렬로 인한 이중 또는 고스트 에지들을 갖는 것과는 대조적으로 이미지 (Is)의 전반적인 평활도가 유지된다. 이미지(Is)의 평활도를 측정하면 이미지(I)의 픽셀과 이벤트 기반 카메라(EVC)로부터의 이벤트들과의 사이의 공간 정렬을 확인할 수 있다.

도 3a, 3b, 3c는 일 실시예에 따른 공간 정렬 목적을 예시하기 위한 이미지(I) 및 (Is)에서의 픽셀들의 라인 값들의 곡선(C1-C5)을 도시한다. 도 3a에서, 곡선(C1, C2)은 각각 이미지(Is) 및 흐릿한 이미지(I)에서 획득하기 위한 대응하는 픽셀들의 라인들을 나타낸다. 픽셀들의 라인은 이미지(I)의 곡선(C2)보다는 이미지(Is)의 곡선(C1)에서 더 선명하게 나타난다. 도 3b는 이미지(I)의 선명도를 개선하고 이미지(Is)를 획득하기 위해 정의된 포인트 행렬(1/J)에서 대응하는 포인트들의 라인을 나타내는 곡선(C3)을 도시한다. 곡선(C3)은 도 3b의 예에서 이미지(Is)의 선명한 신호(C1)의 각 픽셀을 이미지(I)의 흐릿한 신호(C2)로 분할한 결과에 대응한다. 도 3c는 이미지(I)와 이미지(Is) 사이의 공간 정렬이 각각 정확하고 정확하지 않을 때 추정된 이미지(Is)의 픽셀들의 대응하는 라인의 곡선(C4, C5)을 도시한다. 곡선(C5)은 공간적 오정렬 또는 오프셋이 이중/고스트 에지를 도입하여 재구성된 신호의 평활도를 감소시킨다는 것을 보여준다. 따라서 상기 목적은 인접 픽셀들의 적어도 하나의 패치의 각 픽셀에 대해 RI(x, y)/RJ(x, y, h, p)의 평활도를 최대화하여 파라미터(p)를 추정하는 것이다.

단계 S04에서, 다음 함수(F)에 적용된 선택된 스코어링 함수(S(x,y,p))를 사용하여 평활도가 평가된다.

F(x,y,p)=RI(x,y)/RJ(x,y,h,p).

단계 S05에서, 파라미터(p)는 주어진 디스패리티 범위 내에서 인접 픽셀의 적어도 하나의 패치에 대한 스코어링 함수(S)를 최대화 또는 최소화함으로써 추정된다. 검색될 추정된 파라미터(p)는 모든 픽셀(x,y)에서 변하거나 동일한 변환 값을 갖는 인접 픽셀의 적어도 하나의 패치에 대해 계산될 수 있다.

다음과 같은 몇 가지 스코어링 함수들이 평활도를 극대화하는데 사용될 수 있다.

- 최소화되어야 하는 F(x,y,p)의 2D 기울기의 L1 또는 L2 놈

여기서,

- 최대화되어야 하는 F(x,y,p)의 로컬 패치의 분산,

- 신호 간의 최상의 유사성을 찾기 위해 최대화되어야 하는 이미지(RI(x,y))와 포인트 행렬 (1/RJ(x,y,p)) 간의 상호 상관 함수.

함수(F), 분산 또는 교차 상관 함수는 사전에 로그 함수로 변환될 수 있다. 또한, 스코어링 함수(S)는 예를 들어 변환 맵의 기울기의 L1 놈에 가중치를 부여함으로써 변환 필드를 평활하게 변하도록 하는 정규화 기간을 가질 수 있다.

일 실시예에 따르면, 변환 필드의 평활도는 세미-글로벌 매칭 알고리즘[1]의 비용 집계 방법을 사용하여 상호 정보 기준을 함수(F(x,y,p))의 2D 기울기의 L1 또는 L2 놈으로 혹은 로컬 패치들의 분산으로 혹은 이미지(RI(x,y))와 포인트 행렬(1/RJ(x,y,h,p))에서의 패치들 사이에서의 상호 상관 측정으로 대체함으로써 시행될 수 있다.

다른 실시예에 따르면, 이미지(RI(x,y)) 및 포인트 행렬(RJ(x,y,p))에 예를 들어 대수 함수와 같은 다른 함수가 적용되어 이들의 관계는 log I-log(J)=log(Is)가 된다. 로그 함수를 사용하면 하나의 분할을 제거하여 최상의 변환(m(x,y,p))를 검색할 때 평활도를 최대화하기 위한 계산을 가볍게 할 수 있다.

평활도를 최대화하기 위해 위에 개시된 방법은 반복적으로 적용될 수 있으며, 여기서 파라미터(p)의 근사치가 먼저 사용되고 이전 반복에 적용된 비용 함수의 결과를 사용하여 반복적으로 정제(refine)된다.

다른 실시예에 따르면, 파라미터(p)는 정확한 솔루션들의 많은 예 또는 일부 선명도 큐(cue)로부터 학습되는 함수를 사용하여 결정된다.

단계 S01, S03은 스테레오 프레임 교정 메커니즘을 사용하여 이미지(I) 및 포인트 행렬(J)을 중간 해상도 W x H로 가져오며, 이는 바람직하게도 파라미터(p) 또는 변환 맵 (m(x,y,p))의 계산에서 더 적은 계산을 갖도록 (더 작은) 이벤트 기반 시각적 EVS의 해상도이다. 더 빠른 처리를 위해 더 작은 해상도를 선택할 수 있다.

교정 단계 S01 및 S03은 선택 사항인 것으로 주시된다. 이미지(I) 및 포인트 행렬(J)이 교정되면 변환 맵 m(x,y,p)는 m(x,y,d(x,y))=dist_E(R_E ^-1 (R_F dist_F ^-1([x,y]^T) + ([d(x,y),0]^T)))로 쓰여질 수 있으며, 파라미터(p)=d(x,y)는 디스패리티 또는 축(x)을 따른 시프트를 나타낸다

이미지(I) 및 포인트 행렬(J)가 교정되지 않으면 디스패리티는 더 이상 (x 좌표를 따라) 수평이 아니며, 변환 m(x,y,p)는 m(x,y,d_x(x,y), d_y(x,y))=dist_E(dist_F ^-1([x,y]^T) + ([d_x(x,y),d_y(x,y)]^T)))로 쓰여질 수 있다. 여기서 dx(x,y) 및 dy(x,y)는 x 및 y 방향의 좌표(x,y)에서 픽셀의 디스패리티 컴포넌트이다. 각 픽셀 위치에서의 디스패리티 값 세트는 디스패리티 맵을 형성한다.

일 실시예에 따르면, 추정된 디스패리티 맵 또는 파라미터(p)는 카메라(EVC)에 의해 제공되는 일부 또는 모든 픽셀 이벤트에 대한 깊이 맵을 결정하는 데 사용되는데, 이는 픽셀에서 이미징된 객체의 깊이는 센서 상의 디스패리티에 반비례하기 때문이다. 좌표(x,y)에서 픽셀의 깊이는 다음 식을 사용하여 계산될 수 있다.

d(x,y)=dx·fl/z, (5)

여기서 dx는 카메라(FMC, EVC)의 교정된 이미지 평면의 원점(O1, O2)사이의 거리([O1,O2]), fl은 교정 후 카메라의 초점 거리, z는 좌표(x,y)에서 픽셀에 의해 이미징된 객체의 깊이이다. 이렇게 얻은 디스패리티 또는 깊이 맵은 좌표 평면(O1,x,y)에서 정의된다. 디스패리티 또는 깊이 맵은 좌표 평면(O1,x1,y1) 또는 (O2,x2,y2)에서 정의되도록 교정되지 않을 수 있다. 깊이 맵은 카메라(FMC)에 의해 제공되는 프레임에서 움직이는 객체의 깊이를 제공한다.

일 실시예에 따르면, 단계 S06 내지 S08은 단계 S05 후에 수행된다. 단계 S06에서, 포인트 행렬(RJ)은 포인트 행렬(RJ)의 각 포인트(RJ(x,y,h,p))에 계산식 RJ'(x,y,h )=RJ(m(x,y,p),h)을 적용하여 단계 S05에서 추정된 파라미터(p)를 사용하여 수정된다. 변환 m(x,y,p)는 필연적으로 정수를 제공하지 않는다는 점에 유의해야 한다. 따라서, 단계 S06은 정수 좌표를 갖는 픽셀 값을 얻기 위해 m(x,y,p)에 의해 변환된 픽셀들 사이의 보간 계산으로 이어질 수 있다.

단계 S07에서, 단계 S06에서 얻은 포인트 행렬(RJ')은 프레임 기반 카메라(FMC)의 해상도로 다시 오버샘플링되어 이미지 평면(O1,x1,y1)에서 교정되지 않은 포인트 행렬(J')을 얻는다. 따라서 포인트 행렬(J')은 카메라(FMC)의 이미지 평면에서 정의된다. 단계 S08에서, 흐릿함이 제거된 이미지(Is)는 이미지(I)의 모든 픽셀과 흐릿함 제거 신호를 나타내는 포인트 행렬(J')의 포인트에 식(3)을 적용하여 계산된다. 따라서 흐릿한 이미지의 각 픽셀은 다음과 같이 계산된다.

Is(x1,y1,h,p)　=　I(x1,y1)　/　J'(x1,y1,h,p).

롤링 셔터 프레임 기반 카메라의 경우 다음 식에 따라 단계 S02에서 포인트 행렬(J)이 계산된다.

여기서, Es(x1,y1) 및 Ee(x1,y1)는 프레임(I)의 좌표(x1,y1)에서 픽셀의 노출 기간의 시작과 끝을 각각 제공하는 함수이다. 함수(Es)는 프레임(I)의 제1 행 또는 열에서 노출 기간의 시작의 시간(ts)와 프레임(I)의 2개의 연속 행 또는 열의 노출 기간 시작들 사이의 오프셋에 대응하는 롤링 셔터 스큐(Rs)를 사용하여 계산될 수 있다(도 4).

도 4는 수직 롤링 셔터 센서의 노출 타이밍을 도시한다. 롤링 셔터 센서의 픽셀들의 각 행(R0, R1, … Rn)이 직사각형(RE)로 도 4에 도시된 동일한 지속 기간 (Tr)의 노출 기간 동안 노출된다. 각 행(R0-Rn)의 노출 기간(RE)의 시작은 이전 행과 비교하여 롤링 셔터 스큐(Rs)에 의해 오프셋된다. 대조적으로, 글로벌 셔터 센서에서 픽셀 행들의 노출 기간들은 도 4에서 단일위 중앙 직사각형(GE)로 표시된 것처럼 모두 동일하다. 글로벌 셔터 센서의 노광 기간(T)은 행 노광 기간(Tr)과 동일하거나 상이할 수 있다.

센서가 위에서 아래로 시작하는 수직 롤링 셔터를 갖고 y 좌표가 0(센서의 상단)에서 높이-1(센서의 하단 또는 마지막 행)까지 변하는 경우, 함수 Es(x,y)는 Es(x,y)=ts+y·Rs로 계산될 수 있다. 함수 Es(x,y)는 동일한 행에 놓이는 모든 픽셀에 대해 동일한 값을 갖는다. 함수 Ee(x,y)는 Ee(x,y)=Es(x,y)+Tr로 계산될 수 있으며, 여기서 Tr은 이미지(I)의 한 행의 노출 기간의 지속 기간이다. 대안적으로, 함수 Ee도 Ee(x,y)=te+y·Rs로 계산될 수 있으며, te는 프레임(I)의 제1 행에서 노출 기간의 종료 시간이다.

포인트 행렬(J)는 노출 기간(T) 동안 발생하는 픽셀 이벤트들에 대응하는 포인트들에 대해서만 정의됨이 주목될 수 있다. 다른 포인트들은 정의되지 않고 임의의 값, 예를 들어 0 또는 가장 가까운 정의된 포인트의 값으로 설정될 수 있다.

도 2의 방법은 프레임의 노출 기간(T)이 프레임 내에 기록된 충분한 이벤트들(예컨대, 2개 이상의 이벤트)를 가질 수 있도록 충분히 클 때 효율적인 것으로 여겨진다. 사실, 몇 개의 이벤트만 기록되면, 프레임 기반 카메라(FMC)에 의해 기록된 이미지와 정합하기에 이벤트가 충분하지 못할 수 있다. 이 경우 또는 보다 일반적으로 프레임 노출 기간(T)에서 발생하는 이벤트들을 등록하는 것이 요망될 때, 이벤트들에 의해 기록된 밝기 변화의 적분은 다음 식에 표시된 바와 같이 2개의 연속 이미지 프레임(I)(x1,y1, f) 및 I(x1,y1,f+F)으로서 근사화될 수 있다.

I(x1,y1,f+F)=I(x1,y1,f) e^c· ^{INT(x1,y1,f,f+F,p)} (7))

또는

여기서, I(x1,y1,f)는 시간 f에서 생성된 이미지 프레임(I)(f)의 픽셀이고 I(x1,y1,f+F)는 카메라(FMC)에 의한 연속 시간(f+F)에서 생성된 다른 이미지 프레임I(f+F)의 픽셀이며, F는 프레임 기간의 지속 시간이다. 식(7) 또는 (8)은 고유한 미지의 변수가 픽셀 파라미터(p)인 프레임과 이벤트 간의 관계를 다시 설정한다.

도 5는 프레임 기반 카메라(FMC)에 의해 제공되는 프레임들의 픽셀들과 이벤트에 의해 제공되는 픽셀 이벤트 기반 카메라(EVC)에 의해 제공되는 픽셀 이벤트들간의 픽셀 단위 등록을 위해 프로세서(PRC)에 의해 구현될 수 있는 방법의 다른 실시예의 단계 S11 내지 S16을 도시한다. 단계 S11에서, 프레임 기반 카메라(FMC)에 의해 제공되는 2개의 연속 이미지 프레임(I)(f) 및 I(f+F)는 다음과 같이 각 시간 (f)에 대한 포인트 행렬(R)을 계산하도록 처리된다.

여기서, (x1,y1)은 카메라(FMC)의 이미지 평면(O1, x1, y1)에 있는 포인트들의 좌표이다. 그 다음, 단계 S12에서, 포인트 행렬(R)은 W x H 포인트들의 주어진 크기를 갖고 포인트들이 공통 이미지 평면(O1, x, y)내에 국부화되는 교정된 포인트 행렬(RR)을 제공하도록 교정된다.

단계 S13 및 S14는 단계 S11 및 S12와 병행하여 수행될 수 있다. 단계 S13에서, 카메라(EVC)의 이미지 평면(O2, x2, y2)에서 카메라(EVC)에 의해 생성된 이벤트 스트림[x2,y2,t0,σ]으로부터 포인트 행렬 K가 구축된다. 단계 S13은 카메라(FMC)에 의해 제공된 인스턴트(f) 및 프레임 기간(F)를 사용하여 수행되며, 포인트 행렬(K)는 다음 식을 사용하여 계산된다.

K(x1,y1,p)=e^c· ^INT ⁽ ^x1,y1,f,f ⁺ ^F,p ⁾ (10)

INT(x1,y1,f,f+F,p)는 식(2)로 정의된다. 포인트 행렬(K)의 포인트들은 프레임 기간(F) 동안 발생하는 카메라(EVC)에 의해 제공하는 이벤트 스트림으로부터의 픽셀 이벤트들에 의해 기록된 밝기 비율 변화를 나타낸다. 그 다음, 단계 S14에서, 포인트 행렬(K)는 W x H 포인트들의 주어진 크기를 갖고 포인트들이 공통 이미지 평면(O1, x, y) 내에 국부화된 교정된 포인트 행렬(RK)를 제공하도록 교정된다.

단계 S15에서, 이미지 RR와 포인트 행렬(RK)를 비교하는 스코어링 함수(S(RR(x,y),RK(x,y,p))가 평가된다. 스코어링 함수(S)는 대응 값들의 포인트별 곱을 합산하거나 절대 또는 제곱 포인트별 차이를 합산함으로써 포인트 행렬(RR 및 RK)에서 인접 포인트들 패치들 간의 상관 관계를 평가할 수 있다.

다른 예에 따르면, 스코어링 함수는 다음 함수(F')에 적용될 수 있다.

F'(x,y,p)=RR(x,y)/RK(x,y,p),

여기서, 파라미터(p)의 값은 F'(x,y,p)가 인접한 포인트들의 적어도 하나의 패치의 각 포인트에 대해 가능한 한 1에 가깝도록 추정된다.

단계 S16에서, 파라미터(p)는 교정된 포인트 행렬(RR 및 RK)에서 인접 포인트들의 하나 이상의 패치들의 각 포인트에 대해 추정된다. 이 연산은 포인트 행렬 (RR과 RK)에서 포인트 간의 상관 관계를 평가할 때 스코어링 함수(S)를 최대화하여 수행될 수 있다. 포인트들 간의 상관은 2개의 포인트 행렬들에서 인접한 포인트들의 패치들 사이의 절대 또는 제곱 차이의 합을 계산함으로써 평가될 수 있다. 이 경우 계산된 차이의 합이 작을 때 상관 관계는 높다.

도 2의 방법에서와 같이, 파라미터(p)는 하나 이상의 픽셀 패치에 대한 디스패리티 또는 깊이 맵을 계산하는 데 사용될 수 있다. 예컨대 카메라(FMC)에 의해 제공되는 프레임들에 존재하는 움직이는 객체들의 하나 이상의 패치들에 대해 또는 모든 이미지 픽셀들에 대해 디스패리티 또는 깊이를 계산하는데 사용될 수 있다. 그 다음, 디스패리티 또는 깊이 맵은 이벤트 기반 카메라(EVC)의 이미지 평면(O2,x2,y2)의 디멘션들을 갖는 디스패리티 또는 깊이 맵으로 교정되지 않을 수 있다. 이러한 미교정 동작은 프레임 기반 카메라(FMC)의 이미지 평면(O1,x1,y1)의 디멘션들에 대해서도 수행될 수 있다.

프레임 카메라(FMC)가 롤링 셔터 센서를 사용하는 경우 식(10)은 다음과 같이된다.

K(x1,y1,p)=e^c· ^INT ⁽ ^{x1,y1,Ee(x1,y1),EsF} ⁽ ^x1,y1),p ⁾ (11)

여기서, Ee(x1,y1) 및 EsF(x1,y1)는 제1 프레임에서 픽셀(x1,y1)의 노출 기간의 끝과 제2 프레임에서 픽셀(x1,y1)의 노출 기간의 시작을 각각 제공하는 함수이다.

도 6은 프레임 기반 카메라(FMC)에 의해 제공되는 프레임의 픽셀과 이벤트에 의해 제공되는 픽셀 이벤트 간의 픽셀 단위 등록을 위해 프로세서(PRC)에 의해 구현될 수 있는 방법의 다른 실시예의 단계 S21 내지 S26을 도시한다. - 기반 카메라(EVC). 도 6의 방법은 도 2 및 5의 방법과 관련하여 계산 복잡도가 매우 낮은 이점을 나타낸다. 단계 S21에서, 프레임 기반 카메라(FMC)에 의해 제공되는 2개의 연속 이미지 프레임(I)(x1,y1,f) 및 I(x1,y1,f+F)이 다음과 같이 정의된 이진 포인트 행렬(BF)를 계산하기 위해 처리된다.

여기서, 조건 C1은 다음과 같이 정의된다.

C1: I(x1,y1,f+F) > e^c·I(x1,y1,f) or I(x1,y1,f+F) < e^-c·I(x1,y1,f).

따라서, 이미지(I)(f) 및 I(f+f)의 동일한 좌표(x1,y1)에서 대응하는 픽셀을 비교할 때 대수 영역에서 밝기 변화가 발생하면, 포인트 행렬 BF의 좌표(x1,y1)에서 포인트 값은 1로 설정되고, 그렇지 않으면 0으로 설정된다. 이진 포인트 행렬 BF가 카메라(FMC)의 이미지 평면(O1, x1, y1)에서 계산된다. 그 다음, 단계 S22에서, 포인트 행렬(BF)은 W x H 포인트의 주어진 크기를 갖고 포인트들이 공통 이미지 평면(O, x, y)내에 국한되는 교정된 포인트 행렬 RBF를 제공하도록 교정된다. 원점 O는 포인트 O1과 일치하도록 선택될 수 있다.

단계 S23 및 S24는 단계 S21 및 S22와 병행하여 수행될 수 있다. 단계 S23에서, 카메라(EVC)의 이미지 평면(O2, x2, y2)에서 카메라(EVC)에 의해 생성된 이벤트 스트림[x2,y2,t0,σ]으로부터 2진 포인트 행렬(BE)가 구축된다. 단계 S23은 카메라(FMC)에 의해 제공되는 인스턴트(f) 및 프레임 기간(F)를 사용하여 수행되며, 포인트 행렬 BE는 다음 식을 사용하여 계산된다.

여기서, 조건 C2는 시간(f와 f+F) 사이에 카메라(EVC)로부터 픽셀(x2,y2)에 대한 이벤트가 수신될 때 참이고 파라미터(p)는 m(x1,y1,p)=(x2,y2)가 되도록 결정된다. 따라서 포인트 행렬 BE의 좌표(x2,y2)에서의 포인트 값은 시간(f와 f+F) 사이의 밝기 변화로 인해 카메라(EVC)에 의해 적어도 이벤트가 생성되는 경우 1로 설정되고 그렇지 않은 경우 0으로 설정된다.

그 다음, 단계 S24에서, 포인트 행렬 BE는 W x H 포인트의 주어진 크기를 갖고 포인트들이 공통 이미지 평면(O, x, y) 내에 국부화된 교정된 포인트 행렬 RBE를 제공하도록 교정된다. 일 실시예에 따르면, 획득된 교정된 포인트 행렬(RBE)의 포인트가 0 또는 1로 유지되는 방식으로 교정이 수행된다.

단계 S25에서, 포인트 행렬 RBF와 RBE 사이의 상관 관계는 선택된 스코어링 함수(S(RBF(x,y),RBE(x,y,p))를 사용하여 평가된다.

일 예에 따르면, 스코어링 함수(S)는 다음 함수 F1에 적용된다.

F1(x,y,p)=RBF(x,y) - RBE(x,y,p),

각 포인트 값 RBF(x,y) 또는 RBE(x,y,p)는 0 또는 1과 동일하다. 이 경우에, 스코어링 함수(S)는 인접한 포인트들의 하나 이상의 패치에 대한 F1의 절대 값 또는 제곱 값의 합일 수 있다. 따라서, 스코어링 함수(S(F1))는 포인트 행렬(RBF 과 RBE) 사이의 역 상관관계를 추정하고 인접 포인트의 적어도 하나의 패치에 대해 최소화되어야 한다.

다른 예에 따르면, 스코어링 함수(S)는 다음 함수(F2)에 적용된다.

F2(x,y,p)=RBF(x,y) (AND) RBE(x,y,p).

스코어링 함수(S)는 포인트들의 하나 이상의 패치들에 대해 1과 동일한 함수(F2)의 값들의 수와 같을 수 있다. 이 경우, 스코어링 함수(S(F2))는 포인트 행렬(RBF 및 RBE)간의 상관관계를 추정하고 인접 포인트들의 적어도 하나의 패치에 대해 최대화되어야 한다.

단계 S26에서, 파라미터(p)는 교정된 포인트 행렬 RBF 및 RBE에서 인접 포인트들의 하나 이상의 패치에 대해 추정된다. 이 연산은 스코어링 함수(S(F1))를 최소화하거나 스코어링 함수(S(F2)를 최대화하여 수행될 수 있다.

도 2의 방법에서와 같이, 파라미터(p)는 예컨대 카메라(FMC)에 의해 제공되는 프레임들에 존재하는 움직이는 객체들의 하나 이상의 픽셀 패치들에 대한 혹은 모든 이미지 픽셀에 대한 디스패리티 맵(d(x,y)) 또는 깊이 맵을 계산하는 데 사용될 수 있다. 그 다음, 디스패리티 또는 깊이 맵은 이벤트 기반 카메라(EVC)의 이미지 평면(O2,x2,y2) 또는 카메라(FMC)의 이미지 프레임으로의 이미지 평면(O1,x1,y1)에서 디스패리티 또는 깊이 맵으로 교정되지 않을 수 있다.

단계 S02, S03 및 S05 내지 S08은 단계 S16 또는 S26 후에 수행되어 이미지 프레임(I)의 흐릿함을 제거할 수 있다.

도 5 및 도 6의 방법은 대응 프레임의 노출 기간 동안 발생하는 이벤트가 아닌 2개의 프레임 사이에서 발생하는 모든 이벤트를 고려한다는 점에 유의해야 한다.

여기에 설명된 예시는 다양한 실시예의 구조에 대한 일반적인 이해를 제공하기 위한 것이다. 이들 예시는 그 안에 기술된 구조 또는 방법을 활용하는 장치, 프로세서 및 시스템의 모든 요소 및 특징에 대한 완전한 설명을 제공하도록 의도되지 않았다. 많은 다른 실시예 또는 이들의 조합은 개시된 실시예를 조합하여 본 개시를 검토하는 당업자에게는 명백할 수 있다. 본 개시의 범위를 벗어나지 않고 구조적 및 논리적 대체 및 변경이 이루어질 수 있도록, 본 개시로부터 다른 실시예들이 사용 및 유도될 수 있다.

이와 관련하여, 도 2, 5 및 6에 개시된 방법은 완전한 포인트 행렬(RJ, RK 또는 RBE)에 대한 모든 포인트 위치(x,y)를 계산하지 않고도 수행될 수 있다. 또한 단계 S06(도 2)에서 포인트 행렬(RJ')의 포인트를 계산하거나 깊이 맵을 계산하기 위해 모든 픽셀 위치(x,y)와 디스패리티 맵을 저장할 필요는 없다.

Cited references

[1] H. Hirschmuller, "Stereo processing by semiglobal matching and mutual information". IEEE Transactions on Pattern Analysis and Machine Intelligence, 30(2): 328-341 (2007)

[2] G. Van Meerbergen, M. Vergauwen, M. Pollefeys et al. "A Hierarchical Symmetric Stereo Algorithm Using Dynamic Programming", International Journal of Computer Vision, 47, 275-285 (2002).

[3] Jian Sun, Nan-Ning Zheng and Heung-Yeung Shum, "Stereo matching using belief propagation," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 25, no. 7, pp. 787-800, July 2003

[4] Y. Boykov, O. Veksler and R. Zabih, "Fast approximate energy minimization via graph cuts," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 23, no. 11, pp. 1222-1239, Nov. 2001

[5] O. Saurer, K. K

ser, J. Bouguet and M. Pollefeys, "Rolling Shutter Stereo," IEEE International Conference on Computer Vision, Sydney, NSW, pp. 465-472 (2013)

[6] P. Rogister, R. Benosman, S. Ieng, P. Lichtsteiner and T. Delbruck, "Asynchronous Event-Based Binocular Stereo Matching," IEEE Transactions on Neural Networks and Learning Systems, vol. 23, no. 2, pp. 347-353, Feb. 2012

[7] L. Pan, R. Hartley, C. Scheerlinck, M. Liu, X. Yu and Y. Dai, "High Frame Rate Video Reconstruction based on an Event Camera," IEEE Transactions on Pattern Analysis and Machine Intelligence (2020)

[8] G. Gallego, M. Gehrig and D. Scaramuzza, "Focus Is All You Need: Loss Functions for Event-Based Vision," IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA, 2019, pp. 12272-12281 (2019)

[9] D. Perrone, P. Favaro, "A Logarithmic Image Prior for Blind Deconvolution", Int J Comput Vis 117, 159-172 (2016)

[10] R. Hartley and A. Zisserman, "Multiple View Geometry in Computer Vision" (2nd. ed.), 2003, Cambridge University Press, USA.

[11] Y. Ma, S. Soatto, J. Koseck, and S. Shankar Sastry, "An Invitation to 3-D Vision: From Images to Geometric Models", 2010, Springer Publishing Co., Inc.

[12] J. Weng, P. Cohen, and M. Herniou, "Camera calibration with distortion models and accuracy evaluation", IEEE Transactions on Pattern Analysis and Machine Intelligence, 14(10):965-980, Oct. 1992

[13] M. Pollefeys, R. Koch, L. Van Gool, "A simple and efficient rectification method for general motion", Proc. International Conference on Computer Vision, 496-501, (1999), Retrieved 2011-01-19

[14] R. Benosman, S. Sio-Ho

Ieng, P. Rogister and C. Posch, "Asynchronous Event-Based Hebbian Epipolar Geometry", in IEEE Transactions on Neural Networks, vol. 22, no. 11, pp. 1723-1734, Nov. 2011

Claims

이벤트 기반 카메라(EVC)에 의해 픽셀 이벤트 스트림([x2,y2,t0,σ])에 제공되는 픽셀들에 프레임 기반 카메라(FMC)에 의해 제공되는 이미지의 픽셀들을 등록하는 방법으로서, 이 방법은:
프레임 기반 카메라로부터, 각각 노출 기간(T)을 사용하여 생성되는 이미지 프레임들(I)을 획득하는 단계;
하나 이상의 상기 이미지 프레임으로부터, 상기 이미지 프레임의 획득 기간(T, F)과 관련되는 제1 포인트 행렬(I, R, BF)을 생성하는 단계;
상기 획득 기간 동안 생성된 픽셀 이벤트 스트림을 획득하는 단계;
상기 제1 포인트 행렬의 획득 기간 동안 발생하는, 상기 픽셀 이벤트 스트림의 픽셀 이벤트들로부터 제2 포인트 행렬(J, K, BE)을 생성하는 단계;
상기 제1 및 제2 포인트 행렬의 포인트들 중 적어도 일부에 적용되는 상관 스코어링 함수(S)를 계산하는 단계; 및,
상기 제2 포인트 행렬과 관련된 제1 포인트 행렬의 포인트들의 깊이로 인한 상기 제1 포인트 행렬에서 상기 제2 포인트 행렬의 포인트들의 각각의 위치들(x, y)을 상기 상관 스코어링 함수를 최대화하여 추정하는 단계;를 포함하는 것을 특징으로 하는, 방법.
제1항에 있어서,
제1 이미지 해상도를 갖는 공통 이미지 평면에 제1 포인트 행렬을 투영함으로써 획득되는 교정된 제1 포인트 행렬을 생성하는 단계, 및
제1 이미지 해상도를 갖는 공통 이미지 평면에 제2 포인트 행렬을 투영함으로써 획득되는 교정된 제2 포인트 행렬을 생성하는 단계를 더 포함하고,
상기 제2 포인트 행렬의 포인트들 각각의 위치 추정은 교정된 상기 제1 및 제2 포인트 행렬로부터 수행되는, 방법.
제1항 또는 제2항에 있어서,
상기 제1 포인트 행렬에서 제2 포인트 행렬의 포인트들의 위치는 디스패리티 맵 또는 인접 포인트들의 적어도 하나의 패치의 깊이 맵에 의해 표현되거나, 또는 이미지 프레임들(I) 중 하나에 기초하여 교정된 이미지(Is)를 생성하는데 사용되는, 방법.
제3항에 있어서,
프레임 기반 또는 이벤트 기반 카메라(FMC, EVC)의 이미지 평면에 대해, 디스패리티 또는 깊이 맵(RD)을 생성하고 교정을 행하지 않거나, 또는 수정된 이미지(Is)를 교정하지 않는 단계를 더 포함하는, 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 상관 스코어링 함수(S)는 제 1 및 제 2 포인트 행렬(RI, RJ)의 조합으로 인한 결합된 포인트 행렬에서 인접 포인트들의 적어도 하나의 패치의 평활도를 평가하는, 방법.
제5항에 있어서,
상기 상관 스코어링 함수(S)는:
결합된 포인트 행렬의 2D 기울기의 놈(norm),
결합된 포인트 행렬의 로컬 패치들의 분산, 및
제1 및 제2 포인트 행렬에 적용된 상호 상관 함수 중 하나인, 방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
제1 포인트 행렬의 노출 기간(T) 동안 발생하는 픽셀 이벤트 스트림으로부터 픽셀 이벤트([x2,y2,t0,σ])들을 통합함으로써 제3 포인트 행렬(J)을 생성하는 단계;
이미지 프레임들(I)의 해상도로 공통 이미지 평면에 제3 포인트 행렬의 포인트들을 투영하기 위해 제3 포인트 행렬을 교정하는 단계;
디스패리티 맵(p)에 의해 정의된 포인트 변환을 적용함으로써 교정된 제3 포인트 행렬(RJ)의 포인트를 변환하여 변환된 포인트 행렬(RJ')을 생성하는 단계;
변환된 이미지를 프레임 기반 카메라(FMC)의 이미지 평면(O1,x1,y1)에 투영하기 위해 변환된 포인트 행렬을 교정하지 않는 단계; 및
흐릿함이 제거된 이미지(Is)를 획득하기 위해, 제1 포인트 행렬을 생성하는데 사용된 이미지 프레임들(I) 중 하나를 교정되지 않은 변환된 포인트 행렬과 결합하는 단계;를 포함하는, 방법.
제1항 내지 제7항 중 어느 한 항에 있어서,
상기 제1 포인트 행렬은 프레임 기반 카메라(FMC)로부터 획득된 이미지 프레임들(I) 중 하나이고, 제2 포인트 행렬(J)은 제1 포인트 행렬의 노출 기간 동안 발생하는 픽셀 이벤트 스트림으로부터의 픽셀 이벤트들을 통합하여 생성되는, 방법.
제8항에 있어서,
상기 제2 또는 제3 포인트 행렬(J)은 흐릿함이 제거된 이미지(Is)를 획득하기 위해 이미지 프레임들(I) 중 하나에 곱해지는 보정 포인트 행렬이며, 상기 흐릿함이 제거된 이미지는 이미지 프레임들의 프레임 레이트보다 높은 프레임 레이트로 슬로우 모션 비디오 스트림을 제공하기 위해, 이미지 프레임들의 프레임 레이트 또는 2개의 연속하는 프레임 사이의 간격으로 생성되는, 방법.
제1항 내지 제7항 중 어느 한 항에 있어서,
상기 제1 포인트 행렬(R)은 프레임 기반 카메라(FMC)로부터 획득된 2개의 연속적인 이미지 프레임(I)의 비율을 계산하여 생성되고, 제2 포인트 행렬(K)은 2개의 연속적인 이미지 프레임에 대응하는 인스턴트들(f, f+F)에 의해 한정된 기간(F) 동안 발생하는 픽셀 이벤트 스트림으로부터의 픽셀 이벤트들([x2,y2,t0,σ])을 통합함으로써 생성되는, 방법.
제10항에 있어서,
상기 상관 스코어링 함수(S)는:
제1 및 제2 포인트 행렬의 인접 포인트들의 적어도 하나의 패치에 적용되는 상호 상관 함수,
제1 및 제2 포인트 행렬의 인접 포인트들의 적어도 하나의 패치에 적용되는 절대적인 포인트별 차이의 합, 및
제1 및 제2 포인트 행렬의 인접 포인트들의 적어도 하나의 패치에 적용되는 제곱된 포인트별 차이의 합 중 하나인, 방법.
제1항 내지 제7항 중 어느 한 항에 있어서,
제1 포인트 행렬(BF)의 포인트들은 프레임 기반 카메라(FMC)로부터 획득된 2개의 연속적인 이미지 프레임들(I)에서 대응하는 픽셀들 간에 실행되는 비교에 기초하여 결정된 이진값들을 가지고, 제2 포인트 매트릭스(BE)의 포인트들은 2개의 연속적인 이미지 프레임에 대응하는 인스턴트들(f, f+F)에 의해 한정되는 기간 동안 이벤트 스트림의 대응하는 픽셀에 대한 적어도 하나의 이벤트([x2,y2,t0,σ])의 존재에 따라 0 또는 1로 설정되는 이진값을 갖는, 방법.
제12항에 있어서,
상기 스코어링 함수(S)는 제1 및 제2 포인트 매트릭스에서 인접 포인트들의 패치들에 적용되는 논리 연산(AND)을 사용하여 제1 포인트 매트릭스(BF)와 제2 포인트 매트릭스(BE) 사이의 유사성을 평가하는, 방법.
프레임 기반 카메라(FMC), 이벤트 기반 카메라(EVC), 및 프레임 기반 및 이벤트 기반 카메라에 의해 제공되는 신호를 수신하고 처리하는 프로세서(PRC)를 포함하는 스테레오 카메라 장치로서, 상기 프로세서는 제1항 내지 제13항 중 어느 한 항에 따른 방법의 단계들을 실행하도록 구성되는, 스테레오 카메라 장치.
컴퓨터 프로그램 제품으로서,
컴퓨터의 내부 메모리에 직접 적재할 수 있고, 컴퓨터에 의해 실행될 때 컴퓨터로 하여금 제1항 내지 제14항 중 어느 한 항에 따른 방법의 단계들을 실행하도록 하는 코드 부분들을 포함하는, 컴퓨터 프로그램 제품.