KR20230161950A

KR20230161950A - 자동 라벨링을 위한 방법, 장치 및 시스템

Info

Publication number: KR20230161950A
Application number: KR1020237029736A
Authority: KR
Inventors: 런가오 조우
Original assignee: 하만인터내셔날인더스트리스인코포레이티드
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2023-11-28
Also published as: JP2024510899A; EP4315231A1; US20240153291A1; WO2022198631A1; CN117121046A

Abstract

본 개시는 동적 비전 센서(dynamic vision sensor, DVS) 프레임을 자동 라벨링하기 위한 방법, 시스템 및 장치를 제공한다. 본 방법은 일정 구간 내에서 카메라들의 쌍에 의해 카메라 프레임들의 쌍을 생성하고, 구간 내에서 DVS에 의해 적어도 하나의 DVS 프레임을 생성하는 단계를 포함할 수 있다. 본 방법은 또한, 카메라 프레임들의 쌍에 기초하여 디스패리티 프레임(disparity frame)을 계산하고, 계산된 디스패리티 프레임에 기초하여 카메라 프레임들의 쌍의 3D 정보를 획득할 수 있다. 본 방법은 딥 러닝 모델을 사용하여 자동 라벨링하기 위한 오브젝트 영역을 결정할 수 있고, 3D 정보 및 결정된 오브젝트 영역에 기초하여 3D 포인트들을 획득할 수 있다. 그리고 이어서, 본 방법은 3D 포인트들을 적어도 하나의 DVS 프레임을 향해 재투영하여 적어도 하나의 DVS 프레임 상의 재투영된 포인트들을 생성할 수 있다. 본 방법은 또한, 적어도 하나의 DVS 프레임 상의 재투영된 포인트들을 조합함으로써 적어도 하나의 DVS 프레임 상에서 적어도 하나의 자동 라벨링된 결과를 생성할 수 있다.

Description

자동 라벨링을 위한 방법, 장치 및 시스템

본 개시는 자동 라벨링(auto-labeling)을 위한 방법, 장치 및 시스템에 관한 것으로, 특히 동적 비전 센서(dynamic vision sensor, DVS) 프레임을 자동 라벨링하기 위한 방법, 장치 및 시스템에 관한 것이다.

최근, 새로운 최첨단 센서인 DVS는 인공 지능 분야, 컴퓨터 비전 분야, 자동 운전 분야, 로봇 등과 같은 많은 분야에서 널리 알려져 사용되고 있다.

기존의 카메라에 비해, DVS는 낮은 지연, 모션 블러 없음, 높은 동적 범위, 및 낮은 전력 소비에 대한 장점들을 갖는다. 특히, DVS에 대한 지연은 마이크로초인 한편, 기존의 카메라에 대한 지연은 밀리초이다. 결과적으로, DVS는 모션 블러를 겪지 않는다. 그리고, 결과적으로, DVS의 데이터 레이트는 일반적으로 40~180kB/s이며(기존의 카메라에 대해, 이는 일반적으로 10 mB/s임), 이는 보다 적은 대역폭 및 보다 적은 전력 소비가 필요하다는 것을 의미한다. 더욱이, DVS의 동적 범위는 약 120 dB인 한편, 기존의 카메라의 동적 범위는 약 60 dB이다. 보다 넓은 동적 범위는 극단적인 광 조건들, 예를 들어, 터널에 들어가고 터널에서 나가는 차량, 하이 빔을 켠 반대 방향의 다른 차량들, 햇빛 방향 변경 등 하에서 유용할 것이다.

이러한 장점들로 인해, DVS가 널리 사용되어 왔다. DVS를 상이한 시나리오들에 적용하기 위한 노력이 이루어져왔다. 모든 기술들 중에서, 딥 러닝은 대중적이고 중요한 방향이다. 딥 러닝에 대해 말할 때, 방대한 양의 라벨링된 데이터가 필수사항이다. 그러나, 데이터를 수동으로 라벨링하기에 충분한 수작업이 없을 수 있다. 따라서, DVS 프레임들에 대한 자동 라벨링이 필요하다.

현재, DVS 프레임에 대한 두 가지 자동 라벨링 접근법들이 있다. 하나는 디스플레이 모니터의 스크린 상에서 기존의 카메라 비디오를 재생하고 DVS를 사용하여 스크린을 레코딩하고 오브젝트를 라벨링하는 것이다. 다른 하나는 딥 러닝 모델을 사용하여 카메라 프레임들로부터 라벨링된 DVS 프레임을 직접 생성하는 것이다. 그러나, 이러한 두 가지 접근법들 둘 모두는 난제들을 갖는다. 제1 접근법은 정확도를 잃으며, 레코딩할 때, DVS 프레임의 100%를 디스플레이 모니터에 정확하게 매칭시키는 것이 어렵다. 제2 접근법은 부자연스러운 DVS 프레임들을 생성할 것이다. 반사율은 상이한 재료들에 대해 상이하다. 그러나, 제2 방법은 DVS 프레임들이 카메라 프레임들로부터 직접 생성되기 때문에 상이한 재료들을 동일하게 취급하며, 이에 따라 생성된 DVS 프레임들을 매우 부자연스럽게 만든다. 더욱이, 양 접근법들은 DVS의 장점들을 낭비하는 문제들에 빠질 것인데, 이는 카메라 비디오의 품질이 다음의 양태로부터 생성된 DVS 프레임들의 최종 출력을 제한하기 때문이다. 첫째, 생성된 DVS 프레임 레이트는 최대로 카메라 프레임 레이트에만 도달할 것이다(제2 방법이 업스케일링 방법을 사용하여 더 많은 프레임들을 얻을 수 있지만, 이는 여전히 전망이 좋지 않음). 둘째, 카메라에 의해 레코딩된, 모션 블러, 잔상 및 스미어가 또한 생성된 DVS 프레임에 존재할 것이다. 이러한 사실은 DVS가 지연이 낮고 모션 블러가 없는 것으로 알려져 있기 때문에, 불합리하고 모순된다. 셋째, 기존의 카메라가 낮은 동적 범위를 갖기 때문에, DVS의 높은 동적 범위는 낭비된다.

따라서, DVS의 장점들을 충분히 채택하면서 DVS 프레임을 자동 라벨링하기 위한 개선된 기술들을 제공할 필요가 있다.

본 개시의 하나 이상의 실시예에 따르면, 동적 비전 센서(DVS) 프레임을 자동 라벨링하기 위한 방법이 제공된다. 본 방법은 일정 구간 내에서 카메라들의 쌍에 의해 생성된 카메라 프레임들의 쌍을 수신하고, 구간 내에서 DVS에 의해 생성된 적어도 하나의 DVS 프레임을 수신하는 단계를 포함할 수 있다. 본 방법은 또한, 카메라 프레임들의 쌍에 기초하여 디스패리티 프레임(disparity frame)을 계산하고, 계산된 디스패리티 프레임에 기초하여 카메라 프레임들의 쌍의 3D 정보를 획득할 수 있다. 본 방법은 딥 러닝 모델을 사용하여 자동 라벨링하기 위한 오브젝트 영역을 결정할 수 있고, 획득된 3D 정보 및 결정된 오브젝트 영역에 기초하여 3D 포인트들을 획득할 수 있다. 이어서, 본 방법은 3D 포인트들을 적어도 하나의 DVS 프레임을 향해 재투영하여 적어도 하나의 DVS 프레임 상의 재투영된 포인트들을 생성할 수 있다. 본 방법은 또한, 적어도 하나의 DVS 프레임 상의 재투영된 포인트들을 조합함으로써 적어도 하나의 DVS 프레임 상에서 적어도 하나의 자동 라벨링된 결과를 생성할 수 있다.

본 개시의 하나 이상의 실시예에 따르면, 동적 비전 센서(DVS) 프레임을 자동 라벨링하기 위한 시스템이 제공된다. 본 시스템은 카메라들의 쌍, DVS 및 컴퓨팅 디바이스를 포함할 수 있다. 카메라들의 쌍은 일정 구간 내에서 카메라 프레임들의 쌍을 생성하도록 구성될 수 있다. DVS는 구간 내에서 적어도 하나의 DVS 프레임을 생성하도록 구성될 수 있다. 컴퓨팅 디바이스는 프로세서, 및 프로세서에 의해 실행가능한 명령어들을 저장하는 메모리 유닛을 포함할 수 있으며, 프로세서는: 카메라 프레임들의 쌍 및 적어도 하나의 DVS 프레임을 수신하도록; 카메라 프레임들의 쌍에 기초하여 디스패리티 프레임을 계산하고, 계산된 디스패리티 프레임에 기초하여 카메라 프레임들의 쌍의 3D 정보를 획득하도록; 딥 러닝 모델을 사용하여 자동 라벨링하기 위한 오브젝트 영역을 결정하도록; 획득된 3D 정보 및 결정된 오브젝트 영역에 기초하여 3D 포인트들을 획득하고, 3D 포인트들을 적어도 하나의 DVS 프레임을 향해 재투영하여 적어도 하나의 DVS 프레임 상의 재투영된 포인트들을 생성하도록; 그리고 적어도 하나의 DVS 프레임 상의 재투영된 포인트들을 조합함으로써 적어도 하나의 DVS 프레임 상에서 적어도 하나의 자동 라벨링된 결과를 생성하도록 실행가능하다.

본 개시의 하나 이상의 실시예에 따르면, 동적 비전 센서(DVS) 프레임을 자동 라벨링하기 위한 장치가 제공된다. 본 장치는 프로세서, 및 프로세서에 의해 실행가능한 명령어들을 저장하는 메모리 유닛을 포함하는 컴퓨팅 디바이스를 포함할 수 있으며, 프로세서는: 카메라 프레임들의 쌍 및 적어도 하나의 DVS 프레임을 수신하도록; 카메라 프레임들의 쌍에 기초하여 디스패리티 프레임을 계산하고, 계산된 디스패리티 프레임에 기초하여 카메라 프레임들의 쌍의 3D 정보를 획득하도록; 딥 러닝 모델을 사용하여 자동 라벨링하기 위한 오브젝트 영역을 결정하도록; 획득된 3D 정보 및 결정된 오브젝트 영역에 기초하여 3D 포인트들을 획득하고, 3D 포인트들을 적어도 하나의 DVS 프레임을 향해 재투영하여 적어도 하나의 DVS 프레임 상의 재투영된 포인트들을 생성하도록; 그리고 적어도 하나의 DVS 프레임 상의 재투영된 포인트들을 조합함으로써 적어도 하나의 DVS 프레임 상에서 적어도 하나의 자동 라벨링된 결과를 생성하도록 실행가능하다.

본 개시에 설명된 방법, 장치 및 시스템은 DVS 프레임들의 효율적이고 보다 정확한 자동 라벨링을 실현할 수 있다. 본 개시의 방법, 장치 및 시스템은 카메라들의 쌍을 DVS와 바인딩하고, 동시에 동일한 장면을 레코딩할 수 있다. 획득된 카메라 프레임과 DVS 프레임의 조합된 사용에 기초하여, DVS 프레임들은 이들이 레코딩됨과 동시에, 자동으로 라벨링될 수 있다. 그 결과, DVS 딥 러닝 트레이닝을 위한 방대한 양의 라벨링된 데이터가 가능할 것이다. 기존의 접근법들과 비교하여, 본 개시에서 설명되는 방법 및 시스템은 DVS의 장점들을 충분히 활용하고, 보다 정확하고 효율적인 자동 라벨링을 얻을 수 있다.

도 1은 본 개시의 하나 이상의 실시예에 따른 시스템의 개략도를 예시한다;
도 2는 본 개시의 하나 이상의 실시예에 따른 방법 흐름도를 예시한다;
도 3은 본 개시의 하나 이상의 실시예에 따른 디스패리티의 원리를 예시한다;
도 4는 본 개시의 하나 이상의 실시예에 따른 디스패리티와 깊이 정보 사이의 관계를 예시한다;
도 5는 본 개시의 하나 이상의 실시예에 따른 좌측 카메라 및 우측 카메라로부터 계산된 디스패리티 프레임의 예를 예시한다;
도 6은 본 개시의 하나 이상의 실시예에 따른 좌측 카메라 및 디스패리티 프레임 상의 오브젝트 검출 결과의 예를 예시한다;
도 7은 본 개시의 하나 이상의 실시예에 따른 DVS 프레임을 향한 3D 포인트의 재투영의 예를 예시한다;
도 8은 본 개시의 하나 이상의 실시예에 따른 예시적인 결과를 예시한다;
도 9는 본 개시의 하나 이상의 실시예에 따른 또 다른 예시적인 결과를 예시한다.
이해를 돕기 위해, 가능한 경우, 도면들에 공통되는 동일한 요소들을 지정하는 데에 동일한 참조번호들을 사용하였다. 일 실시예에서 개시된 요소들은 명시적인 언급 없이 다른 실시예들 상에서 유익하게 이용될 수 있는 것으로 고려된다. 여기서 참조되는 도면들은 구체적으로 언급되지 않는 한 축척대로 그려진 것으로서 이해되어서는 안 된다. 또한, 도면들은 보통 간략화되고, 세부사항들 또는 구성요소들이 제시 및 설명의 명료화를 위해 생략된다. 도면들 및 논의는 아래에서 논의되는 원리들을 설명하는 역할을 하며, 여기서 유사한 지정은 유사한 요소들을 나타낸다.

예시를 위해 아래에서 예들이 제공될 것이다. 다양한 예들에 대한 설명이 예시를 위해 제시될 것이지만, 완전한 것으로 또는 개시된 실시예들로 제한되는 것으로 의도되지는 않는다. 많은 변형 및 변경이 설명된 실시예들의 범위 및 사상으로부터 벗어나지 않고 해당 기술분야의 통상의 기술자들에게 명백해질 것이다.

일반적인 개념에서, 본 개시는 스테레오 카메라들의 적어도 하나의 쌍 및 DVS를 함께 조합하여 DVS 프레임들을 자동 라벨링할 수 있는 시스템, 장치 및 방법을 제공한다. 이에 따라, 스테레오 카메라들을 사용하여 디스패리티를 계산하고 카메라 프레임들의 3D 정보를 획득하고; 카메라 프레임들에 대한 딥 러닝 모델을 사용하여 오브젝트 영역을 획득하고; 오브젝트 영역에 대응하는 3D 포인트들을 DVS 프레임을 향해 재투영하여 DVS 프레임 상의 포인트들을 생성하고; DVS 프레임 상의 재투영된 포인트들을 조합하여 DVS 프레임 상에서 최종 검출 결과를 생성함으로써, 본 개시의 시스템 및 방법은 카메라 프레임들과 DVS 프레임들의 조합된 사용으로 인해 신뢰성 있는 자동 라벨링된 DVS 프레임들을 제공할 수 있다. 획득된 카메라 프레임과 DVS 프레임의 조합된 사용에 기초하여, DVS 프레임들은 이들이 레코딩됨과 동시에 자동으로 라벨링될 수 있다. 그 결과, DVS의 딥 러닝 트레이닝을 위한 방대한 양의 라벨링된 데이터가 가능할 것이다. 기존의 접근법과 비교하여, 본 개시에서 설명되는 방법, 장치 및 시스템은 DVS의 장점들을 충분히 활용하고, 보다 정확하고 효율적인 자동 라벨링을 얻을 수 있다.

도 1은 본 개시의 하나 이상의 실시예에 따른 DVS 프레임을 자동 라벨링하기 위한 시스템의 개략도를 예시한다. 도 1에 도시된 바와 같이, 본 시스템은 레코딩 디바이스(102) 및 컴퓨터 디바이스(104)를 포함할 수 있다. 레코딩 디바이스(102)는 적어도, 제한 없이, DVS(102a) 및 카메라들의 쌍(102b, 102c), 예를 들어, 좌측 카메라(102b) 및 우측 카메라(102c)를 포함할 수 있다. 실제 요건에 따르면, 좌측 카메라(102b) 및 우측 카메라(102c)에 더하여, 더 많은 카메라들이 제한 없이, 레코딩 디바이스(102)에 포함될 수 있다. 간략화를 위해, 단지 카메라 한 쌍만이 본 명세서에서 제시된다. 본 개시에서의 "카메라"라는 용어는 스테레오 카메라를 포함할 수 있다. 레코딩 디바이스(102)에서, 카메라들의 쌍(102b, 102c)과 DVS(102a)는 함께 고정적으로 조합/조립/통합될 수 있다. 도 1은 본 시스템의 구성요소들을 예시할 뿐이고, 시스템 구성요소들의 위치 관계를 제한하도록 의도되지 않는다는 것을 이해해야 한다. DVS(102a)는 좌측 카메라(102b) 및 우측 카메라(102c)와 임의의 상대적인 위치 관계로 배열될 수 있다.

DVS(102a)는 이벤트 주도 접근법을 채택하여 장면에서의 동적 변화를 포착하고 이어서 비동기 픽셀들을 생성할 수 있다. 기존의 카메라와 달리, DVS는 이미지들을 생성하는 것이 아니라, 픽셀 레벨 이벤트들을 송신한다. 실제 장면에서 동적 변화가 있을 때, DVS는 일부 픽셀 레벨 출력(즉, 이벤트)을 생성할 것이다. 이에 따라, 변화가 없다면, 데이터 출력이 없을 것이다. 동적 변화는 오브젝트의 세기 변화 및 움직임 중 적어도 하나를 포함할 수 있다. 이벤트 데이터는 [x,y,t,p]의 형태이며, 여기서 x 및 y는 2D 공간에서의 이벤트의 픽셀들의 좌표를 나타내고, t는 이벤트의 타임 스탬프이고, p는 이벤트의 극성이다. 예를 들어, 이벤트의 극성은 더 밝아지거나(양) 더 어두워지는(음) 것과 같은 장면의 밝기 변화를 나타낼 수 있다.

컴퓨팅 디바이스(104)는 모바일 디바이스, 스마트 디바이스, 랩탑 컴퓨터, 태블릿 컴퓨터, 차량내 내비게이션 시스템 등을 포함하지만 이에 제한되지 않는, 컴퓨테이션을 수행할 수 있는 임의의 형태의 디바이스일 수 있다. 컴퓨팅 디바이스(104)는 프로세서(104a)를 포함할 수 있지만, 이에 제한되지 않는다. 프로세서(104a)는 CPU(central processing unit), MCU(microcontroller unit), ASIC(application specific integrated circuit), DSP(digital signal processor) 칩 등을 포함하지만 이에 제한되지 않는, 데이터를 프로세싱하고 소프트웨어 애플리케이션들을 실행하도록 구성된 임의의 기술적으로 실현가능한 하드웨어 유닛일 수 있다. 컴퓨팅 디바이스(104)는 프로세서에 의해 실행가능한 데이터, 코드, 명령어 등을 저장하기 위한 메모리 유닛(104b)을 포함할 수 있지만, 이에 제한되지 않는다. 메모리 유닛(104b)은 RAM(random access memory), ROM(read-only memory), 전기 소거가능 프로그램가능 판독 전용 메모리(EPROM 또는 플래시 메모리, 광섬유, 휴대용 CD-ROM(compact disc read-only memory), 광 저장 디바이스, 자기 저장 디바이스, 또는 이들의 임의의 적합한 조합을 포함할 수 있지만, 이에 제한되지 않는다.

DVS 프레임을 자동 라벨링하기 위한 시스템은 동작 환경에 위치할 수 있다. 예를 들어, 본 시스템은 장면에서 동적 변화(이벤트 기반 변화)가 있는지 여부를 결정하고, 장면에서의 동적 변화가 검출된다면 DVS 및 카메라들의 쌍을 자동으로 활성화하여 동작시킬 수 있다. DVS와 카메라들의 쌍은 동기화된 타임 스탬프에 의해 동기화될 수 있다. 동일한 장면에 대해, 좌측 카메라 및 우측 카메라는 각각 일정 구간 동안 적어도 하나의 좌측 카메라 프레임 및 적어도 하나의 우측 카메라 프레임을 생성할 수 있다. 동시에, DVS는 동일한 구간 내에서 적어도 하나의 DVS 프레임을 생성할 수 있다. 카메라 프레임의 시간 범위가 DVS 프레임의 시간 범위보다 크기 때문에, DVS 프레임의 개수가 좌측 또는 우측 카메라 프레임들의 개수보다 많은 것이 일반적이다. 예를 들어, 카메라 프레임의 시간 범위는 20ms이고, DVS 프레임의 시간 범위는 2ms이다. 설명의 편의를 위해, 본 개시의 원리는 카메라 프레임의 시간 범위와 동일한 것으로서 설정될 수 있지만 이에 제한되지 않는다. 구간을 하나의 카메라 프레임의 시간 범위로서 설정하는 이러한 경우에서, 좌측 카메라 및 우측 카메라는 각각 일정 구간 동안 좌측 카메라 프레임 및 우측 카메라 프레임을 생성할 수 있고, DVS는 동일한 구간 내에서 적어도 하나의 DVS 프레임을 생성할 수 있다. 프로세서(104a)는 또한, 생성된 좌측 및 우측 카메라 프레임들에 기초하여 DVS 프레임의 자동 라벨링을 수행할 수 있으며, 이에 대해서는 도 2 내지 도 9를 참조하여 상세히 설명될 것이다.

도 2는 본 개시의 다른 하나 이상의 실시예에 따른 도 1에 제시된 시스템을 참조한 방법 흐름도이다. 도 2에 도시된 바와 같이, S201에서, 장면에서 동적 변화가 있는지 여부에 대한 결정이 수행될 수 있다. 동적 변화가 없는 것으로 결정된다면, S202로 진행한다. S202에서, 본 시스템은 대기 상태일 수 있다. 동적 변화가 있는 것으로 결정된다면, 본 방법은 S203로 진행한다. S203에서, 레코딩 디바이스(102)가 활성화되며, 이는 카메라들 및 DVS가 각각 카메라 프레임들 및 DVS 프레임들을 생성하도록 동작할 수 있음을 의미한다. S201-S203은 생략될 수 있고, 방법 흐름이 S204로부터 바로 시작될 수 있음을 이해해야 한다.

S204에서, 카메라 쌍에 의해 생성된 카메라 프레임들의 쌍 및 DVS에 의해 생성된 적어도 하나의 DVS 프레임이 수신될 수 있다. 예를 들어, 좌측 카메라(102b) 및 우측 카메라(102c)는 각각 구간 내에서 좌측 카메라 프레임 및 우측 카메라 프레임을 생성할 수 있다. 동시에, DVS(102a)는 적어도 하나의 DVS 프레임을 생성할 수 있다.

또한, S205에서, 좌측 및 우측 카메라 프레임들에 기초하여 디스패리티 프레임이 계산될 수 있고, 이어서, 계산된 디스패리티 프레임에 기초하여 카메라 프레임들의 좌측 및 우측의 3D 정보가 획득될 수 있다. 3D 정보는 3D 포인트들을 포함할 수 있으며, 3D 포인트들 각각은 좌측 및 우측 카메라 프레임들 내의 각 픽셀에 대응하는 공간 위치 또는 3D 좌표들을 나타낸다.

예를 들어, 카메라 프레임들의 3D 정보를 획득하기 위해 삼각 측량이 사용될 수 있고, 스테레오 카메라 프레임들의 디스패리티를 계산하기 위해 SGBM(Semi-Global Block Matching) 방법이 사용될 수 있다. "디스패리티"의 개념은 다음과 같이 묘사될 것이다. "디스패리티"라는 용어는 '양안 디스패리티(binocular disparity)'로서 이해될 수 있으며, 이는 '눈의 수평적 분리(패럴랙스)'로 인해, 좌안과 우안에 의해 보여지는 오브젝트의 이미지 위치의 차이를 의미한다. 컴퓨터 비전에서, 이는 도 3에서 설명되는 바와 같이, 좌측 센서/카메라와 우측 센서/카메라 사이의 픽셀 레벨 대응/매칭 쌍을 의미한다. 도 3을 참조하면, 디스패리티는 스테레오 쌍의 좌측 및 우측 이미지에서의 두 개의 대응하는 포인트들 사이의 거리를 지칭한다. 도 3은 상이한 3D 포인트들(X, X₁, X₂ 및 X₃)이 좌측 이미지와 우측 이미지 상에서 상이한 투영 위치들을 야기하는 것을 예시하며, 여기서 O_L은 좌측 카메라의 광학 중심을 나타내고, O_R은 우측 카메라의 광학 중심을 나타낸다. O_L과 O_R 사이의 라인은 베이스라인이고; eL은 좌측 이미지 평면과 베이스라인의 교차점을 나타내고, e_r은 우측 이미지 평면과 베이스라인의 교차점을 나타낸다.

예로서 포인트 X를 취하면, X에서 O_L까지의 점선을 따름으로써, 좌측 이미지 평면과의 교차점은 X_L에 있다. 동일한 원리가 우측 이미지 평면에 적용된다. X에서 O_R까지의 점선을 따름으로써, 우측 이미지 평면과의 교차점은 X_R에 있다. 이는 포인트 X가 좌측 카메라 프레임에서의 포인트 X_L과 우측 카메라 프레임에서의 포인트 X_R로 투영된 후, X_L과 X_R의 차이로서 프레임에서의 픽셀의 디스패리티가 계산될 수 있다는 것을 의미한다. 이에 따라, 프레임에서의 각 픽셀에 대해 상기한 계산을 수행함으로써, 좌측 카메라 프레임 및 우측 카메라 프레임에 기초하여 디스패리티 프레임이 획득될 수 있다.

도 4는 각 픽셀의 디스패리티와 깊이 정보 사이의 관계를 설명한다. 이제 도 4를 참조하면, 디스패리티에 기초하여 카메라 프레임의 3D 정보를 어떻게 획득할 것인지가 예시될 것이다. 도 4는 3D 포인트 P(Xp, Yp, Zp), 좌측 카메라 프레임 및 우측 카메라 프레임을 제시한다. 3D 포인트는 포인트 p_l(x_l,y_l)에서 좌측 카메라 프레임에 투영되고, 포인트 p_r(x_r,y_r)에서 우측 카메라 프레임에 투영된다. O_L은 좌측 카메라의 광학 중심을 나타내고, O_R은 우측 카메라의 광학 중심을 나타낸다. c_l은 좌측 카메라 프레임의 중심을 나타내고, c_r은 우측 카메라 프레임의 중심을 나타낸다. O_L과 O_R 사이의 라인은 베이스라인이다. T는 O_L에서 O_R까지의 거리를 나타낸다. 파라미터 f는 카메라의 초점 거리를 나타내고, 파라미터 d는 x_l과 x_r 사이의 차이와 동일한 디스패리티를 나타낸다. 포인트 P와 좌측 카메라 프레임 및 우측 카메라 프레임에서의 포인트들 p_l 및 p_r 사이의 변환은 도 4 및 도 7에도 제시된 다음의 식 (1)-식 (2)에 의해 정의될 수 있다.

상기한 디스패리티 대 깊이 식에 따르면, 좌측 카메라 프레임 및 우측 카메라 프레임에서의 각 픽셀의 위치가 각 3D 포인트로 변환될 수 있다. 이에 따라, 디스패리티 프레임에 기초하여, 좌측 및 우측 카메라 프레임의 3D 정보가 획득될 수 있다.

이해를 돕기 위해, 도 5는 좌측 카메라 프레임, 우측 카메라 프레임, 및 좌측 카메라 프레임 및 우측 카메라 프레임으로부터 계산된 디스패리티 프레임을 각각 좌측에서 우측으로 제시한다. 디스패리티 프레임에 대해, 보다 밝은 색의 픽셀은 보다 가까운 거리를 의미하고, 보다 어두운 색의 픽셀은 보다 먼 거리를 의미한다.

방법 흐름도로 돌아가서, S206에서, 딥 러닝 모델을 사용하여 자동 라벨링을 위한 오브젝트 영역이 결정될 수 있다. 상이한 요건들에 따르면, 제한 없이, 타겟의 특징들을 추출할 수 있는 다양한 딥 러닝 모델이 좌측 및 우측 카메라 프레임들로부터 선택된 하나의 카메라 프레임에 적용될 수 있다. 예를 들어, 오브젝트 검출 모델이 하나의 카메라 프레임에 적용될 수 있다. 상이한 모델들은 상이한 형태들의 출력을 제공할 수 있다. 예를 들어, 일부 모델들은 원하는 오브젝트의 윤곽을 나타내는 오브젝트 영역을 출력할 수 있으며, 여기서 윤곽은 원하는 오브젝트의 포인트들로 이루어진다. 예를 들어, 다른 모델들은 직사각형 영역과 같이 원하는 오브젝트가 위치되는 영역을 나타내는 오브젝트 영역을 출력할 수 있다. 도 6은 제한이 아닌 단지 예시를 위한 일례를 제시하되, 카메라 프레임은 도 5에 제시된 동일한 카메라 프레임일 수 있다. 도 6에 제시된 바와 같이, 예를 들어, 좌측 카메라 프레임이 선택된다. 좌측 카메라 프레임 상의 오브젝트 검출 결과는 예를 들어, 직사각형 결과로서 제시되고, 디스패리티 프레임 상의 대응하는 결과는 또한 디스패리티 프레임에서의 직사각형 결과로서 제시된다.

이어서, S207에서, S205에서 획득된 3D 정보 및 S206에서 결정된 오브젝트 영역에 기초하여, 오브젝트 영역에서의 원하는 오브젝트의 3D 포인트들이 획득된다. S206을 참조하여 설명된 바와 같이, 상이한 모델들이 상이한 형태들로 검출 결과를 출력할 수 있다. 검출 결과가 포인트들로 이루어진 원하는 오브젝트의 윤곽이라면, 이를 직접 사용하여 S205에서 획득된 3D 정보로부터 3D 포인트들을 얻는 것이 가능하다. 직사각형 결과와 같은 검출 결과가 원하는 오브젝트가 위치되는 영역이라면, 클러스터링 프로세스가 수행될 필요가 있다. 즉, 검출 직사각형의 대부분을 취하는 포인트들, 및 검출 직사각형의 중심에 더 가까운 포인트들이 원하는 오브젝트로서 고려될 것이다.

S208에서, 원하는 오브젝트의 획득된 3D 포인트들이 적어도 하나의 DVS 프레임을 향해 재투영될 수 있다. 스테레오 카메라들과 DVS는 동일한 계의 좌표들에 있고, 이들은 함께 고정적으로 조합되므로, 스테레오 카메라 프레임들로부터 계산된 3D 포인트들은 또한 DVS 프레임으로부터 보여지는 3D 포인트들이다. 이에 따라, 원하는 오브젝트의 3D 포인트들을 DVS 프레임을 향해 재투영하기 위한 재투영 프로세스가 행해질 수 있다. 삼각 측량 및 재투영은 서로 역 프로세스들로서 보여질 수 있다는 것이 이해될 수 있다. 여기서의 핵심은 3D 포인트들을 얻기 위해 두 개의 스테레오 카메라 프레임들을 사용하고, 하나의 카메라 프레임 및 하나의 DVS 프레임을 사용하여 DVS 프레임 상의 매칭 포인트들을 얻는 것이다. 도 7은 DVS 프레임을 향한 3D 포인트 P(X_p, Y_p, Z_p)의 재투영을 도시한다. 파선으로 그려진 평행사변형은 이전의 도 4의 우측 카메라 프레임을 나타낸다. 도 7의 파라미터들은 도 4와 동일한 정의를 갖는다. 도 7에 도시된 바와 같이, 식은 도 4의 식과 동일하다. 유일한 차이는 도 4에서, 두 개의 프레임들이 스테레오 카메라 프레임들인 한편, 도 7에서, 두 개의 프레임들은 하나의 카메라 프레임 및 하나의 DVS 프레임이다.

S209에서, DVS 프레임 상의 재투영된 포인트들이 DVS 프레임 상에서 새로운 검출 결과를 생성, 즉 자동 라벨링된 DVS 프레임을 생성하기 위해 조합될 수 있다. 원하는 오브젝트의 3D 포인트들을 재투영하여 DVS 프레임 상의 포인트들의 위치들을 얻은 후에, DVS 프레임 상의 대응하는 검출 결과를 얻는 것이 가능하다. 예를 들어, 직사각형 결과가 필요하다면, DVS 프레임 상의 모든 재투영된 포인트들을 포함하도록 직사각형이 만들어진다. 예를 들어, 윤곽 결과가 필요하다면, DVS 프레임 상의 재투영된 포인트들이 모든 포인트들 중 하나씩 가장 가까운 포인트에 각각 연결된다. 도 8에 제시된 예에 의해 설명된 바와 같이, DVS 프레임 상의 재투영된 포인트들을 사용함으로써 자동 라벨링된 결과가 생성될 것이다. 도 8은 최종 결과의 예상되는 효과의 예를 제시한다. 도 8의 좌측 이미지는 좌측 카메라 프레임이며, 우측 이미지는 DVS 프레임이다. 우측 이미지 상의 점들은 DVS 프레임 상의 재투영된 3D 포인트들의 위치들을 나타낸다. 직사각형은 DVS 프레임 상의 자동 라벨링된 결과이다. 도 8은 단순히 예시를 위한 것이고, 실제 경우들에서, DVS 프레임 상에는 훨씬 더 많은 재투영된 포인트들이 있다.

상기한 자동 라벨링 방법을 사용함으로써, 프레임이 많은 DVS 프레임들을 라벨링하기 위해 하나의 카메라가 사용될 수 있는데, 이는 DVS의 FPS(Frames Per Second)가 기존의 카메라보다 훨씬 더 높기 때문이며, 이는 자동 라벨링의 효율을 더 개선할 수 있다. 도 10은 하나의 카메라 프레임 및 이의 대응하는 자동 라벨링된 DVS 프레임들을 제시한다. 이들 DVS 프레임들은 연속적인 프레임들이다.

본 개시에 설명된 방법, 장치 및 시스템은 DVS 프레임들의 보다 효율적이고 정확한 자동 라벨링을 실현할 수 있다. 본 개시의 방법, 장치 및 시스템은 카메라들의 쌍을 DVS와 바인딩하고, 동시에 동일한 장면을 레코딩한다. 획득된 카메라 프레임과 DVS 프레임의 조합된 사용에 기초하여, DVS 프레임들은 이들이 레코딩됨과 동시에, 자동으로 라벨링될 수 있다. 그 결과, DVS 딥 러닝 트레이닝을 위한 방대한 양의 라벨링된 데이터가 가능할 것이다. 기존의 접근법과 비교하여, 본 개시에서 설명되는 방법, 장치 및 시스템은 DVS의 장점들을 충분히 활용하고, 보다 정확하고 효율적인 자동 라벨링을 수행할 수 있다.

1. 일부 실시예들에서, 동적 비전 센서(dynamic vision sensor, DVS) 프레임들을 자동 라벨링하기 위한 방법으로서, 일정 구간 내에서 카메라들의 쌍에 의해 생성된 카메라 프레임들의 쌍을 수신하고, 구간 내에서 DVS에 의해 생성된 적어도 하나의 DVS 프레임을 수신하는 단계; 카메라 프레임들의 쌍에 기초하여 디스패리티 프레임을 계산하고, 계산된 디스패리티 프레임에 기초하여 카메라 프레임들의 쌍의 3D 정보를 획득하는 단계; 딥 러닝 모델을 사용하여 자동 라벨링하기 위한 오브젝트 영역을 결정하는 단계; 획득된 3D 정보 및 결정된 오브젝트 영역에 기초하여 3D 포인트들을 획득하고, 3D 포인트들을 적어도 하나의 DVS 프레임을 향해 재투영하여 적어도 하나의 DVS 프레임 상의 재투영된 포인트들을 생성하는 단계; 및 적어도 하나의 DVS 프레임 상의 재투영된 포인트들을 조합함으로써 적어도 하나의 DVS 프레임 상에서 적어도 하나의 자동 라벨링된 결과를 생성하는 단계를 포함하는, 방법.

2. 제1 조항에 있어서, 카메라들의 쌍은 좌측 카메라 및 우측 카메라를 포함하며, DVS는 좌측 카메라 및 우측 카메라와 고정적으로 조합되도록 배열된 것을 더 포함하는, 방법.

3. 제1 조항 또는 제2 조항에 있어서, 자동 라벨링하기 위한 오브젝트 영역을 결정하는 단계는: 카메라 프레임들의 쌍으로부터 하나의 카메라 프레임을 딥 러닝 모델의 입력으로서 선택하는 단계, 및 딥 러닝 모델의 출력에 기초하여 자동 라벨링하기 위한 오브젝트 영역을 결정하는 단계를 더 포함하는 것인, 방법.

4. 제1 조항 내지 제3 조항 중 어느 하나에 있어서, 3D 정보는 3D 포인트들을 포함하며, 3D 포인트들 각각은 하나의 카메라 프레임 내의 각 픽셀에 대응하는 공간 위치/좌표를 나타내는 것인, 방법.

5. 제1 조항 내지 제4 조항 중 어느 하나에 있어서, 구간은 두 개의 연속적인 카메라 프레임들 사이의 시간 범위(timespan)에 기초하여 미리 결정되는 것인, 방법.

6. 제1 조항 내지 제5 조항 중 어느 하나에 있어서, 구간 내에서 DVS에 의해 적어도 하나의 DVS 프레임을 생성하는 단계는: 구간 내의 픽셀 이벤트들을 통합하여 적어도 하나의 DVS 프레임을 생성하는 단계를 포함하는, 방법.

7. 제1 조항 내지 제6 조항 중 어느 하나에 있어서, 장면(scene)에서 동적 변화가 있는지 여부를 결정하는 단계; 및 장면에서 동적 변화가 있다면 DVS 및 카메라들의 쌍을 활성화하는 단계를 더 포함하는, 방법.

8. 제1 조항 내지 제7 조항 중 어느 하나에 있어서,동적 변화는 오브젝트의 세기 변화 및 움직임 중 적어도 하나를 포함하는 것인, 방법.

9. 일부 실시예들에서, 동적 비전 센서(DVS) 프레임들을 자동 라벨링하기 위한 시스템으로서, 일정 구간 내에서 카메라 프레임들의 쌍을 생성하도록 구성된 카메라들의 쌍; 구간 내에서 적어도 하나의 DVS 프레임을 생성하도록 구성된 DVS; 및 프로세서, 및 프로세서에 의해 실행가능한 명령어들을 저장하는 메모리 유닛을 포함하는 컴퓨팅 디바이스를 포함하며, 프로세서는: 카메라 프레임들의 쌍에 기초하여 디스패리티 프레임을 계산하고, 계산된 디스패리티 프레임에 기초하여 카메라 프레임들의 쌍의 3D 정보를 획득하도록; 딥 러닝 모델을 사용하여 자동 라벨링하기 위한 오브젝트 영역을 결정하도록; 획득된 3D 정보 및 결정된 오브젝트 영역에 기초하여 3D 포인트들을 획득하고, 3D 포인트들을 적어도 하나의 DVS 프레임을 향해 재투영하여 적어도 하나의 DVS 프레임 상의 재투영된 포인트들을 생성하도록; 그리고 적어도 하나의 DVS 프레임 상의 재투영된 포인트들을 조합함으로써 적어도 하나의 DVS 프레임 상에서 적어도 하나의 자동 라벨링된 결과를 생성하도록 실행가능한 것인, 시스템.

10. 제9 조항에 있어서, 카메라들의 쌍은 좌측 카메라 및 우측 카메라를 포함하고, 그리고 DVS는 좌측 카메라 및 우측 카메라와 고정적으로 조합되도록 배열된 것인, 시스템.

11. 제9 조항 또는 제10 조항에 있어서, 프로세서는 또한: 카메라 프레임들의 쌍으로부터 하나의 카메라 프레임을 딥 러닝 모델의 입력으로서 선택하도록, 그리고 딥 러닝 모델의 출력에 기초하여 자동 라벨링하기 위한 오브젝트 영역을 결정하도록 구성된 것인, 시스템.

12. 제9 조항 내지 제11 조항 중 어느 하나에 있어서, 3D 정보는 3D 포인트들을 포함하며, 3D 포인트들 각각은 카메라 프레임들 내의 각 픽셀에 대응하는 공간 위치/좌표를 나타내는 것인, 시스템.

13. 제9 조항 내지 제12 조항 중 어느 하나에 있어서, 적어도 하나의 DVS 프레임은 구간 내의 픽셀 이벤트들을 통합함으로써 생성된 것인, 시스템.

14. 제9 조항 내지 제13 조항 중 어느 하나에 있어서, 구간은 두 개의 연속적인 카메라 프레임들 사이의 시간 범위에 기초하여 미리 결정되는 것인, 시스템.

15. 제9 조항 내지 제14 조항 중 어느 하나에 있어서, 프로세서는 또한: 장면에서 동적 변화가 있는지 여부를 결정하도록; 그리고 장면에서 동적 변화가 있다면 DVS 및 카메라들의 쌍을 활성화하도록 구성된 것인, 시스템.

16. 제9 조항 내지 제15 조항 중 어느 하나에 있어서, 동적 변화는 오브젝트의 세기 변화 및 움직임 중 적어도 하나를 포함하는 것인, 시스템.

17. 일부 실시예들에서, 동적 비전 센서(DVS) 프레임들을 자동 라벨링하기 위한 장치로서, 프로세서, 및 프로세서에 의해 실행가능한 명령어들을 저장하는 메모리 유닛을 포함하는 컴퓨팅 디바이스를 포함하며, 프로세서는: 일정 구간 내에서 카메라들의 쌍에 의해 생성된 카메라 프레임들의 쌍을 수신하고, 구간 내에서 DVS에 의해 생성된 적어도 하나의 DVS 프레임을 수신하도록; 카메라 프레임들의 쌍에 기초하여 디스패리티 프레임을 계산하고, 계산된 디스패리티 프레임에 기초하여 카메라 프레임들의 쌍의 3D 정보를 획득하도록; 딥 러닝 모델을 사용하여 자동 라벨링하기 위한 오브젝트 영역을 결정하도록; 획득된 3D 정보 및 결정된 오브젝트 영역에 기초하여 3D 포인트들을 획득하고, 3D 포인트들을 적어도 하나의 DVS 프레임을 향해 재투영하여 적어도 하나의 DVS 프레임 상의 재투영된 포인트들을 생성하도록; 그리고 적어도 하나의 DVS 프레임 상의 재투영된 포인트들을 조합함으로써 적어도 하나의 DVS 프레임 상에서 적어도 하나의 자동 라벨링된 결과를 생성하도록 실행가능한 것인, 장치.

다양한 실시예들에 대한 설명이 예시를 위해 제시되었지만, 완전한 것으로 또는 개시된 실시예들로 제한되는 것으로 의도되지는 않는다. 많은 변형 및 변경이 설명된 실시예들의 범위 및 사상으로부터 벗어나지 않고 해당 기술분야의 통상의 기술자들에게 명백해질 것이다. 본 명세서에서 사용된 용어는 시장에서 찾아지는 기술들에 비한 실시예들의 원리들, 실제 적용예 또는 기술적 개선점을 가장 잘 설명하도록, 또는 해당 기술분야의 다른 통상의 기술자들이 본 명세서에서 개시된 실시예들을 이해할 수 있게 하도록 선택되었다.

전술한 내용에서, 본 개시에서 제시된 실시예들에 대한 참조 부호가 만들어진다. 그러나, 본 개시의 범위는 특정 설명된 실시예들로 제한되지 않는다. 대신에, 상이한 실시예들에 관련되든 관련되지 않든, 전술한 특징들 및 요소들의 임의의 조합이 고려되는 실시예들을 구현하고 실시하도록 고려된다. 또한, 본 명세서에서 개시된 실시예들이 다른 가능한 해결책들에 비해 또는 종래 기술에 비해 장점들을 달성할 수 있지만, 주어진 실시예에 의해 특정 이점이 달성되는지 여부에 관계없이 본 개시의 범위를 제한하지 않는다. 따라서, 전술한 양태들, 특징들, 실시예들 및 장점들은 단지 예시일 뿐이고, 청구항(들)에서 명시적으로 인용되는 경우를 제외하고는 첨부된 청구항들의 요소들 또는 제한들로 간주되지 않는다.

본 개시의 양태들은 전적으로 하드웨어 실시예, 전적으로 소프트웨어 실시예(펌웨어, 상주 소프트웨어, 마이크로-코드 등을 포함함) 또는 본 명세서에서 "회로", "모듈" 또는 "시스템"으로 통칭될 수 있는 모든 소프트웨어와 하드웨어 양태들을 조합하는 실시예의 형태를 취할 수 있다.

하나 이상의 컴퓨터 판독가능 매체(들)의 임의의 조합이 이용될 수 있다. 컴퓨터 판독가능 매체는 컴퓨터 판독가능 신호 매체 또는 컴퓨터 판독가능 저장 매체일 수 있다. 컴퓨터 판독가능 저장 매체는 예를 들어, 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치, 또는 디바이스, 또는 전술한 것의 임의의 적절한 조합일 수 있지만, 이에 제한되는 것은 아니다. 컴퓨터 판독가능 저장 매체의 보다 구체적인 예들(불완전한 리스트)은 하나 이상의 와이어를 갖는 전기 연결, 휴대용 컴퓨터 디스켓, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거가능 프로그램가능 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 디바이스, 자기 저장 디바이스, 또는 전술한 것의 임의의 적절한 조합을 포함할 것이다. 본 문헌의 맥락에서, 컴퓨터 판독가능 저장 매체는 명령어 실행 시스템, 장치 또는 디바이스에 의해 또는 이와 관련하여 사용하기 위한 프로그램을 포함하거나, 또는 저장할 수 있는 임의의 유형 매체일 수 있다.

본 개시의 양태들은 본 개시의 실시예들에 따른 방법들, 장치들(시스템들) 및 컴퓨터 프로그램 제품들의 흐름도들 및/또는 블록도들을 참조하여 위에서 설명되었다. 흐름도들 및/또는 블록도들의 각 블록, 및 흐름도들 또는 블록도들의 블록들의 조합들은 컴퓨터 프로그램 명령어들에 의해 구현될 수 있다는 것이 이해될 것이다. 이러한 컴퓨터 프로그램 명령어들은 범용 컴퓨터, 특수 목적 컴퓨터, 또는 기계를 생성하기 위한 다른 프로그램가능 데이터 프로세싱 장치의 프로세서에 제공될 수 있어서, 컴퓨터 또는 다른 프로그램가능 데이터 프로세싱 장치의 프로세서를 통해 실행되는 명령어들은 흐름도 및/또는 블록도 블록 또는 블록들에서 특정된 기능들/동작들의 구현을 가능하게 한다. 이와 같은 프로세서들은 제한 없이, 범용 프로세서들, 전용 프로세서들, 용도 특정 프로세서들, 또는 필드 프로그래머블 프로세서들일 수 있다.

전술한 것은 본 개시의 실시예들에 관한 것이지만, 다른 예들 및 본 개시의 추가 실시예들이 그 기본 범위로부터 벗어나지 않으면서 고안될 수 있고, 그 범위는 다음의 청구항들에 의해 결정된다.

Claims

동적 비전 센서(dynamic vision sensor, DVS) 프레임들을 자동 라벨링하기 위한 방법으로서,
일정 구간 내에서 카메라들의 쌍에 의해 생성된 카메라 프레임들의 쌍을 수신하고, 상기 구간 내에서 DVS에 의해 생성된 적어도 하나의 DVS 프레임을 수신하는 단계;
상기 카메라 프레임들의 쌍에 기초하여 디스패리티 프레임(disparity frame)을 계산하고, 상기 계산된 디스패리티 프레임에 기초하여 상기 카메라 프레임들의 쌍의 3D 정보를 획득하는 단계;
딥 러닝 모델을 사용하여 자동 라벨링하기 위한 오브젝트 영역을 결정하는 단계;
상기 획득된 3D 정보 및 상기 결정된 오브젝트 영역에 기초하여 3D 포인트들을 획득하고, 상기 3D 포인트들을 상기 적어도 하나의 DVS 프레임을 향해 재투영하여 상기 적어도 하나의 DVS 프레임 상의 재투영된 포인트들을 생성하는 단계; 및
상기 적어도 하나의 DVS 프레임 상의 상기 재투영된 포인트들을 조합함으로써 상기 적어도 하나의 DVS 프레임 상에서 적어도 하나의 자동 라벨링된 결과를 생성하는 단계를 포함하는, 방법.
제1항에 있어서,
상기 카메라들의 쌍은 좌측 카메라 및 우측 카메라를 포함하며,
상기 DVS는 상기 좌측 카메라 및 상기 우측 카메라와 고정적으로 조합되도록 배열된 것인, 방법.
제1항 또는 제2항에 있어서, 상기 자동 라벨링하기 위한 오브젝트 영역을 결정하는 단계는:
상기 카메라 프레임들의 쌍으로부터 하나의 카메라 프레임을 딥 러닝 모델의 입력으로서 선택하는 단계, 및
상기 딥 러닝 모델의 출력에 기초하여 자동 라벨링하기 위한 오브젝트 영역을 결정하는 단계를 더 포함하는 것인, 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 3D 정보는 3D 포인트들을 포함하며, 상기 3D 포인트들 각각은 하나의 카메라 프레임 내의 각 픽셀에 대응하는 공간 위치/좌표를 나타내는 것인, 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 구간은 두 개의 연속적인 카메라 프레임들 사이의 시간 범위(timespan)에 기초하여 미리 결정되는 것인, 방법.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 적어도 하나의 DVS 프레임은 상기 구간 내의 픽셀 이벤트들을 통합함으로써 생성된 것인, 방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
장면(scene)에서 동적 변화가 있는지 여부를 결정하는 단계; 및
상기 장면에서 동적 변화가 있다면 상기 DVS 및 상기 카메라들의 쌍을 활성화하는 단계를 더 포함하는, 방법.
제1항 내지 제7항 중 어느 한 항에 있어서, 상기 동적 변화는 오브젝트의 세기 변화 및 움직임 중 적어도 하나를 포함하는 것인, 방법.
동적 비전 센서(DVS) 프레임들을 자동 라벨링하기 위한 시스템으로서,
일정 구간 내에서 카메라 프레임들의 쌍을 생성하도록 구성된 카메라들의 쌍;
상기 구간 내에서 적어도 하나의 DVS 프레임을 생성하도록 구성된 DVS; 및
프로세서, 및 상기 프로세서에 의해 실행가능한 명령어들을 저장하는 메모리 유닛을 포함하는 컴퓨팅 디바이스를 포함하며, 상기 명령어들은 상기 프로세서에 의해:
상기 카메라 프레임들의 쌍에 기초하여 디스패리티 프레임을 계산하고, 상기 계산된 디스패리티 프레임에 기초하여 상기 카메라 프레임들의 쌍의 3D 정보를 획득하는 것;
딥 러닝 모델을 사용하여 자동 라벨링하기 위한 오브젝트 영역을 결정하는 것;
상기 획득된 3D 정보 및 상기 결정된 오브젝트 영역에 기초하여 3D 포인트들을 획득하고, 상기 3D 포인트들을 상기 적어도 하나의 DVS 프레임을 향해 재투영하여 상기 적어도 하나의 DVS 프레임 상의 재투영된 포인트들을 생성하는 것; 및
상기 적어도 하나의 DVS 프레임 상의 상기 재투영된 포인트들을 조합함으로써 상기 적어도 하나의 DVS 프레임 상에서 적어도 하나의 자동 라벨링된 결과를 생성하는 것을 실행가능하도록 하는 것인, 시스템.
제9항에 있어서, 상기 카메라들의 쌍은 좌측 카메라 및 우측 카메라를 포함하고, 그리고 상기 DVS는 상기 좌측 카메라 및 상기 우측 카메라와 고정적으로 조합되도록 배열된 것인, 시스템.
제9항 또는 제10항에 있어서, 상기 프로세서는:
상기 카메라 프레임들의 쌍으로부터 하나의 카메라 프레임을 딥 러닝 모델의 입력으로서 선택하고, 및
상기 딥 러닝 모델의 출력에 기초하여 자동 라벨링하기 위한 오브젝트 영역을 결정하도록, 더 구성된 것인, 시스템.
제9항 내지 제11항 중 어느 한 항에 있어서, 상기 3D 정보는 3D 포인트들을 포함하며, 상기 3D 포인트들 각각은 상기 카메라 프레임들 내의 각 픽셀에 대응하는 공간 위치/좌표를 나타내는 것인, 시스템.
제9항 내지 제12항 중 어느 한 항에 있어서, 상기 적어도 하나의 DVS 프레임은 상기 구간 내의 픽셀 이벤트들을 통합함으로써 생성된 것인, 시스템.
제9항 내지 제13항 중 어느 한 항에 있어서, 상기 구간은 두 개의 연속적인 카메라 프레임들 사이의 시간 범위에 기초하여 미리 결정되는 것인, 시스템.
제9항 내지 제14항 중 어느 한 항에 있어서, 상기 프로세서는:
장면에서 동적 변화가 있는지 여부를 결정하고, 및
상기 장면에서 동적 변화가 있다면 상기 DVS 및 상기 카메라들의 쌍을 활성화하도록, 더 구성된 것인, 시스템.
제9항 내지 제15항 중 어느 한 항에 있어서, 상기 동적 변화는 오브젝트의 세기 변화 및 움직임 중 적어도 하나를 포함하는 것인, 시스템.
동적 비전 센서(DVS) 프레임들을 자동 라벨링하기 위한 장치로서,
프로세서, 및 상기 프로세서에 의해 실행가능한 메모리 유닛 명령어들을 포함하는 컴퓨팅 디바이스를 포함하며, 상기 명령어들은 상기 프로세서에 의해:
일정 구간 내에서 카메라들의 쌍에 의해 생성된 카메라 프레임들의 쌍을 수신하고, 상기 구간 내에서 DVS에 의해 생성된 적어도 하나의 DVS 프레임을 수신하는 것;
상기 카메라 프레임들의 쌍에 기초하여 디스패리티 프레임을 계산하고, 상기 계산된 디스패리티 프레임에 기초하여 상기 카메라 프레임들의 쌍의 3D 정보를 획득하는 것;
딥 러닝 모델을 사용하여 자동 라벨링하기 위한 오브젝트 영역을 결정하는 것;
상기 획득된 3D 정보 및 상기 결정된 오브젝트 영역에 기초하여 3D 포인트들을 획득하고, 상기 3D 포인트들을 상기 적어도 하나의 DVS 프레임을 향해 재투영하여 상기 적어도 하나의 DVS 프레임 상의 재투영된 포인트들을 생성하는 것; 및
상기 적어도 하나의 DVS 프레임 상의 상기 재투영된 포인트들을 조합함으로써 상기 적어도 하나의 DVS 프레임 상에서 적어도 하나의 자동 라벨링된 결과를 생성하는 것을 실행가능하도록 하는 것인, 시스템.