KR20200066371A

KR20200066371A - 이벤트 카메라-기반 변형가능 물체 추적

Info

Publication number: KR20200066371A
Application number: KR1020207014546A
Authority: KR
Inventors: 피터 카우프만; 다니엘 쿠르즈; 브라이언 앰버그; 양하이 친
Original assignee: 애플 인크.
Priority date: 2017-11-14
Filing date: 2018-11-13
Publication date: 2020-06-09
Also published as: CN111417983A; US20200273180A1; EP3711024B1; WO2019099337A1; EP3711024A1; KR102437456B1; CN111417983B; US11379996B2

Abstract

본 명세서에 개시된 다양한 구현예들은 얼굴들, 손들, 및 다른 신체 부분들과 같은 변형가능 물체들을 추적하기 위해 이벤트 카메라 데이터를 사용하는 디바이스들, 시스템들, 및 방법들을 포함한다. 하나의 예시적인 구현예는 이벤트 카메라에 의해 출력된 픽셀 이벤트들의 스트림을 수신하는 것을 수반한다. 디바이스는 이러한 데이터를 사용하여 변형가능 물체를 추적한다. 다양한 구현예들은, 물체의 동적 표현을 생성하고, 이벤트 카메라에 의해 출력된 부가적인 픽셀 이벤트들을 획득하는 것에 응답하여 물체의 동적 표현을 수정함으로써 이를 행한다. 일부 구현예들에서, 물체의 동적 표현을 생성하는 것은, 픽셀 이벤트들의 스트림을 사용하여 물체의 변형가능 표면 상에 배치된 특징부들을 식별하는 것을 수반한다. 특징부들은 픽셀 이벤트들의 패턴들을 식별함으로써 결정된다. 새로운 이벤트 스트림 데이터가 수신됨에 따라, 픽셀 이벤트들의 패턴들이 새로운 데이터에서 인식되고, 물체의 동적 표현을 수정하는 데 사용된다.

Description

이벤트 카메라-기반 변형가능 물체 추적

본 개시내용은 일반적으로 물체 추적에 관한 것으로, 특히 이벤트 카메라 데이터를 사용하여 얼굴들, 손들, 및 다른 신체 부분들과 같은 변형가능 물체들을 추적하기 위한 시스템들, 방법들, 및 디바이스들에 관한 것이다.

기존의 물체 추적 시스템들은 물체들의 3차원 모델들과 같은 물체들의 모델들을 결정하기 위해 물체들의 셔터-기반 카메라 이미지들을 사용한다. 기존의 물체 추적 시스템들은 종종, 추적을 수행하는 프로세서에 물체들의 이미지들을 송신하는 카메라를 포함한다. 실시간으로 변형가능 물체들의 추적을 가능하게 하기에 충분한 프레임 레이트 및 해상도로의 이미지들의 송신은 종종 상당한 대역폭을 갖는 통신 링크를 요구한다. 그러한 통신 링크를 사용하는 것은 디바이스에 의한 전력 소비 및 생성된 열을 증가시킨다.

본 명세서에 개시된 다양한 구현예들은 얼굴들, 손들, 및 다른 신체 부분들과 같은 변형가능 물체들을 추적하기 위해 이벤트 카메라 데이터를 사용하는 디바이스들, 시스템들, 및 방법들을 포함한다. 하나의 예시적인 구현예는 하나 이상의 프로세서들 및 컴퓨터 판독가능 저장 매체를 갖는 디바이스에서 동작들을 수행하는 것을 수반한다. 디바이스는 이벤트 카메라에 의해 출력된 픽셀 이벤트들의 스트림을 수신한다. 이벤트 카메라는 변형가능 물체로부터 광을 수신하도록 위치된 픽셀 센서들을 갖는다. 각각의 개개의 픽셀 이벤트는, 개개의 픽셀 센서가 비교기 임계치를 초과하는 광의 세기(예를 들어, 로그(log) 세기)의 변화를 개개의 이벤트 카메라 픽셀에서 검출하는 것에 응답하여 생성된다. 디바이스는 다수의 이벤트 카메라 픽셀들에 대한 픽셀 이벤트들을 누적함으로써 픽셀 이벤트들의 스트림으로부터 이미지를 도출한다. 디바이스는 이러한 데이터를 사용하여 변형가능 물체를 추적한다. 다양한 구현예들은, 물체의 동적 표현을 생성하고, 이벤트 카메라에 의해 출력된 부가적인 픽셀 이벤트들을 획득하는 것에 응답하여 물체의 동적 표현을 수정함으로써 이를 행한다. 일부 구현예들에서, 물체의 동적 표현을 생성하는 것은, 픽셀 이벤트들의 스트림을 사용하여 물체의 변형가능 표면 상에 배치된 특징부들을 식별하는 것을 수반한다. 특징부들은 픽셀 이벤트들의 패턴들을 식별함으로써 결정되고, 특징부들은 물체의 동적 표현으로 표현된다. 새로운 이벤트 스트림 데이터가 수신됨에 따라, 픽셀 이벤트들의 패턴들이 새로운 데이터에서 인식되고, 물체의 동적 표현을 수정하는 데 사용된다. 예를 들어, 사람의 코의 끝에서의 특징부에 대해 식별된 픽셀들의 패턴이 식별되고, 사람의 얼굴이 변화됨에 따라 사람의 얼굴의 동적 표현에서 사람의 코의 위치를 조정하는 데 사용될 수 있다.

일부 구현예들에 따르면, 디바이스는 하나 이상의 프로세서들, 비일시적 메모리, 및 하나 이상의 프로그램들을 포함하고; 하나 이상의 프로그램들은 비일시적 메모리에 저장되며 하나 이상의 프로세서들에 의해 실행되도록 구성되고, 하나 이상의 프로그램들은 본 명세서에 설명된 방법들 중 임의의 방법을 수행하거나 또는 수행하게 하기 위한 명령어들을 포함한다. 일부 구현예들에 따르면, 비일시적 컴퓨터 판독가능 저장 매체는, 디바이스의 하나 이상의 프로세서들에 의해 실행될 때, 디바이스로 하여금, 본 명세서에 설명되는 방법들 중 임의의 방법을 수행하게 하거나 수행을 야기하는 명령어들을 내부에 저장한다. 일부 구현예들에 따르면, 디바이스는 하나 이상의 프로세서들, 비일시적 메모리, 및 본 명세서에 설명되는 방법들 중 임의의 방법을 수행하거나 수행을 야기하기 위한 수단을 포함한다.

본 개시내용이 당업자들에 의해 이해될 수 있도록, 더 상세한 설명이 일부 예시적인 구현예들의 양태들에 대한 참조에 의해 이루어질 수 있으며, 이들 중 일부는 첨부 도면들에 도시된다.
도 1은 일부 구현예들에 따른, 단일 이벤트 카메라를 수반하는 예시적인 동작 환경의 블록도이다.
도 2는 일부 구현예들에 따른, 다수의 이벤트 카메라들을 수반하는 예시적인 동작 환경의 블록도이다.
도 3은 일부 구현예들에 따른 예시적인 제어기의 블록도이다.
도 4는 일부 구현예들에 따른, 이벤트 카메라-기반 변형가능 물체 추적 프로세스를 예시한 기능 블록도를 예시한다.
도 5는 일부 구현예들에 따른 이벤트 카메라의 블록도를 예시한다.
도 6은 일부 구현예들에 따른, 이벤트 카메라-기반 변형가능 물체 추적 방법의 흐름도 표현이다.
도 7은 일부 구현예들에 따른, 상이한 시점들에서의 이벤트 카메라 데이터의 패턴을 예시한다.
도 8은 일부 구현예들에 따른, 추적을 위해 콘볼루셔널 신경망(convolutional neural network)을 사용하는 시스템을 예시한 기능 블록도이다.
도 9는 일부 구현예들에 따른, 제1 시점에서의 변형가능 물체의 동적 물체 표현을 예시한다.
도 10은 일부 구현예들에 따른, 제2 시점에서의 도 9의 변형가능 물체의 동적 물체 표현을 예시한다.
도 11은 2개의 이벤트 카메라들을 사용하는 사람 얼굴 추적 애플리케이션에 대한 가능한 이벤트 카메라 배치들 및 배향들을 예시한다.
일반적인 실시에 따라, 도면들에 예시된 다양한 특징부들은 축척대로 그려지지 않을 수 있다. 따라서, 다양한 특징부들의 치수는 명료함을 위해 임의대로 확대 또는 축소될 수 있다. 부가적으로, 도면들 중 일부는 주어진 시스템, 방법 또는 디바이스의 컴포넌트들 모두를 도시하지는 않을 수 있다. 마지막으로, 동일한 도면 번호들은 명세서 및 도면들 전반에 걸쳐 동일한 특징부를 나타내기 위해 사용될 수 있다.

도면들에 도시된 예시적인 구현예들의 완전한 이해를 제공하기 위해 다수의 세부사항들이 설명된다. 그러나, 도면들은 단지 본 개시내용의 일부 예시적인 양태들만을 도시할 뿐이며, 따라서 제한적인 것으로 고려되지 않는다. 당업자들은 다른 효과적인 양태들 및/또는 변형들이 본 명세서에 설명되는 특정 세부사항들 모두를 포함하지는 않음을 인식할 것이다. 또한, 잘 알려진 시스템들, 방법들, 컴포넌트들, 디바이스들 및 회로들은 본 명세서에 설명되는 예시적인 구현예들의 더 적절한 양태들을 불명확하게 하지 않기 위해 철저히 상세하게 설명되지 않았다.

다양한 구현예들에서, 물체 추적 시스템은 하나 이상의 카메라들, 및 물체로부터 반사되는 광원으로부터의 광에 관한, 카메라(들)로부터 수신된 데이터에 대해 변형가능 물체 추적을 수행하는 프로세서를 포함한다. 다양한 구현예들에서, 카메라(들)는, 특정 광 센서가 광의 세기(예를 들어, 로그 세기)의 변화를 검출하는 것에 응답하여, 특정 광 센서의 특정 위치를 표시하는 이벤트 메시지를 생성하는, 복수의 개개의 위치들에 있는 복수의 광 센서들을 갖는 이벤트 카메라를 포함한다. 이벤트 카메라는 동적 비전 센서(DVS), 실리콘 망막, 모션 콘트라스트(contrast) 카메라, 이벤트-기반 카메라, 또는 프레임-리스(frame-less) 카메라를 포함할 수 있거나 또는 이들로 지칭될 수 있다. 따라서, 이벤트 카메라는 각각의 광 센서에서의 절대 세기에 관한 더 많은 양의 데이터와는 대조적으로 (로그) 광 세기의 변화들에 관한 데이터를 생성(및 송신)한다. 일부 구현예들에서, 이벤트 카메라(들)는 초당 1,000개의 이벤트들을 초과하는 레이트들로 (로그) 광 세기의 픽셀당 변화들을 검출하도록 구성된다.

다양한 구현예들에서, 잠재적으로 내부 상태를 갖는 추적 알고리즘은 이벤트 카메라(들)로부터 인입 이벤트들을 프로세싱하고, 관찰된 장면의 표현을 생성한다. 새로운 이벤트들 또는 이벤트들의 그룹들이 알고리즘에 입력됨에 따라, 표현은 동적으로 업데이트된다. 장면 내의 변형가능 물체(들)의 동적 물체 표현은 다양한 목적들을 위해 사용될 수 있다. 일 구현예에서, 관찰된 장면 또는 물체를 시각화하기 위해 디스플레이 스테이지가 사용된다. 디스플레이 스테이지는, 예를 들어 디바이스 상에 물체의 외관 및 동적 거동을 디스플레이할 수 있다. 다른 구현예에서, 동적 물체 표현은 추가적인 프로세싱, 디스플레이, 또는 저장을 위해 원격 참여자에게 송신된다. 다른 구현예에서, 동적 표현은 미래의 프로세싱, 디스플레이, 또는 송신을 위해 저장된다.

도 1은 일부 구현예들에 따른, 이벤트 카메라(110)를 수반하는 예시적인 동작 환경의 블록도이다. 관련 특징부들이 도시되어 있지만, 당업자는 본 개시내용으로부터, 간결함을 위해 그리고 본 명세서에 개시되는 예시적인 구현예들의 더 많은 관련 양태들을 불명료하게 하지 않도록 하기 위해 다양한 다른 특징부들이 예시되지 않았음을 인식할 것이다. 이를 위해, 비제한적인 예로서, 동작 환경(100)은 제어기(130) 및 이벤트 카메라(110)를 포함한다.

일부 구현예들에서, 제어기(130)는 소프트웨어, 펌웨어, 및/또는 하드웨어의 적합한 조합을 포함한다. 제어기(130)는 도 3에 관해 아래에서 더 상세히 설명된다. 일부 구현예들에서, 제어기(130)는 변형가능 물체(100)에 대해 로컬 또는 원격인 컴퓨팅 디바이스이다. 일 예에서, 제어기(130)는 변형가능 물체(100)가 위치되는 장면 내에 위치된 로컬 서버이다. 다른 예에서, 제어기(130)는 장면 외부에 위치된 원격 서버(예를 들어, 클라우드 서버, 중앙 서버 등)이다. 일부 구현예들에서, 제어기(130)는 하나 이상의 유선 또는 무선 통신 채널들(예를 들어, 블루투스, IEEE 802.11x, IEEE 802.16x, IEEE 802.3x 등)을 통해 이벤트 카메라(110)에 통신가능하게 커플링된다. 일부 구현예들에서, 제어기(130)의 기능들은 단일 물리적 디바이스 내의 이벤트 카메라(110)에 의해 제공되고 그리고/또는 그와 조합된다.

일부 구현예들에서, 사용자는 자신의 머리 상에 또는 그렇지 않으면 사용자의 신체에 착용되거나 부착된 디바이스 상에서 이벤트 카메라(110)를 착용한다. 일부 구현예들에서, 이벤트 카메라는 AR/VR 경험을 사용자에게 제시하도록 구성된 머리 장착형 디스플레이(HMD)의 일부이다. 다른 구현예들에서, 이벤트 카메라(110)는 콘텐츠를 사용자에게 제시하도록 구성된 핸드헬드 전자 디바이스(예를 들어, 스마트폰 또는 태블릿)의 일부이다.

이벤트 카메라(110)는 변형가능 물체(100)로부터 광(120)을 캡처하기 위해 변형가능 물체(100)에 대한 위치에 배치된다. 변형가능 물체의 비제한적인 예들은 사람 얼굴, 사람 손, 사람 모발, 다른 사람 신체 부분, 동물 또는 다른 생명체, 의류, 종이 시트, 잡지, 책, 내부 힘들 또는 그의 환경의 결과로서 시간에 걸쳐 변화되는 표면을 갖는 기계 또는 다른 인조 물체, 및 시간에 걸친 변형을 나타낼 수 있는 임의의 다른 물체를 포함하지만 이에 제한되지 않는다. 본 명세서에 개시된 기법들은 장면 내의 하나 이상의 물체들을 추적하는 데 사용될 수 있으며, 따라서, 일부 구현예들에서, 개별 물체들을 추적하고 다른 구현예들에서는 3D 장면을 추적하는 데 사용될 수 있다. 물체 또는 장면에 관한 추적된 정보는 물체 또는 장면의 변형을 기록하거나, 모방하거나, 재생하거나, 또는 해석하는 것을 수반하는 목적들을 포함하지만 이에 제한되지 않는 많은 목적들을 위해 사용될 수 있다.

도 2는 일부 구현예들에 따른, 다수의 이벤트 카메라들(110, 120)을 수반하는 예시적인 동작 환경의 블록도이다. 이러한 예에서, 이벤트 카메라들(110, 120)은 상이한 각도들로부터 변형가능 물체(100)에서 발생하는 이벤트들(예를 들어, 픽셀들에서의 로그 세기 변화들)을 캡처하도록 위치된다. 이벤트 카메라들(110, 120)의 상대적인 위치들은 시간에 걸쳐 생성되는 3차원 모델 또는 다른 동적 물체 표현의 외관을 향상시키기 위해 상이한 관점들로부터의 정보를 캡처하도록 선택될 수 있다. 예를 들어, 변형가능 물체(100)가 사람 얼굴이면, 이벤트 카메라(110)는 좌측으로부터 얼굴의 뷰(예를 들어, 수직으로부터 45도)를 캡처하도록 위치될 수 있고, 이벤트 카메라(120)는 우측으로부터 얼굴의 뷰(예를 들어, 수직으로부터 -45도)를 캡처하도록 위치될 수 있다. 아래에서 논의되는 도 11은 사람 얼굴을 추적하도록 위치 및 배향되는 2개의 이벤트 카메라들을 예시한다.

다른 구현예에서, 다수의 이벤트 카메라는 서로 일정 거리(예를 들어, 2인치, 3인치, 4인치, 5인치, 10인치 등)로 모바일 폰, 태블릿, 또는 다른 디바이스의 평평한 표면 상에서 상이한 위치들에 위치된다. 서로로부터의 거리는 상이한 이벤트 카메라들이 상이한 상대적인 위치들로부터의 얼굴 또는 다른 변형가능 물체의 뷰들을 캡처하게 허용한다. 상이한 위치들로부터 변형가능 물체의 픽셀 이벤트들을 캡처하기 위해 다수의 이벤트 카메라들(110, 120)을 사용하는 것은 시간에 걸쳐 생성되는 3차원 모델 또는 다른 동적 물체 표현의 외관을 향상시킬 수 있다.

도 3은 일부 구현예들에 따른 제어기(130)의 일 예의 블록도이다. 소정의 특정 특징부들이 예시되어 있지만, 당업자들은 본 개시내용으로부터 다양한 다른 특징부들이 간결함을 위해, 그리고 본 명세서에 개시된 구현예들의 더 적절한 양태들을 불명확하게 하지 않기 위해 예시되지 않았음을 인식할 것이다. 이를 위해, 비제한적인 예로서, 일부 구현예들에서, 제어기(130)는 하나 이상의 프로세싱 유닛들(302)(예를 들어, 마이크로프로세서들, 주문형 집적 회로(ASIC)들, 필드-프로그래밍가능 게이트 어레이(FPGA)들, 그래픽 프로세싱 유닛(GPU)들, 중앙 프로세싱 유닛(CPU)들, 프로세싱 코어들 등), 하나 이상의 입력/출력(I/O) 디바이스들(306), 하나 이상의 통신 인터페이스들(308)(예를 들어, 범용 직렬 버스(USB), 파이어와이어, 썬더볼트, IEEE 802.3x, IEEE 802.11x, IEEE 802.16x, 모바일 통신들을 위한 글로벌 시스템(GSM), 코드 분할 다중 액세스(CDMA), 시분할 다중 액세스(TDMA), 글로벌 포지셔닝 시스템(GPS), 적외선(IR), 블루투스, 지그비, 및/또는 유사한 유형의 인터페이스), 하나 이상의 프로그래밍(예를 들어, I/O) 인터페이스들(310), 메모리(320), 및 이들 및 다양한 다른 컴포넌트들을 상호연결시키기 위한 하나 이상의 통신 버스들(304)을 포함한다.

일부 구현예들에서, 하나 이상의 통신 버스들(304)은 시스템 컴포넌트들 사이의 통신을 상호연결시키고 제어하는 회로부를 포함한다. 일부 구현예들에서, 하나 이상의 I/O 디바이스들(306)은 키보드, 마우스, 터치패드, 조이스틱, 하나 이상의 마이크로폰들, 하나 이상의 스피커들, 하나 이상의 이미지 센서들, 하나 이상의 디스플레이들 등 중 적어도 하나를 포함한다.

메모리(320)는 동적-랜덤 액세스 메모리(DRAM), 정적 랜덤-액세스 메모리(SRAM), 더블-데이터-레이트 랜덤-액세스 메모리(DDR RAM), 또는 다른 랜덤-액세스 솔리드-스테이트 메모리 디바이스들과 같은 고속 랜덤-액세스 메모리를 포함한다. 일부 구현예들에서, 메모리(320)는 하나 이상의 자기 디스크 저장 디바이스들, 광 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 또는 다른 비휘발성 솔리드-스테이트 저장 디바이스들과 같은 비휘발성 메모리를 포함한다. 메모리(320)는 선택적으로, 하나 이상의 프로세싱 유닛들(302)로부터 원격으로 위치된 하나 이상의 저장 디바이스들을 포함한다. 메모리(320)는 비일시적 컴퓨터 판독가능 저장 매체를 포함한다. 일부 구현예들에서, 메모리(320) 또는 메모리(320)의 비일시적 컴퓨터 판독가능 저장 매체는 다음의 프로그램들, 모듈들 및 데이터 구조들, 또는 선택적인 운영 체제(330) 및 모듈(340)을 포함하는 그들의 서브세트를 저장한다.

운영 체제(330)는 다양한 기본 시스템 서비스들을 처리하고 하드웨어 의존 태스크들을 수행하기 위한 절차들을 포함한다. 일부 구현예들에서, 모듈(340)은 하나 이상의 사용자들에 대한 하나 이상의 변형가능 물체 추적 경험들을 관리 및 조정하도록 구성된다. 이를 위해, 다양한 구현예들에서, 모듈(340)은 데이터 획득 유닛(342), 추적 유닛(344), 조정 유닛(346), 및 렌더링 유닛(348)을 포함한다.

일부 구현예들에서, 데이터 획득 유닛(342)은 하나 이상의 이벤트 카메라들(110, 120) 및/또는 다른 디바이스들로부터 데이터(예를 들어, 제시 데이터, 상호작용 데이터, 센서 데이터, 위치 데이터 등)를 획득하도록 구성된다. 이를 위해, 다양한 구현예들에서, 데이터 획득 유닛(342)은 그에 대한 명령어들 및/또는 로직, 및 그를 위한 휴리스틱스 및 메타데이터를 포함한다.

일부 구현예들에서, 추적 유닛(344)은 하나 이상의 이벤트 카메라들(110, 120) 및/또는 다른 디바이스들로부터의 데이터를 사용하여 변형가능 물체(110)를 추적하도록 구성된다. 이를 위해, 다양한 구현예들에서, 추적 유닛(344)은 그에 대한 명령어들 및/또는 로직, 및 그를 위한 휴리스틱스 및 메타데이터를 포함한다.

일부 구현예들에서, 조정 유닛(346)은 변형가능 물체(110)의 동적 물체 표현을 제시, 송신, 또는 저장하기 위해 변형가능 물체 추적 경험을 관리 및 조정하도록 구성된다. 이를 위해, 다양한 구현예들에서, 조정 유닛(346)은 그에 대한 명령어들 및/또는 로직, 및 그를 위한 휴리스틱스 및 메타데이터를 포함한다.

일부 구현예들에서, 렌더링 유닛(348)은, 예를 들어 변형가능 물체(110)의 동적 물체 표현에 기초하여 디스플레이를 위해 콘텐츠를 렌더링하도록 구성된다. 이를 위해, 다양한 구현예들에서, 렌더링 유닛(348)은 그에 대한 명령어들 및/또는 로직, 및 그를 위한 휴리스틱스 및 메타데이터를 포함한다.

데이터 획득 유닛(342), 추적 유닛(344), 조정 유닛(346), 및 렌더링 유닛(348)이 단일 디바이스(예를 들어, 제어기(130)) 상에 존재하는 것으로 도시되어 있지만, 다른 구현예들에서, 데이터 획득 유닛(342), 추적 유닛(344), 조정 유닛(346), 및 렌더링 유닛(348)의 임의의 조합이 별개의 컴퓨팅 디바이스들에 위치될 수 있다는 것을 이해해야 한다.

게다가, 도 3은 본 명세서에 설명된 구현예들의 구조적 개략도에 반대로 특정 구현예들에 존재하는 다양한 특징부들의 기능 설명으로서 더 의도된다. 당업자들에 의해 인식되는 바와 같이, 별개로 도시된 아이템들은 조합될 수 있고 일부 아이템들은 분리될 수 있다. 예를 들어, 다양한 구현예들에서, 도 3에 별개로 도시된 일부 기능 모듈들은 단일 모듈로 구현될 수 있고, 단일 기능 블록들의 다양한 기능들은 하나 이상의 기능 블록들에 의해 구현될 수 있다. 모듈들의 실제 수량 및 특정 기능들의 분할 그리고 특징부들이 그들 사이에서 어떻게 할당되는지는 구현예들마다 변할 것이고, 일부 구현예들에서, 특정 구현예들에 대해 선택된 하드웨어, 소프트웨어, 및/또는 펌웨어의 특정 조합에 부분적으로 의존한다.

도 4는 일부 구현예들에 따른, 이벤트 카메라-기반 변형가능 물체 추적 프로세스(400)를 예시한 기능 블록도를 예시한다. 프로세스(400)는 복수의 스테이지들을 포함한다. 제1 스테이지에서, 하나 이상의 이벤트 카메라(들)(410A, 410B 내지 410N)는 높은 레이트들로(예를 들어, 초당 1000개의 이벤트들보다 큰 레이트들로) 광 세기(예를 들어, 로그 세기)의 픽셀당 변화들을 검출한다. 하나 이상의 이벤트 카메라(들)(410A, 410B 내지 410N)는 각각 복수의 개개의 위치들에서 복수의 광 센서들을 포함한다. 특정 광 센서가 광의 세기(예를 들어, 로그 세기)의 변화를 검출하는 것에 응답하여, 이벤트 카메라는 특정 광 센서의 특정 위치를 표시하는 이벤트 메시지를 생성한다. 도 5에 관해 아래에서 설명되는 바와 같이, 다양한 구현예들에서, 특정 위치는 픽셀 좌표에 의해 표시된다. 다양한 구현예들에서, 이벤트 메시지는 광의 세기의 변화의 극성을 추가로 표시한다. 다양한 구현예들에서, 이벤트 메시지는 광의 세기의 변화가 검출되었던 시간을 추가로 표시한다. 다양한 구현예들에서, 이벤트 메시지는 검출된 광의 세기를 표시하는 값을 추가로 표시한다.

이벤트 카메라 데이터는 누적되거나 달리 조합될 수 있다. 일부 구현예들에서, 이벤트 카메라 데이터는 세기 재구성 이미지를 제공하도록 조합된다. 이들 구현예들에서, 세기 재구성 이미지 생성기(도시되지 않음)는 절대 세기 값들을 재구성/추정하기 위해 시간에 걸쳐 이벤트들을 누적한다. 부가적인 이벤트들이 누적됨에 따라, 세기 재구성 이미지 생성기는 재구성 이미지에서 대응하는 값들을 변화시킨다. 이러한 방식으로, 그것은 픽셀들 중 단지 일부만이 이벤트들을 최근에 수신했을 수 있더라도 이미지의 모든 픽셀들에 대한 값들의 업데이트된 이미지를 생성 및 유지한다. 다양한 구현예들에서, 세기 재구성 이미지는 광 센서들의 개개의 위치들에 대응하는 개개의 복수의 픽셀들에서 복수의 픽셀 값들을 갖는 이미지를 포함한다. 특정 위치 및 포지티브 극성을 표시하는 이벤트 메시지를 수신할 시에 (광의 세기가 증가되었다는 것을 표시함), 양(예를 들어, 1)이 특정 위치에 대응하는 픽셀에서의 픽셀 값에 부가된다. 유사하게, 특정 위치 및 네거티브 극성을 표시하는 이벤트 메시지를 수신할 시에 (광의 세기가 감소되었다는 것을 표시함), 양은 특정 위치에 대응하는 픽셀에서의 픽셀 값으로부터 감산된다. 다양한 구현예들에서, 세기 재구성 이미지가 필터링, 예를 들어 블러링된다(blurred). 일 구현예에서, 세기 재구성 이미지는, 대응하는 광 센서들이 포지티브 극성을 갖는 마지막의 대응하는 이벤트들을 트리거했을 때를 표시하는 복수의 픽셀 값들을 갖는 포지티브 타임스탬프 이미지에 기초한다. 일 구현예에서, 세기 재구성 이미지는, 대응하는 광 센서가 네거티브 극성을 갖는 마지막의 대응하는 이벤트들을 트리거했을 때를 표시하는 복수의 픽셀 값들을 갖는 네거티브 타임스탬프 이미지에 기초한다. 일 구현예에서, 세기 재구성 이미지는, 대응하는 광 센서들로부터 수신된 이벤트 메시지들의 주파수를 측정하는 복수의 픽셀 값들을 갖는 주파수 이미지에 기초한다.

일부 구현예들에서, 하나 이상의 이벤트 카메라(들)(410A, 410B 내지 410N)는 누적된 이벤트 시간 정보를 생성하는 데 사용되는 정보를 제공한다. 일 구현예에서, 타임 스탬프 이미지 생성기(도시되지 않음)는 이벤트들의 타이밍에 관한 정보를 인코딩한다. 일 예에서, 타임 스탬프 이미지 생성기는, 각각의 픽셀에 대해 개개의 픽셀 이벤트가 수신되었던 이후의 시간의 길이를 표현하는 값들을 갖는 이미지를 생성한다. 그러한 이미지에서, 보다 최근의 이벤트들을 갖는 픽셀들은 보다 덜 최근의 이벤트들을 갖는 픽셀들보다 더 높은 세기 값들을 가질 수 있다.

제2 스테이지에서, 추적 알고리즘(420)은 변형가능 물체의 표현을 생성하기 위해 이벤트 카메라(들)(410A, 410B 내지 410N)로부터의 인입 이벤트들을 프로세싱한다. 새로운 이벤트들이 추적 알고리즘(420)에 공급됨에 따라 표현은 동적으로 업데이트된다. 따라서, 추적 알고리즘(420)은 변형가능 물체의 동적 물체 표현(430)을 생성 및 업데이트한다. 동적 물체 표현(430)을 이용하는 선택적인 스테이지들은 변형가능 물체를 시각화하는 것을 가능하게 하는 디스플레이 스테이지(440)를 포함한다. 예를 들어, 변형가능 물체의 렌더링이 동적 물체 표현(430)에 기초하여 생성 및 업데이트될 수 있다. 동적 물체 표현(430)을 이용하는 다른 선택적인 스테이지는 추가적인 프로세싱 또는 저장을 위해 동적 물체 표현(430)을 원격 참여자에게 송신하는 것을 수반하는 송신 스테이지(450)이다. 동적 물체 표현(430)을 이용하는 또 다른 선택적인 스테이지는 미래의 프로세싱, 디스플레이, 또는 송신을 위해 동적 물체 표현(430)을 저장하는 저장 스테이지(460)를 포함한다.

도 5은 일부 구현예들에 따른 이벤트 카메라(500)의 기능 블록도를 예시한다. 이벤트 카메라(500)는 메시지 생성기(532)에 각각 커플링된 복수의 광 센서들(515)을 포함한다. 다양한 구현예들에서, 복수의 광 센서들(515)은 행들 및 열들의 매트릭스(510)에 배열되고, 그에 따라, 복수의 광 센서들(515) 각각은 행 값 및 열 값과 연관된다.

복수의 광 센서들(515) 각각은 광 센서(520)를 포함한다. 광 센서(520)는 소스 전압과 접지 전압 사이의 저항기(523)와 직렬로 포토다이오드(521)를 포함한다. 포토다이오드(521)에 걸친 전압은 광 센서(520)에 충돌하는 광의 세기에 비례한다. 광 센서(520)는 포토다이오드(521)와 평행한 제1 커패시터(525)를 포함한다. 따라서, 제1 커패시터(525)에 걸친 전압은 (예를 들어, 광 센서(520)에 의해 검출된 광의 세기에 비례하는) 포토다이오드(521)에 걸친 전압과 동일하다.

광 센서(520)는 제1 커패시터(525)와 제2 커패시터(527) 사이에 커플링된 스위치(529)를 포함한다. 제2 커패시터(527)는 스위치와 접지 전압 사이에 커플링된다. 따라서, 스위치(529)가 폐쇄될 때, 제2 커패시터(527)에 걸친 전압은 (예를 들어, 광 센서(520)에 의해 검출된 광의 세기에 비례하는) 제1 커패시터(525)에 걸친 전압과 동일하다. 스위치(529)가 개방될 때, 제2 커패시터(527)에 걸친 전압은 스위치(529)가 마지막으로 폐쇄되었을 때 제2 커패시터(527)에 걸친 전압으로 고정된다.

제1 커패시터(525)에 걸친 전압 및 제2 커패시터(527)에 걸친 전압은 비교기(531)에 공급된다. 제1 커패시터(525)에 걸친 전압과 제2 커패시터(527)에 걸친 전압 사이의 절대 차이(552)가 임계량보다 작을 때, 비교기(531)는 '0' 전압을 출력한다. 제1 커패시터(525)에 걸친 전압이 적어도 임계량만큼 제2 커패시터(527)에 걸친 전압보다 높을 때, 비교기(531)는 '1' 전압을 출력한다. 제1 커패시터(525)에 걸친 전압이 적어도 임계량만큼 제2 커패시터(527)에 걸친 전압보다 낮을 때, 비교기(531)는 '-1' 전압을 출력한다.

비교기(531)가 '1' 전압 또는 '-1' 전압을 출력할 때, 스위치(529)는 폐쇄되며, 메시지 생성기(532)는 이러한 디지털 신호를 수신하고 픽셀 이벤트 메시지를 생성한다.

일 예로서, 제1 시간에, 광 센서(520)에 충돌하는 광의 세기는 제1 광 값이다. 따라서, 포토다이오드(521)에 걸친 전압은 제1 전압 값이다. 마찬가지로, 제1 커패시터(525)에 걸친 전압은 제1 전압 값이다. 이러한 예의 경우, 제2 커패시터(527)에 걸친 전압은 또한 제1 전압 값이다. 따라서, 비교기(531)는 '0' 전압을 출력하고, 스위치(529)는 폐쇄되어 유지되고, 메시지 생성기(532)는 아무것도 하지 않는다.

제2 시간에, 광 센서(520)에 충돌하는 광의 세기는 제2 광 값으로 증가한다. 따라서, 포토다이오드(521)에 걸친 전압은 제2 전압 값(제1 전압 값보다 높음)이다. 마찬가지로, 제1 커패시터(525)에 걸친 전압은 제2 전압 값이다. 스위치(529)가 개방되기 때문에, 제2 커패시터(527)에 걸친 전압은 여전히 제1 전압 값이다. 제2 전압 값이 적어도 제1 전압 값보다 큰 임계 값이라고 가정하면, 비교기(531)는 '1' 전압을 출력하여, 스위치(529)를 폐쇄하고, 메시지 생성기(532)는 수신된 디지털 신호에 기초하여 이벤트 메시지를 생성한다.

스위치(529)가 비교기(531)로부터의 '1' 전압에 의해 폐쇄되면, 제2 커패시터(527)에 걸친 전압은 제1 전압 값으로부터 제2 전압 값으로 변화된다. 따라서, 비교기(531)는 '0' 전압을 출력하여 스위치(529)를 개방한다.

제3 시간에, 광 센서(520)에 충돌하는 광의 세기는 제3 광 값으로 (다시) 증가한다. 따라서, 포토다이오드(521)에 걸친 전압은 제3 전압 값(제2 전압 값보다 높음)이다. 마찬가지로, 제1 커패시터(525)에 걸친 전압은 제3 전압 값이다. 스위치(529)가 개방되기 때문에, 제2 커패시터(527)에 걸친 전압은 여전히 제2 전압 값이다. 제3 전압 값이 적어도 제2 전압 값보다 큰 임계 값이라고 가정하면, 비교기(531)는 '1' 전압을 출력하여, 스위치(529)를 폐쇄하고, 메시지 생성기(532)는 수신된 디지털 신호에 기초하여 이벤트 메시지를 생성한다.

스위치(529)가 비교기(531)로부터의 '1' 전압에 의해 폐쇄되면, 제2 커패시터(527)에 걸친 전압은 제2 전압 값으로부터 제3 전압 값으로 변화된다. 따라서, 비교기(531)는 '0' 전압을 출력하여 스위치(529)를 개방한다.

제4 시간에, 광 센서(520)에 충돌하는 광의 세기는 제2 광 값으로 다시 감소한다. 따라서, 포토다이오드(521)에 걸친 전압은 제2 전압 값(제3 전압 값보다 낮음)이다. 마찬가지로, 제1 커패시터(525)에 걸친 전압은 제2 전압 값이다. 스위치(529)가 개방되기 때문에, 제2 커패시터(527)에 걸친 전압은 여전히 제3 전압 값이다. 따라서, 비교기(531)는 '-1' 전압을 출력하여, 스위치(529)를 폐쇄하고, 메시지 생성기(532)는 수신된 디지털 신호에 기초하여 이벤트 메시지를 생성한다.

스위치(529)가 비교기(531)로부터의 '-1' 전압에 의해 폐쇄되면, 제2 커패시터(527)에 걸친 전압은 제3 전압 값으로부터 제2 전압 값으로 변화된다. 따라서, 비교기(531)는 '0' 전압을 출력하여 스위치(529)를 개방한다.

메시지 생성기(532)는 다양한 시간들에, 광의 세기(예를 들어, 로그 세기)의 증가('1' 전압) 또는 광의 세기의 감소('-1' 전압)를 표시하는 복수의 광 센서들(510) 각각으로부터의 디지털 신호들을 수신한다. 복수의 광 센서들(510)의 특정 광 센서로부터 디지털 신호를 수신하는 것에 응답하여, 메시지 생성기(532)는 픽셀 이벤트 메시지를 생성한다.

다양한 구현예들에서, 각각의 픽셀 이벤트 메시지는 위치 필드에서 특정 광 센서의 특정 위치를 표시한다. 다양한 구현예들에서, 이벤트 메시지는 (예를 들어, 행 필드 내의) 행 값 및 (예를 들어, 열 필드 내의) 열 값과 같은 픽셀 좌표를 갖는 특정 위치를 표시한다. 다양한 구현예들에서, 이벤트 메시지는 극성 필드에서, 광의 세기의 변화의 극성을 추가로 표시한다. 예를 들어, 이벤트 메시지는 광의 세기의 증가를 표시하기 위한 극성 필드 내의 '1' 및 광의 세기의 감소를 표시하기 위한 극성 필드 내의 '0'을 포함할 수 있다. 다양한 구현예들에서, 이벤트 메시지는, 시간 필드에서, 광의 세기의 변화가 검출되었던 시간(예를 들어, 디지털 신호가 수신되었던 시간)을 추가로 표시한다. 다양한 구현예들에서, 이벤트 메시지는, 절대 세기 필드(도시되지 않음)에서, 극성에 대한 대안으로서 또는 그에 부가하여, 검출된 광의 세기를 표시하는 값을 표시한다.

도 6은 일부 구현예들에 따른, 이벤트 카메라-기반 변형가능 물체 추적 방법(600)의 흐름도 표현이다. 일부 구현예들에서, 방법(600)은 모바일 디바이스, 데스크톱, 랩톱, 또는 서버 디바이스와 같은 디바이스(예를 들어, 도 1 내지 도 3의 제어기(130))에 의해 수행된다. 방법(600)은, 2D 이미지들을 디스플레이하기 위한 스크린 및/또는 가상 현실(VR) 디스플레이(예를 들어, 머리-장착형 디스플레이(HMD)) 또는 증강 현실(AR) 디스플레이와 같은 입체 이미지들을 보기 위한 스크린을 갖는 디바이스 상에서 수행될 수 있다. 일부 구현예들에서, 방법(600)은 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 조합을 포함하는 프로세싱 로직에 의해 수행된다. 일부 구현예들에서, 방법(600)은 비일시적 컴퓨터 판독가능 매체(예를 들어, 메모리)에 저장된 코드를 실행하는 프로세서에 의해 수행된다.

블록(610)에서, 방법(600)은 하나 이상의 이벤트 카메라(들)에 의해 출력된 픽셀 이벤트들의 스트림을 수신한다. 픽셀 이벤트 데이터는 다양한 형태들로 존재할 수 있다. 픽셀 이벤트들의 스트림은 이벤트 카메라(들)의 하나 이상의 픽셀들에서 픽셀 이벤트들을 식별하는 일련의 메시지들로서 수신될 수 있다. 다양한 구현예들에서, 특정 광 센서, 극성 필드, 시간 필드, 및/또는 절대 세기 필드의 특정 위치에 대한 위치 필드를 각각 포함하는 픽셀 이벤트 메시지들이 수신된다.

도 5에 관해 설명되고 당업계에 알려진 바와 같이, 하나 이상의 이벤트 카메라(들)는 각각 센서, 센서들 상에 인입 광을 포커싱하는 렌즈들의 조립체, 및 프로세싱 유닛을 포함할 수 있다. 이벤트 카메라(들)의 출력은 픽셀 이벤트들에 관한 이벤트들의 스트림 및/또는 컴파일된/필터링된 데이터일 수 있다. 일 구현예에서, 픽셀 이벤트는, 이벤트가 발생했던 시간(상대적 또는 절대적)을 표시하는 타임스탬프, 이벤트가 발생했던 센서 상의 픽셀 위치, 및 마지막 이벤트가 픽셀에 대해 발생했던(즉, 식별되었던) 이후로 이벤트가 소정의 임계치 초과의 개개의 픽셀에서 광 세기(예를 들어, 로그 세기)의 증가에 관련되는지 또는 감소에 관련되는지를 표시하는 극성 값을 포함한다. 기하학적 속성들(예를 들어, 광학 경로의 모델, 즉, 인입 광이 센서 상의 픽셀들에 어떻게 영향을 주는지를 결정함)은 프레임-기반 카메라들에 필적한다.

물체는 사람 얼굴, 손, 또는 다른 사람 신체 파티 또는 시간에 걸친 변형을 나타낼 수 있는 임의의 다른 물체일 수 있다. 예를 들어, 아래에서 설명되는 도 11은 사람 얼굴이 시간에 걸쳐 이동하거나, 변화하거나, 또는 달리 변형됨에 따라 픽셀 이벤트들을 캡처하기 위해 사람 얼굴에 대해 위치된 2개의 이벤트 카메라들을 예시한다.

도 6으로 돌아가면, 블록(620)에서, 방법(600)은 픽셀 이벤트들의 스트림을 사용하여 장면에서 물체의 동적 표현을 생성한다. 일부 구현예들에서, 물체의 동적 표현은 픽셀 이벤트의 스트림을 사용하여 물체의 변형가능 표면 상에 배치된 특징부들을 식별함으로써 생성된다. 이들 특징부들은 물체의 동적 표현으로 표현된다.

다양한 유형들의 특징부들 및 특징부 설명자들이 사용될 수 있다. 일부 구현예들에서, 임의의 특징부 설명자들이 사용된다. 일 구현예에서, 설명자는 단순히 이벤트 값들을 포함한다. 다른 구현예들에서, 설명자는 이벤트 값들의 공간적 구배들, 배향된 구배들, 히스토그램 등을 포함한다. 이들 설명자들 중 일부는 회전 및/또는 스케일(scale)에 불변할 수 있다. 일부 구현예들에서, 설명자들은 특정한 포맷을 가져서 또는 기존의 기법을 사용하여 결정되며, 예를 들어, 특징부들을 검출하는 SIFT(scale-invariant feature transform)에 기초하여 결정되거나, SUFR(speeded up robust feature) 특징부 검출 기법을 사용하여 결정되거나, HOG(histogram of oriented gradients) 기법, 이벤트-기반 카메라들에 대한 DART(Distributed Aware Retinal Transform), 또는 임의의 다른 적절한 기법을 결정함으로써 결정된다.

일부 구현예들에서, 특징부들은 픽셀 이벤트들의 스트림에서 특징부들에 대응하는 픽셀 이벤트의 패턴들을 식별함으로써 식별된다. 도 7은 2개의 상이한 시점들(또는 짧은 시간 기간들) 동안 캡처된 픽셀 이벤트들을 예시한다. 이러한 예에서, 표현(710)에 의해 예시된 제1 시간에, 플러스/포지티브 및 마이너스/네거티브 픽셀 이벤트들의 패턴이 식별된다. 플러스/포지티브 픽셀 이벤트들은 개개의 픽셀에서 임계치 값 초과의 광 세기(예를 들어, 로그 세기)의 증가를 표현하고, 마이너스/네거티브 픽셀 이벤트는 개개의 픽셀에서 임계치 값 초과의 광 세기의 감소를 표현한다. 표현(720)에 의해 예시된 제2 시간에, 플러스/포지티브 및 마이너스/네거티브 픽셀 이벤트들의 동일한 패턴이 식별되며, 각각의 개개의 이벤트는 하나의 픽셀씩 우측으로 시프트된다. 다양한 구현예들에서 사용되는 추적 알고리즘은 특정 특징부가 이동했다는 것을 식별하기 위해 픽셀 이벤트들의 동일한 그리고 유사한 패턴들을 식별한다. 이러한 예에서, 패턴은 대응하는 특징부가 우측으로 이동했다고 결정하도록 식별된다. 픽셀 이벤트 패턴들의 유사성들에 기초하여 특징부를 식별하기 위해 허용오차 값이 사용될 수 있다. 예를 들어, 추적 알고리즘은 매칭하는 픽셀 이벤트들의 특정 백분율, 예를 들어 70% 유사성, 80% 유사성, 90% 유사성 등을 요구할 수 있다. 부가적으로 또는 대안적으로, 추적 알고리즘은 시간프레임 내에서, 예를 들어 5ms, 10ms, 20ms, 50ms 등 내에서, 예를 들어 적어도 3회, 4회, 5회, 10회, 20회 등으로 패턴을 인식하는, 패턴의 연속적인 움직임들의 수를 요구할 수 있다. 보다 임의의 특징부 설명자들이 사용되는 다른 구현예들에서, 픽셀 이벤트들은 특징부들을 직접 비교하는 데 사용되지 않는다. 이들 예시들에서, 특징부 설명자들은 특징부 유사성들을 식별하고 그리고/또는 특징부들 사이의 유사성의 양들을 정량화하는 기법들을 사용하여 비교된다.

동적 물체 표현을 생성하는 데 사용되는 이벤트 카메라 데이터는, 시간에 걸쳐, 또는 그렇지 않으면 동적 물체 표현을 생성하는 데 사용되기 전에 누적될 수 있다. 일부 구현예들에서, 이벤트 카메라 데이터는 세기 재구성 이미지, 타임스탬프 이미지, 또는 이벤트 카메라 데이터에 기초한 값들의 다른 이미지와 같은 이미지로 누적된다. 일 구현예에서, 이벤트 카메라 데이터는 이벤트 카메라의 대응하는 픽셀 센서들에서 미리 결정된 시간 기간 내에 발생하는 고정된 수의 이벤트들을 표현하는 셀들의 그리드 내에 누적(또는 그렇지 않으면 시간적으로 누적)된다. 일 구현예에서, 셀들의 그리드의 셀들은 특정 픽셀 위치들에 대응하며, 각각의 그러한 픽셀 위치에서 발생하는 이벤트들의 수를 표현하는 값들을 누적한다.

물체의 동적 표현은 하나 이상의 이벤트 카메라들로부터의 이벤트들의 스트림으로부터의 데이터에 기초하여 추적 알고리즘에 의해 생성된다. 추적 알고리즘은 선택적으로, 카메라들에 관한 정보, 즉, 공통 좌표계에 대한 공간 내의 그들의 위치들 및 배향들, 포커스 길이 및 주요 포인트와 같은 카메라 내인성(intrinsics), 및/또는 왜곡 모델을 사용한다.

일부 구현예들에서, 추적 알고리즘은 광학 흐름-기반 추적을 수행한다. 추적 알고리즘은 이벤트 스트림으로부터 특징부들을 추출하고, 시간에 걸쳐 이들 특징부들의 공간적 위치들을 추적한다. 이는, 3차원 물체의 실제 포인트들이 개별 카메라들의 픽셀들 상으로 투영됨에 따라, 추적 알고리즘이 3차원 물체의 실제 포인트들의 2차원 투영부들을 추적하게 허용한다. 일 구현예에서, 포인트들의 성긴(sparse) 세트(예를 들어, 특징부들의 제한된 세트를 표현함)가 추적된다. 포인트들의 어느 세트가 포인트들의 성긴 세트에 포함될지의 선택은 다양한 제한들 또는 기준들에 기초할 수 있다. 일 구현예에서, 포인트들의 성긴 세트는 특정 특징부 또는 특징부들에 대응하는 포인트들을 식별하는 것에 기초하여 선택된다. 일 구현예에서, 데이터 포인트들의 성긴 세트는 정량적 임계치, 예를 들어 y 면적당 x개 미만의 포인트들을 식별하는 것에 기초하여 선택된다. 포인트들의 세트를 추적하는 것은 포인트 위치들(즉, 포인트 트랙(track)들) 또는 포인트 움직임들(즉, 포인트 흐름들) 또는 그 둘 모두를 추적하는 것을 수반할 수 있다. 포인트 트랙들은 수명(예를 들어, 추적이 알려져 있는 시작 시간 및 종료 시간)을 가질 수 있고, 트랙들은 추적 알고리즘이 이벤트 카메라들로부터 더 많은 이벤트들을 수신함에 따라 임의로 생성되거나 파괴될 수 있다. 다른 구현예에서, 추적 알고리즘은 임의의 시점 동안 임의의/각각의 2차원 픽셀 위치에 대해 시간에 걸쳐 2차원 궤적을 제공하는 조밀한 유동장(flow field)을 생성한다.

(광학) 흐름 기반 추적에서, 포인트 트랙들, 포인트 흐름들 또는 조밀한 유동장은 선택적으로 추가로 프로세싱될 수 있다. 일 구현예에서, 중첩 시야들을 갖는 카메라들의 경우, 특징부들은 시간에 걸쳐 3차원 특징부들을 효과적으로 추적하기 위해 상관 및 삼각측량된다. 추적되고 있는 물체에 대한 모델이 사용되거나/알려지면(예를 들어, 머리 추적의 경우: 일반적인 사람 머리의 외관 및/또는 역학관계에 대한 모델 또는 특정 사람 대상 또는 대상들의 그룹의 머리의 모델), 추적된 특징부들은 카메라의 시야들 사이의 중첩의 부재 시에도 물체의 3차원 표현을 계산하기 위해 모델과 상관될 수 있다.

일부 구현예들에서, 추적 알고리즘은 기계-학습-기반 추적을 수행한다. 이벤트 카메라(들)의 이벤트 스트림(들)은 기계-학습 알고리즘으로 공급된다. 알고리즘은 각각의 이벤트를 차례로 프로세싱하거나 이벤트들의 배치(batch)들로 프로세싱하거나, 또는 이벤트들이 기계 학습 알고리즘에 공급되기 전에 공간적으로 또는 시간적으로 누적되거나, 이들의 조합으로 이루어진다. 기계 학습 알고리즘은 부가적으로, 잠재적 공간으로부터의 값들의 세트를 입력으로서 취할 수 있으며, 이는 추적되는 물체 및 그의 이전의 상태들에 관한 정보를 잠재적으로 인코딩한다. 일부 구현예들에서, 기계 학습 알고리즘은 동적 물체 표현으로 직접, 또는 나중에 동적 물체 표현으로 변환되는 중간 표현으로 회귀되도록 훈련된다. 선택적으로, 기계-학습 알고리즘은 잠재적 공간 내의 값들의 업데이트된 세트로 회귀될 수 있으며, 그 세트는, 이어서 미래의 이벤트들을 프로세싱하는 데 사용된다. 일부 구현예들에서, 추적을 수행하는 기계 학습 알고리즘은 콘볼루셔널 신경망(CNN), 순환망(recurrent network), 이를테면 장단기 메모리(long short-term memory, LSTM) 신경망, 스파이킹 신경망(spiking neural network, SNN), 또는 이들 망들의 조합으로서, 또는 임의의 다른 신경망 아키텍처를 사용하여 구성된다. 도 8은 CNN 구성의 일 예를 제공한다.

물체의 동적 표현은 구현의 특정 요건들에 적합하도록 다양한 적절한 형태들을 가질 수 있다. 일부 구현예들에서, 동적 물체 표현은 변형가능 표면의 개개의 부분을 각각 근사하는 복수의 다각형들의 2차원 메시(mesh)이다. 일부 구현예들에서, 동적 물체 표현은 물체와 복수의 픽셀 센서들의 적어도 서브세트 사이의 거리들을 정의하는 깊이 정보를 포함하는 깊이-맵 표현이다. 일부 구현예들에서, 동적 물체 표현은 변형가능 표면의 대응하는 부분의 국부적 변형을 각각 정의하는 복수의 구역들이다. 일부 구현예들에서, 동적 물체 표현은 물체의 3차원(3D) 모델을 정의하는 3D 포인트들의 세트이며, 3D 포인트들의 세트 내의 각각의 포인트는 물체의 변형가능 표면 상의 대응하는 포인트를 표현한다. 일부 구현예들에서, 동적 물체 표현은 변형가능 표면에 의해 임의의 포인트들의 세트로서 정의되는 물체의 3차원 모델이다. 다른 구현예들에서, 동적 물체 표현은 구상 관절(ball and socket joint)들, 경첩 관절(hinge joint)들, 과상 관절(condyloid joint)들, 중쇠 관절(pivot joint)들, 활주 관절(gliding joint)들, 또는 안장 관절(saddle joint)들과 같은 관절들에 의해 연결된 강성 부분들을 포함하는 관절식 모델이다.

도 6으로 돌아가면, 물체는 시간에 걸쳐 변하는 변형가능 표면을 갖는다. 방법은, 블록(630)에서, 예를 들어 물체의 변형가능 표면이 시간에 걸쳐 변함에 따라 물체의 변형가능 표면을 추적하기 위해, 이벤트 카메라에 의해 출력된 부가적인 픽셀 이벤트들을 획득하는 것에 응답하여 물체의 동적 표현을 수정하는 단계를 포함한다. 특징부들이 픽셀 패턴들에 기초하여 식별되는 구현예들에서, 물체의 동적 표현을 수정하는 단계는, 부가적인 픽셀 이벤트들에서 특징부들에 대응하는 픽셀 이벤트들의 패턴들을 식별하는 것에 기초하여 물체의 동적 표현에서 특징부들의 위치들을 수정하는 단계를 수반할 수 있다. 따라서, 도 7에 예시된 바와 같이, 특징부를 표현하는 픽셀 패턴이 새로운 위치에서 검출될 때, 동적 물체 표현 내의 특징부의 위치가 그에 따라 조정될 수 있다.

일반적으로, 시간에 걸친 특징부들의 추적은, 포인트들의 성긴 세트를 추적함으로써 시간에 걸쳐 특징부들의 공간적 위치들을 추적하는 것을 수반할 수 있다. 다수의 이벤트 카메라들의 상황들에서, 특징부들은 다수의 카메라들로부터의 데이터 중에서 식별 및 상관될 수 있으며, 예를 들어 코의 끝이 다수의 카메라들로부터의 데이터에서 식별될 수 있다. 이벤트 카메라들로부터의 부가적인 이벤트 카메라 데이터가 수신됨에 따라, 코의 끝의 3차원(3D) 위치가 동적 물체 표현에서 결정 및 조정될 수 있다. 일부 구현예들에서, 물체의 동적 표현을 수정하는 것은, 픽셀들의 스트림 내의 특징부들을 물체의 3차원(3D) 모델의 특징부들과 상관시키는 것, 및 그 상관에 기초하여 물체의 3D 표현을 계산하는 것을 수반한다.

일부 구현예들에서, 방법(600)은, 이벤트 카메라의 양태들을 특성화하는 카메라-관련 데이터를 사용하여 물체의 동적 표현을 개량하는 단계를 추가로 수반한다. 카메라-관련 데이터는 예들로서, 외인성(extrinsic) 파라미터 정보, 내인성(intrinsic) 파라미터 정보, 글로벌 기준 프레임에 대한 이벤트 카메라의 상대적인 위치 및 배향을 정의하는 대응 정보, 또는 이들의 조합을 포함한다.

도 8은 일부 구현예들에 따른, 추적을 위해 콘볼루셔널 신경망(CNN)(820)을 사용하는 시스템(800)을 예시한 기능 블록도이다. 시스템(800)은 강도 재구성 이미지 또는 타임스탬프 이미지와 같은 2차원 그리드(즉, 입력 이미지(들)(810))와 같은 누적된 이벤트 데이터에 대해 동작한다. 일부 구현예들에서, 그러한 입력 이미지(810)의 각각의 셀은 대응하는 픽셀에 대한 N개의 가장 최근의 이벤트들을 저장한다. 다른 구현예에서, CNN(820)은 부가적으로 또는 대안적으로, 이벤트들이 픽셀당 시간적으로 통합되었던 입력 이미지(810)를 입력으로서 취한다. 다른 구현예에서, CNN(820)은 풀-프레임(종래의 셔터-기반) 카메라 이미지를 입력으로서 취한다.

CNN(820)은 하나 이상의 콘볼루셔널 층(들)(830) 및 하나 이상의 완전히 연결된 층(들)(840)을 포함하고, 출력, 예를 들어 동적 물체 표현(850)을 생성한다. 콘볼루셔널 층(들)(830)은 그들의 개개의 입력들에 콘볼루션 연산을 적용하고 그들의 결과들을 다음 층으로 전달하도록 구성된다. 다음 층에 의해 프로세싱되기 전에, 컨볼루션들의 결과들(활성화들로 또한 지칭됨)은, 정류된 선형 유닛(ReLU), 하이퍼볼릭 탄젠트(Hyperbolic tangent, TanH), 또는 시그모이드 함수(Sigmoid function)와 같은 비선형 함수(활성화 함수로 또한 지칭됨)에 의해 변환될 수 있다. 컨볼루션 층(들)(830) 각각 내의 각각의 콘볼루션 뉴런은 수용장, 예를 들어 크기조정된 입력 이미지(들)(810)의 일부에 대한 데이터를 프로세싱하도록 구성될 수 있다. 완전히 연결된 층(들)(840)은 하나의 층의 모든 뉴런을 다른 층의 모든 뉴런에 연결시킨다. 도 6에 관해 논의된 바와 같이, CNN(850)의 출력은 동적 물체 표현으로 직접 회귀될 수 있거나, 또는 동적 물체 표현이 결정되는 중간 표현으로 회귀될 수 있다.

일부 구현예들에서, 스테이트풀(stateful) 기계 학습/신경망 아키텍처가 사용된다. 일부 구현예들에서, CNN은 잠재적 상태를 사용하도록 구성된다. 그러한 일 구현예에서, CNN은 중간 표현으로 그리고 부가적으로는 잠재적 상태의 업데이트로 회귀되도록 구성된다. 이어서, 결과적인 잠재적 상태는 다음의 반복에서 완전히-연결된 블록에 대한 입력으로서 사용된다. 다른 구현예에서, 사용되는 신경망은 장단기 메모리(LSTM) 또는 다른 순환망이다. 그러한 구현예들에서, 입력으로서 사용되는 이벤트 데이터는 순차적인 이벤트들의 라벨링된 스트림으로서 제공될 수 있다. 일부 구현예들에서, 순환 신경망은 이전의 이벤트들을 기억하고 이벤트들의 이력에 기초하여 동적 모션들을 학습하도록 구성된다. 순환 신경망은 입력으로서 개별 이벤트들을 취하거나 또는 누적된 이벤트들의 배치들을 취하도록 구성될 수 있다.

도 9는 일부 구현예들에 따른, 제1 시점(900)에서의 변형가능 물체(즉, 사람 얼굴)의 동적 물체 표현을 예시한다. 이러한 예에서, 복수의 특징부들이 식별되고, 마커들(예를 들어, 마커들(910, 920, 930))로 예시된다. 마커들 중 몇몇만이 예의 콘텐츠를 불명료하게 하는 것을 피하기 위해 라벨링된다는 것에 유의한다. 도 10은 일부 구현예들에 따른, 제2 시점(1000)에서의 도 9의 변형가능 물체(즉, 사람 얼굴)의 동적 물체 표현을 예시한다. 이러한 예에서, 사람 얼굴의 표면은 도 9와 도 10 사이에서 변화/변형된다. 예를 들어, 사람 얼굴의 입은 닫혀있고 미소를 짓는다. 그 결과, 마커들(910, 930)에서의 특징부들은 변화된 위치들을 갖는다. 특히, 마커(910)에 의해 식별된 입술 바닥 특징부는 제1 시점에서의 그의 위치에 비해 아래로 이동되었다. 유사하게, 마커(930)에 의해 식별된 입술 코너는 제1 시점에서의 그의 위치와 비교하여 우측으로 이동되었다. 구현예들은 시간에 걸쳐 그러한 특징부들의 위치들을 추적하며, 변형가능 물체가 시간에 걸쳐 변화/변형됨에 따라 변형가능 물체의 동적 물체 표현을 조정한다.

도 9 및 도 10의 예 및 본 명세서에서 논의된 다른 구현예들의 경우, 변형가능 물체의 동적 물체 표현은 추적된 특징부들의 위치들에 기초하여 결정된다. 동적 물체 표현에 포함된 포맷 및 정보에 대한 많은 옵션들이 존재한다. 일 구현예에서, 동적 물체 표현은 깊이 맵 표현이어서, 이벤트 카메라 센서(들)의 각각의 픽셀에 대해 또는 픽셀들의 서브세트에 대해 추적되는 물체에 대한 거리를 저장한다. 다른 구현예에서, 동적 물체 표현은 추적되는 표면의 기하학적 표현이다. 예를 들어, 기하학적 표현은 삼각형 메시일 수 있다. 그러한 표현은 시간에 걸쳐 변화되는 메시 토폴로지(topology) 또는 고정된 토폴로지 중 어느 하나를 사용할 수 있다. 다른 구현예에서, 동적 물체 표현은 물체의 표면의 보다 낮은 차원의 기하학적 표현, 이를테면 미리 정의된 기반의 메시들(예를 들어, 블렌드쉐이프(blendshape)들 또는 주 컴포넌트 분석(PCA) 기반)의 선형 또는 비선형 조합이다. 다른 구현예들에서, 동적 물체 표현은 강성 부분들 및 관절들을 포함하는 관절식 모델이다. 다른 구현예에서, 동적 물체 표현은 물체의 표면의 국부화된 기하학적 표현이다. 표면은 구역들로 분할될 수 있으며, 표현은 각각의 구역에서 국부적 변형을 정의하도록 구성된다. 다른 구현예에서, 동적 물체 표현은 물체의 표면 상의 임의의 3차원 포인트들의 성긴 또는 조밀한 세트이다. 다른 구현예에서, 동적 물체 표현은, 예를 들어 도 9 및 도 10에 예시된 바와 같이, 예를 들어 얼굴의 입 코너들, 코 끝 등과 같은 미리 정의된 시멘틱(semantic)들을 갖는 포인트들의 2차원 또는 3차원 위치들을 포함한다. 더 일반적으로, 동적 물체 표현은, (a) 기하학적 특징부들(예를 들어, 코너들, 주름들, 구멍들, 끝들) 및/또는 (b) 텍스처 특징부들(예를 들어, 표면 상의 패턴들, 인공 마커들, 두드러진 특징부들, 색상 세기 변동들)에 대응하는 포인트들을 포함할 수 있다. 다른 구현예에서, 동적 물체 표현은 이벤트 카메라들의 뷰들 각각 내의 픽셀들의 움직임을 표현하는 2차원 필드들의 세트이다. 다른 구현예에서, 동적 물체 표현은 표면의 상위 레벨 시맨틱 추상화이며, 예를 들어 사람의 얼굴의 경우에는, 관찰된 얼굴의 기하학적 구조를 설명하고/그에 상관되는 근육들의 세트에 대한 근육 활성화들에 대한 값들이다.

도 11은 2개의 이벤트 카메라들을 사용하는 사람 얼굴 추적 애플리케이션에 대한 가능한 이벤트 카메라 배치들 및 배향들을 예시한다. 도 11은, 사람 얼굴이 변화되거나 또는 달리 변형됨에 따라 발생하는 픽셀 이벤트들을 캡처하도록 배향되는 제1 이벤트 카메라(1140) 및 제2 이벤트 카메라(1150)의 위치들을 예시하는 3개의 뷰들(1100, 1110, 1120)을 예시한다. 이러한 예에서, 2개의 상이한 이벤트 카메라들(1140, 1150)은 각각 상이한 관점들로부터 픽셀 이벤트들을 캡처한다. 예를 들어, 사람의 얼굴의 코의 끝의 특징부(1160)가 변화됨에 따라(예를 들어, 얼굴이 이동하거나, 코가 씰룩씰룩(wiggle)되거나, 코가 올라가는 등에 따라), 이벤트 카메라들(1140, 1150)은 상이한 관점들로부터 픽셀 이벤트들을 캡처한다. 각각의 이벤트 카메라는 특징부의 상이한 개개의 움직임을 추적한다. (예를 들어, 기준 좌표 공간 내의) 이벤트 카메라들의 서로에 대한 알려진 위치들 및 픽셀 이벤트들이 주어지면, 특징부(1160)의 3차원 위치 및 움직임은 시간에 걸쳐 추적될 수 있다.

다수의 특정 세부사항들은 청구되는 주제 내용의 철저한 이해를 제공하기 위해 본 명세서에 기재된다. 그러나, 당업자들은 청구되는 주제 내용이 이들 특정 세부사항들 없이 실시될 수 있음을 이해할 것이다. 다른 예시들에서, 당업자에 의해 알려진 방법들, 장치들 또는 시스템들은 청구되는 주제 내용을 불명료하게 하지 않기 위해 상세히 설명되지 않았다.

구체적으로 달리 언급되지 않는다면, 본 명세서 전반에 걸쳐 "프로세싱", "컴퓨팅", "계산", "결정", 및 "식별" 등과 같은 용어들을 이용하는 논의들은, 메모리들, 레지스터들, 또는 컴퓨팅 플랫폼의 다른 정보 저장 디바이스들, 송신 디바이스들, 또는 디스플레이 디바이스들 내에서 물리적 전자 또는 자기 양들로서 표현되는 데이터를 조작 또는 변환하는, 하나 이상의 컴퓨터들 또는 유사한 전자 컴퓨팅 디바이스 또는 디바이스들과 같은 컴퓨팅 디바이스의 작동들 또는 프로세스들을 지칭함이 이해될 것이다.

본 명세서에 논의된 시스템 또는 시스템들은 임의의 특정 하드웨어 아키텍처 또는 구성에 제한되지 않는다. 컴퓨팅 디바이스는 하나 이상의 입력들에 반응하는 결과를 제공하는 컴포넌트들의 임의의 적합한 배열을 포함할 수 있다. 적합한 컴퓨팅 디바이스들은 범용 컴퓨팅 장치로부터 본 주제 내용의 하나 이상의 구현예들을 구현하는 특수 컴퓨팅 장치까지 컴퓨팅 시스템을 프로그래밍 또는 구성하는, 저장된 소프트웨어에 액세스하는 다목적 마이크로프로세서-기반 컴퓨터 시스템들을 포함한다. 임의의 적합한 프로그래밍, 스크립팅, 또는 다른 유형의 언어 또는 언어들의 조합들은 본 명세서에 포함된 교시들을, 컴퓨팅 디바이스를 프로그래밍 또는 구성하는 데 사용될 소프트웨어로 구현하는 데 사용될 수 있다.

본 명세서에 개시된 방법들의 구현예들은 이러한 컴퓨팅 디바이스들의 동작에서 수행될 수 있다. 위의 예들에서 제시된 블록들의 순서는 달라질 수 있는데, 예를 들어 블록들이 재정렬되거나, 조합되거나, 그리고/또는 하위-블록들로 나뉠 수 있다. 소정의 블록들 또는 프로세스들은 병렬로 수행될 수 있다.

본 명세서에서 "~ 하도록 적응되는(adapted to)" 또는 "~ 하도록 구성되는(configured to)"의 사용은 부가적인 태스크들 또는 단계들을 수행하도록 적응되거나 또는 구성되는 디바이스들을 배제하지 않는 개방적이고 포괄적인 언어로서 의도된다. 부가적으로, "~에 기초하여"의 사용은, 하나 이상의 인용 조건들 또는 값들"에 기초한" 프로세스, 단계, 계산, 또는 다른 작동이, 실제로, 인용된 것들 이상으로 부가적인 조건들 또는 값에 기초할 수 있다는 점에서 개방적이고 포괄적인 것으로 의도된다. 본 명세서에 포함된 표제들, 목록들, 및 번호는 단지 설명의 용이함을 위한 것이며 제한적인 것으로 의도되지 않는다.

용어들 "제1", "제2" 등이 다양한 요소들을 설명하기 위해 본 명세서에서 사용될 수 있지만, 이들 요소들은 이들 용어들에 의해 제한되어서는 안 된다는 것이 또한 이해될 것이다. 이들 용어들은 하나의 요소를 다른 요소와 구별하는 데에만 사용된다. 예를 들어, 모든 "제1 노드"의 발생이 일관되게 재명명되고 모든 "제2 노드"의 발생이 일관되게 재명명되기만 한다면, 제1 노드는 제2 노드로 지칭될 수 있고, 유사하게, 제2 노드는 제1 노드로 지칭될 수 있으며, 이는 설명의 의미를 변경한다. 제1 노드 및 제2 노드는 둘 모두 노드들이지만, 그것들은 동일한 노드가 아니다.

본 명세서에서 사용되는 용어는 단지 특정 구현예들만을 설명하는 목적을 위한 것이고, 청구범위를 제한하도록 의도되지 않는다. 본 구현예들의 설명 및 첨부된 청구범위에 사용되는 바와 같이, 단수형들("a", "an" 및 "the")은 문맥상 명확하게 달리 나타나지 않으면 복수형들도 또한 포함하도록 의도된다. 또한, 본 명세서에서 사용되는 바와 같은 용어 "및/또는"은 열거되는 연관된 항목들 중 하나 이상의 항목들의 임의의 그리고 모든 가능한 조합들을 나타내고 그들을 포괄하는 것임이 이해될 것이다. 본 명세서에서 사용될 때 "포함한다(comprise)" 및/또는 "포함하는(comprising)"이라는 용어들은 진술되는 특징들, 정수들, 단계들, 동작들, 요소들, 및/또는 컴포넌트들의 존재를 특정하지만, 하나 이상의 다른 특징들, 정수들, 단계들, 동작들, 요소들, 컴포넌트들 및/또는 이들의 그룹들의 존재 또는 부가를 배제하지 않는다는 것이 추가로 이해될 것이다.

본 명세서에서 사용되는 바와 같이, 상황에 따라 진술된 선행 조건이 사실"인 경우(if)"라는 용어는 그가 사실"일 때(when)", 그가 사실"일 시(upon)" 또는 그가 사실"이라는 결정하는 것에 응답하여(in response to determining)" 또는 그가 사실"이라는 결정에 따라(in accordance with a determination)" 또는 그가 사실"임을 검출하는 것에 응답하여(in response to detecting)"를 의미하는 것으로 해석될 수 있다. 유사하게, 어구 "[언급된 선행 조건이 사실이라고] 결정하면" 또는 "[언급된 선행 조건이 사실]이면" 또는 "[언급된 선행 조건이 사실]일 때"는 맥락에 의존하여, 언급된 선행 조건이 사실"이라고 결정할 시에" 또는 그 조건이 사실"이라고 결정하는 것에 응답하여" 또는 그 조건이 사실"이라는 결정에 따라" 또는 그 조건이 사실"이라는 것을 검출할 시에" 또는 그 조건이 사실"이라는 것을 검출하는 것에 응답하여를 의미하는 것으로 해석될 수 있다.

본 발명의 상세한 설명 및 발명의 내용은 모든 면에서 도시적이고 예시적이지만, 제한적이지 않은 것으로 이해될 것이며, 본 명세서에 개시된 발명의 범주는 예시적인 구현예들의 상세한 설명에만 의존하여 결정되지 않고, 특허법에서 허용되는 전체 범위에 따라 결정될 것이다. 본 명세서에 도시되고 기재된 구현예들은 단지 본 발명의 원리에 대한 예시일뿐이고, 다양한 변형예가 본 발명의 범주 및 사상을 벗어나지 않고 당업자들에 의해 구현될 수 있음이 이해될 것이다.

Claims

시스템으로서,
픽셀 센서들의 2차원(2D) 어레이를 포함하는 이벤트 카메라;
비일시적 컴퓨터 판독가능 저장 매체; 및
상기 비일시적 컴퓨터 판독가능 저장 매체 및 상기 이벤트 카메라에 통신가능하게 커플링된 하나 이상의 프로세서들을 포함하며,
상기 비일시적 컴퓨터 판독가능 저장 매체는, 상기 하나 이상의 프로세서들 상에서 실행될 때, 상기 시스템으로 하여금 동작들을 수행하게 하는 프로그램 명령어들을 포함하고,
상기 동작들은,
상기 이벤트 카메라에 의해 출력된 픽셀 이벤트들의 스트림을 수신하는 것 - 상기 이벤트 카메라는 상기 이벤트 카메라의 시야 내에 배치된 장면으로부터 광을 수신하도록 위치된 복수의 픽셀 센서들을 포함하고, 각각의 개개의 픽셀 이벤트는, 개개의 픽셀 센서가 비교기 임계치를 초과하는 광 세기의 변화를 검출하는 것에 응답하여 생성됨 -;
상기 픽셀 이벤트들의 스트림을 사용하여 물체의 변형가능 표면 상에 배치된 특징부들을 식별하는 것; 및
상기 물체의 동적 표현을 생성하는 것 - 상기 동적 표현은 상기 특징부들을 포함함 -;
상기 이벤트 카메라에 의해 출력된 부가적인 픽셀 이벤트들을 획득하는 것에 응답하여 상기 물체의 상기 동적 표현을 수정하는 것; 및
추가적인 프로세싱을 위해 상기 물체의 상기 동적 표현을 출력하는 것을 포함하는, 시스템.
제1항에 있어서,
제2 이벤트 카메라를 더 포함하며,
상기 물체의 상기 동적 표현을 수정하는 것은,
상기 이벤트 카메라로부터의 상기 픽셀 이벤트들의 스트림에서 상기 특징부들을 식별하는 것;
상기 제2 이벤트 카메라로부터의 픽셀 이벤트들의 제2 스트림에서 상기 특징부들을 식별하는 것; 및
상기 이벤트 카메라로부터의 상기 픽셀 이벤트들의 스트림들로부터 식별된 상기 특징부들과 상기 제2 이벤트 카메라로부터의 상기 픽셀 이벤트들의 제2 스트림으로부터 식별된 상기 특징부들을 상관시키는 것에 기초하여 상기 특징부들의 3차원(3D) 위치들을 추적하는 것을 포함하는, 시스템.
제1항 또는 제2항에 있어서,
상기 특징부들을 식별하는 것은,
상기 픽셀 이벤트들의 스트림에서 상기 특징부들에 대응하는 픽셀 이벤트들의 패턴들을 식별하는 것을 포함하는, 시스템.
제3항에 있어서,
상기 물체의 상기 동적 표현을 수정하는 것은,
상기 부가적인 픽셀 이벤트들에서 상기 특징부들에 대응하는 상기 픽셀 이벤트들의 패턴들을 식별하는 것에 기초하여 상기 물체의 상기 동적 표현에서 상기 특징부들의 위치들을 수정하는 것을 포함하는, 시스템.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 물체의 상기 동적 표현을 수정하는 것은,
포인트들의 성긴(sparse) 세트 또는 조밀한 유동장(dense flow field)을 추적함으로써 시간에 걸쳐 상기 특징부들의 공간적 위치들을 추적하는 것을 포함하는, 시스템.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 물체의 상기 동적 표현을 수정하는 것은,
상기 픽셀들의 스트림 내의 상기 특징부들을 상기 물체의 3차원(3D) 모델의 특징부들과 상관시키는 것; 및
상기 상관에 기초하여 상기 물체의 3D 표현을 계산하는 것을 포함하는, 시스템.
제1항에 있어서,
상기 물체의 상기 동적 표현을 생성하는 것은, 상기 픽셀 이벤트들의 스트림을 기계 학습 아키텍처에 대한 입력으로서 사용하는 것을 포함하는, 시스템.
제7항에 있어서,
상기 물체의 상기 동적 표현을 생성하는 것은,
상기 픽셀 이벤트들의 스트림으로부터 누적된 이벤트 데이터를 포함하는 입력을 생성하는 것 - 상기 입력은,
상기 이벤트 카메라의 대응하는 픽셀 센서들에서 미리 결정된 시간 기간 내에 발생하는 고정된 수의 이벤트들을 표현하는 셀들의 그리드;
이미지 픽셀들이 상기 이벤트 카메라의 대응하는 픽셀들에 대한 시간적으로-누적된 픽셀 이벤트들에 대응하는 이미지;
픽셀 이벤트들이 상기 이벤트 카메라의 대응하는 픽셀 센서들에서 식별되었던 이후의 시간의 양에 이미지 픽셀들이 대응하는 이미지; 또는
상기 이벤트 카메라와 동일한 위치 또는 상기 이벤트 카메라에 대한 알려진 위치로부터 취해진 상기 물체의 풀-프레임 셔터-기반 이미지를 포함함 -; 및
콘볼루셔널 신경망(convolutional neural network, CNN)을 통해 상기 동적 표현을 생성하는 것을 포함하며,
상기 입력은 상기 신경망에 입력되는, 시스템.
제7항에 있어서,
상기 물체의 상기 동적 표현을 생성하는 것은,
상기 픽셀 이벤트들의 스트림으로부터 누적된 이벤트 데이터를 포함하는 입력을 생성하는 것; 및
순환 신경망(recurrent neural network)을 통해 상기 동적 표현을 생성하는 것을 포함하며,
상기 입력은 상기 신경망에 입력되고, 상기 순환 신경망은 이전에 수신된 이벤트 데이터로부터 결정된 상기 물체의 이전 상태들을 추적하기 위해 잠재적 상태(latent state)를 사용하는, 시스템.
제1항 내지 제9항 중 어느 한 항에 있어서,
상기 물체의 상기 동적 표현은,
상기 변형가능 표면의 개개의 부분을 각각 근사하는 복수의 다각형들의 2차원 메시(mesh);
상기 물체와 상기 복수의 픽셀 센서들의 적어도 서브세트 사이의 거리들을 정의하는 깊이 정보를 포함하는 깊이-맵 표현;
상기 변형가능 표면의 대응하는 부분의 국부적 변형을 각각 정의하는 복수의 구역들;
상기 물체의 3차원(3D) 모델을 정의하는 3D 포인트들의 세트 - 상기 3D 포인트들의 세트 내의 각각의 포인트는 상기 물체의 상기 변형가능 표면 상의 대응하는 포인트를 표현함 -;
상기 변형가능 표면에 의해 임의의 포인트들의 세트로서 정의되는 상기 물체의 3차원 모델; 또는
관절들에 의해 연결된 강성 부분들을 포함하는 관절식 모델을 포함하는, 시스템.
제1항 내지 제9항 중 어느 한 항에 있어서,
상기 추가적인 프로세싱은,
상기 동적 표현을 비휘발성 저장 매체에 저장하는 것, 상기 동적 표현을 네트워크 어댑터를 통해 원격 컴퓨팅 디바이스에 송신하는 것, 또는 시각화를 생성하도록 상기 동적 표현을 렌더링하는 것을 포함하는, 시스템.
변형가능 물체 추적을 위한 방법으로서,
하나 이상의 프로세서들 및 비일시적 컴퓨터 판독가능 저장 매체를 갖는 디바이스에서,
이벤트 카메라에 의해 출력된 픽셀 이벤트들의 스트림을 수신하는 단계 - 상기 이벤트 카메라는 상기 이벤트 카메라의 시야 내에 배치된 장면으로부터 광을 수신하도록 위치된 복수의 픽셀 센서들을 포함하고, 각각의 개개의 픽셀 이벤트는, 개개의 픽셀 센서가 비교기 임계치를 초과하는 광 세기의 변화를 검출하는 것에 응답하여 생성됨 -;
상기 픽셀 이벤트들의 스트림을 사용하여 상기 장면에서 물체의 동적 표현을 생성하는 단계 - 상기 물체는 시간에 걸쳐 변하는 변형가능 표면을 가짐 -; 및
상기 이벤트 카메라에 의해 출력된 부가적인 픽셀 이벤트들을 획득하는 것에 응답하여 상기 물체의 상기 동적 표현을 수정하는 단계를 포함하는, 변형가능 물체 추적을 위한 방법.
제12항에 있어서,
상기 물체의 상기 동적 표현을 생성하는 단계는,
상기 픽셀 이벤트들의 스트림을 사용하여 상기 물체의 상기 변형가능 표면 상에 배치된 특징부들을 식별하는 단계; 및
상기 물체의 상기 동적 표현에서 상기 특징부들을 표현하는 단계를 포함하는, 변형가능 물체 추적을 위한 방법.
제13항에 있어서,
상기 특징부들을 식별하는 단계는,
상기 픽셀 이벤트들의 스트림에서 상기 특징부들에 대응하는 픽셀 이벤트들의 패턴들을 식별하는 단계를 포함하는, 변형가능 물체 추적을 위한 방법.
제14항에 있어서,
상기 물체의 상기 동적 표현을 수정하는 단계는,
상기 부가적인 픽셀 이벤트들에서 상기 특징부들에 대응하는 상기 픽셀 이벤트들의 패턴들을 식별하는 것에 기초하여 상기 물체의 상기 동적 표현에서 상기 특징부들의 위치들을 수정하는 단계를 포함하는, 변형가능 물체 추적을 위한 방법.
제12항 내지 제15항 중 어느 한 항에 있어서,
상기 물체의 상기 동적 표현을 수정하는 단계는,
포인트들의 성긴 세트를 추적함으로써 시간에 걸쳐 상기 특징부들의 공간적 위치들을 추적하는 단계를 포함하는, 변형가능 물체 추적을 위한 방법.
제12항 내지 제15항 중 어느 한 항에 있어서,
상기 물체의 상기 동적 표현을 수정하는 단계는,
조밀한 유동장을 추적함으로써 시간에 걸쳐 상기 특징부들의 공간적 위치들을 추적하는 단계를 포함하는, 변형가능 물체 추적을 위한 방법.
제12항 내지 제17항 중 어느 한 항에 있어서,
상기 물체의 상기 동적 표현을 수정하는 단계는,
다수의 이벤트 카메라들로부터의 픽셀 이벤트들의 스트림들에서 상기 특징부들을 식별하는 단계; 및
상기 다수의 이벤트 카메라들의 상기 픽셀들의 스트림들에서 상기 특징부들을 상관시키는 것에 기초하여 상기 특징부들의 3차원(3D) 위치들을 추적하는 단계를 포함하는, 변형가능 물체 추적을 위한 방법.
제12항 내지 제17항 중 어느 한 항에 있어서,
상기 물체의 상기 동적 표현을 수정하는 단계는,
상기 픽셀들의 스트림 내의 상기 특징부들을 상기 물체의 3차원(3D) 모델의 특징부들과 상관시키는 단계; 및
상기 상관에 기초하여 상기 물체의 3D 표현을 계산하는 단계를 포함하는, 변형가능 물체 추적을 위한 방법.
제12항에 있어서,
상기 물체의 상기 동적 표현을 생성하는 단계는, 상기 픽셀 이벤트들의 스트림을 기계 학습 아키텍처에 대한 입력으로서 사용하는 단계를 포함하는, 변형가능 물체 추적을 위한 방법.
제12항 내지 제20항 중 어느 한 항에 있어서,
상기 물체의 상기 동적 표현을 생성하는 단계는,
상기 픽셀 이벤트들의 스트림으로부터 누적된 이벤트 데이터를 포함하는 입력을 생성하는 단계 - 상기 입력은, 상기 이벤트 카메라의 대응하는 픽셀 센서들에서 미리 결정된 시간 기간 내에 발생하는 고정된 수의 이벤트들을 표현하는 셀들의 그리드를 포함함 -; 및
콘볼루셔널 신경망(CNN)을 통해 상기 동적 표현을 생성하는 단계를 포함하며,
상기 입력은 상기 신경망에 입력되는, 변형가능 물체 추적을 위한 방법.
제12항 내지 제20항 중 어느 한 항에 있어서,
상기 물체의 상기 동적 표현을 생성하는 단계는,
상기 픽셀 이벤트들의 스트림으로부터 누적된 이벤트 데이터를 포함하는 입력을 생성하는 단계 - 상기 입력은, 이미지 픽셀들이 상기 이벤트 카메라의 대응하는 픽셀들에 대한 시간적으로-누적된 픽셀 이벤트들에 대응하는 이미지를 포함함 -; 및
콘볼루셔널 신경망(CNN)을 통해 상기 동적 표현을 생성하는 단계를 포함하며,
상기 입력은 상기 신경망에 입력되는, 변형가능 물체 추적을 위한 방법.
제13항 내지 제20항 중 어느 한 항에 있어서,
상기 물체의 상기 동적 표현을 생성하는 단계는,
상기 픽셀 이벤트들의 스트림으로부터 누적된 이벤트 데이터를 포함하는 입력을 생성하는 단계 - 상기 입력은, 픽셀 이벤트들이 상기 이벤트 카메라의 대응하는 픽셀 센서들에서 식별되었던 이후의 시간의 양에 이미지 픽셀들이 대응하는 이미지를 포함함 -; 및
콘볼루셔널 신경망(CNN)을 통해 상기 동적 표현을 생성하는 단계를 포함하며,
상기 입력은 상기 신경망에 입력되는, 변형가능 물체 추적을 위한 방법.
제13항 내지 제20항 중 어느 한 항에 있어서,
상기 물체의 상기 동적 표현을 생성하는 단계는,
상기 픽셀 이벤트들의 스트림으로부터 누적된 이벤트 데이터를 포함하는 입력을 생성하는 단계 - 상기 입력은, 상기 이벤트 카메라와 동일한 위치 또는 상기 이벤트 카메라에 대한 알려진 위치로부터 취해진 상기 물체의 풀-프레임 셔터-기반 이미지를 포함함 -;
신경망을 통해 상기 동적 표현을 생성하는 단계를 포함하며,
상기 입력은 상기 신경망에 입력되는, 변형가능 물체 추적을 위한 방법.
제12항 내지 제20항 중 어느 한 항에 있어서,
상기 물체의 상기 동적 표현을 생성하는 단계는,
상기 픽셀 이벤트들의 스트림으로부터 누적된 이벤트 데이터를 포함하는 입력을 생성하는 단계; 및
순환 신경망을 통해 상기 동적 표현을 생성하는 단계를 포함하며,
상기 입력은 상기 신경망에 입력되고, 상기 순환 신경망은 상기 물체의 이전 상태들을 추적하기 위해 잠재적 상태를 사용하는, 변형가능 물체 추적을 위한 방법.
제12항 내지 제20항 중 어느 한 항에 있어서,
상기 물체의 상기 동적 표현은,
상기 변형가능 표면의 개개의 부분을 각각 근사하는 복수의 다각형들의 2차원 메시;
상기 물체와 상기 복수의 픽셀 센서들의 적어도 서브세트 사이의 거리들을 정의하는 깊이 정보를 포함하는 깊이-맵 표현;
상기 변형가능 표면의 대응하는 부분의 국부적 변형을 각각 정의하는 복수의 구역들;
상기 물체의 3차원(3D) 모델을 정의하는 3D 포인트들의 세트 - 상기 3D 포인트들의 세트 내의 각각의 포인트는 상기 물체의 상기 변형가능 표면 상의 대응하는 포인트를 표현함 -;
상기 변형가능 표면에 의해 임의의 포인트들의 세트로서 정의되는 상기 물체의 3차원 모델; 또는
관절들에 의해 연결된 강성 부분들을 포함하는 관절식 모델을 포함하는, 변형가능 물체 추적을 위한 방법.
제12항 내지 제26항 중 어느 한 항에 있어서,
상기 이벤트 카메라의 양태들을 특성화하는 카메라-관련 데이터를 사용하여 상기 물체의 상기 동적 표현을 개량하는 단계를 더 포함하며,
상기 카메라-관련 데이터는 외인성(extrinsic) 파라미터 정보, 내인성(intrinsic) 파라미터 정보, 글로벌 기준 프레임에 대한 상기 이벤트 카메라의 상대적인 위치 및 배향을 정의하는 대응 정보, 또는 이들의 조합을 포함하는, 변형가능 물체 추적을 위한 방법.
동작들을 수행하도록 컴퓨터 상에서 컴퓨터-실행가능한 프로그램 명령어들을 저장하는 비일시적 컴퓨터 판독가능 저장 매체로서,
상기 동작들은,
상기 이벤트 카메라에 의해 출력된 픽셀 이벤트들의 스트림을 수신하는 것 - 상기 이벤트 카메라는 상기 이벤트 카메라의 시야 내에 배치된 장면으로부터 광을 수신하도록 위치된 복수의 픽셀 센서들을 포함하고, 각각의 개개의 픽셀 이벤트는, 개개의 픽셀 센서가 비교기 임계치를 초과하는 광 세기의 변화를 검출하는 것에 응답하여 생성됨 -;
상기 픽셀 이벤트들의 스트림을 사용하여 상기 장면에서 물체의 동적 표현을 생성하는 것 - 상기 물체는 시간에 걸쳐 변하는 변형가능 표면을 가짐 -;
상기 픽셀 이벤트들의 스트림에 기초하여 시간에 걸쳐 상기 물체의 특징부들을 추적하는 것; 및
시간에 걸친 상기 물체의 상기 특징부들의 상기 추적에 응답하여 상기 물체의 상기 동적 표현을 수정하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
제28항에 있어서,
상기 시간에 걸쳐 상기 물체의 상기 특징부들을 추적하는 것은, 상기 픽셀 이벤트들의 스트림에서 상기 특징부들에 대응하는 픽셀 이벤트들의 패턴들을 식별하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
제28항에 있어서,
상기 시간에 걸쳐 상기 물체의 상기 특징부들을 추적하는 것은, 흐름-기반 추적 또는 기계-학습 기반 추적을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.