KR20210039891A

KR20210039891A - 타깃 검출 및 추적을 위한 프레임-율 이미징을 이용하는 뉴로모픽 비전

Info

Publication number: KR20210039891A
Application number: KR1020190167585A
Authority: KR
Inventors: 수닐 엘. 쿠크레자; 조셉 브이. 맨티제; 올루스퀸 티. 오신; 존 리오베; 존 에스. 머피
Original assignee: 센서스 언리미티드 인크.
Priority date: 2019-10-02
Filing date: 2019-12-16
Publication date: 2021-04-12
Also published as: TW202115677A; EP3800580A1; US20210105421A1; JP2024109642A; JP2021061573A; TWI816002B; CN112598700A; US11588987B2; JP7488645B2

Abstract

이미징 시스템 및 이미징 방법이 제공된다. 이미징 시스템은 적외선 스펙트럼으로 동적 장면으로부터 반사 또는 발산되는 광을 포커싱하기 위한 단일 광학 모듈 및 포커싱된 광을 수신하고 수신된 포커싱된 광으로부터 고 공간 해상도 및 저 시간 해상도를 갖는 적외선 이미지를 획득하기 위한 동기식 초점 평면 어레이를 포함한다. 이미징 시스템은 포커싱된 광 을 수신하고 고 시간 해상도를 갖는 뉴로모픽 이벤트 데이터를 획득하도록 구성된 비동기식 뉴로모픽 비전 시스템, 및 적외선 이미지와 이벤트 데이터 모두를 판독하도록 구성된 판독 집적 회로(ROIC)를 더 포함한다.

Description

타깃 검출 및 추적을 위한 프레임-율 이미징을 이용하는 뉴로모픽 비전 {NEUROMORPHIC VISION WITH FRAME-RATE IMAGING FOR TARGET DETECTION AND TRACKING}

1. 기술분야

본 발명은 프레임-율(frame-rate)을 갖는 뉴로모픽 비전(neuromorphic vision)과 관련되고, 더 구체적으로, 프레임-율 이미징과 뉴로모픽 비전의 조합을 이용한 타깃 검출 및 추적과 관련된다.

2. 관련 기술의 설명

프레임-율 이미징 시스템은 지정 프레임 율로 강도 이미지를 감지 및 출력하기 위한 동기식(프레임식) 센서를 이용한다. 강도 이미지는 많은 전력, 메모리, 및 대역폭을 소모하는 고 공간 해상도 및 저 시간 해상도를 가진다. 시간 해상도의 소폭 증가가 메모리 및 대역폭 소비의 지수 증가를 야기할 수 있다.

뉴로모픽 비전은 등장 시점에서의 타깃의 움직임에 의해 야기되는 국소 픽셀-레벨 변경을 출력하는 수동 감지를 위한 비동기식(즉, 비프레임식) 센서를 이용한다. 뉴로모픽 비전은 매우 높은 시간 해상도에서 움직임을 감지하는 것에 응답하여 저전력 및 저-대역폭 솔루션을 제공한다. 공간 해상도 기능은 장차 증가될 수 있지만, 현재까지, 뉴로모픽 비전 데이터는 저 공간 해상도를 가진다. 작은 양의 데이터 출력은 타깃에 대한 제한된 정보를 제공하지만, 뉴로모픽 비전은 움직임을 검출하고 추적하는 이점을 제공한다.

그러나 뉴로모픽 비전의 실시형태는 제한된 연구 실험으로 한정되어 있다. 이러한 실험은 배치 조건에 대해, 가령, (1) 최소 장면 클러터(scene clutter), (2) 하나의 느리게 이동하는 물체기 식별되고 추적되어야 함, (3) 좁은 시계 및/또는 (4) 관심 물체의 초 근접성 또는 알려진 위치라는 가정을 하는 경향이 있다. 그러나 정보, 감시 및 정찰(ISR: intelligence, surveillance and reconnaissance) 같은 응용분야를 위한 실세계 시나리오에서, 가령, 구름, 지형, 및 위장으로 인한 상당한 배경 클러터가 있을 수 있는 고 고도에서 복수의 고속 타깃을 추적할 필요가 있다.

일반적으로 종래의 방법 및 시스템이 이들의 의도된 목적에 만족스러운 것으로 여겨졌지만, 제한된 자원을 이용하여 ISR에 대해 프레임-율 이미징 시스템과 뉴로모픽 비전 시스템을 조합할 수 있으며, 실세계 조건에서 그리고 고 고도에서 이렇게 할 수 있는 능력을 지닌 시스템 및 방법이 여전히 필요하다.

이하에서 기재되는 실시예의 목적 및 이점이 이하의 설명에 제공되며 이로부터 자명할 것이다. 도시된 실시예의 추가 이점이 발명의 설명 및 청구항 및 첨부된 도면에서 구체적으로 지시된 디바이스, 시스템 및 방법에 의해 구현 및 획득될 것이다.

이들 및 그 밖의 다른 이점을 획득하고 본 발명의 하나의 양태에 따르는 도시된 실시예의 목적에 따라, 이미징 시스템이 제공된다. 상기 이미징 시스템은 적외선 스펙트럼으로 동적 장면으로부터 반사 또는 발산되는 광을 포커싱하도록 구성된 단일 광학 모듈 및 포커싱된 광을 수신하고 수신된 포커싱된 광으로부터 고 공간 해상도 및 저 시간 해상도를 갖는 적외선 이미지를 획득하기 위한 동기식 초점 평면 어레이를 포함한다. 이미징 시스템은 포커싱된 광을 수신하고 고 시간 해상도를 갖는 뉴로모픽 이벤트 데이터를 수신하도록 구성된 비동기식 뉴로모픽 비전 시스템을 더 포함한다. 조합된 적외선 및 뉴로모픽 시스템은 적외선 이미지와 이벤트 데이터 모두를 판독하도록 구성된 판독 집적 회로(ROIC)를 가진다.

본 발명의 또 다른 양태에 따라, 이미징을 위한 방법이 제공된다. 상기 방법은 적외선 스펙트럼으로 동적 장면으로부터 반사 또는 발산되는 광을 포커싱하는 단계 및 수신된 포커싱된 광으로부터 고 공간 해상도 및 저 시간 해상도를 갖는 포커싱된 광으로부터의 적외선 이미지를 동기식으로 획득하는 단계를 포함한다. 상기 방법은 포커싱된 광으로부터 고 시간 해상도를 갖는 이벤트 데이터를 비동기식으로 획득하는 단계 및 적외선 이미지와 이벤트 데이터 모두를 판독하는 단계를 더 포함한다.

본 발명의 또 다른 양태에 따라, 타깃을 이미징하기 위한 이미징 시스템이 제공된다. 상기 이미징 시스템은 포커싱된 광을 수신하고 강도 이미지를 동기식으로 획득하기 위한 동기식 초점 평면 어레이를 포함하며, 강도 이미지는 수신된 포커싱된 광으로부터 고 공간 해상도 및 저 시간 해상도를 가진다. 이미징 시스템은 포커싱된 광을 수신하고 이벤트 데이터를 비동기식으로 획득하도록 구성된 비동기식 뉴로모픽 비전 시스템을 더 포함하며, 이벤트 데이터는 고 시간 해상도를 가진다. ROIC가 제공되며, ROIC는 강도 이미지 및 이벤트 데이터 모두를 판독하도록 구성되며, 초점 평면 어레이 및 ROIC는 저 프레임 율로 강도 이미지를 획득 및 판독하도록 초기 구성된다. 이미징 시스템은 이벤트를 검출하기 위해 비동기식으로 이벤트 데이터를 모니터링하도록 구성된 적어도 하나의 처리 모듈을 더 포함한다. 이벤트의 검출에 응답하여, 처리 모듈은 초점 평면 어레이 및 ROIC 중 적어도 하나를 제어하여 강도 이미지가 획득되거나 판독되는 프레임 율을 제1 프레임 율에서 제2 프레임 율로 증가시키도록 더 구성된다.

본 발명의 또 다른 양태에 따라, 템플릿을 이용해 획득된 동적 장면의 강도 이미지 및 비동기식으로 획득된 이벤트 데이터를 처리하는 방법이 제공되며, 이벤트 데이터는 뉴로모픽 비전 시스템을 이용해 장면으로부터 반사 또는 발산되는 광에 응답하여 획득되고, 회득된 이벤트 데이터는 고 시간 해상도를 가진다. 방법은 템플릿을 수신하는 단계를 포함하며, 여기서 템플릿은 기계 학습 훈련에 의해 결정된다. 또한, 템플릿은 복수의 항목을 포함하며, 각각의 항목은 하나 이상의 훈련된 강도 이미지와 상관된 훈련된 이벤트 데이터를 포함한다. 상관된 훈련된 이벤트와 하나 이상의 훈련된 강도 이미지는 동일한 장면으로부터 동시에 반사 또는 발산된 광에 응답하여 획득되었고, 훈련된 강도 이미지는 하나 이상의 각자의 가능한 관심 타깃과 연관된다. 훈련된 강도 이미지는 FPA로부터 동기식으로 획득되며 고 공간 해상도 및 저 시간 해상도를 가진다. 훈련된 이벤트 데이터는 뉴로모픽 비전 시스템으로부터 비동기식으로 획득되었고 고 시간 해상도를 가진다. 방법은 질의 이벤트 데이터 또는 질의 강도 이미지 데이터를 포함하는 질의를 수신하는 단계, 질의와 가장 유사한 훈련된 이벤트 데이터 또는 훈련된 강도 이미지를 포함하는 템플릿 내 항목을 결정하는 단계 및 항목의 상관된 훈련된 강도 이미지 또는 훈련된 이벤트 데이터를 이용해 타깃을 식별, 검출 또는 추적하는 단계를 포함한다.

본 발명이 속하는 당해 분야의 통상의 기술자가 과도한 실험 없이 본 개시의 디바이스 및 방법을 제작 및 이용하는 방식을 쉽게 이해할 수 있도록, 실시예가 특정 도면을 참조하여 이하에서 상세히 기재될 것이다.
도 1은 본 발명의 실시예에 따르는 동작 환경에서 배치되는 비전 시스템의 도식이다.
도 2는 본 발명의 실시예에 따르는 비전 시스템의 블록도이다.
도 3은 본 발명의 또 다른 실시예에 따르는 비전 시스템의 도식이다.
도 4, 5 및 8-11은 본 발명의 실시예에 따르는 비전 시스템 및 이의 구성요소에 의해 수행되는 예시적 방법의 흐름도이다.
도 6은 본 발명의 실시예에 따라 강도 이미지 프레임 율의 조절의 도식이다.
도 7a 및 7b는 본 발명의 실시예에 따라는 훈련 모드(training mode)와 훈련된 모드(trained mode)에서의 비전 시스템의 융합 알고리즘 모듈의 블록도이다.
도 12a 및 12b는 신경망을 훈련하는 방법의 흐름도이다.
도 13은 본 발명의 실시예에 따르는 비전 시스템의 구성요소를 구현하도록 구성된 예시적 컴퓨터 시스템의 블록도이다.

도시된 실시예가 첨부된 도면을 참조하여 더 상세히 설명되며, 여기서 유사한 도면부호는 유사한 구조적/기능적 특징부를 식별한다. 이하에서 설명되는 도시된 실시예는 예시에 불과하며, 해당 분야의 통상의 기술자가 알 듯이, 다양한 형태로 구현될 수 있기 때문에 도시된 실시예는 어떠한 방식으로 도시된 것에 제한되지 않는다. 따라서 본 명세서에 개시된 임의의 구조적 및 기능적 세부사항이 한정으로 해석되지 않을 것이며, 청구항의 토대에 불과하고 논의되는 실시예를 다양하게 이용하기 위해 해당 분야의 통상의 기술자에게 제공되는 대표적 설명에 불과하다. 또한, 본 명세서에서 사용되는 용어 및 구절은 한정으로 의도된 것이 아니라 도시된 실시예의 이해 가능한 설명을 제공하기 위함이다.

달리 정의되지 않는 한, 본 명세서에서 사용되는 모든 기술 용어 및 과학 용어는 본 발명이 속하는 당해 분야의 통상의 기술자가 일반적으로 이해하는 것과 동일한 의미를 가진다. 본 명세서에 기재되는 것과 유사하거나 동일한 임의의 방법 및 물질이 도시된 실시예의 실시 또는 테스트에서도 사용될 수 있지만, 예시적 방법 및 물질이 기재된다.

본 명세서에서 사용되고 청구항에서 사용될 때, 단수 형태 "a", "an," 및 "the"는, 문맥상 명확하게 달리 지시되지 않는 한, 복수 형태까지 포함함을 알아야 한다. 따라서 예를 들어 "신호(the signal)"라는 언급은 하나 이상의 신호 및 해당 분야의 통상의 기술자에게 알려진 이의 균등물 등의 언급을 포함한다.

이하에서 언급되는 도시된 실시예는 컴퓨터 프로세서를 갖는 기계 상에서 실행되게 할 수 있는 제어 로직을 갖는 컴퓨터 이용 가능 매체 상에 상주하는 소프트웨어 알고리즘, 프로그램 또는 코드인 것이 바람직하다. 일반적으로 기계는 컴퓨터 알고리즘 또는 프로그램의 실행으로부터의 출력을 제공하도록 구성된 메모리 저장장치를 포함한다.

본 명세서에서 사용될 때, 용어 "소프트웨어"는 하드웨어로, 또는 펌웨어로, 또는 디스크, 메모리 저장 디바이스 상에서 이용 가능하거나 원격 기계로부터 다운로드되는 소프트웨어 컴퓨터 프로덕트로서인지에 무관하게 호스트 컴퓨터의 프로세서 내에 있을 수 있는 임의의 코드 또는 프로그램과 동의어를 의미한다. 본 명세서에 기재된 실시예는 앞서 기재된 수식, 관계, 및 알고리즘을 구현하기 위한 이러한 소프트웨어를 포함한다. 해당 분야의 통상의 기술자라면, 앞서 기재된 실시예를 기초로 도시된 실시예의 추가 특징 및 이점을 알 것이다. 따라서 도시된 실시예는 첨부된 청구항에 의해 지시되는 바를 제외하고, 구체적으로 도시되고 기재된 바에 의해 한정되지 않을 것이다.

유사한 도면 부호가 복수의 도면에서 유사한 요소를 지시하는 도면을 참조하면, 도 1은 이하에서 도시된 실시예가 구현될 수 있는 예시적 비전 시스템(vision system)(100)을 도시한다. 비전 시스템(100)은 정지형 또는 이동형 플랫폼(10)에 장착될 수 있다. 비전 시스템(100)이 볼 수 있는 장면의 물체(20)가 정지형이거나 이동형일 수 있다. 장면은 플랫폼(10) 또는 물체(20)의 움직임 때문에 동적일 수 있다. 예를 들어, 비전 시스템(100)의 플랫폼(10)은 유인 또는 무인 비행기, 우주선, 육상 또는 해상 선박일 수 있다.

비전 시스템(100)은 이벤트를 검출하고, 플랫폼(10) 및/또는 타깃(20)이 정지하고 있거나 이동하는 물체, 가령, 빠르게 움직이는 물체일 때에도, 고 시간 해상도로 물체(20)(타깃이라고도 지칭됨)를 검출 및 추적할 수 있는 능력을 제공하는 이벤트-기반 비전을 이용한다. 비전 시스템(100)은 이벤트 검출을 기초로 제어되거나 및/또는 타깃 검출, 타깃 추적, 및/또는 장면 재구성을 향상시키기 위해 기계 학습과 조합될 수 있는 초점 평면 어레이에 의해 감지되는 동기식 강도 이미지(synchronous intensity image)를 이용한다. 이들 개선에 의해 비전 시스템(100)은, 타깃(20)이 부분적으로 가려져 있을 때를 포함해, 먼 거리, 가령, 고 고도로부터 타깃(20)을 검출 및 추적할 수 있다. 이벤트-기반 비전을 강도 이미지의 동기식 획득과 조합함으로써, 비전 시스템(100)은 전력 소비를 최소화하도록 구성되고 저 데이터 처리 및 데이터 전송 요건을 수용할 수 있다.

도 2를 참조하면, 비전 시스템(100)은 광학 모듈(102), 획득 및 판독 블록(104), 처리 블록(106), 및 융합 알고리즘 모듈(108)을 포함한다. 융합 알고리즘 모듈(108)로부터의 출력, 가령, 타깃 검출 데이터, 타깃 추적 데이터, 및/또는 장면 재구성 데이터가 분석가(analyst)(110)에게 제공될 수 있으며, 분석가는 결정 모듈(112)로 정보를 적용하여, 결정, 가령, 전술적 결정을 할 수 있다.

광학 모듈(102)은 동적 장면으로부터 반사되거나 발산된 광을 획득 및 판독 블록(104)의 하나 이상의 구성요소 상으로 포커싱하는 렌즈 및/또는 광소자를 포함한다. 상기 획득 및 판독 블록(104)은 초점 평면 어레이(FPA) 및 판독 집적 회로(ROIC)(120) 및 동적 비전 시스템(DVS) 및 ROIC(130)를 포함한다.

FPA/ROIC(120)는 광학 모듈(102)로부터 수신된 포커싱된 광의 감지된 광을 기초로 동기되는 강도 이미지의 획득 및 강도 이미지의 판독을 위해 구성된다. FPA/ROIC에 의한 이미지 획득 및 판독은 DVS/ROIC(130)에 비해 고 공간 해상도을 갖지만, 저 시간 해상도를 가진다. FPA/ROIC(120)은 상이한 스펙트럼으로, 비제한적 예를 들어, 가시광선 스펙트럼, 장파 적외선(LWIR) 스펙트럼, 중파 적외선(MWIR) 스펙트럼, 근적외선(NIR), 및 단파 적외선(SWIR) 스펙트럼으로, 이미지를 획득하기 위한 FPA를 포함할 수 있다. FPA/ROIC(120)는 FPA에 의해 감지되는 신호를 판독하기 위한 ROIC를 더 포함한다.

FPA/ROIC(120)는 프레임당 비교적 큰 데이터량을 캡처하는 프레임-기반 이미징 시스템이다. 시간 해상도(프레임 율) 또는 공간 해상도가 증가할 때, 발생하는 데이터량이 지수적으로 증가할 수 있다. 많은 데이터량은 많은 메모리, 전력, 및 대역폭을 소비한다. 프레임간 데이터의 대부분이 중복이다. 종래의 FPA/ROIC의 공간 및 시간 해상도는 제한된 메모리, 전력, 및/또는 데이터 대역폭 능력을 갖는 응용분야에 한정될 수 있다.

DVS/ROIC(130)는 광학 모듈(102)로부터 수신된 포커싱된 광의 감지되는 광을 기초로 하는, 비동기식 이벤트 데이터의 획득 및 이벤트 데이터의 판독을 위해 구성된다. 비동기식 데이터는 전송되거나 수신될 때 동기되지 않는 데이터이다. 이러한 유형의 전송에서, 컴퓨터와 외부 시스템 간 또는 그 반대로 신호가 비동기식으로 전송된다. 이는 보통, 꾸준한 스트림(steady stream)이 아니라 간헐적 간격으로 전송되는 데이터를 지칭한다. DVS/ROIC(130)는 FPA를 갖는 이벤트-구동 센서, 가령, 뉴로모픽 비전을 가능하게 하는 동적 비전 센서 또는 비동기식 시간-기반 이미지 센서(ATIS)다.

DVS는 먼 거리의 물체(가령, 타깃)의 세부사항을 이미징하기에 충분한 해상도를 갖도록 구성된다. 적외선 카메라 시스템(가령, SWIR, MWIR, LWIR 등)에서 광소자를 이용하는 것은 물체의 뷰를 DVS의 '이미징 평면'에 가까이 가져감으로써 물체를 이미징할 수 있다. 예를 들어, 카메라는 346 x 260 픽셀의 해상도(VGA 해상도의 절반)를 가질 수 있으며, 이때 120dB의 다이나믹 레인지, 12M 이벤트/초, 18.5 x 18.5 um의 픽셀 크기 및 설정 가능한 셔터(글로벌 또는 롤링)을 가진다. 이로 인해, 물체를 DVS의 이미징 평면에 가까이 가져가기 위해 또 다른 광학 시스템이 이와 협력하여 사용되는 경우 DVS가 물체를 잘 이미징할 수 있다. DVS/ROIC(130)는 센서로부터 이벤트 데이터를 판독하고 이벤트 데이터를 융합 알고리즘 모듈(108)로 제공하도록 구성된 ROIC를 더 포함한다.

처리 블록(106)은 그래픽-처리 장치(GPU)(122) 및 현장 프로그램 가능 게이트 어레이(FPGA) 또는 각각 전용 신경망(neural network)을 적용하는 뉴로모픽 처리 장치(NPU: neuromorphic processing unit)(132)를 포함한다. 신경망은 콘볼루션 신경망(CNN) 및/또는 딥 신경망(DNN)을 포함할 수 있다. GPU(122)는 제1 신경망을 이용해 FPA/ROIC(120)으로부터 수신된 강도 이미지를 처리할 수 있다. GPU(122)에 의해 수행되는 처리는 프레임-기반이다. FPGA 또는 NPU(132)는 제2 신경망을 이용해 DVS/ROIC(130)으로부터 수신된 이벤트 데이터를 처리할 수 있다. NPU(132)에 의해 수행되는 처리는 이벤트-기반이다. 가령, 기계 학습 훈련 및 훈련된 기계 학습 프로세스의 적용을 위해, 화살표(113)로 나타나듯이, GPU(122) 및 FPGA 또는 NPU(132)로부터의 출력이 융합 알고리즘 모듈(108)에 제공된다.

GPU(122) 및 FPGA 또는 NPU(132)가 ISR 알고리즘, 비제한적 예를 들어, 타깃 검출(TD), 타깃 추적(TT) 및 장면 재구성을 수행하는 알고리즘을 수행한다. GPU(122) 및 FPGA 또는 NPU(132)로부터 출력된 결과가 융합된 출력(115)이다. 융합된 출력은 검출된 타깃을 식별하고 타깃 추적에 대한 정보를 제공할 수 있다. 검출된 미사일에 대한 하이-레벨 융합된 출력(15)의 비제한적 예시가 "미사일, 북쪽을 향함, 속도 10 m/s" 또는 '민간 차량, 북쪽을 향하는 Subaru™ Forester™, 속도 5 m/s"이다. 이러한 하이-레벨 융합된 출력(115)은 분석가가 결정 또는 추천을 빠르게 하기 위해 사용할 수 있는 액셔너블 데이터를 제공한다.

SWIR, LWIR, MWIR, NIR 스펙트럼 중 임의의 것에서 동작하는 카메라가 FPA/ROIC(120)로서 동작하도록 개조될 수 있다. 실시예에서, 필수는 아니더라도, DVS/ROIC(130)가 FPA의 포토다이오드 어레이(PDA)에서 센서에 의해 사용되는 물질의 사전 지식으로 설계될 수 있다. 이는 PDA와 조합하여 카메라 성능을 최적화할 수 있다. InGaA-기반 PDA의 경우, PDA의 기판은 박막화되어, 자신의 흡수 파장을 EM 스펙트럼의 가시 부분, 따라서 예를 들면, SWIR, NIR, 및 가시광 파장까지로 하향 확장할 수 있다. 이러한 PDA의 수정은 DVS/ROIC(130)의 수정을 필요로 하지 않을 것이다. 그러나 더 긴 파장(즉, MWIR 내지 LWIR)을 지원하기 위해, DVS/ROIC(130)가 이들 특정 파장을 갖는 최적 동작을 위해 구성될 필요가 있을 것이다.

도 3을 참조하면, 비전 시스템(100)이 도시되어 있고, 여기서 획득 및 판독 블록(104)이 강도 이미지 획득을 위한 센서, 가령, FPA를 포함하는 단일 모듈로 구성되거나, 하나 이상의 이벤트-구동 센서, 가령, 동적 비전 센서 또는 비동기식 시간-기반 이미지 센서(ATIS)와 통합된다. FPA는 특정 스펙트럼, 가령, 가시광, SWIR, NIR, MWIR, 또는 LWIR의 광을 감지하도록 구성될 수 있다. 획득 및 판독 블록(104)은 동기식 강도 이미지와 비동기식 이벤트-기반 데이터 모두를 판독하도록 구성된 ROIC를 포함한다. 가령, 그 주제 사항이 본 명세서에 참조로서 포함되는 미국 특허 번호 US9641781 및 US9698182가 동기식 강도 이미지와 비동기식 이벤트-기반 데이터 모두를 판독하기 위한 FPA와 이벤트-구동 센서의 통합 및 단일 ROIC의 제공의 예시를 개시하고 있다.

처리 블록(106)은 신경망(NN), 가령, CNN 및/또는 DNN를 이용해, 동기식 통합된 이미지 및 획득 및 판독 블록(104)에 의해 출력된 비동기식 이벤트 데이터 모두를 수신하고 처리한다. 일반적으로 신경망은 계층적 상호연결된 복수의 층의 가중 필터로 구성된다. 신경망은 판독 블록(104)으로부터 동기식 이미지 및 비동기식 이벤트 데이터를 취하고 특징 맵(feature map)이라 알려진 이 입력 데이터의 새 학습 표현을 출력한다. 특징 맵의 모든 항목이 NN의 층의 하나의 뉴런과 동등하다. 각각의 층이 이전 층의 특징 추출 상에 구축된다. 이들 계층적 특징 추출기의 출력이, 판독 블록(104)으로부터의 동기식 이미지 및 비동기식 이벤트 데이터를 이용해 분류 작업을 수행하는 완전-연결된 NN으로 공급된다.

융합 알고리즘 모듈(108)은 GPU(122) 및 FPGA 또는 NPU(132)(도 2) 또는 처리 블록(106)(도 3에서 통합 블록으로 나타남)으로부터 출력을 수신한다. 데이터는 이하에서 더 기재될 바와 같이 하나 이상의 모델을 훈련하도록 사용될 수 있다. 데이터는 또한, 가령, 타깃 검출, 타깃 추적, 또는 장면 재구성을 위한 모델로의 입력으로서 사용될 수 있다.

타깃 검출, 타깃 추적, 또는 장면 재구성이 기계 학습에 의해 보강되기 때문에, 강도 이미지의 사용 없이 또는 비교적 느린 프레임 율로 획득된 강도 이미지를 이용해 작은 양의 이벤트 데이터로부터 많은 양의 지식이 추론될 수 있으며, 여기서, 느린 프레임 율은 메모리, 전력 및/또는 데이터 대역폭의 소비를 감소시킨다.

도 2 및 3 모두에서 나타난 실시예에서, 동일한 소스로부터의 광이 획득 및 판독 모듈(104) 상으로 동시에 입사되어, 강도 이미지와 이벤트 데이터 모두를 획득 및 판독할 수 있다. 도 2에 도시된 실시예에서, 동일한 소스로부터의 광이 FPA/ROIC(120) 및 DVS/ROIC(130) 모두 상에 동시에 입사된다. 실시예에서, 동일한 소스로부터의 하나의 광학 모듈(102)에 의해 FPA/ROIC(120) 및 DVS/ROIC(130) 모두 상에 동시에 포커싱된다. 도 3에 도시된 실시예(들)에서, 획득 및 판독 블록(104) 상에 입사되는 광이 강도 이미지와 이벤트 데이터 모두의 획득을 위해 동시에 처리된다. 실시예에서, 동일한 소스로부터의 광이 하나의 광학 모듈(102)에 의해 획득 및 판독 블록(104) 상에 포커싱되어, 강도 이미지와 이벤트 데이터를 동시에 획득할 수 있다.

도 4, 5 및 7-10은 비제한적 예시적 흐름도를 보여준다. 도 4, 5 및 7-10에 대해 설명하기 전에, 도 4, 5 및 7-10의 흐름도는 동작 단계가 블록들을 연결하는 선에 의해 지시되는 특정 순서로 수행되는 예시를 보여주지만, 이 도면에서 나타나는 다양한 단계는 상이한 순서로 또는 상이한 조합으로 또는 부분 조합으로 수행될 수 있음을 알아야 한다. 일부 실시예에서 이하에서 기재되는 단계들 중 일부가 단일 단계로 조합될 수 있음이 자명할 것이다. 일부 실시예에서, 하나 이상의 추가 단계가 포함될 수 있다. 일부 실시예에서, 단계들 중 하나 이상이 생략될 수 있다.

도 4를 참조하면, 흐름도(400)가 특정 도시된 실시예에 따르는 이미징 방법을 도시한다. 방법은 비전 시스템, 가령, 도 1-3에서 도시된 비전 시스템(100)에 의해 수행될 수 있다. 동작(402)은 단파 적외선(SWIR) 스펙트럼으로 동적 장면으로부터 반사 또는 발산되는 광을 포커싱하는 것을 포함한다. 동작(404)은 수신된 포커싱된 광으로부터 고 공간 해상도 및 저 시간 해상도를 갖는 SWIR 이미지를 포커싱된 광로부터 획득하는 것을 포함한다. 동작(406)은 포커싱된 광으로부터 고 시간 해상도를 갖는 이벤트 데이터를 획득하는 것을 포함한다. 동작(408)은 SWIR 이미지와 이벤트 데이터 모두를 판독하는 것을 포함한다. 흐름도(400)에 도시된 방법은 선택사항으로서 동작(410-412)을 더 포함할 수 있다. 동작(410)은 이벤트 데이터에서 이벤트를 검출하는 것을 포함한다. 동작(412)은 이벤트의 검출을 기초로, SWIR 이미지 및 이벤트 데이터를, 가령, 타깃 검출, 타깃 추적, 장면 재구성, 상기 타깃 검출, 타깃 추적, 장면 재구성 등 중 임의의 동작을 수행하기 위해 사용될 수 있는 모델 생성을 위한 훈련 수행 중 임의의 동작을 수행하도록 처리하는 것을 포함할 수 있다.

도 5를 참조하여, 흐름도(500)는 특정 도시된 실시예에 따라 타깃을 이미징하기 위한 방법을 도시한다. 방법은 도 1-3에 도시된 비전 시스템(100) 같은 비전 시스템에 의해 수행될 수 있다. 동작(502)은 이벤트 검출을 위한 이벤트 데이터를 모니터링하는 것을 포함한다. 동작(504)은, 이벤트 검출에 응답하여, 강도 이미지가 획득되거나 판독되는 프레임 율을 증가시키기 위해 초점 평면 어레이 및 ROIC 중 적어도 하나를 제어하는 것을 포함한다. 하나 이상의 실시예에서, FPA는 단파 적외선(SWIR) 스펙트럼에서 동작한다. 하나 이상의 실시예에서, FPA는 NIR, MWIR, LWIR, 또는 가시광 스펙트럼에서 동작한다. 강도 이미지 획득의 프레임 율을 제어하기 위한 제어 신호가 도 2 및 3에서 화살표(111)로 나타내어진다. 도 2에서, FPGA 또는 NPU(132)는 이벤트 검출을 수행하고, 화살표(111)로 나타내어지듯이, 제어 신호를 FPA/ROIC(120)로 전송한다. 도 3에서, 처리 블록(106)은 이벤트 검출을 수행하고, 화살표(111)로 나타내어지듯이, 제어 신호를 획득 및 판독 블록(104)으로 전송한다.

흐름도(500)에서 나타난 방법이 선택사항으로서 동작(501, 506, 및 508)을 더 포함할 수 있다. 동작(501)은 광학 모듈, 가령, 도 2 및 3에서 나타나는 광학 모듈(102)에 의한 동적 장면으로부터 반사 또는 발산되는 광을 포커싱하는 것을 포함한다. 이 광학 모듈은 단일 광학 모듈일 수 있다.

동작(506)은, 검출된 이벤트와 연관된 타깃이 더는 추적되지 않음에 응답하여, 프레임 율을 제3 프레임 율로 감소시키는 것을 포함할 수 있다. 동작(508)은 가령, 본 명세서에 따라, 타깃 검출, 타깃 추적, 장면 재구성, 상기 타깃 검출, 타깃 추적, 장면 재구성 등을 수행하기 위해 사용될 수 있는 모델을 생성하기 위한 훈련 수행 중 임의의 것 같은 동작을 수행하기 위해, 강도 이미지 및 이벤트 데이터를 처리하는 것을 포함할 수 있다.

도 6은 FPA, 가령, FPA/ROIC(120) 또는 획득 및 판독 블록(104)에 포함된 FPA에 의해 생성되는 강도 이미지의 프레임(600)의 다이어그램을 도시한다. 프레임(600)은 화살표(111)로 표현되는 제어 신호에 따라 느린 프레임 율로 획득되는 제1 프레임(602) 및 빠른 프레임 율로 획득되는 제2 프레임(604)을 포함한다. 제1 프레임(602)이 획득되는 동안, DVS/ROIC(130) 또는 획득 및 판독 블록(104)에 의해 출력되는 이벤트 데이터가 강도 이미지가 더 빠른 율의 제2 프레임(604)으로서 획득 또는 판독되는 시점(606)에서의 이벤트의 검출에 대해 모니터링된다. 검출되는 이벤트와 연관된 타깃이 더는 추적되지 않을 때, 강도 이미지가 더 느린 프레임 율의 제1 프레임(602)으로서 획득 또는 판독된다. 하나 이상의 실시예에서, 프레임 율은 제1 프레임(602)의 획득에 대한 프레임 율과 동일한 프레임 율로 감소된다. 하나 이상의 실시예에서, 프레임 율은 제1 프레임(602)을 획득하기 위해 사용되는 프레임 율보다 느리거나 빠르지만, 제2 프레임(604)을 획득하기 위해 사용되는 프레임 율보다 느린 상이한 프레임 율로 감소된다.

도 7a 및 7b를 각각 참조하면, 융합 알고리즘 모듈(108)이 오프라인 훈련 단계 및 온라인 적용 단계로 나타난다. 도 7a를 참조하면, 융합 알고리즘 모듈(108)은 훈련 데이터를 수신하고, 훈련 알고리즘을 수행하며, 모델 및/또는 템플릿일 수 있는 훈련된 데이터를 생성한다. 훈련 데이터는 획득된 강도 이미지 및 이벤트 데이터이다. 훈련된 데이터는 장면 재구성을 수행하도록 구성된 모델 및/또는 타깃 식별, 검출 및/또는 추적을 위해 구성된 템플릿을 포함할 수 있다.

도 7b를 참조하면, 융합 알고리즘 모듈(108)은 질의 데이터(query data)를 수신하고 훈련된 데이터를 이용해 출력을 생성할 수 있다. 훈련된 데이터가 장면 구성을 수행하도록 구성된 재구성 모델을 포함하는 하나 이상의 실시예에서, 질의는 윈도를 정의하는 획득 시간을 갖는 두 개의 연속되는 강도 이미지일 수 있고 출력은, 재구성 모델을 적용함으로써, 두 개의 연속되는 강도 이미지로부터 재구성되는 윈도에서 획득 시간을 갖는 새 강도 이미지일 수 있다. 상이한 적용예에서 재구성을 위한 예시적 방법이 Scheerlinck, C., Barnes, N., & Mahoney, R., Continuous-time intensity estimation using event cameras, Asian Conference on Computer Vision (pp. 308-324), Springer, Cham (December, 2018)에서 발견될 수 있다.

훈련된 데이터가 템플릿을 포함하는 하나 이상의 실시예에서, 질의는 이미지 질의 또는 획득 이벤트 데이터 질의의 세그먼트일 수 있다. 출력은 훈련된 강도 이미지 또는 훈련된 이벤트 데이터일 수 있으며, 질의와 매칭되는 것으로 결정된 템플릿 내 항목과 상관된다. 질의가 이미지 질의인 때, (매칭 임계치를 기초로) 이미지 질의와 매칭되는 훈련된 이미지 데이터를 갖는 템플릿 내 항목이 결정된다. 융합 알고리즘 모듈(108)은 결정된 항목의 훈련된 이벤트 데이터를 출력한다. 질의가 획득된 이벤트 데이터 질의의 세그먼트일 때, 획득된 이벤트 데이터 질의의 세그먼트와 (매칭 임계치를 기초로) 매칭되는 훈련된 이벤트 데이터를 갖는 템플릿 내 항목이 결정된다. 융합 알고리즘 모듈(108)은 결정된 항목의 훈련된 강도 이미지를 출력한다.

도 8을 참조할 때, 흐름도(800)는 특정 도시된 실시예에 따라 획득된 이벤트 데이터를 이용한 강도 이미지의 장면 재구성을 수행하기 위한 방법을 도시하며, 여기서 강도 이미지 및 이벤트 데이터는 동시에 동일한 장면으로부터 반사 및/또는 발산된 포커싱된 광으로부터 획득된다. 강도 이미지가 FPA로부터 획득되고 이벤트 데이터가 뉴로모픽 비전 시스템으로부터 획득된다. 강도 이미지가 고 공간 해상도 및 저 시간 해상도를 가지며, 반면, 이벤트 데이터는 고 시간 해상도를 가진다. 방법은 융합 알고리즘 모듈, 가령, 도 2 및 3에 도시된 융합 알고리즘 모듈(108)에 의해 수행될 수 있다. 동작(802)은 윈도를 정의하는 획득 시점을 갖는 두 개의 연속된 강도 이미지를 획득하기 위한 획득된 강도 이미지 및 검출된 이벤트에 대응하는 상기 윈도 내에 포함된 시점에서 획득된 이벤트 데이터를 처리하는 것을 포함한다. 동작(804)은 기계 학습을 적용함으로써 윈도에 포함되는 이론적 획득 시점을 갖는 새로운 강도 이미지를 생성하는 것을 포함한다. 동작(806)은 두 개의 연속되는 이미지 사이에 새로운 강도 이미지를 삽입하는 것을 포함한다. 동작(808)에서, 두 개의 연속되는 강도 이미지에 대한 장면 재구성이 완료되는지 여부에 대한 결정이 이뤄진다. 이 결정은 수행되는 반복의 횟수, 새로운 강도 이미지와 상이한 이미지 간 획득 시간차, 가령, 이전 반복에서 생성되는 새로운 강도 이미지 또는 두 개의 연속되는 강도 이미지 중 하나, 또는 새로운 강도 이미지의 파라미터를 기초로 할 수 있다.

도 9를 참조하면, 흐름도(900)가 특정 도시된 실시예에 따라 훈련 강도 이미지 및 훈련 이벤트 데이터를 이용해 장면 재구성을 수행하기 위한 모델을 훈련하기 위한 방법을 도시하며, 여기서, 훈련 강도 이미지 및 훈련 이벤트 데이터가 동시에 동일한 소스로부터 수신된 포커싱된 광으로부터 획득된다. 훈련 강도 이미지는 FPA로부터 획득되고 훈련 이벤트 데이터는 뉴로모픽 비전 시스템으로부터 획득된다. 훈련 강도 이미지는 고 공간 해상도 및 저 시간 해상도를 가지며, 반면에 훈련 이벤트 데이터는 저 공간 해상도 및 고 시간 해상도를 가진다. 방법은 융합 알고리즘 모듈, 가령, 도 2 및 3에 도시된 융합 알고리즘 모듈(108)에 의해 수행될 수 있다.

동작(902)은 알려진 타깃과 연관된 훈련 강도 이미지 및 훈련 이벤트 데이터를 수신하는 것을 포함한다. 동작(904)은 훈련 강도 이미지들 중 두 개의 연속되는 훈련 강도 이미지의 획득 시점 간 훈련 윈도에 포함되는 이론적 훈련 획득 시점을 갖는 새로운 훈련 강도 이미지를 추정하는 것을 포함한다. 동작(906)은 추정된 새로운 훈련 강도 이미지를 이론적 훈련 획득 시점에서 획득된 실제 이미지에 비교하는 것을 포함한다. 동작(908)은 비교 결과를 기초로, 기계 학습을 위해 사용되는 적어도 하나의 파라미터를 조절하는 것을 포함한다.

도 10을 참조하면, 흐름도(1000)가 템플릿 및 획득된 이벤트 데이터를 이용해 특정 도시된 실시예에 따라 타깃을 검출 및/또는 추적하기 위한 방법을 도시하며, 여기서, 이벤트 데이터는 뉴로모픽 비전 시스템, 가령, 도 2 및 3에 도시된 비전 시스템(100)을 이용해, 장면으로부터 반사 또는 발산되는 광에 응답하여 획득된다. 동작(1002)은 템플릿을 수신하는 것을 포함한다. 복수의 항목을 포함하는 템플릿은 기계 학습 훈련에 의해 결정된다. 각각의 항목은 하나 이상의 훈련된 강도 이미지와 상관되는 훈련된 이벤트 데이터를 포함한다. 상관된 훈련된 이벤트와 하나 이상의 훈련된 강도 이미지는 동일한 장면으로부터 동시에 반사 또는 발산된 광에 응답하여 획득되었다. 훈련된 강도 이미지는 하나 이상의 각각 가능한 관심 타깃과 연관되었다. 훈련된 강도 이미지는 FPA로부터 획득되었고 고 공간 해상도 및 저 시간 해상도를 가지며, 훈련된 이벤트 데이터는 뉴로모픽 비전 시스템으로부터 획득되고 저 공간 해상도 및 고 시간 해상도를 가진다. 동작(1004)은 질의 이벤트 데이터 또는 질의 강도 이미지 데이터를 포함하는 질의를 수신하는 것을 포함한다. 동작(1006)은 질의와 가장 유사한 훈련된 이벤트 데이터 또는 훈련된 강도 이미지를 포함하는 템플릿 내 항목을 결정하는 것을 포함한다. 동작(1008)은 항목의 상관된 훈련된 강도 이미지 또는 훈련된 이벤트 데이터를 이용하여 타깃을 식별, 검출 또는 추적하는 것을 포함한다.

하나 이상의 실시예에 따라, 질의는 질의 강도 이미지를 포함하고, 결정된 이벤트는 질의 강도 이미지와 가장 유사한 훈련된 강도 이미지를 포함하며, 항목의 상관된 훈련된 이벤트 데이터가 결정된다. 방법은 획득된 이벤트 데이터를 계속 수신하는 동작(1010)을 더 포함할 수 있다. 동작(1008)은 획득된 이벤트 데이터와 상관된 훈련된 이벤트 데이터의 유사성을 결정하는 것을 포함할 수 있다. 유사성의 결정은 새로운 타깃이 검출되는지 또는 이전에 검출된 타깃이 다시 검출되었는지를 결정하도록 사용될 수 있으며, 이는 타깃 추적 및 새로운 타깃 검출을 위해 사용될 수 있다.

하나 이상의 실시예에 따라, 질의는 획득된 이벤트 데이터의 세그먼트를 포함하며, 결정된 이벤트는 획득된 이벤트 데이터의 질의의 세그먼트와 가장 유사한 훈련된 이벤트 데이터를 포함하고, 상관된 훈련된 강도 이미지가 결정된다. 동작(1008)에서, 동작(1006)에서 결정된 상관된 훈련된 강도 이미지가 획득된 이벤트 데이터의 세그먼트와 연관되고, 획득된 이벤트 데이터 질의의 세그먼트와 연관된 타깃을 식별하는 데 사용될 수 있다. 이 식별은 타깃을 추적하기 위해 타깃을 반복적으로 검출하는 데 도움이 될 수 있다.

방법은 획득된 이벤트 데이터를 계속 수신하는 동작(1010)을 더 포함할 수 있으며, 여기서, 획득된 이벤트 데이터의 또 다른 세그먼트가 질의로서 제공될 수 있다. 획득된 이벤트 데이터는 질의로서 제공되는 세그먼트로 자동으로 분할될 수 있다. 이러한 분할은 CNN/DNN(106 또는 132)로 수행될 수 있다. DVS/ROIC(130)에서 노이즈 감소가 수행될 수 있고, 작은 시간 윈도 내에 공간적으로 이벤트 데이터를 클러스터링함으로써, 분할이 수행될 수 있다. 상기 시간 윈도 내 질의 이벤트가 클러스터의 속력 및 방향을 기초로 배경으로부터 분할될 수 있다. 복수의 물체에 대한 이벤트가 유사한 방식으로 분할될 수 있다. 하나 이상의 실시예에 따라, 모션, 크기, 및/또는 방향 중 적어도 하나에 의해 획득된 이벤트 데이터가 클러스터링된다.

하나 이상의 실시예에 따라, 항목을 결정하는 것은 항목의 결정의 신뢰도를 나타내는 신뢰도 점수를 출력하는 것을 포함한다.

하나 이상의 실시예에 따라, 항목을 결정하는 것은 항목의 결정의 신뢰도를 나타내는 신뢰도 점수를 출력하는 것을 포함하며, 질의 강도 이미지의 가림(occlusion)이 신뢰도 점수에 영향을 미친다.

도 11을 참조하면, 흐름도(1100)가 특정 도시된 실시예에 따라 훈련 강도 이미지 및 훈련 이벤트 데이터를 이용해 타깃을 검출 및/또는 추적하는 데 사용되는 템플릿을 생성함으로써 모델을 훈련하기 위한 방법을 도시한다. 훈련 강도 이미지 및 훈련 이벤트 데이터는 동일한 소스로부터 동시에 수신된 포커싱된 광으로부터 획득된다. 훈련 강도 이미지는 FPA로부터 획득되고 훈련 이벤트 데이터는 뉴로모픽 비전 시스템으로부터 획득된다. 훈련 강도 이미지는 고 공간 해상도 및 저 시간 해상도를 가지며, 반면에 훈련 이벤트 데이터는 저 공간 해상도 및 고 시간 해상도를 가진다. 방법은 융합 알고리즘 모듈, 가령, 도 2 및 3에 도시된 융합 알고리즘 모듈(118)에 의해 수행될 수 있다.

동작(1102)은 각자의 알려진 타깃과 연관된 훈련 이벤트 데이터 및 훈련 강도 이미지를 수신하는 것을 포함한다. 동작(1104)은 훈련 이벤트 데이터를 각각의 알려진 타깃에 대해 수신된 강도 훈련 이미지에 상관시키는 것을 포함한다. 동작(1106)은 상관된 훈련 이벤트 데이터 및 훈련 강도 이미지를 템플릿의 훈련된 이벤트 데이터 및 훈련된 강도 이미지 데이터로서 출력하는 것을 포함한다.

하나 이상의 실시예에 따라, 템플릿을 생성하는 것은 타깃이 적어도 하나의 상이한 포즈로 위치할 때 및/또는 타깃이 이미징 시스템으로부터 상이한 거리에 위치할 때 각각의 알려진 타깃들 중 동일한 타깃과 연관된 훈련 이벤트 데이터 및 훈련 강도 이미지를 수신하는 것을 반복하는 것을 더 포함한다.

하나 이상의 실시예에 따라, 훈련 이벤트 데이터는 커넬 밀도 추정(kernel density estimation)을 적용함으로써 필터링된다.

하나 이상의 실시예에 따라, 훈련된 이벤트 데이터는 형태 기술자(shape descriptor)를 이용함으로써 인코딩된다.

도 12a 및 12b를 참조하면, 질의 이미지를 이의 이벤트 데이터 동치로 변환하기 위한 오프라인 훈련 단계 동안 조건부 적대 망(conditional adversarial network)(cGAN)의 예시적 판별기(discriminator) 측(1200) 및 생성기 측(1250)이 각각 훈련된다. cGAN은 융합 알고리즘 모듈, 가령, 도 2 및 3에서 도시된 융합 알고리즘 모듈(108)을 훈련하기 위해 사용될 수 있는 네트워크의 예시로서 제공되며 특정 네트워크를 한정하지 않는다.

도 12a를 참조하면, 생성기(G)(1202)가 입력 이미지 프레임을 출력 이벤트 세트로 변환하고, 판별기(D)(1204)가 알려지지 않은 이벤트 세트(데이터세트로부터의 타깃 이벤트 세트 또는 생성기(1202)로부터의 출력 이벤트 세트)에 대한 입력 이미지 프레임의 유사도를 측정하고 이것이 생성기(1202)에 의해 생성된 것인지 여부를 추측하려 시도한다.

비교 모듈(1206)이 유사도를 측정하면서 두 개의 입력 간 에러를 계산한다. 최적화기(1208)가 판별기 가중치(1210)를 적절하게 설정함으로써 판별기(1204)의 추측과 진실 간 에러를 최소화하려 동작한다.

훈련 동안, 생성기(1202)는 입력 이미지 프레임으로부터 출력 이벤트 세트를 생성한다. 판별기(1204)는 입력 이미지 프레임/타깃 이벤트 세트 쌍 및 입력 이미지 프레임/출력 이벤트 세트 쌍을 보고, 쌍들이 얼마나 현실적으로 보이는지를 추측을 생성한다. 그 후 판별기 가중치(1210)의 가중 벡터가 입력 이미지 프레임/타깃 이벤트 세트 쌍 및 입력 이미지 프레임/출력 이벤트 세트 쌍의 분류 에러를 기초로 조절된다.

도 12b를 참조하면, 도 12a와 관련하여 이미 기재된 구성요소는 유사한 도면 부호로 도시된다. 또한, 도 12b는 판별기(1204)의 출력 및 출력 이벤트 세트와 타깃 이미지 프레임 간 차이를 기초로 조절된 생성기의 가중치(1252)를 도시한다. 생성기의 가중치(1252)는 판별기의 출력을 기초로 하기 때문에, 판별기(1204) 성능이 개선됨에 따라, 생성기(1202) 성능도 개선되어, 입력 이미지 프레임을 실제로 나타내는 출력 이벤트 세트를 점진적으로 생성한다.

따라서 이미지-이벤트 변환(image-to-event translation)이 임의의 이미지 질의를 이벤트 데이터의 동치의 이벤트 세트로 변환하도록 훈련된다. 이미지-이벤트 변환은 또한 타깃 물체에 대한 포즈 불변성(pose invariance)을 가능하게 하도록 복수의 입력 이미지 프레임 뷰의 생성을 포함한다.

본 발명의 양태는 본 개시의 실시예에 따르는 방법, 장치(시스템) 및 컴퓨터 프로그램 프로덕트의 블록도를 참조하여 앞서 기재되었다. 기재된 방법의 특징은 소프트웨어, 하드웨어 및/또는 펌웨어를 이용해 수행될 수 있는 동작, 가령, 수학식, 변환(transformation), 변환(conversion) 등을 포함한다. 소프트웨어 구현과 관련하여, 블록도 도시의 개별 블록 및 블록도 도시 내 블록들의 조합이 컴퓨터 프로그램 명령에 의해 구현될 수 있다. 이들 컴퓨터 프로그램 명령은 범용 컴퓨터, 특수 목적 컴퓨터, 또는 그 밖의 다른 프로그램 가능 데이터 처리 장치의 프로세서로 제공되어, 기계로 하여금 컴퓨터 또는 그 밖의 다른 프로그램 가능 데이터 처리 장치의 프로세서를 통해 실행되는 명령이 블록도의 하나 이상의 블록에서 특정된 기능/동작을 구현하기 위한 수단을 생성하게 할 수 있다.

도 13을 참조하면, 제어기(102) 또는 비전 시스템(100) 및/또는 융합 알고리즘 모듈(108)의 하나 이상의 부분의 예시적 구성을 제공하는 예시적 컴퓨팅 시스템(1300)의 블록도가 도시되어 있다. 컴퓨팅 시스템(1300)은 적합한 시스템의 단지 하나의 예시에 불과하고 본 명세서에 기재된 개시 내용의 실시예의 사용 또는 기능의 범위에 관한 임의의 한정을 제안하려는 것은 아니다. 컴퓨팅 시스템(1300)은 하드웨어, 소프트웨어, 및/또는 펌웨어를 이용해 구현될 수 있다. 그럼에도, 컴퓨팅 시스템(1300)은 본 발명에서 제공되는 바와 같이 구현되거나 및/또는 기능 수행을 할 수 있다.

컴퓨팅 시스템(1300)은 범용 컴퓨팅 디바이스의 형태로 도시된다. 컴퓨팅 시스템(1300)은 처리 디바이스(1302), 메모리(1304), 내부 구성요소(1310) 및 선택사항으로서 외부 구성요소(1308)와 통신할 수 있는 입/출력(I/O) 인터페이스(I/F)(1306)를 포함한다.

처리 디바이스(1302)는 예를 들어, PLOD 마이크로프로세서, DSP, 마이크로제어기, FPGA, ASCI, 및/또는 유사한 처리 기능을 갖는 그 밖의 다른 이산 또는 집적 논리 회로를 포함할 수 있다.

처리 디바이스(1302) 및 메모리(1304)는 가령, FPGA, ASCI, 마이크로제어기 또는 마이크로프로세서에 제공되는 구성요소에 포함될 수 있다. 메모리(1304)는 예를 들어, 데이터를 임시 또는 장기간 저장하기 위한 그리고 처리 디바이스(1302)에 의해 실행 가능한 프로그램 가능 명령을 저장하기 위한 휘발성 및 비휘발성 메모리를 포함할 수 있다. I/O I/F(1306)는 하나 이상의 내부 구성요소(1308) 및/또는 외부 구성요소(1310)에 연결하기 위한 인터페이스 및/또는 컨덕터를 포함할 수 있다.

이들 컴퓨터 프로그램 명령은 또한 컴퓨터 판독형 매체에 저장될 수 있으며, 컴퓨터, 그 밖의 다른 프로그램 가능 데이터 프로세싱 장치, 또는 그 밖의 다른 디바이스에게 특정한 방식으로 기능하도록 명령할 수 있어서, 컴퓨터 판독형 매체에 저장된 명령이 흐름도 및/또는 블록 다이어그램 블록 또는 블록들에 특정된 기능/동작을 구현하는 명령을 포함하는 제조 물품을 만들 수 있다.

컴퓨터 프로그램 명령은 또한 컴퓨터, 그 밖의 다른 프로그램 가능 데이터 처리 장치, 또는 그 밖의 다른 디바이스 상으로 로딩되어, 일련의 연산적 동작이 컴퓨터, 그 밖의 다른 프로그램 가능 장치 또는 그 밖의 다른 디바이스 상에서 수행되게 하여, 컴퓨터 또는 그 밖의 다른 프로그램 가능 장치 상에서 실행되는 명령이 블록도의 블록 또는 블록들에서 특정된 기능/동작을 구현하기 위한 프로세스를 제공하도록 컴퓨터 구현 프로세스를 생성할 수 있다.

비전 시스템(100) 및/또는 융합 알고리즘 모듈(108)(또는 비전 시스템(100) 및/또는 융합 알고리즘 모듈(108)의 일부분)의 실시예가 하나 이상의 컴퓨터 시스템, 가령, 마이크로프로세서에 의해 구현 또는 실행될 수 있다. 각각의 컴퓨터 시스템(1300)은 제어기(102) 또는 이의 복수의 인스턴스를 구현할 수 있다. 다양한 실시예에서, 컴퓨터 시스템(1300)은 마이크로프로세서, FPGA, ASCI(application specific integrated circuit), 마이크로제어기 중 하나 이상을 포함할 수 있다. 컴퓨터 시스템(1300)은 임베디드 디바이스로서 제공될 수 있다. 컴퓨터 시스템(1300) 중 전부 또는 일부가 외부에서, 가령, 모바일 컴퓨팅 디바이스, 스마트 전화기, 데스크톱 컴퓨터, 랩톱 등에 의해 제공될 수 있다.

컴퓨터 시스템(1300)은 적합한 시스템의 하나의 예시에 불과하며 본 명세서에 기재된 개시의 실시예의 용도 또는 기능의 범위에 어떠한 한정도 제안하려는 의도가 없다. 그럼에도, 컴퓨터 시스템(1300)은 앞서 제공된 임의의 기능 세트로 구현 및/또는 이를 수행할 수 있다.

컴퓨터 시스템(1300)은 컴퓨터 시스템에 의해 실행되는 컴퓨터 시스템-실행 명령, 가령, 프로그램 모듈의 일반적인 맥락으로 기재될 수 있다. 일반적으로, 프로그램 모듈은 특정 작업을 수행하거나 특정 추상화 데이터 유형을 구현하는 루틴, 프로그램, 객체, 컴포넌트, 로직, 데이터 구조 등을 포함할 수 있다.

비전 시스템은 비동기식 뉴로모픽 이벤트 데이터의 획득을 동기식, 프레임된 강도 이미지와 통합한다. 하나 이상의 실시예에서, 강도 이미지는 SWIR 이미지이다. 하나 이상의 실시예에서, 강도 이미지는 가시광, NIR, MWIR, 또는 LWIR 스펙트럼의 파장을 가진다. 기계 학습이 사용되어, 장면 재구성을 수행 및/또는 타깃을 식별, 검출 및/또는 추적하기 위해 융합 알고리즘 모듈을 훈련할 수 있다. 복수의 훈련 강도 이미지 뷰를 이용해 포즈(가령, 배향) 및 스케일(scale) 불변성을 제공하도록 융합 알고리즘 모듈은 훈련된다. 가령, 커넬 밀도 추정을 이용함으로써, 훈련 이벤트 데이터로부터 노이즈가 감소된다. 템플릿이 훈련된 이벤트 데이터 및 상관된 강도 이미지 데이터의 항목을 저장한다. 훈련된 이벤트 데이터는, 가령, 형태 기술자(shape descriptor)를 이용함으로써, 인코딩될 수 있다. 훈련되면, 질의가 융합 알고리즘 모듈로 제출될 수 있다. 강도 이미지 또는 획득된 이벤트 데이터가 질의로서 제출될 수 있다. 질의로서 제출되기 전에, 획득된 이벤트 데이터가 모션, 크기 및/또는 방향에 의해 클러스터링될 수 있다. 질의가 템플릿 항목에 비교되어 유사도를 결정할 수 있다. 유사도가 지정 임계치 이상이거나 템플릿 항목에 대해 결정된 최고값일 때, 매칭(match)이 결정되고, 타깃 식별, 검출 및/또는 추적을 수행하도록 사용될 수 있다.

따라서, 이벤트 데이터와 강도 이미지를 상관시키기 위한 기계 학습의 적용이 플랫폼이 제한된 파워를 갖고, 뉴로모픽 이벤트 검출을 이용하여 장면 재구성 및/또는 타깃 식별, 검출 및/또는 추적을 수행하기 위해 자원을 처리할 수 있는 능력을 제공한다. 이벤트 데이터의 필터링, 클러스터링 및 인코딩 같은 기법은 신뢰성을 개선하고 질의 이벤트 데이터를 템플릿 내 훈련된 이벤트 데이터에 비교하고 매칭하는 능력을 개선한다.

본 개시 내용이 예시적 실시예(들)을 참조하여 기재되었지만, 해당 분야의 통상의 기술자라면 본 발명의 범위 내에서 다양한 변경이 이뤄질 수 있고 균등예로 치환될 수 있음을 이해할 것이다. 또한, 본 발명의 본질적 범위 내에서, 특정 상황 또는 물질을 본 발명의 설명에 적응시키기 위해 많은 수정이 이뤄질 수 있다. 따라서 본 발명은 개시된 특정 실시예(들)에 한정되지 않고, 본 발명은 이하의 청구범위 내에 속하는 모든 실시예를 포함할 것이다.

달리 정의되지 않는 한, 본 명세서에서 사용되는 모든 기술 용어 및 과학 용어가 본 발명이 속하는 당해 분야의 통상의 기술자에 의해 흔히 이해되는 것과 동일한 의미를 가진다. 본 명세서에 기재되는 것과 유사하거나 동일한 임의의 방법 및 물질이 도시된 실시예의 실시 또는 테스트에서도 사용될 수 있지만, 예시적 방법 및 물질이 기재된다. 본 명세서에서 언급되는 모든 간행물이 본 명세서에 참조로서 포함되며 상기 간행물이 인용된 것과 관련된 방법 및/또는 물질을 기술한다.

본 명세서에서 사용되고 청구항에서 사용될 때, 단수 형태 "a", "an," 및 "the"는, 문맥상 명확하게 달리 지시되지 않는 한, 복수 형태까지 포함함을 알아야 한다. 따라서 예를 들어 "자극(a stimulus)"라는 언급은 이러한 자극의 복수 개를 포함하고 "신호(the signal)"라는 언급은 하나 이상의 신호 및 해당 분야의 통상의 기술자에게 알려진 이의 균등물 등의 언급을 포함한다.

본 발명의 장치 및 방법이 실시예를 참조하여 도시되고 기재되었지만, 해당 분야의 통상의 기술자라면 변경 및/또는 수정이 본 발명의 사상 및 범위 내에서 이뤄질 수 있음을 쉽게 알 것이다.

Claims

이미징 시스템으로서,
적외선 스펙트럼으로 동적 장면으로부터 반사 또는 발산되는 광을 포커싱하도록 구성된 단일 광학 모듈,
포커싱된 광을 수신하고 상기 수신된 포커싱된 광으로부터 고 공간 해상도 및 저 시간 해상도를 갖는 적외선 이미지를 획득하기 위한 동기식 초점 평면 어레이,
포커싱된 광을 수신하고 고 시간 해상도를 갖는 뉴로모픽 이벤트 데이터를 획득하도록 구성된 비동기식 뉴로모픽 비전 시스템, 및
적외선 이미지와 이벤트 데이터 모두를 판독하도록 구성된 판독 집적 회로(ROIC)
를 포함하는, 이미징 시스템.
제1항에 있어서,
이벤트 데이터에서 이벤트를 검출하고, 및
이벤트의 검출을 기초로, 타깃 데이터 및 적외선 이미지 중 적어도 하나에서 타깃 검출 및 타깃 추적 중 적어도 하나를 수행하도록 구성되는 적어도 하나의 처리 모듈을 더 포함하는, 이미징 시스템.
제1항에 있어서, 초점 평면 어레이는 단파장 적외선(SWIR) 스펙트럼으로 동작하는, 이미징 시스템.
이미징 방법으로서, 상기 방법은,
단파장 적외선 스펙트럼으로 동적 장면으로부터 반사 또는 발산된 광을 포커싱하는 단계,
수신된 포커싱된 광으로부터 고 공간 해상도 및 저 시간 해상도를 갖는 포커싱된 광으로부터의 적외선 이미지를 동기식으로 획득하는 단계,
포커싱된 광으로부터 고 시간 해상도를 갖는 이벤트 데이터를 비동기식으로 획득하는 단계, 및
적외선 이미지와 이벤트 이미지 모두를 판독하는 단계
를 포함하는, 이미징 방법.
제4항에 있어서,
뉴로모픽 이미지에서 이벤트를 검출하는 단계, 및
이벤트의 검출을 기초로, 이벤트 데이터 및 적외선 이미지 중 적어도 하나에서 타깃 검출 및 타깃 추적 중 적어도 하나를 수행하는 단계
중 적어도 하나를 더 포함하는, 이미징 방법.
타깃을 이미징하기 위한 이미징 시스템으로서, 상기 이미징 시스템은
포커싱된 광을 수신하고 강도 이미지를 동기식으로 획득하기 위한 동기식 초점 평면 어레이 - 상기 강도 이미지는 수신된 포커싱된 광으로부터 고 공간 해상도 및 저 시간 해상도를 가짐 - ,
포커싱된 광을 수신하고 이벤트 데이터를 비동기식으로 획득하도록 구성된 비동기식 뉴로모픽 비전 시스템 - 상기 이벤트 데이터는 고 시간 해상도를 가짐 - ,
강도 이미지와 이벤트 데이터 모두를 판독하도록 구성된 판독 집적 회로(ROIC) - 초점 평면 어레이와 ROIC는 저 프레임 율로 강도 이미지를 획득 및 판독하도록 초기 구성됨 - , 및
이벤트를 검출하도록 이벤트 데이터를 비동기식으로 모니터링하고,
이벤트의 검출에 응답하여, 강도 이미지가 획득 또는 판독되는 프레임 율을 제1 프레임 율에서 제2 프레임 율로 증가시키도록 초점 평면 어레이 및 ROIC 중 적어도 하나를 제어하도록 구성된
적어도 하나의 처리 모듈
을 포함하는, 이미징 시스템.
제6항에 있어서, 적어도 하나의 처리 모듈은, 검출된 이벤트와 연관된 타깃이 더는 추적되지 않을 때 프레임 율을 제3 프레임 율로 감소시키도록 더 구성되는, 이미징 시스템.
제6항에 있어서, 초점 평면 어레이는 단파장 적외선(SWIR) 스펙트럼으로 동작하는, 이미징 시스템.
제6항에 있어서, 동적 장면으로부터 반사 또는 발산된 광을 포커싱하도록 구성된 광학 모듈을 더 포함하는, 이미징 시스템.
제9항에 있어서, 광학 모듈은 단일 광학 모듈인, 이미징 시스템.
제6항에 있어서, 적어도 하나의 처리 모듈은
두 개의 연속되는 강도 이미지 및 이벤트 데이터를 획득하도록 강도 이미지를 처리하는 것 - 각각의 강도 이미지 및 이벤트 데이터는 획득된 하나의 획득 시점을 가지며, 두 개의 연속되는 강도 이미지의 획득 시점들은 검출된 이벤트에 대응하는 이벤트 데이터의 획득 시점을 포함하는 시간 윈도를 정의함 - , 및
알려진 타깃과 연관된 강도 이미지 및 훈련 이벤트 데이터를 이용한 기계 학습 기법에 의해 적어도 하나의 처리 모듈이 훈련된 기계 학습을 적용함으로써, 윈도 내에 포함되는 이론적 획득 시점을 갖는 새로운 강도 이미지를 생성하는 것
을 포함하는 스크린 재구성을 수행하도록 더 구성되는, 이미징 시스템.
제11항에 있어서, 적어도 하나의 처리 모듈은
알려진 타깃과 연관된 훈련 강도 이미지 및 훈련 이벤트 데이터를 수신하는 것을 포함하는, 기계 학습 훈련을 겪고,
훈련 강도 이미지의 두 개의 연속되는 훈련 강도 이미지의 획득 시점들 간 훈련 윈도 내에 포함되는 이론적 훈련 획득 시점을 갖는 새로운 훈련 강도 이미지를 추정하며,
이론적 훈련 획득 시점에서 획득된 실제 이미지에 추정된 새로운 훈련 강도 이미지를 비교하고,
비교의 결과에 기초하여, 기계 학습을 위해 사용되는 적어도 하나의 파라미터를 조절하도록 더 구성되는, 이미징 시스템.
제11항에 있어서, 적어도 하나의 프로세서는 두 개의 연속되는 강도 이미지 중 하나로서 강도 이미지를 이용해 스크린 재구성을 수행하는 것을 반복함으로써, 재귀적으로 스크린 재구성을 수행하는, 이미징 시스템.
제6항에 있어서, 적어도 하나의 처리 모듈은
기계 학습 훈련에 의해 결정된 훈련된 이벤트 데이터의 템플릿을 수신하고 - 템플릿은 훈련된 이벤트 데이터를 하나 이상의 각자의 가능한 관심 타깃과 연관된 훈련된 강도 이미지와 상관시킴 - ,
획득된 이벤트 데이터의 일부분을 템플릿에 비교하며,
비교의 결과에 기초하여 획득된 이벤트 데이터의 일부분과 상관되는 템플릿 내 훈련된 강도 이미지를 결정하도록 더 구성되는, 이미징 시스템.
제14항에 있어서, 적어도 하나의 처리 모듈은
템플릿을 생성하는 것을 포함하는 기계 학습 훈련을 겪도록 더 구성되며, 템플릿을 생성하는 것은,
각자의 알려진 타깃과 연관된 훈련 이벤트 데이터 및 훈련 강도 이미지를 수신하는 것, 및
각자의 알려진 타깃에 대해 수신된 훈련 이벤트 데이터를 강도 훈련 이미지와 상관시키는 것을 포함하는, 이미징 시스템.
제15항에 있어서, 커넬 밀도 추정을 적용함으로써 훈련 이벤트 데이터는 필터링되는, 이미징 시스템.
제15항에 있어서, 훈련된 이벤트 데이터는 형상 기술자(shape descriptor)에 의해 인코딩되는, 이미징 시스템.
제14항에 있어서, 획득된 이벤트 데이터 중 일부와 상관된 훈련된 강도 이미지를 결정하는 것은 결정의 신뢰도를 나타내는 신뢰도 점수를 출력하는 것을 포함하는, 이미징 시스템.
제16항에 있어서, 이벤트 데이터를 획득할 때 타깃의 가려짐(occlusion)이 신뢰도 점수에 영향을 미치는, 이미징 시스템.
제15항에 있어서, 템플릿을 생성하는 것은
타깃이 적어도 하나의 상이한 포즈로 있을 때 및/또는 타깃이 이미징 시스템으로부터 상이한 거리에 있을 때 각자의 알려진 타깃 중 하나의 타깃과 연관된 훈련 이벤트 데이터 및 훈련 강도 이미지를 수신하는 것을 반복하는 것, 및
훈련 이벤트 데이터를 타깃에 대해 수신된 강도 훈련 이미지와 상관시키는 것을 더 포함하는, 이미징 시스템.
템플릿을 이용해 획득된 동적 장면의 강도 이미지 및 비동기식으로 획득된 이벤트 데이터를 처리하는 방법으로서, 이벤트 데이터는 뉴로모픽 비전 시스템을 이용해 장면으로부터 반사 또는 발산되는 광에 응답하여 획득되고, 획득된 이벤트 데이터는 고 시간 해상도를 가지며, 상기 방법은
템플릿을 수신하는 단계 - 상기 템플릿은 기계 학습 훈련에 의해 결정되며, 상기 템플릿은 복수의 항목을 포함하고, 각각의 항목은 하나 이상의 훈련된 강도 이미지와 연관된 훈련된 이벤트 데이터를 포함하고, 상관된 훈련된 이벤트 및 하나 이상의 훈련된 강도 이미지는 동일한 장면으로부터 동시에 반사 또는 발산된 광에 응답하여 획득된 것이며, 훈련된 강도 이미지는 하나 이상의 각각의 가능한 관심 타깃과 연관되고, 훈련된 강도 이미지는 FPA로부터 동기식으로 획득되며 고 공간 해상도 및 저 시간 해상도를 가지며, 훈련된 이벤트 데이터는 뉴로모픽 비전 시스템으로부터 비동기식으로 획득되며 고 시간 해상도를 가짐 -
질의 이벤트 데이터 또는 질의 강도 이미지 데이터를 포함하는 질의를 수신하는 단계,
질의에 가장 유사한 훈련된 이벤트 데이터 또는 훈련된 강도 이미지를 포함하는 템플릿 내 항목을 결정하는 단계, 및
항목의 상관된 훈련된 강도 이미지 또는 훈련된 이벤트 데이터를 이용해 타깃을 식별, 검출, 또는 추적하는 단계
를 포함하는, 처리하는 방법.
제21항에 있어서, 질의는 질의 강도 이미지를 포함하고, 결정된 이벤트는 질의 강도 이미지와 가장 유사한 훈련된 강도 이미지를 포함하며, 항목의 상관된 훈련된 이벤트 데이터가 결정되고, 상기 방법은
획득된 이벤트 데이터를 수신하는 단계,
상관된 훈련된 이벤트 데이터에 대한 획득된 이벤트 데이터의 유사도를 결정하는 단계, 및
유사도의 결정을 기초로 타깃을 검출 및/또는 추적하는 단계
를 더 포함하는, 처리하는 방법.
제21항에 있어서,
획득된 이벤트 데이터를 수신하는 단계 - 질의는 획득된 이벤트 데이터의 세그먼트를 포함하고, 결정된 이벤트는 질의의 획득된 이벤트 데이터의 세그먼트와 가장 유사한 훈련된 이벤트 데이터를 포함하며, 상관된 훈련된 강도 이미지가 결정됨 - , 및
결정된 상관된 훈련된 강도 이미지를 획득된 이벤트 데이터의 세그먼트에 연관시키는 단계
를 더 포함하는, 처리하는 방법.
제21항에 있어서, 획득된 이벤트 데이터는 모션 크기 및/또는 방향 중 적어도 하나에 의해 클러스터링되는, 처리하는 방법.
제21항에 있어서, 적어도 하나의 처리 모듈은
템플릿을 생성하는 것을 포함하는 기계 학습 훈련을 겪도록 더 구성되며, 상기 템플릿을 생성하는 것은,
각자의 알려진 타깃과 연관된 훈련 이벤트 데이터 및 훈련 강도 이미지를 수신하는 것,
각자의 알려진 타깃 각각에 대해 수신된 훈련 이벤트 데이터를 강도 훈련 이미지와 상관시키는 것, 및
상관된 훈련 이벤트 데이터 및 훈련 강도 이미지를 템플릿의 훈련된 이벤트 데이터 및 훈련된 강도 이미지 데이터로서 출력하는 것을 포함하는, 처리하는 방법.
제25항에 있어서, 템플릿을 생성하는 것은
타깃이 적어도 하나의 상이한 포즈로 위치할 때 및/또는 타깃이 이미징 시스템으로부터 상이한 거리에 위치할 때 각자의 알려진 타깃 중 동일한 타깃과 연관된 훈련 이벤트 데이터 및 훈련 강도 이미지를 수신하는 것을 반복하는 것을 더 포함하는, 처리하는 방법.
제25항에 있어서, 상기 훈련 이벤트 데이터는 커넬 밀도 추정을 적용함으로써 필터링되는, 처리하는 방법.
제25항에 있어서, 훈련된 이벤트 데이터는 형상 기술자(shape descriptor)에 의해 인코딩되는, 처리하는 방법.
제21항에 있어서, 항목을 결정하는 것은 항목의 결정의 신뢰도를 나타내는 신뢰도 점수를 출력하는 것을 포함하는, 처리하는 방법.
제22항에 있어서, 항목을 결정하는 것은 항목의 결정의 신뢰도를 나타내는 신뢰도 점수를 출력하는 것을 포함하며, 질의 강도 이미지의 가려짐이 신뢰도 점수에 영향을 미치는, 처리하는 방법.