KR20230117126A

KR20230117126A - 프레임 드롭핑을 갖는 데이터세트에 대한 시퀀스 프로세싱

Info

Publication number: KR20230117126A
Application number: KR1020237018752A
Authority: KR
Inventors: 유웨이 렌; 인 황; 치라그 수레시바이 파텔; 지우위안 루; 하오 쑤; 안드리안 벨레치
Original assignee: 퀄컴 인코포레이티드
Priority date: 2020-12-15
Filing date: 2021-12-15
Publication date: 2023-08-07
Also published as: CN116615666A; EP4264403A1; WO2022126367A1; WO2022127819A1; US20240013521A1

Abstract

프레임 드롭핑을 갖는 데이터세트에 대한 시퀀스를 복원하기 위한 컴퓨터-구현 방법은 입력 시퀀스를 수신하는 것을 포함한다. 특징들의 세트는 입력 시퀀스로부터 추출된다. 주파수 분포는 추출된 특징들에 기초하여 입력 시퀀스에 대하여 결정된다. 시퀀스에 대한 시간 도메인 정보는 복원되고, 궁극적으로, 입력 시퀀스에 대한 데이터는 복원된 시간 도메인 정보에 기초하여 증강된다. 추가적으로, 입력 시퀀스로부터 잡음이 제거된다.

Description

프레임 드롭핑을 갖는 데이터세트에 대한 시퀀스 프로세싱

[0001] 본 출원은 "SEQUENCE PROCESSING FOR A DATASET WITH FRAME DROPPING"이라는 명칭으로 2020 년 12 월 15 일자로 출원된 국제특허출원 PCT/CN2020/136479의 이익을 주장하고, 이 국제특허출원의 개시내용은 그 전체적으로 참조로 명백히 통합된다.

[0002] 본 개시내용의 양태들은 일반적으로, 프레임 드롭핑(frame dropping)을 갖는 데이터세트(dataset)에 대한 시퀀스 복원(sequence restoration), 데이터 증강(data augmentation), 및 시퀀스 세그먼트화(sequence segmentation)에 관한 것이다.

[0003] 인공 신경 네트워크(artificial neural network)들은 인공 뉴런(artificial neuron)들(예컨대, 뉴런 모델들)의 상호접속된 그룹들을 포함할 수 있다. 인공 신경 네트워크는 컴퓨테이셔널 디바이스(computational device)일 수 있거나, 컴퓨테이셔널 디바이스에 의해 수행되어야 할 방법으로서 표현될 수 있다. 컨볼루션 신경 네트워크(convolutional neural network)들은 피드-포워드 인공 신경 네트워크(feed-forward artificial neural network)의 유형이다. 컨볼루션 신경 네트워크들은, 수용적 필드(receptive field)를 각각 가지며 입력 공간을 집합적으로 타일링(tiling)하는 뉴런들의 집합들을 포함할 수 있다. DCN(deep convolutional neural network)들과 같은 CNN(convolutional neural network)들은 수많은 애플리케이션들을 가진다. 특히, 이 신경 네트워크 아키텍처들은 이미지 인식, 음성 인식, 음향 장면 분류, 키워드 스폿팅(keyword spotting), 자율 운전, 및 다른 분류 태스크들과 같은 다양한 기술들에서 이용된다.

[0004] 안테나 및 프로세싱 기술들에서의 최근의 개발들은 모바일/핸드헬드 디바이스들로의 레이더 시스템(radar system)들의 통합을 허용하였다. 제스처 인식(gesture recognition)을 위하여 레이더를 이용하는 것에 대한 탐구가 있었고, 이것은 표준 비디오와 같은 외관-기반 인식 시스템들과 비교하여 다양한 이익들을 제공한다. 예를 들어, 레이더 센싱(radar sensing)은 제한된 전력 소비를 갖는 광 조건들에 관계없이 양호하게 작동할 수 있다. 또한, 레이더 센싱은 피부 컬러 및 다른 정적 정보에 의해 영향받지 않고, 이에 따라, 어떤 성별들 및 인종들에게 과다-적합할 가능성이 적다. 레이더 센싱 기술은 그 초창기이지만, 개선들은 더 양호한 사용자 경험을 제공할 것이다.

[0005] 본 개시내용의 양태에서는, 시퀀스를 복원하기 위한 컴퓨터-구현(computer-implemented) 방법이 제공된다. 방법은 입력 시퀀스(input sequence)를 수신하는 단계를 포함한다. 방법은 또한, 입력 시퀀스로부터 특징(feature)들의 세트를 추출하는 단계를 포함한다. 추가적으로, 방법은 추출된 특징들에 기초하여 입력 시퀀스에 대한 주파수 분포를 결정하는 단계를 포함한다. 방법은 주파수 분포에 대해 역 고속 푸리에 변환(inverse fast Fourier transformation)을 수행함으로써 입력 시퀀스에 대한 시간 도메인 정보를 복원하는 단계를 더 포함한다. 방법은 복원된 시간 도메인 정보를 디코딩함으로써 입력 시퀀스에 대한 데이터를 증강하고, 증강된 데이터에 기초하여 입력 시퀀스를 분류한다.

[0006] 본 개시내용의 또 다른 양태에서는, 시퀀스를 프로세싱하기 위한 컴퓨터-구현 방법이 제공된다. 방법은 하나 이상의 모션 부분(motion portion)들 및 하나 이상의 잡음 부분(noise portion)들을 포함하는 시퀀스를 수신하는 단계를 포함한다. 방법은 또한, 시퀀스를 표현하는 특징들을 추출하는 단계를 포함한다. 추가적으로, 방법은 ANN(artificial neural network)을 통해 잡음 부분들 중의 하나 이상을 식별하는 단계를 포함한다. ANN은 추출된 특징들에 기초하여 잡음을 식별하도록 훈련된다. 추가로, 방법은 시퀀스의 식별된 잡음 부분들을 제거하는 단계를 포함한다.

[0007] 본 개시내용의 또 다른 양태에서는, 시퀀스를 복원하기 위한 장치가 제공된다. 장치는 메모리, 및 메모리에 결합된 하나 이상의 프로세서들을 포함한다. 프로세서(들)는 입력 시퀀스를 수신하도록 구성된다. 프로세서(들)는 또한, 입력 시퀀스로부터 특징들의 세트를 추출하도록 구성된다. 추가적으로, 프로세서(들)는 추출된 특징들에 기초하여 입력 시퀀스에 대한 주파수 분포를 결정하도록 구성된다. 프로세서(들)는 주파수 분포에 대해 역 고속 푸리에 변환을 수행함으로써 입력 시퀀스에 대한 시간 도메인 정보를 복원하도록 추가로 구성된다. 추가로, 프로세서(들)는 복원된 시간 도메인 정보를 디코딩함으로써 입력 시퀀스에 대한 데이터를 증강하고, 증강된 데이터에 기초하여 입력 시퀀스를 분류하도록 구성된다.

[0008] 본 개시내용의 또 다른 양태에서는, 시퀀스를 프로세싱하기 위한 장치가 제공된다. 장치는 메모리, 및 메모리에 결합된 하나 이상의 프로세서들을 포함한다. 프로세서(들)는 하나 이상의 모션 부분들 및 하나 이상의 잡음 부분들을 포함하는 시퀀스를 수신하도록 구성된다. 프로세서(들)는 또한, 시퀀스를 표현하는 특징들을 추출하도록 구성된다. 추가적으로, 프로세서(들)는 ANN(artificial neural network)을 통해 잡음 부분들 중의 하나 이상을 식별하도록 구성된다. ANN은 추출된 특징들에 기초하여 잡음을 식별하도록 훈련된다. 추가로, 프로세서(들)는 시퀀스의 식별된 잡음 부분들을 제거하도록 구성된다.

[0009] 개시내용의 추가적인 특징들 및 장점들이 이하에서 설명될 것이다. 이 개시내용은 본 개시내용의 동일한 목적들을 수행하기 위한 다른 구조들을 수정하거나 설계하기 위한 기초로서 용이하게 사용될 수 있다는 것이 본 기술분야에서의 통상의 기술자들에 의해 인식되어야 한다. 또한, 이러한 등가적인 구성들은 첨부된 청구항들에서 기재된 바와 같은 개시내용의 교시사항들로부터 이탈하지 않는다는 것이 본 기술분야에서의 통상의 기술자들에 의해 자각되어야 한다. 그 편성 및 동작 방법의 둘 모두에 대하여, 개시내용의 특성인 것으로 믿어지는 신규한 특징들은, 추가의 목적들 및 장점들과 함께, 첨부 도면들과 관련하여 고려될 때에 다음의 설명으로부터 더 양호하게 이해될 것이다. 그러나, 도면들의 각각은 본 개시내용의 제한들의 정의로서 의도되는 것이 아니라, 오직 예시 및 설명의 목적을 위하여 제공된다는 것이 명백히 이해되어야 한다.

[0010] 본 개시내용의 특징들, 본질, 및 장점들은 유사한 참조 부호들이 이에 대응하여 전반에 걸쳐 식별하는 도면들과 함께 취해질 때에 이하에서 기재된 상세한 설명으로부터 더 분명해질 것이다.
[0011] 도 1은 본 개시내용의 어떤 양태들에 따라, 범용 프로세서를 포함하는 SOC(system-on-a-chip)를 이용하는 신경 네트워크의 예시적인 구현예를 예시한다.
[0012] 도 2a, 도 2b, 및 도 2c는 본 개시내용의 양태들에 따라, 신경 네트워크를 예시하는 도면들이다.
[0013] 도 2d는 본 개시내용의 양태들에 따라, 예시적인 심층 컨볼루션 네트워크(DCN)을 예시하는 도면이다.
[0014] 도 3은 본 개시내용의 양태들에 따라, 예시적인 심층 컨볼루션 네트워크(DCN)를 예시하는 블록도이다.
[0015] 도 4는 본 개시내용의 양태들에 따라, 손 제스처 인식을 위한 예시적인 시스템을 예시하는 블록도이다.
[0016] 도 5는 본 개시내용의 양태들에 따라, 전체 시퀀스의 예시적인 복원을 예시하는 도면이다.
[0017] 도 6a 및 도 6b는 본 개시내용의 양태들에 따라, 전체 시퀀스를 복원하기 위한 예시적인 프로세스들을 예시하는 블록도들이다.
[0018] 도 7은 본 개시내용의 양태들에 따라, 인코딩 블록에서 랜덤 프레임 드롭핑(random frame dropping)으로 입력의 특징들을 추출하고, 디코딩 블록에서 주파수 도메인 프로세싱으로 출력의 시퀀스를 복원하기 위한 예시적인 아키텍처를 예시하는 도면이다.
[0019] 도 8a는 본 개시내용의 양태들에 따라, 레인지-도플러 이미지(RDI)들의 시퀀스로부터의 특징들의 추출을 예시하는 도면이다.
[0020] 도 8b는 본 개시내용의 양태들에 따라, 레인지-도플러 이미지(RDI)들의 시퀀스에 대응하는 주파수 분포의 예시적인 그래프이다.
[0021] 도 9a 내지 도 9c는 본 개시내용의 양태들에 따라, 레인지-도플러 이미지(RDI)들의 시퀀스에 대한 복원된 시퀀스 및 데이터 증강을 예시하는 도면들이다.
[0022] 도 10aa 및 도 10ab는 본 개시내용의 양태들에 따라, 좌측 스와이프 제스처(swipe left gesture) 및 로깅 절차(logging procedure)에 대응하는 레인지-도플러 이미지(RDI)들의 시퀀스를 도시한다.
[0023] 도 10b는 본 개시내용의 양태들에 따라, 긴 시퀀스의 단순화된 뷰를 예시하는 도면이다.
[0024] 도 11은 본 개시내용의 양태들에 따라, 잡음 세션 식별을 위한 2진 분류 모델의 예시적인 아키텍처를 예시하는 블록도이다.
[0025] 도 12는 본 개시내용의 양태들에 따라, 잡음을 제거하기 위한 예시적인 프로세싱을 예시하는 블록도이다.
[0026] 도 13은 본 개시내용의 양태들에 따라, 시퀀스를 증강하거나 복원하기 위한 방법을 예시하는 흐름도이다.
[0027] 도 14는 본 개시내용의 양태들에 따라, 입력 시퀀스 내의 잡음을 예측하고 제거하기 위한 방법을 예시하는 흐름도이다.

[0028] 이하에서 기재된 상세한 설명은 첨부된 도면들과 관련하여, 다양한 구성들의 설명으로서 의도되고, 설명된 개념들이 실시될 수 있는 구성들만을 표현하도록 의도되지는 않는다. 상세한 설명은 다양한 개념들의 철저한 이해를 제공하는 목적을 위한 특정 세부사항들을 포함한다. 그러나, 이 개념들은 이 특정 세부사항들 없이 실시될 수 있다는 것이 본 기술분야에서의 통상의 기술자들에게 명백할 것이다. 일부 사례들에서는, 이러한 개념들을 모호하게 하는 것을 회피하기 위하여, 널리 공지된 구조들 및 컴포넌트들이 블록도 형태로 도시되어 있다.

[0029] 교시사항들에 기초하여, 본 기술분야에서의 통상의 기술자는, 개시내용의 임의의 다른 양태와 관계없이 또는 이와 조합하여 구현되든지 간에, 개시내용의 범위가 개시내용의 임의의 양태를 포괄하도록 의도된다는 것을 인식해야 한다. 예를 들어, 기재된 임의의 수의 양태들을 이용하여 장치가 구현될 수 있거나 방법이 실시될 수 있다. 추가적으로, 개시내용의 범위는 기재된 개시내용의 다양한 양태들에 추가하여, 또는 이 다양한 양태들 이외에, 다른 구조, 기능성, 또는 구조 및 기능성을 이용하여 실시된 이러한 장치 또는 방법을 포괄하도록 의도된다. 개시된 개시내용의 임의의 양태는 청구항의 하나 이상의 구성요소들에 의해 구체화될 수 있다는 것이 이해되어야 한다.

[0030] 단어 "예시적(exemplary)"은 "예, 사례, 또는 예시로서 작용함"을 의미하기 위하여 이용된다. "예시적"으로서 설명된 임의의 양태는 다른 양태들에 비해 바람직하거나 유익한 것으로서 반드시 해석되어야 하는 것은 아니다.

[0031] 특정한 양태들이 설명되지만, 이 양태들의 많은 변형들 및 치환들은 개시내용의 범위 내에 속한다. 바람직한 양태들의 일부 이익들 및 장점들이 언급되지만, 개시내용의 범위는 특정한 이익들, 용도들, 또는 목적들로 제한되도록 의도되지는 않는다. 오히려, 개시내용의 양태들은 상이한 기술들, 시스템 구성들, 네트워크들, 및 프로토콜들에 폭넓게 적용가능하도록 의도되고, 이들의 일부는 바람직한 양태들의 도면들 및 다음의 설명에서 예로서 예시되어 있다. 상세한 설명 및 도면들은 제한하는 것이 아니라 개시내용의 단지 예시이고, 개시내용의 범위는 첨부된 청구항들 및 그 등가물들에 의해 정의된다.

[0032] 위에서 설명된 바와 같이, 안테나 및 프로세싱 기술들에서의 최근의 개발들은 모바일/핸드헬드 디바이스들로의 레이더 시스템들의 통합을 허용하였다. 예를 들어, 모바일 전화들은 제스처를 분류하기 위하여 전용 레이더 디바이스를 이용할 수 있다. 추가적으로, 직렬 레이더 단거리(series radar short range) 디바이스들은 차량내-기반 제어(in-car-based control)를 제공할 수 있다.

[0033] RF(radio frequency) 센싱은 레인지(range), 도플러(Doppler), 및 각도 정보와 같은 정보에 기초하여 환경을 이미징하기 위하여 이용될 수 있다. 더 높은 주파수 더 큰 대역폭의 간결한 어레이는 센싱을 위하여 모바일 디바이스 또는 AP(access point)에 대하여 적용가능한 더 큰 세분화도(granularity)를 달성할 수 있다.

[0034] 레이더 디바이스들에 대한 해결책들은 분석들을 행하기 위하여 심층 학습 파이프라인(deep learning pipeline)에 기초할 수 있다. 캡처된 데이터는 (도 9a 내지 도 9c에 대하여 더 이후에 설명된 바와 같은) 레인지 및 도플러 속력 추정(range and Doppler speed estimation)으로 레인지-도플러 이미지로 프로세싱될 수 있다. 캡처된 데이터로부터의 다른 특징들은 각도 정보, 신호 강도 변동(signal strength variation), 및 다른 것들을 포함할 수 있다. 해결책들은 또한, SVM(support-vector machine) 또는 판정 트리(decision tree)와 같은 기존의 방법들에 기초할 수 있지만, 그러나, 성능은 심층 학습 방법들만큼 양호하지 않다.

[0035] 레이더 디바이스는 몇몇 방식들로 구성될 수 있다. 예를 들어, 제1 택일적 구성에서, 레이더 디바이스는 FMCW(frequency-modulated continuous wave)-파형을 갖는 mmWave(millimeter wave)-기반 전용 레이더일 수 있다. 제2 택일적 구성에서, 레이더 디바이스는 펄스-기반 레이더를 갖는 mmWave-기반 Wi-Fi 칩일 수 있다. 제3 택일적 구성에서, 안테나들은 레이더 디바이스의 정면 또는 2 개의 측부들에서 구성될 수 있다.

[0036] 레인지-도플러 이미지(RDI)들에 의해 제시된 하나의 도전은 데이터세트가 제한된다는 것이다. 예를 들어, RDI 내의 특징들은 하나의 채널 이미지로서 간주될 수 있다. 또한, 검출된 타깃은 강조표시된 픽셀(highlighted pixel)일 수 있다. 데이터세트는 또한, x-차원 및 y-차원이 도플러 속력 및 레인지 인덱스로 맵핑될 수 있고, 강조표시된 픽셀들의 세트의 형상이 측정된 프레임 지속기간(duration)에서의 속력 및 레인지 변동에 대응할 수 있다는 점에서 제한된다. RDI는 카메라-기반 픽처와는 상이한데, 그 이유는 RDI에 의한 임의의 다른 이용가능한 이미지들이 없기 때문이다. 따라서, 데이터 증강을 위한 가장 전통적인 방법들은 레이더 특징들을 위하여 이용가능하지 않다. 레이더 디바이스 구성은 상이한 특징들을 가질 수 있고, 따라서, 다른 캡처된 데이터는 데이터 세트를 확대하기 위하여 용이하게 이용되지 않을 수 있다. 그것은 또한, 상이한 안테나 빔들을 위한 구성들에 있어서 상이할 수 있다.

[0037] RDI들에 의해 제시된 제2 도전은 RDI가 캡처된 시퀀스에서의 랜덤 프레임 드롭핑을 수반한다는 것이다. 즉, 센서들은 통상적으로, 데이터를 샘플별로(sample-by-sample) 하나의 시퀀스로서, 예를 들어, 인덱스 0, 1, 2, 3, ... 등으로 캡처한다. 하드웨어 제약들(예컨대, 제한된 컴퓨테이션 능력, 및 제한된 전력 또는 버퍼 크기)은 랜덤 프레임 드롭핑을 초래할 수 있고, 이것은 시퀀스 순서 정보를 파괴한다. 따라서, 본 개시내용의 양태들은 전체 입력 시퀀스를 복원하는 것에 관한 것이다. 일부 양태들에서는, 시퀀스 순서가 또한 복원될 수 있다.

[0038] 캡처된 RDI 시퀀스에 의해 제시된 제3 도전은 RDI 시퀀스들이 잡음 부분들 및 타깃 모션 부분들을 혼합한다는 것이다. 추가적으로, 타깃 모션 부분들은 혼합된 시퀀스에서 식별하기가 어려운데, 그 이유는 RDI 내의 잡음 부분들이 타깃 모션의 특성들과 유사한 특성들을 보이고, 기존의 시각-기반 해결책들은 적용가능하지 않기 때문이다. 따라서, 일부 양태들에서, 입력 시퀀스의 잡음 부분들은 감소된 수의 잡음 부분들을 포함하는 시퀀스를 생성하기 위하여 예측될 수 있고, 식별될 수 있고, 제거될 수 있다. 일부 양태들에서, 결과적인 시퀀스는 오직 타깃 모션 부분들(예컨대, 순수한 부분들)을 포함할 수 있다.

[0039] 도 1은 프레임 드롭핑을 갖는 데이터세트들에 대한 시퀀스 복원 및 데이터 증강을 위하여 구성된 CPU(central processing unit)(102) 또는 멀티-코어 CPU를 포함할 수 있는 시스템-온-칩(SOC)(100)의 예시적인 구현예를 예시한다. 변수들(예컨대, 신경 신호들 및 시냅틱 가중치(synaptic weight)들), 컴퓨테이셔널 디바이스(예컨대, 가중치들을 갖는 신경 네트워크)와 연관된 시스템 파라미터들, 지연들, 주파수 빈(frequency bin) 정보, 및 태스크 정보는 NPU(neural processing unit)(108)와 연관된 메모리 블록 내에, CPU(102)와 연관된 메모리 블록 내에, GPU(graphics processing unit)(104)와 연관된 메모리 블록 내에, DSP(digital signal processor)(106)와 연관된 메모리 블록 내에, 메모리 블록(118) 내에 저장될 수 있거나, 다수의 블록들에 걸쳐 분산될 수 있다. CPU(102)에서 실행된 명령들은 CPU(102)와 연관된 프로그램 메모리로부터 로딩될 수 있거나, 메모리 블록(118)으로부터 로딩될 수 있다.

[0040] SOC(100)는 또한, GPU(104), DSP(106), 5G(fifth generation) 접속성, 4G LTE(fourth generation long term evolution) 접속성, Wi-Fi 접속성, USB 접속성, 블루투스(Bluetooth) 접속성 등을 포함할 수 있는 접속성 블록(110), 및 예를 들어, 제스처들을 검출할 수 있고 인식할 수 있는 멀티미디어 프로세서(112)와 같은, 특정 기능들에 맞추어진 추가적인 프로세싱 블록들을 포함할 수 있다. 하나의 구현예에서, NPU(108)는 CPU(102), DSP(106), 및/또는 GPU(104)에서 구현된다. SOC(100)는 또한, 센서 프로세서(114), ISP(image signal processor)들(116), 및/또는 글로벌 포지셔닝 시스템(global positioning system)을 포함할 수 있는 내비게이션 모듈(120)을 포함할 수 있다. 하나의 예에서, 센서 프로세서(114)는 라디오 주파수 신호 또는 레이더 신호들을 프로세싱하도록 구성될 수 있다. 예를 들어, 센서 프로세서(114)는 밀리미터파(mmWave), 주파수 변조된 연속 파(FMCW), 펄스-기반 레이더 등을 수신하도록 구성될 수 있다.

[0041] SOC(100)는 ARM 명령 세트에 기초할 수 있다. 본 개시내용의 양태에서, 범용 프로세서(102)로 로딩된 명령들은 입력 시퀀스를 수신하기 위한 코드를 포함할 수 있다. 범용 프로세서(102)는 또한, 입력 시퀀스로부터 특징들의 세트를 추출하기 위한 코드를 포함할 수 있다. 범용 프로세서(102)는 또한, 추출된 특징들에 기초하여 입력 시퀀스에 대한 주파수 분포를 결정하기 위한 코드를 포함할 수 있다. 범용 프로세서(102)는 주파수 분포에 대해 역 고속 푸리에 변환을 수행함으로써 시퀀스에 대한 시간 도메인 정보를 복원하기 위한 코드를 더 포함할 수 있다. 게다가, 범용 프로세서(102)는 복원된 시간 도메인 정보를 디코딩함으로써 입력 시퀀스의 데이터를 증강하고, 증강된 데이터에 기초하여 입력 시퀀스를 분류하기 위한 코드를 포함한다.

[0042] 본 개시내용의 또 다른 양태에서, 범용 프로세서(102)로 로딩된 명령들은 하나 이상의 모션 부분들 및 하나 이상의 잡음 부분들을 포함하는 시퀀스를 수신하기 위한 코드를 포함할 수 있다. 범용 프로세서(102)는 또한, 시퀀스를 표현하는 특징들을 추출하기 위한 코드를 포함할 수 있다. 범용 프로세서(102)는 ANN(artificial neural network)을 통해 잡음 부분들 중의 하나 이상을 식별하기 위한 코드를 포함할 수 있다. ANN은 추출된 특징들에 기초하여 잡음을 식별하도록 훈련된다. 범용 프로세서(102)는 시퀀스의 식별된 잡음 부분들을 제거하기 위한 코드를 더 포함할 수 있다.

[0043] 심층 학습 아키텍처들은 각각의 계층에서의 추상화의 연속적으로 더 높은 레벨들에서 입력들을 표현하도록 학습함으로써 객체 인식 태스크를 수행할 수 있고, 이에 의해, 입력 데이터의 유용한 특징 표현을 구축할 수 있다. 이러한 방식으로, 심층 학습은 전통적인 머신 학습(machine learning)의 주요한 병목현상을 해결한다. 심층 학습의 출현 이전에, 객체 인식 문제에 대한 머신 학습 접근법은 아마도 얕은 분류기(shallow classifier)와 조합하여, 인간 엔지니어링된 특징들에 과도하게 의존하였을 수 있다. 얕은 분류기는 입력이 어느 클래스에 속하는지를 예측하기 위하여, 특징 벡터 컴포넌트들의 가중화된 합계가 임계치와 비교될 수 있는, 예를 들어, 2-클래스 선형 분류기(two-class linear classifier)일 수 있다. 인간 엔지니어링된 특징들은 도메인 전문지식을 갖는 엔지니어들에 의해 특정 문제 도메인에 맞추어진 템플릿(template)들 또는 커널(kernel)들일 수 있다. 대조적으로, 심층 학습 아키텍처들은, 인간 엔지니어가 설계할 수 있지만, 훈련을 통하는 것과 유사한 특징들을 표현하도록 학습할 수 있다. 게다가, 심층 네트워크는 인간이 고려하지 않았을 수 있는 새로운 유형들의 특징들을 표현하고 인식하도록 학습할 수 있다.

[0044] 심층 학습 아키텍처는 특징들의 계층구조를 학습할 수 있다. 예를 들어, 시각적 데이터가 제시될 경우에, 제1 계층은 입력 스트림에서 에지(edge)들과 같은 상대적으로 간단한 특징들을 인식하도록 학습할 수 있다. 또 다른 예에서, 청각적 데이터가 제시될 경우에, 제1 계층은 특정 주파수들에서의 스펙트럼 파워(spectral power)를 인식하도록 학습할 수 있다. 제1 계층의 출력을 입력으로서 취하는 제2 계층은 시각적 데이터에 대한 간단한 형상들 또는 청각적 데이터에 대한 사운드들의 조합들과 같은 특징들의 조합들을 인식하도록 학습할 수 있다. 예를 들어, 더 높은 계층들은 시각적 데이터에서의 복잡한 형상들 또는 청각적 데이터에서의 단어들을 표현하도록 학습할 수 있다. 훨씬 더 높은 계층들은 공통의 시각적 객체들 또는 발화된 어구(spoken phrase)들을 인식하도록 학습할 수 있다.

[0045] 심층 학습 아키텍처들은 자연 계층적 구조를 가지는 문제들에 적용될 때에 특히 양호하게 수행할 수 있다. 예를 들어, 동력식 차량들의 분류는 휠(wheel)들, 윈드실드(windshield)들, 및 다른 특징들을 인식하기 위한 최초의 학습으로부터 이익을 얻을 수 있다. 이 특징들은 자동차들, 트럭들, 및 비행기들을 인식하기 위하여 상이한 방식들로 더 높은 계층들에서 조합될 수 있다.

[0046] 신경 네트워크들은 다양한 접속성 패턴들로 설계될 수 있다. 피드-포워드 네트워크들에서, 정보는 더 낮은 계층들로부터 더 높은 계층들로 전달되고, 주어진 계층에서의 각각의 뉴런은 더 높은 계층들에서의 뉴런들과 통신한다. 계층적 표현은 위에서 설명된 바와 같이, 피드-포워드 네트워크의 연속적인 계층들에서 구축될 수 있다. 신경 네트워크들은 또한, 재귀적 또는 피드백(또한 탑-다운(top-down)으로 칭해짐) 접속들을 가질 수 있다. 재귀적 접속에서, 주어진 계층에서의 뉴런으로부터의 출력은 동일한 계층에서의 또 다른 뉴런으로 통신될 수 있다. 재귀적 아키텍처는 시퀀스로 신경 네트워크로 전달되는 입력 데이터 청크(chunk)들 중의 하나를 초과하여 걸쳐있는 패턴들을 인식함에 있어서 도움이 될 수 있다. 주어진 계층에서의 뉴런으로부터 더 낮은 계층에서의 뉴런으로의 접속은 피드백(또는 탑-다운) 접속으로 칭해진다. 많은 피드백 접속들을 갖는 네트워크는 하이-레벨(high-level) 개념의 인식이 입력의 특정한 로우-레벨(low-level) 특징들을 구별하는 것을 보조할 수 있을 때에 도움이 될 수 있다.

[0047] 신경 네트워크의 계층들 사이의 접속들은 완전히-접속될 수 있거나, 국소적으로 접속될 수 있다. 도 2a는 완전히 접속된 신경 네트워크(202)의 예를 예시한다. 완전히 접속된 신경 네트워크(202)에서, 제1 계층에서의 뉴런은 그 출력을 제2 계층에서의 매 뉴런으로 통신할 수 있고, 따라서, 제2 계층에서의 각각의 뉴런은 제1 계층에서의 매 뉴런으로부터 입력을 수신할 것이다. 도 2b는 국소적으로 접속된 신경 네트워크(204)의 예를 예시한다. 국소적으로 접속된 신경 네트워크(204)에서, 제1 계층에서의 뉴런은 제2 계층에서의 제한된 수의 뉴런들에 접속될 수 있다. 더 일반적으로, 국소적으로 접속된 신경 네트워크(204)의 국소적으로 접속된 계층은, 계층에서의 각각의 뉴런이 동일하거나 유사한 접속성 패턴을 가지도록, 그러나, 상이한 값들을 가질 수 있는 접속 강도들(예컨대, 210, 212, 214, 및 216)로 구성될 수 있다. 국소적으로 접속된 접속성 패턴은 더 높은 계층에서 공간적으로 별개의 수용적 필드들을 야기할 수 있는데, 그 이유는 주어진 영역에서의 더 높은 계층 뉴런들이 네트워크로의 총 입력의 한정된 부분의 성질들에 대한 훈련을 통해 튜닝되는 입력들을 수신할 수 있기 때문이다.

[0048] 국소적으로 접속된 신경 네트워크의 하나의 예는 컨볼루션 신경 네트워크이다. 도 2c는 컨볼루션 신경 네트워크(206)의 예를 예시한다. 컨볼루션 신경 네트워크(206)는, 제2 계층에서의 각각의 뉴런에 대한 입력들과 연관된 접속 강도들이 공유되도록(예컨대, 208) 구성될 수 있다. 컨볼루션 신경 네트워크들은 입력들의 공간적 위치가 의미있는 문제들에 양호하게 적합할 수 있다.

[0049] 하나의 유형의 컨볼루션 신경 네트워크는 심층 컨볼루션 네트워크(DCN)이다. 도 2d는 자동차-장착형 카메라와 같은 이미지 캡처 디바이스(230)로부터 입력된 이미지(226)로부터 시각적 특징들을 인식하도록 설계된 DCN(200)의 상세한 예를 예시한다. 현재의 예의 DCN(200)은 교통 표지(traffic sign)들 및 교통 표지들 상에서 제공된 숫자를 식별하도록 훈련될 수 있다. 물론, DCN(200)은 차선 표기들을 식별하는 것, 또는 교통 신호등들을 식별하는 것과 같은 다른 태스크들을 위하여 훈련될 수 있다.

[0050] DCN(200)은 감독된 학습으로 훈련될 수 있다. 훈련하는 동안에, DCN(200)은 속력 제한 표지의 이미지(226)와 같은 이미지를 제시받을 수 있고, 그 다음으로, "순방향 전달(forward pass)"은 출력(222)을 생성하기 위하여 컴퓨팅될 수 있다. DCN(200)은 특징 추출 섹션 및 분류 섹션을 포함할 수 있다. 이미지(226)를 수신할 시에, 컨볼루션 계층(232)은 특징 맵들의 제1 세트(218)를 생성하기 위하여 컨볼루션 커널들(도시되지 않음)을 이미지(226)에 적용할 수 있다. 예로서, 컨볼루션 계층(232)에 대한 컨볼루션 커널은 28x28 특징 맵들을 생성하는 5x5 커널일 수 있다. 본 예에서는, 4 개의 상이한 특징 맵들이 특징 맵들의 제1 세트(218)에서 생성되므로, 4 개의 상이한 컨볼루션 커널들은 컨볼루션 계층(232)에서의 이미지(226)에 적용되었다. 컨볼루션 커널들은 또한, 필터들 또는 컨볼루션 필터들로서 지칭될 수 있다.

[0051] 특징 맵들의 제1 세트(218)는 특징 맵들의 제2 세트(220)를 생성하기 위하여 최대 풀링 계층(max pooling layer)(도시되지 않음)에 의해 서브샘플링될 수 있다. 최대 풀링 계층은 특징 맵들의 제1 세트(218)의 크기를 감소시킨다. 즉, 14x14와 같은, 특징 맵들의 제2 세트(220)의 크기는 28x28과 같은, 특징 맵들의 제1 세트(218)의 크기보다 작다. 감소된 크기는 메모리 소비를 감소키면서, 유사한 정보를 후속 계층에 제공한다. 특징 맵들의 제2 세트(220)는 특징 맵들의 하나 이상의 후속 세트들(도시되지 않음)을 생성하기 위하여 하나 이상의 후속 컨볼루션 계층들(도시되지 않음)을 통해 추가로 컨볼루션될 수 있다(convolved).

[0052] 도 2d의 예에서, 특징 맵들의 제2 세트(220)는 제1 특징 벡터(224)를 생성하기 위하여 컨볼루션된다. 게다가, 제1 특징 벡터(224)는 제2 특징 벡터(228)를 생성하기 위하여 추가로 컨볼루션된다. 제2 특징 벡터(228)의 각각의 특징은 "부호", "60", 및 "100"과 같은, 이미지(226)의 가능한 특징에 대응하는 숫자를 포함할 수 있다. 소프트맥스 함수(softmax function)(도시되지 않음)는 제2 특징 벡터(228)에서의 숫자들을 확률로 변환할 수 있다. 이와 같이, DCN(200)의 출력(222)은 하나 이상의 특징들을 포함하는 이미지(226)의 확률이다.

[0053] 본 예에서, "부호" 및 "60"에 대한 출력(222)에서의 확률들은 "30", "40," "50," "70," "80," "90," 및 "100"과 같은, 출력(222)의 다른 것들의 확률들보다 높다. 훈련하기 전에, DCN(200)에 의해 생성된 출력(222)은 올바르지 않을 가능성이 있다. 이에 따라, 출력(222)과 타깃 출력 사이의 오차(error)가 계산될 수 있다. 타깃 출력은 이미지(226)의 실측자료(ground truth)(예컨대, "부호" 및 "60")이다. 그 다음으로, DCN(200)의 가중치들은 조절될 수 있고, 따라서, DCN(200)의 출력(222)은 타깃 출력과 더 근접하게 정렬된다.

[0054] 가중치들을 조절하기 위하여, 학습 알고리즘은 가중치들에 대한 그래디언트 벡터(gradient vector)를 컴퓨팅할 수 있다. 그래디언트는 가중치가 조절되었을 경우에 오차가 증가시키거나 감소시킬 양을 표시할 수 있다. 상부 계층에서, 그래디언트는 끝에서 두 번째(penultimate) 계층에서의 활성화된 뉴런 및 출력 계층에서의 뉴런을 접속하는 가중치의 값에 직접적으로 대응할 수 있다. 더 낮은 계층들에서, 그래디언트는 가중치들의 값과, 더 높은 계층들의 컴퓨팅된 오차 그래디언트들에 종속될 수 있다. 그 다음으로, 가중치들은 오차를 감소시키도록 조절될 수 있다. 가중치들을 조절하는 이 방식은 그것이 신경 네트워크를 통한 "역방향 전달(backward pass)"을 수반하기 때문에, "역 전파(back propagation)"로서 지칭될 수 있다.

[0055] 실제적으로, 가중치들의 오차 그래디언트는 작은 수의 예들에 대하여 계산될 수 있어서, 계산된 그래디언트는 진정한 오차 그래디언트를 근사화한다. 이 근사화 방법은 확률론적 그래디언트 하강(stochastic gradient descent)으로서 지칭될 수 있다. 확률론적 그래디언트 하강은 전체 시스템의 달성가능한 오차 레이트가 감소하는 것을 정지하였을 때까지, 또는 오차 레이트가 타깃 레벨에 도달하였을 때까지 반복될 수 있다. 학습한 후에, DCN은 새로운 이미지들을 제시받을 수 있고, 네트워크를 통한 순방향 전달은 DCN의 추론 또는 예측으로 고려될 수 있는 출력(222)을 산출할 수 있다.

[0056] DBN(deep belief network)들은 은닉된 노드들의 다수의 계층들을 포함하는 확률적 모델(probabilistic model)들이다. DBN들은 훈련 데이터 세트들의 계층적 표현을 추출하기 위하여 이용될 수 있다. DBN은 RBM(Restricted Boltzmann Machine)들의 계층들을 적층함으로써 획득될 수 있다. RBM은 입력들의 세트에 대한 확률 분포를 학습할 수 있는 인공 신경 네트워크의 유형이다. RBM들은 각각의 입력이 범주화되어야 하는 클래스(class)에 대한 정보의 부재 시에 확률 분포를 학습할 수 있으므로, RBM들은 비감독된 학습에서 종종 이용된다. 하이브리드 비감독된 및 감독된 패러다임을 이용하면, DBN의 하부 RBM들은 비감독된 방식으로 훈련될 수 있고 특징 추출기들로서 역할을 할 수 있고, 상부 RBM은 (이전의 계층 및 타깃 클래스들로부터의 입력들의 공동 분포 상에서) 감독된 방식으로 훈련될 수 있고 분류기로서 역할을 할 수 있다.

[0057] 심층 컨볼루션 네트워크(DCN)들은 추가적인 풀링 및 정규화(normalization) 계층들로 구성된, 컨볼루션 네트워크들의 네트워크들이다. DCN들은 많은 태스크들에 대해 최신 기술의 성능을 달성하였다. DCN들은, 입력 및 출력 타깃들의 둘 모두가 다수의 견본(exemplar)들에 대하여 알려져 있고 그래디언트 하강 방법들의 이용에 의해 네트워크의 가중치들을 수정하기 위하여 이용되는 감독된 학습을 이용하여 훈련될 수 있다.

[0058] DCN들은 피드-포워드 네트워크들일 수 있다. 추가적으로, 위에서 설명된 바와 같이, DCN의 제1 계층에서의 뉴런으로부터 다음의 더 높은 계층에서의 뉴런들의 그룹으로의 접속들은 제1 계층에서의 뉴런들에 걸쳐 공유된다. DCN들의 피드-포워드 및 공유된 접속들은 고속 프로세싱을 위하여 활용될 수 있다. DCN의 컴퓨테이셔널 부담은 재귀적 또는 피드백 접속들을 포함하는 유사한 크기의 신경 네트워크의 컴퓨테이셔널 부담보다, 예를 들어, 훨씬 더 작을 수 있다.

[0059] 컨볼루션 네트워크의 각각의 계층의 프로세싱은 공간적으로 불변인 템플릿 또는 기저부 투영으로 고려될 수 있다. 입력이 컬러 이미지의 적색, 녹색, 및 청색 채널들과 같은 다수의 채널들로 먼저 분해되는 경우에, 그 입력에 대해 훈련된 컨볼루션 네트워크는 이미지의 축들에 따른 2 개의 공간적 차원들 및 컬러 정보를 캡처하는 제3 차원을 갖는 3 차원으로 고려될 수 있다. 컨볼루션 접속들의 출력들은 후속 계층에서 특징 맵을 형성하는 것으로 고려될 수 있고, 특징 맵(예컨대, 220)의 각각의 엘리먼트는 이전의 계층(예컨대, 특징 맵들(218))에서의 뉴런들의 레인지로부터, 그리고 다수의 채널들의 각각으로부터 입력을 수신한다. 특징 맵에서의 값들은 정류(rectification)와 같은 비-선형성, max(0,x)로 추가로 프로세싱될 수 있다. 인접한 뉴런들로부터의 값들은 추가로 풀링될 수 있는데, 이것은 다운 샘플링에 대응하고, 추가적인 국소적 불변성 및 차원성 감소를 제공할 수 있다. 백색화(whitening)에 대응하는 정규화는 또한, 특징 맵에서의 뉴런들 사이의 측방향 억제(lateral inhibition)를 통해 적용될 수 있다.

[0060] 심층 학습 아키텍처들의 성능은 더 많은 라벨링된 데이터 포인트들이 이용가능하게 될 때 또는 컴퓨테이셔널 파워(computational power)가 증가할 때에 증가할 수 있다. 최신 심층 신경 네트워크들은 단지 15 년 전에 일반 연구자에 의해 이용가능하였던 것보다 더 큰 수천 배인 컴퓨팅 자원들로 일상적으로 훈련된다. 새로운 아키텍처들 및 훈련 패러다임들은 심층 학습의 성능을 추가로 상승시킬 수 있다. 정류된 선형 유닛들은 소실 그래디언트(vanishing gradient)들로서 알려진 훈련 쟁점을 감소시킬 수 있다. 새로운 훈련 기법들은 오버-피팅(over-fitting)을 감소시킬 수 있고, 이에 따라, 더 큰 모델들이 더 양호한 일반화를 달성하는 것을 가능하게 할 수 있다. 캡슐화(encapsulation) 기법들은 주어진 수용적 필드에서 데이터를 추상화(abstract)할 수 있고, 전체적인 성능을 추가로 상승시킬 수 있다.

[0061] 도 3은 심층 컨볼루션 네트워크(350)를 예시하는 블록도이다. 심층 컨볼루션 네트워크(350)는 접속성 및 가중치 공유에 기초한 다수의 상이한 유형들의 계층들을 포함할 수 있다. 도 3에서 도시된 바와 같이, 심층 컨볼루션 네트워크(350)는 컨볼루션 블록들(354A, 354B)을 포함한다. 컨볼루션 블록들(354A, 354B)의 각각은 컨볼루션 계층(CONV)(356), 정규화 계층(LNorm)(358), 및 최대 풀링 계층(MAX POOL)(360)으로 구성될 수 있다.

[0062] 컨볼루션 계층들(356)은 특징 맵을 생성하기 위하여 입력 데이터에 적용될 수 있는 하나 이상의 컨볼루션 필터들을 포함할 수 있다. 오직 2 개의 컨볼루션 블록들(354A, 354B)이 도시되어 있지만, 본 개시내용은 그렇게 제한하지 않고, 그 대신에, 임의의 수의 컨볼루션 블록들(354A, 354B)이 설계 선호도에 따라 심층 컨볼루션 네트워크(350) 내에 포함될 수 있다. 정규화 계층(358)은 컨볼루션 필터들의 출력을 정규화할 수 있다. 예를 들어, 정규화 계층(358)은 백색화 또는 측방향 억제를 제공할 수 있다. 최대 풀링 계층(360)은 국소적 불변성 및 차원성 감소를 위하여 공간에 대한 다운 샘플링 어그리게이션(down sampling aggregation)을 제공할 수 있다.

[0063] 심층 컨볼루션 네트워크의, 예를 들어, 병렬 필터 뱅크들은 높은 성능 및 낮은 전력 소비를 달성하기 위하여 SOC(100)의 CPU(102) 또는 GPU(104) 상에 로딩될 수 있다. 대안적인 실시예들에서, 병렬 필터 뱅크들은 SOC(100)의 DSP(106) 또는 ISP(116) 상에 로딩될 수 있다. 추가적으로, 심층 컨볼루션 네트워크(350)는, 센서들 및 내비게이션에 각각 전용된 센서 프로세서(114) 및 내비게이션 모듈(120)과 같은, SOC(100) 상에서 존재할 수 있는 다른 프로세싱 블록들을 액세스할 수 있다.

[0064] 심층 컨볼루션 네트워크(350)는 또한, 하나 이상의 완전히 접속된 계층들(362)(FC1 및 FC2)을 포함할 수 있다. 심층 컨볼루션 네트워크(350)는 LR(logistic regression) 계층(364)을 더 포함할 수 있다. 심층 컨볼루션 네트워크(350)의 각각의 계층(356, 358, 360, 362, 364) 사이에는, 업데이트되어야 하는 가중치들(도시되지 않음)이 있다. 계층들(예컨대, 356, 358, 360, 362, 364) 각각의 출력은 컨볼루션 블록들(354A)의 첫 번째에서 공급된 입력 데이터(352)(예컨대, 이미지들, 오디오, 비디오, 센서 데이터, 및/또는 다른 입력 데이터)로부터의 계층적 특징 표현들을 학습하기 위하여 심층 컨볼루션 네트워크(350)에서의 계층들(예컨대, 356, 358, 360, 362, 364)의 연속하는 하나의 입력으로서 역할을 할 수 있다. 심층 컨볼루션 네트워크(350)의 출력은 입력 데이터(352)에 대한 분류 점수(366)이다. 분류 점수(366)는 확률들의 세트일 수 있고, 여기서, 각각의 확률은 특징들의 세트로부터의 특징을 포함하는 입력 데이터의 확률이다.

[0065] 레이더 시스템들은 모바일/핸드헬드 디바이스들 내로 통합될 수 있다. 핸드헬드 레이더 디바이스들은 제스처 분류, 차량내-기반 제어 등과 같은 애플리케이션들에서 서빙할 수 있다. 도 4는 본 개시내용의 양태들에 따라, 손 제스처 인식을 위한 예시적인 시스템을 예시하는 블록도(400)이다. 도 4에서 도시된 바와 같이, 손 제스처(402)는 예를 들어, 모바일 디바이스 내의 센싱 칩들(404)을 통해 검출될 수 있다. 센싱 칩들(404)은 주파수-변조된 연속 파(FMCW) 및 펄스와 같은 사전-정의된 파형을 갖는 레이더 신호들(Tx)(406)을 전송할 수 있다. 반사된 수신(Rx) 신호들(407)은 레인지, 도플러, 및 각도 정보와 같은 원시 데이터(raw data)(408)를 획득하기 위하여, 송신(Tx) 신호들(406)과 상관(correlate)된다. 주파수 분석(409)은 원시 데이터(408)에 대해 수행될 수 있다. 예를 들어, 주파수 분석(409)은 FFT(fast Fourier transform)일 수 있다. 주파수 분석(409)의 출력은 제스처를 분류하기 위하여 머신 학습 시스템(410), 예컨대, CNN, SVM 등에 제공된다. 머신 학습 시스템(410)은 데이터를 분류할 수 있어서, 지정된 액션들(412)로의 센싱된 손 제스처들(402)의 맵핑으로 귀착될 수 있다. 이익들은 환경을 이미징하는 것(예컨대, VR(virtual reality)을 위한 3D(three-dimensional) 맵), 고해상도 위치화(예컨대, IIoT(industrial internet of things)), 통신을 보조하는 것(예컨대, 정확한 빔 추적)을 포함하고, 머신 학습-기반 애플리케이션들(인간과 머신 사이의 효과적인 인터페이스)을 위하여 이용될 수 있다.

[0066] 레이더 디바이스들에 대한 해결책들은 분석들을 행하기 위하여 심층 학습 파이프라인에 기초할 수 있다. 캡처된 데이터는, 레인지 및 도플러 속력 추정으로, 레인지-도플러 이미지로 프로세싱될 수 있다. 다른 특징들은 각도 정보, 신호 강도 변동, 및 다른 것들을 포함할 수 있다. 해결책들은 또한, 지원-벡터 머신(SVM) 또는 판정 트리와 같은 기존의 방법들에 기초할 수 있지만, 그러나, 성능은 심층 학습 방법들만큼 양호하지 않다.

[0067] 레이더 디바이스는 몇몇 방식들로 구성될 수 있다. 예를 들어, 제1 택일적 구성에서, 레이더 디바이스는 주파수-변조된 연속 파(FMCW) 파형을 갖는 밀리미터파(mmWave)-기반 전용 레이더일 수 있다. 제2 택일적 구성에서, 레이더 디바이스는 펄스-기반 레이더를 갖는 밀리미터파-기반 Wi-Fi 칩일 수 있다. 제3 택일적 구성에서, 안테나들은 레이더 디바이스의 정면 또는 2 개의 측부들에서 구성될 수 있다.

[0068] 불운하게도, 레인지-도플러 이미지(RDI)들을 이용하는 것은 다수의 도전들을 제시한다. 예를 들어, RDI들은 제한된 데이터세트를 제공한다. 즉, RDI 내의 특징들은 하나의 채널 이미지로서 간주될 수 있다. 검출된 타깃은 강조표시된 픽셀로서 표현될 수 있고, x-차원 및 y-차원은 도플러 속력 및 레인지 인덱스로 맵핑될 수 있고, 강조표시된 픽셀들의 세트의 형상은 측정된 프레임 지속기간에서의 속력 및 레인지 변동에 대응할 수 있다. 카메라-기반 픽처와 달리, RDI에 의한 다른 이용가능한 이미지들이 없다. 이와 같이, 데이터 증강을 위한 가장 전통적인 방법들은 레이더 특징들을 위하여 이용가능하지 않다. 또한, 레이더 디바이스 구성은 상이한 특징들을 가질 수 있으므로, 다른 캡처된 데이터는 데이터 세트를 확대하기 위하여 용이하게 이용되지 않을 수 있다. RDI들은 또한, 상이한 안테나 빔 구성들과 상이할 수 있다.

[0069] RDI들에 의해 제시된 또 다른 도전은 캡처된 시퀀스에서의 랜덤 프레임 드롭핑을 수반한다. 즉, 센서들은 통상적으로, 데이터를 샘플별로 하나의 시퀀스로서, 예를 들어, 인덱스 0, 1, 2, 3, ... 등으로 캡처한다. 하드웨어 제약들(예컨대, 제한된 컴퓨테이션 능력, 및 제한된 전력 또는 버퍼 크기)은 랜덤 프레임 드롭핑을 초래할 수 있고, 이것은 시퀀스 순서 정보를 파괴한다.

[0070] 캡처된 RDI 시퀀스에 의해 제시된 제3 도전은 RDI 시퀀스들이 잡음 부분들 및 타깃 모션 부분들을 혼합한다는 것이다. 불운하게도, 타깃 모션 부분들은 혼합된 시퀀스에서 식별하기가 어려운데, 그 이유는 잡음 RDI가 타깃 모션의 특성들과 유사한 특성들을 보이고, 기존의 시각-기반 해결책들은 적용가능하지 않기 때문이다.

[0071] 따라서, 본 개시내용의 양태들은 전체 입력 시퀀스를 복원하는 것에 관한 것이다. 일부 양태들에서는, 시퀀스 순서가 또한 복원될 수 있다. 추가적으로, 일부 양태들에서, 입력 시퀀스의 잡음 부분들은 감소된 수의 잡음 부분들을 포함하는 시퀀스를 생성하기 위하여 예측될 수 있고, 식별될 수 있고, 제거될 수 있다. 일부 양태들에서, 결과적인 시퀀스는 오직 타깃 모션 부분들(예컨대, 순수한 부분들)을 포함할 수 있다.

[0072] 도 5는 본 개시내용의 양태들에 따라, 전체 시퀀스의 예시적인 복원(500)을 예시하는 도면이다. 도 5의 예에서, 센서(예컨대, 도 1의 센서들(114))는 많은 반복들을 갖는 시계열(time series)들을 캡처할 수 있다. 시퀀스 모델(502)은 몇 번 반복되는 패턴 1, 2, 3, 4, 5, 6, 7, 8을 포함한다. 그러나, 큰 랜덤 샘플들이 드롭핑된다. 예를 들어, 샘플들(504a 내지 504j)은 드롭핑될 수 있어서, 시퀀스 모델(502)의 부분만을 포함하는 캡처된 시퀀스 샘플들(506)로 귀착될 수 있다. 본 개시내용의 양태들에 따르면, 캡처된 시퀀스(506)는 타깃 전체 시퀀스(508)를 증가하도록, 그리고 일부 구현예들에서 이를 복원하도록 프로세싱될 수 있다.

[0073] 도 6a 및 도 6b는 본 개시내용의 양태들에 따라, 전체 시퀀스를 복원하기 위한 예시적인 프로세스들(600 및 650)을 예시하는 블록도들이다. 전체 시퀀스들 및 샘플 드롭핑을 갖는 캡처된 시퀀스들은 동일한 주요 주파수 분포를 유지한다. 도 6a에서 도시된 바와 같이, 블록(602)에서는, 유효 시계열 시퀀스(effective time series sequence)가 입력으로서 수신될 수 있다. 블록(604)에서는, 입력 시퀀스의 주파수 분포가 결정될 수 있다. 예를 들어, 주파수 분포는 고속 푸리에 변환(FFT)을 이용하여 결정될 수 있다. 블록(606)에서는, 잡음 또는 간섭 상쇄와 같은 주파수 최적화들이 택일적으로 적용될 수 있다. 블록(608)에서는, 시퀀스의 시간 도메인 정보가 복원될 수 있다. 예를 들어, 시간 도메인 정보는 입력 시퀀스에 대한 평균 프레임-드롭핑 비율에 기초하여 주파수 분포 정보에 대해 역 고속 푸리에 변환(IFFT) 동작을 수행함으로써 복원될 수 있다. 일부 양태들에서, 평균 프레임-드롭핑 비율은 사전정의된 시스템 파라미터일 수 있다. 일부 양태들에서, 평균 프레임-드롭핑 비율은 네트워크를 통해 결정될 수 있다. 하나의 예에서, 평균 프레임-드롭핑 비율은 특정된 프레임 레이트(예컨대, 60 FPS(frames per second))에 대하여 컴퓨팅될 수 있다. 하나의 시간 지속기간 내의 캡처된 시퀀스에 대한 평균 프레임 레이트가 50 FPS인 경우에, 평균 프레임-드롭핑 비율은 5/6으로서 컴퓨팅될 수 있다. 평균 프레임-드롭핑 비율은 시간 도메인 정보를 복원하기 위한 IFFT 프로세싱을 위하여 제공될 수 있다. 궁극적으로, 블록(610)에서는, 전체 시퀀스가 복원된 시간 도메인 정보에 기초하여 복원된다.

[0074] 도 6b의 예에서 도시된 바와 같이, 입력 시퀀스는 레인지-도플러 이미지(RDI)와 같은 이미지(652)를 포함할 수 있다. 예를 들어, RDI들의 시퀀스는 레이더-기반 제스처를 표현할 수 있다. 시퀀스 내의 각각의 이미지(652)는 이미지(652)를 표현하기 위한 특징들(654)을 추출하거나 결정하도록 프로세싱될 수 있다. 일부 양태들에서, 특징들(654)은 예를 들어, 주요한 컴포넌트 분석 또는 유사한 기법들에 기초하여 결정될 수 있다. 특징들(654)은 또한, 컨볼루션 신경 네트워크(CNN)(예컨대, 도 3의 심층 컨볼루션 네트워크(350) 또는 도 7의 인코드 블록(702))를 통해 추출될 수 있다. 추출된 특징들(654)은 이미지들(652)의 시퀀스에 대한 주파수 분포(656)를 결정하도록 프로세싱될 수 있다. 예를 들어, FFT 동작은 대응하는 주파수 분포(656)를 결정하기 위하여 이미지들(652)의 시퀀스를 표현하는 추출된 특징들(654)에 대해 수행될 수 있다. 추가적인 프로세싱은 또한, 확장된 특징들(658)을 결정할 수 있다. 예를 들어, 일부 양태들에서는, 잡음이 식별될 수 있고 감소될 수 있다. 게다가, 일부 양태들에서, 잡음은 상쇄될 수 있거나 제거될 수 있다.

[0075] 확장된 특징들(658)은 시간 도메인 정보를 복원하고 입력 시퀀스 내의 각각의 이미지(652)에 대한 재구성된 이미지(662)를 생성하기 위하여 디코딩 네트워크(660)(예컨대, 도 7의 디코딩 블록(704)과 같은 CNN)로 공급될 수 있다. 일부 양태들에서, 시간 도메인 정보는 주파수 분포 정보에 대해 역 고속 푸리에 변환(IFFT) 동작을 수행함으로써 복원될 수 있다. 추가적으로, 일부 양태들에서, 시간 도메인 정보는 입력 시퀀스에 대한 평균 프레임-드롭핑 비율에 기초하여 복원될 수 있다.

[0076] 도 7은 본 개시내용의 양태들에 따라, 랜덤 프레임 드롭핑을 갖는 입력 시퀀스들을 복원하기 위한 예시적인 아키텍처(700)를 예시하는 도면이다. 도 7을 참조하면, 아키텍처(700)는 오토-인코더(auto-encoder)로서 구성된 인공 신경 네트워크를 포함할 수 있다. 즉, 아키텍처(700)는 인코딩 블록(702) 및 디코딩 블록(704)을 포함할 수 있다. 인코딩 블록(702) 및 디코딩 블록(704)은 공동으로 훈련될 수 있고 최적화될 수 있다. 인코딩 블록(702)은 (예컨대, 원본 버섯으로서 도시된) 입력 이미지(706)를 수신할 수 있다. 인코딩 블록(702)은 입력 이미지(706)를 압축하여, 이미지(706)를 표현하기 위한 특징들(708)을 추출한다. 추출된 특징들(708)은 디코딩 블록(704)으로 공급된다. 디코딩 블록(704)은 원본 이미지(706)의 재구성되거나 학습된 표현(710)을 생성하기 위하여 추출된 특징들을 프로세싱한다.

[0077] 도 8a는 본 개시내용의 양태들에 따라, 예를 들어, 특정한 제스처를 표현할 수 있는 레인지-도플러 이미지(RDI)들(800)의 시퀀스로부터의 특징들의 추출을 예시하는 도면이다. 하나의 예시적인 구현예에서, 도 7의 입력 이미지(706)는 RDI들의 시퀀스일 수 있다. 예시적인 구현예에서, 인코딩 블록(702)은 RDI들(800)의 시퀀스 내의 각각의 RDI를 표현하기 위한 특징들(예컨대, 802)을 추출하도록 훈련될 수 있다. 도 8a를 참조하면, RDI 이미지를 표현하는 추출된 특징들(802)의 각각은 [A, B, C, D, E, F]로서 도시된 1 x 6 벡터일 수 있다. 즉, RDI 시퀀스(800)의 각각의 RDI는 6-차원 특이 시퀀스(singular sequence)(예컨대, 804 및 806)에 의해 표현된다. 물론, 추출된 특징들의 차원들은 예시의 용이함을 위한 단지 예들이지만, 제한하지는 않는다. 특이 시퀀스(예컨대, A3 및 F4)의 각각의 차원은 하나의 시계열이고, 이것은 주파수 분석(예컨대, FFT)의 입력으로서 역할을 한다. 주파수 분석 동작들(예컨대, FFT 동작)은 주파수 분포(예컨대, 도 8b의 850)를 생성하기 위하여 추출된 특징들(예컨대, 804)에 대해 수행될 수 있다. 일부 양태들에서, 인코딩 블록(702)은 주파수 분포(예컨대, 850)에서의 잡음(예컨대, 도 8b의 854)을 식별하고 감소시키도록 훈련될 수 있다.

[0078] 예시적인 구현예에 따르면, 디코딩 블록(704)은 RDI들(예컨대, RDI들(800))의 시퀀스를 복원하도록 훈련될 수 있다. 추출된 특징들(708)에 대응하는 주파수 분포(예컨대, 850)는 디코딩 블록(704)으로 공급될 수 있다. 디코딩 블록(704)은 RDI 시퀀스를 복원하기 위하여 추출된 특징들(708)에 대응하는 주파수 분포를 프로세싱한다. 일부 양태들에서, RDI 시퀀스는 평균 프레임-드롭핑 비율에 기초하여 복원될 수 있다. 따라서, RDI들(800)의 입력 시퀀스에 대하여, 출력(예컨대, 710)은 RDI들의 시퀀스 내의 추가적인 이미지들을 포함할 수 있고, 이것은 데이터 증강으로서 간주될 수 있다. 일부 양태들에서, 평균 프레임-드롭핑 비율은 오토-인코더(예컨대, 700)의 최적화된 파라미터일 수 있다. 따라서, 오토-인코더(예컨대, 700)는 데이터 증강 레벨을 수정하기 위하여 상이한 비율들로 구현될 수 있다.

[0079] 일부 양태들에서는, 시퀀스(예컨대, RDI들(800))의 순서가 또한 복원될 수 있다. 예를 들어, 각각의 차원(예컨대, A1)은 주파수 분포(예컨대, 850)를 생성하기 위하여 (예컨대, 인코딩 블록(702)을 통해) 프로세싱될 수 있다. 주파수 분포(예컨대, 850)는 복원된 시퀀스 순서 정보를 갖는 1 차원에서의 확장된 특이 시퀀스인 대응하는 출력을 생성하기 위하여 (예컨대, 디코딩 블록(704)을 통해) 프로세싱될 수 있다. 즉, 6 개의 차원들의 각각인, (증강된 시퀀스로서 지칭될 수 있는) 복원된 시퀀스를 표현하는 1 x 6 벡터(예컨대, 804)는 디코딩 블록(704)을 통해 하나의 RDI 이미지로 디코딩될 수 있다. 각각의 이러한 RDI 이미지를 포함하는 RDI 시퀀스는 RDI들(예컨대, 800)의 입력 시퀀스와 동일한 시퀀스 순서 정보를 갖는 RDI들(예컨대, 800)의 입력 시퀀스에 대한 추가적인 RDI 이미지들을 포함한다.

[0080] 도 8b는 본 개시내용의 양태들에 따라, 레인지-도플러 이미지(RDI)들(800)의 시퀀스에 대응하는 주파수 분포(850)의 예시적인 그래프이다. 위에서 설명된 바와 같이, 주파수 분포는 RDI들(800)의 추출된 특징들(802)에 대해 FFT 동작을 수행함으로써 결정될 수 있다. 피크 주파수(852)는 주파수 분포(850)에서의 최대 또는 피크 주파수에 대응하는 것으로서 식별될 수 있다. 피크 주파수(852)는 하나의 사이클(cycle)의 길이의 표시를 제공할 수 있다. 즉, 증강 후의 확장된 시계열에서의 임의의 길이에 대하여, 주파수 도메인 분포에서는, 역 고속 푸리에 변환(IFFT) 크기의 파라미터가 출력의 길이를 판정할 것이다. 그 다음으로, 입력 시퀀스의 세그먼트들에 대한 경계들은 길이 정보에 기초하여 결정될 수 있다. 고주파수 부분(854)과 같은, 주파수 분포(850)의 다른 부분들은 잡음 또는 간섭의 증거일 수 있다. 일부 양태들에서, 주파수 도메인에서의 최적화는 잡음 효과를 감소시킬 수 있다. 예를 들어, 고주파수 부분(854)은 제거될 수 있고, 이것은 잡음을 감소시키는 것과 동등할 수 있다. 최적화된 주파수 정보는 입력(예컨대, RDI들(800)) 및 추가적인 데이터(예컨대, 하나 이상의 추가적인 RDI들)를 포함하는 증강된 데이터 세트를 생성하도록 (예컨대, 디코딩 블록(704)을 통해) 프로세싱될 수 있다.

[0081] 도 9a 내지 도 9c는 본 개시내용의 양태들에 따라, 레인지-도플러 이미지(RDI)들의 시퀀스에 대한 데이터 증강을 예시하는 도면들이다. 도 9a는 RDI들(902)의 예시적인 캡처된 입력 시퀀스를 도시한다. RDI들(902)의 예시적인 캡처된 입력 시퀀스는 40 퍼센트의 프레임 드롭핑을 갖는 큰 프레임 레이트를 가진다. 도 9b 및 도 9c는 예시적인 복원된 시퀀스들(904 및 906)을 예시한다. X 및 Y 축들은 도 9a 내지 도 9c 각각에서의 픽셀 인덱스들을 표현한다. 도 9b 및 도 9c에서 각각 도시된 바와 같이, 도 6a 내지 도 6b를 참조하여 설명된 바와 같이 RDI들의 캡처된 입력 시퀀스를 프로세싱함으로써, 입력 시퀀스 내의 데이터는 증강될 수 있어서, 샘플들을 드롭핑하기 이전에(예컨대, 약 제로 퍼센트 프레임 드롭핑), 전체 입력 시퀀스를 복원하기 위하여 입력 시퀀스의 데이터세트의 다이버시티(diversity)를 증가시킬 수 있다. 예를 들어, 도 9b에서 도시된 바와 같이, 3 개의 RDI들을 포함하는 RDI들(902)의 캡처된 입력 시퀀스는 복원된 시퀀스(904) 내에 포함된 2 개의 추가적인 RDI들로 증강된다. 증강은 도 6a에 대하여 위에서 설명된 바와 같이 발생할 수 있다. 즉, 입력 시퀀스의 주파수 분포가 결정될 수 있다. 잡음 또는 간섭 상쇄와 같은 주파수 최적화들은 택일적으로 적용될 수 있다. 시간 도메인 정보는 예를 들어, 입력 시퀀스에 대한 평균 프레임-드롭핑 비율에 기초하여 주파수 분포 정보에 대해 역 고속 푸리에 변환(IFFT) 동작을 수행함으로써 복원될 수 있다. 전체 시퀀스는 복원된 시간 도메인 정보에 기초하여 복원된다.

[0082] 일부 양태들에서, (904로서 도시된) 전체 입력 시퀀스를 복원하였으면, 상이한 레벨의 드롭핑이 적용될 수 있다. 예를 들어, 도 9c에서, 복원된 시퀀스(906)는 RDI들(902)의 시퀀스보다 더 낮은 프레임 드롭핑 레이트(예컨대, 15 퍼센트)를 반영하는 4 개의 RDI들을 포함한다.

[0083] 따라서, 위에서 설명된 방법에 기초하여, 데이터세트의 다이버시티는 증가될 수 있고, 캡처된 입력 시퀀스의 데이터세트는 증강될 수 있다. 그렇게 행할 시에, 샘플들 드롭핑의 임의의 정도 또는 양은 프로세싱 속력 및 정확도의 절충에 따라 획득될 수 있다. 예를 들어, 더 적은 프레임 드롭핑은 분류 결과를 결정할 시에 고려되어야 할 더 많은 프레임들로 귀착되고, 개선된 분류 정확도로 귀착될 수 있다. 다른 한편으로, 더 많은 프레임 드롭핑은 프로세싱하기 위한 더 적은 정보로 귀착되고, 이것은 덜 정확할 수 있는 분류 결과를 생성하기 위하여 프로세싱 시간을 감소시킬 수 있다.

[0084] 따라서, 데이터 증강 방법을 이용하면, 데이터 세트들 내의 정보가 증가된다. 시퀀스 복원 후에, 시퀀스 순서 정보는 제스처 인식을 위한 대응하는 정확도를 추가로 증가시키기 위하여 복원될 수 있다. 즉, (예컨대, 인코딩 블록(702)을 통한) 인코더 프로세싱 후에, 시퀀스의 추출된 특징들이 제공될 수 있어서, 예를 들어, 각각의 이미지(예컨대, RDI들(800) 내의 RDI)는 6 개의 차원들(예컨대, 802 참조)을 갖는 하나의 1*6 벡터에 의해 표현된다. (N 개의 이미지들을 갖는) RDI 시퀀스(예컨대, 800)는 이에 따라, 6*N 행렬로서 표현되고, 각각의 차원은 하나의 단일 값 시퀀스 1*N(예컨대, B4)일 것이고, 6 개의 차원들에 대한 6 개의 특이 시퀀스들이 있다.

[0085] 각각의 특이 시퀀스(N 개의 샘플들)는 대응하는 주파수 분포를 결정하기 위하여 인코딩 블록(예컨대, 702)에서 프로세싱될 수 있고, 디코딩 블록(예컨대, 704)으로 공급될 수 있다. 디코딩 블록(예컨대, 704)은 주파수 분포를 프로세싱할 수 있고, N/(평균 프레임-드롭핑 비율)에 따라, 추가적인 RDI 이미지들을 포함하는 출력을 생성할 수 있다. 즉, 입력 시퀀스는 그 다음으로, 입력 시퀀스의 순서를 유지하면서, 추가적인 드롭핑된 프레임들(RDI 이미지들)을 갖는 더 긴 시퀀스에 대응한다.

[0086] 라디오 주파수(RF) 센싱은 레인지, 도플러, 및 각도 정보와 같은 정보에 기초하여 환경을 이미징하기 위하여 레이더 신호와 함께 이용될 수 있다. 더 높은 주파수 더 큰 대역폭의 간결한 어레이는 센싱을 위하여 모바일 디바이스 또는 액세스 포인트에 대하여 적용가능한 더 큰 세분화도를 달성할 수 있다.

[0087] 이전에 설명된 바와 같이, 핸드헬드 레이더 디바이스들은 제스처 분류, 차량내-기반 제어 등과 같은 애플리케이션들에서 서빙할 수 있다. 그러나, 하나의 도전은 클린 제스처 데이터(clean gesture data)를 페치(fetch)하기 위한 방법이다. 전형적인 이미지들과 달리, 시각에 기초하여 시작 및 종료 포인트에 대해 판정하는 것은 어렵다. 도 10aa 및 도 10ab는 본 개시내용의 양태들에 따라, 좌측 스와이프 제스처 및 로깅 절차에 대응하는 레인지-도플러 이미지(RDI)들(1000)의 긴 시퀀스를 도시한다. RDI들(1000)의 긴 시퀀스는 타깃 모션들(예컨대, 좌측 스와이프) 뿐만 아니라, (배경 잡음, 간섭, 또는 다른 비-타깃 부분들을 포함하는) 잡음을 포함할 수 있다.

[0088] 도 10b는 본 개시내용의 양태들에 따라, 긴 시퀀스(1050)의 단순화된 뷰를 예시하는 블록도이다. 도 10b에서 도시된 바와 같이, 긴 시퀀스(1050)는 타깃 모션 부분들(예컨대, 1052a 내지 1052d) 및 잡음 부분들(예컨대, 1054a 내지 1054d)을 포함할 수 있다. 타깃 모션 부분들(1052) 및 잡음 부분들(1054)의 둘 모두는 상이한 길이들을 가질 수 있다. 시각에 기초하여, 잡음, 간섭, 및 제스처를 식별하는 것은 어려울 수 있다.

[0089] 일반적으로, 라디오 주파수(RF) 센싱 모션 인식을 위하여, 클린 제스처 데이터는 더 정확한 제스처 검출을 가능하게 할 수 있다. 시각 또는 비디오-기반 시스템은 세그먼트화(segmentation)를 수행할 수 있다. 시각-기반 시스템들에서, RF 센싱 데이터 및 대응하는 데이터는 모션들을 캡처하는 비디오와 동시에 페치된다. 모션 부분들은 비디오의 관찰과 정합하기 위한 오프라인 훈련 동안에 수동적으로 설정될 수 있다. 그러나, 이 절차는 고비용이고, 라디오 주파수(RF) 센싱 시퀀스와 비디오 사이의 올바른 동기화에 종속된다. 추가적으로, 수동적 라벨링은 집약적인 인간 시간 및 노력을 수반한다.

[0090] 따라서, 본 개시내용의 양태들은 이미지에서의 세그먼트화를 위한 일반적인 해결책들 뿐만 아니라, 잡음 부분들의 예측 및 제거를 포함한다. 방법은 타깃 부분들을 직접적으로 세그먼트화하지 않을 수 있다. 즉, 클린 모션 시퀀스 타깃들은 페치하기가 어려울 수 있는데, 그 이유는 타깃 시퀀스가 무엇에 또는 어디에 위치되는지를 명확하게 식별하는 것이 어렵기 때문이다. 따라서, 본 개시내용의 양태들은 (예컨대, 배경, 전력 누설, 및 일부 무작위적 간섭을 포함하는) 잡음 부분을 식별하고 제거한다. 잡음 부분을 제거한 후에, 시퀀스의 나머지는 타깃 모션 부분인 것으로 고려될 수 있다.

[0091] 세그먼트화에 기초하여, 타깃 부분들이 페치되고, 긴 연속 시퀀스에서의 잡음 부분들이 제거된다. 본 개시내용의 양태들에 따르면, 배경, 전력 누설, 및 일부 무작위적인 간섭을 포함하는, 순수한 잡음 데이터 및 다른 순수한 모션들이 캡처된다. 임의의 잡음을 수반하는 것이 아니라, 일부 제스처 특징들을 포함하는 다른 순수한 모션들이 또한 캡처될 수 있다. 예를 들어, 연속 파, 좌측/우측 스와이프, 및 그 반복이 캡처될 수 있다. 추가적으로, 연속적인 풀-푸시(pull-push)가 또한 캡처될 수 있다.

[0092] 사전-훈련된 네트워크는 잡음 부분들을 식별할 수 있다. 네트워크는 올바른 배경 특징을 학습할 수 있다. 하나의 이미지 내의 레인지-도플러 정보가 제한되므로, 잘못된 경보를 감소시키기 위하여, 시퀀스-기반 잡음 예측이 고려된다. 다시 말해서, 하나의 시퀀스 부분은 하나의 이미지가 아니라, 잡음으로서 예측된다.

[0093] 네트워크에 기초하여, 잡음 부분은 시퀀스로부터 예측되고 제거된다. 일부 양태들에서, 슬라이딩 윈도우(sliding window)는 모션 시퀀스 경계를 정확하게 식별할 수 있다.

[0094] 도 11은 본 개시내용의 양태들에 따라, 예시적인 아키텍처(1100)를 예시하는 블록도이다. 아키텍처(1100)는 DL(deep learning) 네트워크(1102)를 포함한다. 심층 학습 네트워크(1102)는 예를 들어, 컨볼루션 신경 네트워크(예컨대, 도 3의 DCN(350))일 수 있다. 심층 학습 네트워크(1102)는 입력 잡음 및 관련된 모션들로서 수신할 수 있다. 심층 학습 네트워크(1102)는 잡음 예측 모델(1104)을 생성하기 위하여 잡음 부분들을 인식하도록 훈련될 수 있다.

[0095] 잡음 예측 모델(1104)은 잡음 부분들을 식별할 수 있다. 즉, 잡음 예측 모델(1104)은 잡음 및 다른 관련된 모션들을 포함하는 입력 시퀀스를 수신할 수 있고, 잡음을 분류할 수 있다. 잡음 예측 모델(1104)은 입력 시퀀스의 특징들을 추출할 수 있고, 시퀀스의 부분이 잡음 부분인지 여부의 예측을 결정할 수 있다. 궁극적으로, 잡음 부분이 식별될 수 있고, 시퀀스의 잡음 부분은 제거될 수 있다. 예를 들어, 잡음 부분은 잡음 예측이 사전정의된 임계 값 초과일 때에 식별될 수 있다.

[0096] 도 12는 본 개시내용의 양태들에 따라, 잡음을 제거하기 위한 예시적인 프로세싱을 예시하는 블록도이다. 도 12를 참조하면, 긴 시퀀스(1202)(예컨대, 1-2-3-4-5-6-7-8-9-10-11-12-13-14-15 ...)가 수신된다. 슬라이딩 윈도우(예컨대, 길이 = 3)(1204)는 시퀀스 부분들(예컨대, 1, 2, 3, ...)을 페치하도록 정의될 수 있다. 도 12의 예에서, 시퀀스 부분들은 한 번에 하나의 시퀀스 부분씩 페치될 수 있다. 각각의 슬라이딩 윈도우(1204) 내의 시퀀스 부분들은 추론을 위하여 네트워크로 입력되고, 네트워크는 예측을 출력한다. 도 12에서 도시된 바와 같이, 섹션(1208)은 예시의 용이함을 위하여, 잡음 또는 간섭을 포함할 수 있다. 네트워크(예컨대, 도 11의 잡음 예측 모델(1104))는 슬라이딩 윈도우(1204)의 각각 내의 부분들을 프로세싱한다. 슬라이딩 윈도우들 1 내지 3의 각각에 대한 예측은 잡음이고, 이에 따라, 대응하는 시퀀스 부분들(1, 2, 3, 4, 및 5)은 또한, 잡음으로서 정의된다. 다른 한편으로, 슬라이딩 윈도우들 4 내지 8의 각각에 대한 예측들은 타깃 모션이고, 이에 따라, 대응하는 시퀀스 부분들(예컨대, 4, 5, 6, 7, 8, 9, 및 10)은 또한, 잡음인 것으로 예측된다. 시퀀스 부분들 4, 5, 및 10에서의 경우와 마찬가지로, 시퀀스 부분이 잡음 및 타깃 모션인 것으로 예측되는 경우에 중첩이 존재할 수 있다. 중첩하는 시퀀스 예측들은 설계 선호도에 따라 결정될 수 있다. 일부 양태들에서, 중첩하는 부분에 대한 예측은 예측된 타깃 시퀀스 부분들의 길이에 기초할 수 있다. 예를 들어, 타깃 시퀀스 부분들인 것으로 예측된 다른 시퀀스 부분들의 수가 더 작은 경우에, 시퀀스는 타깃 시퀀스 부분인 것으로 간주될 수 있다. 다른 한편으로, 일부 양태들에서, 중첩하는 부분에 대한 예측은 명확한 타깃들이 이용되어야 하는지 여부에 기초할 수 있다. 예를 들어, 전적으로 명확한 타깃들이 희망되는 경우에, 예측 모델은 잡음으로서 라벨링된 임의의 잡음을 갖는 샘플(예컨대, 슬라이딩 윈도우(1204))을 분류할 수 있다. (1206으로서 도시된 시퀀스 번호들 4 내지 10을 포함하는) 부분들 4 내지 8은 각각 잡음을 포함한다. 이와 같이, 네트워크(예컨대, 잡음 예측 모델(1104))는 부분들 4 내지 8(예컨대, 1206)이 잡음 부분들인 것으로 예측할 수 있고, 이러한 부분들을 제거할 수 있다. 시퀀스(1204)의 잡음 부분들을 제거한 후에, 나머지 부분들은 타깃 모션 부분들로서 식별될 수 있다. 일부 양태들에서는, 나머지 타깃 부분들이 프로세싱될 수 있고 분류될 수 있다.

[0097] 도 13은 본 개시내용의 양태들에 따라, 시퀀스를 증강하거나 복원하기 위한 방법(1300)을 예시하는 흐름도이다. 도 13에서 도시된 바와 같이, 블록(1302)에서는, 입력 시퀀스가 수신된다. 일부 양태들에서, 입력 시퀀스는 하나 이상의 레인지-도플러 이미지들일 수 있다.

[0098] 블록(1304)에서는, 특징들의 세트가 입력 시퀀스로부터 추출될 수 있다. 도 6b와 관련하여 설명된 바와 같이, 시퀀스 내의 각각의 이미지(652)는 이미지(652)를 표현하기 위한 특징들(654)을 추출하거나 결정하도록 프로세싱될 수 있다. 일부 양태들에서, 특징들(654)은 예를 들어, 주요한 컴포넌트 분석 또는 유사한 기법들에 기초하여 결정될 수 있다. 특징들(654)은 또한, 컨볼루션 신경 네트워크(CNN)(예컨대, 심층 컨볼루션 네트워크(350))를 통해 추출될 수 있다.

[0099] 블록(1306)에서는, 주파수 분포가 추출된 특징들에 기초하여 입력 시퀀스에 대하여 결정될 수 있다. 예를 들어, 도 6b를 참조하여 설명된 바와 같이, 추출된 특징들(654)은 이미지들(652)의 시퀀스에 대한 주파수 분포(656)를 결정하도록 프로세싱될 수 있다. 예를 들어, 고속 푸리에 변환(FFT) 동작은 대응하는 주파수 분포(656)를 결정하기 위하여 이미지들(652)의 시퀀스를 표현하는 추출된 특징들(654)에 대해 수행될 수 있다.

[0100] 블록(1308)에서는, 시간 도메인 정보가 시퀀스에 대하여 복원될 수 있다. 예를 들어, 도 6a를 참조하여 설명된 바와 같이, 시간 도메인 정보는 입력 시퀀스에 대한 평균 프레임-드롭핑 비율에 기초하여 주파수 분포 정보에 대해 역 고속 푸리에 변환(IFFT) 동작을 수행함으로써 복원될 수 있다. 블록(1310)에서는, 시간 도메인 정보를 디코딩함으로써, 입력 시퀀스의 데이터가 증강된다. 블록(1312)에서는, 입력 시퀀스가 증강된 데이터에 기초하여 분류된다.

[0101] 도 14는 본 개시내용의 양태들에 따라, 입력 시퀀스 내의 잡음을 예측하고 제거하기 위한 방법(1400)을 예시하는 흐름도이다. 블록(1402)에서는, 하나 이상의 모션 부분들 및 하나 이상의 잡음 부분들을 포함하는 시퀀스가 수신될 수 있다. 블록(1404)에서는, 시퀀스를 표현하는 특징들이 추출된다. 블록(1406)에서는, 잡음 부분들 중의 하나 이상이 네트워크(예컨대, 인공 신경 네트워크)에 의해 식별된다. 네트워크는 추출된 특징들에 기초하여 잡음을 식별한다. 블록(1408)에서는, 시퀀스의 식별된 잡음 부분들이 제거된다. 게다가, 블록(1410)에서, 하나 이상의 모션 부분들의 분류는 택일적으로 결정될 수 있다.

[0102] 구현 예들은 다음의 번호부여된 조항들에서 설명된다:

1. 컴퓨터-구현 방법으로서,

입력 시퀀스를 수신하는 단계;

입력 시퀀스로부터 특징들의 세트를 추출하는 단계;

추출된 특징들에 기초하여 입력 시퀀스에 대한 주파수 분포를 결정하는 단계;

주파수 분포에 대해 역 고속 푸리에 변환을 수행함으로써 입력 시퀀스에 대한 시간 도메인 정보를 복원하는 단계;

복원된 시간 도메인 정보를 디코딩함으로써 입력 시퀀스에 대한 데이터를 증강하는 단계; 및

증강된 데이터에 기초하여 입력 시퀀스를 분류하는 단계를 포함하는, 컴퓨터-구현 방법.

2. 조항 1의 컴퓨터-구현 방법에 있어서, 전체 입력 시퀀스가 복원되는, 컴퓨터-구현 방법.

3. 조항 1 또는 조항 2의 컴퓨터-구현 방법에 있어서, 전체 입력 시퀀스는 입력 시퀀스에 대한 평균 샘플 드롭핑 비율(average sample dropping ratio)에 적어도 부분적으로 기초하여 복원되는, 컴퓨터-구현 방법.

4. 조항 1 내지 조항 3 중 어느 한 조항의 컴퓨터-구현 방법에 있어서, 입력 시퀀스의 순서를 복원하는 단계를 더 포함하는, 컴퓨터-구현 방법.

5. 조항 1 내지 조항 4 중 어느 한 조항의 컴퓨터-구현 방법에 있어서, 입력 시퀀스는 레인지-도플러 이미지들의 시퀀스를 포함하는, 컴퓨터-구현 방법.

6. 조항 1 내지 조항 5 중 어느 한 조항의 컴퓨터-구현 방법에 있어서, 레인지-도플러 이미지들은 하나 이상의 손 제스처들에 대응하는, 컴퓨터-구현 방법.

7. 조항 1 내지 조항 6 중 어느 한 조항의 컴퓨터-구현 방법에 있어서, 입력 시퀀스의 사이클의 길이를 결정하는 단계를 더 포함하는, 컴퓨터-구현 방법.

8. 조항 1 내지 조항 7 중 어느 한 조항의 컴퓨터-구현 방법에 있어서, 입력 시퀀스로부터 적어도 하나의 잡음 부분을 추출하는 단계를 더 포함하는, 컴퓨터-구현 방법.

9. 컴퓨터-구현 방법으로서,

하나 이상의 모션 부분들 및 하나 이상의 잡음 부분들을 포함하는 시퀀스를 수신하는 단계;

시퀀스를 표현하는 특징들을 추출하는 단계;

ANN(artificial neural network)을 통해 잡음 부분들 중의 하나 이상을 식별하는 단계 ― ANN은 추출된 특징들에 기초하여 잡음을 식별하도록 훈련됨 ―; 및

시퀀스의 식별된 잡음 부분들을 제거하는 단계를 포함하는, 컴퓨터-구현 방법.

10. 조항 9의 컴퓨터-구현 방법에 있어서,

시퀀스를 다수의 시퀀스 세그먼트들로 세그먼트화하는 단계; 및

각각의 시퀀스 세그먼트가 잡음을 포함하는지 여부의 예측을 결정하는 단계를 더 포함하는, 컴퓨터-구현 방법.

11. 조항 9 또는 조항 10의 컴퓨터-구현 방법에 있어서, 다수의 시퀀스 세그먼트들은 사전정의된 길이를 가지는 슬라이딩 윈도우에 따라 정의되는, 컴퓨터-구현 방법.

12. 조항 9 내지 조항 11 중 어느 한 조항의 컴퓨터-구현 방법에 있어서, 사전정의된 길이는 제스처의 연속 지속기간 또는 입력 시퀀스의 샘플링 레이트 중의 하나 이상에 비례적인, 컴퓨터-구현 방법.

13. 조항 9 내지 조항 12 중 어느 한 조항의 컴퓨터-구현 방법에 있어서, 상이한 예측을 갖는 인접한 윈도우들과의 중첩된 부분에 대하여, 경계 결정은 중첩된 부분의 절반 부분에 기초하는, 컴퓨터-구현 방법.

14. 조항 9 내지 조항 13 중 어느 한 조항의 컴퓨터-구현 방법에 있어서, 상이한 예측을 갖는 인접한 윈도우들과의 중첩된 부분에 대하여, 중첩된 부분은 잡음으로서 식별되는, 컴퓨터-구현 방법.

15. 장치로서,

메모리; 및

메모리에 결합된 적어도 하나의 프로세서를 포함하고, 적어도 하나의 프로세서는,

입력 시퀀스를 수신하도록;

입력 시퀀스로부터 특징들의 세트를 추출하도록;

추출된 특징들에 기초하여 입력 시퀀스에 대한 주파수 분포를 결정하도록;

주파수 분포에 대해 역 고속 푸리에 변환을 수행함으로써 입력 시퀀스에 대한 시간 도메인 정보를 복원하도록;

복원된 시간 도메인 정보를 디코딩함으로써 입력 시퀀스에 대한 데이터를 증강하도록; 그리고

증강된 데이터에 기초하여 입력 시퀀스를 분류하도록 구성되는, 장치.

16. 조항 15의 장치에 있어서, 적어도 하나의 프로세서는 전체 입력 시퀀스를 복원하도록 추가로 구성되는, 장치.

17. 조항 15 또는 조항 16의 장치에 있어서, 적어도 하나의 프로세서는 입력 시퀀스에 대한 평균 샘플 드롭핑 비율에 적어도 부분적으로 기초하여 전체 입력 시퀀스를 복원하도록 추가로 구성되는, 장치.

18. 조항 15 내지 조항 17 중 어느 한 조항의 장치에 있어서, 적어도 하나의 프로세서는 입력 시퀀스의 순서를 복원하도록 추가로 구성되는, 장치.

19. 조항 15 내지 조항 18 중 어느 한 조항의 장치에 있어서, 입력 시퀀스는 레인지-도플러 이미지들의 시퀀스를 포함하는, 장치.

20. 조항 15 내지 조항 19 중 어느 한 조항의 장치에 있어서, 레인지-도플러 이미지들은 하나 이상의 손 제스처들에 대응하는, 장치.

21. 조항 15 내지 조항 20 중 어느 한 조항의 장치에 있어서, 적어도 하나의 프로세서는 입력 시퀀스의 사이클의 길이를 결정하도록 추가로 구성되는, 장치.

22. 조항 15 내지 조항 21 중 어느 한 조항의 장치에 있어서, 적어도 하나의 프로세서는 입력 시퀀스로부터 적어도 하나의 잡음 부분을 추출하도록 추가로 구성되는, 장치.

23. 장치로서,

메모리; 및

하나 이상의 모션 부분들 및 하나 이상의 잡음 부분들을 포함하는 시퀀스를 수신하도록;

시퀀스를 표현하는 특징들을 추출하도록;

ANN(artificial neural network)을 통해 잡음 부분들 중의 하나 이상을 식별하도록 ― ANN은 추출된 특징들에 기초하여 잡음을 식별하도록 훈련됨 ―; 그리고

시퀀스의 식별된 잡음 부분들을 제거하도록 구성되는, 장치.

24. 조항 23의 장치에 있어서, 적어도 하나의 프로세서는,

시퀀스를 다수의 시퀀스 세그먼트들로 세그먼트화하도록; 그리고

각각의 시퀀스 세그먼트가 잡음을 포함하는지 여부의 예측을 결정하도록 추가로 구성되는, 장치.

25. 조항 23 또는 조항 24의 장치에 있어서, 적어도 하나의 프로세서는 사전정의된 길이를 가지는 슬라이딩 윈도우에 따라 다수의 시퀀스 세그먼트들을 정의하도록 추가로 구성되는, 장치.

26. 조항 23 내지 조항 25 중 어느 한 조항의 장치에 있어서, 사전정의된 길이는 제스처의 연속 지속기간 또는 입력 시퀀스의 샘플링 레이트 중의 하나 이상에 비례적인, 장치.

27. 조항 23 내지 조항 26 중 어느 한 조항의 장치에 있어서, 적어도 하나의 프로세서는 상이한 예측을 갖는 인접한 윈도우들과의 중첩된 부분에 대하여, 중첩된 부분의 절반 부분에 기초하여 경계를 결정하도록 추가로 구성되는, 장치.

28. 조항 23 내지 조항 27 중 어느 한 조항의 장치에 있어서, 적어도 하나의 프로세서는 상이한 예측을 갖는 인접한 윈도우들과의 중첩된 부분에 대하여, 중첩된 부분을 잡음으로서 식별하도록 추가로 구성되는, 장치.

[0103] 위에서 설명된 방법들의 다양한 동작들은 대응하는 기능들을 수행할 수 있는 임의의 적당한 수단에 의해 수행될 수 있다. 수단은, 회로, ASIC(application specific integrated circuit), 또는 프로세서를 포함하지만, 이것으로 제한되지는 않는 다양한 하드웨어 및/또는 소프트웨어 컴포넌트(들) 및/또는 모듈(들)을 포함할 수 있다. 일반적으로, 도면들에서 예시된 동작들이 있을 경우에, 그 동작들은 유사한 번호부여를 갖는 대응하는 대응부 수단-플러스-기능(means-plus-function) 컴포넌트들을 가질 수 있다.

[0104] 하나의 양태에서, 수신 수단, 추출 수단, 결정 수단, 복원 수단, 증강 수단, 및/또는 분류 수단은 CPU(102), CPU(102)와 연관된 프로그램 메모리, 전용 메모리 블록(118), 완전히 접속된 계층들(362), 및/또는 인용된 기능들을 수행하도록 구성된 센싱 칩들(404)일 수 있다. 또 다른 구성에서, 전술한 수단은 전술한 수단에 의해 인용된 기능들을 수행하도록 구성된 임의의 모듈 또는 임의의 장치일 수 있다.

[0105] 이용된 바와 같이, 용어 "결정하는(determining)"은 폭넓게 다양한 액션들을 망라한다. 예를 들어, "결정하는"은 계산, 컴퓨팅, 프로세싱, 유도, 조사, 룩업(look up)(예컨대, 테이블, 데이터베이스, 또는 또 다른 데이터 구조에서의 룩업), 확인 등을 포함할 수 있다. 추가적으로, "결정하는"은 수신(예컨대, 정보를 수신하는 것), 액세스(예컨대, 메모리에서 데이터를 액세스하는 것) 등을 포함할 수 있다. 게다가, "결정하는"은 해결, 선택, 선정, 확립 등을 포함할 수 있다.

[0106] 이용된 바와 같이, 항목들의 리스트 중의 "적어도 하나(at least one of)"를 지칭하는 어구는 단일 부재들을 포함하는 그러한 항목들의 임의의 조합을 지칭한다. 예로서, "a, b, 또는 c 중의 적어도 하나"는 a, b, c, a-b, a-c, b-c, 및 a-b-c를 포괄하도록 의도된다.

[0107] 본 개시내용과 관련하여 설명된 다양한 예시적인 논리적 블록들, 모듈들, 및 회로들은 범용 프로세서, DSP(digital signal processor), ASIC(application specific integrated circuit), FPGA(field programmable gate array signal) 또는 다른 PLD(programmable logic device), 개별 게이트 또는 트랜지스터 로직, 개별 하드웨어 컴포넌트들, 또는 설명된 기능들을 수행하도록 설계된 그 임의의 조합으로 구현될 수 있거나 수행될 수 있다. 범용 프로세서는 마이크로프로세서일 수 있지만, 대안적으로, 프로세서는 임의의 상업적으로 입수가능한 프로세서, 제어기, 마이크로제어기, 또는 상태 머신(state machine)일 수 있다. 프로세서는 또한, 컴퓨팅 디바이스들의 조합, 예컨대, DSP 및 마이크로프로세서, 복수의 마이크로프로세서들, DSP 코어와 함께 하나 이상의 마이크로프로세서들, 또는 임의의 다른 이러한 구성의 조합으로서 구현될 수 있다.

[0108] 본 개시내용과 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로, 프로세서에 의해 실행된 소프트웨어 모듈로, 또는 이 둘의 조합으로 직접 구체화될 수 있다. 소프트웨어 모듈은 본 기술분야에서 공지되어 있는 임의의 형태의 저장 매체에서 상주할 수 있다. 이용될 수 있는 저장 매체들의 일부 예들은 RAM(random access memory), ROM(read only memory), 플래시 메모리, EPROM(erasable programmable read-only memory), EEPROM(electrically erasable programmable read-only memory), 레지스터들, 하드 디스크, 분리가능한 디스크, CD-ROM 등을 포함한다. 소프트웨어 모듈은 단일 명령 또는 다수의 명령들을 포함할 수 있고, 몇몇 상이한 코드 세그먼트들 상에서, 상이한 프로그램들 사이에서, 그리고 다수의 저장 매체들에 걸쳐 분산될 수 있다. 저장 매체는 프로세서가 저장 매체로부터 정보를 판독할 수 있고 정보를 저장 매체에 기입할 수 있도록, 프로세서에 결합될 수 있다. 대안적으로, 저장 매체는 프로세서에 일체적일 수 있다.

[0109] 개시된 방법들은 설명된 방법을 달성하기 위한 하나 이상의 단계들 또는 액션들을 포함한다. 방법 단계들 및/또는 액션들은 청구항들의 범위로부터 이탈하지 않으면서 서로 상호교환될 수 있다. 다시 말해서, 단계들 또는 액션들의 특정 순서가 특정되지 않으면, 특정 단계들 및/또는 액션들의 순서 및/또는 이용은 청구항들의 범위로부터 이탈하지 않으면서 수정될 수 있다.

[0110] 설명된 기능들은 하드웨어, 소프트웨어, 펌웨어, 또는 그 임의의 조합으로 구현될 수 있다. 하드웨어로 구현될 경우에, 예시적인 하드웨어 구성은 디바이스 내의 프로세싱 시스템을 포함할 수 있다. 프로세싱 시스템은 버스 아키텍처로 구현될 수 있다. 버스는 프로세싱 시스템의 특정 애플리케이션 및 전체적인 설계 제약들에 따라 임의의 수의 상호접속하는 버스들 및 브릿지(bridge)들을 포함할 수 있다. 버스는 프로세서, 머신-판독가능 매체들, 및 버스 인터페이스를 포함하는 다양한 회로들을 함께 연결할 수 있다. 버스 인터페이스는 그 중에서도, 네트워크 어댑터를 버스를 통해 프로세싱 시스템에 접속하기 위하여 이용될 수 있다. 네트워크 어댑터는 신호 프로세싱 기능들을 구현하기 위하여 이용될 수 있다. 어떤 양태들에 대하여, 사용자 인터페이스(예컨대, 키패드, 디스플레이, 마우스, 조이스틱 등)는 또한, 버스에 접속될 수 있다. 버스는 또한, 본 기술분야에서 널리 공지되어 있고, 그러므로, 더 이상 설명되지 않을 타이밍 소스들, 주변기기들, 전압 레귤레이터들, 및 전력 관리 회로들 등과 같은 다양한 다른 회로들을 연결할 수 있다.

[0111] 프로세서는 버스를 관리하는 것과, 머신-판독가능 매체들 상에서 저장된 소프트웨어의 실행을 포함하는 일반적인 프로세싱을 담당할 수 있다. 프로세서는 하나 이상의 범용 및/또는 특수-목적 프로세서들로 구현될 수 있다. 예들은 마이크로프로세서들, 마이크로제어기들, DSP 프로세서들, 및 소프트웨어를 실행할 수 있는 다른 회로부를 포함한다. 소프트웨어는 소프트웨어, 펌웨어, 미들웨어, 마이크로코드, 하드웨어 설명 언어, 또는 그 외의 것으로서 지칭되든지 간에, 명령들, 데이터, 또는 그 임의의 조합을 의미하도록 폭넓게 해석될 것이다. 머신-판독가능 매체들은 예로서, RAM(random access memory), 플래시 메모리, ROM(read only memory), PROM(programmable read-only memory), EPROM(erasable programmable read-only memory), EEPROM(electrically erasable programmable Read-only memory), 레지스터들, 자기 디스크들, 광학 디스크들, 하드 드라이브들, 또는 임의의 다른 적당한 저장 매체, 또는 그 임의의 조합을 포함할 수 있다. 머신-판독가능 매체들은 컴퓨터-프로그램 제품에서 구체화될 수 있다. 컴퓨터-프로그램 제품은 패키징 재료들을 포함할 수 있다.

[0112] 하드웨어 구현예에서, 머신-판독가능 매체들은 프로세서로부터 분리된 프로세싱 시스템의 일부일 수 있다. 그러나, 본 기술분야에서의 통상의 기술자들이 용이하게 인식하는 바와 같이, 머신-판독가능 매체들 또는 그 임의의 부분은 프로세싱 시스템에 대해 외부적일 수 있다. 예로서, 머신-판독가능 매체들은 송신 라인, 데이터에 의해 변조된 반송파, 및/또는 디바이스로부터 분리된 컴퓨터 제품을 포함할 수 있고, 이들의 전부는 버스 인터페이스를 통해 프로세서에 의해 액세스될 수 있다. 대안적으로 또는 추가적으로, 머신-판독가능 매체들 또는 그 임의의 부분은 캐시 및/또는 일반적인 레지스터 파일들에서 그러한 바와 같이, 프로세서 내로 통합될 수 있다. 논의된 다양한 컴포넌트들은 로컬 컴포넌트와 같이, 특정 위치를 가지는 것으로서 설명될 수 있지만, 그것들은 또한, 분산된 컴퓨팅 시스템의 일부로서 구성되는 어떤 컴포넌트들과 같이, 다양한 방식들로 구성될 수 있다.

[0113] 프로세싱 시스템은 외부 버스 아키텍처를 통해 다른 지원 회로부와 함께 모두 연결된, 프로세서 기능성을 제공하는 하나 이상의 마이크로프로세서들 및 머신-판독가능 매체들의 적어도 부분을 제공하는 외부 메모리를 갖는 범용 프로세싱 시스템으로서 구성될 수 있다. 대안적으로, 프로세싱 시스템은 뉴런 모델들 및 설명된 신경 시스템들의 모델들을 구현하기 위한 하나 이상의 뉴로모픽 프로세서(neuromorphic processor)들을 포함할 수 있다. 또 다른 대안으로서, 프로세싱 시스템은 프로세서, 버스 인터페이스, 사용자 인터페이스, 지원 회로부, 및 단일 칩 내로 통합된 머신-판독가능 매체들의 적어도 부분을 갖는 ASIC(application specific integrated circuit)으로, 또는 하나 이상의 FPGA(field programmable gate array)들, PLD(programmable logic device)들, 제어기들, 상태 머신들, 게이팅된 로직, 개별 하드웨어 컴포넌트들, 또는 임의의 다른 적당한 회로부, 또는 이 개시내용의 전반에 걸쳐 설명된 다양한 기능성을 수행할 수 있는 회로들의 임의의 조합으로 구현될 수 있다. 본 기술분야에서의 통상의 기술자들은 특정한 애플리케이션 및 전체적인 시스템에 부과된 전체적인 설계 제약들에 따라 프로세싱 시스템을 위한 설명된 기능성을 어떻게 최상으로 구현할 것인지를 인식할 것이다.

[0114] 머신-판독가능 매체들은 다수의 소프트웨어 모듈들을 포함할 수 있다. 소프트웨어 모듈들은, 프로세서에 의해 실행될 때, 프로세싱 시스템으로 하여금, 다양한 기능들을 수행하게 하는 명령들을 포함한다. 소프트웨어 모듈들은 송신 모듈 및 수신 모듈을 포함할 수 있다. 각각의 소프트웨어 모듈은 단일 저장 디바이스에서 상주할 수 있거나, 다수의 저장 디바이스들에 걸쳐 분산될 수 있다. 예로서, 소프트웨어 모듈은 트리거링 이벤트가 발생할 때에 하드 드라이브로부터 RAM으로 로딩될 수 있다. 소프트웨어 모듈의 실행 동안에, 프로세서는 액세스 속도를 증가시키기 위하여 명령들의 일부를 캐시로 로딩할 수 있다. 그 다음으로, 하나 이상의 캐시 라인들은 프로세서에 의한 실행을 위하여 일반적인 레지스터 파일로 로딩될 수 있다. 이하의 소프트웨어 모듈의 기능성을 지칭할 때, 이러한 기능성은 그 소프트웨어 모듈로부터의 명령들을 실행할 때에 프로세서에 의해 구현된다는 것이 이해될 것이다. 게다가, 본 개시내용의 양태들은 프로세서, 컴퓨터, 머신, 또는 이러한 양태들을 구현하는 다른 시스템의 기능화에 대한 개선들로 귀착된다는 것이 인식되어야 한다.

[0115] 소프트웨어로 구현될 경우에, 기능들은 하나 이상의 명령들 또는 코드로서, 컴퓨터-판독가능 매체 상에 저장될 수 있거나, 컴퓨터-판독가능 매체 상에서 송신될 수 있다. 컴퓨터-판독가능 매체들은 하나의 장소에서 또 다른 장소로의 컴퓨터 프로그램의 전달을 용이하게 하는 임의의 매체를 포함하는, 컴퓨터 저장 매체들 및 통신 매체들의 둘 모두를 포함한다. 저장 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수 있다. 제한이 아닌 예로서, 이러한 컴퓨터-판독가능 매체는 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 스토리지, 자기 디스크 스토리지 또는 다른 자기 저장 디바이스들, 또는 명령들 또는 데이터 구조들의 형태로 희망된 프로그램 코드를 전달하거나 저장하기 위하여 이용될 수 있으며 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 추가적으로, 임의의 접속은 컴퓨터-판독가능 매체로 적절하게 칭해진다. 예를 들어, 동축 케이블, 광섬유 케이블, 트위스트 페어(twisted pair), DSL(digital subscriber line), 또는 무선 기술들 예컨대, IR(infrared), 라디오(radio), 및 마이크로파(microwave)를 이용하여, 소프트웨어가 웹사이트, 서버, 또는 다른 원격 소스로부터 송신되는 경우에, 동축 케이블, 광섬유 케이블, 트위스트 페어, DSL, 또는 무선 기술들 예컨대, 적외선, 라디오, 및 마이크로파는 매체의 정의 내에 포함된다. 본원에서 이용된 바와 같은 디스크(disk) 및 디스크(disc)는 CD(compact disc), 레이저 디스크(laser disc), 광학 디스크(optical disc), DVD(digital versatile disc), 플로피 디스크(floppy disk) 및 BLu-ray® 디스크(disc)를 포함하고, 여기서, 디스크(disk)들은 통상적으로 데이터를 자기적으로 재생하는 반면, 디스크(disc)들은 데이터를 레이저들로 광학적으로 재생한다. 이에 따라, 일부 양태들에서, 컴퓨터-판독가능 매체들은 비-일시적 컴퓨터-판독가능 매체들(예컨대, 유형적(tangible) 매체들)을 포함할 수 있다. 추가적으로, 다른 양태들에 대하여, 컴퓨터-판독가능 매체들은 일시적 컴퓨터-판독가능 매체들(예컨대, 신호)을 포함할 수 있다. 상기한 것의 조합들은 또한, 컴퓨터-판독가능 매체들의 범위 내에 포함되어야 한다.

[0116] 이에 따라, 어떤 양태들은 제시된 동작들을 수행하기 위한 컴퓨터 프로그램 제품을 포함할 수 있다. 예를 들어, 이러한 컴퓨터 프로그램 제품은 명령들을 그 위에 저장한(및/또는 인코딩한) 컴퓨터-판독가능 매체를 포함할 수 있고, 명령들은 설명된 동작들을 수행하기 위하여 하나 이상의 프로세서들에 의해 실행가능할 수 있다. 어떤 양태들에 대하여, 컴퓨터 프로그램 제품은 패키징 재료를 포함할 수 있다.

[0117] 추가로, 설명된 방법들 및 기법들을 수행하기 위한 모듈들 및/또는 다른 적절한 수단은 적용가능한 바와 같은 사용자 단말 및/또는 기지국에 의해 다운로딩될 수 있고 및/또는 이와 다르게 획득될 수 있다는 것이 인식되어야 한다. 예를 들어, 이러한 디바이스는 설명된 방법들을 수행하기 위한 수단의 전달을 용이하게 하기 위하여 서버에 결합될 수 있다. 대안적으로, 설명된 다양한 방법들은 저장 수단(예컨대, RAM, ROM, 물리적 저장 매체 예컨대, CD(compact disc) 또는 플로피 디스크 등)을 통해 제공될 수 있어서, 사용자 단말 및/또는 기지국은 저장 수단을 디바이스에 결합하거나 제공할 시에 다양한 방법들을 획득할 수 있다. 또한, 설명된 방법들 및 기법들을 디바이스에 제공하기 위한 임의의 다른 적당한 기법이 사용될 수 있다.

[0118] 청구항들은 위에서 예시된 정확한 구성 및 컴포넌트들로 제한되지 않는다는 것이 이해되어야 한다. 다양한 수정들, 변화들 및 변경들은 청구항들의 범위로부터 이탈하지 않으면서, 설명된 방법들 및 장치의 배열, 동작, 및 방법들의 세부사항들에서 행해질 수 있다.

Claims

컴퓨터-구현(computer-implemented) 방법으로서,
입력 시퀀스를 수신하는 단계;
상기 입력 시퀀스로부터 특징(feature)들의 세트를 추출하는 단계;
상기 추출된 특징들에 기초하여 상기 입력 시퀀스에 대한 주파수 분포를 결정하는 단계;
상기 주파수 분포에 대해 역 고속 푸리에 변환(inverse fast Fourier transformation)을 수행함으로써 상기 입력 시퀀스에 대한 시간 도메인 정보를 복원하는 단계;
상기 복원된 시간 도메인 정보를 디코딩함으로써 상기 입력 시퀀스에 대한 데이터를 증강하는 단계; 및
상기 증강된 데이터에 기초하여 상기 입력 시퀀스를 분류하는 단계를 포함하는, 컴퓨터-구현 방법.
제1 항에 있어서,
전체 입력 시퀀스가 복원되는, 컴퓨터-구현 방법.
제2 항에 있어서,
상기 전체 입력 시퀀스는 상기 입력 시퀀스에 대한 평균 샘플 드롭핑 비율(average sample dropping ratio)에 적어도 부분적으로 기초하여 복원되는, 컴퓨터-구현 방법.
제1 항에 있어서,
상기 입력 시퀀스의 순서를 복원하는 단계를 더 포함하는, 컴퓨터-구현 방법.
제1 항에 있어서,
상기 입력 시퀀스는 레인지-도플러 이미지(range-Doppler image)들의 시퀀스를 포함하는, 컴퓨터-구현 방법.
제5 항에 있어서,
상기 레인지-도플러 이미지들은 하나 이상의 손 제스처들에 대응하는, 컴퓨터-구현 방법.
제1 항에 있어서,
상기 입력 시퀀스의 사이클의 길이를 결정하는 단계를 더 포함하는, 컴퓨터-구현 방법.
제1 항에 있어서,
상기 입력 시퀀스로부터 적어도 하나의 잡음 부분을 추출하는 단계를 더 포함하는, 컴퓨터-구현 방법.
컴퓨터-구현 방법으로서,
하나 이상의 모션 부분들 및 하나 이상의 잡음 부분들을 포함하는 시퀀스를 수신하는 단계;
상기 시퀀스를 표현하는 특징들을 추출하는 단계;
ANN(artificial neural network)을 통해 상기 잡음 부분들 중의 하나 이상을 식별하는 단계 ― 상기 ANN은 상기 추출된 특징들에 기초하여 잡음을 식별하도록 훈련됨 ―; 및
상기 시퀀스의 상기 식별된 잡음 부분들을 제거하는 단계를 포함하는, 컴퓨터-구현 방법.
제9 항에 있어서,
상기 시퀀스를 다수의 시퀀스 세그먼트들로 세그먼트화하는 단계; 및
각각의 시퀀스 세그먼트가 상기 잡음을 포함하는지 여부의 예측을 결정하는 단계를 더 포함하는, 컴퓨터-구현 방법.
제10 항에 있어서,
상기 다수의 시퀀스 세그먼트들은 사전정의된 길이를 가지는 슬라이딩 윈도우(sliding window)에 따라 정의되는, 컴퓨터-구현 방법.
제10 항에 있어서,
사전정의된 길이는 제스처의 연속 지속기간(continuous duration) 또는 입력 시퀀스의 샘플링 레이트 중의 하나 이상에 비례적인, 컴퓨터-구현 방법.
제10 항에 있어서,
상이한 예측을 갖는 인접한 윈도우들과의 중첩된 부분에 대하여, 경계 결정은 상기 중첩된 부분의 절반 부분에 기초하는, 컴퓨터-구현 방법.
제10 항에 있어서,
상이한 예측을 갖는 인접한 윈도우들과의 중첩된 부분에 대하여, 상기 중첩된 부분은 잡음으로서 식별되는, 컴퓨터-구현 방법.
장치로서,
메모리; 및
상기 메모리에 결합된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는,
입력 시퀀스를 수신하도록;
상기 입력 시퀀스로부터 특징들의 세트를 추출하도록;
상기 추출된 특징들에 기초하여 상기 입력 시퀀스에 대한 주파수 분포를 결정하도록;
상기 주파수 분포에 대해 역 고속 푸리에 변환을 수행함으로써 상기 입력 시퀀스에 대한 시간 도메인 정보를 복원하도록;
상기 복원된 시간 도메인 정보를 디코딩함으로써 상기 입력 시퀀스에 대한 데이터를 증강하도록; 그리고
상기 증강된 데이터에 기초하여 상기 입력 시퀀스를 분류하도록 구성되는, 장치.
제15 항에 있어서,
상기 적어도 하나의 프로세서는 전체 입력 시퀀스를 복원하도록 추가로 구성되는, 장치.
제16 항에 있어서,
상기 적어도 하나의 프로세서는 상기 입력 시퀀스에 대한 평균 샘플 드롭핑 비율에 적어도 부분적으로 기초하여 전체 입력 시퀀스를 복원하도록 추가로 구성되는, 장치.
제15 항에 있어서,
상기 적어도 하나의 프로세서는 상기 입력 시퀀스의 순서를 복원하도록 추가로 구성되는, 장치.
제15 항에 있어서,
상기 입력 시퀀스는 레인지-도플러 이미지들의 시퀀스를 포함하는, 장치.
제19 항에 있어서,
상기 레인지-도플러 이미지들은 하나 이상의 손 제스처들에 대응하는, 장치.
제15 항에 있어서,
상기 적어도 하나의 프로세서는 상기 입력 시퀀스의 사이클의 길이를 결정하도록 추가로 구성되는, 장치.
제15 항에 있어서,
상기 적어도 하나의 프로세서는 상기 입력 시퀀스로부터 적어도 하나의 잡음 부분을 추출하도록 추가로 구성되는, 장치.
장치로서,
메모리; 및
상기 메모리에 결합된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는,
하나 이상의 모션 부분들 및 하나 이상의 잡음 부분들을 포함하는 시퀀스를 수신하도록;
상기 시퀀스를 표현하는 특징들을 추출하도록;
ANN(artificial neural network)을 통해 상기 잡음 부분들 중의 하나 이상을 식별하도록 ― 상기 ANN은 상기 추출된 특징들에 기초하여 잡음을 식별하도록 훈련됨 ―; 그리고
상기 시퀀스의 상기 식별된 잡음 부분들을 제거하도록 구성되는, 장치.
제23 항에 있어서,
상기 적어도 하나의 프로세서는,
상기 시퀀스를 다수의 시퀀스 세그먼트들로 세그먼트화하도록; 그리고
각각의 시퀀스 세그먼트가 상기 잡음을 포함하는지 여부의 예측을 결정하도록 추가로 구성되는, 장치.
제24 항에 있어서,
상기 적어도 하나의 프로세서는 사전정의된 길이를 가지는 슬라이딩 윈도우에 따라 상기 다수의 시퀀스 세그먼트들을 정의하도록 추가로 구성되는, 장치.
제24 항에 있어서,
사전정의된 길이는 제스처의 연속 지속기간 또는 입력 시퀀스의 샘플링 레이트 중의 하나 이상에 비례적인, 장치.
제24 항에 있어서,
상기 적어도 하나의 프로세서는 상이한 예측을 갖는 인접한 윈도우들과의 중첩된 부분에 대하여, 상기 중첩된 부분의 절반 부분에 기초하여 경계를 결정하도록 추가로 구성되는, 장치.
제24 항에 있어서,
상기 적어도 하나의 프로세서는 상이한 예측을 갖는 인접한 윈도우들과의 중첩된 부분에 대하여, 상기 중첩된 부분을 잡음으로서 식별하도록 추가로 구성되는, 장치.