KR20210063341A

KR20210063341A - 음향 신호를 사용한 손 운동의 추적에 의한 기기의 제어

Info

Publication number: KR20210063341A
Application number: KR1020217008565A
Authority: KR
Inventors: 리리 치우; 웬구앙 마오
Original assignee: 보드 오브 리전츠, 더 유니버시티 오브 텍사스 시스템
Priority date: 2018-08-23
Filing date: 2019-08-22
Publication date: 2021-06-01
Also published as: EP3841399A1; JP2022511271A; US11474194B2; CN113287032A; EP3841399A4; SG11202101826WA; WO2020041563A1; US20210199751A1

Abstract

손 또는 다른 객체의 운동을 추적함으로써 기기를 제어하는 장치, 방법, 및 컴퓨터 프로그램 제품. 기기는 음향 신호를 수신한다. 수신된 신호의 적어도 일부가, 그 주파수가 반사된 신호의 도래각(AoA) 및 거리에 비례하는 2차원 정현파로 변환된다. AoA-거리 프로파일이 2차원 정현파의 주파수를 평가함으로써 객체로부터 수신된 신호에 비례하여 도출된다. 이어서 AoA-거리 쌍이 AoA-거리 프로파일로부터 도출된다, 객체의 현재 위치가 추산된 AoA-거리 쌍을 기반으로 판단된다. 기기는 이어서 객체의 이전 및 현재 위치들을 기반으로 사용자가 명령을 수행하려 운동한 것을 검출함에 따라 명령을 수행한다.

Description

음향 신호를 사용한 손 운동의 추적에 의한 기기의 제어

관련 출원들과의 상호 참조

본원은 2018년 8월 23일자 "음향 신호를 사용한 손 운동의 추적에 의한 기기의 제어(Controlling a Device by Tracking Movement of Hand Using Acoustic Signals)"라는 명칭의 미국특허가출원 제62/722,110호에 대한 우선권을 주장하는 바, 이는 그 전체로서 이 명세서에 참고로 포함된다.

기술분야

본 발명은 일반적으로 기기의 제어에 관한 것으로, 더 구체적으로는 음향 신호를 사용하여 손 등의 객체의 운동의 추적에 의한 (예를 들어 스마트 스피커 등의) 기기의 제어에 관한 것이다.

스마트 스피커 등의 스마트 기기는 일반적으로 어느 정도 상호작용적 및 자율적으로 작동될 수 있는 다른 기기 또는 네트워크들에 연결되는 전자 기기이다. 예를 들어, 스마트 스피커는 일종의 무선 스피커로, 상호작용 동작(interactive action)들과, 하나의 "핫워드(hot word)"(또는 몇 개의 "핫워드들")의 도움으로 핸즈프리 기동(activation)을 제공하는 통합된 가상 비서(virtual assistant)(인공 지능) 기능을 갖는 음성 명령 기기(voice command device)이다. 이 스마트 스피커들의 일부는 또한 와이파이®, 블루투스® 및 다른 무선 프로토콜 표준을 사용하여 가정 자동화 기기들을 제어 하는 등 음성 재생 이상으로 사용을 확대한다. 이는 다수의 서비스들과 플랫폼들 간의 호환성, 망형 네트워크(mesh networking)를 통한 직접 연결(peer-to-peer connection), 가상 비서, 및 다른 것들을 포함할 수 있지만, 이에 한정되는 것은 아니다, 각 기기는 앱(application) 또는 가정 자동화 소프트웨어를 통해 시동(launch) 또는 제어되는 그 자체의 지정된 인터페이스 및 수단들(features)을 내장할 수 있다. 일부 스마트 스피커들은 또한 사용자에게 시각적 응답을 보이도록 화면을 포함한다.

현재, 스마트 스피커 등의 스마트 기기들은 음성 명령을 통해 제어된다. 그러나 음성 기반 제어가 언제나 적절한 것은 아니다. 예를 들어 시끄러운 환경에서는 간섭 때문에 음성 제어가 현저히 열화된다. 또한 다른 언어들을 말하는 성원들을 갖는 가족을 위해 복수의 언어를 이해하고 사용되는 언어를 자동으로 식별할 수 있는 스마트 스피커를 개발하는 것은 매우 어렵고 비용이 높다. 뿐만 아니라, 화면으로 상호작용하거나 여러 메뉴 옵션들로부터 선택하는 등의 몇 가지 사용 시나리오(usage scenario)들에서는 음성 기반 인터페이스와 상호작용하는 것이 번거롭다.

이에 비해, 동작 기반(motion-based) 제어가 이러한 시나리오들에 효과적(appealing)이어서 음성 기반 제어를 잘 보완한다.

불행히도, 현재로서는 독립적이건 음성 기반 제어와 결합하건 손 동작 등의 동작을 사용하여 스마트 스피커 등의 스마트 기기를 제어할 수단이 없다.

본 발명의 한 실시예에서, 객체(object)의 운동을 추적하는 방법은 기기 내의 하나 이상의 마이크들을 사용하여 객체로부터의 음향 신호들을 수신(receive)하는 단계를 포함한다. 방법은 수신된 음향 신호들의 적어도 일부를 그 주파수가 객체의 도래각(angle-of-arrival) 및 전파 거리(propagation distance)에 비례하는 2차원 정현파(sinusoid)들로 변환(transform)하는 단계를 더 포함한다. 방법은 또한 2차원 정현파들의 주파수들을 평가(evaluate)함으로써 객체로부터 수신된 신호들에 기반한 도래각-거리 프로파일(profile)을 도출(derive)하는 단계를 더 포함한다, 뿐만 아니라, 방법은 도래각-거리 프로파일에 기반하여 도래각 및 거리를 추산(estimate)하는 단계를 포함한다. 추가적으로, 방법은 추산된 도래각 및 추산된 거리에 기반하여 객체의 현재 위치를 판단(determine)하는 단계를 더 포함한다.

전술한 방법의 실시예의 다른 형태들은 기기 내 및 컴퓨터 내의 프로그램 제품(product)이 된다.

본 발명의 다른 실시예에서, 기기를 제어하는 방법은 기기 내의 하나 이상의 마이크들을 사용하여 사용자의 객체로부터 전송(transmit)되는 음향 신호를 수신하는 단계를 포함한다, 방법은 수신된 신호들의 적어도 일부를 그 주파수가 수신된 신호의 도래각 및 전파 거리에 비례하는 2차원 정현파들로 변환하는 단계를 더 포함한다. 방법은 또한 2차원 정현파들의 주파수들을 평가함으로써 객체로부터 수신된 신호들에 기반하는 도래각-거리 프로파일을 도출하는 단계를 포함한다. 뿐만 아니라, 방법은 도래각-거리 프로파일로부터 도래각-거리 쌍(pair)을 평가하는 단계를 포함한다. 추가적으로, 방법은 평가된 도래각-거리 쌍에 기반하여 객체의 현재 위치를 판단하는 단계를 포함한다. 또한, 방법은 객체의 이전 및 현재 위치들에 기반하여 사용자가 명령을 수행(perform)하려 운동했는지를 판단한다. 방법은 또한 사용자가 명령을 수행하려 운동했다는 판단에 따라(in response to) 기기 상에 명령을 수행하는 단계를 더 포함한다.

전술한 방법의 실시예의 다른 형태들은 기기 내 및 컴퓨터 내의 프로그램 제품이 된다.

이하의 본 발명의 상세한 설명이 더 잘 이해되도록 이상에서 본 발명의 하나 이상의 실시예들의 특징과 기술적 이점들을 대략 개괄했다. 본 발명의 청구항들의 주제가 될 수 있는 본 발명의 추가적 특징들 및 추가적 이점들을 이하에 상세히 설명할 것이다.

이상의 상세한 설명을 다음 도면들과 연계하여 고려하면 본 발명을 더 잘 이해할 수 있을 것인데, 도면에서:
도 1은 본 발명의 한 실시예에 따른 시스템을 보이는 도면;
도 2는 본 발명의 한 실시예에 따른, 손의 운동에 의해 제어되는 기기의 하드웨어 구성을 보이는 도면;
도 3a-3b는 본 발명의 한 실시예에 따른, 사용자의 손으로부터의 동작을 사용하여 스마트 기기(예를 들어 스마트 스피커)를 제어하는 방법의 흐름도;
도 4는 본 발명의 한 실시예에 따른, 기기에 의해 수집되는 반사파들의 종류를 보이는 도면;
도 5는 본 발명의 한 실시예에 따른, 도래각과 전파거리를 보이는 도면;
도 6은 본 발명의 한 실시예에 따른, 방정식 3을 사용하여 생성된 2차원(2D) 프로파일을 보이는 도면;
도 7a는 본 발명의 한 실시예에 따른, Δ가 2.7 cm이고 λ가 2.1 cm일 때의 모호성을 갖는 예시적 2D 프로파일을 보이는 도면;
도 7b는 본 발명의 한 실시예에 따른, 불균일 어레이의 사용에 의해 도 7a보다 모호성을 덜 갖는 예시적 2D 프로파일을 보이는 도면;
도 8a 및 8b는 본 발명의 한 실시예에 따른, 균일 어레이 경우와 불균일 어레이 경우에 대한 u(0)와 u(θ) 간의 상관성의 플롯;
도 9a는 본 발명의 한 실시예에 따른, 두 처프들 간의 중첩에 따른 정현파 신호의 길이를 보이는 도표;
도 9b는 본 발명의 한 실시예에 따른, 중간 처프를 보이는 도표;
도 10은 본 발명의 한 실시예에 따른, 송신 중첩 처프들을 보이는 도표;
도 11은 본 발명의 한 실시예에 따른, 1D MUSIC 알고리즘과 2D MUSIC 알고리즘을 사용하는 추정 거리의 차이를 보이는 도면;
도 12는 본 발명의 한 실시예에 따른, 도래각(AoA)-거리 프로파일을 도래각 및 거리 추정으로 매핑하는 데 사용되는 순환 신경망(RNN)을 보이는 도면;
도 13은 본 발명의 한 실시예에 따른, RNN에서의 한 스테이지를 보이는 도면;
도 14는 본 발명의 한 실시예에 따른, 방의 도래각(AoA)-거리 프로파일을 보이는 도면;
도 15는 본 발명의 한 실시예에 따른, 1초 동안의 사용자의 손과 몸체에 대한 스파이크들을 보이는 그래프;
도 16은 본 발명의 한 실시예에 따른, 모바일 기기 A가 음향 신호를 방출하고 다른 기기 상의 마이크들이 수신된 신호들에 기반하여 모바일 기기 A의 운동을 추적할 수 있는, 기기 기반 추적을 보이는 도면; 및
도 17은 본 발명의 한 실시예에 따른, 모바일 기기 등의 객체의 운동을 추적하는 데 사용되는 다른 기기 상의 복수의 마이크들을 보이는 도면.

이하에서는 손 동작을 사용하는 스마트 스피커 등의 스마트 기기의 제어에 연계하여 논의하지만, 본 발명의 원리는 손 동작 이외의 몸체 동작의 어떤 형태(예를 들어 머리 동작)를 사용하여 복수의 마이크를 갖는 다른 장치들의 제어에도 적용될 수 있다. 예를 들어, 본 발명의 원리는 복수의 스피커들 및/또는 마이크들을 갖는 스마트폰에도 적용될 수 있다. 당업계에 통상의 기술을 갖는 자라면 본 발명의 원리를 이러한 구현예들에 적용할 수 있을 것이다. 또한 본 발명의 원리를 이러한 구현예들에 적용한 실시예들은 본 발명의 범위 내에 포괄될 것이다.

배경 부분에서 전술한 바와 같이, 현재 스마트 스피커 등의 스마트 기기는 음성 명령을 통해 제어된다. 그러나 음성 기반 제어가 항상 적절한 것은 아니다. 예를 들어, 음성 제어는 간섭 때문에 시끄러운 환경에서는 현저히 열화된다. 또한 성원들이 다른 언어를 구사하는 가족들을 위한 복수 언어들을 이해하고 사용되는 언어를 자동으로 식별할 수 있는 스마트 스피커를 개발하는 것은 어렵고 비용이 높다. 뿐만 아니라, 몇 가지 사용 시나리오들에서, 화면으로 상호작용하거나 많은 메뉴 옵션들로부터 선택하는 등 음성 기반 인터페이스와 상호 작용하는 것은 번거롭다. 이에 비해, 동작 기반 제어가 이런 시나리오들에 효과적(appealing)이어서 음성 기반 제어를 보완한다. 불행하게도, 독립적으로건 음성 기반 제어와 결합하건 손 동작 등의 동작을 사용하여 스마트 스피커 등의 이러한 스마트 기기를 제어할 수단이 현재로서는 존재하지 않는다.

손 동작 등의 동작을 사용하여 스마트 기기를 제어하면 사용자가 기기를 제어할 능력을 크게 향상시킬 수 있을 것이지만, 손 동작의 추적(tracking)은 현저한 어려움을 부과한다. 바람직한 접근은 (i) 낮은 비용, (ii) 기존의 스마트 스피커 하드웨어 상에 용이한 설치(deploy), (iii) 정확하고 높은 신뢰성, 및 (iv) 방 규모(room-scale)의 추적을 지원해야 한다. 이 모든 목표들을 달성하는 것은 특히 어렵다. 본 발명의 원리는 이 명세서에서 "RTrack"으로 지칭되는 신규한 방 규모의 기기 제한 없는(디바이스 프리; device-free) 동작 추적 시스템으로 이 목표들을 달성할 수단을 제공한다.

한 실시예에서, 다음 이유들로 음향 신호가 추적에 사용된다. 첫째, 스마트 스피커의 인기가 급격히 확산되고 있다. 이들은 복수의 마이크들과 스피커들을 구비하고 있다. 이 구성을 효과적으로 이용하는 것은 추적 성능을 현저히 강화할 뿐 아니라 이를 쉽게 설치할 수 있게 할 수 있다. 둘째, 음성 기반(audio-based) 추적은 그 낮은 신호 전파 속도 때문에 높은 정확도를 제공한다. 셋째, 음향 신호의 샘플링 속도(sampling rate)가 낮아 모든 처리가 가전제품((commodity) 하드웨어 상에서 작동하는 소프트웨어를 사용하여 실시간으로 이뤄질 수 있다. 그러면 신호의 전송과 높은 정확도를 얻기 위한 알고리즘들의 처리를 자유로이 맞춤 제작(customize)할 수 있게 된다.

사용자의 손 등의 객체를 추적하기 위해, 본 발명의 여러 실시예들은 2D MUSIC 알고리즘을 사용하거나 또는 1D MUSIC 알고리즘과 2D MUSIC 알고리즘 모두를 사용함으로써 반사된 신호에 기반하여 거리(반사된 신호들의 전파 거리)와 도래각(angle-of-arrival; AoA)들을 결합하여 추정("결합 추정(joint estimation)")한다. 이 명세서에 사용된 바와 같은 "도래각(angle-of-arrival)"은 더 자세히 후술할 바와 같이 반사된 신호가 스마트 스피커 등의 기기에 도달하는 각도를 지칭한다.

더 자세히 후술할 바와 같이, 결합 추정은 다음과 같은 이유로 방 규모의 기기 제한 없는 추적에 유망한 것으로 나타난다. 첫째, 방 규모의 추적에서 손 반사파(reflection)로부터의 신호 대 잡음비(signal-to-noise ratio; SNR)가 -20dB 미만이 될 수 있는데, 이는 추적 정확도를 현저히 열화시킨다. 결합 추정은 센서들의 유효 수(effective number)를 증가시킴으로써 정확도를 향상시킨다. 둘째, 방 규모 추적에서는 배경 반사파가 손 반사파를 지배하여 상당한 모호성(ambiguity)을 도입시킬 수 있다. 거리(반사 신호들의 전파 거리)와 AoA를 별도로 추적하고자 했다면 전체 모호도(number of ambiguities)는 가능한 거리와 AoA들의 곱(product)이 된다. 이에 비해 결합 추정은 2차원(2D) 프로파일에서 거리와 AoA의 모든 조합들이 이뤄지는 것이 아니므로 모호도를 효율적으로 저감시킬 수 있다.

추적 성능을 더 강화시키기 위해, 본 발명의 실시예들은 다음 일련의 기법들을 구현할 수 있다: (i) 모호성을 증가시키지 않고 정확도를 향상시키도록 불균일한(non-uniform) 마이크 배치, (ii) 결합 추정에 사용될 음향 샘플들의 수를 증가시키고 대역폭(bandwidth) 또는 지연(latency)을 증가시키지 않고 정확성을 향상시키도록 중첩된 전송 신호들의 사용, (iii) 실시간 추적을 지원하도록 연산의 가속(speeding up), 및 (iv) 초기 손 위치를 신뢰성 높게 판단하도록 간단하지만 효율적인 초기화(initialization) 알고리즘.

더 상세히 후술될 바와 같이, 본 발명 시스템은 복수의 사용자들을 동시에 추적할 수 있다.

이하의 설명에서는, 본 발명의 완전한 이해를 제공하도록 여러 가지 구체적 상세들이 제시된다. 그러나 당업계에 통상의 기술을 갖는 자에게는 이러한 구체적 상세들이 없이도 본 발명을 구현할 수 있은 것이 명확할 것이다. 대개의 경우, 타이밍(timing) 조건들을 고려하는 상세들 등은, 이러한 상세가 본 발명의 완전한 이해를 얻는 데 불필요하고 관련 분야에 통상의 기술을 가진 자의 기술 내에 포괄되는 한 생략되었다.

이제 도면들을 구체적으로 참조하면, 도 1은 본 발명의 한 실시예에 따라 구성된 시스템(100)을 도시한다. 도 1에서, 시스템(100)은 사용자(103)의 손(102)으로 제어될 스마트 기기(예를 들어 스마트 스피커, 스마트폰) 등의 기기(101)를 포함한다. 기기(101)는 스피커(104)와 (도 1에서 각각 "마이크 A"와 마이크 B"로 식별되는) 마이크(105A-105B)들을 포함하는 어떤 스마트 기기일 수 있다. 마이크(105A-105B)들은 집합적으로 또는 개별적으로 각각 마이크(105)들 또는 마이크(105)로 지칭될 수 있다. 도 1은 기기(101)가 단일한 스피커(104)와 두 마이크(105)들을 포함하는 것으로 도시하고 있지만, 본 발명의 기기(101)가 한 스피커(104)와 두 마이크(105)들만을 포함하는 것으로 범위가 한정되어서는 안 된다. 오히려, 기기(101)는 하나 이상의 스피커(104)들과 하나 이상의 마이크(105)들을 포함할 수 있다. 또한 한 실시예에서 기기(101)의 복수의 스피커(104)들을 이용할 수 있다. 예를 들어, 기기(101)의 한 실시예는 두 마이크(105)들과 함께 두 스피커(104)들을 포함하는 기기(101)의 한 실시예는 후술할 네 마이크(105)들과 함께 단일한 스피커(104)를 포함하는 기기(101)와, 기기(101)의 제어에서 동일한 결과를 달성할 수 있다. 또한 한 실시예에서, 스피커(104)들 및/또는 마이크(105)들은 3차원 공간에서 z 축을 따라 위치될 수 있다. 기기(101)의 일부 예들은 스마트 스피커, 스마트폰, 스마트 TV 및 스마트 가전(smart appliance)들을 포함하지만 이에 한정되지는 않는다.

기기(101)는 그 스피커(104)를 통해 인간에게 가청이건 불가청이건 음향 신호를 방출하도록 구성된다. 또한 기기(101)는 사용자의 손(102)에 반사된 음향 신호를 마이크(105)로 수신하도록 구성된다. 이 반사된 음향 신호는 후술하는 바와 같이 기기(101)에 의해 손(102)의 운동을 지속적으로 추적하는 데 사용된다. 손(102)의 운동을 추적함으로써 기기(101)는 사용자가 후술하는 바와 같이 "음악을 틀어(play music)" 또는 "날씨를 알려줘(tell me the weather)" 등 기기(101) 상에서 실행될 명령을 손짓(gesturing)하고 있는지를 판단할 수 있다. 기기(101)의 한 실시예의 하드웨어 구성의 더 상세한 설명은 도 2에 연계하여 이하에 제공된다.

이제 도 2를 참조하면, 도 2는 기기(101)(도 1)의 한 예의 기능 블록도이다. 이 예에서 기기(101)는 프로세서(201)를 포함한다. 프로세서(201)는 하나 이상의 주문형집적회로(application specific integrated circuit; ASIC), 디지털 신호 처리기(digital signal processor; DSP), 디지털 신호 처리장치(digital signal processing device; DSPD), 프로그램 가능한 논리소자(programmable logic device; PLD), 현장 프로그램 가능한 게이트 어레이(field programmable gate array; FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로프로세서, 전자 장치, 전자 유닛들, 또는 그 조합을 포함할 수 있다.

프로세서(201)는 하나 이상의 인터페이스들로 수신된 데이터를 저장하고 처리하여 이 데이터를 메모리(202)에 저장하도록 구성된다. 메모리(202)는 프로세서(201) 내부 또는 프로세서(201) 외부에 구현될 수 있다. 이 명세서에 사용된 메모리라는 용어는 모든(any) 종류의 장기, 단기, 휘발성, 비휘발성, 또는 다른 메모리를 지칭하며, 어떤 특정한 종류의 메모리 또는 메모리의 수, 또는 메모리가 저장되는 매체(medium)의 종류에 한정되지 않는다. 한 실시예에서, 메모리(202)는 기기(101)가 음향 신호를 사용하여 손(102)의 운동을 지속적으로 추적할 수 있게 함으로써 손(102)(도 1)의 운동을 사용해 기기(101)를 제어하는 프로그램 등의 앱(application)을 저장한다. 한 실시예에서, 프로세서(201)는 메모리(202)에 저장된 앱들의 프로그램 명령(program instruction)들을 실행하도록 구성된다.

또한 스피커(104)와 마이크(105A, 105B)들은 사용자 인터페이스 어댑터(203)를 통해 기기(101)에 연결된다. 스피커(104)는 여러 주파수들로 (인간에게 가청 또는 불가청인) 음향 신호를 생성하도록 구성된다. 또한 마이크(105A, 105B)들은 사용자의 손(102)에 반사된 음향 신호를 수신하도록 구성된다.

도 2의 기기(101)는 도 2에 묘사된 요소들로 범위가 한정되지 않으며 도 2에 도시된 것보다 더 적거나 많은 요소들을 포함할 수 있다.

본 발명은 시스템, 장치, 방법, 및/또는 컴퓨터 프로그램 제품이 될 수 있다. 컴퓨터 프로그램 제품은 프로세서가 본 발명의 국면(aspect)들을 수행하도록 유발하는 컴퓨터 판독 가능한 프로그램 명령을 거기에 갖는 컴퓨터 판독 가능한 저장 매체(또는 매체들)를 포함할 수 있다.

컴퓨터 판독 가능한 저장 매체는 명령 실행 장치에 사용될 명령들을 보유 및 저장할 수 있는 유형의 장치가 될 수 있다. 컴퓨터 판독 가능한 저장 매체는 예를 들어, 전자 저장 장치, 자기 저장 장치, 광학 저장 장치, 전자기 저장 장치, 반도체 저장 장치, 및 이들의 적절한 조합을 포함할 수 있지만 이에 한정되지는 않는다. 컴퓨터 판독 가능한 저장 매체의 더 구체적인 예들의 불완전한(non-exhaustive) 목록은 다음: 휴대용 컴퓨터, 디스켓, 하드 디스크, 랜덤 액세스 메모리(random access memory; RAM), 판독 전용 메모리(read-only memory; ROM), 소거 및 프로그램 가능한 판독 전용 메모리(erasable programmable read-only memory; EPROM 또는 플래시 메모리(Flash memory)), 정적 랜덤 액세스 메모리(static random access memory; SRAM), 휴대용 콤팩트디스크 판독 전용 메모리(compact disc read-only memory; CD-ROM), 디지털 다목적 디스크(digital versatile disk; DVD), 메모리 스틱(memory stick), 플로피 디스크, 거기에 기록된 명령들을 갖는 펀치카드 또는 홈 내의 돌출 구조 등 기계적으로 인코딩된 장치, 및 이상의 어떤 적절한 조합을 포함한다. 이 명세서에 사용된 컴퓨터 판독 가능한 저장 매체는 전파 또는 다른 자유로이 전파되는 전자기파, 도파관(waveguide) 또는 다른 전송 매체를 통해 전파되는 전자기파(예를 들어 광섬유 케이블을 통과하는 광 펄스), 또는 전선을 통해 전송되는 전기 신호 등 일시적 신호(transitory signal) 그 자체로 해석되어서는 안 된다.

이 명세서에 설명된 컴퓨터 판독 가능한 프로그램 명령은 컴퓨터 판독 가능한 저장 매체 또는 외부 컴퓨터 또는 외부 저장 장치로부터 인터넷, 근거리통신망, 광역통신망 및/또는 무선 통신망 등의 네트워크(network)를 통해 개별 연산/처리 장치로 다운로드될 수 있다. 네트워크는 구리 전송 케이블, 광학 전송 섬유, 무선 전송, 라우터(router), 파이어월(firewall), 스위치, 게이트웨이(gateway) 컴퓨터 및/또는 엣지 서버(edge server)들을 포함할 수 있다. 각 연산/처리 장치의 네트워크 어댑터 카드 또는 네트워크 인터페이스는 네트워크로부터 컴퓨터 판독 가능한 프로그램 명령을 수신하여 이 컴퓨터 판독 가능한 프로그램 명령을 개별 연산/처리 장치 내의 컴퓨터 판독 가능한 저장 매체에 저장하도록 전송한다.

본 발명의 작동들을 수행할 컴퓨터 판독 가능한 프로그램 명령은 어셈블러 명령어(assembler instruction), 명령어 집합 구조(instruction-set-architecture; ISA) 명령어, 기계어 명령(machine instruction). 기계 종속 명령어(machine dependent instruction), 마이크로코드(microcode), 펌웨어 명령, 상태 설정 데이터(state-setting data), Smalltalk, C++ 등의 객체 지향 프로그래밍 언어, 및 "C" 프로그래밍 언어 또는 유사한 프로그래밍 언어 등 전통적인 절차적 프로그래밍 언어를 포함하는 하나 이상의 프로그래밍 언어들의 어떤 조합으로 코딩된(written) 소스 코드 또는 오브젝트 코드 중의 하나가 될 수 있다. 컴퓨터 판독 가능한 프로그램 명령은 독립형(stand-alone) 소프트웨어 패키지로 전적으로 사용자의 컴퓨터 상에서, 일부 사용자의 컴퓨터 상에서, 실행되거나, 일부는 사용자 컴퓨터, 일부는 원격 컴퓨터 상에서 실행되거나, 또는 전적으로 원격 컴퓨터 또는 서버 상에서 실행될 수 있다. 후자의 시나리오에서, 원격 컴퓨터는 사용자의 컴퓨터에 근거리통신망(local area network; LAN) 또는 광역통신망(wide area network; WAN)을 포함하는 어떤 종류의 네트워크를 통해 연결되거나, 또는 (예를 들어 인터넷 서비스 제공자(Internet Service Provider)를 사용한 인터넷을 통해) 외부 컴퓨터에 연결이 설정될 수 있다. 일부 실시예들에서, 예를 들어, 프로그래밍 가능 논리 회로(programmable logic circuitry), 현장 프로그래밍 가능한 게이트어레이(field-programmable gate arrays; FPGA), 또는 프로그래밍 가능한 논리 어레이(programmable logic arrays; PLA)를 포함하는 전자 회로는 본 발명의 국면(aspect)들을 수행하기 위해 전자 회로를 맞춤 구성하도록(personalize) 컴퓨터 판독 가능한 프로그램 명령의 상태 정보를 사용하여 컴퓨터 판독 가능한 프로그램을 실행할 수 있다.

본 발명의 여러 국면들은 이 명세서에서 본 발명의 실시예들에 따른 방법, 장치(시스템) 및 컴퓨터 프로그램 제품의 흐름도 도면 및/또는 블록도를 참조하여 설명된다. 흐름도 도면 및/또는 블록도의 각 블록, 및 흐름도 도면 및/또는 블록도내의 블록들의 조합은 컴퓨터 판독 가능한 프로그램 명령들로 구현될 수 있는 것으로 이해되어야 할 것이다.

이 컴퓨터 판독 가능한 프로그램 명령들은 범용 컴퓨터, 전용 컴퓨터, 또는 다른 프로그래밍 가능한 데이터 처리 장치에 제공되어 컴퓨터 또는 기계를 산출하는 다른 프로그래밍 가능한 데이터 처리 장치를 통해 실행될 때 이 명령들이 흐름도 및/또는 블록도의 블록 또는 블록들에 규정된 기능/동작들을 구현하는 수단을 생성할 수 있다. 이 컴퓨터 판독 가능한 프로그램 명령들은 또한 컴퓨터, 프로그래밍 가능한 데이터 처리 장치 및/또는 특정한 방식으로 기능하는 다른 장치들을 대상으로 하는(direct) 컴퓨터 판독 가능한 저장 매체에 저장되어, 거기에 저장된 명령들은 갖는 컴퓨터 판독 가능한 저장 매체가 흐름도 및/또는 블록도의 블록 또는 블록들에 규정된 기능/동작들의 국면들을 구현하는 명령들을 포함하는 제품(article of manufacture)을 구비하도록 할 수 있다.

컴퓨터 판독 가능한 프로그램 명령들은 또한 컴퓨터, 다른 프로그래밍 가능한 데이터 처리 장치, 또는 일련의 작동 단계들이 컴퓨터 상에서 수행되도록 유발하는 다른 장치, 다른 프로그래밍 가능한 장치 또는 컴퓨터로 구현되는 프로세스를 산출하는 다른 장치 상에 로딩되어(loaded), 컴퓨터, 다른 프로그래밍 가능한 장치, 또는 다른 장치 상에서 실행되는 명령들이 흐름도 및/또는 블록도의 블록 또는 블록들에 규정된 기능/동작들을 구현하도록 수 있다.

도면들의 흐름도 및 블록도들은 본 발명의 여러 가지 실시예들에 따른 시스템, 방법, 및 컴퓨터 프로그램 제품의 가능한 구현들의 구조(architecture), 기능, 및 작동을 보인다. 이 점에 있어서, 흐름도 또는 블록도들의 각 블록은 규정된 논리적 기능(들)을 구현하는 하나 이상의 실행 가능한 명령들을 포함하는, 모듈, 세그먼트, 또는 명령의 부분을 나타낼 수 있다. 일부 대체적인 구현예들에서, 블록에 표시된 기능들은 도면들에 표시된 순서와 달리 이뤄질 수 있다. 예를 들어, 순차적으로 도시된 두 블록들은 실제 거의 동시에 실행되거나, 또는 블록들은 관련된 기능에 따라 때로 역순으로 실행될 수도 있다. 또한 블록도 및/또는 흐름도 도면의 각 블록들과 블록도 및/또는 흐름도 도면의 각 블록들의 조합들은 규정된 기능 또는 동작들을 수행하거나 특수 목적 하드웨어 및 컴퓨터 명령들의 조합을 수행하는 특수 목적 하드웨어 기반 시스템들로도 구현될 수 있음에 주목해야 할 것이다.

발명의 배경에서 전술한 바와 같이, 현재 스마트 스피커 등의 스마트 기기들은 음성 명령을 통해 제어된다. 그러나 음성 기반 제어가 언제나 적절한 것은 아니다. 예를 들어 시끄러운 환경에서는 간섭 때문에 음성 제어가 현저히 열화된다. 또한 다른 언어들을 말하는 성원들을 갖는 가족을 위해 복수의 언어를 이해하고 사용되는 언어를 자동으로 식별할 수 있는 스마트 스피커를 개발하는 것은 매우 어렵고 비용이 높다, 뿐만 아니라, 화면으로 상호작용하거나 여러 메뉴 옵션들로부터 선택하는 등의 몇 가지 사용 시나리오들에서는 음성 기반 인터페이스와 상호작용하는 것이 번거롭다. 이에 비해, 동작 기반 제어가 이러한 시나리오들에 효과적이어서 음성 기반 제어를 잘 보완한다. 불행히도, 현재로서는 독립적이건 음성 기반 제어와 결합하건 손 동작 등의 동작을 사용하여 스마트 스피커 등의 스마트 기기를 제어할 수단이 없다.

본 발명의 원리들은 도 3A-3B, 4-6, 7A-7B, 8A-8B, 9A-9B 및 10-17에 연계하여 후술하는 바와 같이, 독립적 또는 음성 기반 제어와 결합하는 동작을 사용하여 스마트 스피커 등의 스마트 기기를 제어하는 수단을 제공한다.

이하에서는 제어 기기(101)가 고정식(stationary)인 기기(101)인 것으로 논의하지만, (스피커(104)와 마이크(105)를 포함하는) 기기(101)는 반사를 수집하는 데 더 우수한 위치에 위치시키는 등 이동 가능하다.

도 3a-3b는 본 발명의 한 실시예에 따라 사용자(103)(도 1)의 손(102)(도 1)으로부터의 동작을 사용하여 (예를 들어 스마트 스피커 등의) 스마트 기기를 제어하는 방법의 흐름도이다.

도 1-2를 연계하여 도 3a를 참조하면, 단계 301에서 기기(101)가 스피커(104)를 사용하여 사용자(103)에게 음향 신호를 전송한다.

단계 302에서, 기기(101)가 마이크(105)를 사용하여 전송된 신호의 반사를 수집하는데, 도 4에 도시된 바와 같이 음향 신호는 사용자(103)의 손(102)과 다른 배경 반사체로 반사된다. 한 실시예에서, 기기(101)가 전송된 음향 신호의 반사를 수집하는 것을 보조하도록 (예를 들어 알루미늄 구조 등의) 금속 구조가 (예를 들어 기기(101)를 둘러싸는 등) 기기(101)의 인근에 위치하여 반사들을 기기(101)에 직접적으로 유도할 수 있다. 한 실시예에서, 이러한 구조는 포물선 형상으로 설계된다.

이하에서는 사용자(103)의 손(102)에 반사된 음향 신호의 수집에 대해 논의하지만, 본 발명의 원리는 크레디트 카드 또는 종이 한 장 등의 다른 반사체에 반사된 음향 신호의 수집에도 적용될 수 있다. 달리 말해 (예를 들어 크레디트 카드, 사용자 몸통, 지갑, 카드, 컵, 책 등의) 다른 객체의 운동이 추적되어 후술하는 사용자(103)의 손(102)의 운동의 추적과 동일한 방식에서의 반사체로 사용될 수 있다.

도 4를 참조하면, 도 4는 본 발명의 한 실시예에 따라 기기(101)로 수집되는 반사의 종류들을 도시한다. 도 4에 도시된 바와 같이, 기기(101)는 몸통 반사(401)(손(102) 이외의 사용자(103)의 몸통의 다른 부분들로부터의 반사)와, 배경 반사(402)(실내 등의 다른 객체들로부터의 반사)와, 및 자기 간섭(self-interference; 403)을 수집할 수 있다. 또한 도 4에 도시된 바와 같이, 기기(101)는 원하는 손 반사(404) 역시 수집한다. 후술하는 바와 같이, 몸통과 배경 반사를 자기 간섭과 함께 제거하여 본 발명이 주로 손 반사(404)를 사용하여 손(102)의 위치를 판단할 수 있는 본 발명으로 구현되는 일련의 기법들이 있다.

도 1-2 및 4와 연계하여 다시 도 3a로 돌아오면, 단계 303에서 기기(101)는 대역통과 필터(bandpass filter)를 통해 수집된 반사로부터 (예를 들어 배경 반사(402) 등의) 대역외(out-of-band) 잡음을 제거한다.

단계 304에서, 기기(101)는 수집된 반사에 간섭 소거(interference cancellation)를 수행하여 수신된 정적(static) 배경 반사(402)와 자기 간섭(403)을 제거한다. 한 실시예에서, 기기 기반 추적에 대해서는 단계 305에서 간섭 소거가 수행되지 않는다. 그 대신 단계 301 다음 등에서 주파수 편이(frequency offset)가 추산된다.

단계 305에서, 기기(101)는 초기화(initialization)를 수행하여 사용자(103)의 손(102)의 초기 위치를 판단하는데, 이는 후술하는 AoA-거리 프로파일(profile)에서의 도래각(angle-of-arrival; AoA)-거리 쌍(pair)에 대응한다.

단계 306에서, 기기(101)는 (단계 304 및 305를 수행한 뒤의) 나머지 수집된 반사 신호들을 그 주파수가 수집된 반사의 도래각과 전파 거리(propagation distance)에 비례하는 2차원 정현파(sinusoid)들로 변환한다. 이 명세서에 사용된 "도래각(angle-of-arrival)"은 기기(101)에 도달하는 반사 신호의 각도를 지칭한다. 이 명세서에 사용된 "전파 거리(propagation distance)"는 반사 신호의 기기(101)에 대한 반사의 초기 점(initial point)으로부터 이동(travel)한 거리를 지칭한다.

단계 307에서, 기기(101)는 도래각(angle-of-arrival; AoA)-거리 프로파일을 도출하는데, 이는 2D(2차원) MUSIC 알고리즘 등의 알고리즘을 사용하여 2차원 정현파들의 주파수들을 평가함으로써 사용자(103)의 손(102)에 반사된 신호들의 여러 가지 전파 거리들에 대한 도래각의 매핑(mapping)을 포함할 수 있다. 한 실시예에서, AoA-거리 프로파일은 2차원 정현파들의 주파수들을 평가함으로써 손(102) 등의 객체로부터 수신된 신호에 기반하여 도출된다.

AoA-거리 프로파일로부터 AoA 및 거리를 추산하기 위해 두 추가적인 실시예들이 개발되었다. 한 실시예에서, AoA-거리 프로파일로부터 피크(peak)가 선택되어 AoA, 거리, 및 도플러 이동(Doppler shift)을 추산하는 데 사용된다. 두 번째 실시예에서, 기기(101)는 최근의 시간 창(time window)으로부터의 AoA-거리 프로파일들을 순환 신경망(Recurrent Neural Network; RNN)에 적용하여 AoA 및 거리를 추산한다.

한 대체적인 실시예에서는, 단계 308에서 기기(101)가 도래각-거리 프로파일로부터 도래각-거리 쌍을 추산한다. 한 실시에서, 도래각-거리 쌍은 도래각-거리 프로파일로부터 사용자(103)의 손(102)에 반사된 신호의 추정(estimated) 전파 거리에 기반하여 추산된다(estimated). 전술한 바와 같이, 이전 스파이크에 인접한 "스파이크(spike)"가 선택된다. "스파이크"는 도 15에 도시된 바와 같이 해당 도래각에 대한 전파 지연(propagation delay)에 해당한다. 예를 들어, 스파이크(1501)는 대응 도래각에 대한 손(102)에 반사된 신호들의 전파 거리들의 군집 형성(grouping)에 해당한다. 전술한 바와 같이, 처음에는 스파이크가 손(102)의 이전에 선택된 스파이크 위치에 기반하여 선택되는데, 이전에 선택된 스파이크 위치는 초기 손 위치에 해당한다. 적절한 도래각-거리 쌍이 단계 307의 추정 전파 거리에 기반하여 선택되는데, 이는 선택된 스파이크의 전파 거리들 중의 하나에 해당한다.

이제 도 1-2, 4-6, 7a-7b, 8a-8b, 9a-9b 및 10-17에 연계하여 도 3b를 참조하면, 단계 309에서 기기(101)는 선택된 도래각-거리 쌍에 기반하여 손(102)의 위치를 판단한다. 손(102)으로부터의 전파 거리와 기기(101)로의 반사된 신호의 도래각을 알면, x-y 좌표 시스템 또는 x-y-z 좌표 시스템에서의 손(102)의 정확한 위치를 판단할 수 있다.

단계 301-309에 대한 더 상세한 설명이 이하에 제공된다.

전술한 바와 같이, 본 발명은 이 명세서에서 "RTrack)으로 지칭되는 신규한 기기 제한 없는(device-free) 추적 시스템을 개발하여 전술한 문제점들을 해결한다. RTrack은 스마트 기기들에서 사용할 수 있는 것과 같은 스피커 및 마이크에 의존하여, 전형적인 방을 포괄하는 작업 범위에서 사용자의 손 동작을 정확하게 추적할 수 있다. 사용자의 손(102)의 위치를 판단하기 위해, 한 실시예에서는 손(102)d로 반사된 도래각(AoA)과 전파 거리를 결합하여 추산하는 2D MUSIC 알고리즘이 적용되었다.

본 발명의 결합 추산 체계(joint estimation framework)는 원거리(far field) 추적에 다음 이점들을 갖는다, 첫째, 이 체계는 거리 및 AoA 추산에 주파수 변조 연속파(frequency-modulated continuous wave; FMCW)와 다중 신호 분류(Multiple Signal Classification; MUSIC)를 조합하는데, 양자 모두 다른 대안들보다 낮은 SNR에서 더 효율적이다. 둘째, 이는 센서들의 유효 수(effective number)를 증가시키는데, 이는 추적 정확도를 현저히 향상시키는 데 도움이 된다. 셋째, 거리 및 AoA의 결합 추산은 경로들의 거리 또는 AoA 중의 어느 하나가 다르므로 다중 경로(multipath)의 해결을 훨씬 용이하게 한다, 넷째, 낮은 SNR 시나리오 하에서 추적 성능을 현저히 향상시키는 몇 가지 메커니즘들이 개발되어 연산 시간을 줄임으로써 실시간 추적을 가능하게 한다.

한 실시예에서, 본 발명은 사용자의 손(102)에서 반사된 신호의 AoA 및 전파 거리를 결합하여 추산한다. 이를 위해, 기기(101)는 스피커(104)를 통해 음향 처프 신호(acoustic chirp signal)들을 송신하고 마이크(105)를 사용하여 수신된 샘플들을 수집한다. 이어서 수신된 신호들은 그 주파수가 AoA 및 거리에 비례하는 2차원 정현파들로 변환된다. 다음, 본 발명은 2차원 정현파들의 주파수들을 평가함으로써 AoA 및 거리를 추산한다. 변환 과정을 다음과 같이 설명한다.

도 5에 도시된 바와 같이 N개의 마이크(MIC)들과 한 스피커를 고려하자. 도 5는 본 발명의 한 실시예에 따른 AoA(θ)와 전파 거리(d +d _n )를 도시한다.

도 5에서 단순화를 위해 N이 홀수라고 가정하자. (마이크(105)에 대응하는) MIC(마이크)(501A- 501D)들은

부터

까지 번호가 붙여지고, 한 선을 따라 균일하게 분포된다. 두 MIC 사이의 간격(separation)은 Δ이다. (스피커(104)에 대응하는) 스피커(502)는 이 선의 중심에 있다. 이 경우 스피커(502)와 n-번째 MIC 간의 거리(r _n )는 nΔ이다.

사용자의 손(102)에 반사된 신호의 AoA(θ)와 거리(d)를 측정하기 위해, 스피커(104/502)는 그 주파수가 기간(T) 동안 f부터 f +β까지 스위프(sweep)되는 처프(chirp; 주파수가 시간에 따라 증가(업 처프) 또는 감소(다운 처프)하는 신호)들을 송신한다. y _t 가 전송된 처프를 표시한다고 하자, 그러면

처프들은 사용자의 손(102)에 반사되어 MIC(105.501A-501D)들에 수신된다. t _n 이 n-번째 MIC의 신호 전파 지연을 표시한다고 하자. 도 5에 도시된 바와 같이, t _n = (d + d _n )/v _s , 여기서 v _s 는 음속(speed of sounds)이다. 또한 d _n 은 d - r _n cos (θ)로 근사될 수 있고, r _n = nΔ이다. 이에 따라, t _n = 2d/v _s - nΔ cos(θ)/v _s . t _d 가 denote 2d/v _s 를 표시하고 δ가 Δcos(θ)/v _s 를 표시한다고 하자. 그러면 t _n = t _d - nδ가 된다. MIC n 의 수신된 처프는 다음으로 주어진다.

FMCW로서, y _t 및

들이 곱해지고 저주파 통과 필터가 적용된다. s(n , t)가 얻어진 신호들을 표시한다고 하자. 2 cos (p) cos (q) = cos(p-q)+cos(p+q)라는 특성에 기반하여, s(n , t)는 다음으로 주어진다.

t _n = t _d - nδ로 치환하면, s(n, t)의 위상(phase)은 다음이 된다.

제3항 및 제 4항은 n 및 t에 독립적이고 φ는 그 합을 표기하는 데 사용된다. 마지막 세 항은 작으므로 안전하게 무시될 수 있다. 그러면

s(n, t)가 2차원(2D) 정현파임이 관찰된다, 이는 N 차원에 대해, 주파수 Ω = 2π(-fδ) = 2π(-fΔcos(θ)/v _s )를 갖고, t 차원에 대해 주파수 ω = 2πβt _d /T= 4πβd/(T v _s )를 갖는다. 이에 따라 AoA(θ) 및 거리(d)의 판단에 Ω 및 ω만의 평가를 필요로 한다.

2D 정현파의 Ω 및 ω를 결정하기 위해 s(n , t)에 2D 고속 푸리에 변환 (Fast Fourier transform; FFT)을 적용하여 2D 스펙트럼에 피크를 위치시킬 수 있다. 그러나 (예를 들어 한 구현예에서 4개의 MIC 등) 단지 적은 수뿐인 MIC들 때문에, 2D FET에 기반한 추산 정확도는 매우 제한된다. 이 목적에 대한 더 나은 접근 방법은 2D MUSIC 알고리즘을 적용하는 것인데, 이는 복소(complex) 2D 정현파(예를 들어 e ^j(Ωn ⁺ ^ωt )들의 주파수들을 추산한다. 실수(real) 정현파 cos (p)는 두 복소 정현파 e ^jp 및 e ^-jp 들의 합이므로 2D MUSIC 알고리즘을 s(n , t)의 주파수들의 결정에 적용할 수 있다.

2D MUSIC 알고리즘의 도출을 이하와 같이 설명한다. 주된 아이디어는 2D 신호 행렬(matrix)를 1D 벡터로 변환하여, 전형적인(classic) 1D MUSIC 알고리즘을 적용하는 것이다. L개의 복소 정현파를 포함하는 2D 신호(S)를 가정하면, 즉

여기서 n은 [0, N - 1]에 속하고, t는 [0, T - 1]에 속하며, c는 i-번째 정현파의 크기이고, Ω_i 및 ω_i는 각각 n 및 t 차원에서의 두 주파수들이다. W는 잡음 항이다. 식 2의 행렬 형은 다음으로 주어진다.

S = UCV'+ W,

여기서 C는 c _i 와 동일한 i-번째 대각 요소를 갖는 대각 행렬이다. U는 [u(Ω₁), u(Ω₂)...u(Ω_L)]로 정의되는데, 여기서 u(Ω) = [1, e ^jΩ, e^j2Ω,.... e ^j(N-1Ω )]이다. V 및 v들은 ω와 유사한 방식으로 정의된다. 프라임(prime)은 전치 연산자(transpose operator)를 표시한다. S 의 (n, t)-번째 요소가 식 2와 동일함을 U, C, 및 V를 곱하여 용이하게 입증할 수 있다. 다음 모든 열들을 결합(concatenating)함으로써 S가 벡터

로 변환된다. 그러면 다음과 같이 보일 수 있다.

여기서 vec은 벡터화 연산자(vectorizing operator)이고,

는 크로네커 곱(Kronecker product)이다.

및

들은 C 및 W로부터 벡터화된 것이다. 여기서, vec(XY Z) = (Z'

X) vec(Y)라는 성질이 사용된다.

의 표현을 더 간단하게 하기 위해,

의 [(j - 1)L+i]-번째 요소를 고려하는데, 이는 C(i, j)와 동일하다. C가 대각 행렬이므로 i ≠ j일 때 C(i, j) = 0이고 C(i, i) = c _i 이다. 또한 V

U 의 [(j - 1)L + i]-번째 열은 v _j

u _i 로 주어지는데, 여기서 v _i 및 u _j 들은 각각 V 및 U의 i-번째 및 j-번째 열이다. 이에 따라

그러므로

는 다음으로 간략화될 수 있다.

여기서 M = [v ₁

u ₁, v ₂

u ₂, .... v _L

u _L ], 및

= [c ₁, c ₂, ... , c_L]'.

나머지 과정은 1D MUSIC 알고리즘과 완전히 동일하다. 첫째, 공분산 행렬(covariance matrix; R _s )을

로 연산하는데, 여기서 H는 에르미트 연산자(Hermitian operator)이다. R _s 에 대한 고유값 분해(eigenvalue decomposition)가 수행되고, 그 고유 벡터들이 그 고유값들의 크기에 기반하여 내림차순으로 분류(sort)된다. R _s 의 크기가 NT × NT이므로 NT 개의 고유 벡터들을 갖게 된다. 이들 중 마지막 NT - L개가 잡음 공간(noise-space) 고유 벡터들로 지칭된다. N이 잡음 공간 고유 벡터들로 구성된 행렬을 표시한다고 하자. N ^H M = 0로 보일 수 있다. v _i

u _i 가 M의 i-번째 열이므로 임의의 i에 대해 N ^H (v _i

u _i ) = 0임을 알고 있다. 그 정의에 기반하여, u _i 및 v _i 들은 u(Ω _i ) 및 v(ω_i)로 주어진다. (Ωi, ω _i )를 결정하기 위해, (Ω, ω)의 임의의 조합에 대해 다음 값(metric)이 평가된다.

P(Ω, ω)의 프로파일 내의 L개의 스파이크들은 신호(S) 내의 L개의 주파수(Ω_i, ω_i)들을 나타낸다. 본 발명의 시스템에서 Ω = -2πΔcos(θ)/λ 및 ω = 4πβdT _s/(Tv _s )인데, 여기서 λ는 처프 주파수(f)와 음속(v _s )간의 비율로 주어지는 파장, Δ는 마이크 간격, β는 밴드폭(bandwidth), T _s 는 음향 샘플의 지속시간(duration), 그리고 T는 처프 길이이다. 또한 θ는 AoA, d는 거리이다. Ω 및 ω들이 θ 및 d로 대체되면 다음을 얻게 된다.

여기서 u(θ) =

,

및 v(d) =

.

이러한 방법으로, 손(102)의 위치와 다른 배경 반사체들에 대응하는 AoA-거리 프로파일과 스파이크들을 얻는다. 전술한 도출은 L < NT인 한 유효하다. 본 발명의 맥락에 있어서, 이는 2D MUSIC 알고리즘이 마이크의 수(N)보다 더 많은 수의 반사(L)들을 해석할 수 있음을 의미한다. 이는 시스템의 센서의 수를 증가시키는 것과 동등하다. 증가된 센서들은 또한 추정 정확도를 현저히 향상시키는 데 도움이 된다. AoA 및 거리 오류들의 양자는 2D MUSIC 알고리즘과의 결합 추정을 적용함으로써 저감된다.

도 6은 본 발명의 한 실시예에 따라 식 3을 사용하여 생성한 2D 프로파일을 도시한다. 이 경우, 손 및 몸통 반사에 대응하는 피크들을 명확히 볼 수 있다. 이는 결합 추정이 다중 경로 간섭을 해결하는 데 도움이 됨을 나타낸다.

2D MUSIC 알고리즘을 사용하는 결합 추정은 추적에 유용하다. 그러나 이는 방 규모(room-scale)의 추적을 지원하는 데는 여전히 불충분하다. 방 규모 추적을 가능하게 하기 위해, 저 SNR 하의 2D MUSIC 알고리즘의 정확도를 강화할 필요가 있다.

AoA를 MUSIC으로 추정할 때의 평균 제곱 오차(ε)는 다음으로 결정된다.

여기서 L은 수신된 신호 내의 반사의 수, Δ는 MIC들 간의 간격, N은 MIC들의 수, 그리고 T는 시변 영역(time-domain) 샘플들의 수이다. 이 식은 1D MUSIC에 대해 도출되었지만, 2D MUSIC이 실제 벡터화(vectorization)에 의해 1D 버전으로 변환되므로 2D MUSIC에도 적용할 수 있다.

식 4의 통찰에 기반하여, 다음 전략들이 저 SNR 하에서의 추정 오류를 저감시키는 데 사용되는데: (i) Δ를 증가: MIC들 간의 간격(예를 들어 마이크들을 서로 다른 거리에 위치시킨다), (ii) T를 증가: 추산에 사용되는 샘플들의 수, 및 (iii) 수신된 신호를 L을 감소시키도록 처리: 반사들의 유효 수들이다. 이 접근 방법들은 이하에 상술한다.

저 SNR 하에서의 MUSIC 성능을 향상시키는 한 방법은 MIC들 간의 간격(Δ)을 증가시키는 것이다. 그러나 Δ가 λ로 표시되는 파장의 절반보다 크면 AoA의 추산에 모호성(ambiguity)이 존재한다. 이 경우, -2πΔcos(θ₁)/λ = -2πΔcos(θ₂)/λ+2π가 되도록 두 다른 각도 θ₁및 θ₂가 존재한다. 이 경우 u(θ₁) = u(θ₂)이므로 식 3에 기반하여 P(θ₁, d)는 P(θ₂, d)와 동일하다. 피크가 AoA-거리 프로파일에서 (θ₁, d ₁)가 존재한다면 동일한 피크가 (θ₂, d ₁)에도 존재할 것이다. 어느 것이 실제 신호에 기인하는지 판단할 수 없다. 도 7a는 본 발명의 한 실시예에 따른 모호성을 갖는 예시적 2D 프로파일을 도시하는데, 여기서 Δ는 2.7 cm이고 λ는 2.1 cm이다. 동일한 크기와 패턴을 갖는 50 및 -50도에서의 두 모호성들이 0도에서의 실측 기준(ground truth)으로 관찰된다.

모호성을 증가시키지 않고 MIC 간격을 증가시키기 위해, 불균일한 MIC 어레이가 사용된다, 불균일한 어레이는 도 7b에 도시된 바와 같이 모호성을 감소시키는 작은 간격을 갖는 MIC 쌍들과, 해상도(resolution)를 향상시키는 큰 간격을 갖는 MIC 쌍들을 포함한다. 도 7b는 본 발명의 한 실시예에 따라 불균일한 어레이의 사용에 의해 도 7a보다 적은 모호성을 갖는 예시적 2D 프로파일을 도시한다. 중심 과제는 저 SNR 하에서의 모호성을 최소화하기 위한 최적 불균일 어레이를 어떻게 설계하는가이다.

한 실시예에서, 벡터 [m ₁, m ₂, . . . , m _N]가 선형 MIC 어레이를 기술하는 데 사용되는데, 여기서 m _i 는i-번째와 첫 번째 MIC 간의 거리이다. m ₁는 항상 0이고, m _N 은 어레이의 전체 크기이다. 균일한 어레이에 대해, m _i = (i - 1)Δ이다. 이 표기법을 따르면 식 3의 u(θ)는 [e ^{-j2π m} ¹ ^cos( ^θ)/λ, e ^{-j2π m} ² ^cos( ^θ)/λ, … e ^{-j2π m} ^N ^cos( ^θ)/λ]로 일반화된다.

모호성의 존재를 판단하기 위해, 실측 기준 AoA(θ ₁)에 대한 u(θ)와 모든 다른 각들 간의 상관성을 평가한다. 도 8a 및 도 8b는 본 발명의 한 실시예에 따른, 각각 균일 어레이 경우와 불균일 어레이 경우에 대한 u(0) 및 u(θ) 간의 상관성의 플롯(plot)들이다. 도 8a 및 8b에 도시된 바와 같이, 많은 상관성 피크들이 존재한다. 실측 기준 각 부근의 것이 주 피크(main peak)이고 다른 것들은 부 피크(side peak)들이다. θ₂에 1의 크기를 갖는 부 피크가 존재한다면 u(θ₂)는 u(θ₁)와 동일하다. 이 경우, P(θ₁, d)와 P(θ₂, d)는 식 3에 기반하여 동일한 값을 갖고 θ₂는 θ₁에 대한 모호성이 된다. 부 피크들의 크기를 감소시키면 모호성이 감소된다. 한 실시예에서, SNR이 시변 영역에서의 빔 형성(beamforming)을 사용하여 증가되는데, 이는 다른 시간들에 샘플링된(sampled) 신호들을 조합한다. 한 실시예에서, 부 피크 간의 차이로 저 SNR 시나리오 하에서 잡음을 감내할(tolerate) 여유(margin)를 결정한다. 그러므로 MIC 어레이는 다음 최적화(조건식)를 풀음으로써 잡음 여유(noise margin)를 최대로 하는 것으로 선택된다.

여기서 함수 side(θ₁)은 θ₁에 대한 상관성 플롯에서 최고의 부 피크를 응답(return)하고, 주어진 MIC 어레이에서 최대 부 피크를 발견하도록 모든 θ₁에 걸친 검색이 수행된다. 첫 번째 제약조건(constraint)은 어레이 크기가 상수 M과 동일할 것을 요구하는데, 이는 모든 후보(candidate) 어레이들이 (다른 모호성들을 통해서도) 유사한 MUSIC 정확도를 제공할 것을 보장한다. 두 번째 제약조건은 어레이가 중심에 대해 대칭이어서 전후방 평활화(forward-backward smoothing)가 적용될 수 있는 것이다, 전후방 평활화는 다중 경로 신호들 중의 코히런스(coherence)를 제거하여 MUSIC 성능을 향상시킨다.

한 실시예에서, 어레이를 스마트 스피커에 쉽게 맞출 수 있도록 M이 8 cm로 선택된다. 최적화(조건식)를 풀면 최적 어레이 [0, 3 cm, 5 cm, 8 cm]가 주어진다. 0도에서의 실측 기준 AoA에 대한 상관성 플롯이 도 8b에 도시되어 있다. -20 dB SNR 하에서의 2D MUSIC 프로파일이 도 7b에 도시되어 있는데, 잠재적 모호성 각도(ㅁ 50도) 둘레의 스파이크들은 실측 기준 부근의 스파이크보다 훨씬 더 약하다. 이 SNR에서, 실측 기준 스파이크의 평균 크기는 이 측정들에 기반하여 모호성 스파이크의 크기의 6배인데, 이는 정확한 피크를 선택하기 용이하게 해준다.

2D MUSIC 알고리즘을 결합 추정에 사용하기 위해 한 실시예에서는, 전송 및 수신된 처프들을 곱하고 저주파 통과 필터링을 사용하여 정현파 신호(방정식 1)를 얻는데, 그 주파수는 AoA 및 전파 지연(propagation delay)에 비례한다. 본 발명의 한 실시예에 따라 도 9a에 도시된 바와 같이 영역 외부의 곱은 단순히 0이므로, 정현파 신호들의 길이는 두 처프들 간의 중첩(overlap)에 좌우된다. 방 규모 추적에 있어서, 음향 신호의 낮은 전파 속도(예를 들어 사용자(103)와 스마트 스피커(101) 사이가 5 m 거리에서 약 30 ms) 때문에 전파 지연이 크다. 도 9a에 도시된 바와 같이, 전형적인 처프는 겨우 수십 밀리초만 지속되므로 이는 도출된 정현파 신호의 길이를 현저히 단축시킨다. 단축된 신호 길이는 MUSIC 알고리즘 성능에 해로운 영향을 미친다.

이 문제를 해결하기 위해 본 발명의 한 실시예에 따른 도 9b에 도시된 바와 같이 중간 처프(middle chirp)가 도입된다. 이는 전송된 처프의 시간 천이된(time shifted) 버전이다. 천이의 양(

)은 수신된 처프의 전파 지연에 대한 개략 추산에 기반하여 미리 결정된다. 결과적으로 중간 처프는 수신 처프와 큰 중첩을 갖는다. 한 실시예에서, 2D MUSIC 알고리즘이 이 두 처프들의 곱으로 도출된 정현파 신호들에 적용된다. AoA가 다른 MIC들에 대한 전파 지연들 간의 차이(즉 식 1에서의 δ)로 결정되고 모든 MIC들에 대해 동일한 양으로 전송된 처프를 천이시키는 것은 이 차이를 변경시키지 않으므로, 이 방법으로 추산된 AoA는 수신된 처프와 동일하다. 이 방법으로 추산된 전파 지연(

)은 중간 처프와 수신 처프 간의 지연이다. 수신된 처프에 대한 전체 전파 지연은 도 9b에 도시된 바와 같이

와

의 합이다. 추산에 사용된 유효 샘플들의 수가 증가하기 때문에 중간 처프의 사용은 정확도를 향상시킨다.

이 접근 방법은 수신된 처프의 전파 지연에 대한 개략적 지식을 요구한다. 사용자의 손(102)의 위치가 연속된 기간(수십 ms) 동안 현저히 변하지 않을 것이므로 이전 추적 기간 동안의 추정 결과가 이 목적을 위해 사용된다. 아주 처음에서의 추적에 있어, 이 접근 방법은 후술하는 바와 같이 손의 초기 위치를 판단하기 위해 전개된다.

2D MUSIC 추산에 사용될 샘플들의 수를 증가시키는 다른 방법은 처프 길이(chirp length)를 증가시키는 것이다. 그러나 이는 추적 지연시간(tracking latency)을 증가시킬 수 있어서, 이는 바람직하지 못하다, 지연시간을 증가시키지 않고 처프 길이를 증가시키기 위해, 도 10에 도시된 바와 같이 중첩된 처프들이 송신된다. 도 10은 본 발명의 한 실시예에 따른 중첩 처프들의 송신을 도시한다. 흥미롭게도, 이 처프들은 이들이 시간상 분리될 수 있는 한 대역폭 요구치를 증사시키지 않고 동일한 채널들로 송신될 수 있다. 즉, 이전 처프들로부터의 모든 반사들이 다음 처프의 첫 번째 반사 이전에 도달해야 한다. 이는 중첩 처프들 간의 시간 차이가 적어도

로 표기되는 최대 전파 시간이어야 함을 시사한다. 5 m까지의 추적 범위에 대해

는 30 ms이다. 이에 따라 한 실시예에서 40 ms가 두 연속적 처프들 간에 선택되어 두 연속된 처프들로부터의 반사들 간을 구분하는 데 추가적인 10ms의 완충시간(cushion)을 제공한다. 이는 40 ms마다 측정을 업데이트하도록 하는데, 이는 스마트 스피커 사용 시나리오에 충분하다. 중첩 처프들을 사용함으로써 더 긴 처프 지속시간을 사용할 수 있다. 실험들에 80 ms 처프들이 사용되었다.

RF 신호들과 달리, 하드웨어에서 보고되는 음향 샘플들은 실수(real number)들이다. 그러므로 전송 및 수신 처프들을 곱한 다음 실수 정현파(식 1 참조)들리 얻어진다. 그러나 실수 정현파 cos(p)는 두 복소 정현파 e ^±jp 들로 구성되는 반면, MUSIC은 복소 정현파들의 주파수들을 추산하는 접근 방법이다. 결과적으로, MUSIC에 관찰되는 복소 정현파들의 수는 실제 수신된 반사들의 수의 두 배이다. 식 4에 기반하면 정현파들의 증가된 수는 MUSIC 성능에 부정적인 영향을 미친다. 이 문제를 피하기 위해 신호들의 음의(negative) 주파수들은 다음 방법으로 제거된다. 1) 신호들에 FET 수행, 2) 음의 주파수 빈(bin)들을 0으로 설정, 및 3) IFET를 수행. 이 방법에서, 각 반사는 단지 한 복소 정현파에 대응한다. 음의 주파수들을 제거하면 신호와 잡음 양자가 절반으로 감소되어, 제거 후에도 SNR은 변화되지 않는다.

2D MUSIC를 사용하는 결합 추산은 두 연산 집약적인(computationally intensive) 단계들을 포함한다. 첫 번째 단계는 잡음 공간 고유 벡터 행렬(N)을 도출하는 고유값 분해(eigenvalue decomposition)인데, 그 연산 비용은 고유 벡터(NT × 1)의 크기의 증가에 따라 증가되며, 여기서 N은 MIC들의 수이고 T는 시간 영역 샘플들의 수이다. 다른 단계는 AoA 및 거리의 모든 조합들에 대한 2D 프로파일(식 3)의 평가이다. 그 연산 비용은 각 평가의 행렬 곱에 좌우되는데, 이는 O((NT)2)이고, AoA-거리 조합들의 수이다. 본 발명 시스템의 한 실시예에서 MIC들의 수(N)가4인 한편, 음향 샘플들의 수(T)는 44.1 KHz 샘플링 속도와 80 ms 하에서 3528개이다. 이에 따라 NT가 상당히 커 이 두 단계들은 실시간 처리에는 지나치게 고가이다.

결과적으로, 연산의 복잡성을 저하시키기 위해, 부차 샘플링(sub-sampling) 기반 처리와 공간 평활화(spatial smoothing)가 사용되었다. 이 기법들은 MUSIC 성능을 열화시키지 않으면서 T를 효율적으로 감소시킨다. 고유값 분해 시간은 2.2 ms로 단축된다. 그러나 2D 프로파일 평가는 여전히 시간이 걸리는데(remain high): 500 ms에 가깝다. 이는 가능한 AoA-거리 조합들의 많은 수 때문이다.

결과적으로, 평가될 거리들의 수가 감소된다. 1D 시나리오에서는, 근(root)-MUSIC이 큰 공간에 걸쳐 1D 프로파일의 평가를 피하는 데 사용된다. 이는 1D 정현파의 주파수를 다항식의 근(root)을 파악함으로써 추정하는데, 다항식의 계수들은 잡음 공간 행렬(N)로 결정된다. 그러나 2D 시나리오에서는 근의 파악이 더 비용이 높다.

2D 프로파일의 평가 비용을 저감시키는 데 다음 관찰들을 이용할 수 있다. 식 1이 주어지면, 1D MUSIC 알고리즘이 시간 차원에 걸쳐 적용되어 전파 지연(t _d )을 추산할 수 있다. 위상 항(phase term)(-fδn)은 시간에 의존하지 않으므로 여기서 상수로 취급된다. 거리는 t _d 를 음속에 곱함으로써 도출된다. 이러한 방법으로 추산된 거리는 2D MUSIC 알고리즘을 사용한 결합 추산의 결과에 가깝다. 이는 T가 커서 이 차원에 충분한 가상 센서(virtual sensor)들이 존재하기 때문이다. 본 발명의 한 실시예에 따른 도 11에 도시된 바와 같이, 1D MUSIC 알고리즘과 2D MUSIC 알고리즘을 사용한 추산 거리의 차이는 측정들의 90%에서 5 mm 이내이고, 측정들의 95%보다 큰 범위에서 1 cm 이내이다. 그러므로 한 실시예에서, 1D MUSIC 알고리즘이 거리를 추산하는 데 적용되고, 이어서 2D MUSIC 알고리즘이 결합 추산에 적용되지만 추산 거리 부근(즉 ± 2 cm)의 2D 프로파일을 평가하는 데만 사용한다, 이는 식 3을 연산하는 횟수(times)들의 수를 현저히 저감시킴으로써 연산 시간을 단축시킨다.

연산의 비용을 더욱 저감시키기 위해 식 3의 분모가 다음으로 변환된다.

.

v

u = (v

I _n )u인 성질이 이용되는데, 여기서 v 및 u는 열 벡터들이고 I _n 는 u와 동일한 행들의 수를 가지는 단위행렬(identity matrix)이다. Q(d)가

를 표시한다고 하자. Q(d)는 θ에 의존하지 않으며 그 크기는 겨우 N × N인 것이 관측되는데, 이는 MIC들의 적은 수 때문에 매우 작다. 이 관측에 기반하여 2D 프로파일 P(θ, d)가 다음 방법으로 평가된다:

- 임의의 d가 주어지면, Q(d)가 먼저 평가된다. v(d)

I _N 및 NN ^H 의 크기가 각각 NT × N 및 NT ×NT이므로 이 단계의 연산 비용은 O(N(NT)²)이다. 여기서 N이 어떤 각도 또는 거리에 의존하지 않으므로 NN ^H 은 미리 평가되는 것으로 가정된다.

- 모든 가능한 θ, P(θ, d)가

로 평가된다. u(θ) 및 Q(d)의 크기가 각각 N × 1 및 N × N이므로 각 평가의 비용은 단지 O(N ²)이다.

- 이상의 과정을 모든 가능한 d에 대해 반복한다.

이 방법에서, 각 AoA-거리 쌍에 대해 P(θ, d)를 연산하는 평균 비용은

인데, 여기서 N _a 는 가능한 AoA의 수이고 Q(d)를 N _a 개의 연산들로 연산하는 비용은 동일한 d를 포함하여 분할된다(amortized). 이에 비해, 식 3의 직접 연산은 O(N ² T ²)를 요구한다. 본 발명의 시스템에서, N ≪ N _a 및 T ≫ 1이므로 전술한 접근 방법은 P(θ, d)를 평가하는 비용을 현저히 저감시킨다. 결과적으로, 이러한 접근 방법은 각 결합 추산을 위한 시간을 520 ms로부터 21 ms로 감소시킨다.

다른 실시예에서는, 기계 학습(machine learning) 알고리즘이 AoA-거리 프로파일을 거리 및 AoA 추산에 매핑(map)하는 데 사용될 수 있다. 순환 신경망(recurrent neural network; RNN)이 2D 프로파일로부터 AoA 및 거리로의 매핑을 자동으로 학습하는 데 사용된다. RNN은 손 운동의 일시적 위치(temporal locality)를 이용(exploit)하는 데 사용된다. 예를 들어, 2D 프로파일들이 일부 기간들에 잡음이 있더라도, 최근 기간의 프로파일들을 추산의 향상을 돕도록 이용할 수 있다. 뿐만 아니라, 연속적인 2D 프로파일들을 분석함으로써 도플러 천이(Doppler shift)를 잠재적으로 학습하여 그 효과를 보상할 수 있다.

한 실시예에서, RNN은 K개의 스테이지(stage)들을 포함한다. 이 스테이지들은 도 12에 도시된 바와 같이 최근 K개의 기간들에서 추출한 2D 프로파일들에 대응한다. 도 12는 본 발명의 한 실시예에 따라 도래각(AoA)-거리 프로파일을 AoA 및 거리 추산에 매핑하는 데 사용되는 순환 신경망(RNN)을 도시한다. 도 12에서, 각 스테이지는 (R(1201)로 표시된) 동일한 네트워크 구조를 가진다. 마지막 스테이지는 현재 2D 프로파일을 입력으로 받고, 그 앞의 스테이지들은 이전 프로파일들을 입력으로 받는다. 각 스테이지는 또한 어떤 맥락 정보(context information)를 다음 스테이지에 공급한다.

RNN은 일련의 동일한 네트워크 구조 R(1201)들로 구성된다. R(1201)의 설계는 RNN의 효율성에 큰 영향을 미친다. 도 13은 본 발명의 한 실시예에 따른 RNN 내의 스테이지 R(1201)을 도시한다. 도 13에서, 네트워크는 두 입력들: 이전 스테이지로부터의 맥락과 현재의 2D 프로파일을 받는다. 먼저, 2D 프로파일은 평균 풀링 층(average-pooling layer; P)을 통과한다. 이 층은 입력 프로파일을 복수의 블록들로 분할(segment)하는데, 각 블록은 BXB개의 화소(pixel)들을 포함한다. P로부터의 출력은 각 블록의 평균 화소 크기로 구성된다. 사실상, P 층은 2D 프로파일을 BXB의 인수로 압축한다. 이는 네트워크 내의 파라미터들의 수를 현저히 저감시켜 과적합(overfitting)을 방지한다. 원래의 2D 프로파일을 P 층에 공급하는 것이 거친 입도(coarse granularity)의 2D 프로파일을 직접 사용하는 것보다 나은데, 후자가 날카로운 피크들을 빠뜨릴 수 있기 때문이며, 이는 높은 SNR 하에서 흔한 일이다. 풀링 층에 이어 은닉 층(hidden layer; H1)이 위치한다. 이 층은 압축된 이전 층(prolayer; O) 및 맥락 층 C로부터 특징(feature)들을 추출한다. 층 H1에 이어 은닉 층 H1으로부터 특징들과 이전 스테이지들로부터의 맥락을 추출하여 층 O와 층 C를 출력하는 은닉 층 H2가 위치한다.

층 O는 추산된 거리와 AoA를 나타내는 두 뉴런(neuron)들을 포함한다. 이들이 현재 위치를 나타내므로 층 O의 출력은 마지막 스테이지에서만 사용된다.

맥락 층 C는 어느 정보가 다음 스테이지로 전송될 필요가 있는지를 자동으로 학습하는 데 사용된다. 근본적으로, 이는 복수의 뉴런들로 구성되어 RNN 내의 연속적 스테이지들을 연결하는 또 다른 은닉 층이다.

한 실시예에서, 목표(target)의 이전 위치 주변의 규정된 크기를 갖는 영역에 대응하는 2차원 프로파일이 생성되어 목표의 위치를 도출하는 데 사용된다. 정확도와 효율 양자를 강화하기 위해, 전체 방을 포괄하는 대신 목표 위치 주변의 작은 영역에 걸친 2D 프로파일만이 생성된다. 구체적으로, 목표 위치를 대략 알고 있다고 가정하고, 그 주변의 검출 창(detection window)이 B _D 내지 B _D +W _D 의 거리와 B _A 내지 B _A +W_D의 AoA를 포괄하도록 선택된다. 이 창 내의 2D 프로파일만이 평가되어 네트워크 입력으로 사용된다, RNN으로부터의 출력은 검출 창의 경계(boundary)에 대한 거리 및 AoA이다. 프로파일의 하부 좌측 모서리에 피크가 나타나면 RNN은 거리와 AoA 양자 모두 0이라고 추정한다. 상부 우측 모서리에 피크가 나타나면, 네트워크는 이들을 각각 W _D 및 W _A 로 추정한다. 최종 거리와 AoA는 상대 위치와 창의 하부 좌측 모서리(즉 (B _D , B _A ))의 합으로 도출할 수 있다.

이 전략을 사용하는 이점은 여러 가지다. 첫째, 이는 국부적 영역 내의 프로파일만을 평가함으로써 연산 비용을 현저히 저감시킨다. 둘째, 특정한 거리 또는 AoA에서 훈련된 RNN은 적절한 검출 창을 선택함으로써 다른 거리 또는 AoA에 적용될 수 있다. 셋째, 창 외부의 간섭 경로들을 필터링하여 제거함으로써 이는 네트워크가 환경에 덜 민감하게 할 수 있다. 넷째, 복수의 검출 창을 사용함으로써 이는 복수의 사용자들을 동시에 추적할 수 있다.

이 메커니즘은 목표 위치에 대한 대략적 지식을 요구한다. 이에 따라 초기화 스킴(initialization scheme)이 초기 창(initial window)을 결정하는 데 사용된다. 추적 동안, 목표가 경계에 가까이 이동할 때 창이 갱신된다. 한 실시예에서, 창이 60 cm x 60 cm 영역을 포괄하므로 정확한 목표 위치는 필요 없다.

한 실시예에서, RNN은 시간 창(time window)에 걸친 실측 기준 위치들과 도래각-거리 프로파일들의 시퀀스(sequence)로 구성된 훈련 궤적(training trace)을 사용하여 훈련된다. 한 실시예에서, 도래각-거리 프로파일들의 시퀀스가 RNN에 적용되어 도래각과 거리의 추산치(estimate)들을 얻는다. 한 실시예에서, 도래각이 순환 신경망에 기반하여 추산되는데, 여기서 시간 창에 걸친 도래각 프로파일들과 함께 실측 기준 도래각의 시퀀스들을 포함하는 훈련 궤적이 순환 신경망의 훈련에 사용되고, 도래각 프로파일들의 시퀀스가 순환 신경망에 적용되어 도래각에 대한 추산치를 얻게 된다. 다른 실시예에서, 거리가 순환 신경망에 기반하여 추산되는데, 여기서 시간 창에 걸친 거리 프로파일들과 함께 실측 기준 거리의 시퀀스들을 포함하는 훈련 궤적이 순환 신경망의 훈련에 사용되고, 거리 프로파일들의 시퀀스가 순환 신경망에 적용되어 거리에 대한 추산치를 얻게 된다.

전술한 바와 같이, 각 반사는 2D MUSIC 알고리즘으로부터 도출된 AoA-거리 프로파일 내의 스파이크에 대응한다. 이 스파이크들 중의 하나가 손 반사에 대응하도록 선택된다. 사용자(103)가 기기(101)로부터 멀리 있는 경우는 손 반사가 지배적(dominant)이 아니므로 이 선택이 어렵다, 도 14는 본 발명의 한 실시예에 따른 방(room)의 AoA-거리 프로파일을 도시한다. 사용자의 손(102)과 기기(101) 간의 거리는 3.6 m이다. 간섭 소거 후라도, 손 반사들 외에 스파이크들의 존재가 관찰된다. 이 스파이크들은 사용자의 몸통 반사(401), 동적 배경 반사(402), 및 잡음(예를 들어 자기 간선(403) 등)들에 대응한다. 사용자의 손(102)에 대응하는 스파이크가 반드시 최강의 것은 아니다.

한 스냅숏(snapshot)에 기반하여서는 어느 스파이크가 손(102)에 대응하는지가 모호하므로, 시간에 걸친 복수의 스냅숏들로부터의 일시적 관계들이 이용된다. 한 실시예에서, 사용자(103)는 초기 손짓(initial gesture)을 수행하도록 요청 받고, 어느 스파이크들의 시간에 걸친 궤적이 이 손짓에 부합되는지 식별한다. 한 실시예에서, 사용자(103)는 초기화 동안 그의 손(102)을 뻗도록(push out) 요청된다. 이 패턴이 손(102)을 식별하는 데 사용된다. 바람직한 스파이크들은 시간에 따라 선형으로 변화해야 한다. 도 15는 본 발명의 한 실시예에 따른, 1초에 걸친 사용자(103)의 손(102)과 몸통에 대한 스파이크들을 보이는 그래프이다. 도 15에 도시된 바와 같이, 손 반사에 대응하는 스파이크들은 시간에 따라 선형으로 변화된다. 즉, 직접 경로(direct path)에 대한 스파이크들은 변하지 않으며, 동적 배경 반사(402)와 잡음(예를 들어 자기 간섭(403) 등)들에 대한 스파이크들은 랜덤(random)한 패턴들을 나타낸다. 실험들에서, 대부분의 경우 사용자(103)가 초기 손 위치를 명확히 결정하는 데 단지 한번만 손을 뻗는 것이 필요했다. 신뢰성을 위해, 사용자(103)가 두 번 손을 뻗도록 요청될 수 있다.

이 관찰들에 기반하여, 초기화 스테이지 동안(즉 1초 동안) 2D MUSIC 프로파일로부터 스파이크들이 추출된다. 모든 스파이크들은 k-평균(means) 알고리즘을 사용하여 군집되는데(clustered), 여기서 k는 이 스테이지 동안의 각 추적 기간(tracking period)에서 검출된 스파이크들의 최대 수이다. 각 군집(cluster)에서, 모든 점들은 한 선을 사용하여 군집 내에 회귀(fit)되는데, 이것이 초기화 손짓에 대응한다. 최소의 회귀 오류(즉 결정계수(R-square) 값이 1에 가장 가까운)를 나타내는 군집이 선택된다. 그 군집 내의 마지막 스파이크가 초기 손 위치로 선택된다. 초기 위치가 결정되고 나면, 이전 스파이크에 가장 가까운 스파이크를 다음 연속적 추적을 위해 선택할 수 있다.

다시 도 1-2 및 4-13에 연계하여 도 3b를 참조하면, 단계 310에서 기기(101)가 최근 시간 창 내의 손(102)의 위치에 기반하여 사용자(103)가 명령을 수행하였는지 판단한다. 한 실시예에서, 기기(101)는 메모리(202) 등에 손 위치들의 이전의 수(예를 들어 이전의 10개의 위치들)를 저장한다. 한 실시예에서, 이와 같이 저장된 위치들은 돌리기(swirl) 동작 등의 동작 또는 운동으로 외삽될(extrapolated) 수 있다. 예를 들어, 손(102)의 각 위치는 x, y 좌표 시스템을 통해 판단된다. 결과적으로, 손(102)의 이동에 따른 x, y 좌표에서의 변화는 운동 또는 동작에 대응하는 것으로 판단될 수 있다. 한 실시예에서, 운동 또는 동작의 종류에 연계된 명령들을 저장하는 (예를 들어 표(table) 등의) 데이터 구조가 기기의 메모리(202) 내에 저장된다. 손(102)의 동작 또는 운동을 외삽한 다음, (예를 들어 돌리기 동작 등) 이러한 동작 또는 운동이 (예를 들어 볼륨의 증가 등의) 명령에 대응되는지를 판단하도록 데이터 구조가 평가된다. 기기(101)가 사용자(103)가 기기(101)가 명령을 수행할 것을 의도했다고 판단하면, 기기(101)는 이어서 이러한 명령을 수행한다. 이 명세서에서 사용된 "명령(command)"는 아바타(avatar)의 이동을 포함하여 기기(101)가 수행해야 할 모든(any) 종류의 지령(instruction)을 지칭한다.

단계 311에서, 사용자(103)가 명령에 해당하는 손 동작을 수행했는지 여부에 대해 기기(101)에 의해 판단이 이뤄진다. 사용자의 손 동작이 명령에 해당하면 다음 단계 312에서 기기(101)는 전술한 바와 같이 이러한 명령을 실행한다.

그러나 기기(101)가 사용자의 손 동작이 명령에 해당하지 않는다고 판단하면, 기기(101)는 도 3a의 단계 301에서 사용자(103)에게 음향 신호의 전송을 계속한다.

이러한 방식으로, 스마트 기기 등의 기기(예를 들어 스마트 스피커)는 그 자체이건 음성 기반 제어와 결합되건 사용자의 손 등 사용자의 동작을 통해 제어될 수 있다. 결과적으로, 스마트 기기 등의 기기의 기능 또는 능력이 사용자가 동작을 통해 기기를 제어할 수 있게 함으로써 향상된다. 이는 장애를 가진 사람에게 특히 중요한데, 그는 발성 등의 다른 수단보다 동작을 통해 기기에 명령하는 것이 더 편하다고 느낄 수 있다.

뿐만 아니라, 기기가 음성 제어에 추가하여 동작을 통해 기기가 제어될 수 있도록 함으로써 기기 제어의 정확도가 크게 향상된다. 결과적으로, (예를 들어 볼륨의 증가 등) 기기가 특정한 작동을 수행하도록 기기에 정확히 명령하려 시도하는 데 (이전처럼) 사용자가 많은 시간을 소비하지 않는다.

또한, 본 발명은 기기의 제어가 관련된 기술 또는 기술분야를 향상시킨다. 전술한 바와 같이, 스마트 스피커 등의 스마트 기기는 현재 음성 명령을 통해 제어된다. 그러나 음성 기반 제어가 항상 적절한 것은 아니다. 예를 들어 음성 제어는 간섭 때문에 시끄러운 환경에서 현저히 열화된다. 또한 성원들이 다른 언어를 말하는 가족들을 위해 복수의 언어들을 이해하고 사용된 언어를 자동으로 식별할 수 있는 스마트 스피커를 개발하는 것은 어렵고 원가가 높다. 뿐만 아니라, 화면과 상호 작용하거나 많은 메뉴 옵션들로부터 선택하는 등의 몇 가지 사용 시나리오에서는 음성 기반 인터페이스와 상호작용하는 것이 번거로울 수 있다. 불행히도, 현재로서는 독립적이건 음성 기반 제어와 결합하건 스마트 스피커 등의 이러한 스마트 기기를 손 동작 등의 동작을 사용하여 제어할 수단이 존재하지 않는다.

전술한 바와 같이, 본 발명은 사용자가 손 동작 등의 동작으로 스마트 기기 등의 기기를 제어할 수 있게 함으로써 이러한 기술을 향상시켰다.

이상에서 본 발명을 손의 추적에 연계하여 논의하였으나 본 발명의 우너리들은 크레디트 카드, 종이 한 장, 또는 모바일 기기 등 어떤 종류의 객체의 추적에도 사용될 수 있다.

한 실시예에서, 기기(101)는 전송된 신호의 반사를 수집하는 대신, 스마트폰 등 추적될 객체로부터의 신호를 직접 수신할 수 있다. 예를 들어 도 16은 기기 기반 추적(device-based tracking)을 도시하는데, 여기서 모바일 기기 A(1601)가 음향 신호(1602)를 방출하고 다른 기기(101) 상의 복수의 마이크들(도 1 참조)이 본 발명의 한 실시예에 따라 수신된 신호에 기반하여 모바일 기기 A(1601)의 운동을 추적할 수 있다. 도 17은 본 발명의 한 실시예에 따라, 도 16의 모바일 기기 A(1601) 등의 객체(1701)의 운동을 추적하는 데 사용된 다른 기기(101) 상의 복수의 마이크(105A-105C)들을 도시한다. 마이크(105A-105C)들은 집합적으로 또는 개별적으로 각각 마이크(105) 또는 마이크들(105)로 지칭될 수 있다. 도 17이 세 마이크(105)들을 도시하고 있지만, 본 발명의 원리들은 마이크(105)들의 특정한 수에 범위가 제한되지 않는다.

도 1, 16, 및 17에서, 기기(101)는 기기(101) 내의 하나 이상의 마이크(105)들을 사용하여 객체(예를 들어 스마트폰)가 전송한 음향 신호를 수신한다. 기기(101)는 수신된 신호들의 적어도 일부를 그 주파수가 수신된 신호의 도래각과 전파 거리에 비래하는 2차원 정현파들로 변환한다. 기기(101)는 2차원 정현파의 주파수를 평가함으로써 도래각-거리 프로파일을 도출한다. 기기(101)는 도래각-거리 프로파일로부터 도래각과 거리를 추산한다. 기기(101)는 기기(101)와 음향 신호를 전송한 기기 간의 주파수 편이(frequency offset)를 추산할 수 있다. 한 실시예에서, 주파수 편이는 송신자와 수신자 모두가 정지해있을(static) 때 도래각 프로파일 또는 거리 프로파일 내의 피크의 변화에 기반하여 추산된다. 기기(101)는 이 주파수 편이를 사용하여 거리 추산치를 조정한다. 한 실시예에서, 도래각은 도래각-거리 프로파일 또는 도래각 프로파일 중의 어느 하나에서의 피크에 기반하여 추산한다. 기기(101)는 선택된 도래각-거리 쌍에 기반하여 객체(예를 들어 스마트폰)의 현재 위치를 판단한다. 이어서 기기(101)는 객체의 이전 및 현재 위치들에 기반하여 사용자(103)가 명령을 수행하도록 운동했는지를 판단한다. 이어서 기기(101)는 사용자(103)가 명령을 수행하도록 운동했다는 판단에 따라 명령을 수행할 것이다.

한 실시예에서, 기기(101)는 2차원(2D) 좌표들로부터 3차원(3D) 좌표들을 얻을 수 있다. 한 실시예에서, 기기(101)는 x-축을 따라 배치된 마이크(105)들로부터 수집된 수신 신호들을 사용하여 x-z 좌표를 얻은 다음, y-축을 따라 배치된 마이크(105)들로부터 수집된 수신 신호들을 사용하여 y-z 좌표를 얻는다. 이어서 기기(101)는 도출된 x-z 및 y-z 좌표를 사용하여 x-y-z 좌표를 구성한다.

달리 말해, 기기(101)는 다른 세트(set)들의 마이크(105)들을 사용하여 복수의 도래각-거리 쌍즐을 추산하고 추산된 도래각-거리 쌍들을 3차원 좌표로 변환함으로써 목표(예를 들어 스마트폰)의 2차원 좌표들을 3차원 좌표로 변환한다.

이러한 실시예는 기기 기반(device-based) 또는 기기 제한 없는(device-free) 추적 양자로 구현될 수 있다.

이상에서 본 발명의 여러 가지 실시예들의 설명이 설명의 목적으로 제공되었지만, 완전하거나 개시된 실시예들로의 제한을 의도한 것이 아니다. 당업계에 통상의 기술을 가진 자에게는 설명된 실시예들의 범위와 개념을 벗어나지 않고도 많은 변경과 변경이 자명할 것이다. 이 명세서에 사용된 용어들은 실시예들과 실제 응용, 또는 시장에서 발견될 수 있는 기술에 대한 기술적 개선의 원리들을 가장 잘 설명하여 당업계에 통상의 기술을 가진 자가 이 명세서에 개시된 실시예들을 이해하도록 선택되었다.

Claims

객체의 운동을 추적하는 방법으로:
기기 내의 하나 이상의 마이크들을 사용하여 상기 객체로부터의 음향 신호를 수신하는 단계와;
상기 수신된 음향 신호의 적어도 일부를 그 주파수가 상기 객체의 도래각과 전파 거리에 비례하는 2차원 정현파로 변환하는 단계와;
상기 2차원 정현파의 주파수를 평가함으로써 상기 객체로부터 수신된 신호에 기반하는 도래각-거리 프로파일을 도출하는 단계와;
상기 도래각-거리 프로파일에 기반하여 도래각과 거리를 추산하는 단계와; 및
상기 추산된 도래각과 상기 추산된 거리에 기반하여 상기 객체의 현재 위치를 판단하는 단계를
포함하는 객체 운동 추적 방법.
제1항에 있어서,
상기 객체의 이전 및 현재 위치들에 기반하여 사용자가 명령을 수행하려 운동했는지를 파악하는 단계와; 및
상기 사용자가 상기 명령을 수행하려고 운동했다고 판단함에 따라 상기 기기 상에서 명령을 수행하는 단계를
더 포함하는 객체 운동 추적 방법.
제1항에 있어서,
순환 신경망에 기반하여 상기 도래각-거리 프로파일로부터 상기 도래각과 상기 거리를 추산하는 단계로, 시간 창에 걸친 실측 기준 위치와 도래각-거리 프로파일들을 포함하는 훈련 궤적이 상기 순환 신경망의 훈련에 사용되고, 상기 도래각-거리 프로파일들의 시퀀스가 상기 순환 신경망에 적용되어 상기 도래각과 상기 거리에 대한 추산치를 얻는 단계를
더 포함하는 객체 운동 추적 방법.
제1항에 있어서,
순환 신경망에 기반하여 상기 도래각을 추산하는 단계로, 시간 창에 걸친 도래각 프로파일들과 함께 실측 기준 도래각의 시퀀스를 포함하는 훈련 궤적이 상기 순환 신경망의 훈련에 사용되고, 상기 도래각 프로파일들의 시퀀스가 상기 순환 신경망에 적용되어 상기 도래각에 대한 추산치를 얻는 단계를
더 포함하는 객체 운동 추적 방법.
제1항에 있어서,
순환 신경망에 기반하여 상기 거리를 추산하는 단계로, 시간 창에 걸친 거리 프로파일들과 함께 실측 기준 거리의 시퀀스를 포함하는 훈련 궤적이 상기 순환 신경망의 훈련에 사용되고, 상기 거리 프로파일들의 시퀀스가 상기 순환 신경망에 적용되어 상기 거리에 대한 추산치를 얻는 단계를
더 포함하는 객체 운동 추적 방법.
제1항에 있어서,
상기 도래각-거리 프로파일 내의 초기 도래각-거리 쌍에 대응하는 상기 객체의 초기 위치를 판단하는 초기화를 수행하는 단계를
더 포함하는 객체 운동 추적 방법.
제1항에 있어서,
정적 배경 반사를 제거하도록 상기 수신된 음향 신호에 간섭 소거를 수행하는 단계를
더 포함하는 객체 운동 추적 방법.
제1항에 있어서,
상기 도래각-거리 프로파일이 2D MUSIC 알고리즘을 사용하여 얻어지는 객체 운동 추적 방법.
제1항에 있어서,
상기 음향 신호의 송신자와 수신자 간의 주파수 천이를 상기 송신자와 수신자 양자가 정지 상태일 때 상기 도래각-거리 프로파일 내의 피크의 변화에 기반하여 추산하는 단계로, 상기 주파수 천이가 상기 추산된 거리를 조정하는 데 사용되는 단계를
더 포함하는 객체 운동 추적 방법.
제1항에 있어서,
상기 기기가, 그 배치가 부 피크와 주 피크 간의 상관성에서의 잡음 여유를 최대화하는 하나 이상의 마이크들을 구비하는 객체 운동 추적 방법.
제1항에 있어서,
시간 영역에서의 빔 형성을 사용하여 신호 대 잡음비를 증가시키는 단계를
더 포함하는 객체 운동 추적 방법.
제1항에 있어서,
하나 이상의 객체들의 위치에 대응하는 상기 도래각-거리 프로파일 내의 피크들을 식별하는 단계를
더 포함하는 객체 운동 추적 방법.
제1항에 있어서,
상기 객체가 모바일 기기 또는 사용자의 손, 사용자 몸통, 지갑, 카드, 컵, 또는 책을 포함하는 반사체를 포함하는 객체 운동 추적 방법.
제1항에 있어서,
상기 거리가 상기 도래각-거리 프로파일 또는 거리 프로파일 중의 어느 하나의 피크에 기반하여 추산되는 객체 운동 추적 방법.
제1항에 있어서,
상기 도래각이 상기 도래각-거리 프로파일 또는 도래각 프로파일 중의 어느 하나의 피크에 기반하여 추산되는 객체 운동 추적 방법.
제1항에 있어서,
상기 기기가, 마이크들의 다른 세트들을 사용하여 복수의 도래각-거리 쌍들을 추산하고 상기 추산된 도래각-거리 쌍들을 3차원 좌표로 변환함으로써 목표의 2차원 좌표들을 3차원 좌표로 변환하는 객체 운동 추적 방법.
제1항에 있어서,
상기 객체의 이전 위치 주변의 규정된 크기의 영역에 대응하는 2차원 프로파일이 생성되어 상기 객체의 현재 위치의 도출에 사용되는 객체 운동 추적 방법.
기기를 제어하는 방법으로:
상기 기기 내의 하나 이상의 마이크들을 사용하여 사용자의 객체로부터 전송된 음향 신호를 수신하는 단계와;
상기 수신된 음향 신호의 적어도 일부를 그 주파수가 상기 수신된 신호의 도래각과 전파 거리에 비례하는 2차원 정현파로 변환하는 단계와;
상기 2차원 정현파의 주파수를 평가함으로써 상기 객체로부터 수신된 신호에 기반하는 도래각-거리 프로파일을 도출하는 단계와;
상기 도래각-거리 프로파일에 기반하여 도래각-거리 쌍을 추산하는 단계와;
상기 추산된 도래각-거리 프로파일에 기반하여 상기 객체의 현재 위치를 판단하는 단계와;
상기 객체의 이전 및 현재 위치에 기반하여 상기 사용자가 명령을 수행하도록 운동했는지를 판단하는 단계와; 및
상기 사용자가 상기 명령을 수행하도록 운동했다는 판단에 따라 명령을 상기 기기 상에 수행하는 단계를
포함하는 기기 제어 방법.
객체의 운동을 추적하는 컴퓨터 프로그램 제품으로, 상기 컴퓨터 프로그램 제품이 거기에 저장된 프로그램 코드를 갖는 컴퓨터 판독 가능한 저장 매체를 구비하고, 상기 프로그램 코드가
기기 내의 하나 이상의 마이크들을 사용하여 상기 객체로부터의 음향 신호를 수신하는 단계와;
상기 수신된 음향 신호의 적어도 일부를 그 주파수가 상기 객체의 도래각과 전파 거리에 비례하는 2차원 정현파로 변환하는 단계와;
상기 2차원 정현파의 주파수를 평가함으로써 상기 객체로부터 수신된 신호에 기반하는 도래각-거리 프로파일을 도출하는 단계와;
상기 도래각-거리 프로파일에 기반하여 도래각과 거리를 추산하는 단계와; 및
상기 추산된 도래각과 상기 추산된 거리에 기반하여 상기 객체의 현재 위치를 판단하는 단계에
대한 프로그램 명령들을 포함하는 컴퓨터 프로그램 제품.
제19항에 있어서, 상기 프로그램 코드가
상기 객체의 이전 및 현재 위치들에 기반하여 사용자가 명령을 수행하려 운동했는지를 파악하는 단계와; 및
상기 사용자가 상기 명령을 수행하려고 운동했다고 판단함에 따라 상기 기기 상에서 명령을 수행하는 단계에
대한 프로그램 명령들을 더 포함하는 컴퓨터 프로그램 제품.
제19항에 있어서, 상기 프로그램 코드가
순환 신경망에 기반하여 상기 도래각-거리 프로파일로부터 상기 도래각과 상기 거리를 추산하는 단계로, 시간 창에 걸친 실측 기준 위치와 도래각-거리 프로파일들을 포함하는 훈련 궤적이 상기 순환 신경망의 훈련에 사용되고, 상기 도래각-거리 프로파일들의 시퀀스가 상기 순환 신경망에 적용되어 상기 도래각과 상기 거리에 대한 추산치를 얻는 단계에
대한 프로그램 명령들을 더 포함하는 컴퓨터 프로그램 제품.
제19항에 있어서, 상기 프로그램 코드가
순환 신경망에 기반하여 상기 도래각을 추산하는 단계로, 시간 창에 걸친 도래각 프로파일들과 함께 실측 기준 도래각의 시퀀스를 포함하는 훈련 궤적이 상기 순환 신경망의 훈련에 사용되고, 상기 도래각 프로파일들의 시퀀스가 상기 순환 신경망에 적용되어 상기 도래각에 대한 추산치를 얻는 단계에
대한 프로그램 명령들을 더 포함하는 컴퓨터 프로그램 제품.
제19항에 있어서, 상기 프로그램 코드가
순환 신경망에 기반하여 상기 거리를 추산하는 단계로, 시간 창에 걸친 거리 프로파일들과 함께 실측 기준 거리의 시퀀스를 포함하는 훈련 궤적이 상기 순환 신경망의 훈련에 사용되고, 상기 거리 프로파일들의 시퀀스가 상기 순환 신경망에 적용되어 상기 거리에 대한 추산치를 얻는 단계에
대한 프로그램 명령들을 더 포함하는 컴퓨터 프로그램 제품.
제19항에 있어서, 상기 프로그램 코드가
상기 도래각-거리 프로파일 내의 초기 도래각-거리 쌍에 대응하는 상기 객체의 초기 위치를 판단하는 초기화를 수행하는 단계에
대한 프로그램 명령들을 더 포함하는 컴퓨터 프로그램 제품.
제19항에 있어서, 상기 프로그램 코드가
정적 배경 반사를 제거하도록 상기 수신된 음향 신호에 간섭 소거를 수행하는 단계에
대한 프로그램 명령들을 더 포함하는 컴퓨터 프로그램 제품.
제19항에 있어서,
상기 도래각-거리 프로파일이 2D MUSIC 알고리즘을 사용하여 얻어지는 컴퓨터 프로그램 제품.
제19항에 있어서, 상기 프로그램 코드가
상기 음향 신호의 송신자와 수신자 간의 주파수 천이를 상기 송신자와 수신자 양자가 정지 상태일 때 상기 도래각-거리 프로파일 내의 피크의 변화에 기반하여 추산하는 단계로, 상기 주파수 천이가 상기 추산된 거리를 조정하는 데 사용되는 단계에
대한 프로그램 명령들을 더 포함하는 컴퓨터 프로그램 제품.
제19항에 있어서,
상기 기기가, 그 배치가 부 피크와 주 피크 간의 상관성에서의 잡음 여유를 최대화하는 하나 이상의 마이크들을 구비하는 컴퓨터 프로그램 제품.
제19항에 있어서, 상기 프로그램 코드가
시간 영역에서의 빔 형성을 사용하여 신호 대 잡음비를 증가시키는 단계에
대한 프로그램 명령들을 더 포함하는 컴퓨터 프로그램 제품.
제19항에 있어서, 상기 프로그램 코드가
하나 이상의 객체들의 위치에 대응하는 상기 도래각-거리 프로파일 내의 피크들을 식별하는 단계에
대한 프로그램 명령들을 더 포함하는 컴퓨터 프로그램 제품.
제19항에 있어서,
상기 객체가 모바일 기기 또는 사용자의 손, 사용자 몸통, 지갑, 카드, 컵, 또는 책을 포함하는 반사체를 포함하는 컴퓨터 프로그램 제품.
제19항에 있어서,
상기 거리가 상기 도래각-거리 프로파일 또는 거리 프로파일 중의 어느 하나의 피크에 기반하여 추산되는 컴퓨터 프로그램 제품.
제19항에 있어서,
상기 도래각이 상기 도래각-거리 프로파일 또는 도래각 프로파일 중의 어느 하나의 피크에 기반하여 추산되는 컴퓨터 프로그램 제품.
제19항에 있어서,
상기 기기가, 마이크들의 다른 세트들을 사용하여 복수의 도래각-거리 쌍들을 추산하고 상기 추산된 도래각-거리 쌍들을 3차원 좌표로 변환함으로써 목표의 2차원 좌표들을 3차원 좌표로 변환하는 컴퓨터 프로그램 제품.
제19항에 있어서, 상기 프로그램 코드가
상기 객체의 이전 위치 주변의 규정된 크기의 영역에 대응하는 2차원 프로파일이 생성되어 상기 객체의 현재 위치의 도출에 사용되는 컴퓨터 프로그램 제품.
기기를 제어하는 컴퓨터 프로그램 제품으로, 상기 컴퓨터 프로그램 제품이 거기에 저장된 프로그램 코드를 갖는 컴퓨터 판독 가능한 저장 매체를 구비하고, 상기 프로그램 코드가
기기 내의 하나 이상의 마이크들을 사용하여 사용자의 객체로부터 전송된 음향 신호를 수신하는 단계와;
상기 수신된 음향 신호의 적어도 일부를 그 주파수가 상기 객체의 도래각과 전파 거리에 비례하는 2차원 정현파로 변환하는 단계와;
상기 2차원 정현파의 주파수를 평가함으로써 상기 객체로부터 수신된 신호에 기반하는 도래각-거리 프로파일을 도출하는 단계와;
상기 도래각-거리 프로파일로부터 도래각-거리 쌍을 추산하는 단계와; 및
상기 추산된 도래각-거리 쌍에 기반하여 상기 객체의 현재 위치를 판단하는 단계와;
상기 객체의 이전 및 현재 위치에 기반하여 상기 사용자가 명령을 사용하려 운동했는지를 판단하는 단계와; 및
상기 사용자가 상기 명령을 수행하여 운동했다는 판단에 따라 상기 기기 상에 명령을 수행하는 단계에
대한 프로그램 명령들을 포함하는 컴퓨터 프로그램 제품.
객체의 운동을 추적하는 컴퓨터 프로그램을 저장하는 메모리와; 상기 메모리에 연결된 프로세서를 구비하는 기기로, 상기 프로세서가:
기기 내의 하나 이상의 마이크들을 사용하여 상기 객체로부터의 음향 신호를 수신하는 단계와;
상기 수신된 음향 신호의 적어도 일부를 그 주파수가 상기 객체의 도래각과 전파 거리에 비례하는 2차원 정현파로 변환하는 단계와;
상기 2차원 정현파의 주파수를 평가함으로써 상기 객체로부터 수신된 신호에 기반하는 도래각-거리 프로파일을 도출하는 단계와;
상기 도래각-거리 프로파일에 기반하여 도래각과 거리를 추산하는 단계와; 및
상기 추산된 도래각과 상기 추산된 거리에 기반하여 상기 객체의 현재 위치를 판단하는 단계를
포함하는 컴퓨터 프로그램의 프로그램 명령들을 실행하도록 구성된 기기.
제37항에 있어서, 상기 컴퓨터 프로그램의 상기 프로그램 명령들이
상기 객체의 이전 및 현재 위치들에 기반하여 사용자가 명령을 수행하려 운동했는지를 파악하는 단계와; 및
상기 사용자가 상기 명령을 수행하려고 운동했다고 판단함에 따라 상기 기기 상에서 명령을 수행하는 단계를
더 포함하는 기기.
제37항에 있어서, 상기 컴퓨터 프로그램의 상기 프로그램 명령들이
순환 신경망에 기반하여 상기 도래각-거리 프로파일로부터 상기 도래각과 상기 거리를 추산하는 단계로, 시간 창에 걸친 실측 기준 위치와 도래각-거리 프로파일들을 포함하는 훈련 궤적이 상기 순환 신경망의 훈련에 사용되고, 상기 도래각-거리 프로파일들의 시퀀스가 상기 순환 신경망에 적용되어 상기 도래각과 상기 거리에 대한 추산치를 얻는 단계를
더 포함하는 기기.
제37항에 있어서, 상기 컴퓨터 프로그램의 상기 프로그램 명령들이
순환 신경망에 기반하여 상기 도래각을 추산하는 단계로, 시간 창에 걸친 도래각 프로파일들과 함께 실측 기준 도래각의 시퀀스를 포함하는 훈련 궤적이 상기 순환 신경망의 훈련에 사용되고, 상기 도래각 프로파일들의 시퀀스가 상기 순환 신경망에 적용되어 상기 도래각에 대한 추산치를 얻는 단계를
더 포함하는 기기.
제37항에 있어서, 상기 컴퓨터 프로그램의 상기 프로그램 명령들이
순환 신경망에 기반하여 상기 거리를 추산하는 단계로, 시간 창에 걸친 거리 프로파일들과 함께 실측 기준 거리의 시퀀스를 포함하는 훈련 궤적이 상기 순환 신경망의 훈련에 사용되고, 상기 거리 프로파일들의 시퀀스가 상기 순환 신경망에 적용되어 상기 거리에 대한 추산치를 얻는 단계를
더 포함하는 기기.
제37항에 있어서, 상기 컴퓨터 프로그램의 상기 프로그램 명령들이
상기 도래각-거리 프로파일 내의 초기 도래각-거리 쌍에 대응하는 상기 객체의 초기 위치를 판단하는 초기화를 수행하는 단계를
더 포함하는 기기.
제37항에 있어서, 상기 컴퓨터 프로그램의 상기 프로그램 명령들이
정적 배경 반사를 제거하도록 상기 수신된 음향 신호에 간섭 소거를 수행하는 단계를
더 포함하는 기기.
제37항에 있어서,
상기 도래각-거리 프로파일이 2D MUSIC 알고리즘을 사용하여 얻어지는 기기.
제37항에 있어서, 상기 컴퓨터 프로그램의 상기 프로그램 명령들이
상기 음향 신호의 송신자와 수신자 간의 주파수 천이를 상기 송신자와 수신자 양자가 정지 상태일 때 상기 도래각-거리 프로파일 내의 피크의 변화에 기반하여 추산하는 단계로, 상기 주파수 천이가 상기 추산된 거리를 조정하는 데 사용되는 단계를
더 포함하는 기기.
제37항에 있어서,
상기 기기가, 그 배치가 부 피크와 주 피크 간의 상관성에서의 잡음 여유를 최대화하는 하나 이상의 마이크들을 구비하는 기기.
제37항에 있어서, 상기 컴퓨터 프로그램의 상기 프로그램 명령들이
시간 영역에서의 빔 형성을 사용하여 신호 대 잡음비를 증가시키는 단계를
더 포함하는 기기.
제37항에 있어서, 상기 컴퓨터 프로그램의 상기 프로그램 명령들이
하나 이상의 객체들의 위치에 대응하는 상기 도래각-거리 프로파일 내의 피크들을 식별하는 단계를
더 포함하는 기기.
제37항에 있어서,
상기 객체가 모바일 기기 또는 사용자의 손, 사용자 몸통, 지갑, 카드, 컵, 또는 책을 포함하는 반사체를 포함하는 기기.
제37항에 있어서,
상기 거리가 상기 도래각-거리 프로파일 또는 거리 프로파일 중의 어느 하나의 피크에 기반하여 추산되는 기기.
제37항에 있어서,
상기 도래각이 상기 도래각-거리 프로파일 또는 도래각 프로파일 중의 어느 하나의 피크에 기반하여 추산되는 기기.
제37항에 있어서,
상기 기기가, 마이크들의 다른 세트들을 사용하여 복수의 도래각-거리 쌍들을 추산하고 상기 추산된 도래각-거리 쌍들을 3차원 좌표로 변환함으로써 목표의 2차원 좌표들을 3차원 좌표로 변환하는 기기.
제37항에 있어서,
상기 객체의 이전 위치 주변의 규정된 크기의 영역에 대응하는 2차원 프로파일이 생성되어 상기 객체의 현재 위치의 도출에 사용되는 기기.
기기를 제어하는 컴퓨터 프로그램을 저장하는 메모리와; 및 상기 메모리에 연결된 프로세서를 구비하는 기기로, 상기 프로세서가:
기기 내의 하나 이상의 마이크들을 사용하여 상기 사용자의 객체로부터 전송된 음향 신호를 수신하는 단계와;
상기 수신된 음향 신호의 적어도 일부를 그 주파수가 상기 수신된 신호의 도래각과 전파 거리에 비례하는 2차원 정현파로 변환하는 단계와;
상기 2차원 정현파의 주파수를 평가함으로써 상기 객체로부터 수신된 신호에 기반하는 도래각-거리 프로파일을 도출하는 단계와;
상기 도래각-거리 프로파일로부터 도래각-거리 쌍을 추산하는 단계와;
상기 추산된 도래각-거리 쌍에 기반하여 상기 객체의 현재 위치를 판단하는 단계와;
상기 객체의 이전 및 현재 위치에 기반하여 사용자가 명령을 수행하도록 운동했는지를 판단하는 단계와;
사용자가 명령을 수행하려고 운동했다는 판단에 따라 상기 기기 상에서 명령을 수행하는 단계를
포함하는 컴퓨터 프로그램의 프로그램 명령들을 실행하도록 구성된 기기.