KR20210073292A - 레이더 기반 제스처 인식 시스템 - Google Patents

레이더 기반 제스처 인식 시스템 Download PDF

Info

Publication number
KR20210073292A
KR20210073292A KR1020190163963A KR20190163963A KR20210073292A KR 20210073292 A KR20210073292 A KR 20210073292A KR 1020190163963 A KR1020190163963 A KR 1020190163963A KR 20190163963 A KR20190163963 A KR 20190163963A KR 20210073292 A KR20210073292 A KR 20210073292A
Authority
KR
South Korea
Prior art keywords
radar
data
gesture recognition
gesture
network
Prior art date
Application number
KR1020190163963A
Other languages
English (en)
Inventor
김형민
김한준
윤재준
이효련
박종희
Original Assignee
주식회사 에이치랩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에이치랩 filed Critical 주식회사 에이치랩
Priority to KR1020190163963A priority Critical patent/KR20210073292A/ko
Publication of KR20210073292A publication Critical patent/KR20210073292A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/02Systems using reflection of radio waves, e.g. primary radar systems; Analogous systems
    • G01S13/50Systems of measurement based on relative movement of target
    • G01S13/52Discriminating between fixed and moving objects or between objects moving at different speeds
    • G01S13/536Discriminating between fixed and moving objects or between objects moving at different speeds using transmission of continuous unmodulated waves, amplitude-, frequency-, or phase-modulated waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/89Radar or analogous systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/02Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
    • G01S7/41Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
    • G01S7/415Identification of targets based on measurements of movement associated with the target

Landscapes

  • Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Electromagnetism (AREA)
  • Human Computer Interaction (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

레이더 기반 제스처 인식 시스템을 개시한다. 레이더 기반 제스처 인식 방법은 기 설정된 제스처 인식 영역에서 객체에 대해 카메라를 이용하여 영상 프레임들을 획득하고, 동시에 레이더 센서를 이용하여 상기 영상 프레임들 각각에 동기화된 레이더 데이터를 획득하는 단계와, 상기 영상 프레임들에 대한 머신 러닝에 기초하여 상기 객체의 포즈(pose)를 예측한 영상 기반 포즈 데이터를 획득하고, 상기 영상 기반 포즈 데이터에 기초하여 상기 레이더 데이터에 대응하는 레이더 기반 포즈 데이터를 생성하는 단계와, 상기 레이더 기반 포즈 데이터에 기초하여 제스처 인식을 위한 학습을 수행하고 레이더 데이터에 대응하는 제스처 데이터베이스를 생성하는 단계 및 상기 기 설정된 제스처 인식 영역에서 상기 제스처 데이터베이스에 기초하여 사용자의 제스처를 인식하는 단계를 포함한다.

Description

레이더 기반 제스처 인식 시스템{Radar BASED gesture recognition system}
기술분야는 레이더 기반 제스처 인식에 관한 것으로서, 비 웨어러블 방식으로 사용자의 제스처를 인식하고 인식된 제스처에 따른 다양한 서비스를 제공하는 시스템에 관한 것이다.
레이더 기반의 휴먼 모션 인식은 환경에서 실시간으로 사용자의 핸드 제스처를 검출 및 인식하고, 핸드 제스처를 통해 디바이스를 제어할 수 있는 기술로 각광받고 있다.
레이더 기반의 휴먼 모션 인식은 광학 방식의 제스처 인식에 비해 정확하며 소형으로 구현 가능하고 비용면에서 유리한 것으로 알려져 있다. 또한, 레이더 기반의 휴먼 모션 인식은 영상을 통한 제스처 인식에 비해 처리해야할 데이터 양이 상대적으로 적고, 개인 정보 보호에 유리한 면이 있다.
최근 레이더 센서가 장착된 웨어러블 디바이스를 통해 손동작이나 팔의 움직임을 감지하는 방식이나, 광대역 대역폭을 지원하는 FMCW(Frequency Modulated Continuous Wave)를 이용한 모션 인식 기술이 제안되고 있다.
그러나, 레이더 센서가 장착된 웨어러블 디바이스를 이용한 제스처 인식은 웨어러블 디바이스에서 레이더를 송신하고 유저의 맞은편에 위치한 고정 디바이스에서 반사 신호를 수신하기 때문에 제스처의 인식이나 제공 가능한 서비스가 제한될 수 있다.
FMCW 등의 광대역 연속 파 레이더(Continuous wave Radar) 신호를 이용하는 방식은 반복적인 학습을 통해 휴먼 액션에 의한 제스처를 인식하는 방식이다. 그러나, 광대역 연속 파 레이더 신호를 이용하는 방식은 손동작이나 팔의 움직임을 인식하는데 한계가 있다.
레이더 기반 비 웨어러블 방식의 제스처 인식을 통해 다양한 서비스를 제공할 수 있는 서비스 시스템을 제공하고자 한다.
또한, 사용자 위치 기반의 제스처 인식 서비스를 통해 새로운 UI/UX(User Interface/User Experience) 및 서비스를 제공하고자 한다.
또한, 클라우드 시스템 및 서버를 통해 제스처 인식과 관련된 데이터를 수집하고, 기계 학습을 통해 제스처 인식 서비스 성능을 향상 시킬 수 있는 시스템을 제공하고자 한다.
또한, 카메라로부터 획득한 RGB image 데이터로부터 휴먼 포즈를 예측한 결과를 이용하여 레이더 센서로부터 획득한 레이더 데이터로 휴먼 포즈를 예측함으로써, 포즈 데이터베이스를 생성하고, 포즈 데이터베이스에 기초하여 레이더 센서를 통해 학습을 수행함으로써 제스처 인식을 위한 제스처 데이터베이스를 생성할 수 있는 방법 및 장치를 제공하고자 한다.
일 실시예에 따른 레이더 기반 제스처 인식 방법은, 카메라로부터 획득된 이미지 데이터를 입력 받아 스켈레톤 기반 휴먼 포즈(human pose)를 예측하는 교사 네트워크(teacher network)를 구성하는 단계와, 상기 이미지 데이터와 시간적으로 동기화된 레이더 데이터를 이용하여 레이더 기반 포즈 데이터를 생성하는 학생 네트워크(student network)를 구성하는 단계와, 상기 교사 네트워크와 상기 학생 네트워크의 합성 네트워크를 이용하여 상기 레이더 데이터가 라벨링된 이미지 데이터에 대한 학습을 수행하는 단계와, 상기 합성 네트워크의 학습 결과에 기초하여 상기 레이더 데이터에 대응하는 레이더 기반 포즈 데이터베이스를 생성하는 단계와, 기 설정된 제스처 인식 영역에서 상기 레이더 기반 포즈 데이터베이스에 기초하여 제스처 인식을 위한 학습을 수행하고 레이더 데이터에 대응하는 제스처 데이터베이스를 생성하는 단계 및 상기 기 설정된 제스처 인식 영역에서 상기 제스처 데이터베이스에 기초하여 사용자의 제스처를 인식하는 단계를 포함한다.
상기 교사 네트워크는 상기 이미지 데이터로부터 신체 부위별 특징점을 추출하여 영상 기반 신체 특징 맵(visual data based Keypoint confidence map, VD-KCM)을 생성하고, 반복 학습을 통해 신체 부위별 관련성 벡터장(part Affinity field)을 생성하고, 반복 학습을 통해 상기 영상 기반 신체 특징 맵 및 관련성 벡터장이 결합된 스켈레톤 정보를 예측할 수 있다.
상기 학생 네트워크는 연속파 레이더(Continuous wave Radar)를 송신하고 객체로부터 반사된 반사 신호를 수신하여 상기 객체에 대한 히트맵 이미지를 생성하고, 상기 히트맵 이미지를 상기 교사 네트워크로 전달하고, 상기 히트맵 이미지를 생성하는 과정을 반복 수행하여 레이더 기반 신체 특징 맵(radar signal based Keypoint confidence map, RS-KCM)을 생성할 수 있다.
상기 합성 네트워크에서 상기 학생 네트워크의 트레이닝 목표는 하기 수학식 1로 정의되고,
[수학식 1]
Figure pat00001
학습을 위한 손실함수는 하기 수학식 2로 정의되고,
[수학식 2]
Figure pat00002
여기서, I는 이미지 데이터, T(I)는 교사 네트워크를 통해 예측되는 VD-KCM, R은 히트맵 이미지, S(R)은 학생 네트워크를 통해 예측되는 RS-KCM,
Figure pat00003
는 VD-KCM 상의 (i, j)번째 픽셀에 대한 신뢰도 스코어,
Figure pat00004
는 RS-KCM 상의 (i, j)번째 픽셀에 대한 신뢰도 스코어를 의미한다.
상기 레이더 데이터는 연속파 레이더(Continuous wave Radar)를 송신하고 객체로부터 반사된 반사 신호를 수신하는 과정과, 상기 반사 신호에 대해 2-dimensional 고속 푸리에 변환을 수행하고, 거리-도플러 맵(range-doppler map)을 생성하는 과정, 및 상기 거리-도플러 맵에 기초하여 히트맵 이미지를 생성하는 과정을 통해 획득될 수 있다.
상기 사용자의 제스처를 인식하는 단계는 검출된 사용자의 제스처에 대응하는 제어 신호를 생성하되, 상기 레이더 센서가 장착된 에코 디바이스의 유저 인터페이스 설정 정보, 상기 에코 디바이스의 위치 정보, 상기 에코 디바이스에서 실행 중인 어플리케이션에 관한 정보 및 상기 에코 디바이스와 네트워크를 통해 연결된 외부 디바이스에 관한 정보 중 적어도 어느 하나에 기초하여 제어 모드를 결정하고, 상기 제어 모드에 대응하는 제어 신호를 생성하는 단계 및 상기 사용자 제스처에 대응하는 동작을 수행하는 실행부로 상기 제어 신호를 전달하는 단계를 포함할 수 있다.
다른 일 실시예에 따른 레이더 기반 제스처 인식 방법은, 기 설정된 제스처 인식 영역에서 객체에 대해 카메라를 이용하여 영상 프레임들을 획득하고, 동시에 레이더 센서를 이용하여 상기 영상 프레임들 각각에 동기화된 레이더 데이터를 획득하는 단계와, 상기 영상 프레임들에 대한 머신 러닝에 기초하여 상기 객체의 포즈(pose)를 예측한 영상 기반 포즈 데이터를 획득하고, 상기 영상 기반 포즈 데이터에 기초하여 상기 레이더 데이터에 대응하는 레이더 기반 포즈 데이터를 생성하는 단계와, 상기 레이더 기반 포즈 데이터에 기초하여 제스처 인식을 위한 학습을 수행하고 레이더 데이터에 대응하는 제스처 데이터베이스를 생성하는 단계 및 상기 기 설정된 제스처 인식 영역에서 상기 제스처 데이터베이스에 기초하여 사용자의 제스처를 인식하는 단계를 포함한다.
일 실시예에 따른 레이더 기반 제스처 인식 장치는, 카메라로부터 획득된 이미지 데이터를 입력 받아 스켈레톤 기반 휴먼 포즈(human pose)를 예측하는 교사 네트워크(teacher network)를 구성하는 교사 네트워크 처리부와, 상기 이미지 데이터와 시간적으로 동기화된 레이더 데이터를 이용하여 레이더 기반 포즈 데이터를 생성하는 학생 네트워크(student network)를 구성하는 학생 네트워크 처리부와, 상기 교사 네트워크와 상기 학생 네트워크의 합성 네트워크의 학습 결과에 기초하여 상기 레이더 데이터에 대응하는 레이더 기반 포즈 데이터를 저장하는 포즈 데이터베이스와, 기 설정된 제스처 인식 영역에서 상기 레이더 기반 포즈 데이터베이스에 기초하여 제스처 인식을 위한 학습을 수행하고 레이더 데이터에 대응하는 제스처 데이터베이스를 생성하는 제스처 데이터베이스 생성부 및 상기 기 설정된 제스처 인식 영역에서 상기 제스처 데이터베이스에 기초하여 사용자의 제스처를 인식하도록 구성된 프로세서를 포함하는 제어부를 포함한다.
다른 일 실시예에 따른 레이더 기반 제스처 인식 장치는 기 설정된 제스처 인식 영역에서 객체에 대해 카메라를 이용하여 영상 프레임들을 획득하고, 동시에 레이더 센서를 이용하여 상기 영상 프레임들 각각에 동기화된 레이더 데이터를 획득하는 데이터 획득부와, 상기 영상 프레임들에 대한 머신 러닝에 기초하여 상기 객체의 포즈(pose)를 예측한 영상 기반 포즈 데이터를 획득하고, 상기 영상 기반 포즈 데이터에 기초하여 상기 레이더 데이터에 대응하는 레이더 기반 포즈 데이터를 저장하는 포즈 데이터베이스와, 상기 레이더 기반 포즈 데이터에 기초하여 제스처 인식을 위한 학습을 수행하고 레이더 데이터에 대응하는 제스처 데이터베이스를 생성하는 제스처 데이터베이스 생성부 및 상기 기 설정된 제스처 인식 영역에서 상기 제스처 데이터베이스에 기초하여 사용자의 제스처를 인식하는 제어부를 포함한다.
레이더 기반 비 웨어러블 방식의 제스처 인식을 통해 다양한 서비스를 제공할 수 있다.
또한, 사용자 위치 기반의 제스처 인식 서비스를 통해 새로운 UI/UX(User Interface/User Experience) 및 서비스를 제공할 수 있다.
또한, 클라우드 시스템 및 서버를 통해 제스처 인식과 관련된 데이터를 수집하고, 기계 학습을 통해 제스처 인식 서비스 성능을 향상 시킬 수 있다.
또한, 카메라로부터 획득한 RGB image 데이터와 매칭되는 레이더 데이터를 이용하여 휴먼 포즈를 예측함으로써 제스처 인식을 위한 데이터베이스를 보다 정확하게 생성할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 레이더 기반 제스처 인식 서비스 시스템을 나타내는 도면이다.
도 2는 제스처 인식 서비스를 제공하기 위한 장치의 다양한 적용 예를 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 제스처 인식 서비스를 제공하기 위한 방법을 설명하기 위한 흐름도이다.
도 4는 일 실시예에 따른 제스처 데이터베이스를 생성하기 위한 포즈 데이터베이스를 획득하는 과정을 설명하기 위한 도면이다.
도 5는 일 실시예에 따른 제스처 인식 방법을 설명하기 위한 흐름도이다.
도 6은 일 실시예에 따른 제스처 인식 장치를 설명하기 위한 도면이다.
도 7은 다른 실시예에 따른 제스처 인식 장치를 설명하기 위한 도면이다.
도 8은 일 실시예에 따른 제스처 인식 서비스를 제공하기 위한 장치의 제어 모드를 설명하기 위한 도면이다.
도 9는 일 실시예에 따른 위치 기반 제스처 인식 서비스의 예를 설명하기 위한 도면이다.
이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시예를 상세하게 설명하지만, 본 발명이 실시예에 의해 제한되거나 한정되는 것은 아니다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
본 명세서에서 사용되는 "실시예", "예", "측면", "예시" 등은 기술된 임의의 양상(aspect) 또는 설계가 다른 양상 또는 설계들보다 양호하다거나, 이점이 있는 것으로 해석되어야 하는 것은 아니다.
또한, '또는' 이라는 용어는 배타적 논리합 'exclusive or' 이기보다는 포함적인 논리합 'inclusive or' 를 의미한다. 즉, 달리 언급되지 않는 한 또는 문맥으로부터 명확하지 않는 한, 'x가 a 또는 b를 이용한다' 라는 표현은 포함적인 자연 순열들(natural inclusive permutations) 중 어느 하나를 의미한다.
또한, 본 명세서 및 청구항들에서 사용되는 단수 표현("a" 또는 "an")은, 달리 언급하지 않는 한 또는 단수 형태에 관한 것이라고 문맥으로부터 명확하지 않는 한, 일반적으로 "하나 이상"을 의미하는 것으로 해석되어야 한다.
또한, 본 명세서 및 청구항들에서 사용되는 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
한편, 본 발명을 설명함에 있어서, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는, 그 상세한 설명을 생략할 것이다. 그리고, 본 명세서에서 사용되는 용어(terminology)들은 본 발명의 실시예를 적절히 표현하기 위해 사용된 용어들로서, 이는 사용자, 운용자의 의도 또는 본 발명이 속하는 분야의 관례 등에 따라 달라질 수 있다. 따라서, 본 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 레이더 기반 제스처 인식 서비스 시스템을 나타내는 도면이다.
도 1을 참조하면, 레이더 기반 휴먼 모션 인식 서비스 시스템은 제스처 인식 서비스를 제공하기 위한 장치(120) 및 서버/클라우드(130)을 포함한다.
제스처 인식 서비스를 제공하기 위한 장치(120)는 레이더 센서(121)의 제스처 인식 영역(211)에서 사용자(110)의 제스처를 인식할 수 있다.
이때, 제스처 인식 영역(211)은 사용자(110)의 손 또는 팔의 움직임을 감지하는 영역일 수 있다. 따라서, 사용자 입장에서 제스처 인식 영역(211)은 손 또는 팔을 움직임이는 공간(111)으로 인식할 수 있다.
제스처 인식 영역(211)은 손 또는 팔을 움직임이는 공간(111) 보다 크거나 작은 공간일 수 있다. 다만, 본 명세서에서 설명의 편의를 위해 제스처 인식 영역(211)은 손 또는 팔을 움직임이는 공간(111)과 동일한 개념으로 설명하기로 한다.
서버/클라우드(130)는 네트워크를 통해 장치(120)와 연결되는 클라우드 시스템 또는 서비스를 제공하기 위한 서버 시스템일 수 있다.
장치(120)는 제스처 인식을 위해 수집되는 모든 데이터를 서버/클라우드(130)로 전송할 수 있다.
서버/클라우드(130)는 장치(120)로부터 수집되는 데이터에 기초하여 기계 학습을 통해 제스처 인식 성능을 개선할 수 있다.
제스처 인식을 위한 학습 과정은 레이더 센서의 최적화를 위한 레이더 센서 설정 정보를 장치(120)로 전송하고, 장치(120)로부터 설정 완료 신호를 수신하는 과정, 학습을 위한 데이터를 장치(120)로부터 수신하는 과정, 학습 모델의 파라미터를 결정하는 과정을 포함할 수 있다.
이때, 레이더 센서의 최적화는 데이터 슬라이스의 조정, 칩 시그널의 Frame Sequence 조정, 아날로그 디지털 컨버팅을 위한 샘플 레이트 조정 등을 포함할 수 있다.
학습 모델의 파라미터를 결정하는 과정은 Sampling data quantity, Sampling data interval 조정, 최적화 알고리즘 조정 등을 포함할 수 있다.
또한, 서버/클라우드(130)는 장치(120)로부터 제어 신호를 수신하고, 제어 신호에 따른 동작을 수행하는 다른 장치로 제어 신호를 전달할 수도 있다.
한편, 제스처 인식 서비스를 제공하기 위한 장치(120)는 레이더 센서가 장착된 다양한 형태의 디바이스 일 수 있다. 예를 들어, 장치(120)는 제스처 인식 기반의 UX/UI를 제공하는 스마트폰, 텔레비전, 컴퓨터, 자동차, 도어 폰, 게임 컨트롤러 일 수 있다. 또한, 장치(120)는 USB 등의 커넥터를 통해 스마트 폰과 연결되는 형태로 구성될 수도 있다.
레이더 센서(121)는 기 설정된 레이더 인식 영역에서 사용자의 제스처를 검출한다.
레이더 센서(121)는 IR-UWB(Impulse-Radio Ultra Wideband) 레이더 센서 및 FMCW(Frequency Modulated Continuous Wave) 레이더 센서와 같은 레이더 기반의 모션 인식을 위한 센서일 수 있다.
레이더 센서(121)를 이용함으로써, 근거리에서 손가락 제스처를 인지하는 초정밀 모션 인식이 가능하고, 영상 기반의 모션 인식 대비 개인의 프라이버시 침해 이슈를 회피할 수 있는 장점이 있다.
도 2는 제스처 인식 서비스를 제공하기 위한 장치의 다양한 적용 예를 설명하기 위한 도면이다.
본 명세서에서 레이더 센서(121)가 장착된 장치(120)는 '에코 디바이스(Echo Device)'라 칭하고, 레이더 센서(121)가 장착된 장치(120)로부터 '제어 신호'를 전달받아 사용자 제스처에 대응하는 동작을 수행하는 외부 장치는 '외부 디바이스'라 칭하기로 한다.
'제어 신호'는 제스처를 인식한 결과로 사용자의 제스처에 대응하는 동작을 수행시키기 위한 명령 내지 데이터를 의미한다.
예를 들어, 사용자의 손가락 동작이 어떤 움직임인지를 인식한 결과 해당 움직임이 특정 어플리케이션을 실행시키기 위한 동작인 경우, '제어 신호'는 특정 어플리케이션의 실행 명령일 수 있다.
또 다른 예로, 사용자의 손 동작이 현관에 설치된 도어 락을 해제하는 기 설정된 비밀번호에 해당하는 경우 '제어 신호'는 손 동작에 의해 '정확한 비밀번호가 입력되었고 도어 락을 해제하라'는 명령일 수 있다.
예를 들어, 레이더 센서가 장착된 차량의 경우 에코 디바이스로 구분할 수 있다. 또한, 레이더 센서가 장착된 스마트폰으로부터 네트워크를 통해 제어 신호를 수신한 후 인식된 제스처에 따른 동작을 수행하는 홈네트워크 시스템의 경우 외부 디바이스라 칭할 수 있다.
도 2를 참조하면, 에코 디바이스는 스마트폰(121-1), 게임 컨트롤러(120-2), 도어 폰(120-3), 및 커넥터를 통해 스마트 디바이스(120-4)와 연결될 수 있는 장치(121-1)일 수 있다.
예를 들어, 에코 디바이스는 스마트폰(121-1)과 같은 모바일 단말일 수 있다.
이때, 도 1의 장치(120)에 구비된 프로세서는 모바일 단말의 위치 정보에 기초하여 홈 서비스 영역, 주거지 영역, 공공 서비스 영역 차량 내부 영역 및 사용자가 기 지정한 영역 중 어느 하나의 영역을 결정하고, 결정된 영역에서 제공되는 제스처 인식 서비스를 확인하고, 확인된 제스처 인식 서비스 영역에 기초하여 제어 모드를 결정할 수 있다.
이때, 도 1의 장치(120)는 모바일 단말의 위치 정보에 기초하여 제스처 인식 서비스를 제공하는 외부 디바이스의 수행부에게 상기 제어 신호를 전달할 수 있다.
만일, 제어 모드가 내부 디바이스 제어 모드인 경우 에코 디바이스는 홈 서비스 영역, 주거지 영역, 공공 서비스 영역, 차량 내부 영역 및 사용자가 기 지정한 영역 중 어느 하나의 영역에 설치된 디바이스이고, 상기 프로세서는 사용자 제스처가 인식되면 기 설정된 제어 모드에 따라 상기 제어 신호를 생성할 수 있다.
도 3은 일 실시예에 따른 제스처 인식 서비스를 제공하기 위한 방법을 설명하기 위한 흐름도이다.
도 3에 도시된 방법은 도 1의 제스처 인식 서비스를 제공하기 위한 장치(120), 도 2에 도시된 다양한 장치들, 도 6 또는 도 7에 도시된 장치에 의해 수행될 수 있다.
310단계에서 장치는 레이더 신호에 대응하는 제스처 데이터베이스를 생성한다.
레이더 신호에 대응하는 제스처 데이터베이스를 생성하는 방법은 크게 2가지 방식이 있을 수 있다.
첫 번째는 방법은 사용자에게 정해진 제스처를 취하도록 유도하고, 해당 제스처에 의해 발생하는 반사 신호의 특성을 반복 학습 함으로써, 제스처와 레이더 신호를 매칭하는 방식이다.
두 번째는 카메라로부터 획득되는 영상 프레임들로부터 학습된 결과를 이용하여 레이더로부터 획득되는 레이더 데이터를 학습시킴으로써 포즈 데이터베이스를 획득한 후, 포즈 데이터베이스에 기초하여 다시 학습을 수행하여 제스처 데이터베이스를 생성하는 방식이다.
두 번째 방식은 도 4 내지 도 5를 통해 상세히 설명하기로 한다.
사용자에게 정해진 제스처를 취하도록 유도하고, 해당 제스처에 의해 발생하는 반사 신호의 특성을 반복 학습 함에 있어서, 단일 레이더를 사용하거나 레이더 파라미터가 상이한 다중 레이더를 사용할 수 있다.
320단계에서 장치는 레이더 신호를 송신하고 객체에 의해 발생하는 반사 신호를 수신할 수 있다.
330단계에서 장치는 반사 신호에 대한 신호처리를 수행하고, 신호 처리된 결과를 제스처 데이터베이스와 비교하여 제스처를 인식할 수 있다.
340단계에서 장치는 인식된 제스처에 대응하는 동작을 실행할 수 있다.
이때, 장치는 사용자의 제스처에 대응하는 제어 신호를 생성할 수 있다.
장치는 상기 레이더 센서가 장착된 디바이스의 유저 인터페이스 설정 정보, 상기 레이더 센서가 장착된 디바이스의 위치 정보, 상기 디바이스에서 실행 중인 어플리케이션에 관한 정보 및 상기 디바이스와 네트워크를 통해 연결된 외부 장치에 관한 정보 중 적어도 어느 하나에 기초하여 제어 모드를 결정하고, 상기 제어 모드에 대응하는 제어 신호를 생성할 수 있다. 이때, 제어 신호가 에코 디바이스의 제어에 관한 것이면, 장치는 제스처에 대응하는 동작을 수행한다.
이때, 장치는 사용자 제스처에 대응하는 동작을 수행하는 실행부(내부 또는 외부 장치에 설치된 실행부)로 상기 제어 신호를 전달할 수 있다.
도 4는 일 실시예에 따른 제스처 데이터베이스를 생성하기 위한 포즈 데이터베이스를 획득하는 과정을 설명하기 위한 도면이다.
일 실시예에 따른 포즈 데이터베이스를 획득하는 방법은 Teacher-Student Network으로 이루어진 학습 네트워크를 이용하는 것이다.
교사 네트워크(410)는 기 설정된 제스처 인식 영역에서 객체에 대해 카메라(430)를 이용하여 영상 프레임들을 획득하고, 동시에 학생 네트워크(420)는 레이더 센서(440)를 이용하여 상기 영상 프레임들 각각에 동기화된 레이더 데이터를 획득한다.
일반적으로, 영상 프레임들 또는 이미지 데이터를 이용하여 휴먼 포즈를 예측하는 모델은 기 학습된 모델을 이용하여 정확도 및 인식율이 높을 수 있다. 따라서, 교사 네트워크(410)는 영상 프레임들 또는 이미지 데이터에 대해 영상 프레임들에 대한 머신 러닝에 기초하여 객체의 포즈(pose)를 정확하게 예측함으로써, 객체의 포즈(pose)를 예측한 영상 기반 포즈 데이터를 획득할 수 있다.
교사 네트워크(410)와 학생 네트워크(420)로 입력되는 영상 프레임들 각각에 레이더 데이터를 라벨링함으로써, 영상 기반 포즈 데이터에 기초하여 레이더 데이터에 대응하는 레이더 기반 포즈 데이터를 생성할 수 있다.
보다 구체적으로, 영상 프레임들을 입력 받아 스켈레톤 기반 휴먼 포즈(human pose)를 예측하는 교사 네트워크(teacher network)(410) 및 레이더 데이터에 기초하여 레이더 기반 포즈 데이터를 생성하는 학생 네트워크(420)를 구성할 수 있다.
교사 네트워크(410)와 학생 네트워크(420)의 합성 네트워크(convolutional network or cross modal network)를 이용하여 레이더 데이터가 라벨링된 영상 프레임들에 대한 학습을 수행할 수 있다.
이때, 레이더 기반 포즈 데이터에 기초하여 동적인 제스처를 인식하기 위해서는 동적인 제스처와 포즈 데이터를 매칭하기 위한 학습을 수행해야 한다. 이때, 포즈 데이터베이스에 기초하여 동적인 제스처를 학습하는 과정에서는 교사 네트워크(410)는 필요하지 않게 된다.
레이더 기반 포즈 데이터베이스가 생성되면, 레이더 기반 포즈 데이터에 기초하여 제스처 인식을 위한 학습을 수행하고 레이더 데이터에 대응하는 제스처 데이터베이스를 생성할 수 있고, 기 설정된 제스처 인식 영역에서 상기 제스처 데이터베이스에 기초하여 사용자의 제스처를 인식할 수 있다.
도 5는 일 실시예에 따른 제스처 인식 방법을 설명하기 위한 흐름도이다.
도 5를 참조하면, 510단계에서 장치는 카메라로부터 획득된 이미지 데이터를 입력 받아 스켈레톤 기반 휴먼 포즈(human pose)를 예측하는 교사 네트워크(teacher network)를 구성한다.
이때, 이미지 데이터는 카메라로부터 획득되는 RGB image이고, 영상 프레임들을 의미한다.
520단계에서 장치는 이미지 데이터와 시간적으로 동기화된 레이더 데이터를 이용하여 레이더 기반 포즈 데이터를 생성하는 학생 네트워크(student network)를 구성한다.
530단계에서 장치는 교사 네트워크와 상기 학생 네트워크의 합성 네트워크를 이용하여 상기 레이더 데이터가 라벨링된 이미지 데이터에 대한 학습을 수행한다.
이때, 교사 네트워크는 이미지 데이터로부터 신체 부위별 특징점을 추출하여 영상 기반 신체 특징 맵(visual data based Keypoint confidence map, VD-KCM)을 생성하고, 반복 학습을 통해 신체 부위별 관련성 벡터장(part Affinity field)을 생성하고, 반복 학습을 통해 상기 영상 기반 신체 특징 맵 및 관련성 벡터장이 결합된 스켈레톤 정보를 예측할 수 있다.
이때, 학생 네트워크는 연속파 레이더(Continuous wave Radar)를 송신하고 객체로부터 반사된 반사 신호를 수신하여 상기 객체에 대한 히트맵 이미지를 생성하고, 상기 히트맵 이미지를 상기 교사 네트워크로 전달하고, 상기 히트맵 이미지를 생성하는 과정을 반복 수행하여 레이더 기반 신체 특징 맵(radar signal based Keypoint confidence map, RS-KCM)을 생성할 수 있다.
합성 네트워크에서 상기 학생 네트워크의 트레이닝 목표는 RS-KCM과 VD-KCM의 차이를 최소화하는 것으로, 수학식 1로 정의될 수 있다.
[수학식 1]
Figure pat00005
합성 네트워크에서 학습을 위한 손실 함수는 각각의 KCM 내의 각 픽셀의 바이너리 크로스 엔트로피(binary cross entropy) 손실의 합으로 정의될 수 있고, 수학식 2와 같이 정의될 수 있다.
[수학식 2]
Figure pat00006
여기서, I는 이미지 데이터, T(I)는 교사 네트워크를 통해 예측되는 VD-KCM, R은 히트맵 이미지, S(R)은 학생 네트워크를 통해 예측되는 RS-KCM,
Figure pat00007
는 VD-KCM 상의 (i, j)번째 픽셀에 대한 신뢰도 스코어(confidence score),
Figure pat00008
는 RS-KCM 상의 (i, j)번째 픽셀에 대한 신뢰도 스코어를 의미한다.
이때, 레이더 데이터는 연속파 레이더(Continuous wave Radar)를 송신하고 객체로부터 반사된 반사 신호를 수신하는 과정과, 상기 반사 신호에 대해 2-dimensional 고속 푸리에 변환을 수행하고, 거리-도플러 맵(range-doppler map)을 생성하는 과정, 및 상기 거리-도플러 맵에 기초하여 히트맵 이미지를 생성하는 과정을 통해 획득될 수 있다.
이때, 2-dimensional 고속 푸리에 변환은 수학식 3과 같이 정의될 수 있고, 거리-도플러 맵을 생성하기 위한 거리-도플러 관계는 수학식 4와 같이 정의될 수 있다.
[수학식 3]
Figure pat00009
[수학식 4]
Figure pat00010
여기서, 2-dimensional 고속 푸리에 변환은 t번째 프레임의 l번째 반사파 신호인 s(n, l, t)를(n은 송신안테나 인덱스) frequency domain으로 변환하여 복소수 Matrix인 S(p, q, t)로 만들고, Frequency domain상의 복소매트릭스인 S(p, q, t)를 켤레복소수 Magnitude로 나누어 일종의 단위벡터값인 RD(r, v, t)로 변환할 수 있다.
이때, N x L은 한번에 변환하는 매트릭스의 사이즈를 정하는 frequency bins의 사이즈이고, r은 대상과의 거리(range), v는 대상의 속도(velocity)를 의미한다.
합성 네트워크에서 교사 네트워크와 학생 네트워크의 지식 브리지는 동일 시간에 획득되어 시간적으로 동기화된 이미지 데이터들과 레이더 데이터들이다.
교사 네트워크는 기 학습된 결과를 이용하여 현재 입력되는 레이더 신호와 라벨링된 이미지 데이터를 입력 받아 학습을 수행하여 영상 기반 포즈 데이터에 해당하는 스켈레톤 정보를 예측할 수 있다.
이를 위해 교사 네트워크는 2D pose estimate network인 Open Pose deep neural network를 이용할 수 있다.
Open Pose deep neural network는 입력되는 이미지로부터 신체 부분을 검출하기 위한 confidence map과 part affinity field를 추출하고, confidence map과 part affinity field를 결합하여 스켈레톤 기반의 포즈 예측을 수행할 수 있다.
교사 네트워크는 먼저 수학식 5로 정의되는 confidence map을 정의한다.
[수학식 5]
Figure pat00011
여기서, j는 손가락 마디, 관절, 무릎 등으로 구분지어 질 수 있는 시각적 부분(visual part or body part)의 인덱스이고, k는 이미지 내에 존재하는 사람의 수를 나타내는 인덱스, Xj,k는 이미지에서 신체 부위의 진위 위치(groundtruth position of body part), 이때,
Figure pat00012
이고,
Figure pat00013
는 confidence map에서 피크값의 확산을 제어하는 상수이고,
Figure pat00014
는 confidence map
Figure pat00015
안의 P라는 위치(
Figure pat00016
)에서의 값을 나타낸다.
교사 네트워크에서 예측되는 confidence map은 수학식 6과 같이 정의되는 Max Operator에 의해 병합(aggregation)될 수 있다.
[수학식 6]
Figure pat00017
교사 네트워크의 훈련과정에서 part affinity field를 추출하기 위해 groundtruth part affinity vector field는 수학식 7과 같이 정의될 수 있다.
[수학식 7]
Figure pat00018
여기서, limb은 손가락 마디 또는 팔뚝과 같이 2개의 특징 점으로 표현될 수 있는 신체 부분을 의미하고, limb 방향의 단위 벡터는 아래와 같이 정의될 수 있고,
Figure pat00019
Xj1,k는 Xj2,k 는 각각 이미지 내에서 k라는 사람의 관절과 관절을 의미하는 포인트 또는 위치를 의미하고, c는 limb의 인덱스를 의미한다.
540단계에서 장치는 합성 네트워크의 학습 결과에 기초하여 상기 레이더 데이터에 대응하는 레이더 기반 포즈 데이터베이스를 생성한다.
550단계에서 장치는 기 설정된 제스처 인식 영역에서 상기 레이더 기반 포즈 데이터베이스에 기초하여 제스처 인식을 위한 학습을 수행하고 레이더 데이터에 대응하는 제스처 데이터베이스를 생성한다.
560단계에서 장치는 상기 기 설정된 제스처 인식 영역에서 상기 제스처 데이터베이스에 기초하여 사용자의 제스처를 인식한다.
도 6은 일 실시예에 따른 제스처 인식 장치를 설명하기 위한 도면이다.
도 6을 참조하면, 제스처 인식 장치는 레이더(610), 안테나부(620), 제어부(630), 통신부(640) 및 제스처 데이터베이스(650)을 포함한다.
레이더(610)는 레이더 신호를 송신한다.
안테나부(620)는 송신된 레이더 신호에 대해 오브젝트로부터 반사된 신호를 수신한다. 이때, 안테나부(620)는 모노 펄스 안테나, 위상 배열 안테나, 또는 다채널 수신기 구조의 배열 안테나로 구성될 수 있다.
제어부(630)는 적어도 하나의 프로세서를 포함할 수 있다. 이때 제어부(330)는 명령어(instructions) 또는 프로그램이 기록된 적어도 하나의 컴퓨터 인식 가능 스토리지(one or more computer - readable storage media)와 연결될 수 있다.
제어부(630)는 기 설정된 제스처 인식 영역에서 상기 제스처 데이터베이스에 기초하여 사용자의 제스처를 인식하도록 구성된 프로세서를 포함할 수 있다.
통신부(640)는 외부 서버 또는 디바이스와 유무선 네트워크를 통해 데이터를 송수신 할 수 있다.
제스처 데이터베이스(650)는 기 설정된 제스처 인식 영역에서 상기 레이더 기반 포즈 데이터베이스에 기초하여 제스처 인식을 위한 학습을 수행함으로써 생성된 데이터베이스이다.
도 7은 다른 실시예에 따른 제스처 인식 장치를 설명하기 위한 도면이다.
도 7을 참조하면, 제스처 인식 장치는 교사 네트워크 처리부(710), 학생 네트워크 처리부(720), 포즈 데이터베이스(730), 제스처 데이터베이스 생성부(740) 및 제어부(750)를 포함한다.
교사 네트워크 처리부(710)는 카메라로부터 획득된 이미지 데이터를 입력 받아 스켈레톤 기반 휴먼 포즈(human pose)를 예측하는 교사 네트워크(teacher network)를 구성한다.
학생 네트워크 처리부(720)는 이미지 데이터와 시간적으로 동기화된 레이더 데이터를 이용하여 레이더 기반 포즈 데이터를 생성한다.
포즈 데이터베이스(730)는 상기 교사 네트워크와 상기 학생 네트워크의 합성 네트워크의 학습 결과에 기초하여 상기 레이더 데이터에 대응하는 레이더 기반 포즈 데이터를 저장한다.
제스처 데이터베이스 생성부(740)는 기 설정된 제스처 인식 영역에서 상기 레이더 기반 포즈 데이터베이스에 기초하여 제스처 인식을 위한 학습을 수행하고 레이더 데이터에 대응하는 제스처 데이터베이스를 생성한다.
제어부(750)는 기 설정된 제스처 인식 영역에서 상기 제스처 데이터베이스에 기초하여 사용자의 제스처를 인식하도록 구성된 프로세서를 포함한다.
한편, 도 7에 도시되지 않았지만 장치는 기 설정된 제스처 인식 영역에서 객체에 대해 카메라를 이용하여 영상 프레임들을 획득하고, 동시에 레이더 센서를 이용하여 상기 영상 프레임들 각각에 동기화된 레이더 데이터를 획득하는 데이터 획득부를 더 포함할 수 있다.
도 8은 일 실시예에 따른 제스처 인식 서비스를 제공하기 위한 장치의 제어 모드를 설명하기 위한 도면이다.
도 8을 참조하면, 사용자의 제스처가 검출되면 810 단계에서 장치는 에코 디바이스 제어 모드 인지를 확인한다.
에코 디바이스 제어 모드인지 여부는 장치의 제스처 인식이 활성화되어 있거나 인식된 제스처가 내부 디바이스 제어를 위한 동작인 경우일 수 있다.
또한, 장치의 제스처 인식은 활성화 되어 있으나 디바이스 설정이 외부 디바이스 제어 모드로 설정되어 있는 경우와 사용자의 제스처가 외부 디바이스 제어를 위한 동작인 경우 외부 디바이스 제어 모드로 결정될 수 있다.
또한, 현재 에코 디바이스에서 실행 중인 어플리케이션을 통해 외부 디바이스를 제어하도록 설정된 경우, 장치는 에코 디바이스와 외부 디바이스를 모두 제어하기 위한 모드로 동작할 수 있다.
예를 들어, 현재 에코 디바이스에서 실행중인 어플리케이션이 홈 네트워크에 연결된 온도 조절 어플리케이션인 경우, 사용자의 제스처는 온도 조절에 관한 것일 수 있다. 이때, 장치는 제어 신호를 네트워크를 통해 외부 디바이스로 전송하도록 통신부를 제어하는 것과 외부 디바이스에서 온도 조절을 하도록 제어하는 데이터를 포함할 수 있다.
한편, 에코 디바이스라고 해서 반드시 도 8에 도시된 흐름으로 제어 모드를 판단하는 것은 아니다. 즉, 장치의 최초 설치 단계에서부터 외부 디바이스와 연동되지 않는 경우 도 8에 도시된 흐름도가 적용되지 않을 수 있다. 예를 들어, 도어 폰에 레이더 센서가 장착되어 있고 단순히 비밀 번호에 해당하는 제스처 만을 인식하도록 설정된 경우 도 8의 흐름도는 적용되지 않는다.
810 단계의 판단 결과 에코 디바이스 제어 모드가 아닌 경우, 820 단계에서 장치는 외부 디바이스 제어 모드로 판단하고 인식되는 제스처에 따른 제어 신호를 생성한 후, 830단계에서 제어 신호를 외부 디바이스에게 전달할 수 있다.
810 단계의 판단 결과 에코 디바이스 제어 모드인 경우 장치는 840 단계에서 위치 정보 연동이 필요한지 여부를 판단한다.
위치 정보 연동이 필요한 경우는 사용자의 제스처가 위치 정보 연동 서비스가 필요한 동작으로 인식된 경우 또는 디바이스의 설정이 위치 정보 기반 서비스가 활성화 되어 있는 경우일 수 있다.
위치 정보 연동이 필요 없는 경우 850 단계에서 장치는 사용자 제스처에 대응하는 제어 신호를 생성하고, 수행부로 제어 신호를 전달한다.
위치 정보 연동이 필요한 경우, 장치는 860 단계에서 위치 정보를 확인하고 870 단계에서 위치 기반 제어 신호를 생성한다.
이때 위치 기반 제어 신호는 위치, 장소, 특정 공간에 따라 서로 다른 서비스를 제공하는 제어 신호를 의미한다.
예를 들어, 사용자의 동일한 손동작도 위치에 따라, 장소에 따라 다른 입력 명령으로 인식될 수 있다.
880 단계에서 장치는 제어 신호를 수행부로 전달함으로써, 사용자의 제스처에 대응하는 동작이 수행되도록 수행부를 제어한다.
도 9는 일 실시예에 따른 위치 기반 제스처 인식 서비스의 예를 설명하기 위한 도면이다.
도 9를 참조하면, 위치 기반 제스처 인식 서비스는 홈 서비스 영역(910), 주거지 서비스 영역(920) 및 비 주거지 서비스 영역(930) 중 적어도 어느 하나를 포함할 수 있다.
각 영역에 설치된 장치들(120-1, 120-2, 120-3, 120-4)은 각각 레이더 센서가 장착된 에코 디바이스일 수 있다. 다라서, 각 영역에 설치된 장치들(120-1, 120-2, 120-3, 120-4)로부터 수집된 데이터들은 서버/클라우드(130)로 전송될 수 있다.
또한, 각 영역에서 사용자는 모바일 단말(120)을 통해 제스처를 인식시키거나 각 영역에 설치된 장치들(120-1, 120-2, 120-3, 120-4)을 통해 직접 제스처를 인식 시킬 수도 있다.
예를 들어, 사용자(110)가 차량이 주차된 영역(940)으로 진입하면 모바일 단말(120)의 제스처 인식은 비활성화 되고, 차량에 설치된 에코 디바이스(120-4)의 제스처 인식 영역(211-7)에서 제스처를 인식함으로써, 도어 열림 또는 시동 걸림 등의 제어 신호를 생성하고, 제어 신호에 따른 동작이 수행될 수 있다.
또한, 위치 기반 제스처 인식 서비스는 특정 장소, 예를 들어 영화관, 박람회장, 전시회장을 포함할 수도 있다.
또한, 위치 기반 제스처 인식 서비스는 자동차(940) 내부 영역을 포함할 수 있고, 자동차(940)의 이동에 따른 위치 정보를 고려하여 위치 기반 서비스를 제공할 수 있다.
이때, 위치 기반 서비스는 사용자의 동일한 손동작이라도 위치에 따라 다른 명령을 전달하기 위한 제어 신호를 생성하는 것을 포함한다. 본 명세서에서 위치에 따라 다른 명령을 전달하기 위한 사용자의 제스처 및 제어 신호는 연속된 동작으로 정의되는 '제어 언어들'이라고 표현될 수 있다.
예를 들어 홈 서비스 영역에서 사용자의 연속된 손동작은 홈 서비스 영역에 설치된 각종 장치들을 제어하기 위한 수단으로 사용될 수 있다.
또한, 사용자의 동일한 연속된 손동작을 주거지 서비스 영역(920)에 설치된 장치(120-1)는 엘리베이터 제어, 주차장과 관련된 서비스 등으로 인식하도록 설정될 수 있다.
한편, 어느 하나의 영역에는 복수의 에코 디바이스들(120-2, 120-3)이 설치된 영역이 있을 수 있다. 이때, 사용자의 동작 인식은 에코 디바이스 별로 인식 가능한 공간이 구분되어 있으므로, 디바이스별 구분된 공간에서 다양한 제스처 인식 서비스의 제공이 가능하다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (16)

  1. 카메라로부터 획득된 이미지 데이터를 입력 받아 스켈레톤 기반 휴먼 포즈(human pose)를 예측하는 교사 네트워크(teacher network)를 구성하는 단계;
    상기 이미지 데이터와 시간적으로 동기화된 레이더 데이터를 이용하여 레이더 기반 포즈 데이터를 생성하는 학생 네트워크(student network)를 구성하는 단계;
    상기 교사 네트워크와 상기 학생 네트워크의 합성 네트워크를 이용하여 상기 레이더 데이터가 라벨링된 이미지 데이터에 대한 학습을 수행하는 단계;
    상기 합성 네트워크의 학습 결과에 기초하여 상기 레이더 데이터에 대응하는 레이더 기반 포즈 데이터베이스를 생성하는 단계;
    기 설정된 제스처 인식 영역에서 상기 레이더 기반 포즈 데이터베이스에 기초하여 제스처 인식을 위한 학습을 수행하고 레이더 데이터에 대응하는 제스처 데이터베이스를 생성하는 단계; 및
    상기 기 설정된 제스처 인식 영역에서 상기 제스처 데이터베이스에 기초하여 사용자의 제스처를 인식하는 단계를 포함하는
    레이더 기반 제스처 인식 방법.
  2. 제1항에 있어서,
    상기 교사 네트워크는
    상기 이미지 데이터로부터 신체 부위별 특징점을 추출하여 영상 기반 신체 특징 맵(visual data based Keypoint confidence map, VD-KCM)을 생성하고,
    반복 학습을 통해 신체 부위별 관련성 벡터장(part Affinity field)을 생성하고,
    반복 학습을 통해 상기 영상 기반 신체 특징 맵 및 관련성 벡터장이 결합된 스켈레톤 정보를 예측하는 것을 특징으로 하는
    레이더 기반 제스처 인식 방법.
  3. 제2항에 있어서,
    상기 학생 네트워크는
    연속파 레이더(Continuous wave Radar)를 송신하고 객체로부터 반사된 반사 신호를 수신하여 상기 객체에 대한 히트맵 이미지를 생성하고,
    상기 히트맵 이미지를 상기 교사 네트워크로 전달하고, 상기 히트맵 이미지를 생성하는 과정을 반복 수행하여 레이더 기반 신체 특징 맵(radar signal based Keypoint confidence map, RS-KCM)을 생성하는
    레이더 기반 제스처 인식 방법.
  4. 제3항에 있어서,
    상기 합성 네트워크에서 상기 학생 네트워크의 트레이닝 목표는 하기 수학식 1로 정의되고,
    [수학식 1]
    Figure pat00020

    학습을 위한 손실함수는 하기 수학식 2로 정의되는,
    [수학식 2]
    Figure pat00021

    여기서, I는 이미지 데이터, T(I)는 교사 네트워크를 통해 예측되는 VD-KCM, R은 히트맵 이미지, S(R)은 학생 네트워크를 통해 예측되는 RS-KCM,
    Figure pat00022
    는 VD-KCM 상의 (i, j)번째 픽셀에 대한 신뢰도 스코어,
    Figure pat00023
    는 RS-KCM 상의 (i, j)번째 픽셀에 대한 신뢰도 스코어인,
    레이더 기반 제스처 인식 방법.
  5. 제1항에 있어서,
    상기 레이더 데이터는 하기 과정을 통해 획득되는,
    연속파 레이더(Continuous wave Radar)를 송신하고 객체로부터 반사된 반사 신호를 수신하는 과정과,
    상기 반사 신호에 대해 2-dimensional 고속 푸리에 변환을 수행하고, 거리-도플러 맵(range-doppler map)을 생성하는 과정, 및
    상기 거리-도플러 맵에 기초하여 히트맵 이미지를 생성하는 과정,
    레이더 기반 제스처 인식 방법.
  6. 제1항에 있어서,
    상기 사용자의 제스처를 인식하는 단계는
    검출된 사용자의 제스처에 대응하는 제어 신호를 생성하되, 상기 레이더 센서가 장착된 에코 디바이스의 유저 인터페이스 설정 정보, 상기 에코 디바이스의 위치 정보, 상기 에코 디바이스에서 실행 중인 어플리케이션에 관한 정보 및 상기 에코 디바이스와 네트워크를 통해 연결된 외부 디바이스에 관한 정보 중 적어도 어느 하나에 기초하여 제어 모드를 결정하고, 상기 제어 모드에 대응하는 제어 신호를 생성하는 단계; 및
    상기 사용자 제스처에 대응하는 동작을 수행하는 실행부로 상기 제어 신호를 전달하는 단계를 포함하는
    레이더 기반 제스처 인식 방법.
  7. 기 설정된 제스처 인식 영역에서 객체에 대해 카메라를 이용하여 영상 프레임들을 획득하고, 동시에 레이더 센서를 이용하여 상기 영상 프레임들 각각에 동기화된 레이더 데이터를 획득하는 단계;
    상기 영상 프레임들에 대한 머신 러닝에 기초하여 상기 객체의 포즈(pose)를 예측한 영상 기반 포즈 데이터를 획득하고, 상기 영상 기반 포즈 데이터에 기초하여 상기 레이더 데이터에 대응하는 레이더 기반 포즈 데이터를 생성하는 단계;
    상기 레이더 기반 포즈 데이터에 기초하여 제스처 인식을 위한 학습을 수행하고 레이더 데이터에 대응하는 제스처 데이터베이스를 생성하는 단계; 및
    상기 기 설정된 제스처 인식 영역에서 상기 제스처 데이터베이스에 기초하여 사용자의 제스처를 인식하는 단계를 포함하는
    레이더 기반 제스처 인식 방법.
  8. 제7항에 있어서,
    상기 레이더 기반 포즈 데이터를 생성하는 단계는
    상기 영상 프레임들을 입력 받아 스켈레톤 기반 휴먼 포즈(human pose)를 예측하는 교사 네트워크(teacher network) 및 상기 레이더 데이터에 기초하여 상기 레이더 기반 포즈 데이터를 생성하는 학생 네트워크를 구성하는 단계; 및
    상기 교사 네트워크와 상기 학생 네트워크의 합성 네트워크를 이용하여 상기 레이더 데이터가 라벨링된 영상 프레임들에 대한 학습을 수행하는 단계를 포함하는
    레이더 기반 제스처 인식 방법.
  9. 카메라로부터 획득된 이미지 데이터를 입력 받아 스켈레톤 기반 휴먼 포즈(human pose)를 예측하는 교사 네트워크(teacher network)를 구성하는 교사 네트워크 처리부;
    상기 이미지 데이터와 시간적으로 동기화된 레이더 데이터를 이용하여 레이더 기반 포즈 데이터를 생성하는 학생 네트워크(student network)를 구성하는 학생 네트워크 처리부;
    상기 교사 네트워크와 상기 학생 네트워크의 합성 네트워크의 학습 결과에 기초하여 상기 레이더 데이터에 대응하는 레이더 기반 포즈 데이터를 저장하는 포즈 데이터베이스;
    기 설정된 제스처 인식 영역에서 상기 레이더 기반 포즈 데이터베이스에 기초하여 제스처 인식을 위한 학습을 수행하고 레이더 데이터에 대응하는 제스처 데이터베이스를 생성하는 제스처 데이터베이스 생성부; 및
    상기 기 설정된 제스처 인식 영역에서 상기 제스처 데이터베이스에 기초하여 사용자의 제스처를 인식하도록 구성된 프로세서를 포함하는 제어부를 포함하고,
    상기 합성 네트워크는 상기 레이더 데이터가 라벨링된 이미지 데이터에 대한 학습을 수행하는 것을 특징으로 하는
    를 포함하는 레이더 기반 제스처 인식 장치.
  10. 제9항에 있어서,
    상기 교사 네트워크 처리부는,
    상기 이미지 데이터로부터 신체 부위별 특징점을 추출하여 영상 기반 신체 특징 맵(visual data based Keypoint confidence map, VD-KCM)을 생성하고,
    반복 학습을 통해 신체 부위별 관련성 벡터장(part Affinity field)을 생성하고,
    반복 학습을 통해 상기 영상 기반 신체 특징 맵 및 관련성 벡터장이 결합된 스켈레톤 정보를 예측하는 것을 특징으로 하는
    레이더 기반 제스처 인식 장치.
  11. 제10항에 있어서,
    상기 학생 네트워크 처리부는,
    연속파 레이더(Continuous wave Radar)를 송신하고 객체로부터 반사된 반사 신호를 수신하여 상기 객체에 대한 히트맵 이미지를 생성하고,
    상기 히트맵 이미지를 상기 교사 네트워크로 전달하고, 상기 히트맵 이미지를 생성하는 과정을 반복 수행하여 레이더 기반 신체 특징 맵(radar signal based Keypoint confidence map, RS-KCM)을 생성하는
    레이더 기반 제스처 인식 장치.
  12. 제11항에 있어서,
    상기 합성 네트워크에서 상기 학생 네트워크의 트레이닝 목표는 하기 수학식 1로 정의되고,
    [수학식 1]
    Figure pat00024

    학습을 위한 손실함수는 하기 수학식 2로 정의되는,
    [수학식 2]
    Figure pat00025

    여기서, I는 이미지 데이터, T(I)는 교사 네트워크를 통해 예측되는 VD-KCM, R은 히트맵 이미지, S(R)은 학생 네트워크를 통해 예측되는 RS-KCM,
    Figure pat00026
    는 VD-KCM 상의 (i, j)번째 픽셀에 대한 신뢰도 스코어,
    Figure pat00027
    는 RS-KCM 상의 (i, j)번째 픽셀에 대한 신뢰도 스코어인,
    레이더 기반 제스처 인식 장치.
  13. 제9항에 있어서,
    상기 학생네트워크 처리부는
    연속파 레이더(Continuous wave Radar)를 송신하고 객체로부터 반사된 반사 신호를 수신하고, 상기 반사 신호에 대해 2-dimensional 고속 푸리에 변환을 수행하고, 거리-도플러 맵(range-doppler map)을 생성하고, 상기 거리-도플러 맵에 기초하여 히트맵 이미지를 생성하는
    레이더 기반 제스처 인식 장치.
  14. 제9항에 있어서,
    상기 제어부는
    검출된 사용자의 제스처에 대응하는 제어 신호를 생성하되, 상기 레이더 센서가 장착된 에코 디바이스의 유저 인터페이스 설정 정보, 상기 에코 디바이스의 위치 정보, 상기 에코 디바이스에서 실행 중인 어플리케이션에 관한 정보 및 상기 에코 디바이스와 네트워크를 통해 연결된 외부 디바이스에 관한 정보 중 적어도 어느 하나에 기초하여 제어 모드를 결정하고, 상기 제어 모드에 대응하는 제어 신호를 생성하는
    레이더 기반 제스처 인식 장치.
  15. 기 설정된 제스처 인식 영역에서 객체에 대해 카메라를 이용하여 영상 프레임들을 획득하고, 동시에 레이더 센서를 이용하여 상기 영상 프레임들 각각에 동기화된 레이더 데이터를 획득하는 데이터 획득부;
    상기 영상 프레임들에 대한 머신 러닝에 기초하여 상기 객체의 포즈(pose)를 예측한 영상 기반 포즈 데이터를 획득하고, 상기 영상 기반 포즈 데이터에 기초하여 상기 레이더 데이터에 대응하는 레이더 기반 포즈 데이터를 저장하는 포즈 데이터베이스;
    상기 레이더 기반 포즈 데이터에 기초하여 제스처 인식을 위한 학습을 수행하고 레이더 데이터에 대응하는 제스처 데이터베이스를 생성하는 제스처 데이터베이스 생성부; 및
    상기 기 설정된 제스처 인식 영역에서 상기 제스처 데이터베이스에 기초하여 사용자의 제스처를 인식하는 제어부를 포함하는
    레이더 기반 제스처 인식 장치.
  16. 제15항에 있어서,
    상기 레이더 기반 포즈 데이터 생성부는
    상기 영상 프레임들을 입력 받아 스켈레톤 기반 휴먼 포즈(human pose)를 예측하는 교사 네트워크(teacher network) 및 상기 레이더 데이터에 기초하여 상기 레이더 기반 포즈 데이터를 생성하는 학생 네트워크를 구성하고,
    상기 교사 네트워크와 상기 학생 네트워크의 합성 네트워크를 이용하여 상기 레이더 데이터가 라벨링된 영상 프레임들에 대한 학습을 수행하는
    레이더 기반 제스처 인식 장치.
KR1020190163963A 2019-12-10 2019-12-10 레이더 기반 제스처 인식 시스템 KR20210073292A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190163963A KR20210073292A (ko) 2019-12-10 2019-12-10 레이더 기반 제스처 인식 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190163963A KR20210073292A (ko) 2019-12-10 2019-12-10 레이더 기반 제스처 인식 시스템

Publications (1)

Publication Number Publication Date
KR20210073292A true KR20210073292A (ko) 2021-06-18

Family

ID=76623670

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190163963A KR20210073292A (ko) 2019-12-10 2019-12-10 레이더 기반 제스처 인식 시스템

Country Status (1)

Country Link
KR (1) KR20210073292A (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113696904A (zh) * 2021-08-27 2021-11-26 上海仙塔智能科技有限公司 基于手势控制车辆的处理方法、装置、设备与介质
CN114374762A (zh) * 2021-12-09 2022-04-19 青岛海信移动通信技术股份有限公司 终端设备及拍摄控制方法
CN114970618A (zh) * 2022-05-17 2022-08-30 西北大学 基于毫米波雷达的环境鲁棒的手语识别方法及系统
TWI804072B (zh) * 2021-11-26 2023-06-01 國立陽明交通大學 使用毫米波雷達的即時物件運動狀態辨識方法
KR20230105868A (ko) * 2022-01-05 2023-07-12 한국해양대학교 산학협력단 심층 신경망 기반 레이더를 이용한 객체 행동 인식을 위한 자동 학습데이터 수집 장치

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113696904A (zh) * 2021-08-27 2021-11-26 上海仙塔智能科技有限公司 基于手势控制车辆的处理方法、装置、设备与介质
CN113696904B (zh) * 2021-08-27 2024-03-05 上海仙塔智能科技有限公司 基于手势控制车辆的处理方法、装置、设备与介质
TWI804072B (zh) * 2021-11-26 2023-06-01 國立陽明交通大學 使用毫米波雷達的即時物件運動狀態辨識方法
CN114374762A (zh) * 2021-12-09 2022-04-19 青岛海信移动通信技术股份有限公司 终端设备及拍摄控制方法
KR20230105868A (ko) * 2022-01-05 2023-07-12 한국해양대학교 산학협력단 심층 신경망 기반 레이더를 이용한 객체 행동 인식을 위한 자동 학습데이터 수집 장치
CN114970618A (zh) * 2022-05-17 2022-08-30 西北大学 基于毫米波雷达的环境鲁棒的手语识别方法及系统
CN114970618B (zh) * 2022-05-17 2024-03-19 西北大学 基于毫米波雷达的环境鲁棒的手语识别方法及系统

Similar Documents

Publication Publication Date Title
KR20210073292A (ko) 레이더 기반 제스처 인식 시스템
KR102063037B1 (ko) 신원 인증 방법, 단말기 장치 및 컴퓨터 판독 가능한 저장 매체
Yu et al. Noninvasive human activity recognition using millimeter-wave radar
US10775483B1 (en) Apparatus for detecting and recognizing signals and method thereof
US11126885B2 (en) Character recognition in air-writing based on network of radars
Zhao et al. Cubelearn: End-to-end learning for human motion recognition from raw mmwave radar signals
CN110447014A (zh) 经由循环缓冲器访问高帧率雷达数据
KR101988182B1 (ko) 연속파 레이더를 이용한 손 동작 인식 장치 및 그 방법
WO2023029390A1 (zh) 一种毫米波雷达手势检测识别方法
CN113064483A (zh) 一种手势识别方法以及相关装置
Cai et al. Efficient convolutional neural network for fmcw radar based hand gesture recognition
KR102383567B1 (ko) 시각 정보 처리 기반의 위치 인식 방법 및 시스템
KR101450586B1 (ko) 동작 인식 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
Pollin et al. Convolutional long short-term memory networks for doppler-radar based target classification
CN107992873A (zh) 目标检测方法及装置、存储介质、电子设备
KR20170003361A (ko) 지문 인식 방법 및 장치
Zhang et al. Application of FMCW radar for dynamic continuous hand gesture recognition
US11353965B2 (en) System for enabling rich contextual applications for interface-poor smart devices
CN115294656A (zh) 一种基于fmcw雷达的手部关键点追踪方法
US20210156961A1 (en) Apparatus for authenticating user and method thereof
Wang et al. Hand gesture recognition scheme based on millimeter-wave radar with convolutional neural network
Li et al. Online high-accurate calibration of rgb+ 3d-lidar for autonomous driving
Li et al. Deep learning based target activity recognition using FMCW radar
Mardiev et al. Convolutional Neural Networks for Processing Micro-Doppler Signatures and Range-Azimuth Radar Maps of Frequency Modulated Continuous Wave Radars
Stadelmayer et al. Light-Weight and Person-Independent Radar-Based Hand Gesture Recognition for Classification and Regression of Continuous Gestures