KR102322817B1

KR102322817B1 - 도플러 레이다 및 음성 센서를 이용한 cnn 기반의 hmi 시스템, hmi 시스템의 센서 데이터 처리 장치 및 그 동작 방법

Info

Publication number: KR102322817B1
Application number: KR1020200116352A
Authority: KR
Inventors: 정윤호; 오승현; 배찬희; 김세령; 조재찬
Original assignee: 한국항공대학교산학협력단
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2021-11-08

Abstract

본 발명은 도플러 레이다 및 음성 센서를 이용한 CNN 기반의 HMI 시스템, HMI 시스템의 센서 데이터 처리 장치 및 그 동작 방법에 관한 것으로, 해결하고자 하는 과제는 단일 센서의 제한적인 환경을 해결하기 위해 도플러 레이다와 음성 센서 정보를 융합하여 분류 성능을 향상시키는데 있다.
일례로, 사용자의 음성 커맨드와 제스처 커맨드를 각각 센싱하고, 음성 신호와 제스처 신호를 각각 출력하는 HMI 센서부; 상기 음성 신호와 상기 제스처 신호를 푸리에 변환을 통해 시간 변화에 대한 주파수 신호로 각각 변환하고, 변환된 주파수 신호를 스펙트로그램 형태의 데이터로 각각 출력하는 푸리에 변환부; 및 상기 푸리에 변환부를 통해 각각 출력되는 음성 스펙트로그램 데이터와 제스처 스펙트로그램 데이터에 대한 컨볼루션 연산을 통해 유효한 특징 데이터를 추출하고, 추출된 특징 데이터를 FCL(Fully-Connected Layer)의 필터 연산을 통해 하나의 클래스로 분류하는 CNN 모델부를 포함하는 CNN 기반의 HMI 시스템을 개시한다.

Description

도플러 레이다 및 음성 센서를 이용한 CNN 기반의 HMI 시스템, HMI 시스템의 센서 데이터 처리 장치 및 그 동작 방법{CONVOLUTIONAL NEURAL NETWORK BASED HUMAN MACHINE INTERFACE SYSTEM USING DOPPLER RADAR AND VOICE SENSOR, DEVICE FOR PROCESSING SENSOR DATA OF THE HUMAN MACHINE INTERFACE SYSTEM, METHOD FOR OPERATING THE SAMES}

본 발명의 실시예는, 도플러 레이다 및 음성 센서를 이용한 CNN 기반의 HMI 시스템, HMI 시스템의 센서 데이터 처리 장치 및 그 동작 방법에 관한 것이다.

최근 사람의 움직임을 인지하고 기기를 다루는 HMI(human machine interface) 시스템은 스마트 가전, 스마트 카 등 다양한 분야에서 필요성이 대두되고 있다.

이 중 사용자의 명령을 내장된 센서로 감지하고 추출된 데이터를 학습하여 효율적으로 기기를 제어할 수 있는 지능형 HMI 시스템에 대한 연구가 활발히 진행되고 있다.

대표적으로 레이다, 음성, 카메라, IMU(Inertial Measurement Unit) 센서 기반 HMI 시스템이 우수한 성능을 보이며 다양한 기법이 제안되었다.

그러나, 카메라로 추출된 이미지 데이터는 높은 연산량을 요구하여 일반적으로 저면적, 저전력 플랫폼으로 구현되는 HMI 시스템에 적합하지 않으며, IMU 센서는 사용자가 착용해야 하는 단점이 존재한다.

따라서, 레이다 및 음성 센서는 우수한 성능과 더불어 연산량 및 사용자 편의성 측면에서 HMI 시스템에 가장 적합하다.

그러나, 단일 센서 정보를 학습 및 인식할 경우, 특정 환경에서 성능이 급격히 저하되는 한계가 있다.

예를 들어, 레이다는 전파를 보내서 반사되는 신호로 정보를 획득하기 때문에 빛이 없는 환경에서 제한이 없다는 장점이 있지만, 클러터(clutter)가 많은 환경에서는 제한이 발생한다.

음성 센서는 사용자의 소리 정보를 통해 명령을 수행하여 빛이 없는 환경에 대한 제한이 없지만, 소음이 많은 환경에서 제한이 발생한다.

공개특허공보 제10-2017-0132992호(공개일자: 2017년12월05일)

본 발명의 실시예는, 단일 센서의 제한적인 환경을 해결하기 위해 도플러 레이다와 음성 센서 정보를 융합하여 분류 성능을 향상시킨 CNN(Convolutional Neural Network) 기반의 지능형 HMI 시스템, HMI 시스템의 센서 데이터 처리 장치 및 그 동작 방법들을 제공한다.

본 발명의 일 실시예에 따른 CNN(Convolutional Neural Network) 기반의 HMI(Human Machine Interface) 시스템은, 사용자의 음성 커맨드와 제스처 커맨드를 각각 센싱하고, 음성 신호와 제스처 신호를 각각 출력하는 HMI 센서부; 상기 음성 신호와 상기 제스처 신호를 푸리에 변환을 통해 시간 변화에 대한 주파수 신호로 각각 변환하고, 변환된 주파수 신호를 스펙트로그램 형태의 데이터로 각각 출력하는 푸리에 변환부; 및 상기 푸리에 변환부를 통해 각각 출력되는 음성 스펙트로그램 데이터와 제스처 스펙트로그램 데이터에 대한 컨볼루션 연산을 통해 유효한 특징 데이터를 추출하고, 추출된 특징 데이터를 FCL(Fully-Connected Layer)의 필터 연산을 통해 하나의 클래스로 분류하는 CNN 모델부를 포함한다.

또한, 상기 HMI 센서부는, 마이크를 통해 사용자의 음성 커맨드를 입력 받고, 상기 음성 신호를 출력하는 음성 센서; 및 도플러 효과를 이용한 속도 측정을 통해 사용자의 제스처 커맨드를 입력 받고, 상기 제스처 신호를 출력하는 도플러 레이다를 포함할 수 있다.

또한, 상기 도플러 레이다는, 중심주파수가 24GHz이고, 대역폭이 250MHz인 연속파를 사용할 수 있다.

또한, 상기 푸리에 변환부는, 상기 음성 신호를 STFT(Short Time Fourier Transform)을 통해 시간 변화에 대한 주파수 신호로 변환하고, 변환된 주파수 신호를 스펙트로그램 형태의 데이터로 변환하여 출력하는 음성 STFT 실행부; 및 상기 제스처 신호를 STFT을 통해 시간 변화에 대한 주파수 신호로 변환하고, 변환된 주파수 신호를 스펙트로그램 형태의 데이터로 변환하여 출력하는 제스처 STFT 실행부를 포함할 수 있다.

또한, 상기 STFT는 하기의 수식에 따라 변환되고,

상기 ω는 윈도우 함수를 나타내고, 상기 τ는 윈도우 지연시간을 나타낼 수 있다.

또한, 상기 음성 스펙트로그램 데이터와 상기 제스처 스펙트로그램 데이터는 각각 상기 STFT의 결과로 얻은 함수 X(τ, f)를 절대값으로 변환한 데이터를 포함할 수 있다.

또한, 상기 푸리에 변환부에서 출력되는 상기 음성 스펙트로그램 데이터와 상기 제스처 스펙트로그램 데이터의 신호 처리를 통해 상기 STFT 결과에서 불필요한 영역을 제거하고, 서로 다른 종류의 스펙트로그램 데이터를 융합 학습 및 인식이 가능하도록 동일한 데이터 형태로 가공하여 상기 CNN 모델부로 출력하는 신호 처리부를 더 포함할 수 있다.

또한, 상기 CNN 모델부는, 학습된 필터와, 상기 음성 스펙트로그램 데이터 및 상기 제스처 스펙트로그램 데이터 각각을 컨볼루션 연산하여 이미지의 색상, 선, 형태, 경계를 포함하는 특징을 추출하여 특징 데이터를 출력하는 컨볼루션 레이어; 및 상기 컨볼루션 레이어를 통해 출력되는 특징 데이터의 각 레이어를 1차원 벡터로 변환하고, 1차원 벡터로 변환된 각 레이어를 하나의 벡터로 연결하고, 소프트맥스(Softmax) 함수를 이용하여 가장 큰 값을 갖는 클래스를 출력 데이터로 분류하는 풀리 커넥티드 레이어를 포함할 수 있다.

본 발명의 다른 실시예에 따른 HMI(Human Machine Interface) 시스템의 센서 데이터 처리 장치는, HMI 센서로부터 입력되는 음성 신호와 제스처 신호를 푸리에 변환을 통해 시간 변화에 대한 주파수 신호로 각각 변환하고, 변환된 주파수 신호를 스펙트로그램 형태의 데이터로 각각 출력하는 푸리에 변환부; 및 상기 푸리에 변환부를 통해 각각 출력되는 음성 스펙트로그램 데이터와 제스처 스펙트로그램 데이터에 대한 컨볼루션 연산을 통해 유효한 특징 데이터를 추출하고, 추출된 특징 데이터를 FCL(Fully-Connected Layer)의 필터 연산을 통해 하나의 클래스로 분류하는 CNN 모델부를 포함한다.

또한, 상기 음성 신호는, 음성 센서를 통해 사용자의 음성 커맨드를 입력 받아 생성되고, 상기 제스처 신호는, 도플러 레이다의 도플러 효과를 이용한 속도 측정을 통해 사용자의 제스처 커맨드를 입력 받아 생성될 수 있다.

또한, 상기 STFT는 하기의 수식에 따라 변환되고,

본 발명의 다른 실시예에 따른 CNN(Convolutional Neural Network) 기반의 HMI(Human Machine Interface) 시스템의 동작 방법은, HMI 센서부가, 사용자의 음성 커맨드와 제스처 커맨드를 각각 센싱하고, 음성 신호와 제스처 신호를 각각 출력하는 사용자 커맨드 입력 단계; 푸리에 변환부가, 상기 음성 신호와 상기 제스처 신호를 푸리에 변환을 통해 시간 변화에 대한 주파수 신호로 각각 변환하고, 변환된 주파수 신호를 스펙트로그램 형태의 데이터로 각각 출력하는 푸리에 변환 단계; 및 CNN 모델부가, 상기 푸리에 변환부를 통해 각각 출력되는 음성 스펙트로그램 데이터와 제스처 스펙트로그램 데이터에 대한 컨볼루션 연산을 통해 유효한 특징 데이터를 추출하고, 추출된 특징 데이터를 FCL(Fully-Connected Layer)의 필터 연산을 통해 하나의 클래스로 분류하는 데이터 특징 검출 단계를 포함한다.

또한, 상기 사용자 커맨드 입력 단계는, 음성 센서의 마이크를 통해 사용자의 음성 커맨드를 입력 받고, 상기 음성 신호를 출력하는 사용자 음성 커맨드 입력 단계; 및 도플러 레이다의 도플러 효과를 이용한 속도 측정을 통해 사용자의 제스처 커맨드를 입력 받고, 상기 제스처 신호를 출력하는 사용자 제스처 커맨드 입력 단계를 포함할 수 있다.

또한, 상기 푸리에 변환 단계는, 음성 STFT 실행부가, 상기 음성 신호를 STFT(Short Time Fourier Transform)을 통해 시간 변화에 대한 주파수 신호로 변환하고, 변환된 주파수 신호를 스펙트로그램 형태의 데이터로 변환하여 출력하는 음성 STFT 실행 단계; 및 제스처 STFT 실행부가, 상기 제스처 신호를 STFT을 통해 시간 변화에 대한 주파수 신호로 변환하고, 변환된 주파수 신호를 스펙트로그램 형태의 데이터로 변환하여 출력하는 제스처 STFT 실행 단계를 포함할 수 있다.

또한, 상기 STFT는 하기의 수식에 따라 변환되고,

또한, 상기 음성 STFT 실행 단계와 상기 제스처 STFT 실행 단계는, 상기 STFT의 결과로 각각 얻은 함수 X(τ, f)를 절대값으로 변환하여 상기 음성 스펙트로그램 데이터와 상기 제스처 스펙트로그램 데이터를 출력할 수 있다.

또한, 상기 신호 처리부가, 상기 푸리에 변환 단계를 통해 출력되는 상기 음성 스펙트로그램 데이터와 상기 제스처 스펙트로그램 데이터의 신호 처리를 통해 상기 STFT 결과에서 불필요한 영역을 제거하고, 서로 다른 종류의 스펙트로그램 데이터를 융합 학습 및 인식이 가능하도록 동일한 데이터 형태로 가공하여 상기 데이터 특징 검출 단계를 위해 상기 CNN 모델부로 제공하는 신호 처리 단계를 더 포함할 수 있다.

또한, 상기 데이터 특징 검출 단계는, 컨볼루션 레이어가, 학습된 필터와, 상기 음성 스펙트로그램 데이터 및 상기 제스처 스펙트로그램 데이터 각각을 컨볼루션 연산하여 이미지의 색상, 선, 형태, 경계를 포함하는 특징을 추출하여 특징 데이터를 출력하는 특징 데이터 추출 단계; 및 풀리 커넥티드 레이어가, 상기 특징 데이터 추출 단계를 통해 제공되는 특징 데이터의 각 레이어를 1차원 벡터로 변환하고, 1차원 벡터로 변환된 각 레이어를 하나의 벡터로 연결하고, 소프트맥스(Softmax) 함수를 이용하여 가장 큰 값을 갖는 클래스를 출력 데이터로 분류하는 특징 데이터 분류 단계를 포함할 수 있다.

본 발명의 다른 실시예에 따른 HMI(Human Machine Interface) 시스템의 센서 데이터 처리 장치의 동작 방법은, 푸리에 변환부가, HMI 센서로부터 입력되는 음성 신호와 제스처 신호를 푸리에 변환을 통해 시간 변화에 대한 주파수 신호로 각각 변환하고, 변환된 주파수 신호를 스펙트로그램 형태의 데이터로 각각 출력하는 푸리에 변환 단계; 및 CNN 모델부가, 상기 푸리에 변환부를 통해 각각 출력되는 음성 스펙트로그램 데이터와 제스처 스펙트로그램 데이터에 대한 컨볼루션 연산을 통해 유효한 특징 데이터를 추출하고, 추출된 특징 데이터를 FCL(Fully-Connected Layer)의 필터 연산을 통해 하나의 클래스로 분류하는 데이터 특징 검출 단계를 포함한다.

또한, 상기 푸리에 변환 단계는, 음성 센서를 통해 사용자의 음성 커맨드를 입력 받아 생성된 상기 음성 신호와, 도플러 레이다의 도플러 효과를 이용한 속도 측정을 통해 사용자의 제스처 커맨드를 입력 받아 생성된 상기 제스처 신호를 각각 입력 받을 수 있다.

또한, 상기 STFT는 하기의 수식에 따라 변환되고,

본 발명에 따르면, 단일 센서의 제한적인 환경을 해결하기 위해 도플러 레이다와 음성 센서 정보를 융합하여 분류 성능을 향상시킨 CNN(convolutional neural network) 기반의 지능형 HMI 시스템, HMI 시스템의 센서 데이터 처리 장치 및 그 동작 방법들을 제공할 수 있다.

도 1은 본 발명의 실시예에 따른 도플러 레이다 및 음성 센서를 이용한 CNN 기반의 HMI 시스템의 전체 구성을 나타낸 블록도이다.
도 2는 본 발명의 실시예에 따른 도플러 레이다를 통해 입력되는 손동작 커맨드의 예시를 각각 나타낸 도면이다.
도 3은 본 발명의 실시예에 따른 음성 센서를 통해 입력된 사용자의 음성 커맨드에 따른 스펙트로그램 데이터를 각각 가시화하여 나타낸 도면이다.
도 4는 본 발명의 실시예에 따른 도플러 레이다를 통해 입력된 사용자의 손동작 커맨드에 따른 스펙트로그램 데이터를 각각 가시화하여 나타낸 도면이다.
도 5는 본 발명의 실시예에 따른 CNN 모델부의 구성과 동작을 설명하기 위해 나타낸 도면이다.
도 6은 본 발명의 실시예에 따른 CNN 모델부에서 풀리 커넥티드 레이어의 하드웨어 설계 구조를 설명하기 위해 나타낸 도면이다.
도 7은 본 발명의 다른 실시예에 따른 도플러 레이다 및 음성 센서를 이용한 CNN 기반의 HMI 시스템의 동작 방법을 설명하기 위해 나타낸 흐름도이다.
도 8은 본 발명의 다른 실시예에 따른 HMI 시스템의 동작 방법에서 사용자 커맨드 입력 단계를 설명하기 위해 나타낸 흐름도이다.
도 9는 본 발명의 다른 실시예에 따른 HMI 시스템의 동작 방법에서 푸리에 변환 단계를 설명하기 위해 나타낸 흐름도이다.
도 10은 본 발명의 다른 실시예에 따른 HMI 시스템의 동작 방법에서 데이터 특징 검출 단계를 설명하기 위해 나타낸 흐름도이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나 이상의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

도 1은 본 발명의 실시예에 따른 도플러 레이다 및 음성 센서를 이용한 CNN 기반의 HMI 시스템의 전체 구성을 나타낸 블록도이고, 도 2는 본 발명의 실시예에 따른 도플러 레이다를 통해 입력되는 손동작 커맨드의 예시를 각각 나타낸 도면이고, 도 3은 본 발명의 실시예에 따른 음성 센서를 통해 입력된 사용자의 음성 커맨드에 따른 스펙트로그램 데이터를 각각 가시화하여 나타낸 도면이고, 도 4는 본 발명의 실시예에 따른 도플러 레이다를 통해 입력된 사용자의 손동작 커맨드에 따른 스펙트로그램 데이터를 각각 가시화하여 나타낸 도면이며, 도 5는 본 발명의 실시예에 따른 CNN 모델부의 구성과 동작을 설명하기 위해 나타낸 도면이다.

도 1을 참조하면, 본 발명의 실시예에 따른 도플러 레이다 및 음성 센서를 이용한 CNN 기반의 HMI 시스템(1000)은 HMI 센서부(100), 푸리에 변환부(200), 신호 처리부(300) 및 CNN 모델부(400) 중 적어도 하나를 포함할 수 있다.

상기 HMI 센서부(100)는, 사용자의 음성 커맨드와 제스처 커맨드를 각각 센싱하고, 음성 신호와 제스처 신호를 각각 출력할 수 있다. 이를 위해 HMI 센서부(100)는 음성 센서(110)와 도플러 레이다(120)를 포함할 수 있다.

상기 음성 센서(110)는, 마이크 등을 통해 사용자의 음성 커맨드를 입력 받고, 음성 STFT 실행부(210)로 음성 신호를 출력할 수 있다.

상기 도플러 레이다(120)는, 도플러 효과를 이용한 속도 측정을 통해 사용자의 제스처 커맨드를 입력 받고, 제스처 STFT 실행부(220)로 제스처 신호를 출력할 수 있다. 이러한 도플러 레이다(120)는 중심주파수가 24GHz이고, 대역폭이 250MHz인 연속파를 사용할 수 있으나, 도플러 레이다(120)에 대한 중심주파수와 대역폭을 상기와 같이만 한정하는 것은 아니다.

상기 도플러 레이다(120)는 타겟의 움직임이나 제스처에 의해 발생하는 도플러 효과를 이용해 속도를 측정한다. 타겟이 레이다를 향해 다가오면 송신된 연속파보다 수신된 연속파의 주파수가 더 높아지고, 타겟이 도플러 레이다(120)에서 멀어지면 송신된 연속파보다 수신된 연속파의 주파수가 더 낮아지는 현상이 도플러 효과이다. 도플러 레이다(120)는 이와 같은 도플러 효과를 통해 타겟의 속도를 계산할 수 있으며, 이를 STFT(Short Time Fourier Transform) 연산을 수행하면 짧은 시간 신호의 변화에 대한 도플러 주파수를 알 수 있다.

상기 도플러 레이다(120)는 사용자의 커맨드로 활용될 손동작을 직접 추출할 수 있는데, 예를 들어 도 2에 도시된 바와 같이, 손을 위로 스와이프(swipe)(a), 손을 아래로 스와이프(swipe)(b), 손을 왼쪽으로 스와이프(swipe)(c), 손을 오른쪽으로 스와이프(swipe)(d), 검지를 시계방향으로 계속 돌리는 동작(e), 손바닥을 레이다 정면으로 쭉 뻗는 동작(f)으로 구성된 총 6개의 손동작을 'up, down, left, right, yes, stop'으로 각각 정의할 수 있다.

상기 푸리에 변환부(200)는, 음성 신호와 제스처 신호를 푸리에 변환을 통해 시간 변화에 대한 주파수 신호로 각각 변환하고, 변환된 주파수 신호를 스펙트로그램 형태의 데이터로 각각 출력할 수 있다. 이를 위해 푸리에 변환부(200)는 음성 STFT 실행부(210) 및 제스처 STFT 실행부(220)를 포함할 수 있다.

상기 음성 STFT 실행부(210)는, 음성 신호를 STFT(Short Time Fourier Transform)을 통해 시간 변화에 대한 주파수 신호로 변환하고, 변환된 주파수 신호를 스펙트로그램(spectrogram) 형태의 데이터(이하, 음성 스펙트로그램 데이터라고 함)로 변환하여 출력할 수 있다. 음성 스펙트로그램 데이터는 도 3에 도시된 바와 같이 '‘up(a), down(b), left(c), right(d), yes(e), stop(f)’'의 음성 커맨드에 따라 나타낼 수 있다.

상기 제스처 STFT 실행부(220)는, 제스처 신호를 STFT(Short Time Fourier Transform)을 통해 시간 변화에 대한 주파수 신호로 변환하고, 변환된 주파수 신호를 스펙트로그램(spectrogram) 형태의 데이터(이하, 제스처 스펙트로그램 데이터라고 함)로 변환하여 출력할 수 있다.

일반적으로, 시간 영역의 데이터를 주파수 영역으로 변환하기 위하여 DFT(discrete Fourier transform) 연산이 사용된다. 그러나, DFT 연산은 데이터 구간 전체에 대한 주파수를 반환하기 때문에 음성과 제스처와 같이 시간에 따라 구성 주파수가 달라지는 시간 의존적 데이터에 적용하기 어렵다. 이러한 시간 의존적 데이터는 시 구간을 짧게 나누는 윈도우 연산과 분할된 각 구간에 DFT 연산을 함으로써, 짧은 시 구간에 대한 주파수를 얻을 수 있도록 푸리에 변환부(200)에서는 STFT(Short Time Fourier Transform)를 사용하여 시간 변화에 대한 주파수를 얻는 것이 바람직하다.

본 실시예에서 STFT는 하기의 수식 1에 따라 표현될 수 있다.

(수식 1)

수식 1에서 ω는 윈도우 함수를 나타내고, τ는 윈도우 지연시간을 나타낸다. 그리고, 음성 스펙트로그램 데이터와 제스처 스펙트로그램 데이터는 각각 STFT의 결과로 얻은 함수 X(τ, f)를 절대값으로 변환한 데이터를 포함할 수 있다. 즉, 스펙트로그램 데이터는 STFT(Short Time Fourier Transform) 연산 결과로 얻은 함수 X를 절대값으로 표현한 것이다.

상기와 같은 STFT(Short Time Fourier Transform) 연산 결과로 얻은 제스처 스펙트로그램 데이터는 도 4에 도시된 바와 같이 표현될 수 있으며, 도 4의 (a) 내지 (f)는 상술한 바와 같이 'up(a), down(b), left(c), right(d), yes(e), stop(f)'의 손동작을 나타낸다.

상기 신호 처리부(300)는, 푸리에 변환부(200)에서 출력되는 두 종류의 커맨드 데이터인 음성 스펙트로그램 데이터와 제스처 스펙트로그램 데이터의 신호 처리를 수행하고, 이를 통해 STFT 결과에서 불필요한 영역을 제거하여 CNN 모델부(400)에 데이터 분류 처리를 위한 하드웨어의 복잡도와 메모리 사용량을 줄일 수 있으며, 서로 다른 종류의 스펙트로그램 데이터를 융합 학습 및 인식이 가능하도록 동일한 데이터 형태로 가공하여 CNN 모델부(400)로 출력할 수 있다.

상기 CNN 모델부(400)는, 신호 처리부(300)를 통해 신호 처리가 완료된 2채널의 스펙트로그램 데이터 즉, 음성 스펙트로그램 데이터와 제스처 스펙트로그램 데이터에 대한 컨볼루션(convolution) 연산을 통해 유효한 특징 데이터를 추출하고, 추출된 특징 데이터를 FCL(Fully-Connected Layer)의 필터 연산을 통해 하나의 클래스로 분류할 수 있다. 이를 위해 CNN 모델부(400)는 컨볼루션 레이어(Convolution Layer)(410), 풀링 레이어(Pooling Layer)(420) 및 풀리 커넥티드 레이어(Fully-Connected Layer)(430) 중 적어도 하나를 포함할 수 있다.

상기 컨볼루션 레이어(Convolution Layer)(410)는, 도 5에 도시된 바와 같이 2개의 컨볼루션 레이어를 포함하여, 학습된 필터와 음성 스펙트로그램 데이터, 그리고 해당 필터와 제스처 스펙트로그램 데이터를 각각 컨볼루션 연산하여 이미지의 색상, 선, 형태, 경계를 포함하는 특징을 뚜렷하게 추출하여 특징 데이터를 출력할 수 있다. 이러한 컨볼루션 레이어(410)는 하위 층에서 선, 색과 같은 특징을 검출했다면 층이 깊어질수록 물체의 특징을 세부적으로 검출할 수 있다. 상기 필터는 커널(kernel)이라고도 불리는데 이러한 필터를 통과한 이미지 픽셀 값은 연산에 의해 변환되며, 이러한 과정에서 변환된 이미지들은 색상, 선, 형태, 경계 등의 특징이 뚜렷해질 수 있다. 이러한 필터를 통과한 이미지는 특성 값을 가지고 있어 'feature map' 또는 'activation map'이라고도 한다. 또한, 필터는 한 개 이상 적용할 수 있고, 필터의 수는 채널의 깊이를 나타낸다. 이에, 필터가 많을수록 더 많은 이미지 특성을 추출할 수 있으며, 컨볼루션 연산을 진행하면 할수록 이미지의 크기는 작아지고 채널 수(필터 수)는 증가하게 된다.

상기 풀링 레이어(Pooling Layer)(420)는, 도 5에 도시된 바와 같이 컨볼루션 레이어(410)의 바로 다음에 위치해 공간(spatial size)을 축소하는 역할을 한다. 이때, 공간의 width, height의 크기만 줄어들고 채널의 크기는 고정된다. 풀링 레이어(420)는 입력 데이터의 크기를 축소하고 학습하지 않기 때문에 파라미터 수가 줄어들어 오버피팅(Over fitting)의 발생을 방지할 수 있다. 풀링에는 대상 이미지 영역에서 최대값을 구하는 맥스 풀링(Max Pooling)과 대상 이미지 영역에서 평균값을 구하는 평균 풀링(Average Pooling)이 존재하며, 본 실시예서는 이미지 처리에서 특성 값을 잘 찾아줄 수 있는 맥스 풀링을 이용하는 것이 바람직하다.

상기 풀리 커넥티드 레이어(Fully-Connected Layer)(430)는, 컨볼루션 레이어(410)(또는 풀링 레이어(420))를 통해 출력되는 특징 데이터의 각 레이어를 1차원 벡터로 변환하고, 1차원 벡터로 변환된 각 레이어를 하나의 벡터로 연결하고, 소프트맥스(Softmax) 함수를 이용하여 가장 큰 값을 갖는 클래스를 출력 데이터로 분류할 수 있다. 이러한 풀리 커넥티드 레이어(430)는 도 5에 도시된 바와 같이 CNN 모델부(400)에서 마지막 분류(classification)을 결정하는 구성요소로, 'flatten'이 각 레이어를 1차원 벡터로 변환하고, 'FCL(Fully-Connected Layer)'가 1차원 벡터로 변환된 레이어를 하나의 벡터로 연결함으로써 각 레이어의 노드들이 하나로 연결될 수 있다. 그리고, 소프트맥스(Softmax) 함수를 이용해 가장 큰 값을 갖는 클래스를 출력(가장 확률이 높은 클래스를 출력으로 분류함)하여 사용자의 음성 및 제스처 커맨드에 대한 인식 및 검출 과정을 완료할 수 있다.

이러한 CNN 모델부(400)는, 학습한 필터를 입력 데이터와 컨볼루션 연산을 진행함으로써 입력된 스펙트로그램 데이터의 유효한 특징을 크기와 위치에 무관하게 추출할 수 있어, 특징의 크기와 위치 변형이 많은 이미지 인식에서 뛰어난 성능을 제공할 수 있다.

이하, 본 실시예에 따른 CNN 기반의 HMI 시스템(1000)의 성능 실험과 그 결과에 대하여 설명한다.

본 실시예의 CNN 기반의 HMI 시스템(1000)은 CNN의 복잡한 연산부를 가속하기 위해 설계된 하드웨어를 FPGA 디바이스 상에서 구현 및 검증하였다.

음성 센서(110)는, 음성 커맨드를 STFT(Short Time Fourier Transform) 연산을 수행하면 시간에 따른 주파수 성분을 얻기 위하여 'TensorFlow'와 'AIY'에서 만든 'speech command dataset'을 사용하였다. 음성 커맨드는 총 6개 클래스(class)로 구성되고 'up, down, left, right, yes, stop'으로 도플러 레이다(120)로 추출한 데이터와 각각 매칭된다. 음성 데이터의 샘플링 주파수는 8000Hz이며, STFT(Short Time Fourier Transform)는 오버랩(overlap) 없이 128 포인트 해밍 윈도우(hamming window)를 적용하였고, FFT는 128 포인트로 진행하였다. STFT 연산 결과를 주파수 축에서 0Hz를 기준으로 64 포인트로 추출하였고, 시간 축에서 음성의 최대 파워가 나타나는 시간을 중심으로 40 point로 크롭(crop)하여 도 3에 도시된 바와 같은 음성 스펙트로그램(spectrogram)을 얻었다.

손동작 제스처는 도 2에 도시된 바와 같이, 손을 위로 스와이프(swipe)(a), 손을 아래로 스와이프(swipe)(b), 손을 왼쪽으로 스와이프(swipe)(c), 손을 오른쪽으로 스와이프(swipe)(d), 검지를 시계방향으로 계속 돌리는 동작(e), 손바닥을 레이다 정면으로 쭉 뻗는 동작(f)으로 구성된 총 6개의 손동작을 'up, down, left, right, yes, stop'으로 각각 정의할 수 있다.

도플러 레이다(120)의 레이다 샘플링 주파수는 3000Hz로 3200개를 샘플링하여 STFT 연산을 진행 후 DC 오프셋(offset)을 제거하여 도플러 주파수를 얻었다. STFT는 128 포인트 해밍 윈도우(hamming window)에 64 포인트 오버랩(overlap)을 적용하였고, FFT는 128 포인트로 진행하였다. STFT 연산 결과를 주파수 축에서 0Hz를 중심으로 64 포인트, 시간 축에서 시작점부터 40 포인트를 잘라내어 도 4에 도시된 바와 같은 제스처 스펙트로그램(spectrogram)을 얻었다.

성능 평가를 위한 데이터 세팅은, 음성 센서(110)의 음성 커맨드를 6000개 사용하였고, 도플러 레이다(120)의 제스처 커맨드를 6000개 사용하였으며, 'up, down, left, right, yes, stop' 6개로 class를 구분하였다. 학습을 위해 사용된 데이터는 각각 5400(90%)개이고, 검증을 위한 데이터는 각각 600(10%)개이다. 학습은 'cross entropy loss function'과 'Adam optimizer'를 사용하였으며 'learning rate'는 0.001, batch size는 200, epoch는 20으로 진행하였다.

본 실시예의 HMI 시스템(1000)을 통해 레이다 신호와 음성 신호를 융합한 데이터에 대하여 학습 및 분류를 수행하고, 그 결과를 단일 센서 시스템 결과와 비교하였다. 또한, 제한된 환경에서의 동작을 검증하기 위해 다양한 노이즈 환경에서 성능 평가를 수행하였다. 이러한 성능 평가 결과, 하기의 표 1과 같이 본 실시예의 HMI 시스템(1000)은 단일 센서 시스템보다 노이즈 환경에서 평균 7.7% 우수한 성능을 보이는 것을 확인하였다.

<표 1>

도 6은 본 발명의 실시예에 따른 CNN 모델부에서 풀리 커넥티드 레이어의 하드웨어 설계 구조를 설명하기 위해 나타낸 도면이다.

본 실시예에 따른 HMI 시스템(1000)의 연산 시간을 줄이기 위해 연산 복잡도가 가장 높은 CNN 분류기 내부 FCL에 대한 가속 하드웨어 구조 설계를 진행하였다. 도 6은 CNN 가속 하드웨어와 통합 시스템 검증을 위한 'Xilinx PYNQ-Z1 FPGA' 기반 SoC 플랫폼의 구조도로, MCU(micro control unit)와 H/W IP간의 AMBA 버스 통신을 위한 'AXI interface' 및 설계된 FCL 연산 가속기로 구성된다.

FCL 연산 가속기는 'Verilog-HDL'로 작성하였으며, FPGA 기반 구현 결과, 최대 110.57MHz의 동작 주파수에서 연산 가능함을 확인하였다. 테스트 데이터 셋에 대한 검증 결과, 100 샘플 데이터에 대해 제안된 가속 하드웨어 기반 HMI 시스템(1000)은 76.9ms로 기존 software 기반 시스템 대비 95.6% 감소된 연산 시간을 나타냈다.

본 실시예에서는, 센서 융합을 통해 분류 성능을 향상시킨 CNN 기반 HMI 시스템을 제안하였고, 이의 가속화를 위한 하드웨어 구조 설계 결과를 제시하였다. 제안된 HMI 시스템(1000)은 기존 단일 센서 기반 시스템에 비해 평균 7.7% 높은 성능을 보였으며, 가속 하드웨어 적용으로 95.6% 향상된 처리 속도를 나타냈다.

이상에서는 음성 센서와 도플러 레이다를 포함하는 CNN 기반의 HMI 시스템으로서 구성된 실시예에 관하여 설명하였으나, 음성 센서와 도플러 레이다에서 각각 센싱되는 신호들을 입력으로 하는 HMI 시스템의 센서 데이터 처리 장치로 별도 실시 및 구현이 가능하다. 이때, 음성 센서와 도플러 레이다를 제외한 전반적인 구성요소들은 상술한 CNN 기반의 HMI 시스템(1000)의 구성과 동일하므로, 그에 대한 상세한 설명은 생략한다.

도 7은 본 발명의 다른 실시예에 따른 도플러 레이다 및 음성 센서를 이용한 CNN 기반의 HMI 시스템의 동작 방법을 설명하기 위해 나타낸 흐름도이고, 도 8은 본 발명의 다른 실시예에 따른 HMI 시스템의 동작 방법에서 사용자 커맨드 입력 단계를 설명하기 위해 나타낸 흐름도이고, 도 9는 본 발명의 다른 실시예에 따른 HMI 시스템의 동작 방법에서 푸리에 변환 단계를 설명하기 위해 나타낸 흐름도이며, 도 10은 본 발명의 다른 실시예에 따른 HMI 시스템의 동작 방법에서 데이터 특징 검출 단계를 설명하기 위해 나타낸 흐름도이다.

도 7을 참조하면, 본 발명의 실시예에 따른 도플러 레이다 및 음성 센서를 이용한 HMI 시스템의 동작 방법(S1000)은 사용자 커맨드 입력 단계(S100), 푸리에 변환 단계(S200), 신호 처리 단계(S300) 및 데이터 특징 검출 단계(S400) 중 적어도 하나를 포함할 수 있다.

상기 사용자 커맨드 입력 단계(S100)는, 음성 센서(110)와 도플러 레이다(120)를 통해 사용자의 음성 커맨드와 제스처 커맨드를 각각 센싱하고, 음성 신호와 제스처 신호를 각각 출력할 수 있다. 이를 위해 사용자 커맨드 입력 단계(S100)는 도 8에 도시된 바와 같이 사용자 음성 커맨드 입력 단계(S110)와 사용자 제스처 커맨드 입력 단계(S120)를 포함할 수 있다.

상기 사용자 음성 커맨드 입력 단계(S110)는, 음성 센서(110)의 마이크 등을 통해 사용자의 음성 커맨드를 입력 받고, 음성 STFT 실행 단계(S210)의 진행을 위해 음성 STFT 실행부(210)로 음성 신호를 출력할 수 있다.

상기 사용자 제스처 커맨드 입력 단계(S120)는, 도플러 레이다(120)의 도플러 효과를 이용한 속도 측정을 통해 사용자의 제스처 커맨드를 입력 받고, 제스처 STFT 실행 단계(S220)의 진행을 위해 제스처 STFT 실행부(220)로 제스처 신호를 출력할 수 있다. 이러한 도플러 레이다(120)는 중심주파수가 24GHz이고, 대역폭이 250MHz인 연속파를 사용할 수 있으나, 사용자 제스처 커맨드 입력 단계(S120)에 대한 중심주파수와 대역폭을 상기와 같이만 한정하는 것은 아니다.

상기 사용자 제스처 커맨드 입력 단계(S120)에서는 도플러 레이다(120)를 통해 사용자의 커맨드로 활용될 손동작을 직접 추출할 수 있는데, 예를 들어 도 2에 도시된 바와 같이, 손을 위로 스와이프(swipe)(a), 손을 아래로 스와이프(swipe)(b), 손을 왼쪽으로 스와이프(swipe)(c), 손을 오른쪽으로 스와이프(swipe)(d), 검지를 시계방향으로 계속 돌리는 동작(e), 손바닥을 레이다 정면으로 쭉 뻗는 동작(f)으로 구성된 총 6개의 손동작을 'up, down, left, right, yes, stop'으로 각각 정의할 수 있다.

상기 푸리에 변환 단계(S200)에서는, 푸리에 변환부(200)를 통해 음성 신호와 제스처 신호를 푸리에 변환을 통해 시간 변화에 대한 주파수 신호로 각각 변환하고, 변환된 주파수 신호를 스펙트로그램 형태의 데이터로 각각 출력할 수 있다. 이를 위해 푸리에 변환 단계(S200)는 음성 STFT 실행 단계(S210) 및 제스처 STFT 실행 단계(S220)를 포함할 수 있다.

상기 음성 STFT 실행 단계(S210)에서는, 음성 신호를 STFT(Short Time Fourier Transform)을 통해 시간 변화에 대한 주파수 신호로 변환하고, 변환된 주파수 신호를 스펙트로그램(spectrogram) 형태의 데이터(이하, 음성 스펙트로그램 데이터라고 함)로 변환하여 출력할 수 있다. 음성 스펙트로그램 데이터는 도 3에 도시된 바와 같이 '‘up(a), down(b), left(c), right(d), yes(e), stop(f)’'의 음성 커맨드에 따라 나타낼 수 있다.

상기 제스처 STFT 실행 단계(S220)에서는, 제스처 신호를 STFT(Short Time Fourier Transform)을 통해 시간 변화에 대한 주파수 신호로 변환하고, 변환된 주파수 신호를 스펙트로그램(spectrogram) 형태의 데이터(이하, 제스처 스펙트로그램 데이터라고 함)로 변환하여 출력할 수 있다.

일반적으로, 시간 영역의 데이터를 주파수 영역으로 변환하기 위하여 DFT(discrete Fourier transform) 연산이 사용된다. 그러나, DFT 연산은 데이터 구간 전체에 대한 주파수를 반환하기 때문에 음성과 제스처와 같이 시간에 따라 구성 주파수가 달라지는 시간 의존적 데이터에 적용하기 어렵다. 이러한 시간 의존적 데이터는 시 구간을 짧게 나누는 윈도우 연산과 분할된 각 구간에 DFT 연산을 함으로써, 짧은 시 구간에 대한 주파수를 얻을 수 있도록 푸리에 변환 단계(S200)에서는 STFT(Short Time Fourier Transform)를 사용하여 시간 변화에 대한 주파수를 얻는 것이 바람직하다.

본 실시예에서 STFT는 하기의 수식 2에 따라 표현될 수 있다.

(수식 2)

수식 2에서 ω는 윈도우 함수를 나타내고, τ는 윈도우 지연시간을 나타낸다. 그리고, 음성 스펙트로그램 데이터와 제스처 스펙트로그램 데이터는 각각 STFT의 결과로 얻은 함수 X(τ, f)를 절대값으로 변환한 데이터를 포함할 수 있다. 즉, 스펙트로그램 데이터는 STFT(Short Time Fourier Transform) 연산 결과로 얻은 함수 X를 절대값으로 표현한 것이다.

상기 신호 처리 단계(S300)에서는, 푸리에 변환 단계(S200)를 통해 출력되는 두 종류의 커맨드 데이터인 음성 스펙트로그램 데이터와 제스처 스펙트로그램 데이터의 신호 처리를 수행하고, 이를 통해 STFT 결과에서 불필요한 영역을 제거하여 데이터 특징 검출 단계(S400)에 데이터 분류 처리를 위한 하드웨어의 복잡도와 메모리 사용량을 줄일 수 있으며, 서로 다른 종류의 스펙트로그램 데이터를 융합 학습 및 인식이 가능하도록 동일한 데이터 형태로 가공하여 데이터 특징 검출 단계(S400)로 출력할 수 있다.

상기 데이터 특징 검출 단계(S400)에서는, 신호 처리 단계(S300)를 통해 신호 처리가 완료된 2채널의 스펙트로그램 데이터 즉, 음성 스펙트로그램 데이터와 제스처 스펙트로그램 데이터에 대한 컨볼루션(convolution) 연산을 통해 유효한 특징 데이터를 추출하고, 추출된 특징 데이터를 FCL(Fully-Connected Layer)의 필터 연산을 통해 하나의 클래스로 분류할 수 있다. 이를 위해 데이터 특징 검출 단계(S400)는 특징 데이터 추출 단계(S410) 및 특징 데이터 분류 단계(S420) 중 적어도 하나를 포함할 수 있다.

상기 특징 데이터 추출 단계(S410)에서는, 도 5에 도시된 바와 같이 2개의 컨볼루션 레이어(Convolution Layer)를 이용하여, 학습된 필터와 음성 스펙트로그램 데이터, 그리고 해당 필터와 제스처 스펙트로그램 데이터를 각각 컨볼루션 연산하여 이미지의 색상, 선, 형태, 경계를 포함하는 특징을 뚜렷하게 추출하여 특징 데이터를 출력할 수 있다. 이러한 특징 데이터 추출 단계(S410)는 하위 층에서 선, 색과 같은 특징을 검출했다면 층이 깊어질수록 물체의 특징을 세부적으로 검출할 수 있다. 상기 필터는 커널(kernel)이라고도 불리는데 이러한 필터를 통과한 이미지 픽셀 값은 연산에 의해 변환되며, 이러한 과정에서 변환된 이미지들은 색상, 선, 형태, 경계 등의 특징이 뚜렷해질 수 있다. 이러한 필터를 통과한 이미지는 특성 값을 가지고 있어 'feature map' 또는 'activation map'이라고도 한다. 또한, 필터는 한 개 이상 적용할 수 있고, 필터의 수는 채널의 깊이를 나타낸다. 이에, 필터가 많을수록 더 많은 이미지 특성을 추출할 수 있으며, 컨볼루션 연산을 진행하면 할수록 이미지의 크기는 작아지고 채널 수(필터 수)는 증가하게 된다.

상기 특징 데이터 추출 단계(S410)에서는, 도 5에 도시된 바와 같이 컨볼루션 레이어(Convolution Layer)의 바로 다음에 위치한 풀링 레이어(Pooling Layer)를 이용하여 공간(spatial size)을 축소하는 과정이 진행된다. 이때, 공간의 width, height의 크기만 줄어들고 채널의 크기는 고정된다. 풀링 레이어는 입력 데이터의 크기를 축소하고 학습하지 않기 때문에 파라미터 수가 줄어들어 오버피팅(Over fitting)의 발생을 방지할 수 있다. 풀링에는 대상 이미지 영역에서 최대값을 구하는 맥스 풀링(Max Pooling)과 대상 이미지 영역에서 평균값을 구하는 평균 풀링(Average Pooling)이 존재하며, 본 실시예서는 이미지 처리에서 특성 값을 잘 찾아줄 수 있는 맥스 풀링을 이용하는 것이 바람직하다.

상기 특징 데이터 분류 단계(S420)에서는, 특징 데이터 추출 단계(S410)를 거쳐 출력되는 특징 데이터의 각 레이어를 1차원 벡터로 변환하고, 1차원 벡터로 변환된 각 레이어를 하나의 벡터로 연결하고, 소프트맥스(Softmax) 함수를 이용하여 가장 큰 값을 갖는 클래스를 출력 데이터로 분류할 수 있다. 이러한 특징 데이터 분류 단계(S420)는 도 5에 도시된 바와 같이 데이터 특징 검출 단계(S400)에서 마지막 분류(classification)을 결정하는 구성요소로, 'flatten'이 각 레이어를 1차원 벡터로 변환하고, 'FCL(Fully-Connected Layer)'가 1차원 벡터로 변환된 레이어를 하나의 벡터로 연결함으로써 각 레이어의 노드들이 하나로 연결될 수 있다. 그리고, 소프트맥스(Softmax) 함수를 이용해 가장 큰 값을 갖는 클래스를 출력(가장 확률이 높은 클래스를 출력으로 분류함)하여 사용자의 음성 및 제스처 커맨드에 대한 인식 및 검출 과정을 완료할 수 있다.

이러한 데이터 특징 검출 단계(S400)는, 학습한 필터를 입력 데이터와 컨볼루션 연산을 진행함으로써 입력된 스펙트로그램 데이터의 유효한 특징을 크기와 위치에 무관하게 추출할 수 있어, 특징의 크기와 위치 변형이 많은 이미지 인식에서 뛰어난 성능을 제공할 수 있다.

이하, 본 실시예에 따른 CNN 기반의 HMI 시스템의 동작 방법(S1000)의 성능 실험과 그 결과에 대하여 설명한다.

사용자 음성 커맨드 입력 단계(S110)는, 음성 커맨드를 STFT(Short Time Fourier Transform) 연산을 수행하면 시간에 따른 주파수 성분을 얻기 위하여 'TensorFlow'와 'AIY'에서 만든 'speech command dataset'을 사용하였다. 음성 커맨드는 총 6개 클래스(class)로 구성되고 'up, down, left, right, yes, stop'으로 사용자 제스처 커맨드 입력 단계(S120)로 추출한 데이터와 각각 매칭된다. 음성 데이터의 샘플링 주파수는 8000Hz이며, STFT(Short Time Fourier Transform)는 오버랩(overlap) 없이 128 포인트 해밍 윈도우(hamming window)를 적용하였고, FFT는 128 포인트로 진행하였다. STFT 연산 결과를 주파수 축에서 0Hz를 기준으로 64 포인트로 추출하였고, 시간 축에서 음성의 최대 파워가 나타나는 시간을 중심으로 40 point로 크롭(crop)하여 도 3에 도시된 바와 같은 음성 스펙트로그램(spectrogram)을 얻었다.

사용자 제스처 커맨드 입력 단계(S120)의 레이다 샘플링 주파수는 3000Hz로 3200개를 샘플링하여 STFT 연산을 진행 후 DC 오프셋(offset)을 제거하여 도플러 주파수를 얻었다. STFT는 128 포인트 해밍 윈도우(hamming window)에 64 포인트 오버랩(overlap)을 적용하였고, FFT는 128 포인트로 진행하였다. STFT 연산 결과를 주파수 축에서 0Hz를 중심으로 64 포인트, 시간 축에서 시작점부터 40 포인트를 잘라내어 도 4에 도시된 바와 같은 제스처 스펙트로그램(spectrogram)을 얻었다.

성능 평가를 위한 데이터 세팅은, 사용자 음성 커맨드 입력 단계(S110)의 음성 커맨드를 6000개 사용하였고, 사용자 제스처 커맨드 입력 단계(S120)의 제스처 커맨드를 6000개 사용하였으며, 'up, down, left, right, yes, stop' 6개로 class를 구분하였다. 학습을 위해 사용된 데이터는 각각 5400(90%)개이고, 검증을 위한 데이터는 각각 600(10%)개이다. 학습은 'cross entropy loss function'과 'Adam optimizer'를 사용하였으며 'learning rate'는 0.001, batch size는 200, epoch는 20으로 진행하였다.

본 실시예의 HMI 시스템의 동작 방법(S1000)을 통해 레이다 신호와 음성 신호를 융합한 데이터에 대하여 학습 및 분류를 수행하고, 그 결과를 단일 센서 시스템 결과와 비교하였다. 또한, 제한된 환경에서의 동작을 검증하기 위해 다양한 노이즈 환경에서 성능 평가를 수행하였다. 이러한 성능 평가 결과, 하기의 표 2와 같이 본 실시예의 HMI 시스템의 동작 방법(S1000)은 단일 센서 시스템보다 노이즈 환경에서 평균 7.7% 우수한 성능을 보이는 것을 확인하였다.

<표 2>

이상에서는 CNN 기반의 HMI 시스템의 동작 방법에 관한 실시예를 설명하였으나, 음성 센서와 도플러 레이다에서 각각 센싱되는 신호들을 입력으로 하는 HMI 시스템의 센서 데이터 처리 장치와 관련된 별도의 동작 방법의 실시가 가능하다. 이때, 음성 센서와 도플러 레이다를 제외한 센서 데이터 처리 장치에 대한 전반적인 동작 방법은 상술한 CNN 기반의 HMI 시스템(1000)의 동작 방법과 동일하므로, 그에 대한 상세한 설명은 생략한다.

이상에서 설명한 것은 본 발명에 의한 도플러 레이다 및 음성 센서를 이용한 CNN 기반의 HMI 시스템, HMI 시스템의 센서 데이터 처리 장치 및 그 동작 방법을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기 실시예에 한정되지 않고, 이하의 특허청구범위에서 청구하는 바와 같이 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.

1000: CNN 기반의 HMI 시스템
100: HMI 센서부
110: 음성 센서
120: 도플러 레이다
200: 푸리에 변환부
210: 음성 STFT 실행부
220: 제스처 STFT 실행부
300: 신호 처리부
400: CNN 모델부
410: 컨볼루션 레이어
420: 풀링 레이어
430: 풀리 커넥티드 레이어
S1000: CNN 기반의 HMI 시스템의 동작 방법
S100: 사용자 커맨드 입력 단계
S110: 사용자 음성 커맨드 입력 단계
S120: 사용자 제스처 커맨드 입력 단계
S200: 푸리에 변환 단계
S210: 음성 STFT 실행 단계
S220: 제스처 STFT 실행 단계
S300: 신호 처리 단계
S400: 데이터 특징 검출 단계
S410: 특징 데이터 추출 단계
S420: 특징 데이터 분류 단계

Claims

CNN 기반의 HMI 시스템에 있어서,
사용자의 음성 커맨드와 제스처 커맨드를 각각 센싱하고, 음성 신호와 제스처 신호를 각각 출력하는 HMI 센서부;
상기 음성 신호와 상기 제스처 신호를 푸리에 변환을 통해 시간 변화에 대한 주파수 신호로 각각 변환하고, 변환된 주파수 신호를 스펙트로그램 형태의 데이터로 각각 출력하는 푸리에 변환부; 및
상기 푸리에 변환부를 통해 각각 출력되는 음성 스펙트로그램 데이터와 제스처 스펙트로그램 데이터에 대한 컨볼루션 연산을 통해 유효한 특징 데이터를 추출하고, 추출된 특징 데이터를 FCL(Fully-Connected Layer)의 필터 연산을 통해 하나의 클래스로 분류하는 CNN 모델부를 포함하고,
상기 HMI 센서부는,
마이크를 통해 사용자의 음성 커맨드를 입력 받고, 상기 음성 신호를 출력하는 음성 센서; 및
도플러 효과를 이용한 속도 측정을 통해 사용자의 제스처 커맨드를 입력 받고, 상기 제스처 신호를 출력하는 도플러 레이다를 포함하고,
상기 도플러 레이다는, 중심주파수가 24GHz이고, 대역폭이 250MHz인 연속파를 사용하고,
상기 푸리에 변환부는,
상기 음성 신호를 STFT(Short Time Fourier Transform)을 통해 시간 변화에 대한 주파수 신호로 변환하고, 변환된 주파수 신호를 스펙트로그램 형태의 데이터로 변환하여 출력하는 음성 STFT 실행부; 및
상기 제스처 신호를 STFT을 통해 시간 변화에 대한 주파수 신호로 변환하고, 변환된 주파수 신호를 스펙트로그램 형태의 데이터로 변환하여 출력하는 제스처 STFT 실행부를 포함하고,
상기 STFT는 하기의 수식에 따라 변환되고,

상기 ω는 윈도우 함수를 나타내고, 상기 τ는 윈도우 지연시간을 나타내고,
상기 음성 스펙트로그램 데이터와 상기 제스처 스펙트로그램 데이터는 각각 상기 STFT의 결과로 얻은 함수 X(τ, f)를 절대값으로 변환한 데이터를 포함하고,
상기 CNN 기반의 HMI 시스템은,
상기 푸리에 변환부에서 출력되는 상기 음성 스펙트로그램 데이터와 상기 제스처 스펙트로그램 데이터의 신호 처리를 통해 상기 STFT 결과에서 불필요한 영역을 제거하고, 서로 다른 종류의 스펙트로그램 데이터를 융합 학습 및 인식이 가능하도록 동일한 데이터 형태로 가공하여 상기 CNN 모델부로 출력하는 신호 처리부를 더 포함하고,
상기 CNN 모델부는,
학습된 필터와, 상기 음성 스펙트로그램 데이터 및 상기 제스처 스펙트로그램 데이터 각각을 컨볼루션 연산하여 이미지의 색상, 선, 형태, 경계를 포함하는 특징을 추출하여 특징 데이터를 출력하는 컨볼루션 레이어; 및
상기 컨볼루션 레이어를 통해 출력되는 특징 데이터의 각 레이어를 1차원 벡터로 변환하고, 1차원 벡터로 변환된 각 레이어를 하나의 벡터로 연결하고, 소프트맥스(Softmax) 함수를 이용하여 가장 큰 값을 갖는 클래스를 출력 데이터로 분류하는 풀리 커넥티드 레이어를 포함하고,
상기 음성 센서는 8000Hz의 샘플링 주파수로 음성 데이터를 생성하고,
상기 음성 신호에 대한 STFT는, 오버랩 없이 128 포인트 해밍 윈도우(hamming window)를 적용하고,
상기 음성 신호에 대한 STFT의 연산 결과는, 주파수 축에서 0Hz를 기준으로 64 포인트로 추출하고, 시간 축에서 음성에 대한 최대 파워가 나타나는 시간을 중심으로 40 포인트로 크롭(crop)하여 상기 음성 스펙트로그램 데이터를 얻고,
상기 도플러 레이다는 3000Hz의 샘플링 주파수로 3200 포인트를 샘플링하고,
상기 제스처 신호에 대한 STFT는, 128 포인트 해밍 윈도우(hamming window)에 64 포인트 오버랩(overlap)을 적용하고,
상기 제스처 신호에 대한 STFT의 연산 결과는, 주파수 축에서 0Hz를 중심으로 64 포인트를 추출하고, 시간 축에서 시작점부터 40 포인트를 잘라내어 얻는 것을 특징으로 하는 CNN(Convolutional Neural Network) 기반의 HMI(Human Machine Interface) 시스템.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
HMI 시스템의 센서 데이터 처리 장치에 있어서,
HMI 센서로부터 입력되는 음성 신호와 제스처 신호를 푸리에 변환을 통해 시간 변화에 대한 주파수 신호로 각각 변환하고, 변환된 주파수 신호를 스펙트로그램 형태의 데이터로 각각 출력하는 푸리에 변환부; 및
상기 푸리에 변환부를 통해 각각 출력되는 음성 스펙트로그램 데이터와 제스처 스펙트로그램 데이터에 대한 컨볼루션 연산을 통해 유효한 특징 데이터를 추출하고, 추출된 특징 데이터를 FCL(Fully-Connected Layer)의 필터 연산을 통해 하나의 클래스로 분류하는 CNN 모델부를 포함하고,
상기 음성 신호는, 음성 센서를 통해 사용자의 음성 커맨드를 입력 받아 생성되고, 상기 제스처 신호는, 도플러 레이다의 도플러 효과를 이용한 속도 측정을 통해 사용자의 제스처 커맨드를 입력 받아 생성되고,
상기 도플러 레이다는, 중심주파수가 24GHz이고, 대역폭이 250MHz인 연속파를 사용하고,
상기 푸리에 변환부는,
상기 음성 신호를 STFT(Short Time Fourier Transform)을 통해 시간 변화에 대한 주파수 신호로 변환하고, 변환된 주파수 신호를 스펙트로그램 형태의 데이터로 변환하여 출력하는 음성 STFT 실행부; 및
상기 제스처 신호를 STFT을 통해 시간 변화에 대한 주파수 신호로 변환하고, 변환된 주파수 신호를 스펙트로그램 형태의 데이터로 변환하여 출력하는 제스처 STFT 실행부를 포함하고,
상기 STFT는 하기의 수식에 따라 변환되고,

상기 ω는 윈도우 함수를 나타내고, 상기 τ는 윈도우 지연시간을 나타내고,
상기 음성 스펙트로그램 데이터와 상기 제스처 스펙트로그램 데이터는 각각 상기 STFT의 결과로 얻은 함수 X(τ, f)를 절대값으로 변환한 데이터를 포함하고,
상기 HMI 시스템의 센서 데이터 처리 장치는,
상기 푸리에 변환부에서 출력되는 상기 음성 스펙트로그램 데이터와 상기 제스처 스펙트로그램 데이터의 신호 처리를 통해 상기 STFT 결과에서 불필요한 영역을 제거하고, 서로 다른 종류의 스펙트로그램 데이터를 융합 학습 및 인식이 가능하도록 동일한 데이터 형태로 가공하여 상기 CNN 모델부로 출력하는 신호 처리부를 더 포함하고,
상기 CNN 모델부는,
학습된 필터와, 상기 음성 스펙트로그램 데이터 및 상기 제스처 스펙트로그램 데이터 각각을 컨볼루션 연산하여 이미지의 색상, 선, 형태, 경계를 포함하는 특징을 추출하여 특징 데이터를 출력하는 컨볼루션 레이어; 및
상기 컨볼루션 레이어를 통해 출력되는 특징 데이터의 각 레이어를 1차원 벡터로 변환하고, 1차원 벡터로 변환된 각 레이어를 하나의 벡터로 연결하고, 소프트맥스(Softmax) 함수를 이용하여 가장 큰 값을 갖는 클래스를 출력 데이터로 분류하는 풀리 커넥티드 레이어를 포함하고,
상기 음성 센서는 8000Hz의 샘플링 주파수로 음성 데이터를 생성하고,
상기 음성 신호에 대한 STFT는, 오버랩 없이 128 포인트 해밍 윈도우(hamming window)를 적용하고,
상기 음성 신호에 대한 STFT의 연산 결과는, 주파수 축에서 0Hz를 기준으로 64 포인트로 추출하고, 시간 축에서 음성에 대한 최대 파워가 나타나는 시간을 중심으로 40 포인트로 크롭(crop)하여 상기 음성 스펙트로그램 데이터를 얻고,
상기 도플러 레이다는 3000Hz의 샘플링 주파수로 3200 포인트를 샘플링하고,
상기 제스처 신호에 대한 STFT는, 128 포인트 해밍 윈도우(hamming window)에 64 포인트 오버랩(overlap)을 적용하고,
상기 제스처 신호에 대한 STFT의 연산 결과는, 주파수 축에서 0Hz를 중심으로 64 포인트를 추출하고, 시간 축에서 시작점부터 40 포인트를 잘라내어 얻는 것을 특징으로 하는 HMI(Human Machine Interface) 시스템의 센서 데이터 처리 장치.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
CNN 기반의 HMI 시스템의 동작 방법에 있어서,
HMI 센서부가, 사용자의 음성 커맨드와 제스처 커맨드를 각각 센싱하고, 음성 신호와 제스처 신호를 각각 출력하는 사용자 커맨드 입력 단계;
푸리에 변환부가, 상기 음성 신호와 상기 제스처 신호를 푸리에 변환을 통해 시간 변화에 대한 주파수 신호로 각각 변환하고, 변환된 주파수 신호를 스펙트로그램 형태의 데이터로 각각 출력하는 푸리에 변환 단계; 및
CNN 모델부가, 상기 푸리에 변환부를 통해 각각 출력되는 음성 스펙트로그램 데이터와 제스처 스펙트로그램 데이터에 대한 컨볼루션 연산을 통해 유효한 특징 데이터를 추출하고, 추출된 특징 데이터를 FCL(Fully-Connected Layer)의 필터 연산을 통해 하나의 클래스로 분류하는 데이터 특징 검출 단계를 포함하고,
상기 사용자 커맨드 입력 단계는,
음성 센서의 마이크를 통해 사용자의 음성 커맨드를 입력 받고, 상기 음성 신호를 출력하는 사용자 음성 커맨드 입력 단계; 및
도플러 레이다의 도플러 효과를 이용한 속도 측정을 통해 사용자의 제스처 커맨드를 입력 받고, 상기 제스처 신호를 출력하는 사용자 제스처 커맨드 입력 단계를 포함하고,
상기 도플러 레이다는, 중심주파수가 24GHz이고, 대역폭이 250MHz인 연속파를 사용하고,
상기 푸리에 변환 단계는,
음성 STFT 실행부가, 상기 음성 신호를 STFT(Short Time Fourier Transform)을 통해 시간 변화에 대한 주파수 신호로 변환하고, 변환된 주파수 신호를 스펙트로그램 형태의 데이터로 변환하여 출력하는 음성 STFT 실행 단계; 및
제스처 STFT 실행부가, 상기 제스처 신호를 STFT을 통해 시간 변화에 대한 주파수 신호로 변환하고, 변환된 주파수 신호를 스펙트로그램 형태의 데이터로 변환하여 출력하는 제스처 STFT 실행 단계를 포함하고,
상기 STFT는 하기의 수식에 따라 변환되고,

상기 ω는 윈도우 함수를 나타내고, 상기 τ는 윈도우 지연시간을 나타내고,
상기 음성 STFT 실행 단계와 상기 제스처 STFT 실행 단계는,
상기 STFT의 결과로 각각 얻은 함수 X(τ, f)를 절대값으로 변환하여 상기 음성 스펙트로그램 데이터와 상기 제스처 스펙트로그램 데이터를 출력하고,
상기 CNN 기반의 HMI 시스템의 동작 방법는,
신호 처리부가, 상기 푸리에 변환 단계를 통해 출력되는 상기 음성 스펙트로그램 데이터와 상기 제스처 스펙트로그램 데이터의 신호 처리를 통해 상기 STFT 결과에서 불필요한 영역을 제거하고, 서로 다른 종류의 스펙트로그램 데이터를 융합 학습 및 인식이 가능하도록 동일한 데이터 형태로 가공하여 상기 데이터 특징 검출 단계를 위해 상기 CNN 모델부로 제공하는 신호 처리 단계를 더 포함하고,
상기 데이터 특징 검출 단계는,
컨볼루션 레이어가, 학습된 필터와, 상기 음성 스펙트로그램 데이터 및 상기 제스처 스펙트로그램 데이터 각각을 컨볼루션 연산하여 이미지의 색상, 선, 형태, 경계를 포함하는 특징을 추출하여 특징 데이터를 출력하는 특징 데이터 추출 단계; 및
풀리 커넥티드 레이어가, 상기 특징 데이터 추출 단계를 통해 제공되는 특징 데이터의 각 레이어를 1차원 벡터로 변환하고, 1차원 벡터로 변환된 각 레이어를 하나의 벡터로 연결하고, 소프트맥스(Softmax) 함수를 이용하여 가장 큰 값을 갖는 클래스를 출력 데이터로 분류하고,
상기 음성 센서는 8000Hz의 샘플링 주파수로 음성 데이터를 생성하고,
상기 음성 신호에 대한 STFT는, 오버랩 없이 128 포인트 해밍 윈도우(hamming window)를 적용하고,
상기 음성 신호에 대한 STFT의 연산 결과는, 주파수 축에서 0Hz를 기준으로 64 포인트로 추출하고, 시간 축에서 음성에 대한 최대 파워가 나타나는 시간을 중심으로 40 포인트로 크롭(crop)하여 상기 음성 스펙트로그램 데이터를 얻고,
상기 도플러 레이다는 3000Hz의 샘플링 주파수로 3200 포인트를 샘플링하고,
상기 제스처 신호에 대한 STFT는, 128 포인트 해밍 윈도우(hamming window)에 64 포인트 오버랩(overlap)을 적용하고,
상기 제스처 신호에 대한 STFT의 연산 결과는, 주파수 축에서 0Hz를 중심으로 64 포인트를 추출하고, 시간 축에서 시작점부터 40 포인트를 잘라내어 얻는 것을 특징으로 하는 CNN(Convolutional Neural Network) 기반의 HMI(Human Machine Interface) 시스템의 동작 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
HMI 시스템의 센서 데이터 처리 장치의 동작 방법에 있어서,
푸리에 변환부가, HMI 센서로부터 입력되는 음성 신호와 제스처 신호를 푸리에 변환을 통해 시간 변화에 대한 주파수 신호로 각각 변환하고, 변환된 주파수 신호를 스펙트로그램 형태의 데이터로 각각 출력하는 푸리에 변환 단계; 및
CNN 모델부가, 상기 푸리에 변환부를 통해 각각 출력되는 음성 스펙트로그램 데이터와 제스처 스펙트로그램 데이터에 대한 컨볼루션 연산을 통해 유효한 특징 데이터를 추출하고, 추출된 특징 데이터를 FCL(Fully-Connected Layer)의 필터 연산을 통해 하나의 클래스로 분류하는 데이터 특징 검출 단계를 포함하고,
상기 푸리에 변환 단계는,
음성 센서를 통해 사용자의 음성 커맨드를 입력 받아 생성된 상기 음성 신호와, 도플러 레이다의 도플러 효과를 이용한 속도 측정을 통해 사용자의 제스처 커맨드를 입력 받아 생성된 상기 제스처 신호를 각각 입력 받고,
상기 도플러 레이다는, 중심주파수가 24GHz이고, 대역폭이 250MHz인 연속파를 사용하고,
상기 푸리에 변환 단계는,
음성 STFT 실행부가, 상기 음성 신호를 STFT(Short Time Fourier Transform)을 통해 시간 변화에 대한 주파수 신호로 변환하고, 변환된 주파수 신호를 스펙트로그램 형태의 데이터로 변환하여 출력하는 음성 STFT 실행 단계; 및
제스처 STFT 실행부가, 상기 제스처 신호를 STFT을 통해 시간 변화에 대한 주파수 신호로 변환하고, 변환된 주파수 신호를 스펙트로그램 형태의 데이터로 변환하여 출력하는 제스처 STFT 실행 단계를 포함하고,
상기 STFT는 하기의 수식에 따라 변환되고,

상기 ω는 윈도우 함수를 나타내고, 상기 τ는 윈도우 지연시간을 나타내고,
상기 음성 STFT 실행 단계와 상기 제스처 STFT 실행 단계는,
상기 STFT의 결과로 각각 얻은 함수 X(τ, f)를 절대값으로 변환하여 상기 음성 스펙트로그램 데이터와 상기 제스처 스펙트로그램 데이터를 출력하고,
상기 HMI 시스템의 센서 데이터 처리 장치의 동작 방법은,
신호 처리부가, 상기 푸리에 변환 단계를 통해 출력되는 상기 음성 스펙트로그램 데이터와 상기 제스처 스펙트로그램 데이터의 신호 처리를 통해 상기 STFT 결과에서 불필요한 영역을 제거하고, 서로 다른 종류의 스펙트로그램 데이터를 융합 학습 및 인식이 가능하도록 동일한 데이터 형태로 가공하여 상기 데이터 특징 검출 단계를 위해 상기 CNN 모델부로 제공하는 신호 처리 단계를 더 포함하고,
상기 데이터 특징 검출 단계는,
컨볼루션 레이어가, 학습된 필터와, 상기 음성 스펙트로그램 데이터 및 상기 제스처 스펙트로그램 데이터 각각을 컨볼루션 연산하여 이미지의 색상, 선, 형태, 경계를 포함하는 특징을 추출하여 특징 데이터를 출력하는 특징 데이터 추출 단계; 및
풀리 커넥티드 레이어가, 상기 특징 데이터 추출 단계를 통해 제공되는 특징 데이터의 각 레이어를 1차원 벡터로 변환하고, 1차원 벡터로 변환된 각 레이어를 하나의 벡터로 연결하고, 소프트맥스(Softmax) 함수를 이용하여 가장 큰 값을 갖는 클래스를 출력 데이터로 분류하고,
상기 음성 센서는 8000Hz의 샘플링 주파수로 음성 데이터를 생성하고,
상기 음성 신호에 대한 STFT는, 오버랩 없이 128 포인트 해밍 윈도우(hamming window)를 적용하고,
상기 음성 신호에 대한 STFT의 연산 결과는, 주파수 축에서 0Hz를 기준으로 64 포인트로 추출하고, 시간 축에서 음성에 대한 최대 파워가 나타나는 시간을 중심으로 40 포인트로 크롭(crop)하여 상기 음성 스펙트로그램 데이터를 얻고,
상기 도플러 레이다는 3000Hz의 샘플링 주파수로 3200 포인트를 샘플링하고,
상기 제스처 신호에 대한 STFT는, 128 포인트 해밍 윈도우(hamming window)에 64 포인트 오버랩(overlap)을 적용하고,
상기 제스처 신호에 대한 STFT의 연산 결과는, 주파수 축에서 0Hz를 중심으로 64 포인트를 추출하고, 시간 축에서 시작점부터 40 포인트를 잘라내어 얻는 것을 특징으로 하는 HMI(Human Machine Interface) 시스템의 센서 데이터 처리 장치의 동작 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제