KR20220116936A

KR20220116936A - 사운드 기계학습에 기반한 제스처 검출 장치 및 방법

Info

Publication number: KR20220116936A
Application number: KR1020210020413A
Authority: KR
Inventors: 김헌; 임호정; 김우진; 오세영; 이호준
Original assignee: 서울과학기술대학교 산학협력단
Priority date: 2021-02-16
Filing date: 2021-02-16
Publication date: 2022-08-23
Also published as: KR102436970B1

Abstract

실시예는 터치에 의한 입력 사운드 데이터를 수신하는 제1 수신부; 및 상기 입력 사운드 데이터를 학습 모듈에 입력하고 상기 학습 모듈로부터 출력된 제스처 종류에 대응하는 명령을 출력하는 처리부;를 포함하고, 상기 학습 모듈은. 학습 사운드 데이터와 상기 학습 사운드 데이터에 대응되는 학습 제스처 종류를 포함하는 학습 데이터를 이용하여 학습하는 학습부를 포함하는 사운드 기계학습에 기반한 제스처 검출 장치를 개시한다.

Description

사운드 기계학습에 기반한 제스처 검출 장치 및 방법{DEVICE AND METHOD FOR DETECTING GESTURE BASED ON SOUND MACHINE LEARNING}

실시예는 사운드 기계학습에 기반한 제스처 검출 장치 및 방법에 관한 것이다.

현재, 각각의 이벤트(예로, 음성)　사운드를 추출하고 이를 기반으로 음성 인터렉션(interaction)을 수행하는 장치 및 방법이 다양하게 존재한다.

스마트스피커 시장은 매년 큰 성장폭으로 상승세에 있지만, 스마트스피커의 사용성은 사용자들의 기대 수준에 미치지 못하고 있다. 그리고 스마트스피커는 사용자의 음성 명령으로 작동하는데, 현재 스마트스피커 음성 인터랙션(interation)은 음성명령을 수행하기 전에 항상 스피커를 먼저 호출(예. 아리야, OK 구글, 헤이 카카오 등)하는 사전 과정이 필요하여 즉각적인 명령 수행이 어렵고, 주변 소음 등으로 인해 인식률이 떨어지는 등의 문제가 존재한다.

이에, 상술한 사전 과정은 단순하고 반복적인 명령에도 수행이 필수적으로 이루어져야 하므로, 사용자 편의성 및 사용성이 저해되는 문제점이 존재한다.

실시예는 음성인식 사전 과정을 제거하고 즉각적인 명령이 수행될 수 있는 사운드 기계학습에 기반한 제스처 검출 장치 및 방법을 제공한다.

또한, 터치스크린이나 각종 센서를 통해 스마트스피커 음성 인터랙션의 사용성을 높이는 경우(예로, 터치스크린을 터치하여 명령을 수행한다든지, 카메라를 이용하여 사용자의 제스처를 인식)보다 개발 비용이 적고 구현 용이성이 높은 사운드 기계학습에 기반한 제스처 검출 장치 및 방법을 제공한다.

또한, 노이즈에 대해 입력 데이터를 용이하게 인식하여 보다 정확한 제스처 검출이 이루어지는 사운드 기계학습에 기반한 제스처 검출 장치 및 방법을 제공한다.

실시예에서 해결하고자 하는 과제는 이에 한정되는 것은 아니며, 아래에서 설명하는 과제의 해결수단이나 실시 형태로부터 파악될 수 있는 목적이나 효과도 포함된다고 할 것이다.

실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치는 터치에 의한 입력 사운드 데이터를 수신하는 제1 수신부; 및 상기 입력 사운드 데이터를 학습 모듈에 입력하고 상기 학습 모듈로부터 출력된 제스처 종류에 대응하는 명령을 출력하는 처리부;를 포함하고, 상기 학습 모듈은. 학습 사운드 데이터와 상기 학습 사운드 데이터에 대응되는 학습 제스처 종류를 포함하는 학습 데이터를 이용하여 학습하는 학습부를 포함한다.

상기 학습 모듈은,

상기 학습 사운드 데이터에 대응하는 학습 제스처 종류를 포함하는 적어도 하나의 학습 데이터를 저장한 저장부; 및 상기 학습 사운드 데이터 또는 상기 입력 사운드 데이터에 대한 제1 특징 데이터를 추출하는 제1 추출부;를 포함할 수 있다.

입력 압력 데이터를 수신하는 제2 수신부;를 더 포함하고, 상기 학습 모듈은, 학습 압력 데이터 또는 상기 입력 압력 데이터에 대한 제2 특징 데이터를 추출하는 제2 추출부; 및 상기 학습 사운드 데이터에 대한 제1 특징 데이터와 상기 학습 압력 데이터에 대한 제2 특징 데이터를 결합하여 학습 결합 데이터를 생성하는 결합부; 를 포함하고, 상기 처리부는 상기 학습 결합 데이터를 상기 결합부로부터 수신하여 상기 학습 모듈에 입력할 수 있다.

상기 학습 데이터는 상기 학습 결합 데이터에 대응하는 상기 학습 제스처 종류를 포함할 수 있다.

상기 입력 사운드 데이터는 복수 개로 서로 이격된 위치의 입력부에서 발생될 수 있다.

실시예에 따르면, 음성인식 사전 과정을 제거하고 즉각적인 명령이 수행될 수 있는 사운드 기계학습에 기반한 제스처 검출 장치 및 방법을 구현할 수 있다.

또한, 터치스크린이나 각종 센서를 통해 스마트스피커 음성 인터랙션의 사용성을 높이는 경우(예로, 터치스크린을 터치하여 명령을 수행한다든지, 카메라를 이용하여 사용자의 제스처를 인식)보다 개발 비용이 적고 구현 용이성이 높은 사운드 기계학습에 기반한 제스처 검출 장치 및 방법을 구현할 수 있다.

또한, 노이즈에 대해 입력 데이터를 용이하게 인식하여보다 정확한 제스처 검출이 이루어지는 사운드 기계학습에 기반한 제스처 검출 장치 및 방법을 구현할 수 있다.

본 발명의 다양하면서도 유익한 장점과 효과는 상술한 내용에 한정되지 않으며, 본 발명의 구체적인 실시형태를 설명하는 과정에서 보다 쉽게 이해될 수 있을 것이다.

도 1은 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치의 개념도이고,
도 2는 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치에서 학습 모듈의 신경망을 설명하는 예시도이고,
도 3은 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치에서 제스처 검출 및 학습을 설명하는 도면이고,
도 4는 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치의 동작의 일예를 설명하는 도면이고,
도 5는 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치의 동작의 다른 예를 설명하는 도면이고,
도 6은 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 방법의 순서도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제2, 제1 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제2 구성요소는 제1 구성요소로 명명될 수 있고, 유사하게 제1 구성요소도 제2 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부된 도면을 참조하여 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 대응하는 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

도 1은 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치의 개념도이고, 도 2는 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치에서 학습 모듈의 신경망을 설명하는 예시도이고, 도 3은 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치에서 제스처 검출 및 학습을 설명하는 도면이고, 도 4는 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치의 동작의 일예를 설명하는 도면이고, 도 5는 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치의 동작의 다른 예를 설명하는 도면이다.

도 1 내지 도 3을 참조하면, 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치(100)는 제1 수신부(110), 제2 수신부(120), 처리부(130)를 포함할 수 있다. 예컨대, 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치(100)는 제1 수신부(110)나 제1 수신부(110) 및 제2 수신부(120)를 이용하여 제스처를 검출할 수 있다. 먼저, 사운드 기계학습에 기반한 제스처 검출 장치(100)는 단말 장치 또는 단말 또는 컴퓨팅 장치 내에 위치할 수 있다. 이하에서는 단말을 기준으로 설명한다. 단말은 컴퓨터 장치로 구현되는 고정형 단말이거나 이동형 단말일 수 있다. 단말은 예를 들면, 스마트폰(smart phone), 휴대폰, 내비게이션, 컴퓨터, 노트북, 디지털방송용 단말, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 태블릿 PC, PC 모니터, HMD(Head mounted Display)일 수 있으며, 이에 한정되지 않는다.

나아가, 제스처 검출 장치(100)는 컴퓨팅 장치 또는 단말 내에 위치할 수 있고, 단말 또는 컴퓨팅 장치는 후술하는 제스처 검출 방법을 수행하도록 메모리 장치 등에 프로그램될 수 있다.

제1 수신부(110)는 입력 사운드 데이터를 수신할 수 있다. 제1 수신부(110)는 예컨대 마이크로폰 등을 통해 외부에서 발생한 입력 사운드 데이터를 수신할 수 있다. 즉, 제1 수신부(110)는 단말 내에 위치한 입력부(MC)(예, 마이크)로부터 입력 사운드 데이터를 수신할 수 있다. 이에 따라, 별도의 인터렉션을 위한 장치가 단말에 추가될 필요가 없다. 이때, 입력부는 특정 위치 또는 특정 장치(스피커 등) 상에 위치할 수 있다. 예컨대, 마이크가 스테레오 마이크인 경우, 제1 수신부(110)는 스테레오 사운드 데이터를 수신할 수 있다. 또한, 제1 수신부(110)는 복수 개일 수 있으며, 복수 개의 제1 수신부(110)는 동시에 복수의 입력 사운드 데이터를 수신할 수 있다.

또한, 제1 수신부(110)는 학습을 위한 학습 사운드 데이터를 입력부(MC)로부터 수신할 수도 있다. 예컨대, 사용자가 사용자 맞춤형으로 터치에 의한 학습 사운드 데이터를 생성하는 경우, 제1 수신부(110)는 학습 사운드 데이터를 수신할 수 있다.

제2 수신부(120)는 입력 압력 데이터를 수신할 수 있다. 제2 수신부(120)는 예컨대, 피에조 소자 등의 압력 감지 소자(미도시됨)를 통해 단말에 가해진 입력 압력 데이터를 수신할 수 있다. 예컨대, 제2 수신부(120)는 단말의 디스플레이에 내장된 터치 센서 등으로부터 사용자의 터치, 압력, 진동에 대한 입력 압력 데이터를 수신할 수 있으므로, 별도의 인터렉션을 위한 장치가 단말에 추가될 필요가 없다. 이러한 제2 수신부(120)는 복수 개일 수 있다. 예컨대, 제2 수신부(120)는 복수 개의 피에조 소자로부터 입력 압력 데이터를 수신할 수 있다.

또한, 제2 수신부(120)는 학습을 위한 학습 압력 데이터를 피에조 소자 등의 압력 감지 소자로부터 수신할 수도 있다. 예컨대, 사용자가 상술한 바와 같이 사용자 맞춤형으로 터치에 의한 사운드 데이터를 생성함과 동시에 학습 압력 데이터를 생성할 수 있다. 이에, 제2 수신부(120)는 학습 압력 데이터를 수신할 수 있다.

처리부(130)는 입력 사운드 데이터를 학습 모듈(131)에 입력하고 학습 모듈(131)로부터 출력된 제스처 종류에 대응하는 명령을 출력할 수 있다. 본 명세서에서 제스처 종류는 특징 장치(스피커)의 위치(예로 면), 손 부위, 소리 종류(치기, 긁기, 비비기, 두드리기 등), 소리 횟수를 고려하여 정해질 수 있다. 또한, 명령은 단위조작기능으로 일시정지, 다음, 거절, 음량조절, 재생, 반복 등을 포함할 수 있다.

학습 모듈(131)은 처리부(130)에 포함되거나 포함되지 않을 수 있다. 이하에서는 처리부(130)가 학습 모듈(131)을 포함하는 것으로 설명한다.

보다 구체적으로, 처리부(130)는 입력 사운드 데이터 또는 입력 압력 데이터를 심층 신경망으로 이루어진 학습 모듈(131)에 입력하고, 학습 모듈(131)에서 학습 데이터를 기반으로 최종 출력된 출력 데이터인 제스처 종류에 매핑된 명령을 출력할 수 있다.

예컨대, 사용자가 특정 위치를 터치하는 어떤 제스처(예로, 탭 1회로 윗면)를 취하면, 터치의 마찰에 의해 발생하는 사운드 데이터(입력 사운드 데이터)가 제1 수신부로 제공될 수 있다.

이 때, 사용자의 특정 제스처에 의해 고유의 사운드 데이터가 생성되므로, 처리부(130)는 학습 사운드 데이터 또는 학습 압력 데이터에 대응되는 학습 제스처 종류를 포함하는 학습 데이터로 학습된 학습 모듈(131)에 상기 고유의 사운드 데이터를 입력 사운드 데이터로 입력하고 그에 대응하는 제스처 종류를 출력할 수 있다. 예를 들어, 처리부(130)는 입력 사운드 데이터를 통해 제스처가 '탭 1회로 윗면'임을 출력하고, '탭 1회로 윗면'에 대응한 명령(예로, 다시 재생)을 출력할 수 있다.

이때, 학습 모듈은 사전에 터치에 의한 제스처 고유의 사운드 데이터를 학습시킨 딥러닝 모델, 기계학습 모듈. 인공지능 모델, 인공지능 신경망으로 이루어지거나 이에 대응할 수 있다.

이와 같이 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치(100)는 사용자의 터치에 의한 입력 사운드 데이터를 통해 특정 제스처에 맵핑된 명령 또는 기능을 작동시킬 수 있다. 따라서, 음성인식보다 빠르고 정확하게 인터랙션이 이루어지는 장치를 제공할 수 있다. 나아가, 특정 조건이 필요 없이 사용자의 제스처가 있는 경우에 언제든지 제스처에 대응하는 명령 또는 기능이 수행될 수 있다.

이러한 학습 모듈(131)은 학습부(131a), 저장부(131b), 제1 추출부(131c), 제2 추출부(131d) 및 결합부(131e)를 포함할 수 있다.

학습부(131a)는 학습 사운드 데이터와 학습 압력 데이터에 대응되는 학습 제스처 종류를 포함하는 학습 데이터를 이용하여 학습할 수 있다. 학습 사운드 데이터, 학습 압력 데이터 및 학습 제스처 종류는 저장부(131b)에 저장될 수 있다.

예컨대, 학습부(131a)는 머신러닝 모델을 포함할 수 있으며, 머신러닝 모델은 사전 훈련된 CNN기반의 기계학습 모델일 수 있다. 이를 기준으로 이하 설명한다.

실시예로, 머신러닝 모델은 제1 추출부(131c)에서 추출된 제1 특징 데이터 또는 결합 데이터(제1 특징 데이터 및 제2 특징 데이터)를 입력으로 하고, 제스처 종류를 출력으로 한 학습 데이터로 훈련될 수 있다. 이러한 머신러닝 모델로, 사전 훈련된 CNN 기반 머신러닝 모델은 VGG, Inception, ResNet, SENet 등의 머신러닝 모델이 될 수 있다. 다만, 이에 한정되지 않는다.

또한, 머신러닝 모델은 에를 들어 피라미드 구조의 합성곱 신경 회로망(convolutional neural network)으로　제스처 종류를 출력 또는 추출할 수 있다. 나아가, 머신러닝 모델은 3×3과 1×1 콘벌루션으로 이루어져 필터링을 수행하는 복수의 콘벌루션 레이어(convolution layer)와 다운 샘플링을 수행하는 복수 개의 풀링 레이어(max pooling layer)를 포함할 수 있으며, 각각의 콘벌루션 레이어의 입력에 배치 정규화(batch normalization)를 적용하고, 활성화 함수로 Leaky ReLU(교정 선형 유닛, rectified linear unit)를 적용할 수도 있다. 다만, 이러한 종류에 한정되는 것은 아니다.

사용자의 제스처(입력 제스처)에 대응하여 발생한 고유의 입력에 따라 상이한 사운드 데이터인 입력 사운드 데이터가 학습부(131a)에 입력되면, 학습부(131a)는 학습 데이터를 통해 학습된 머신러닝 모델을 통해 입력 사운드 데이터에 대응한 제스처 종류를 검출 또는 출력할 수 있다.

예컨대, 학습부(131a)는 입력 사운드 데이터(예로, 사운드 1 내지 사운드 12)가 입력되면 입력 사운드 데이터에 대응하는 제스처 종류(예로, 문지르기 윗면 내지 동그라미)를 출력할 수 있다. 도 3에서 학습부에서 제스처 검출 및 학습을 도시한다.

이에, 최종적으로 처리부는 출력된 제스처에 맵핑된 기능 또는 명령을 실행할 수 있다. 예컨대, 사운드 3이 입력 사운드 데이터로 입력되면 학습부를 통해 사용자의 제스처가 '탭 1회 윗면'임을 출력하고 '탭 1회 윗면'에 대응하는 명령(또는 기능)인 '다시 재생'을 실행할 수 있다. 즉, 사용자가 특정 위치(예로, 스피커)의 윗면을 1회 탭하면, 실시예에 따른 사운드 기계학습에 기반한 제스처 검출장치는 처리부를 통해 실행중인 미디어(예로, 음악)을 다시 재생할 수 있다. 나아가, 학습부(131a)는 결합 데이터(입력 결합 데이터)를 입력으로 수신하고 이에 대응하는 제스처 종류를 검출 또는 출력할 수 있다.

또한, 학습부(131a)는 학습 결합 데이터 및 학습 결합 데이터에 대응하는 학습 제스처 종류를 포함하는 학습 데이터를 통해 훈련될 수 있다. 예컨대, 학습 결합 데이터는 제1 특징 데이터와 제2 특징 데이터로 이루어질 수 있다. 여기서, 제1 특징 데이터는 학습 사운드 데이터(예로, 사운드 3)로부터 추출되고, 제2 특정 데이터는 학습 압력 데이터(예로, 압력 3)로부터 추출될 수 있다. 즉, 학습부(131a)는 제1 특징 데이터와 제2 특징 데이터가 결합된 학습 결합 데이터에 대응된 제스처 종류를 학습 데이터로 트레이닝할 수 있다.

또한, 학습부(131a)에서 제스처 종류를 검출 또는 출력할 수 있다. 예컨대, 학습부(131a)는 입력 결합 데이터에 대응하는 학습 제스처 종류를 검출할 수 있다. 예컨대, 입력 결합 데이터는 제1 특징 데이터와 제2 특징 데이터로 이루어질 수 있다. 여기서, 제1 특징 데이터는 입력 사운드 데이터(예로, 사운드 3)로부터 추출되고, 제2 특정 데이터는 입력 사운드 데이터와 동일 시간에 수신된 입력 압력 데이터(예로, 압력 3)로부터 추출될 수 있다. 이로써, 노이즈인 다양한 터치에 의한 사운드 데이터가 용이하게 제거될 수 있다. 즉, 본 장치는 정확한 제스처 판별을 제공할 수 있다.

그리고 학습부(131a)는 제1 특징 데이터와 제2 특징 데이터가 결합된 입력 결합 데이터가 입력되면, 입력 결합 데이터에 대응된 제스처 종류를 검출할 수 있다. 이로써, 처리부는 학습부(131a)를 통해 사용자의 제스처를 검출 또는 출력하고 최종적으로 제스처에 대응하는 명령 또는 기능을 실행할 수 있다.

도 4를 참조할 때, '사운드 3'이 입력 사운드 데이터이고, '압력 3'이 입력 압력 데이터인 경우, '사운드 3'과 '압력 3'으로부터 각각 제1 특징 데이터와 제2 특징 데이터가 제1 추출부(131c)와 제2 추출부(131d)에 의해 추출할 수 있다. 압력 3은 커패시턴스 값에 대응하나 이에 한정되지 않는다. 그리고 추출된 제1 특징 데이터 및 제2 특징 데이터의 결합 데이터가 상술한 머신러닝 모델에 인가되면 그에 대응하는 제스처 종류가 출력될 수 있다. 나아가, 최종적으로 노이즈가 아닌 경우 제스처('탭 1회 윗면')에 대응하는 '다시 재생'이 실행될 수 있다.

또한, 입력 사운드 데이터는 복수 개로 서로 이격된 위치의 입력부에서 발생될 수 있다.

도 3및 도 5를 참조하면, 사용자가 손가락을 오른쪽에서 왼쪽으로 스와이프하는 경우 이격된 위치의 입력부에서는 각각 입력 사운드 데이터가 수신될 수 있다. 예컨대, 입력 사운드 데이터는 복수 개로 제1 입력 사운드 데이터인 '사운드5-1'와 제2 입력 사운드 데이터인 '사운드 5-2'를 포함할 수 있다.

그리고 제1 추출부는 제1 입력 사운드 데이터로부터 제1-1 특징 데이터(입력)를 제2 입력 사운드 데이터로부터 제1-2 특징 데이터(입력)를 추출하고 이를 결합한 입력 결합 데이터가 학습 모듈(머신러닝 모델)에 입력되면 최종적으로 제스처 종류(손가락을 오른쪽에서 왼쪽으로 스와이프)가 검출될 수 있다. 그리고 제스처 종류(손가락을 오른쪽에서 왼쪽으로 스와이프)에 대응하는 '이전'이 실행될 수 있다. 이 때, 사운드 5-1과 사운드 5-2는 서로 시간에 대해 대칭일 수 있다. 제1-1 특징 데이터와 제1-2 특징 데이터로 이루어진 입력 결합 데이터는 이러한 대칭이 반영될 수 있다. 따라서 예를 들어 스와이프의 방향에 대한 명확한 구별이 이루어질 수 있다. 즉, 실시예에 따른 기계학습에 기반한 제스처 검출 장치는 보다 정확한 제스처 판별이 이루어질 수 있다.

이에 대응하여 학습의 경우에도 상술한 검출과 유사하게 이루어질 수 있다. 즉, 제스처 종류(예로, 손가락을 오른쪽에서 왼쪽으로 스와이프)에 대응한 사운드 5-1 및 사운드 5-2가 학습 사운드 데이터일 수 있다. 학습 사운드 데이터는 복수 개일 수 있으며, 예컨대, 제1 학습 사운드 데이터 및 제2 학습 사운드 데이터를 포함할 수 있다. 사운드 5-1은 제1 학습 사운드 데이터에 대응하고, 사운드 5-2는 제2 학습 사운드 데이터에 대응할 수 있다. 그리고 제1,2 추출부는 각각 제1 학습 사운드 데이터로부터 제1-1 특징 데이터(학습)를 추출하고, 제2 학습 사운드 데이터로부터 제1-2 특징 데이터(학습)를 추출할 수 있다. 학습 모듈은 추출된 제1-1 특징 데이터와 제1-2 특징 데이터를 결합한 학습 결합 데이터와 이에 대응한 제스처 종류(손가락을 오른쪽에서 왼쪽으로 스와이프)로 이루어진 학습 데이터를 이용하여 트레이닝된다.

저장부(131b)는 학습 사운드 데이터와 학습 압력 데이터에 대응하는 학습 제스처 종류를 포함하는 적어도 하나의 학습 데이터를 저장할 수 있다. 또한, 저장부(131b)는 후술하는 학습 결합 데이터에 대응하는 학습 제스처 종류를 포함하는 학습 데이터를 저장할 수도 있다.

나아가, 학습 사운드 데이터, 학습 압력 데이터는 상술한 바와 같이 사용자에 의해 맞춤형으로 재저장될 수 있다. 이에, 사용자 편의성에 맞추어진 터치 인터랙션(interaction)이 수행될 수 있다.

저장부(131b)는 컴퓨터에서 판독 가능한 기록 매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 또한, 메모리에는 운영체제와 적어도 하나의 프로그램 코드에 설치되어 구동되는 브라우저나 상술한 어플리케이션 등을 위한 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 드라이브 메커니즘(drive mechanism)을 이용하여 메모리와는 별도의 컴퓨터에서 판독 가능한 기록 매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록 매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록 매체를 포함할 수 있다.

제1 추출부(131c)는 학습 사운드 데이터 또는 입력 사운드 데이터에 대한 제1 특징 데이터를 추출할 수 있다. 학습 사운드 데이터는 기저장 또는 업데이트되는 학습 사운드 데이터이거나 사용자에 의해 재저장된 학습 사운드 데이터를 의미할 수 있다. 이하에서는 입력 사운드 데이터를 기준으로 제1 추출부(131c)를 설명한다.

제1 추출부(131c)는 입력 사운드 데이터에 대한 제1 특징 데이터를 추출할 수 있다. 추출된 제1 특징 데이터는 주파수 분석된 입력신호들(frequency-analyzed inputs)을 추출할 수 있다. 예컨대, 제1 추출부(131c)는 예컨대 로그 파워 스펙트럴 벡터 또는 계수일 수 있다. 다만, 이러한 종류에 한정되는 것은 아니다.

제2 추출부(131d)는 학습 압력 데이터 또는 상기 입력 압력 데이터에 대한 제2 특징 데이터를 추출할 수 있다. 학습 압력 데이터는 새로 기저장 또는 업데이트되는 학습 압력 데이터이거나 사용자에 의해 재저장된 학습 압력 데이터를 의미할 수 있다. 이하에서는 입력 압력 데이터를 기준으로 제2 추출부(131d)를 설명한다.

제2 추출부(131d)는 입력 압력 데이터에 대한 제2 특징 데이터를 추출할 수 있다. 제2 추출부(131d)에서 제2 특징 데이터는 압력 분포도로 이루어질 수 있다.

결합부(131e)는 상술한 바와 같이 학습 사운드 데이터에 대한 제1 특징 데이터와 학습 압력 데이터에 대한 제2 특징 데이터를 결합하여 학습 결합 데이터를 생성할 수 있다.

또한, 결합부(131e)는 입력 사운드 데이터와 입력 압력 데이터로부터 추출된 제1,2 특징 데이터를 결합하거나, 복수의 입력 사운드 데이터로부터 추출된 제1-1 특징 데이터와 제1-2 특징 데이터를 결합할 수 있다.

도 6은 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 방법의 순서도이다.

실시예에 따른 사운드 기계학습에 기반한 제스처 검출 방법은 입력 사운드 데이터 및/또는 압력 데이터를 수신하는 단계(S1100), 제1 특징 데이터 및 제2 특징 데이터를 추출하는 단계(S1200), 학습 모듈에 입력하는 단계(S1300) 및 학습 모듈에서 출력된 제스처에 대응하는 명령을 출력하는 단계(S1400)를 포함할 수 있다.

이러한 사운드 기계학습에 기반한 제스처 검출 방법은 상술한 제스처 검출 장치에서 설명한 내용이 동일하게 적용될 수 잇다.

먼저, 입력 사운드 데이터 및/또는 압력 데이터를 수신할 수 있다(S1100). 상술한 바와 같이 입력 사운드 데이터만 처리부에 입력되거나, 입력 사운드 데이터와 동일 시간에 수신된 압력 사운드 데이터가 같이 처리부에 입력될 수 있다.

그리고 제1 추출부는 입력 사운드 데이터를 통해 제1 특징 데이터를 추출할 수 있다. 또한, 제2 추출부는 입력 압력 데이터를 통해 제2 특징 데이터를 추출할 수 있다(S1200). 나아가, 제1 추출부는 복수 의 사운드 데이터에 대한 복수의 제1 특징 데이터를 추출할 수도 있다.

추출된 제1 특징 데이터 또는 제2 특징 데이터는 학습 모듈에 입력으로 인가될 수 있다(S1300). 이 때, 학습 모듈은 제1 특징 데이터 또는 입력 결합 데이터를 입력으로 이에 대응하는 제스처 종류를 출력할 수 있다.

그리고 처리부는 최종적으로 출력된 제스처 종류에 대응하는 명령을 출력할 수 있다(S1400).

본 실시예에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field-programmable gate array) 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터 베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.

이상에서 실시예를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 실시예에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

터치에 의한 입력 사운드 데이터를 수신하는 제1 수신부; 및
상기 입력 사운드 데이터를 학습 모듈에 입력하고 상기 학습 모듈로부터 출력된 제스처 종류에 대응하는 명령을 출력하는 처리부;를 포함하고,
상기 학습 모듈은.
학습 사운드 데이터와 상기 학습 사운드 데이터에 대응되는 학습 제스처 종류를 포함하는 학습 데이터를 이용하여 학습하는 학습부를 포함하는 사운드 기계학습에 기반한 제스처 검출 장치.
제1항에 있어서,
상기 학습 모듈은,
상기 학습 사운드 데이터에 대응하는 학습 제스처 종류를 포함하는 적어도 하나의 학습 데이터를 저장한 저장부; 및
상기 학습 사운드 데이터 또는 상기 입력 사운드 데이터에 대한 제1 특징 데이터를 추출하는 제1 추출부;를 포함하는 사운드 기계학습에 기반한 제스처 검출 장치.
제2항에 있어서
입력 압력 데이터를 수신하는 제2 수신부;를 더 포함하고,
상기 학습 모듈은,
학습 압력 데이터 또는 상기 입력 압력 데이터에 대한 제2 특징 데이터를 추출하는 제2 추출부; 및
상기 학습 사운드 데이터에 대한 제1 특징 데이터와 상기 학습 압력 데이터에 대한 제2 특징 데이터를 결합하여 학습 결합 데이터를 생성하는 결합부; 를 포함하고,
상기 처리부는 상기 학습 결합 데이터를 상기 결합부로부터 수신하여 상기 학습 모듈에 입력하는 사운드 기계학습에 기반한 제스처 검출 장치.
제3항에 있어서,
상기 학습 데이터는 상기 학습 결합 데이터에 대응하는 상기 학습 제스처 종류를 포함하는 사운드 기계학습에 기반한 제스처 검출 장치.
제4항에 있어서,
상기 입력 사운드 데이터는 복수 개로 서로 이격된 위치의 입력부에서 발생되는 사운드 기계학습에 기반한 제스처 검출 장치.