KR20220116936A - 사운드 기계학습에 기반한 제스처 검출 장치 및 방법 - Google Patents

사운드 기계학습에 기반한 제스처 검출 장치 및 방법 Download PDF

Info

Publication number
KR20220116936A
KR20220116936A KR1020210020413A KR20210020413A KR20220116936A KR 20220116936 A KR20220116936 A KR 20220116936A KR 1020210020413 A KR1020210020413 A KR 1020210020413A KR 20210020413 A KR20210020413 A KR 20210020413A KR 20220116936 A KR20220116936 A KR 20220116936A
Authority
KR
South Korea
Prior art keywords
learning
data
sound
input
gesture
Prior art date
Application number
KR1020210020413A
Other languages
English (en)
Other versions
KR102436970B1 (ko
Inventor
김헌
임호정
김우진
오세영
이호준
Original Assignee
서울과학기술대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울과학기술대학교 산학협력단 filed Critical 서울과학기술대학교 산학협력단
Priority to KR1020210020413A priority Critical patent/KR102436970B1/ko
Publication of KR20220116936A publication Critical patent/KR20220116936A/ko
Application granted granted Critical
Publication of KR102436970B1 publication Critical patent/KR102436970B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

실시예는 터치에 의한 입력 사운드 데이터를 수신하는 제1 수신부; 및 상기 입력 사운드 데이터를 학습 모듈에 입력하고 상기 학습 모듈로부터 출력된 제스처 종류에 대응하는 명령을 출력하는 처리부;를 포함하고, 상기 학습 모듈은. 학습 사운드 데이터와 상기 학습 사운드 데이터에 대응되는 학습 제스처 종류를 포함하는 학습 데이터를 이용하여 학습하는 학습부를 포함하는 사운드 기계학습에 기반한 제스처 검출 장치를 개시한다.

Description

사운드 기계학습에 기반한 제스처 검출 장치 및 방법{DEVICE AND METHOD FOR DETECTING GESTURE BASED ON SOUND MACHINE LEARNING}
실시예는 사운드 기계학습에 기반한 제스처 검출 장치 및 방법에 관한 것이다.
현재, 각각의 이벤트(예로, 음성) 사운드를 추출하고 이를 기반으로 음성 인터렉션(interaction)을 수행하는 장치 및 방법이 다양하게 존재한다.
스마트스피커 시장은 매년 큰 성장폭으로 상승세에 있지만, 스마트스피커의 사용성은 사용자들의 기대 수준에 미치지 못하고 있다. 그리고 스마트스피커는 사용자의 음성 명령으로 작동하는데, 현재 스마트스피커 음성 인터랙션(interation)은 음성명령을 수행하기 전에 항상 스피커를 먼저 호출(예. 아리야, OK 구글, 헤이 카카오 등)하는 사전 과정이 필요하여 즉각적인 명령 수행이 어렵고, 주변 소음 등으로 인해 인식률이 떨어지는 등의 문제가 존재한다.
이에, 상술한 사전 과정은 단순하고 반복적인 명령에도 수행이 필수적으로 이루어져야 하므로, 사용자 편의성 및 사용성이 저해되는 문제점이 존재한다.
실시예는 음성인식 사전 과정을 제거하고 즉각적인 명령이 수행될 수 있는 사운드 기계학습에 기반한 제스처 검출 장치 및 방법을 제공한다.
또한, 터치스크린이나 각종 센서를 통해 스마트스피커 음성 인터랙션의 사용성을 높이는 경우(예로, 터치스크린을 터치하여 명령을 수행한다든지, 카메라를 이용하여 사용자의 제스처를 인식)보다 개발 비용이 적고 구현 용이성이 높은 사운드 기계학습에 기반한 제스처 검출 장치 및 방법을 제공한다.
또한, 노이즈에 대해 입력 데이터를 용이하게 인식하여 보다 정확한 제스처 검출이 이루어지는 사운드 기계학습에 기반한 제스처 검출 장치 및 방법을 제공한다.
실시예에서 해결하고자 하는 과제는 이에 한정되는 것은 아니며, 아래에서 설명하는 과제의 해결수단이나 실시 형태로부터 파악될 수 있는 목적이나 효과도 포함된다고 할 것이다.
실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치는 터치에 의한 입력 사운드 데이터를 수신하는 제1 수신부; 및 상기 입력 사운드 데이터를 학습 모듈에 입력하고 상기 학습 모듈로부터 출력된 제스처 종류에 대응하는 명령을 출력하는 처리부;를 포함하고, 상기 학습 모듈은. 학습 사운드 데이터와 상기 학습 사운드 데이터에 대응되는 학습 제스처 종류를 포함하는 학습 데이터를 이용하여 학습하는 학습부를 포함한다.
상기 학습 모듈은,
상기 학습 사운드 데이터에 대응하는 학습 제스처 종류를 포함하는 적어도 하나의 학습 데이터를 저장한 저장부; 및 상기 학습 사운드 데이터 또는 상기 입력 사운드 데이터에 대한 제1 특징 데이터를 추출하는 제1 추출부;를 포함할 수 있다.
입력 압력 데이터를 수신하는 제2 수신부;를 더 포함하고, 상기 학습 모듈은, 학습 압력 데이터 또는 상기 입력 압력 데이터에 대한 제2 특징 데이터를 추출하는 제2 추출부; 및 상기 학습 사운드 데이터에 대한 제1 특징 데이터와 상기 학습 압력 데이터에 대한 제2 특징 데이터를 결합하여 학습 결합 데이터를 생성하는 결합부; 를 포함하고, 상기 처리부는 상기 학습 결합 데이터를 상기 결합부로부터 수신하여 상기 학습 모듈에 입력할 수 있다.
상기 학습 데이터는 상기 학습 결합 데이터에 대응하는 상기 학습 제스처 종류를 포함할 수 있다.
상기 입력 사운드 데이터는 복수 개로 서로 이격된 위치의 입력부에서 발생될 수 있다.
실시예에 따르면, 음성인식 사전 과정을 제거하고 즉각적인 명령이 수행될 수 있는 사운드 기계학습에 기반한 제스처 검출 장치 및 방법을 구현할 수 있다.
또한, 터치스크린이나 각종 센서를 통해 스마트스피커 음성 인터랙션의 사용성을 높이는 경우(예로, 터치스크린을 터치하여 명령을 수행한다든지, 카메라를 이용하여 사용자의 제스처를 인식)보다 개발 비용이 적고 구현 용이성이 높은 사운드 기계학습에 기반한 제스처 검출 장치 및 방법을 구현할 수 있다.
또한, 노이즈에 대해 입력 데이터를 용이하게 인식하여보다 정확한 제스처 검출이 이루어지는 사운드 기계학습에 기반한 제스처 검출 장치 및 방법을 구현할 수 있다.
본 발명의 다양하면서도 유익한 장점과 효과는 상술한 내용에 한정되지 않으며, 본 발명의 구체적인 실시형태를 설명하는 과정에서 보다 쉽게 이해될 수 있을 것이다.
도 1은 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치의 개념도이고,
도 2는 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치에서 학습 모듈의 신경망을 설명하는 예시도이고,
도 3은 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치에서 제스처 검출 및 학습을 설명하는 도면이고,
도 4는 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치의 동작의 일예를 설명하는 도면이고,
도 5는 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치의 동작의 다른 예를 설명하는 도면이고,
도 6은 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 방법의 순서도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제2, 제1 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제2 구성요소는 제1 구성요소로 명명될 수 있고, 유사하게 제1 구성요소도 제2 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부된 도면을 참조하여 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 대응하는 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치의 개념도이고, 도 2는 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치에서 학습 모듈의 신경망을 설명하는 예시도이고, 도 3은 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치에서 제스처 검출 및 학습을 설명하는 도면이고, 도 4는 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치의 동작의 일예를 설명하는 도면이고, 도 5는 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치의 동작의 다른 예를 설명하는 도면이다.
도 1 내지 도 3을 참조하면, 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치(100)는 제1 수신부(110), 제2 수신부(120), 처리부(130)를 포함할 수 있다. 예컨대, 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치(100)는 제1 수신부(110)나 제1 수신부(110) 및 제2 수신부(120)를 이용하여 제스처를 검출할 수 있다. 먼저, 사운드 기계학습에 기반한 제스처 검출 장치(100)는 단말 장치 또는 단말 또는 컴퓨팅 장치 내에 위치할 수 있다. 이하에서는 단말을 기준으로 설명한다. 단말은 컴퓨터 장치로 구현되는 고정형 단말이거나 이동형 단말일 수 있다. 단말은 예를 들면, 스마트폰(smart phone), 휴대폰, 내비게이션, 컴퓨터, 노트북, 디지털방송용 단말, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 태블릿 PC, PC 모니터, HMD(Head mounted Display)일 수 있으며, 이에 한정되지 않는다.
나아가, 제스처 검출 장치(100)는 컴퓨팅 장치 또는 단말 내에 위치할 수 있고, 단말 또는 컴퓨팅 장치는 후술하는 제스처 검출 방법을 수행하도록 메모리 장치 등에 프로그램될 수 있다.
제1 수신부(110)는 입력 사운드 데이터를 수신할 수 있다. 제1 수신부(110)는 예컨대 마이크로폰 등을 통해 외부에서 발생한 입력 사운드 데이터를 수신할 수 있다. 즉, 제1 수신부(110)는 단말 내에 위치한 입력부(MC)(예, 마이크)로부터 입력 사운드 데이터를 수신할 수 있다. 이에 따라, 별도의 인터렉션을 위한 장치가 단말에 추가될 필요가 없다. 이때, 입력부는 특정 위치 또는 특정 장치(스피커 등) 상에 위치할 수 있다. 예컨대, 마이크가 스테레오 마이크인 경우, 제1 수신부(110)는 스테레오 사운드 데이터를 수신할 수 있다. 또한, 제1 수신부(110)는 복수 개일 수 있으며, 복수 개의 제1 수신부(110)는 동시에 복수의 입력 사운드 데이터를 수신할 수 있다.
또한, 제1 수신부(110)는 학습을 위한 학습 사운드 데이터를 입력부(MC)로부터 수신할 수도 있다. 예컨대, 사용자가 사용자 맞춤형으로 터치에 의한 학습 사운드 데이터를 생성하는 경우, 제1 수신부(110)는 학습 사운드 데이터를 수신할 수 있다.
제2 수신부(120)는 입력 압력 데이터를 수신할 수 있다. 제2 수신부(120)는 예컨대, 피에조 소자 등의 압력 감지 소자(미도시됨)를 통해 단말에 가해진 입력 압력 데이터를 수신할 수 있다. 예컨대, 제2 수신부(120)는 단말의 디스플레이에 내장된 터치 센서 등으로부터 사용자의 터치, 압력, 진동에 대한 입력 압력 데이터를 수신할 수 있으므로, 별도의 인터렉션을 위한 장치가 단말에 추가될 필요가 없다. 이러한 제2 수신부(120)는 복수 개일 수 있다. 예컨대, 제2 수신부(120)는 복수 개의 피에조 소자로부터 입력 압력 데이터를 수신할 수 있다.
또한, 제2 수신부(120)는 학습을 위한 학습 압력 데이터를 피에조 소자 등의 압력 감지 소자로부터 수신할 수도 있다. 예컨대, 사용자가 상술한 바와 같이 사용자 맞춤형으로 터치에 의한 사운드 데이터를 생성함과 동시에 학습 압력 데이터를 생성할 수 있다. 이에, 제2 수신부(120)는 학습 압력 데이터를 수신할 수 있다.
처리부(130)는 입력 사운드 데이터를 학습 모듈(131)에 입력하고 학습 모듈(131)로부터 출력된 제스처 종류에 대응하는 명령을 출력할 수 있다. 본 명세서에서 제스처 종류는 특징 장치(스피커)의 위치(예로 면), 손 부위, 소리 종류(치기, 긁기, 비비기, 두드리기 등), 소리 횟수를 고려하여 정해질 수 있다. 또한, 명령은 단위조작기능으로 일시정지, 다음, 거절, 음량조절, 재생, 반복 등을 포함할 수 있다.
학습 모듈(131)은 처리부(130)에 포함되거나 포함되지 않을 수 있다. 이하에서는 처리부(130)가 학습 모듈(131)을 포함하는 것으로 설명한다.
보다 구체적으로, 처리부(130)는 입력 사운드 데이터 또는 입력 압력 데이터를 심층 신경망으로 이루어진 학습 모듈(131)에 입력하고, 학습 모듈(131)에서 학습 데이터를 기반으로 최종 출력된 출력 데이터인 제스처 종류에 매핑된 명령을 출력할 수 있다.
예컨대, 사용자가 특정 위치를 터치하는 어떤 제스처(예로, 탭 1회로 윗면)를 취하면, 터치의 마찰에 의해 발생하는 사운드 데이터(입력 사운드 데이터)가 제1 수신부로 제공될 수 있다.
이 때, 사용자의 특정 제스처에 의해 고유의 사운드 데이터가 생성되므로, 처리부(130)는 학습 사운드 데이터 또는 학습 압력 데이터에 대응되는 학습 제스처 종류를 포함하는 학습 데이터로 학습된 학습 모듈(131)에 상기 고유의 사운드 데이터를 입력 사운드 데이터로 입력하고 그에 대응하는 제스처 종류를 출력할 수 있다. 예를 들어, 처리부(130)는 입력 사운드 데이터를 통해 제스처가 '탭 1회로 윗면'임을 출력하고, '탭 1회로 윗면'에 대응한 명령(예로, 다시 재생)을 출력할 수 있다.
이때, 학습 모듈은 사전에 터치에 의한 제스처 고유의 사운드 데이터를 학습시킨 딥러닝 모델, 기계학습 모듈. 인공지능 모델, 인공지능 신경망으로 이루어지거나 이에 대응할 수 있다.
이와 같이 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 장치(100)는 사용자의 터치에 의한 입력 사운드 데이터를 통해 특정 제스처에 맵핑된 명령 또는 기능을 작동시킬 수 있다. 따라서, 음성인식보다 빠르고 정확하게 인터랙션이 이루어지는 장치를 제공할 수 있다. 나아가, 특정 조건이 필요 없이 사용자의 제스처가 있는 경우에 언제든지 제스처에 대응하는 명령 또는 기능이 수행될 수 있다.
이러한 학습 모듈(131)은 학습부(131a), 저장부(131b), 제1 추출부(131c), 제2 추출부(131d) 및 결합부(131e)를 포함할 수 있다.
학습부(131a)는 학습 사운드 데이터와 학습 압력 데이터에 대응되는 학습 제스처 종류를 포함하는 학습 데이터를 이용하여 학습할 수 있다. 학습 사운드 데이터, 학습 압력 데이터 및 학습 제스처 종류는 저장부(131b)에 저장될 수 있다.
예컨대, 학습부(131a)는 머신러닝 모델을 포함할 수 있으며, 머신러닝 모델은 사전 훈련된 CNN기반의 기계학습 모델일 수 있다. 이를 기준으로 이하 설명한다.
실시예로, 머신러닝 모델은 제1 추출부(131c)에서 추출된 제1 특징 데이터 또는 결합 데이터(제1 특징 데이터 및 제2 특징 데이터)를 입력으로 하고, 제스처 종류를 출력으로 한 학습 데이터로 훈련될 수 있다. 이러한 머신러닝 모델로, 사전 훈련된 CNN 기반 머신러닝 모델은 VGG, Inception, ResNet, SENet 등의 머신러닝 모델이 될 수 있다. 다만, 이에 한정되지 않는다.
또한, 머신러닝 모델은 에를 들어 피라미드 구조의 합성곱 신경 회로망(convolutional neural network)으로 제스처 종류를 출력 또는 추출할 수 있다. 나아가, 머신러닝 모델은 3×3과 1×1 콘벌루션으로 이루어져 필터링을 수행하는 복수의 콘벌루션 레이어(convolution layer)와 다운 샘플링을 수행하는 복수 개의 풀링 레이어(max pooling layer)를 포함할 수 있으며, 각각의 콘벌루션 레이어의 입력에 배치 정규화(batch normalization)를 적용하고, 활성화 함수로 Leaky ReLU(교정 선형 유닛, rectified linear unit)를 적용할 수도 있다. 다만, 이러한 종류에 한정되는 것은 아니다.
사용자의 제스처(입력 제스처)에 대응하여 발생한 고유의 입력에 따라 상이한 사운드 데이터인 입력 사운드 데이터가 학습부(131a)에 입력되면, 학습부(131a)는 학습 데이터를 통해 학습된 머신러닝 모델을 통해 입력 사운드 데이터에 대응한 제스처 종류를 검출 또는 출력할 수 있다.
예컨대, 학습부(131a)는 입력 사운드 데이터(예로, 사운드 1 내지 사운드 12)가 입력되면 입력 사운드 데이터에 대응하는 제스처 종류(예로, 문지르기 윗면 내지 동그라미)를 출력할 수 있다. 도 3에서 학습부에서 제스처 검출 및 학습을 도시한다.
이에, 최종적으로 처리부는 출력된 제스처에 맵핑된 기능 또는 명령을 실행할 수 있다. 예컨대, 사운드 3이 입력 사운드 데이터로 입력되면 학습부를 통해 사용자의 제스처가 '탭 1회 윗면'임을 출력하고 '탭 1회 윗면'에 대응하는 명령(또는 기능)인 '다시 재생'을 실행할 수 있다. 즉, 사용자가 특정 위치(예로, 스피커)의 윗면을 1회 탭하면, 실시예에 따른 사운드 기계학습에 기반한 제스처 검출장치는 처리부를 통해 실행중인 미디어(예로, 음악)을 다시 재생할 수 있다. 나아가, 학습부(131a)는 결합 데이터(입력 결합 데이터)를 입력으로 수신하고 이에 대응하는 제스처 종류를 검출 또는 출력할 수 있다.
또한, 학습부(131a)는 학습 결합 데이터 및 학습 결합 데이터에 대응하는 학습 제스처 종류를 포함하는 학습 데이터를 통해 훈련될 수 있다. 예컨대, 학습 결합 데이터는 제1 특징 데이터와 제2 특징 데이터로 이루어질 수 있다. 여기서, 제1 특징 데이터는 학습 사운드 데이터(예로, 사운드 3)로부터 추출되고, 제2 특정 데이터는 학습 압력 데이터(예로, 압력 3)로부터 추출될 수 있다. 즉, 학습부(131a)는 제1 특징 데이터와 제2 특징 데이터가 결합된 학습 결합 데이터에 대응된 제스처 종류를 학습 데이터로 트레이닝할 수 있다.
또한, 학습부(131a)에서 제스처 종류를 검출 또는 출력할 수 있다. 예컨대, 학습부(131a)는 입력 결합 데이터에 대응하는 학습 제스처 종류를 검출할 수 있다. 예컨대, 입력 결합 데이터는 제1 특징 데이터와 제2 특징 데이터로 이루어질 수 있다. 여기서, 제1 특징 데이터는 입력 사운드 데이터(예로, 사운드 3)로부터 추출되고, 제2 특정 데이터는 입력 사운드 데이터와 동일 시간에 수신된 입력 압력 데이터(예로, 압력 3)로부터 추출될 수 있다. 이로써, 노이즈인 다양한 터치에 의한 사운드 데이터가 용이하게 제거될 수 있다. 즉, 본 장치는 정확한 제스처 판별을 제공할 수 있다.
그리고 학습부(131a)는 제1 특징 데이터와 제2 특징 데이터가 결합된 입력 결합 데이터가 입력되면, 입력 결합 데이터에 대응된 제스처 종류를 검출할 수 있다. 이로써, 처리부는 학습부(131a)를 통해 사용자의 제스처를 검출 또는 출력하고 최종적으로 제스처에 대응하는 명령 또는 기능을 실행할 수 있다.
도 4를 참조할 때, '사운드 3'이 입력 사운드 데이터이고, '압력 3'이 입력 압력 데이터인 경우, '사운드 3'과 '압력 3'으로부터 각각 제1 특징 데이터와 제2 특징 데이터가 제1 추출부(131c)와 제2 추출부(131d)에 의해 추출할 수 있다. 압력 3은 커패시턴스 값에 대응하나 이에 한정되지 않는다. 그리고 추출된 제1 특징 데이터 및 제2 특징 데이터의 결합 데이터가 상술한 머신러닝 모델에 인가되면 그에 대응하는 제스처 종류가 출력될 수 있다. 나아가, 최종적으로 노이즈가 아닌 경우 제스처('탭 1회 윗면')에 대응하는 '다시 재생'이 실행될 수 있다.
또한, 입력 사운드 데이터는 복수 개로 서로 이격된 위치의 입력부에서 발생될 수 있다.
도 3및 도 5를 참조하면, 사용자가 손가락을 오른쪽에서 왼쪽으로 스와이프하는 경우 이격된 위치의 입력부에서는 각각 입력 사운드 데이터가 수신될 수 있다. 예컨대, 입력 사운드 데이터는 복수 개로 제1 입력 사운드 데이터인 '사운드5-1'와 제2 입력 사운드 데이터인 '사운드 5-2'를 포함할 수 있다.
그리고 제1 추출부는 제1 입력 사운드 데이터로부터 제1-1 특징 데이터(입력)를 제2 입력 사운드 데이터로부터 제1-2 특징 데이터(입력)를 추출하고 이를 결합한 입력 결합 데이터가 학습 모듈(머신러닝 모델)에 입력되면 최종적으로 제스처 종류(손가락을 오른쪽에서 왼쪽으로 스와이프)가 검출될 수 있다. 그리고 제스처 종류(손가락을 오른쪽에서 왼쪽으로 스와이프)에 대응하는 '이전'이 실행될 수 있다. 이 때, 사운드 5-1과 사운드 5-2는 서로 시간에 대해 대칭일 수 있다. 제1-1 특징 데이터와 제1-2 특징 데이터로 이루어진 입력 결합 데이터는 이러한 대칭이 반영될 수 있다. 따라서 예를 들어 스와이프의 방향에 대한 명확한 구별이 이루어질 수 있다. 즉, 실시예에 따른 기계학습에 기반한 제스처 검출 장치는 보다 정확한 제스처 판별이 이루어질 수 있다.
이에 대응하여 학습의 경우에도 상술한 검출과 유사하게 이루어질 수 있다. 즉, 제스처 종류(예로, 손가락을 오른쪽에서 왼쪽으로 스와이프)에 대응한 사운드 5-1 및 사운드 5-2가 학습 사운드 데이터일 수 있다. 학습 사운드 데이터는 복수 개일 수 있으며, 예컨대, 제1 학습 사운드 데이터 및 제2 학습 사운드 데이터를 포함할 수 있다. 사운드 5-1은 제1 학습 사운드 데이터에 대응하고, 사운드 5-2는 제2 학습 사운드 데이터에 대응할 수 있다. 그리고 제1,2 추출부는 각각 제1 학습 사운드 데이터로부터 제1-1 특징 데이터(학습)를 추출하고, 제2 학습 사운드 데이터로부터 제1-2 특징 데이터(학습)를 추출할 수 있다. 학습 모듈은 추출된 제1-1 특징 데이터와 제1-2 특징 데이터를 결합한 학습 결합 데이터와 이에 대응한 제스처 종류(손가락을 오른쪽에서 왼쪽으로 스와이프)로 이루어진 학습 데이터를 이용하여 트레이닝된다.
저장부(131b)는 학습 사운드 데이터와 학습 압력 데이터에 대응하는 학습 제스처 종류를 포함하는 적어도 하나의 학습 데이터를 저장할 수 있다. 또한, 저장부(131b)는 후술하는 학습 결합 데이터에 대응하는 학습 제스처 종류를 포함하는 학습 데이터를 저장할 수도 있다.
나아가, 학습 사운드 데이터, 학습 압력 데이터는 상술한 바와 같이 사용자에 의해 맞춤형으로 재저장될 수 있다. 이에, 사용자 편의성에 맞추어진 터치 인터랙션(interaction)이 수행될 수 있다.
저장부(131b)는 컴퓨터에서 판독 가능한 기록 매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 또한, 메모리에는 운영체제와 적어도 하나의 프로그램 코드에 설치되어 구동되는 브라우저나 상술한 어플리케이션 등을 위한 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 드라이브 메커니즘(drive mechanism)을 이용하여 메모리와는 별도의 컴퓨터에서 판독 가능한 기록 매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록 매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록 매체를 포함할 수 있다.
제1 추출부(131c)는 학습 사운드 데이터 또는 입력 사운드 데이터에 대한 제1 특징 데이터를 추출할 수 있다. 학습 사운드 데이터는 기저장 또는 업데이트되는 학습 사운드 데이터이거나 사용자에 의해 재저장된 학습 사운드 데이터를 의미할 수 있다. 이하에서는 입력 사운드 데이터를 기준으로 제1 추출부(131c)를 설명한다.
제1 추출부(131c)는 입력 사운드 데이터에 대한 제1 특징 데이터를 추출할 수 있다. 추출된 제1 특징 데이터는 주파수 분석된 입력신호들(frequency-analyzed inputs)을 추출할 수 있다. 예컨대, 제1 추출부(131c)는 예컨대 로그 파워 스펙트럴 벡터 또는 계수일 수 있다. 다만, 이러한 종류에 한정되는 것은 아니다.
제2 추출부(131d)는 학습 압력 데이터 또는 상기 입력 압력 데이터에 대한 제2 특징 데이터를 추출할 수 있다. 학습 압력 데이터는 새로 기저장 또는 업데이트되는 학습 압력 데이터이거나 사용자에 의해 재저장된 학습 압력 데이터를 의미할 수 있다. 이하에서는 입력 압력 데이터를 기준으로 제2 추출부(131d)를 설명한다.
제2 추출부(131d)는 입력 압력 데이터에 대한 제2 특징 데이터를 추출할 수 있다. 제2 추출부(131d)에서 제2 특징 데이터는 압력 분포도로 이루어질 수 있다.
결합부(131e)는 상술한 바와 같이 학습 사운드 데이터에 대한 제1 특징 데이터와 학습 압력 데이터에 대한 제2 특징 데이터를 결합하여 학습 결합 데이터를 생성할 수 있다.
또한, 결합부(131e)는 입력 사운드 데이터와 입력 압력 데이터로부터 추출된 제1,2 특징 데이터를 결합하거나, 복수의 입력 사운드 데이터로부터 추출된 제1-1 특징 데이터와 제1-2 특징 데이터를 결합할 수 있다.
도 6은 실시예에 따른 사운드 기계학습에 기반한 제스처 검출 방법의 순서도이다.
실시예에 따른 사운드 기계학습에 기반한 제스처 검출 방법은 입력 사운드 데이터 및/또는 압력 데이터를 수신하는 단계(S1100), 제1 특징 데이터 및 제2 특징 데이터를 추출하는 단계(S1200), 학습 모듈에 입력하는 단계(S1300) 및 학습 모듈에서 출력된 제스처에 대응하는 명령을 출력하는 단계(S1400)를 포함할 수 있다.
이러한 사운드 기계학습에 기반한 제스처 검출 방법은 상술한 제스처 검출 장치에서 설명한 내용이 동일하게 적용될 수 잇다.
먼저, 입력 사운드 데이터 및/또는 압력 데이터를 수신할 수 있다(S1100). 상술한 바와 같이 입력 사운드 데이터만 처리부에 입력되거나, 입력 사운드 데이터와 동일 시간에 수신된 압력 사운드 데이터가 같이 처리부에 입력될 수 있다.
그리고 제1 추출부는 입력 사운드 데이터를 통해 제1 특징 데이터를 추출할 수 있다. 또한, 제2 추출부는 입력 압력 데이터를 통해 제2 특징 데이터를 추출할 수 있다(S1200). 나아가, 제1 추출부는 복수 의 사운드 데이터에 대한 복수의 제1 특징 데이터를 추출할 수도 있다.
추출된 제1 특징 데이터 또는 제2 특징 데이터는 학습 모듈에 입력으로 인가될 수 있다(S1300). 이 때, 학습 모듈은 제1 특징 데이터 또는 입력 결합 데이터를 입력으로 이에 대응하는 제스처 종류를 출력할 수 있다.
그리고 처리부는 최종적으로 출력된 제스처 종류에 대응하는 명령을 출력할 수 있다(S1400).
본 실시예에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field-programmable gate array) 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터 베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.
이상에서 실시예를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 실시예에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (5)

  1. 터치에 의한 입력 사운드 데이터를 수신하는 제1 수신부; 및
    상기 입력 사운드 데이터를 학습 모듈에 입력하고 상기 학습 모듈로부터 출력된 제스처 종류에 대응하는 명령을 출력하는 처리부;를 포함하고,
    상기 학습 모듈은.
    학습 사운드 데이터와 상기 학습 사운드 데이터에 대응되는 학습 제스처 종류를 포함하는 학습 데이터를 이용하여 학습하는 학습부를 포함하는 사운드 기계학습에 기반한 제스처 검출 장치.
  2. 제1항에 있어서,
    상기 학습 모듈은,
    상기 학습 사운드 데이터에 대응하는 학습 제스처 종류를 포함하는 적어도 하나의 학습 데이터를 저장한 저장부; 및
    상기 학습 사운드 데이터 또는 상기 입력 사운드 데이터에 대한 제1 특징 데이터를 추출하는 제1 추출부;를 포함하는 사운드 기계학습에 기반한 제스처 검출 장치.
  3. 제2항에 있어서
    입력 압력 데이터를 수신하는 제2 수신부;를 더 포함하고,
    상기 학습 모듈은,
    학습 압력 데이터 또는 상기 입력 압력 데이터에 대한 제2 특징 데이터를 추출하는 제2 추출부; 및
    상기 학습 사운드 데이터에 대한 제1 특징 데이터와 상기 학습 압력 데이터에 대한 제2 특징 데이터를 결합하여 학습 결합 데이터를 생성하는 결합부; 를 포함하고,
    상기 처리부는 상기 학습 결합 데이터를 상기 결합부로부터 수신하여 상기 학습 모듈에 입력하는 사운드 기계학습에 기반한 제스처 검출 장치.
  4. 제3항에 있어서,
    상기 학습 데이터는 상기 학습 결합 데이터에 대응하는 상기 학습 제스처 종류를 포함하는 사운드 기계학습에 기반한 제스처 검출 장치.
  5. 제4항에 있어서,
    상기 입력 사운드 데이터는 복수 개로 서로 이격된 위치의 입력부에서 발생되는 사운드 기계학습에 기반한 제스처 검출 장치.
KR1020210020413A 2021-02-16 2021-02-16 사운드 기계학습에 기반한 제스처 검출 장치 및 방법 KR102436970B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210020413A KR102436970B1 (ko) 2021-02-16 2021-02-16 사운드 기계학습에 기반한 제스처 검출 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210020413A KR102436970B1 (ko) 2021-02-16 2021-02-16 사운드 기계학습에 기반한 제스처 검출 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20220116936A true KR20220116936A (ko) 2022-08-23
KR102436970B1 KR102436970B1 (ko) 2022-08-26

Family

ID=83092608

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210020413A KR102436970B1 (ko) 2021-02-16 2021-02-16 사운드 기계학습에 기반한 제스처 검출 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102436970B1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100856919B1 (ko) * 2006-12-01 2008-09-05 한국전자통신연구원 제스처 기반 사용자 입력 방법 및 장치
KR20140113119A (ko) 2013-03-15 2014-09-24 엘지전자 주식회사 전자 기기 및 그 제어방법
KR20170064364A (ko) 2015-12-01 2017-06-09 삼성전자주식회사 마찰음을 이용하는 장치 및 방법
KR20180130869A (ko) * 2017-05-30 2018-12-10 주식회사 케이티 손 제스처를 검출하는 컨볼루션 신경망, 그리고 손 제스처에 의한 기기 제어시스템
JP6557376B1 (ja) * 2018-03-20 2019-08-07 ヤフー株式会社 出力制御装置、出力制御方法、および出力制御プログラム
JP6598089B2 (ja) * 2015-04-14 2019-10-30 華為技術有限公司 ジェスチャコントロール方法、装置、端末デバイス、およびストレージ媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100856919B1 (ko) * 2006-12-01 2008-09-05 한국전자통신연구원 제스처 기반 사용자 입력 방법 및 장치
KR20140113119A (ko) 2013-03-15 2014-09-24 엘지전자 주식회사 전자 기기 및 그 제어방법
JP6598089B2 (ja) * 2015-04-14 2019-10-30 華為技術有限公司 ジェスチャコントロール方法、装置、端末デバイス、およびストレージ媒体
KR20170064364A (ko) 2015-12-01 2017-06-09 삼성전자주식회사 마찰음을 이용하는 장치 및 방법
KR20180130869A (ko) * 2017-05-30 2018-12-10 주식회사 케이티 손 제스처를 검출하는 컨볼루션 신경망, 그리고 손 제스처에 의한 기기 제어시스템
JP6557376B1 (ja) * 2018-03-20 2019-08-07 ヤフー株式会社 出力制御装置、出力制御方法、および出力制御プログラム

Also Published As

Publication number Publication date
KR102436970B1 (ko) 2022-08-26

Similar Documents

Publication Publication Date Title
US10599393B2 (en) Multimodal input system
US10366158B2 (en) Efficient word encoding for recurrent neural network language models
US20180040321A1 (en) Display apparatus and method for registration of user command
US8606735B2 (en) Apparatus and method for predicting user's intention based on multimodal information
US20180374476A1 (en) System and device for selecting speech recognition model
US8432368B2 (en) User interface methods and systems for providing force-sensitive input
US20070274591A1 (en) Input apparatus and input method thereof
US20130211843A1 (en) Engagement-dependent gesture recognition
US10339929B2 (en) Speech recognition using acoustic features in conjunction with distance information
US10248224B2 (en) Input based on interactions with a physical hinge
US20160140955A1 (en) Speech recognition candidate selection based on non-acoustic input
US10452099B2 (en) Handling-noise based gesture control for electronic devices
US20190378384A1 (en) Systems and methods for Designing Haptics Using Speech Commands
EP1705554A2 (en) System and method for dynamically adapting performance of interactive dialog system basd on multi-modal confirmation
US11830501B2 (en) Electronic device and operation method for performing speech recognition
KR102436970B1 (ko) 사운드 기계학습에 기반한 제스처 검출 장치 및 방법
US9965966B2 (en) Instructions on a wearable device
Song et al. Sound-of-Tapping user interface technology with medium identification
CN114631140A (zh) 由多模态用户输入驱动的内容捕获体验
US20140152601A1 (en) Touch display device and control method thereof
KR102593866B1 (ko) 스마트 디바이스 사용 과정에서 시각 장애인의 객체 탐지를 돕기 위한 태스크 기반의 음향 가이드 방법 및 장치
US11269443B2 (en) Method for distinguishing touch inputs on display from function of recognizing fingerprint and electronic device employing method
KR20200021400A (ko) 음성 인식을 수행하는 전자 장치 및 그 동작 방법
CN112230829A (zh) 用于计算设备上的自动服务激活的系统和方法
KR20190094088A (ko) 서버에 대한 액세스 없이, 개인화 데이터를 이용하여 학습 가능하도록 구성된 사용자 맞춤형 학습 모델을 포함하는 사용자 단말 및 컴퓨터 판독가능 기록매체

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant