KR101749100B1 - 디바이스 제어를 위한 제스처/음향 융합 인식 시스템 및 방법 - Google Patents

디바이스 제어를 위한 제스처/음향 융합 인식 시스템 및 방법 Download PDF

Info

Publication number
KR101749100B1
KR101749100B1 KR1020100134081A KR20100134081A KR101749100B1 KR 101749100 B1 KR101749100 B1 KR 101749100B1 KR 1020100134081 A KR1020100134081 A KR 1020100134081A KR 20100134081 A KR20100134081 A KR 20100134081A KR 101749100 B1 KR101749100 B1 KR 101749100B1
Authority
KR
South Korea
Prior art keywords
acoustic
information
gesture
recognition
sound
Prior art date
Application number
KR1020100134081A
Other languages
English (en)
Other versions
KR20120072244A (ko
Inventor
한문성
정영규
김현
김재홍
손주찬
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020100134081A priority Critical patent/KR101749100B1/ko
Priority to US13/333,773 priority patent/US8793134B2/en
Publication of KR20120072244A publication Critical patent/KR20120072244A/ko
Priority to US14/313,327 priority patent/US20140306811A1/en
Application granted granted Critical
Publication of KR101749100B1 publication Critical patent/KR101749100B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08CTRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
    • G08C23/00Non-electrical signal transmission systems, e.g. optical systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

본 발명에 따른 제스처/음향 융합 인식 시스템은, 영상 정보로부터 사용자 명령에 해당하는 제스처 특징 정보를 추출하고, 상기 제스처 특징 정보로부터 제스처 인식 정보를 획득하는 제스처 인식부; 음향 정보로부터 미리 구축된 배경음 모델을 이용하여 배경음 정보를 획득하는 배경음 인식부; 상기 음향 정보로부터 사용자 명령에 해당하는 음향 특징 정보를 추출하되 상기 배경음 정보를 바탕으로 상기 음향 특징 정보를 추출하고, 상기 음향 특징 정보로부터 음향 인식 정보를 획득하는 음향 인식부; 및 상기 제스처 인식 정보와 상기 음향 인식 정보를 융합하여 융합 인식 정보를 생성하는 융합 인식부를 포함하는 것을 특징으로 한다.

Description

디바이스 제어를 위한 제스처/음향 융합 인식 시스템 및 방법{System and method for integrating gesture and sound for controlling device}
본 발명은 TV, 오디오, 로봇 등의 디바이스 제어를 위한 사용자 인터페이스에 관한 것으로, 보다 상세하게는 잡음 환경에서 사람이 발생시키는 소리(박수, 손가락 튕기기, 휘파람 등)를 제스처와 융합하여 인식하고, 이와 함께 배경음을 모델링하여 배경음을 인식할 수 있는 제스처/음향 인식 시스템 및 방법에 관한 것이다.
오늘날 TV, 오디오, 로봇 등 각종 디바이스의 제어를 위해 다양한 인터페이스가 개발되고 있으며, 사용자가 아무런 장치를 지니지 않고 디바이스를 제어할 수 있는 인터페이스의 요구가 증가하고 있다.
이러한 사용자 인터페이스에 대한 요구를 만족시키기 위해 영상 기반의 제스처 인식 기술이나, 음성 또는 음향을 이용한 인터페이스가 연구되고 있으며, 특히 사람이 내는 소리를 인식하여 각종 디바이스를 제어하는 것에 대한 연구가 진행되고 있다. 그러나 기존의 연구들은 다양한 잡음 환경으로 인하여 인식률이 낮고 그 성능을 제대로 발휘하지 못하는 문제가 있다.
본 발명의 목적은 잡음 환경 하에서 사용자의 제스처와 사용자가 발생시키는 음향을 융합하여 인식할 수 있는 제스처/음향 융합 인식 시스템 및 방법을 제공하는 데 있다.
본 발명의 또다른 목적은 제스처/음향 융합 인식을 위하여 음향 명령어 구간을 정확히 검출하고, 잡음 환경에서도 높은 성능을 얻기 위해서 배경음을 효과적으로 모델링하여 제스처/음향 융합 인식에 활용하는 데 있다.
상기 기술적 과제를 해결하기 위하여 본 발명에 따른 제스처/음향 융합 인식 시스템은, 영상 정보로부터 사용자 명령에 해당하는 제스처 특징 정보를 추출하고, 상기 제스처 특징 정보로부터 제스처 인식 정보를 획득하는 제스처 인식부; 음향 정보로부터, 상기 제스처 인식 정보를 이용하여 선정된 음향 구간에서 사용자 명령에 해당하는 음향 특징 정보를 추출하고, 상기 음향 특징 정보로부터 음향 인식 정보를 획득하는 음향 인식부; 및 상기 제스처 인식 정보와 상기 음향 인식 정보를 융합하여 융합 인식 정보를 생성하는 융합 인식부를 포함하는 것을 특징으로 한다.
여기서, 상기 제스처/음향 융합 인식 시스템은, 배경음을 수집하고, 상기 수집된 배경음의 음향 특징 정보를 추출하고, 상기 추출된 음향 특징 정보를 기반으로 배경음을 분류하여 모델링한 배경음 모델을 더 포함하고, 상기 음향 인식부는 상기 배경음 모델과 음향 모델을 이용하여 배경음과 상기 음향 인식 정보를 획득할 수 있다.
또한, 상기 제스처 인식부는, 상기 영상 정보로부터 사람의 신체의 일부를 검출하여 추적하는 휴먼 검출 모듈; 상기 휴먼 검출 모듈의 검출 및 추적 결과로부터 상기 제스처 특징 정보를 추출하는 제스처 특징 추출 모듈; 및 상기 제스처 특징 정보로부터 제스처 인식 정보를 획득하는 제스처 인식 모듈을 포함할 수 있다.
또한, 상기 제스처/음향 융합 인식 시스템은 상기 영상 정보의 영상 프레임과 상기 음향 정보의 음향 프레임을 동기화시키는 동기화부를 더 포함할 수 있다.
또한, 상기 동기화부는 상기 음향 프레임에서 제스처가 최초 인식된 시점을 기초로 음향 명령 후보 구간을 선정하고, 상기 음향 인식부는 상기 음향 명령 후보 구간 내에서 상기 음향 특징 정보를 추출할 수 있다.
또한, 상기 동기화부는 상기 제스처가 최초 인식된 시점으로부터 일정 구간을 상기 음향 명령 후보 구간으로 선정할 수 있다.
또한, 상기 동기화부는 상기 제스처가 최초 인식된 시점의 일정 시간 이후 시점으로부터 일정 구간을 상기 음향 명령 후보 구간으로 선정할 수 있다.
또한, 상기 음향 인식부는 상기 음향 명령 후보 구간 내에서 윈도우를 프레임 단위로 이동시키는 동적 EPD(End Point Detection) 모듈; 상기 이동된 각 윈도우에 대하여 음향 특징을 추출하고 각 음향 특징에 해당하는 확률 정보와 미리 구축된 EPD 확률 모델을 이용하여 음향 명령 구간과 상기 음향 특징 정보를 추출하는 음향 특징 추출 모듈; 및 상기 음향 특징 정보로부터 상기 음향 인식 정보를 획득하는 음향 인식 모듈을 포함할 수 있다.
또한, 상기 음향 인식 모듈은 미리 구축된 음향 모델을 바탕으로 상기 음향 인식 정보를 획득할 수 있다.
상기 기술적 과제를 해결하기 위하여 본 발명에 따른 제스처/음향 융합 인식 방법은, 영상 정보로부터 사용자 명령에 해당하는 제스처 특징 정보를 추출하고, 상기 제스처 특징 정보로부터 제스처 인식 정보를 획득하는 단계; 음향 정보로부터, 상기 제스처 인식 정보를 이용하여 선정된 음향 구간에서 사용자 명령에 해당하는 음향 특징 정보를 추출하고, 상기 음향 특징 정보로부터 음향 인식 정보를 획득하는 단계; 및 상기 제스처 인식 정보와 상기 음향 인식 정보를 융합하여 융합 인식 정보를 생성하는 단계를 포함하는 것을 특징으로 한다.
여기서, 상기 제스처/음향 융합 인식 방법은 상기 음향 정보의 음향 프레임에서 제스처가 최초 인식된 시점을 기초로 음향 명령 후보 구간을 선정하는 단계를 더 포함하고, 상기 음향 인식 정보를 획득하는 단계는 상기 음향 명령 후보 구간 내에서 상기 음향 특징 정보를 추출할 수 있다.
또한, 상기 음향 인식 정보를 획득하는 단계는, 상기 음향 명령 후보 구간 내에서 윈도우를 프레임 단위로 이동시키면서 이동된 각 윈도우에 대하여 음향 특징을 추출하고, 각 음향 특징에 해당하는 확률 정보와 미리 구축된 EPD(End Point Detection) 확률 모델을 이용하여 음향 명령 구간과 상기 음향 특징 정보를 추출하는 단계; 및 상기 음향 특징 정보로부터 상기 음향 인식 정보를 획득하는 단계를 포함할 수 있다.
또한, 상기 음향 인식 정보를 획득하는 단계는, 미리 구축된 배경음 모델과 음향 모델을 이용하여 배경음과 상기 음향 인식 정보를 획득할 수 있다.
상기된 본 발명은 잡음 환경 하에서 사용자의 제스처와 사용자가 발생시키는 음향을 융합하여 인식할 수 있는 제스처/음향 융합 인식 시스템 및 방법을 제공한다.
또한, 제스처/음향 융합 인식을 위하여 음향 명령어 구간을 정확히 검출할 수 있으며, 배경음 모델을 이용하여 잡음 환경에서도 음향 인식을 효과적으로 수행할 수 있다.
도 1은 본 발명에 따른 제스처/음향 융합 인식 시스템의 개념을 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 제스처/음향 융합 인식 시스템의 구성을 나타낸다.
도 3은 배경음 모델(243) 구축 과정의 구체적인 예를 나타낸다.
도 4는 본 발명의 일 실시예에 따른 제스처/음향 융합 인식 방법의 흐름도를 나타낸다.
이하에서는 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이하 설명 및 첨부된 도면들에서 실질적으로 동일한 구성요소들은 각각 동일한 부호들로 나타냄으로써 중복 설명을 생략하기로 한다. 또한 본 발명을 설명함에 있어 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략하기로 한다.
도 1은 본 발명에 따른 제스처/음향 융합 인식 시스템의 개념을 나타내는 도면이다.
본 발명에 따른 제스처/음향 인식 시스템은 사람의 제스처와 사람이 발생시키는 음향에 의한 명령을 융합하여 인식하고, 그 인식 결과에 의해 발생하는 제어 명령을 이용하여 디바이스를 제어한다. 여기서, 제스처는 사람이 팔, 다리 등 신체의 일부를 이용하여 취하는 특정한 동작이며, 사람이 발생시키는 음향은 손뼉치기, 휘파람, 손가락튕기기 등 사람이 신체의 일부를 이용하여 발생시키는 소리이다.
도 1을 참조하면, 사용자(100)는 제스처(120)와 음향(110)에 의하여 디바이스(190)에 자신이 원하는 명령을 한다. 예컨대, 디바이스(190)를 TV라고 가정하면, TV 화면 내에 표시된 채널 버튼 중 하나를 가리키는 제스처를 취하고 손가락 튕기기로 음향을 발생시켜 해당 채널을 선택하는 명령을 할 수 있다. 사용자(100)가 취한 제스처는 카메라(140)에 의해 촬영되고 사용자(100)가 발생시킨 음향은 마이크(130)에 입력된다.
사용자(100)가 이렇게 제스처와 음향으로 명령을 하면 제스처 인식(160)은 카메라(140)의 영상 정보로부터 제스처 인식 정보를 획득하고, 음향 인식(150)은 마이크(130)의 음향 정보로부터 음향 인식 정보를 획득한다.
한편, 사용자(100)와 디바이스(190) 주변에는 각종 잡음 환경(153)이 존재한다. 여기서, 잡음이란 사용자(100)의 음향 명령(110)을 제외한 모든 소리를 포함한다. 예컨대, 사람의 말소리, 기계음, 문 여닫는 소리, 책상 두드리는 소리, TV로부터 나오는 소리 등일 수 있다. 마이크(130)에는 사용자(100)의 음향 명령(110) 뿐만 아니라 위와 같은 잡음들이 함께 입력된다.
따라서 음향 인식(150)은 입력되는 음향 정보로부터 음향 모델(152)을 기반으로 음향 인식 정보를 획득하는데, 특히 제스처 인식 정보를 이용하고, 배경음 모델(151)을 이용하여 음향 정보에서 배경음을 인식하고 음향 인식 정보를 획득한다.
음향 인식 정보와 제스처 인식 정보는 융합 인식(170)을 통하여 하나의 사용자 명령으로 인식된다. 그리고 디바이스 제어(180)는 해당 사용자 명령을 이용하여 디바이스(190)를 제어한다.
도 2는 본 발명의 일 실시예에 따른 제스처/음향 융합 인식 시스템의 구성을 나타낸다.
본 실시예에 따른 제스처/음향 융합 인식 시스템은, 카메라(211)에 의해 얻어지는 영상 정보로부터 사용자 명령에 해당하는 제스처 특징 정보를 추출하고 상기 제스처 특징 정보로부터 제스처 인식 정보를 획득하는 제스처 인식부(210)와, 마이크(231)에 의해 얻어지는 음향 정보로부터 사용자 명령에 해당하는 음향 특징 정보를 추출하고 상기 음향 특징 정보로부터 음향 인식 정보를 획득하는 음향 인식부(230)와, 배경음을 수집, 분류하여 모델링한 배경음 모델(240)과, 영상 정보의 영상 프레임과 음향 정보의 음향 프레임을 동기화시키는 동기화부(220)와, 제스처 인식부(210)로부터의 제스처 인식 정보와 음향 인식부(230)로부터의 음향 인식 정보를 융합하여 융합 인식 정보를 생성하는 융합 인식부(250)를 포함하여 이루어진다.
제스처 인식부(210)는 휴먼 검출 모듈(212), 제스처 특징 추출 모듈(213), 제스처 인식 모듈(214)을 포함하여 이루어진다.
휴먼 검출 모듈(212)은 카메라(211)에 의해 얻어지는 영상 정보로부터 제스처 명령의 수단이 되는 사람의 신체의 일부를 검출하여 추적한다. 일 실시예에서, 휴먼 검출 모듈(212)은 카메라(211)에 의하여 촬영된 영상으로부터 얼굴과 손을 검출하고, 검출된 얼굴과 손의 움직임을 계속적으로 추적한다. 휴먼 검출 모듈(212)은 얼굴과 손 뿐만 아니라 제스처 명령의 수단이 될 수 있는 신체의 다른 부분을 검출하여 추적할 수 있음은 물론이다.
제스처 특징 추출 모듈(213)은 휴먼 검출 모듈(212)의 검출 및 추적 결과로부터 제스처 특징 정보를 추출한다. 예컨대, 검출된 손의 움직임을 분석하여, 의미 있는 움직임 정보를 추출하고, 해당 움직임에 대응하는 영상 프레임을 저장한다.
제스처 인식 모듈(214)은 제스처 특징 정보로부터 제스처 인식 정보를 획득한다. 예컨대, 제스처 인식 모듈(214)은 기 저장된 움직임 유형 정보를 바탕으로, 제스처 특징 추출 모듈(213)에서 추출된 움직임 정보에 해당하는 움직임 유형을 결정하여 제스처 인식 정보로서 출력한다.
동기화부(220)는 영상 정보의 영상 프레임과 음향 정보의 음향 프레임을 동기화시키고, 음향 프레임에서 제스처가 최초 인식된 시점을 기초로 음향 명령 후보 구간을 선정한다. 예컨대, 영상 정보에서 사용자의 손의 특정 움직임이 제스처로 인식되었다면, 영상 프레임에서 해당 움직임이 시작되는 시점에 대응하는 음향 프레임의 시점을 기준으로 음향 프레임에서 음향 명령 후보 구간을 선정한다. 음향 명령 후보 구간의 길이는 일반적인 음향 명령어(손뼉치기, 휘파람, 손가락튕기기)의 시간 길이보다 길게 선정한다.
영상 프레임과 음향 프레임의 동기화는 영상 프레임 처리 속도와 음향 프레임 처리 속도에 차이가 있기 때문에 요구된다. 또한, 음향 프레임에서 음향 명령 구간을 찾는 것은 쉽지 않다. 따라서 본 발명의 실시예에서는, 일반적으로 사람은 제스처를 먼저 취하고 그 다음 음향 명령을 발생시킨다는 가정 하에, 제스처가 최초 인식된 시점을 기초로 음향 명령 구간을 포함할 것으로 여길 수 있는 음향 명령 후보 구간을 선정한다.
동기화부(220)는 음향 프레임에서 제스처가 최초 인식된 시점으로부터 일정 구간을 음향 명령 후보 구간으로 선정할 수 있다. 이것은 제스처가 시작된 시점부터 일정 구간 내에 음향 명령 구간이 존재할 것으로 보는 것이다. 또는, 동기화부(220)는 음향 프레임에서 제스처가 최초 인식된 시점의 일정 시간 이후 시점으로부터 일정 구간을 음향 명령 후보 구간으로 선정할 수 있다. 이것은 음향 명령은 제스처의 시작 시점에 대하여 약간의 딜레이가 있다고 보고, 그때부터 일정 구간 내에 음향 명령 구간이 존재할 것으로 보는 것이다. 동기화부(220)의 음향 명령 후보 구간 선정 기준은 받아들일 제스처/음향 명령의 형태에 따라서, 그리고 해당 제스처/음향 명령을 내리는 사람의 물리적, 신체적 특징에 따라서 적절하게 정해질 수 있다.
음향 인식부(230)는 동적 EPD(End Point Detection) 모듈(232), 음향 특징 추출 모듈(233), 음향 인식 모듈(234), EPD 확률 모델(235), 음향 모델(236)을 포함하여 이루어진다.
EPD 확률 모델(235)은 제스처 인식 시점을 기준으로 음향 명령 구간의 시작점과 끝점의 위치, 즉 사용자 명령에 해당하는 음향의 시작점과 끝점의 위치를 확률 분포로 저장한 확률 모델이다. 음향 모델(236)은 사전에 정해진 음향 명령에 해당하는 음향 특징을 모델링하여 저장한 데이터베이스이다.
동적 EPD 모듈(232)은 동기화부(220)에서 선정된 음향 명령 후보 구간 내에서 일정 크기 또는 여러 크기의 윈도우를 한 프레임 또는 수 프레임 단위로 이동시킨다. 음향 특징 추출 모듈(233)은 동적 EPD 모듈(232)에 의해 이동된 각 윈도우에 대하여 음향 특징을 추출하고 그에 해당하는 확률 정보를 구한다. 그리고 이 확률 정보와 EPD 확률 모델(235)을 이용하여 최적의 음향 명령 구간과 거기에 포함된 음향 특징 정보를 추출한다. 최적의 음향 명령 구간으로는 각 윈도우 중에서 확률적으로 가장 높은 윈도우에 해당하는 구간을 추출할 수 있다. 음향 특징 정보는 예를 들어 사용자가 발생시킨 음향의 주파수 정보, 세기 정보, 피치 정보일 수 있다.
배경음 모델(240)은 배경음을 수집하고, 수집된 배경음의 음향 특징 정보를 추출하고, 추출된 음향 특징 정보를 기반으로 배경음을 분류하여 모델링된 데이터베이스이다. 도 3은 배경음 모델(240) 구축 과정의 구체적인 예를 나타낸다. 도 3을 참조하면, 다양한 도메인에서 생성되는 배경음들을 수집하고(310단계), 수집된 배경음들로부터 음향 특징을 추출한다(320단계). 다음으로, 음향 특징 클러스터링 알고리즘을 적용하여 배경음을 분류하여 학습 데이터를 생성하고(330단계), 각 배경음을 모델링하여 배경음 모델링 데이터베이스로 구축한다.
음향 인식 모듈(234)은 배경음 모델(240)을 이용하여 배경음을 인식하고, 음향 모델(236)을 바탕으로 음향 특징 정보로부터 음향 인식 정보를 획득한다. 예컨대, 음향 모델(236)을 바탕으로, 음향의 주파수 정보, 세기 정보, 피치 정보에 대응하는 음향 유형을 결정하여 음향 인식 정보로서 출력한다.
융합 인식부(250)는 융합 특징 제어 모듈(251), 융합 인식 모듈(252), 융합 학습 DB 제어 모듈(253), 융합 모델 생성 모듈(254), 융합 학습 DB(255)를 포함하여 이루어진다.
융합 모델 생성 모듈(254)은 학습 모델 기반으로 제스처 인식 정보와 음향 인식 정보를 효율적으로 융합하기 위한 융합 모델을 생성한다. 고성능의 융합 모델을 결정하기 위해 기존에 사용되는 다양한 학습 알고리즘(Hidden Markov Model(HMM), Neural Network(NN), Dynamic Time Wapping(DTW) 등)을 구현하고 실험에 의해 결정할 수 있다. 융합 학습 DB(255)는 통계적 모델 기반의 융합 인식 알고리즘 개발에 적합한 형태로 융합 인식 데이터베이스를 구축한다. 융합 학습 DB 제어 모듈(253)은 융합 모델 생성 모듈(254)과 연계하여 미리 생성되어 저장된 융합 학습 DB(255)를 기반으로 학습 파라미터를 생성한다. 융합 특징 제어 모듈(251)은 융합 학습 DB 제어 모듈(253)에 의해 생성된 학습 파라미터와 제스처 인식 정보와 음향 인식 정보를 제어한다. 융합 인식 모듈은 융합 특징 제어 모듈(251)에 의한 제어 결과를 이용하여 융합 인식 정보를 생성한다.
도 4는 본 발명의 일 실시예에 따른 제스처/음향 융합 인식 방법의 흐름도를 나타낸다. 본 실시예에 따른 제스처/음향 융합 인식 방법은 이상에서 설명된 제스처/음향 융합 인식 시스템에서 처리되는 단계들로 구성된다. 따라서 이하 생략된 내용이라 하더라도 제스처/음향 융합 인식 시스템에 관하여 이상에서 기술된 내용은 본 실시예에 따른 제스처/음향 융합 인식 방법에도 적용된다.
제스처 인식부(210)는 카메라(211)에 의해 얻어지는 영상 정보로부터 사용자 명령에 해당하는 제스처 특징 정보를 추출하고(410단계), 제스처 특징 정보로부터 제스처 인식 정보를 획득한다(420단계).
동기화부(220)는 마이크(231)에 의해 얻어지는 음향 정보의 음향 프레임에서 제스처가 최초 인식된 시점을 기초로 음향 명령 후보 구간을 선정한다(440단계).
음향 인식부(230)는 음향 명령 후보 구간 내에서 음향 특징 정보를 추출한다(450단계). 여기서, 음향 인식부(230)는 음향 명령 후보 구간 내에서 윈도우를 프레임 단위로 이동시키면서 이동된 각 윈도우에 대하여 음향 특징을 추출하고, 각 음향 특징에 해당하는 확률 정보와 미리 구축된 EPD(End Point Detection) 확률 모델(235)을 이용하여 음향 명령 구간과 음향 특징 정보를 추출한다.
그리고 음향 인식부(230)는 배경음 모델(240)을 이용하여 배경음을 인식하고 음향 모델(236)을 이용하여 음향 특징 정보로부터 음향 인식 정보를 획득한다(460단계).
제스처 인식 정보와 음향 인식 정보가 획득되면, 융합 인식부(250)는 제스처 인식 정보와 음향 인식 정보를 융합하여 융합 인식 정보를 생성한다(470단계).
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (13)

  1. 영상 정보로부터 사용자 명령에 해당하는 제스처 특징 정보를 추출하고, 상기 제스처 특징 정보로부터 제스처 인식 정보를 획득하는 제스처 인식부;
    음향 정보로부터, 상기 제스처 인식 정보를 이용하여 선정된 음향 구간에서 사용자 명령에 해당하는 음향 특징 정보를 추출하고, 상기 음향 특징 정보로부터 음향 인식 정보를 획득하는 음향 인식부; 및
    상기 제스처 인식 정보와 상기 음향 인식 정보를 융합하여 융합 인식 정보를 생성하는 융합 인식부를 포함하고,
    상기 음향 인식부는
    음향 명령 후보 구간 내에서 윈도우를 프레임 단위로 이동시키는 동적 EPD(End Point Detection) 모듈;
    상기 이동된 각 윈도우에 대하여 음향 특징을 추출하고 각 음향 특징에 해당하는 확률 정보와 미리 구축된 EPD 확률 모델을 이용하여 음향 명령 구간과 상기 음향 특징 정보를 추출하는 음향 특징 추출 모듈; 및
    상기 음향 특징 정보로부터 상기 음향 인식 정보를 획득하는 음향 인식 모듈을 포함하고,
    상기 EPD 확률 모델은
    상기 사용자 명령에 해당하는 상기 음향의 시작점과 끝점의 위치를 확률 분포로 저장한 것이고,
    상기 음향 특징 추출 모듈은
    상기 EPD 확률 모델을 이용하여 상기 각 윈도우 중에서 확률적으로 가장 높은 윈도우에 해당하는 구간에서 상기 음향 인식 정보를 추출하는 것을 특징으로 하는 제스처/음향 융합 인식 시스템.
  2. 제1항에 있어서,
    배경음을 수집하고, 상기 수집된 배경음의 음향 특징 정보를 추출하고, 상기 추출된 음향 특징 정보를 기반으로 배경음을 분류하여 모델링한 배경음 모델을 더 포함하고,
    상기 음향 인식부는 상기 배경음 모델과 음향 모델을 이용하여 배경음과 상기 음향 인식 정보를 획득하는 것을 특징으로 하는 제스처/음향 융합 인식 시스템.
  3. 제1항에 있어서,
    상기 제스처 인식부는,
    상기 영상 정보로부터 사람의 신체의 일부를 검출하여 추적하는 휴먼 검출 모듈;
    상기 휴먼 검출 모듈의 검출 및 추적 결과로부터 상기 제스처 특징 정보를 추출하는 제스처 특징 추출 모듈; 및
    상기 제스처 특징 정보로부터 제스처 인식 정보를 획득하는 제스처 인식 모듈을 포함하는 것을 특징으로 하는 제스처/음향 융합 인식 시스템.
  4. 제1항에 있어서,
    상기 영상 정보의 영상 프레임과 상기 음향 정보의 음향 프레임을 동기화시키는 동기화부를 더 포함하는 것을 특징으로 하는 제스처/음향 융합 인식 시스템.
  5. 제4항에 있어서,
    상기 동기화부는 상기 음향 프레임에서 제스처가 최초 인식된 시점을 기초로 음향 명령 후보 구간을 선정하고,
    상기 음향 인식부는 상기 음향 명령 후보 구간 내에서 상기 음향 특징 정보를 추출하는 것을 특징으로 하는 제스처/음향 융합 인식 시스템.
  6. 제5항에 있어서,
    상기 동기화부는 상기 제스처가 최초 인식된 시점으로부터 일정 구간을 상기 음향 명령 후보 구간으로 선정하는 것을 특징으로 하는 제스처/음향 융합 인식 시스템.
  7. 제5항에 있어서,
    상기 동기화부는 상기 제스처가 최초 인식된 시점의 일정 시간 이후 시점으로부터 일정 구간을 상기 음향 명령 후보 구간으로 선정하는 것을 특징으로 하는 제스처/음향 융합 인식 시스템.
  8. 삭제
  9. 제7항에 있어서,
    상기 음향 인식 모듈은 미리 구축된 음향 모델을 바탕으로 상기 음향 인식 정보를 획득하는 것을 특징으로 하는 제스처/음향 융합 인식 시스템.
  10. 영상 정보로부터 사용자 명령에 해당하는 제스처 특징 정보를 추출하고, 상기 제스처 특징 정보로부터 제스처 인식 정보를 획득하는 단계;
    음향 정보로부터, 상기 제스처 인식 정보를 이용하여 선정된 음향 구간에서 사용자 명령에 해당하는 음향 특징 정보를 추출하고, 상기 음향 특징 정보로부터 음향 인식 정보를 획득하는 단계; 및
    상기 제스처 인식 정보와 상기 음향 인식 정보를 융합하여 융합 인식 정보를 생성하는 단계를 포함하고,
    상기 음향 인식 정보를 획득하는 단계는,
    음향 명령 후보 구간 내에서 윈도우를 프레임 단위로 이동시키면서 이동된 각 윈도우에 대하여 음향 특징을 추출하고, 각 음향 특징에 해당하는 확률 정보와 미리 구축된 EPD(End Point Detection) 확률 모델을 이용하여 음향 명령 구간과 상기 음향 특징 정보를 추출하는 단계; 및
    상기 음향 특징 정보로부터 상기 음향 인식 정보를 획득하는 단계를 포함하고,
    상기 EPD 확률 모델은
    상기 사용자 명령에 해당하는 상기 음향의 시작점과 끝점의 위치를 확률 분포로 저장한 것이고,
    상기 음향 특징 정보를 추출하는 단계는
    상기 EPD 확률 모델을 이용하여 상기 각 윈도우 중에서 확률적으로 가장 높은 윈도우에 해당하는 구간에서 상기 음향 인식 정보를 추출하는 것을 특징으로 하는 제스처/음향 융합 인식 방법.
  11. 제10항에 있어서,
    상기 음향 정보의 음향 프레임에서 제스처가 최초 인식된 시점을 기초로 음향 명령 후보 구간을 선정하는 단계를 더 포함하고,
    상기 음향 인식 정보를 획득하는 단계는 상기 음향 명령 후보 구간 내에서 상기 음향 특징 정보를 추출하는 것을 특징으로 하는 제스처/음향 융합 인식 방법.
  12. 삭제
  13. 제11항에 있어서,
    상기 음향 인식 정보를 획득하는 단계는, 미리 구축된 배경음 모델과 음향 모델을 이용하여 배경음과 상기 음향 인식 정보를 획득하는 것을 특징으로 하는 제스처/음향 융합 인식 방법.
KR1020100134081A 2010-12-23 2010-12-23 디바이스 제어를 위한 제스처/음향 융합 인식 시스템 및 방법 KR101749100B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020100134081A KR101749100B1 (ko) 2010-12-23 2010-12-23 디바이스 제어를 위한 제스처/음향 융합 인식 시스템 및 방법
US13/333,773 US8793134B2 (en) 2010-12-23 2011-12-21 System and method for integrating gesture and sound for controlling device
US14/313,327 US20140306811A1 (en) 2010-12-23 2014-06-24 System and method for integrating gesture and sound for controlling device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100134081A KR101749100B1 (ko) 2010-12-23 2010-12-23 디바이스 제어를 위한 제스처/음향 융합 인식 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20120072244A KR20120072244A (ko) 2012-07-03
KR101749100B1 true KR101749100B1 (ko) 2017-07-03

Family

ID=46318146

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100134081A KR101749100B1 (ko) 2010-12-23 2010-12-23 디바이스 제어를 위한 제스처/음향 융합 인식 시스템 및 방법

Country Status (2)

Country Link
US (2) US8793134B2 (ko)
KR (1) KR101749100B1 (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130222137A1 (en) * 2012-02-29 2013-08-29 Motorola Mobility, Inc. Method for adapting a mobile communication device's function to monitored activity and a user's profile
JP5339316B1 (ja) * 2012-05-31 2013-11-13 楽天株式会社 識別情報管理システム、識別情報管理システムの制御方法、情報処理装置、及びプログラム
US20140173440A1 (en) * 2012-12-13 2014-06-19 Imimtek, Inc. Systems and methods for natural interaction with operating systems and application graphical user interfaces using gestural and vocal input
CN104765278B (zh) * 2015-04-20 2019-03-22 宇龙计算机通信科技(深圳)有限公司 一种智能家居设备控制方法及电子设备
WO2017020213A1 (zh) * 2015-08-02 2017-02-09 李强生 手势匹配家用电器时的信息提醒方法以及遥控器
CN106022053B (zh) * 2016-05-26 2019-07-12 深圳市金立通信设备有限公司 一种解锁方法及装置
CN106020494B (zh) * 2016-06-20 2019-10-18 华南理工大学 基于移动跟踪的三维手势识别方法
CN107623830B (zh) * 2016-07-15 2019-03-15 掌赢信息科技(上海)有限公司 一种视频通话方法及电子设备
CN107728482A (zh) * 2016-08-11 2018-02-23 阿里巴巴集团控股有限公司 控制系统、控制处理方法及装置
WO2019005547A1 (en) * 2017-06-28 2019-01-03 Panasonic Intellectual Property Corporation Of America MOBILE BODY CONTROL APPARATUS, MOBILE BODY CONTROL METHOD, AND LEARNING METHOD
KR102495028B1 (ko) * 2017-11-15 2023-02-07 주식회사 아이앤나 휘파람소리 인식 기능이 구비된 사운드장치
CN109358747B (zh) * 2018-09-30 2021-11-30 平潭诚信智创科技有限公司 陪伴机器人控制方法、系统、移动终端及存储介质
CN112099623A (zh) * 2020-08-20 2020-12-18 昆山火灵网络科技有限公司 一种人机交互系统及方法
WO2022197005A1 (ko) * 2021-03-16 2022-09-22 주식회사 코클 오디오 신호 기반 디바이스 및 그의 제어방법
CN114126160B (zh) * 2021-11-19 2022-07-26 亿慧云智能科技(深圳)股份有限公司 一种智能灯具的控制方法和控制系统
KR102557092B1 (ko) * 2022-11-11 2023-07-19 주식회사 디엠티랩스 투명 디스플레이를 이용한 자동 통번역 및 대화 보조 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008242067A (ja) * 2007-03-27 2008-10-09 Advanced Telecommunication Research Institute International 音声認識装置、音声認識システムおよび音声認識方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
KR101396633B1 (ko) 2008-06-10 2014-05-16 삼성전자주식회사 소리 신호를 이용한 영상 출력 기능 제어 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008242067A (ja) * 2007-03-27 2008-10-09 Advanced Telecommunication Research Institute International 音声認識装置、音声認識システムおよび音声認識方法

Also Published As

Publication number Publication date
US20120166200A1 (en) 2012-06-28
US20140306811A1 (en) 2014-10-16
US8793134B2 (en) 2014-07-29
KR20120072244A (ko) 2012-07-03

Similar Documents

Publication Publication Date Title
KR101749100B1 (ko) 디바이스 제어를 위한 제스처/음향 융합 인식 시스템 및 방법
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
WO2021082941A1 (zh) 视频人物识别方法、装置、存储介质与电子设备
US11854550B2 (en) Determining input for speech processing engine
Katsaggelos et al. Audiovisual fusion: Challenges and new approaches
KR100948600B1 (ko) 제스처/음성 융합 인식 시스템 및 방법
Kessous et al. Multimodal emotion recognition in speech-based interaction using facial expression, body gesture and acoustic analysis
JP5323770B2 (ja) ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
CN112739253B (zh) 用于肺部状况监测与分析的系统和方法
US20040056907A1 (en) Prosody based audio/visual co-analysis for co-verbal gesture recognition
JP2014153663A (ja) 音声認識装置、および音声認識方法、並びにプログラム
US20110224978A1 (en) Information processing device, information processing method and program
CN112102850B (zh) 情绪识别的处理方法、装置、介质及电子设备
JP2009031951A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JPWO2017168936A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2010165305A (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP2010256391A (ja) 音声情報処理装置
Ivanko et al. Multimodal speech recognition: increasing accuracy using high speed video data
WO2019171780A1 (ja) 個人識別装置および特徴収集装置
JP6772839B2 (ja) 情報処理装置、情報処理方法およびプログラム
CN111462732B (zh) 语音识别方法和装置
CN112581937A (zh) 一种语音指令的获得方法及装置
JP2013257418A (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP2009042910A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
CN113497912A (zh) 通过语音和视频定位的自动取景

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right