KR20080050994A

KR20080050994A - 제스처/음성 융합 인식 시스템 및 방법

Info

Publication number: KR20080050994A
Application number: KR1020070086575A
Authority: KR
Inventors: 정영규; 한문성; 이재선; 박준석
Original assignee: 한국전자통신연구원
Priority date: 2006-12-04
Filing date: 2007-08-28
Publication date: 2008-06-10
Also published as: JP2010511958A; KR100948600B1

Abstract

본 발명은 제스처/음성 융합 인식 시스템 및 방법에 관한 것으로, 잡음환경에서 음성과 제스처의 융합을 통해 명령어 인식의 성능을 높이기 위해 입력된 음성 중에서 명령어의 시작점과 끝점을 검출하여 음성특징정보를 추출하는 음성특징추출부, 상기 검출된 시작점과 끝점에 관한 정보를 이용하여 촬영 영상의 제스처로부터 명령구간을 검출하여 제스처특징정보를 추출하는 제스처 특징추출부 및 상기 추출된 음성특징정보와 제스처 특징정보를 기 설정된 학습 파라미터를 이용하여 융합인식 데이터로 출력하는 융합 인식부를 포함하여 구성되어 쉽고 정확하게 사용자의 명령을 인식할 수 있다.

청각 모델, 융합 인식, 제스처, EPD

Description

제스처/음성 융합 인식 시스템 및 방법{SYSTEM AND METHOD FOR INTEGRATING GESTURE AND VOICE}

본 발명은 융합 인식 기술에 관한 것으로, 특히 실제 노이즈 환경에서 사용자의 명령을 높은 성능으로 인식하기 위하여 음성의 EPD 값을 이용하여 제스처의 특징정보를 추출하여 음성의 특징정보와 융합하여 사용자의 명령을 인식할 수 있는 제스처/음성 융합 인식 시스템 및 방법에 관한 것이다.

본 발명은 정보통신부 및 정보통신연구진흥원의 IT신성장동력핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호 :2006-S-031-01 과제명 : 네트워크 기반 실감형 서비스를 위한 오감정보처리 기술개발].

최근 들어, 멀티미디어 기술의 발달과 인터페이스 기술의 발달에 따라 인간과 기계의 인터페이스를 쉽고 간편하게 실현하기 위하여 얼굴표정이나 방향, 입술모양, 응시추적, 손동작 그리고 음성 등을 이용하여 멀티모달(Multi-modal)형태의 인식 연구가 활발히 진행되고 있다.

특히, 현재의 Man-Machine 인터페이스 기술 중에서 음성 인식기술과 제스처 인식기술이 가장 편리한 인터페이스 기술로 사용되고 있다. 다만, 음성 인식기술과 제스처 인식기술은 제한된 환경에서는 높을 인식률을 보이지만, 실제 노이즈 환경에서는 그 성능을 제대로 발휘하지 못하는 문제가 있다. 왜냐하면, 음성인식은 환경 노이즈가 성능에 가장 큰 영향을 미치고, 카메라 기반 제스처 인식 기술은 조명 변화와 제스처의 종류에 따라 성능차이가 많이 발생한다. 따라서, 음성 인식기술은 노이즈에 강한 알고리즘을 이용하여 인식할 수 있는 기술의 개발이 필요하고, 제스처 인식기술은 인식 정보를 포함하는 제스처의 특정구간을 추출할 수 있는 기술 개발이 필요하게 되었다. 또한, 일반적인 제스처를 사용하는 경우에는 제스처 특정구간이 쉽게 구분되지 않으므로 인식에 어려움이 있었다.

또한, 음성과 제스처를 융합하여 인식하는 경우에 있어서는 음성의 프레임 처리 속도는 약 10ms/frame 이고, 영상 프레임 처리 속도는 약 66.7ms/frame 이므로 각 프레임을 처리하는 처리 속도에 차이가 있을 뿐만 아니라, 일반적으로 제스처의 구간이 음성 구간과 비교하여 더 많은 시간이 소요됨에 따라 발생하는 음성구간의 길이와 제스처 구간의 길이에 차이가 발생하여 음성과 제스처를 동기화하는 것에 문제가 발생한다.

따라서, 상기와 같은 문제를 해결하기 위해서 환경 노이즈에 강한 알고리즘을 이용하여 사용자의 음성으로부터 명령어 구간을 탐색하여 특징정보를 추출하고, 또한 음성의 명령어 시작점에 관한 정보를 이용하여 제스처의 특징구간을 검출하여 분명하게 구분되지 않는 제스처의 경우에도 쉽게 명령을 인식할 수 있는 수단이 필요하게 되었다.

또한, 음성과 제스처의 융합인식에 있어서 발생하는 동기 차이에 관한 문제를 음성 EPD 값에 의해 검출된 제스처의 명령구간에서 미리 설정된 최적 프레임을 적용하여 동기를 일치하도록 하는 수단이 필요하게 되었다.

상기와 같은 문제를 해결하기 위한 본 발명의 제스처/음성 융합 인식 시스템은 입력된 음성 중에서 명령어의 시작점과 끝점을 검출하여 음성특징정보을 추출하는 음성특징추출부, 상기 검출된 시작점과 끝점에 관한 정보를 이용하여 촬영 영상의 제스처로부터 명령구간을 검출하여 제스처 특징정보를 추출하는 제스처 특징추출부, 상기 추출된 음성특징정보와 제스처 특징정보를 기 설정된 학습 파라미터를 이용하여 융합인식 데이터로 출력하는 융합 인식부를 포함하여 이루어지는 것을 특징으로 한다.

한편, 상기 제스처 특징추출부는 상기 검출된 시작점을 이용하여 상기 촬영 영상으로부터 제스처의 시작점을 검출하는 제스처 시작점 검출모듈, 상기 제스처의 시작점으로부터 미리 설정된 최적 프레임의 수를 적용하여 최적의 영상 프레임을 계산하여 추출하는 최적 프레임 적용 모듈을 포함하는 동기화 모듈을 더 포함하는 것을 특징으로 한다. 이때, 상기 제스처 시작점 검출모듈은 상기 검출된 음성의 시작점(EPD : End Point Detection) 플러그를 상기 촬영 영상에서 체크하여 제스처의 시작점을 검출하는 것을 특징으로 한다.

또한, 상기 음성특징추출부는 상기 입력된 음성 중에서 명령어의 시작점과 끝점을 검출하는 이피디(EPD : End Point Detection) 검출모듈, 청각모델기반 알고리즘을 이용하여 상기 검출된 명령어로부터 상기 명령어에 포함된 음성특징정보를 추출하는 청각모델기반 음성특징추출모듈을 포함하여 이루어지고, 추가적으로, 상기 추출된 음성특징정보로부터 노이즈를 제거하는 것을 특징으로 한다.

또한, 상기 제스처 특징추출모듈은 카메라로부터 촬영된 영상으로부터 손의 움직임을 추적하여, 상기 동기화 모듈에 전송하는 손 추적 모듈, 상기 동기화 모듈에서 추출된 최적의 영상 프레임을 이용하여 제스처 특징정보를 추출하는 제스처 특징 추출모듈을 포함하여 이루어지는 것을 특징으로 한다.

또한, 상기 융합인식부는 미리 설정된 융합학습 모델과 융합 학습 데이터 베이스를 기반으로 학습 파라미터를 생성하는 융합 학습 DB 제어모듈, 상기 추출된 음성특징정보와 제스처특징정보를 상기 생성된 학습 파라미터를 이용하여 제어하는 융합 특징 제어모듈, 상기 융합 특징 제어모듈에 의해 제어되는 결과를 인식 결과로 생성하는 융합 인식 모듈을 포함하여 이루어지는 것을 특징으로 하고, 이때, 상기 융합 특징 제어모듈은 입력되는 벡터의 노드수의 확장과 축소를 통해 상기 추출된 음성특징정보와 제스처특징정보의 특징벡터를 제어하는 것을 특징으로 한다.

상기와 같은 목적을 달성하기 위하여, 본 발명의 제스처/음성 융합 인식 방법은 입력된 음성 중에서 명령어의 시작점(EPD 값)과 끝점을 검출하여 음성특징정보를 추출하는 1 단계, 상기 검출된 명령어의 시작점을 이용하여 카메라에 의해 입력된 영상의 제스처로부터 명령구간을 검출하여 제스처특징정보를 추출하는 2 단계 및 상기 추출된 음성특징정보와 제스처특징정부를 기 설정된 학습 파라미터를 이용하여 융합인식 데이터로 출력하는 3 단계를 포함하여 이루어지는 것을 특징으로 한다.

이때, 상기 1 단계는 상기 명령어의 시작점과 끝점에 의한 명령어 구간으로부터 청각모델을 기반으로 음성특징정보를 추출하는 것을 특징으로 한다.

또한, 상기 2 단계는 상기 카메라의 입력 영상으로부터 손의 움직임 제스처를 추적하는 A 단계, 상기 전송된 EPD 값을 이용하여 상기 손의 움직임 제스처에 의한 명령구간을 검출하는 B 단계, 미리 설정된 최적 프레임을 적용하여 상기 제스처에 의한 명령구간으로부터 최적의 프레임을 결정하는 C 단계, 상기 결정된 최적의 프레임으로부터 제스처특징정보를 추출하는 D 단계를 포함하여 이루어지는 것을 특징으로 한다.

상술한 바와 같이 본 발명에 의한 제스처/음성 융합 인식 시스템 및 방법은 음성의 명령어 구간의 시작점인 EPD 값을 이용하여 제스처의 명령어 구간을 검출하여 구분성이 분명하지 않은 제스처의 경우에도 인식률을 높일 수 있고, 또한 제스처의 명령어 구간에 대하여 최적 프레임을 적용하여 음성과 제스처의 동기화를 통해 음성과 제스처에 의한 융합 인식을 실현할 수 있는 효과가 있다.

이하 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있는 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예에 대한 동작 원리를 상세하게 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

도 1 은 본 발명에 의한 제스처/음성 융합 인식 시스템의 개념을 나타내는 도면이다.

도 1 을 참조하면, 제스처/음성 융합 인식 기술은 사람의 음성과 제스처에 의한 명령을 융합하여 인식하고, 그 인식 결과에 의해 발생하는 제어명령을 이용하 여 오감을 표현하는 디바이스를 제어한다.

구체적으로 사람(100)은 음성(110)과 제스처(120)에 의해 자신이 원하는 명령을 한다. 여기서, 사람이 하는 명령에 대하여 예를 들어 설명하면, 사람이 사이버 공간에서 물건을 구매하는 경우에 디스플레이되어 있는 많은 물건 중에서 특정 빵을 선택하는 명령으로 "옥수수 식빵 선택" 이라고 말하면서 손가락으로 옥수수 빵을 지적하는 행동을 할 수 있다.

사람(100)이 음성(110)과 제스처(120)에 의해 명령을 하면 사람의 음성 명령에 관한 특징정보는 음성 인식(111)을 통해 인식하고, 사람의 제스처에 의한 특징 정보는 제스처 인식(121)을 통해 인식한다. 이렇게 인식된 음성과 제스처의 인식 정보는 환경 노이즈에 약한 음성과 구분성이 없는 제스처에 대한 인식률을 높이기 위해 음성과 제스처에 의한 특징정보를 융합 인식(130)에 의해 하나의 사용자 명령으로 인식한다.

본 발명은 이렇게 사람의 음성과 제스처에 대한 융합 인식에 관한 기술이다. 이렇게 인식된 명령은 제어부에 의해 개별적 감각에 대한 출력장치인 스피커(170), 디스플레이 장치(171), 발향기(172), 촉각장치(173) 그리고 미각 장치(174)로 전달되어 각각의 장치를 제어한다. 또한 인식 결과를 네트워크로 전송하여 그 결과에 대한 오감 데이터를 전달하여 각각의 출력장치를 제어할 수도 있다. 다만, 본원발명은 융합 인식에 관한 것으로 인식 이후의 구성은 다양하게 적용될 수 있으므로 이에 대한 설명은 생략한다.

도 2 는 본 발명에 의한 제스처/음성 융합 인식 시스템의 구성을 나타내는 도면이다.

도 2를 참조하면, 제스처/음성 융합 인식 시스템은 마이크(211)로 입력된 음성 중에서 명령어의 시작점과 끝점을 검출하여 음성특징정보을 추출하는 음성특징추출부(210), 음성특징추출부(210)에 의해 검출된 시작점과 끝점에 관한 정보를 이용하여 카메라에 의해 촬영된 영상의 제스처로부터 명령구간을 검출하여 제스처특징정보를 추출하는 제스처 특징추출부(220), 음성특징추출부(210)에 의해 검출된 시작점을 이용하여 촬영 영상으로부터 제스처의 시작점을 검출하고, 이렇게 검출된 제스처의 시작점으로부터 미리 설정된 최적 프레임의 수를 적용하여 최적의 영상 프레임을 계산하는 동기화 모듈(230) 그리고, 이렇게 추출된 음성특징정보와 제스처 특징정보를 기 설정된 학습 파라미터를 이용하여 융합인식 데이터로 출력하는 융합 인식부(240)를 포함하여 이루어지는 것을 특징으로 한다. 이하, 각각의 구성요소에 대하여 구체적으로 설명한다.

음성특징추출부(210)는 사용자가 음성을 입력하는 마이크(211), 사용자의 음성 중에서 명령어 구간의 시작점과 끝점을 검출하는 EPD(End Point Detection) 검출 모듈(212), EPD 검출 모듈(212)에 의해 검출된 음성의 명령어 구간에 대하여 청각 모델을 기반으로 음성특징정보를 추출하는 청각모델기반 음성특징추출모듈(213)로 이루어진다. 또한 추출된 음성특징정보에 포함된 노이즈를 제거하는 채널 노이즈 제거모듈을 포함할 수 있다.(미도시)

EPD 검출모듈(212)은 유무선 마이크에 의해 입력된 음성을 분석하여 명령어의 시작과 끝을 검출한다.

구체적으로, EPD 검출모듈(212)은 음성신호를 획득하여, 음성신호의 끝점 검출에 필요한 에너지값을 계산하고, 입력된 음성 신호 중에서 명령어로 계산해야 할 구간을 판별하여 명령어의 시작과 끝을 검출한다.

EPD 검출모듈(212)은 먼저 마이크로부터 음성신호를 획득하여 프레임 계산을 위한 형태로 획득된 음성을 변환한다. 이 과정에서 무선에 의해 음성이 입력되는 경우에는 데이터 손실이나 신호 간섭에 의한 신호 왜곡과 같은 문제가 발생할 수 있으므로 신호 획득시 이에 대한 처리과정이 필요하다.

EPD 검출모듈(212)에서 음성 신호의 끝점 검출에 필요한 에너지값의 계산은 예를 들어 다음과 같이 구해진다. 음성신호를 분석하기 위한 한 프레임의 크기는 160 sample을 기준으로 하고 프레임 에너지는 다음 식에 의해 계산된다.

FrameEnergy = log₁₀

S(n):성대신호샘풀, N:한프레임의 샘플 수

이렇게 구해진 프레임 에너지는 이후 수행되는 끝점 검출을 위한 파라미터로 사용된다.

EPD 검출모듈(212)은 프레임 에너지값을 계산한 후에는 명령어로 실제로 계산해야 할 구간을 판별한다. 예를 들면, 음성신호의 시작점과 끝점을 계산하는 과정은 프레임 에너지를 이용한 4개의 에너지 임계치(threshold)와 10개의 조건에 의 해 결정한다. 여기서, 4개의 에너지 임계치(threshold)와 10개의 조건은 다양하게 설정이 가능하고, 바람직하게는 명령어 구간을 구하기 위해 실험에 의해 가장 적당한 것으로 선택한다. 4개의 임계치는 끝점 검출 알고리즘에 의해 매 프레임마다 시작과 끝을 판별한다.

EPD 검출모듈(212)은 이렇게 검출된 명령어의 시작점(이하, "EPD 값"이라 한다.)에 대한 정보를 동기화 모듈(230)의 제스처 시작점 검출모듈(231)에 전달한다.

또한, EPD 검출모듈(212)은 입력된 음성 중에서 명령어 구간에 대한 정보를 청각모델 기반 음성특징추출모듈(213)에 전송하여 음성특징정보를 추출한다.

음성의 명령어 구간에 대한 정보를 수신한 청각모델 기반 음성특징추출모듈(213)은 EPD 검출모듈(212)에 의해 검출된 명령어 구간으로부터 청각모델에 기반하여 특징정보를 추출한다. 청각모델 기반으로 음성 특징정보를 추출하기 위해 사용되는 알고리즘에는 EIH 알고리즘과 ZCPA 알고리즘 등이 이용된다.

청각모델 기반 음성특징추출모듈(213)에 의해 추출된 음성특징정보는 채널노이즈제거모듈(미도시)에 의해 노이즈를 제거하여 융합인식부(245)에 전달된다.

제스처 특징추출부(220)는 카메라(221)로부터 촬영된 영상으로부터 얼굴과 손을 검출하는 얼굴 및 손 검출모듈(222), 검출된 손의 움직임을 추적하여 동기화모듈(230)에 전달하고, 동기화모듈(230)에 의해 계산된 최적의 프레임을 이용하여 제스처의 특징정보를 추출하는 제스처 특징추출모듈(224)로 이루어진다.

얼굴 및 손 검출모듈(222)은 영상으로부터 제스처의 대상이 되는 얼굴 및 손 을 검출하고, 손 추적 모듈(223)은 영상에 있어서 손의 움직임을 계속적으로 추적한다. 다만, 손 추적 모듈(223)은 손으로 한정하여 설명하였지만, 당업자에 의해 제스처로 인식될 수 있는 다양한 신체의 일부를 추적할 수 있다.

손 추적 모듈(223)에 의해 시간의 진행에 따라 손의 움직임을 계속하여 저장하고, 손의 움직임에서 제스처 명령으로 인식할 수 있는 부분은 동기화 모듈(230)에서 음성특징추출부(210)에서 전달된 EPD 값을 이용하여 검출한다. 이하, EPD 값을 이용하여 손의 움직임 중에서 제스처 명령으로 인식되는 구간을 검출하고, 음성과 제스처의 동기화를 위해 최적 프레임을 적용하는 동기화 모듈(230)에 대하여 설명한다.

동기화 모듈(230)은 EPD 값과 손의 움직임에 대한 영상을 이용하여 제스처의 시작점을 검출하는 제스처 시작점 검출모듈(231)과 검출된 제스처 시작점에 의해 계산된 제스처의 시작 프레임을 이용하여 융합 인식에 필요한 최적의 영상 프레임을 계산하는 최적 프레임 적용모듈(232)를 포함하여 이루어진다.

제스처 시작점 검출모듈(231)은 실시간으로 음성신호와 영상신호가 입력되는 중에 EPD 검출모듈(212)에 의해 음성의 EPD 값이 검출되면 동기화 모듈(230)은 영상신호에서 음성 EPD 플러그를 체크한다. 이러한 방법으로 제스처 시작점 검출모듈(231)은 제스처의 시작 프레임을 계산한다. 또한, 계산된 제스처의 시작 프레임을 이용하여 최적 프레임 적용모듈(232)은 융합 인식에 필요한 최적의 영상 프레임을 계산하여 제스처 특징추출모듈(224)에 전달한다. 최적 프레임 적용모듈(232)에 의해 적용되는 융합 인식에 필요한 최적의 영상 프레임은 제스처의 인식률이 가장 높은 것으로 판단되는 프레임 수를 미리 설정하고, 제스처 시작점 검출모듈(231)에 의해 제스처의 시작 프레임이 계산되면 최적의 영상 프레임을 결정한다.

융합 인식부(244)은 학습 모델 기반으로 음성특징정보와 제스처 특징정보를 효율적으로 융합하기 위한 융합 모델을 생성하는 융합모델 생성모듈(242), 통계적 모델 기반의 융합 인식 알고리즘 개발에 적합한 형태로 구축된 융합 학습 DB(244), 융합모델 생성모듈(242)과 융합학습DB(244)에 의한 학습 및 학습 파라미터를 제어하는 융합학습DB 제어모듈(243), 학습 파라미터와 입력된 음성특징정보와 제스처 특징정보의 특징 벡터를 제어하는 융합특징 제어모듈(241) 그리고 인식 결과를 생성하여 각종 다양한 기능을 제공하는 융합인식모델(245)로 이루어진다.

융합모델 생성모듈(242)는 음성특징정보와 제스처 특징정보를 효율적으로 융합하기 위해 고성능의 융합모델을 생성한다. 고성능의 융합 모델을 결정하기 위해 기존에 사용되는 다양한 학습 알고리즘(Hidden Markov Model(HMM), Neural Network(NN), Dynamic Time Wapping(DTW) 등)을 구현하고 실험에 의해 결정할 수 있다. 특히, 본원발명은 NN을 기반으로 융합 모델을 결정하여 융합 인식에 높은 성능을 발휘할 수 있는 NN 파라미터를 최적화하는 방법을 이용할 수 있다. 다만, 고성능 융합 모델을 생성하는데 있어서 가장 큰 문제 중의 하나는 프레임 수가 다른 두 모달리티를 학습모델 내에서 어떻게 동기화할 것인가 하는 문제이다.

학습모델내에서의 동기화 문제는 학습모델 최적화 문제와 동일한다. 본 발명 은 융합 레이어를 두고 본 레이어에서 음성과 제스처간의 연결 방법을 최적화한다. 최적화를 위해 시간 축을 기준으로 음성과 제스처의 중첩 길이를 계산 한 후 이를 기반으로 동기화 한다. 이러한 중첩길이는 인식률 실험을 통해 가장 높은 인식률을 보이는 연결 방법을 찾는다.

융합학습 DB(244)는 통계적 모델 기반의 융합 인식 알고리즘 개발에 적합한 형태로 융합 인식 데이터베이스를 구축한다.

예를 들어, 10개의 단어를 대상으로 스테레오 카메라와 무선 마이크를 이용하여 다양한 연령층의 데이터를 동기화시켜서 수집한다. 표 1 은 제스처와 음성 융합을 위한 정의된 명령어 셋이다. 정의된 명령어 집합은 일반적으로 사람들이 크게 학습 없이 이해할 수 있는 자연스런 제스처를 대상으로 하였다.

[표 1]

01	잡아
02	놓아
03	열어
04	닫아
05	이리와
06	저리가
07	아래
08	위
09	오른쪽
10	왼쪽

이때 음성의 샘플링 비율은 16kHz에 16bits을 사용하고, 채널 수 1(mono)의 Pulse Coded Modulation (PCM) 방식의 Waveform을 이용하여 녹음한다. 영상은 STH- DCSG-C 스테레오 카메라를 이용하여 초당 15frame, 320x240크기의 24bits BITMAP 이미지를 블루 스크린 배경과 4개의 형광등 박스가 설치된 조명하에서 녹화하였다. 스테레오 카메라에서 음성 인터페이스가 존재하지 않기 때문에 음성 수집 모듈과 영상 수집 모듈을 독립적으로 작성하여 음성 녹음 프로그램에서 IPC (Inter-Process Communications)를 통해 영상 수집 프로세스를 제어하는 방법으로 영상과 음성의 동기화 프로그램을 작성하여 데이터를 수집하였다. 영상 수집 모듈은 OpenCV(Computer Vison)와 SVS(Small Vision System) 라이브러리를 이용하여 구성하였다.

스테레오 카메라 영상은 별도의 캘리브레이션 과정을 거쳐 실제 녹음 환경에 적응시켜야 하며 최적의 영상을 획득하기 위해 관련 gain, exposure, brightness, red, blue파라미터 값을 수정하여 색감 및 노출 및 WB값을 조정하였다. 캘리브레이션 정보 및 파라미터 정보는 별도의 ini 파일로 저장하여 영상 저장 모듈에서 호출하여 참조하도록 하였다.

융합학습DB 제어모듈(243)은 융합모델 생성모듈(242)과 연계하여 미리 생성되어 저장된 융합학습DB(244)를 기반으로 학습 파라미터를 생성한다.

융합특징 제어모듈(241)은 융합학습DB 제어모듈(243)에 의해 생성된 학습 파라미터와 음성특징추출부(210)과 제스처특징추출부(220)에 의해 추출된 음성과 제스처의 특징정보의 특징벡터를 제어한다. 이러한 제어는 입력 벡터의 노드수의 확장과 축소에 관계된다. 융합특징 제어모듈(241)은 융합 레이어를 갖는 것을 특징으 로 하고, 이러한 융합 레이어는 각기 다른 크기를 갖는 음성과 제스처의 길이를 효율적으로 융합하여 단일 인식률을 제시하도록 개발된다.

융합인식모듈(245)은 융합특징 제어모듈(241)에 의한 제어결과를 이용하여 인식결과를 생성한다. 또한 융합 표현기 혹은 네트워크 등과 상호작용을 위한 각종 기능을 제공한다.

도 3 은 본 발명에 의한 제스처/음성 융합 인식 방법을 나타내는 흐름도이다.

도 3 을 참조하면, 제스처/음성 융합 인식 방법은 전체 세 개의 스레드로 구성되어 동작한다. 세 개의 스레드는 음성 특징을 추출하는 음성특징추출 스레드(10)와 제스처의 특징을 추출하는 제스처특징 추출 스레드(20) 그리고 음성과 제스처를 융합인식을 수행하는 융합인식 스레드(30)로 이루어진다. 세 스레드(10, 20, 30)는 학습 파라미터를 로드하는 시점에 생성하고, 스레드 플러그를 이용하여 유기적으로 동작한다. 이하, 세 스레드(10, 20, 30)가 유기적인 동작을 통한 제스처/음성 융합 인식 방법을 설명한다.

사용자가 음성과 제스처를 이용해 명령을 하는 경우에, 음성특징추출 스레드는(10)는 유무선 마이크를 이용해 계속해서 음성을 수신한다.(S311) 그리고 제스처특징 추출 스레드(20)는 카메라를 이용해 제스처를 포함하는 영상을 계속해 수신한 다.(S320) 마이크를 이용해 계속해서 입력되는 음성의 음성 프레임을 계산하면서(S312) EPD 검출모듈(212)은 음성에 포함된 명령어의 시작점과 끝점(음성 EPD 값)을 검출한다.(S313) 음성 EPD 값이 검출되면 음성 EPD 값을 제스처특징 추출 스레드의 동기화 단계(40)로 전달한다. 또한 음성에 포함된 명령어의 시작점과 끝점에 의해 음성의 명령어 구간이 결정되면, 청각모델기반 음성특징추출모듈(213)은 청각모델을 기반으로 명령어 구간으로부터 음성 특징을 추출하여(S314), 융합인식 스레드(30)로 전달한다.

제스처특징 추출 스레드(20)는 카메라를 통해 계속해서 입력되는 영상으로부터 손 및 얼굴을 검출한다.(S321) 이렇게 손과 얼굴이 검출되면 사용자의 제스처를 추적한다.(S322) 사용자의 제스처는 계속해서 변하므로 일정한 길이의 제스처를 버퍼에 저장한다.(S323)

제스처를 버퍼에 저장하는 과정에서 음성 EPD 값이 검출되어 전달되면, 버퍼에 저장된 제스처 영상에서의 음성 EPD 플러그를 체크한다.(S324) 음성 EPD 플러그에 의해 영상의 특징정보를 포함하는 제스처의 시작점과 끝점을 검색하고(S325), 이렇게 검색된 제스처 특징을 저장한다.(S326) 이렇게 저장된 제스처특징은 음성과 동기가 다르므로 미리 설정된 최적 프레임을 적용하여 제스처의 시작 프레임부터 최적 프레임을 계산한다. 그리고 계산된 최적 프레임은 제스처특징 추출모듈(224)을 이용해 제스처 특징정보를 추출하여 융합 인식 스레드로 전달한다.

음성특징추출 스레드(10)와 제스처 특징추출 스레드(20)에서 성공적으로 음성과 제스처의 특징정보가 추출되면 융합인식 스레드(30)에서 인식결과를 확인하는 동안 음성/제스처 특징추출 스레드(10, 20)는 정지(Sleep) 상태에 놓이게 된다.(S328, S315)

융합인식 스레드(30)는 음성특징정보와 제스처 특징정보를 전달받기 전에 미리 융합모델생성모듈(245)에 의해 고성능 융합모델을 생성하고, 이렇게 생성된 융합모델과 융합학습DB(244)를 제어하여 융합학습DB 제어모듈(243)은 학습 파라미터를 생성하여 로드한다.(S331) 이렇게 학습 파라미터가 로드되면 융합인식 스레드(30)는 음성/제스처 특징정보가 전달되기 전까지 정지(Sleep) 상태로 유지된다.(S332)

이렇게 정지(Sleep)상태에 있는 융합인식 스레드(30)는 음성과 제스처의 특징정보의 추출이 완료되어(S333) 특징정보에 관한 신호를 받으면 각각의 특징을 메모리에 로드한다.(S334) 음성과 제스처의 특징정보가 로드되면 미리 설정된 최적화한 융합 학습 모델과 학습 파라미터를 이용하여 인식결과를 계산한다.(S335)

융합인식부(240)에 의해 인식결과가 계산되면 정지 상태에 있는 음성특징 추출 스레드(10)와 제스처특징 추출 스레드(20)는 다시 입력되는 음성과 영상으로부터 특징정보를 추출하는 작업을 실행한다.

이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 당업자에게 있어 명백할 것이다.

<도면의 주요 부분에 대한 부호의 설명>

210 : 음성특징추출부 212 : EPD 검출모듈

213 : 청각모델기반 음성특징추출모듈 220 : 제스처특징추출부

222 : 얼굴 및 손 검출모듈 223 : 손 추적 모듈

230 : 동기화모듈 231 : 제스처 시작점 검출모듈

232 : 최적 프레임 적용 모듈 240 : 융합인식부

241 : 융합특징 제어모듈 242 : 융합모델 생성모듈

243 : 융합 학습 DB 제어모듈 244 : 융합 학습 DB

245 : 융합 인식 모듈

Claims

입력된 음성 중에서 명령어의 시작점과 끝점을 검출하여 음성특징정보을 추출하는 음성특징추출부;

상기 검출된 시작점과 끝점에 관한 정보를 이용하여 촬영 영상의 제스처로부터 명령구간을 검출하여 제스처특징정보를 추출하는 제스처 특징추출부;

상기 추출된 음성특징정보와 제스처 특징정보를 기 설정된 학습 파라미터를 이용하여 융합인식 데이터로 출력하는 융합 인식부를 포함하는 것을 특징으로 하는 제스처/음성 융합 인식 시스템.
제 1 항에 있어서,

상기 검출된 시작점을 이용하여 상기 촬영 영상으로부터 제스처의 시작점을 검출하는 제스처 시작점 검출모듈;

상기 제스처의 시작점으로부터 미리 설정된 최적 프레임의 수를 적용하여 최적의 영상 프레임을 계산하여 추출하는 최적 프레임 적용 모듈을 포함하는 동기화 모듈을 더 포함하는 것을 특징으로 하는 제스처/음성 융합 인식 시스템.
제 2 항에 있어서, 상기 제스처 시작점 검출모듈은

상기 검출된 음성의 시작점(EPD : End Point Detection) 플러그를 상기 촬영 영상쪽에서 체크하여 제스처의 시작점을 검출하는 것을 특징으로 하는 제스처/음성 융합 인식 시스템.
제 1 항 내지 제 3 항 중에서 어느 하나의 항에 있어서, 상기 음성특징추출부는

상기 입력된 음성 중에서 명령어의 시작점과 끝점을 검출하는 이피디(EPD : End Point Detection) 검출모듈;

청각모델기반 알고리즘을 이용하여 상기 검출된 명령어로부터 상기 명령어에 포함된 음성특징정보를 추출하는 청각모델기반 음성특징추출모듈을 포함하여 이루어지는 것을 특징으로 하는 제스처/음성 융합 인식 시스템.
제 4 항에 있어서, 상기 음성특징추출부는

상기 추출된 음성특징정보로부터 노이즈를 제거하는 것을 특징으로 하는 제스처/음성 융합 인식 시스템.
제 3 항에 있어서, 상기 제스처 특징추출부는

카메라로부터 촬영된 영상으로부터 손의 움직임을 추적하여, 상기 동기화 모듈에 전송하는 손 추적 모듈;

상기 동기화 모듈에서 추출된 최적의 영상 프레임을 이용하여 제스처 특징정보를 추출하는 제스처 특징 추출모듈을 포함하여 이루어지는 것을 특징으로 하는 제스처/음성 융합 인식 시스템.
제 1 항에 있어서, 상기 융합인식부는

미리 설정된 융합학습 모델과 융합 학습 데이터 베이스를 기반으로 학습 파라미터를 생성하는 융합 학습 DB 제어모듈;

상기 추출된 음성특징정보와 제스처특징정보를 상기 생성된 학습 파라미터를 이용하여 제어하는 융합 특징 제어모듈;

상기 융합 특징 제어모듈에 의해 제어되는 결과를 인식 결과로 생성하는 융합 인식 모듈을 포함하여 이루어지는 것을 특징으로 하는 제스처/음성 융합 인식 시스템.
제 7 항에 있어서, 상기 융합학습 모델은

Neural Network(NN) 학습 알고리즘을 기반으로 생성되는 것을 특징으로 하는 제스처/음성 융합 인식 시스템.
제 7 항에 있어서, 상기 융합 학습 데이터 베이스는

스테레오 카메라와 무선 마이크를 이용하여 다양한 연령층의 음성과 제스처에 대한 특징정보를 융합하여 통계적 모델 기반의 융합 인식 알고리즘에 적용가능한 형태로 구축되는 것을 특징으로 하는 제스처/음성 융합 인식 시스템.
제 7 항에 있어서, 상기 융합 인식 모듈은

상기 추출된 음성특징정보와 제스처특징정보를 융합하는 융합 레이어를 포함하는 것을 특징으로 하는 제스처/음성 융합 인식 시스템.
제 7 항에 있어서, 상기 융합 특징 제어모듈은

입력되는 벡터의 노드수의 확장과 축소를 통해 상기 추출된 음성특징정보와 제스처특징정보의 특징벡터를 제어하는 것을 특징으로 하는 제스처/음성 융합 인식 시스템.
입력된 음성 중에서 명령어의 시작점(EPD 값)과 끝점을 검출하여 음성특징정 보를 추출하는 1 단계;

상기 검출된 명령어의 시작점을 이용하여 카메라에 의해 입력된 영상의 제스처로부터 명령구간을 검출하여 제스처특징정보를 추출하는 2 단계;

상기 추출된 음성특징정보와 제스처특징정부를 기 설정된 학습 파라미터를 이용하여 융합인식 데이터로 출력하는 3 단계를 포함하는 것을 특징으로 하는 제스처/음성 융합 인식 방법.
제 12 항에 있어서, 상기 1 단계는

상기 명령어의 시작점과 끝점에 의한 명령어 구간으로부터 청각모델을 기반으로 음성특징정보를 추출하는 것을 특징으로 하는 제스처/음성 융합 인식 방법.
제 12 항에 있어서, 상기 2 단계는

상기 카메라의 입력 영상으로부터 손의 움직임 제스처를 추적하는 A 단계;

상기 전송된 EPD 값을 이용하여 상기 손의 움직임 제스처에 의한 명령구간을 검출하는 B 단계;

미리 설정된 최적 프레임을 적용하여 상기 제스처에 의한 명령구간으로부터 최적의 프레임을 결정하는 C 단계;

상기 결정된 최적의 프레임으로부터 제스처특징정보를 추출하는 D 단계를 포 함하여 이루어지는 것을 특징으로 하는 제스처/음성 융합 인식 방법.
제 12 항에 있어서, 상기 1 단계는

상기 추출된 음성특징정보로부터 노이즈를 제거하는 단계를 더 포함하는 것을 특징으로 하는 제스처/음성 융합 인식 방법.