WO2014178491A1

WO2014178491A1 - 발화 인식 방법 및 장치

Info

Publication number: WO2014178491A1
Application number: PCT/KR2013/009228
Authority: WO
Inventors: 이근배; 이규송; 한상도; 송재윤
Original assignee: 포항공과대학교 산학협력단
Priority date: 2013-04-30
Filing date: 2013-10-16
Publication date: 2014-11-06

Abstract

발화 인식 방법 및 장치가 개시된다. 디지털 신호 처리가 가능한 정보 처리 장치에서 수행되는 발화 인식 방법에 있어서, 적어도 하나의 센서를 이용하여, 사용자의 영상, 음향 및 정보 처리 장치의 움직임에 대한 정보 중 적어도 하나를 포함하는 입력 데이터를 수집하는 단계, 수집된 입력 데이터와 미리 설정된 발화 의도 모델을 비교하여, 사용자의 발화 시점에 대한 정보를 추출하는 단계 및 추출된 사용자의 발화 시점에 대한 정보를 기반으로 음향을 녹음하고, 녹음된 음향에서 사용자의 발화를 인식하는 단계를 포함한다. 따라서, 사용자 발화의 의도에 맞는 정확한 정보와 편리함을 제공하며, 사용자 발화의 의도를 파악하는 것이 요구되는 모든 대화 시스템 및 장치에 적용할 수 있다.

Description

발화 인식 방법 및 장치

본 발명은 디지털 신호 처리에 기반한 발화 인식 기술에 관한 것으로, 더욱 상세하게는 멀티 모달 정보를 기반으로 사용자의 발화 시점에 대한 정보를 추출하여 발화를 인식하는 발화 인식 방법 및 장치에 관한 것이다.

최근 정보 처리 장치 및 정보 통신 기술이 급속하게 발전함에 따라, 스마트폰(Smart Phone), 태블릿 PC(Tablet PC) 등과 같은 휴대용 이동 통신 단말들이 상용화되었다.

이에 따라 정보 처리 장치에 멀티모달 인터페이스(Multimodal Interface)를 적용하여 다양한 방식으로 사용자의 발화를 인식함으로써 정보 처리 장치를 제어할 수 있게 되었다.

여기서, 멀티모달 인터페이스란 텍스트 또는 음성과 같은 언어적 요소뿐만 아니라 몸짓, 손짓 또는 표정과 같은 비언어적인 요소를 이용하여, 정보 처리 장치와 사용자 간의 상호 작용을 제공하는 사용자 인터페이스를 의미한다.

그리하여, 사용자의 발화를 인식하고 인식된 사용자 발화의 의도에 맞는 정보를 제공할 수 있는 지능형 로봇, 차세대 PC, 텔레매틱스, 홈네트워크, 콘텐츠 검색과 같은 분야에서, 멀티모달 인터페이스를 적용한 발화 인식 기술이 활용되고 있는 추세이다.

종래의 발화 인식 기술은, 사용자가 발화를 시작하기 전에 미리 터치스크린, 키패드, 키보드와 같은 입력 장치를 통해 입력 신호를 주고, 입력 신호가 감지되어야 정보 처리 장치 내의 대화 처리 시스템에서 사용자의 발화를 인식하도록 하는 Push-To-Talk 방식을 이용하였다.

그러나, 이러한 Push-To-Talk 방식은 사용자가 발화를 시작하기 전에 직접 신체적 접촉을 이용하여 신호를 주어야만 정보 처리 장치에서 사용자의 발화를 인식하기 때문에, 발화가 진행될 때마다 입력 장치와의 접촉이 필요하다는 점에서 사용하기에 번거롭다는 문제가 있다.

또한, Push-To-Talk방식을 적용한 정보 처리 장치를 이용하는 사용자와 사용자간, 또는 사용자와 정보 처리 장치 간에 직관적이고 자연스러운 대화를 제공할 수 없는 문제가 있다.

그리하여, 정보 처리 장치에 소리 신호가 입력되면, 잡음을 걸러내고 음성이 시작되는 부분 또는 종료하는 부분을 추출해내어 발화를 인식하는 음성 활동 검출 기술(Voice activity detection)이 이용되었다.

그러나, 정보 처리 장치가 사용자의 음성이 시작되는 시점을 놓침으로써 발생하는 음성의 손실로 인해 사용자 발화의 의도를 정확하게 인식할 수 없다는 문제가 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 멀티 모달 인터페이스를 적용한 정보 처리 장치를 사용하는 사용자로부터 별도의 입력 장치 없이도 사용자 발화의 시작점을 정확히 추출할 수 있는 발화 인식 기술을 제공함으로써, 사용자 발화의 의도에 맞는 정확한 정보를 제공함과 동시에 사용자에게 편리함을 제공할 수 있는 발화 인식 방법을 제공하는데 있다.

또한, 본 발명의 다른 목적은, 사용자의 발화에서 사용자의 음성을 손실 없이 추출할 수 있는 발화 인식 기술을 제공함으로써, 사용자의 음성을 이용하여 사용자 발화의 의도를 파악하는 것이 요구되는 모든 대화 시스템 및 장치에 적용할 수 있는 발화 인식 장치를 제공하는데 있다.

상기 목적을 달성하기 위한 본 발명의 일 측면에 따른 발화 인식 방법은, 디지털 신호 처리가 가능한 정보 처리 장치에서 적어도 하나의 센서를 이용하여, 사용자의 영상, 음향 및 정보 처리 장치의 움직임에 대한 정보 중 적어도 하나를 포함하는 입력 데이터를 수집하는 단계, 수집된 입력 데이터와 미리 설정된 발화 의도 모델을 비교하여, 사용자의 발화 시점에 대한 정보를 추출하는 단계 및 추출된 사용자의 발화 시점에 대한 정보를 기반으로 적어도 하나의 센서를 이용하여 음향을 녹음하고, 녹음된 음향에서 사용자의 발화를 인식하는 단계를 포함한다.

여기서, 사용자의 발화 시점에 대한 정보를 추출하는 단계는, 적어도 하나의 센서에서 수집된 사용자의 영상을 처리하여 사용자의 모션을 인식함으로써 사용자의 발화 시점에 대한 정보를 추출할 수 있다.

여기서, 사용자의 발화 시점에 대한 정보를 추출하는 단계는, 적어도 하나의 센서에서 수집된 사용자의 영상에서 사용자의 동공의 위치를 추출하여 사용자의 동공이 일정 시간동안 정보 처리 장치의 디스플레이 장치를 응시하는지 판단함으로써 사용자의 발화 시점에 대한 정보를 추출할 수 있다.

여기서, 사용자의 발화 시점에 대한 정보를 추출하는 단계는, 적어도 하나의 센서에서 수집된 사용자의 영상에서 사용자의 입 모양을 추출하여 사용자의 입이 열려있는지 판단함으로써 사용자의 발화 시점에 대한 정보를 추출할 수 있다.

여기서, 사용자의 발화 시점에 대한 정보를 추출하는 단계는, 적어도 하나의 센서로부터 정보 처리 장치의 가속도, 기울기 및 흔들림 중 적어도 하나를 측정하여 정보 처리 장치의 움직임을 인식함으로써 사용자의 발화 시점에 대한 정보를 추출할 수 있다.

여기서, 발화 의도 모델은, 베이지안 네트워크(Bayesian Network) 및 은닉 마코프 모델(Hidden Markov Model) 중 적어도 하나를 포함하는 확률 기반의 모델 또는 기계 학습 기반의 분류기를 이용하여 상기 입력 데이터를 기계 학습함으로써 생성될 수 있다.

여기서, 사용자의 발화를 인식하는 단계는, 녹음된 음향으로부터 음성 시작점 및 음성 종료점을 추출하고, 추출된 음성 시작점을 기준으로 미리 설정한 설정 시간만큼 앞 시간부터, 추출된 음성 종료점을 기준으로 미리 설정한 설정 시간만큼 뒤 시간까지를 사용자의 발화로 인식할 수 있다.

또한, 상기 다른 목적을 달성하기 위한 본 발명의 일 측면에 따른 발화 인식 장치는, 적어도 하나의 센서를 이용하여, 사용자의 영상, 음향 및 정보 처리 장치의 움직임에 대한 정보 중 적어도 하나를 포함하는 입력 데이터를 수집하는 입력부, 수집된 입력 데이터와 미리 설정된 발화 의도 모델을 비교하여, 사용자의 발화 시점에 대한 정보를 추출하는 발화 시점 추출부 및 사용자의 발화 시점에 대한 정보를 기반으로 녹음된 음향에서 사용자의 발화를 인식하는 발화 인식부를 포함한다.

여기서, 입력부는, 사용자의 모션을 인식하는 영상 입력 모듈, 정보 처리 장치의 움직임을 인식하는 움직임 입력 모듈 및 적어도 하나의 센서를 이용하여 사용자의 음향을 인식하거나 녹음하는 음향 입력 모듈을 포함할 수 있다.

여기서, 적어도 하나의 센서는, 정보 처리 장치에 탑재되어, 사용자의 영상을 획득할 수 있는 카메라, 음향을 획득할 수 있는 마이크 및 정보 처리 장치의 움직임을 측정할 수 있는 가속도계, 자이로스코프 센서 및 근접 센서 중 적어도 하나를 포함할 수 있다.

상술한 바와 같은 본 발명의 실시예에 따른 발화 인식 방법 및 장치에 따르면, 사용자로부터 별도의 입력 장치 없이도 사용자 발화의 시작점을 정확히 추출할 수 있기 때문에, 사용자의 발화 의도에 맞는 정확한 정보를 제공함과 동시에 자연스럽게 발화할 수 있도록 사용자에게 편리함을 제공해줄 수 있다.

또한, 사용자의 발화에서 사용자의 음성을 손실 없이 추출할 수 있기 때문에, 사용자의 음성을 이용하여 사용자 발화의 의도를 파악하는 것이 요구되는 모든 대화 시스템 및 장치에 적용할 수 있다.

도 1은 본 발명의 실시예에 따른 발화 인식 방법을 설명하는 흐름도이다.

도 2는 본 발명의 실시예에 따른 사용자 동공의 위치를 이용하여 발화 시점에 대한 정보를 추출하는 것을 설명하는 예시도이다.

도 3은 본 발명의 실시예에 따른 사용자의 입 모양을 이용하여 발화 시점에 대한 정보를 추출하는 것을 설명하는 예시도이다.

도 4는 본 발명의 실시예에 따른 정보 처리 장치의 움직임을 이용하여 발화 시점에 대한 정보를 추출하는 것을 설명하는 예시도이다.

도 5는 본 발명의 실시예에 따른 발화 의도 모델이 생성되는 방법을 설명하는 흐름도이다.

도 6은 본 발명의 실시예에 따른 사용자의 발화가 인식되는 것을 설명하는 예시도이다.

도 7은 본 발명의 실시예에 따른 발화 인식 장치를 나타내는 블록도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 발명의 실시예에서 발화 인식 방법 및 장치는, 디지털 신호 처리를 수행할 수 있는 적어도 하나의 사용자 단말이 포함될 수 있다.

적어도 하나의 사용자 단말은 하나의 서버 또는 다른 사용자 단말과 직접적으로 연결될 수도 있고, 시리얼, USB, 블루투스, 와이파이, 지그비 등과 같은 유무선 네트워크로 연결되어 정보를 주고받을 수 있다.

여기서, 사용자 단말은 멀티모달 인터페이스(Multimodal Interface)를 활용할 수 있도록 적어도 하나의 센서를 탑재하고, 센서에 의해 입력된 신호를 처리할 수 있는 정보 처리 기능을 구비하는 스마트폰, 태블릿 PC, 노트북, 컴퓨터, 스마트 가전장치 및 시스템 로봇과 같은 정보 처리 장치를 포함할 수 있으나 이에 한정되는 것은 아니다.

멀티모달 인터페이스는 터치스크린, 키보드, 펜 및 마이크와 같은 입력 장치에서 입력받은 텍스트나 음성뿐만 아니라, 각종 센서에서 입력받은 사용자의 모션 또는 사용자 단말의 움직임 정보를 이용하여 사용자와 정보 처리 장치 간의 상호 작용을 지원해주는 사용자 인터페이스를 의미할 수 있다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1을 참조하면, 디지털 신호 처리가 가능한 정보 처리 장치에서 수행되는 발화 인식 방법은, 입력 데이터를 수집하는 단계(S110), 사용자의 발화 시점에 대한 정보를 추출하는 단계(S130) 및 음향을 녹음하고(S140) 녹음된 음향에서 사용자의 발화를 인식하는 단계(S150)를 포함할 수 있다.

적어도 하나의 센서를 이용하여 사용자의 영상, 음향 및 정보 처리 장치의 움직임에 대한 정보 중 적어도 하나를 포함하는 입력 데이터를 수집할 수 있다(S110).

여기서, 센서는 정보 처리 장치에 탑재되어 사용자의 영상을 획득할 수 있는 카메라, 깊이 카메라 및 키넥트 카메라와 같은 이미지 센서 또는 변위 센서, 음향을 획득할 수 있는 마이크 및 정보 처리 장치의 움직임을 측정할 수 있는 가속도계, 자이로스코프 센서 및 근접 센서 중 적어도 하나를 포함할 수 있으나 이에 한정되는 것은 아니다.

입력 데이터와 미리 설정된 발화 의도 모델을 비교하면(S120) 사용자의 발화 시점에 대한 정보를 추출할 수 있다(S130).

사용자의 발화 시점에 대한 정보는, 센서에서 수집된 사용자의 영상을 처리하여 사용자의 모션을 인식함으로써 추출할 수 있다.

도 2는 본 발명의 실시예에 따른 사용자 동공의 위치를 이용하여 발화 시점에 대한 정보를 추출하는 것을 설명하는 예시도이고, 도 3은 본 발명의 실시예에 따른 사용자의 입 모양을 이용하여 발화 시점에 대한 정보를 추출하는 것을 설명하는 예시도이며, 도 4는 본 발명의 실시예에 따른 정보 처리 장치의 움직임을 이용하여 발화 시점에 대한 정보를 추출하는 것을 설명하는 예시도이다.

도 1 및 도 2를 참조하면 사용자의 발화 시점에 대한 정보를 추출하기 위한 예로써 정보 처리 장치(20)에 탑재된 카메라(21)를 이용하여 사용자 동공 위치(22)를 인식하는 것을 나타내고 있다.

즉, 사용자 동공이 일정 시간동안 정보 처리 장치의 디스플레이 장치를 응시하는 것이 감지되면, 사용자가 발화를 시작할 의도가 있는 것으로 판단하여 발화 시점에 대한 정보로 추출할 수 있다.

도 1 및 도 3을 참조하면 사용자의 발화 시점에 대한 정보를 추출하기 위한 예로써 정보 처리 장치(20)에 탑재된 카메라(21)를 이용하여 사용자의 입 모양(33)을 인식하는 것을 나타내고 있다.

도 3의 (a)와 같이 사용자의 입이 열려있으면 사용자가 발화를 진행하는 것으로 판단하여 발화 시점에 대한 정보로 추출할 수 있다. 반면, 도 3의 (b)와 같이 사용자의 입이 닫혀있으면 사용자가 발화를 진행하고 있지 않은 것으로 판단할 수 있다.

여기서는 사용자의 모션 중 사용자 동공 위치(22) 또는 사용자 입 모양(33)에 따라 사용자의 발화 시점에 대한 정보를 추출하는 것을 예로 들었으나, 사용자가 발화를 시작하기 위해 취하는 모든 모션들을 센서로 수집하여 사용자의 발화 시점에 대한 정보를 추출하기 위해 이용될 수 있다.

사용자의 발화 시점에 대한 정보는, 센서에서 수집된 사용자의 음향을 처리하여 사용자의 음성을 인식함으로써 추출할 수 있다. 여기서, 사용자의 음향은, 사용자가 발음 기관을 통해 내는 말소리와 같은 음성 또는 사용자의 신체에 의해 발생하는 마찰음을 포함할 수 있다.

또한, 사용자의 발화 시점에 대한 정보는, 센서에서 수집된 정보 처리 장치의 움직임을 인식함으로써 추출할 수 있다. 여기서, 정보 처리 장치의 움직임은, 사용자의 발화 시점에 대한 정보를 추출하기 위해 정보 처리 장치의 가속도, 기울기 및 흔들림 중 적어도 하나를 측정할 수 있다.

도 1 및 도 4를 참조하면, 도 4의 (a)와 같이 사용자가 발화를 진행하기 위해 정보 처리 장치를 들어올리면서 발생하는 정보 처리 장치의 좌우 또는 앞뒤로의 흔들림을 인식함으로써 사용자의 발화 시점에 대한 정보를 추출할 수 있다.

또한, 도 4의 (b)와 같이 사용자가 발화를 진행하기 위해 정보 처리 장치를 들어올리면서 발생하는 정보 처리 장치의 기울기를 인식함으로써 사용자의 발화 시점에 대한 정보를 추출할 수 있다.

도 1 및 도 5를 참조하면, 발화 의도 모델은 사용자의 발화가 진행되는 상황에서의 입력 데이터를 수집하고(S510), 수집된 입력 데이터를 기계 학습 기반의 모델을 통해 훈련 시킴으로써(S520) 생성될 수 있다(S530).

발화 의도 모델의 입력 데이터는, 적어도 하나의 센서를 이용하여 사용자의 발화가 진행되는 상황에서의 사용자의 영상, 음향 및 정보 처리 장치의 움직임에 대한 정보 중 적어도 하나를 포함하여 수집할 수 있다.

수집된 사용자의 발화가 진행되는 상황에서의 입력 데이터를 베이지안 네트워크(Bayesian Network) 및 은닉 마코프 모델(Hidden Markov Model) 중 적어도 하나를 포함하는 확률 기반의 모델을 이용하여 훈련시킴으로써 발화 의도 모델로 생성(S530)될 수 있으나 이에 한정되지 않고 기계 학습 기반의 분류기를 이용하여 발화 의도 모델을 생성할 수 있다.

생성된 발화 의도 모델은 정보 처리 장치의 버퍼(buffer), 캐쉬(cache), 램(RAM; Random Access Memory), 롬(ROM; Read Only Memory), 하드 디스크, 플래시 메모리(Flash Memory)와 같은 저장장치에 미리 설정될 수 있다.

추출된 사용자의 발화 시점에 대한 정보를 기반으로 음향을 녹음하고(S140), 녹음된 음향에서 사용자의 발화를 인식할 수 있다(S150).

여기서, 추출된 사용자의 발화 시점에 대한 정보는, 정보 처리 장치에서 사용자의 발화를 인식하기 위해, 음향의 녹음을 시작해야 할 시작점 또는 시작 시간과 같은 정보를 의미할 수 있다.

정보 처리 장치에서 녹음된 음향으로부터 사용자 주변의 잡음, 사용자의 음성 및 음성이 아닌 부분을 분리하고, 분리된 사용자의 음성에서 음성 시작점 및 음성 종료점을 추출할 수 있다.

사용자의 발화는, 추출된 음성 시작점을 기준으로 미리 설정한 설정 시간만큼 앞 시간부터, 상기 추출된 음성 종료점을 기준으로 미리 설정한 설정 시간만큼 뒤 시간까지 인식될 수 있다.

여기서, 설정 시간은, 사용자의 발화를 인식할 때, 사용자 음성의 손실을 방지하기 위해 미리 설정할 수 있다.

도 6을 참조하면, 추출된 사용자의 발화 시점에 대한 정보(62)로부터 음향의 녹음을 시작하고, 녹음된 음향(63)으로부터 음성 시작점(64), 음성 종료점(65) 및 미리 설정한 설정 시간(66)을 기반으로 사용자의 발화(67)를 인식할 수 있다.

사용자의 발화 시점에 대한 정보(62)는 정보 처리 장치(20)에서 사용자의 발화를 인식하기 위해, 음향의 녹음을 시작해야 할 시작점 또는 시작 시간과 같은 정보를 의미할 수 있다.

정보 처리 장치(20)의 마이크(61)를 이용하여 사용자의 발화 시점에 대한 정보(62)로부터 사용자 음향의 녹음을 시작할 수 있다.

여기서 녹음된 음향(63)은, 사용자가 발음 기관을 통해 내는 말소리와 같은 음성뿐만 아니라 사용자의 신체에 의해 발생하는 마찰음 및 사용자 주변의 잡음을 포함할 수 있다.

녹음된 음향(63)으로부터 사용자 주변의 잡음, 사용자의 음성 및 음성이 아닌 부분을 분리하고, 분리된 사용자의 음성에서 음성 시작점(64) 및 음성 종료점(65)을 추출할 수 있다.

추출된 음성 시작점(64)을 기준으로 미리 설정한 설정 시간(66)만큼 앞 시간부터, 추출된 음성 종료점(65)을 기준으로 미리 설정한 설정 시간(66)만큼 뒤 시간까지를 사용자의 발화로 인식할 수 있다.

예를 들어, 사용자의 발화 시점에 대한 정보(62)로부터 녹음된 음향(63)의 전체 시간이 30초이며, 음성 시작점(64)은 음향의 시작 후 10초 지점으로 추출되고 음성 종료점(65)은 음향 시작 후 15초 지점으로 추출되었다고 가정할 수 있다.

여기서, 미리 설정한 설정 시간(66)을 2초로 설정하였다면, 음성 시작점 10초에서 설정 시간 2초 앞인 8초부터, 음성 종료점 15초에서 설정 시간 2초 뒤인 17초까지가 사용자의 발화로써 인식될 수 있다.

도 7을 참조하면, 발화 인식 장치(70)는, 입력부(71), 발화 시점 추출부(75) 및 발화 인식부(77)를 포함하여 구성될 수 있다.

여기서, 발화 인식 장치(70)는, 적어도 하나의 센서를 탑재하고, 센서에 의해 입력된 신호를 처리할 수 있는 정보 처리 기능을 구비하는 스마트폰, 태블릿 PC, 노트북, 컴퓨터, 스마트 가전장치 및 시스템 로봇과 같은 정보 처리 장치를 포함할 수 있으나 이에 한정되는 것은 아니다.

입력부(71)는, 적어도 하나의 센서를 이용하여, 사용자의 영상, 음향 및 정보 처리 장치의 움직임에 대한 정보 중 적어도 하나를 포함하는 입력 데이터를 수집할 수 있다.

입력부(71)는, 영상 입력 모듈(72), 움직임 입력 모듈(73) 및 음향 입력 모듈(74)을 포함할 수 있다.

영상 입력 모듈(72)은, 센서에서 수집된 사용자의 영상을 처리하여 사용자의 발화 시점에 대한 정보를 추출하기 위한 사용자의 모션을 인식할 수 있다.

예를 들어, 영상 입력 모듈(72)은 사용자의 영상을 처리하여 인식된 사용자의 모션 중에서 사용자의 동공의 위치를 추출하여, 사용자의 동공이 일정 시간동안 정보 처리 장치의 디스플레이 장치를 응시하는지를 판단할 수 있다.

만약, 사용자 동공이 일정 시간동안 모니터, 터치 스크린 및 터치 패널과 같은 디스플레이 장치를 응시하는 것이 감지되면, 사용자가 발화를 시작할 의도가 있는 것으로 판단하여 발화 시점에 대한 정보로 추출할 수 있다.

또한, 영상 입력 모듈(72)은 사용자의 영상을 처리하여 인식된 사용자의 모션 중에서 사용자의 입 모양을 추출하여, 사용자의 입이 열려있는지를 판단할 수 있다.

만약, 사용자의 입이 열려있으면 사용자가 발화를 진행하는 것으로 판단하여 발화 시점에 대한 정보로 추출할 수 있으나, 사용자의 입이 닫혀있으면 사용자가 발화를 진행하고 있지 않은 것으로 판단할 수 있다.

여기서는 사용자의 모션 중 사용자의 동공의 위치 또는 입 모양에 따라 사용자의 발화 시점에 대한 정보를 추출하는 것을 예로 들었으나, 사용자가 발화를 시작하기 위해 취하는 모든 모션들을 수집할 수 있다.

움직임 입력 모듈(73)은, 센서에서 정보 처리 장치의 가속도, 기울기 및 흔들림 중 적어도 하나를 측정하여, 사용자의 발화 시점에 대한 정보를 추출하기 위한 정보 처리 장치의 움직임을 인식할 수 있다.

음향 입력 모듈(74)은, 사용자의 발화 시점에 대한 정보를 추출하기 위해 사용자의 음향을 인식하거나, 추출된 사용자의 발화 시점에 대한 정보를 기반으로 음향을 녹음할 수 있다. 여기서, 사용자의 음향은, 사용자가 발음 기관을 통해 내는 말소리와 같은 음성 또는 사용자의 신체에 의해 발생하는 마찰음을 포함할 수 있다.

발화 시점 추출부(75)는, 입력부(71)에서 수집된 입력 데이터와 미리 설정된 발화 의도 모델(76)을 비교하여, 사용자의 발화 시점에 대한 정보를 추출할 수 있다.

발화 의도 모델(76)은, 사용자의 발화가 진행되는 상황에서의 입력 데이터를 수집하여 베이지안 네트워크(Bayesian Network) 및 은닉 마코프 모델(Hidden Markov Model) 중 적어도 하나를 포함하는 확률 기반의 모델을 이용하여 훈련시킴으로써 발화 의도 모델로 생성될 수 있으나 이에 한정되지 않고 기계 학습 기반의 분류기를 이용하여 발화 의도 모델을 생성할 수 있다.

발화 인식부(77)는, 사용자의 발화 시점에 대한 정보를 기반으로 녹음된 음향에서 상기 사용자의 발화를 인식할 수 있다.

여기서, 사용자의 발화 시점에 대한 정보는, 정보 처리 장치에서 사용자의 발화를 인식하기 위해 음향 입력 모듈(74)에서 음향의 녹음을 시작해야 할 시작점 또는 시작 시간과 같은 정보를 의미할 수 있다.

발화 인식부(77)는, 음향 입력 모듈(74)에서 녹음된 음향으로부터 사용자 주변의 잡음, 사용자의 음성 및 음성이 아닌 부분을 분리하고, 분리된 사용자의 음성에서 음성 시작점 및 음성 종료점을 추출할 수 있다.

그리하여, 추출된 음성 시작점을 기준으로 미리 설정한 설정 시간만큼 앞 시간부터, 상기 추출된 음성 종료점을 기준으로 미리 설정한 설정 시간만큼 뒤 시간까지를 사용자 발화로 인식될 수 있다.

발화 의도 모델(76) 및 설정 시간은, 정보 처리 장치의 버퍼(buffer), 캐쉬(cache), 램(RAM; Random Access Memory), 롬(ROM; Read Only Memory), 하드 디스크, 플래시 메모리(Flash Memory)와 같은 저장장치에 미리 설정될 수 있다.

상술한 바와 같은 발화 인식 방법 및 장치에 따르면, 사용자로부터 별도의 입력 없이도 사용자의 발화 시점에 대한 정보를 정확히 추출할 수 있기 때문에, 사용자에게 사용자 발화의 의도에 맞는 정확한 정보를 제공함과 동시에 편리함을 제공해줄 수 있다.

또한, 음성 시작점 및 음성 종료점을 추출하고, 추출된 음성 시작점을 기준으로 미리 설정한 설정 시간만큼 앞 시간부터, 추출된 음성 종료점을 기준으로 미리 설정한 설정 시간만큼 뒤 시간까지를 사용자의 발화로 인식하기 때문에 사용자의 음성을 손실없이 추출할 수 있다.

따라서, 음성을 이용하여 사용자의 발화의 의도를 파악하는 것이 요구되는 모든 대화 시스템 및 장치에 적용할 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims

디지털 신호 처리가 가능한 정보 처리 장치에서 수행되는 발화 인식 방법에 있어서,

적어도 하나의 센서를 이용하여, 사용자의 영상, 음향 및 상기 정보 처리 장치의 움직임에 대한 정보 중 적어도 하나를 포함하는 입력 데이터를 수집하는 단계;

상기 수집된 입력 데이터와 미리 설정된 발화 의도 모델을 비교하여, 상기 사용자의 발화 시점에 대한 정보를 추출하는 단계; 및

상기 추출된 사용자의 발화 시점에 대한 정보를 기반으로 상기 적어도 하나의 센서를 이용하여 음향을 녹음하고, 상기 녹음된 음향에서 상기 사용자의 발화를 인식하는 단계를 포함하는 발화 인식 방법.
청구항 1에 있어서,

상기 사용자의 발화 시점에 대한 정보를 추출하는 단계는,

상기 적어도 하나의 센서에서 수집된 사용자의 영상을 처리하여 사용자의 모션을 인식함으로써 상기 사용자의 발화 시점에 대한 정보를 추출하는 것을 특징으로 하는 발화 인식 방법.
청구항 2에 있어서,

상기 사용자의 발화 시점에 대한 정보를 추출하는 단계는,

상기 적어도 하나의 센서에서 수집된 사용자의 영상에서 사용자의 동공의 위치를 추출하여 상기 사용자의 동공이 일정 시간동안 상기 정보 처리 장치의 디스플레이 장치를 응시하는지 판단함으로써 상기 사용자의 발화 시점에 대한 정보를 추출하는 것을 특징으로 하는 발화 인식 방법.
청구항 2에 있어서,

상기 사용자의 발화 시점에 대한 정보를 추출하는 단계는,

상기 적어도 하나의 센서에서 수집된 사용자의 영상에서 사용자의 입 모양을 추출하여 상기 사용자의 입이 열려있는지 판단함으로써 상기 사용자의 발화 시점에 대한 정보를 추출하는 것을 특징으로 하는 발화 인식 방법.
청구항 1에 있어서,

상기 사용자의 발화 시점에 대한 정보를 추출하는 단계는,

상기 적어도 하나의 센서로부터 상기 정보 처리 장치의 가속도, 기울기 및 흔들림 중 적어도 하나를 측정하여 상기 정보 처리 장치의 움직임을 인식함으로써 상기 사용자의 발화 시점에 대한 정보를 추출하는 것을 특징으로 하는 발화 인식 방법.
청구항 1에 있어서,

상기 발화 의도 모델은,

베이지안 네트워크(Bayesian Network) 및 은닉 마코프 모델(Hidden Markov Model) 중 적어도 하나를 포함하는 확률 기반의 모델 또는 기계 학습 기반의 분류기를 이용하여 상기 입력 데이터를 기계 학습함으로써 생성되는 것을 특징으로 하는 발화 인식 방법.
청구항 1에 있어서,

상기 사용자의 발화를 인식하는 단계는,

상기 녹음된 음향으로부터 음성 시작점 및 음성 종료점을 추출하고, 상기 추출된 음성 시작점을 기준으로 미리 설정한 설정 시간만큼 앞 시간부터, 상기 추출된 음성 종료점을 기준으로 상기 미리 설정한 설정 시간만큼 뒤 시간까지 상기 사용자의 발화를 인식하는 것을 특징으로 하는 발화 인식 방법.
적어도 하나의 센서를 이용하여, 사용자의 영상, 음향 및 정보 처리 장치의 움직임에 대한 정보 중 적어도 하나를 포함하는 입력 데이터를 수집하는 입력부;

상기 수집된 입력 데이터와 미리 설정된 발화 의도 모델을 비교하여, 상기 사용자의 발화 시점에 대한 정보를 추출하는 발화 시점 추출부; 및

상기 사용자의 발화 시점에 대한 정보를 기반으로 녹음된 음향에서 상기 사용자의 발화를 인식하는 발화 인식부를 포함하는 발화 인식 장치.
청구항 8에 있어서,

상기 입력부는,

상기 적어도 하나의 센서에서 수집된 사용자의 영상을 처리하여 상기 사용자의 발화 시점에 대한 정보를 추출하기 위한 사용자의 모션을 인식하는 영상 입력 모듈을 포함하는 것을 특징으로 하는 발화 인식 장치.
청구항 9에 있어서,

상기 영상 입력 모듈은,

상기 적어도 하나의 센서에서 수집된 사용자의 영상에서 사용자의 동공의 위치를 추출하여 상기 사용자의 동공이 일정 시간동안 상기 정보 처리 장치의 디스플레이 장치를 응시하는지 인식하는 것을 특징으로 하는 발화 인식 장치.
청구항 9에 있어서,

상기 영상 입력 모듈은,

상기 적어도 하나의 센서에서 수집된 사용자의 영상에서 사용자의 입 모양을 추출하여 상기 사용자의 입이 열려있는지를 인식하는 것을 특징으로 하는 발화 인식 장치.
청구항 8에 있어서,

상기 입력부는,

상기 적어도 하나의 센서로부터 상기 정보 처리 장치의 가속도, 기울기 및 흔들림 중 적어도 하나를 측정하여 상기 사용자의 발화 시점에 대한 정보를 추출하기 위한 상기 정보 처리 장치의 움직임을 인식하는 움직임 입력 모듈을 포함하는 것을 특징으로 하는 발화 인식 장치.
청구항 8에 있어서,

상기 입력부는,

상기 추출된 사용자의 발화 시점에 대한 정보를 기반으로 상기 적어도 하나의 센서를 이용하여 음향을 녹음하는 음향 입력 모듈을 포함하는 것을 특징으로 하는 발화 인식 장치.
청구항 13에 있어서,

상기 발화 인식부는,

상기 녹음된 음향으로부터 음성 시작점 및 음성 종료점을 추출하고, 상기 추출된 음성 시작점을 기준으로 미리 설정한 설정 시간만큼 앞 시간부터, 상기 추출된 음성 종료점을 기준으로 상기 미리 설정한 설정 시간만큼 뒤 시간까지 상기 사용자의 발화를 인식하는 것을 특징으로 하는 발화 인식 장치.
청구항 8에 있어서,

상기 발화 의도 모델은,

베이지안 네트워크(Bayesian Network) 및 은닉 마코프 모델(Hidden Markov Model) 중 적어도 하나를 포함하는 확률 기반의 모델 또는 기계 학습 기반의 분류기를 이용하여 상기 입력 데이터를 기계 학습함으로써 생성되는 것을 특징으로 하는 발화 인식 장치.
청구항 8에 있어서,

상기 적어도 하나의 센서는,

상기 정보 처리 장치에 탑재되어, 사용자의 영상을 획득할 수 있는 카메라, 음향을 획득할 수 있는 마이크 및 상기 정보 처리 장치의 움직임을 측정할 수 있는 가속도계, 자이로스코프 센서 및 근접 센서 중 적어도 하나를 포함하는 것을 특징으로 하는 발화 인식 장치.