KR100347790B1

KR100347790B1 - 명령어 갱신이 가능한 음성인식 방법 및 그 시스템

Info

Publication number: KR100347790B1
Application number: KR1020000073617A
Authority: KR
Inventors: 이윤근
Original assignee: (주) 보이스웨어
Priority date: 2000-12-06
Filing date: 2000-12-06
Publication date: 2002-08-07
Also published as: KR20020044629A

Abstract

본 발명은 음성인식 시스템에 관한 것으로 단말기에는 간단한 고정 단어 인식기를 탑재하고, 서버에 음성인식 단어 모델 생성기를 탑재하여 원하는 음성인식 대상 단어 모델을 서버에서 생성하여 단말기로 통신라인을 통해 전송함으로써 손쉽게 음성인식 대상 단어를 갱신할 수 있는 음성인식 방법 및 그 시스템에 관한 것이다. 또한 본 발명의 다른 태양에서는 단말기를 대신하는 중개수단이 서버와 통신을 대행하여 얻은 음성인식 단어 모델을 단말기에 전송할 수 있도록 구성되어질 수도 있다. 이렇게 구성하게 되면, 단말기 측에는 간단한 단어 인식기만을 탑재하면서도 음성인식 대상 단어를 수시로 갱신할 수 있는 기능을 제공함으로써 훈련 과정을 거쳐야 하는 기존의 화자 종속 인식기의 불편함을 없애면서도 대상 단어를 수시로 갱신할 수 있는 기능을 제공하여 사용상의 편리성을 증대할 수 있다.

Description

명령어 갱신이 가능한 음성인식 방법 및 그 시스템{Speech Recognition Method and System Which Have Command Updating Function}

발명의 분야

본 발명은 음성인식 방법 및 그 시스템에 관한 것이다. 보다 구체적으로 본 발명은 간단한 고정 단어 인식기를 단말기에 탑재하고, 음성인식 단어 모델 생성기를 서버에 탑재하여 원하는 음성인식 대상 단어 모델을 서버에서 단말기로 통신라인을 통해 전송함으로써 손쉽게 음성인식 대상 단어를 갱신할 수 있는 음성인식 방법 및 그 시스템에 관한 것이다.

발명의 배경

음성인식은 대상 화자에 따라 화자 종속 음성인식과 화자 독립 음성인식으로 분류된다. 기존의 음성인식 다이얼링을 제공하는 휴대폰과 같이 사용자가 미리 훈련을 한 후에 음성인식 기능을 제공하는 것이 화자 종속 인식 방식이다. 이 방식은 사용자가 원하는 대상단어로 훈련을 시킬 수 있으므로 음성 다이얼링 기능에 적합하다. 그러나 이 방식은 훈련 과정이 필요하다는 단점을 가지고 있다.

반면에, 화자 독립 음성인식의 경우 훈련 과정이 필요 없으므로 사용하기가 편리하다. 그리고 화자 독립 음성 인식기는 인식대상 단어가 고정되어 있는 고정단어 인식기와 인식대상 단어를 변경할 수 있는 가변어 인식기로 분류할 수 있다.

단말기 제어를 위한 명령어 등은 미리 정해진 단어로 고정시킬 수 있으나 이름에 의한 음성 다이얼링 기능을 구현한다거나 인식대상 단어를 사용자가 정의하고 싶은 경우에는 가변어 인식기를 사용하여야 한다.

그러나 가변어 인식기는 대체로 엔진 싸이즈가 크기 때문에 휴대폰, PDA, 장난감 등 다양한 종류의 단말기에는 탑재하기에 부적합하다.

이에 본 발명자는 간단한 고정 단어 인식기 형태를 가지며 인식대상 단어를 갱신할 수 있는 방법 및 그 시스템을 개발하게 된 것이다. 이 시스템은 단말기에 간단한 고정 단어 인식기를 탑재하며, 서버에 인식 단어 모델 생성기를 탑재하여 원하는 인식대상 단어 모델을 서버로부터 단말기로 통신라인을 통해 전송함으로써 손쉽게 인식대상 단어를 갱신할 수 있다.

본 발명의 목적은 간단한 고정 단어 인식기를 단말기에 탑재하면서도 인식대상 단어를 사용자가 변경할 수 있는 방법을 제공하기 위한 것이다.

본 발명의 다른 목적은 서비스와 연동되어 개인 주소록 등의 정보에 의해 사람 이름을 인식대상 단어에 자동 포함시킴으로써 사용자의 훈련 없이도 음성 다이얼링 방법을 제공하기 위한 것이다.

본 발명의 또 다른 목적은 단말기와 서버의 통신에 의해 다양한 정보 서비스를 단말기에 제공할 경우 이를 음성으로 제어하기 위하여 수시로 인식대상 단어를 변경할 수 있는 방법을 제공하기 위한 것이다.

본 발명의 상기 및 기타의 목적들은 하기 설명되는 본 발명에 의하여 모두 달성될 수 있다.

제1도는 본 발명에 따른 구성을 개략적으로 도시한 도면이다.

제2도는 본 발명에 따른 동작의 흐름을 도시한 플로우 챠트이다.

제3도는 서버의 가변어 인식기를 이용한 모델 생성기에서 음성인식 단어 모델을 생성하는 과정을 도시한 플로우 챠트이다.

제4도는 제3도에 따라 진행되는 단어모델이 생성되는 과정을 개념적으로 도시한 도면이다.

*도면의 주요부호에 대한 간단한 설명*

100 : 서버 101 : 모델 생성기

200 : 단말기 201 : 고정 단어 인식기

발명의 요약

본 발명은 명령어 갱신이 가능한 음성인식 방법 및 그 시스템에 관한 것으로 단말기에는 음성인식 대상 단어가 고정되는 화자 독립의 간단한 고정 단어 인식기를 탑재하고, 서버에는 음성인식 대상 단어를 변경할 수 있는 화자 독립의 가변어 인식기를 이용한 인식 단어 모델 생성기를 탑재하여 원하는 인식대상 단어 모델을 서버에서 단말기로 통신라인을 통해 전송함으로써 손쉽게 음성인식 대상 단어를 갱신할 수 있는 음성인식 방법 및 그 시스템에 관한 것이다. 또한 본 발명에서는 서버에서 직접 음성인식 대상 단어를 갱신할 수도 있다.

이하에서는 상기와 같은 방법 및 시스템이 포함되는 본 발명이 상세히 설명될 것이다.

발명의 상세한 설명

본 발명에서 단말기에는 화자 독립의 고정 단어 인식기가 탑재되며, 서버에는 가변어 인식기를 이용한 인식 단어 모델 생성기가 탑재된다. 또한 단말기와 서버는 통신라인을 통하여 음성인식 단어 모델을 비롯한 각종 데이터를 주고받을 수 있도록 한다.

그리고 사용자가 서버에서 음성인식 대상 단어를 정의하면 이 서버의 인식 단어 생성기에 의해 인식 단어 모델이 생성되고 이 데이터와 기타 서비스에 필요한 다른 정보들이 통신라인을 통하여 단말기로 전송되어 원하는 단어에 대한 음성 인식 서비스를 제공할 수 있도록 한다.

또한, 사용자가 단말기에서 음성인식 대상 단어를 정의하면 (예를 들어 핸드폰의 전화번호부 등) 인식대상 단어가 문자정보 형태로 서버에 전송되어 서버의 모델 생성기에 의해 인식 단어 모델이 생성되고, 이 데이터와 기타 서비스에 필요한 다른 정보들이 통신 채널을 통하여 단말기로 전송되어 단말기에 원하는 단어에 대한 음성 인식 서비스를 제공할 수 있도록 한다.

이하 첨부된 도면을 참고로 본 발명의 내용을 하기에 상세히 설명한다.

제1도는 본 발명의 개략적인 구성을 도시한 것으로, 서버(100)에는 모델 생성기(101)가, 단말기(200)에는 고정단어 인식기(201)가 탑재되어 있다. 또한 서버와 단말기는 통신라인을 통해 서로 접속될 수 있는 최소한의 환경을 구비하고 있다.

서버(100)는 단말기에 음성 인식을 이용한 다양한 서비스를 제공하기 위하여 운영된다. 이 서버는 단말기와의 통신 기능을 갖고 있으므로 단말기로부터 정보를 전송받을 수도 있으며 단말기로 필요한 데이터를 전송할 수도 있다.

상기 서버에는 가변어 인식기를 이용한 인식단어 모델 생성기(101)가 탑재되어 있다. 상기 모델 생성기(101)는 단말기에 필요한 음성 인식 기능을 지원하기 위해 음성인식 대상 단어에 대한 인식단어 모델을 생성하여 상기 단말기(200)로 전송한다.

상기 음성인식 대상 단어는 서버(100)에 탑재되는 사용자 인터페이스 프로그램을 이용하여 입력받을 수도 있으며, 단말기(200)에 탑재되는 사용자 인터페이스 프로그램을 이용하여 입력된 데이터를 상기 단말기로부터 전송받을 수도 있다.

인식대상 단어가 결정되면 서버의 모델 생성기(101)는 가변어 인식기를 이용하여 인식단어 모델을 생성한다. 상기 가변어 인식기를 이용하여 인식단어 모델을 생성하는 방법은 아래에서 설명하기로 한다. 모델 생성기(101)에서 생성된 모델은 단말기(200)로 전송되어 음성 인식 엔진과 연동하여 해당 단어에 대한 음성인식 기능을 수행한다.

단말기(200)에는 화자 독립 고정 단어 인식기(201)가 탑재되어 있다. 상기 고정 단어 인식기(201)는 가변어 인식기에 비해 프로그램 크기가 작으므로 저장용량이 적은 단말기(200)에 탑재하기가 용이하다. 이 고정 단어 인식기(201)는 정해진 대상 단어에 대하여 음성인식 기능을 실행한다. 인식대상 단어를 변경하고자 할 경우 단말기는 서버와의 통신에 의해 이를 실행한다. 단말기(200)는 인식대상 단어를 변경하기 위하여 서버로부터 인식단어 모델을 전송받는다. 전송받은 모델은 기존의 모델을 대체하여 단말기에 탑재된 후 인식기와 연동됨으로써 인식 대상 단어가 갱신된다.

이하에서는 본 발명의 바람직한 구체예를 들어 본 발명의 동작을 설명한다.

서버의 개인 주소록에 등록된 전화번호부를 이용해 휴대폰에서 음성인식 다이얼링 기능을 제공하는 경우에 사용자가 서버(100)의 개인 주소록에 새로운 사람의 전화번호를 입력하면 서버는 새로 등록된 이름에 해당하는 음성 모델을 자동으로 생성한다.

서버(100)는 생성된 음성 모델을 무선 데이터 통신 프로토콜에 의해 단말기(200)로 전송하며, 상기 단말기(200)는 전송되어 온 음성 모델을 단말기의단어 인식기(201)가 지정하는 특정 메모리에 저장한다. 이와 같이 되면 서버의 개인 주소록에 새로 등록된 이름이 단말기의 음성인식 다이얼링 대상 단어에 자동 등록이 되므로 필요시 그 사람의 이름을 말하면 자동으로 다이얼링이 가능하게 된다.

상기에서 구체예를 통해 설명한 것처럼 동작하는 본 발명의 흐름을 플로우 챠트를 가지고 설명하면 제2도에 도시된 바와 같이, 사용자가 단말기에서 사용자 인터페이스 프로그램을 통해 음성인식 대상 단어를 정의하거나(S10), 혹은 서버에서 음성인식 대상 단어를 정의할 수도 있다(S10＇).

상기 사용자의 요청 정보 즉, 음성인식 대상 단어에 대한 정보를 입력받은 서버는 이 서버에 탑재되어 있는 인식 단어 모델 생성기(101)에서 상기 사용자의 요청 정보를 처리하여 음성모델을 생성한다(S20). 서버는 상기 생성된 음성모델을 무선 데이터 통신 프로토콜로 변환하여 통신 라인을 통해 단말기(200)로 전송하고(S30), 단말기는 상기 음성모델 정보를 단말기에 탑재되어 있는 고정 단어 인식기가 지정하는 특정 메모리에 저장을 하게 된다(S40).

또는 상기 통신 라인을 통해 전송된 음성 모델은 단말기에서 기존 단어 모델을 대체하여 음성 인식 대상 단어를 갱신하여 저장될 수도 있다(S40＇).

상기의 구체예에 따른 본 발명에서는 서버와 단말기가 무선 환경에서의 통신라인을 통하여 직접 통신을 수행하는 경우를 예를 들어 설명을 한 것이며, 본 발명이 상기의 구체예에 따라 한정되는 것은 아니다.

본 발명의 다른 태양에서는 중개수단 예를 들면, 개인용 컴퓨터(personal computer)가 단말기를 대신하여 서버와 통신을 수행하며, 이 컴퓨터에 저장되는 음성인식 단어 모델을 단말기가 시리얼 포트(serial port), 패래럴 포트(parallel port), 서브 포트(SUB port)등을 통해 수신하게 된다.

이러한 경우의 동작 흐름은 상기에서 설명한 서버와 단말기간의 동작 흐름과 동일하나 컴퓨터에 저장된 음성인식 단어 모델을 다시 단말기로 포트를 통해 전송하는 새로운 단계를 더 포함하게 된다.

제3도는 서버의 가변어 인식기를 이용한 모델 생성기에서 인식단어 모델을 생성하는 과정을 플로우챠트로 도시한 것이며, 제4도는 음성인식 단어가 생성되는 과정을 개념적으로 보여주고 있다.

먼저 서버의 모델 생성기에서는 해당 언어의 모든 음소가 포함되어 있는 단어(PBW : Phoneme Balanced Word) 셋(set)을 만든다(S100).

상기 단계에서 생성된 PBW 셋을 많은 (수백 또는 수천명) 사람들이 발성한 음성 데이터를 수집한다(S200).

상기 단계에서 수집한 음성 데이터를 각 음소 단위로 레이블링을 한다(S300).

상기 단계를 통해 레이블링된 음성 데이터를 짧은 시간구간(frame)으로 나누어 각 구간마다 스펙트럼 분석을 하여 음성의 특징(feature) 추출을 하면 각각의 음소는 특징(feature) 벡터의 열로 나타내어진다(S400). 각각의 다른 발음의 음소들은 독특한 스펙트럼 특징을 가지고 있으며 동일한 음소들은 비슷한 스펙트럼 특징을 가지고 있으므로 이러한 특징은 음성인식에 이용된다.

음성 데이터에 포함되어 있는 같은 음소를 모아 HMM(Hidden Markov Model)훈련을 거친다(S500). HMM은 여러 개의 상태(state)로 구성되어 있는 확률적 모델로써 각 음소마다 다른 HMM이 발생된다. HMM의 각 상태는 시간 정보를 가지며, 각 상태마다 특정한 특징(feature) 벡터의 출력 확률을 갖는다. 따라서 각 음소의 HMM에는 그 음소의 시간에 따른 주파수 특성이 나타나 있다.

이후 임의의 단어 모델을 만들려면 그 단어를 구성하고 있는 음소들의 HMM을 연결시킨다(S600).

그리고 음성 인식시에는 입력된 음성으로부터 상기 S400단계에서 설명한 바와 같이 음성 특징 벡터열을 추출하고, 이 벡터열을 이용하여 모든 대상 단어의 HMM과 입력된 음성 특징 벡터열과의 유사도(likelihood)을 측정하여 가장 유사도가 높은 것을 인식 결과로 결정한다(S700).

본 발명에 따르면, 서버에서 인식대상 단어의 모델을 생성하여 단말기로 전송함으로써 단말기 측에는 간단한 단어 인식기만을 탑재하면서도 인식 대상 단어를 수시로 갱신할 수 있는 기능을 제공함으로써 기존의 화자 종속 인식기의 불편함(훈련 과정)을 없애면서도 대상 단어를 수시로 갱신할 수 있는 기능을 제공하여 사용상의 편리성을 증대할 수 있는 발명의 효과를 갖는다.

본 발명의 단순한 변형 내지 변경은 이 분야의 통상의 지식을 가진 자에 의하여 용이하게 이용될 수 있으며, 이러한 변형이나 변경은 모두 본 발명의 영역에포함되는 것으로 볼 수 있다.

Claims

사용자가 단말기에서 사용자 인터페이스 프로그램을 통해 음성인식 대상 단어를 정의하여 요청정보를 서버로 전송하고;

상기 서버에서는 사용자의 상기 요청 정보를 처리하여 인식 단어 모델 생성기에 의해서 음성인식 단어 모델을 생성하고;

상기 생성된 음성인식 단어 모델 정보가 데이터 통신 프로토콜로 변환되어 통신 라인을 통해 상기 사용자의 단말기로 전송되고; 그리고

상기 단말기에서는 상기 서버로부터 전송된 음성인식 단어 모델 정보를 입력받아 이 단말기의 사용자 인터페이스 프로그램이 지정하는 특정메모리에 음성인식 단어 모델을 저장하는;

단계로 이루어지는 것을 특징으로 하는 음성 인식 방법.
제1항에 있어서, 상기 사용자의 요청 정보는 문자 정보인 것을 특징으로 하는 음성 인식 방법.
사용자가 서버에서 사용자 인터페이스 프로그램을 통해 음성인식 대상 단어를 정의하고;

상기 서버에서는 상기 사용자의 요청 정보를 처리하여 인식 단어 모델 생성기에 의해서 음성인식 단어 모델을 생성하고;

상기 생성된 음성인식 단어 모델 정보가 데이터 통신 프로토콜로 변환되어 통신 라인을 통해 상기 사용자의 단말기로 전송되고; 그리고

상기 단말기에서는 상기 서버로부터 전송된 음성인식 단어 모델 정보를 입력받아 이 단말기의 사용자 인터페이스 프로그램이 지정하는 특정메모리에 음성인식 단어 모델을 저장하는;

단계로 이루어지는 것을 특징으로 하는 음성 인식 방법.
제1항 또는 제3항에 있어서, 상기 음성인식 단어 모델을 저장하는 단계는 상기 통신 라인을 통해 전송된 음성인식 단어 모델 정보가 단말기에서의 기존 단어 모델을 대체하여 음성인식 대상 단어를 갱신하며, 고정단어 인식기에 의하여 음성인식 서비스를 제공하는 것을 특징으로 하는 음성인식 방법.
제1항 또는 제3항에 있어서, 상기 서버에서 음성인식 모델을 생성하는 방법은 은닉 마콥 모델(Hidden Markov Model)인 것을 특징으로 하는 음성인식 방법.
음성인식 대상 단어가 고정되는 화자 독립의 고정단어 인식기를 탑재하고 있는 단말기; 및

음성인식 대상 단어를 변경할 수 있는 화자 독립의 가변어 인식기를 이용한 모델 생성기를 탑재하고, 상기 단말기에서 요청하는 정보를 처리하는 서버;

로 이루어지며, 상기 단말기와 서버는 통신라인을 통해 연결되어 인식 대상 단어를 갱신할 수 있도록 구성되는 것을 특징으로 하는 시스템.
제6항에 있어서, 상기 서버에 통신라인을 통해 연결되고, 상기 단말기에는 포트(port)를 통해 연결되어 상기 서버로 요청정보를 보내어 상기 서버에서 처리된 요청정보를 수신해 상기 단말기로 포트를 통해 전송하는 중개수단을 더 구비하여 구성되는 것을 특징으로 하는 시스템.
제6항에 있어서, 상기 서버는 이 서버에 탑재되는 인터페이스 프로그램을 통해 음성인식 대상 단어를 직접 입력받는 것을 특징으로 하는 시스템.
제6항에 있어서, 상기 단말기는 기존 단어 모델을 상기 서버에서 생성된 음성인식 단어모델로 대체하여 음성인식 대상 단어를 갱신하는 것을 특징으로 하는시스템.