KR20010026288A

KR20010026288A - 유사 음소에 기반한 화자 종속형 음성 인식 장치 및 그 방법

Info

Publication number: KR20010026288A
Application number: KR1019990037534A
Authority: KR
Inventors: 이봉우; 권오일
Original assignee: 윤장진; 주식회사 현대오토넷
Priority date: 1999-09-04
Filing date: 1999-09-04
Publication date: 2001-04-06
Also published as: KR100358992B1

Abstract

본 발명은 유사 음소에 기반한 화자 종속형 음성 인식 장치 및 그 방법에 관한 것이다.

본 발명은 텍스트 입력기(10)와, 음성 입력기(20)와, 유사 음소(PLU)를 저장하는 ROM(30)과, ROM(30)의 유사 음소(PLU)를 연결하여 만든 웨이브 파일을 이용하여 생성하는 단어 모델을 저장하는 RAM(40)과, 입력 텍스트에 포함되는 단어에 대응하는 ROM(30)의 유사 음소(PLU)를 연결하여 단어에 대한 특징 벡터를 추출하므로써 웨이브 파일을 만들고, 웨이브 파일을 이용하여 대표 벡터를 가지는 단어 모델을 생성하여 등록하며, 음성 입력 시에 입력 음성 데이터의 특징 벡터를 추출한 후, 음성 데이터의 특징 벡터와 RAM(40)에 등록된 단어 모델의 대표 벡터를 매칭시켜 음성 데이터와 단어 모델의 거리를 측정한 결과, 최소 거리값을 가지는 단어 모델을 추출하여 음성 인식 결과로 출력하는 CPU(50), 및 CPU(50)의 출력 단어에 따라서 목표물의 작동을 제어하는 목표 컨트롤러(60)로 구성되며,

이에 따라서, 사용자의 음성을 입력받아 단어 모델을 등록하지 않더라도 간단하고 용이하게 단어를 등록할 수 있다.

Description

유사 음소에 기반한 화자 종속형 음성 인식 장치 및 그 방법 { VOICE RECOGNITION APPARATUS DEPENDED ON SPEAKERS FOR BEING BASED ON THE PHONEME LIKE UNIT AND THE METHOD }

본 발명은 음성 인식 장치에 관한 것이며, 보다 상세히는 유사 음소에 기반한 화자 종속형 음성 인식 장치 및 그 방법에 관한 것이다.

종래의 화자 종속형 음성 인식 장치는 사용자에게서 직접 단어 인식에 필요한 단어 전체를 입력받아 단어 모델을 생성한 후, 음성 입력 시에 해당 단어를 인식한 결과에 따라서 소정의 목표 컨트롤러(예컨대, 핸드폰의 다이얼링 컨트롤러)에 인식된 단어를 전송하도록 되어 있다.

그러나, 상기와 같은 종래의 화자 종속형 음성 인식 장치는 반드시 사용자의 개입이 필요하므로 사용자에 대한 편의성이 떨어지고, 특히 단어 모델을 유지하기 위하여 많은 단어를 메모리에 등록시키면 그 만큼 기억 용량이 증가하는 단점이 있으며, 이로 인해 모빌 컴퓨터(예컨대, 노트북, 랩탑, PDA 등)에 활발하게 적용되지 못하는 문제점이 있다.

따라서, 본 발명은 상술한 종래의 문제점을 극복하기 위한 것으로서, 본 발명의 목적은 등록하려는 단어를 텍스트로 입력받고, 메모리에 미리 구축한 유사 음소(Phoneme Like Unit; 이하 PLU라 한다)를 연결하여 만든 해당 단어의 웨이브 파일을 이용하여 소정의 단어 모델을 생성하도록 된 유사 음소에 기반한 화자 종속형 음성 인식 장치 및 그 방법을 제공하는데 있다.

상기 본 발명의 목적을 달성하기 위한 유사 음소에 기반한 화자 종속형 음성 인식 장치는 음성을 인식하기 위하여 등록하려고 하는 단어를 텍스트로 입력받는 텍스트 입력기와, 화자의 음성을 입력받는 음성 입력기와, 음성 인식용 웨이브 파일을 생성하기 위한 유사 음소(PLU)를 저장하는 ROM과, 상기 ROM의 유사 음소(PLU)를 연결하여 만든 소정의 단어에 대한 웨이브 파일을 이용하여 생성하는 소정의 단어 모델을 저장하는 RAM과, 입력 텍스트에 포함되는 단어에 대응하는 상기 ROM의 유사 음소(PLU)를 연결하여 소정의 단어에 대한 특징 벡터를 추출하므로써 웨이브 파일을 만들고, 상기 웨이브 파일을 이용하여 소정의 대표 벡터를 가지는 단어 모델을 생성한 후 상기 RAM에 등록하며, 화자의 음성 입력 시에 입력 음성 데이터의 특징 벡터를 추출한 후, 상기 음성 데이터의 특징 벡터와 상기 RAM에 등록되어 있는 단어 모델의 대표 벡터를 매칭시켜 음성 데이터와 단어 모델의 거리를 측정한 결과, 최소 거리값을 가지는 단어 모델을 추출하여 음성 인식 결과로 출력하는 CPU, 및 상기 CPU가 화자의 음성을 인식하여 출력하는 단어에 따라서 소정의 목표물의 작동을 제어하는 목표 컨트롤러로 구성된다.

이에 따라서, 본 발명의 유사 음소에 기반한 화자 종속형 음성 인식 장치는 사용자의 음성을 입력받아 단어 모델을 등록하지 않더라도 간단하고 용이하게 단어를 등록할 수 있으며, 단어 모델을 쉽게 생성할 수 있으므로 많은 단어 모델을 저장하기 위한 메모리 공간이 필요없게 된다.

도 1은 본 발명에 따른 유사 음소에 기반한 화자 종속형 음성 인식 장치를 도시한 구성도,

도 2는 본 발명에 따른 유사 음소에 기반한 화자 종속형 음성 인식 장치의 단어 등록 과정을 도시한 플로차트,

도 3은 본 발명에 따른 유사 음소에 기반한 화자 종속형 음성 인식 장치의 단어 인식 과정을 도시한 플로차트,

도 4는 본 발명에 따른 유사 음소에 기반한 화자 종속형 음성 인식 장치의 웨이브 파일의 파형과 화자의 음성 파형을 도시한 파형도이다.

＜도면의 주요 부분에 대한 부호의 설명＞

10: 텍스트 입력기 20: 음성 입력기

30: ROM 40: RAM

50: CPU 60: 목표 컨트롤러

이하, 본 발명의 실시예를 첨부한 도면을 참조하여 상세히 설명하기로 한다.

도 1을 참조하면, 텍스트 입력기(10)는 음성을 인식하기 위하여 등록하려고 하는 단어를 텍스트로 입력받는다.

음성 입력기(20)는 화자의 음성을 입력받는다.

ROM(30)은 음성 인식용 웨이브 파일을 생성하기 위한 유사 음소(PLU)를 저장한다.

상기 ROM(30)에는 한글 단어를 초성, 중성, 종성으로 구분하여 총 46개의 유사 음소(PLU)가 저장된다.

상기 유사 음소(PLU)는 "ㅃ, ㄸ, ㅔ(ㅐ), ㄲ, 종성 ㅇ, ㅆ, 묵음, ㅡ, ㅓ, ㅉ, ㅏ, ㅂ, 유성음화 ㅂ(예컨대, 아버지의 ㅂ), 불파음화 ㅂ, ㅊ, ㄷ, 유성음화 ㄷ, 불파음화 ㄷ, 받침 ㄱ, 유성음화 ㄱ, 불파음화 ㄱ, ㅎ, 유성음화 ㅎ, ㅣ, ㅑ, ㅒ(ㅖ), ㅛ, ㅠ, ㅕ, ㅋ, 받침 ㄹ, ㅁ, ㄴ, ㅗ, ㅍ, 초성 ㄹ, ㅅ, ㅌ, ㅜ, ㅓ, ㅚ(ㅞ,ㅙ), ㅘ, ㅟ, ㅝ, ㅈ, 유성음화 ㅈ" 으로 구성된다.

RAM(40)은 상기 ROM(30)의 유사 음소(PLU)를 연결하여 만든 소정의 단어에 대한 웨이브 파일을 이용하여 생성하는 소정의 단어 모델을 저장한다.

CPU(50)는 입력 텍스트에 포함되는 단어에 대응하는 상기 ROM(30)의 유사 음소(PLU)를 연결하여 소정의 단어에 대한 특징 벡터를 추출하므로써 웨이브 파일을 만들고, 상기 웨이브 파일을 이용하여 소정의 대표 벡터를 가지는 단어 모델을 생성한 후 상기 RAM(40)에 등록한다.

상기 CPU(50)는 화자의 음성 입력 시에 입력 음성 데이터의 특징 벡터를 추출한 후, 상기 음성 데이터의 특징 벡터와 상기 RAM(40)에 등록되어 있는 단어 모델의 대표 벡터를 매칭시켜 음성 데이터와 단어 모델의 거리를 측정한 결과, 최소 거리값을 가지는 단어 모델을 추출하여 음성 인식 결과로 출력한다.

목표 컨트롤러(60)는 상기 CPU(50)가 화자의 음성을 인식하여 출력하는 단어에 따라서 소정의 목표물(예컨대, 핸드폰 다이얼 장치)의 작동을 제어한다.

상기와 같은 구성에 의해서 본 발명에 따른 유사 음소에 기반한 화자 종속형 음성 인식 장치는 다음과 같이 작동한다.

본 발명에 따른 유사 음소에 기반한 화자 종속형 음성 인식 장치는 기본적으로 단어 등록 과정과 단어 인식 과정을 수행한다.

먼저, 도 2를 참조하여 단어 등록 과정을 설명하면 다음과 같다.

상기 CPU(50)는 상기 텍스트 입력기(10)를 통해 등록시키기 위한 단어를 포함하는 텍스트가 입력되면(S10), 상기 ROM(30)에 저장되어 있는 유사 음소(PLU) 중에서 상기 텍스트에 대응하는 유사 음소(PLU)를 추출한다(S11).

또한, 상기와 같이 입력 텍스트에 대응하는 소정의 유사 음소(PLU)가 추출되면, 상기 CPU(50)는 추출된 소정의 유사 음소(PLU)를 연결하여 소정의 웨이브 파일을 만든다(S12).

이어서, 상기 CPU(50)는 상기 웨이브 파일에 대해 VMS-VQ(Variable multi section-vector quantization) 알고리즘을 적용하여 특징 벡터를 추출하고(S13), 상기 특징 벡터를 분류하여 소정의 벡터군을 생성한다(S14).

상기와 같이, 소정의 벡터군이 생성되면 최종적으로 상기 CPU(50)는 상기 벡터군에 대해 MKM(Modified K-means) 클러스터링 알고리즘을 적용하여 대표 벡터를 추출하고(S15), 소정의 단어 모델을 생성하여 상기 RAM(40)에 저장한다(S16). 이때, 상기 대표 벡터를 추출하기 위하여 생성한 웨이브 파일은 삭제된다.

특히, 본 발명에 따른 유사 음소에 기반한 화자 종속형 음성 인식 장치는 상기와 같은 단어 등록 과정에 있어서, 상기 ROM(30)에 저장되어 있는 유사 음소(PLU)를 이용하여 단어 모델을 생성하도록 되어 있으므로, 상기 유사 음소(PLU)의 DB를 저장하는 ROM(30)의 메모리 공간만 확보해 놓으면 무제한적으로 다양한 단어 모델을 생성하여 상기 RAM(40)에 등록할 수 있다.

상기와 같이 단어 등록 과정이 완료된 상태에서 화자의 음성이 상기 음성 입력기(20)를 통해 입력되면 본 발명에 따른 유사 음소에 기반한 화자 종속형 음성 인식 장치는 단어 인식 과정을 수행한다.

도 3을 참조하여 단어 인식 과정을 설명하면 다음과 같다.

상기 CPU(50)는 상기 음성 입력기(20)를 통해 화자의 음성이 입력되면(S20), 입력 음성의 엔드 포인트, 즉 시작점과 종료점을 검출하여 음성 인식에 필요한 음성 데이터만을 추출한다(S21).

또한, 상기와 같이 소정의 음성 데이터가 추출되면, 상기 CPU(50)는 추출된 상기 음성 데이터에 대한 특징 벡터를 추출한다(S22).

이어서, 상기 음성 데이터에 대한 특징 벡터가 추출되면, 상기 CPU(50)는 상기 음성 데이터의 특징 벡터와 상기 RAM(40)에 등록되어 있는 단어 모델의 대표 벡터에 대해 VMS-VQ 알고리즘을 적용하여, 상기 음성 데이터의 특징 벡터와 상기 RAM(40)에 등록되어 있는 단어 모델의 대표 벡터를 서로 매칭시켜 음성 데이터와 단어 모델의 거리를 측정하고, 측정 결과 최소 거리값을 가지는 단어 모델을 화자의 음성에 대한 인식 단어로 추출한다(S23).

상기와 같이, 소정의 단어 모델, 즉 상기 최소 거리값을 가지는 단어 모델이 추출되면, 상기 CPU(50)는 상기 최소 거리값을 가지는 단어 모델을 음성 인식 결과로 출력하여 상기 목표 컨트롤러(60)로 인가시키며(S24), 이에 따라서 목표 컨트롤러(60)는 상기 CPU(50)가 화자의 음성을 인식하여 출력하는 단어에 따라서 소정의 목표물(예컨대, 핸드폰 다이얼 장치)의 작동을 제어한다.

참고로, 본 발명에 따른 유사 음소에 기반한 화자 종속형 음성 인식 장치에 있어서, "어머니"라는 단어를 상기 RAM(40)에 등록한 후, 화자가 "어머니"라는 음성을 상기 음성 입력기(20)를 통해 상기 CPU(50)로 인가시킬 때, 단어 등록 과정에서 생성되는 상기 "어머니"라는 단어의 대표 벡터를 추출하기 위한 웨이브 파일의 파형은 도 4의 (가)에 도시된 바와 같이 나타나며, 화자가 입력하는 "어머니"라는 단의 음성 파형은 도 4의 (나)에 도시된 바와 같이 나타난다.

도 4에 도시된 파형을 비교해 보면, 실제로 상기 ROM(30)에 저장되는 유소 음소(PLU)를 연결하여 만든 웨이브 파일의 파형과 화자의 음성 파형이 유사함을 알 수 있으며, 이에 따라서 본 발명에 따른 유사 음소에 기반한 화자 종속형 음성 인식 장치가 정확한 음성 인식 기능을 수행할 수 있음을 알 수 있다.

상술한 바와 같이 본 발명에 따른 유사 음소에 기반한 화자 종속형 음성 인식 장치 및 그 방법은 등록하려는 단어를 텍스트로 입력받고, 메모리에 미리 구축한 유사 음소(PLU)를 연결하여 만든 해당 단어의 웨이브 파일을 이용하여 소정의 단어 모델을 생성하도록 되어 있기 때문에, 사용자의 음성을 입력받아 단어 모델을 등록하지 않더라도 간단하고 용이하게 단어를 등록할 수 있으며, 단어 모델을 쉽게 생성할 수 있으므로 많은 단어 모델을 저장하기 위한 메모리 공간이 필요없게 되는 효과가 있다.

이상에서 설명한 것은 본 발명에 따른 유사 음소에 기반한 화자 종속형 음성 인식 장치 및 방법을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기한 실시예에 한정되지 않고, 이하의 특허청구의 범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능할 것이다.

Claims

음성을 인식하기 위하여 등록하려고 하는 단어를 텍스트로 입력받는 텍스트 입력기(10)와,

화자의 음성을 입력받는 음성 입력기(20)와,

음성 인식용 웨이브 파일을 생성하기 위한 유사 음소(PLU)를 저장하는 ROM(30)과,

상기 ROM(30)의 유사 음소(PLU)를 연결하여 만든 소정의 단어에 대한 웨이브 파일을 이용하여 생성하는 소정의 단어 모델을 저장하는 RAM(40)과,

입력 텍스트에 포함되는 단어에 대응하는 상기 ROM(30)의 유사 음소(PLU)를 연결하여 소정의 단어에 대한 특징 벡터를 추출하므로써 웨이브 파일을 만들고, 상기 웨이브 파일을 이용하여 소정의 대표 벡터를 가지는 단어 모델을 생성한 후 상기 RAM(40)에 등록하며, 화자의 음성 입력 시에 입력 음성 데이터의 특징 벡터를 추출한 후, 상기 음성 데이터의 특징 벡터와 상기 RAM(40)에 등록되어 있는 단어 모델의 대표 벡터를 매칭시켜 음성 데이터와 단어 모델의 거리를 측정한 결과, 최소 거리값을 가지는 단어 모델을 추출하여 음성 인식 결과로 출력하는 CPU(50), 및

상기 CPU(50)가 화자의 음성을 인식하여 출력하는 단어에 따라서 소정의 목표물의 작동을 제어하는 목표 컨트롤러(60)

로 구성되는 것을 특징으로 하는 유사 음소에 기반한 화자 종속형 음성 인식 장치.
유사 음소에 기반한 화자 종속형 음성 인식 장치에 있어서, 상기 CPU(50)의 단어 등록 과정은

상기 텍스트 입력기(10)를 통해 등록시키기 위한 단어를 포함하는 텍스트가 입력되면(S10), 상기 ROM(30)에 저장되어 있는 유사 음소(PLU) 중에서 상기 텍스트에 대응하는 유사 음소(PLU)를 추출하는 단계(S11)와,

추출된 소정의 유사 음소(PLU)를 연결하여 소정의 웨이브 파일을 만드는 단계(S12)와,

상기 웨이브 파일에 대해 VMS-VQ 알고리즘을 적용하여 특징 벡터를 추출하고(S13), 상기 특징 벡터를 분류하여 소정의 벡터군을 생성하는 단계(S14), 및

상기 벡터군에 대해 MKM 클러스터링 알고리즘을 적용하여 대표 벡터를 추출하고(S15), 소정의 단어 모델을 생성하여 상기 RAM(40)에 저장하는 단계(S16)

로 이루어진 것을 특징으로 하는 유사 음소에 기반한 화자 종속형 음성 인식 방법.
유사 음소에 기반한 화자 종속형 음성 인식 장치에 있어서, 상기 CPU(50)의 단어 인식 과정은

상기 음성 입력기(20)를 통해 화자의 음성이 입력되면(S20), 입력 음성의 엔드 포인트를 검출하여 음성 데이터만을 추출하는 단계(S21)와,

추출된 상기 음성 데이터에 대한 특징 벡터를 추출하는 단계(S22)와,

상기 음성 데이터의 특징 벡터와 상기 RAM(40)에 등록되어 있는 단어 모델의 대표 벡터에 대해 VMS-VQ 알고리즘을 적용하여, 상기 음성 데이터의 특징 벡터와 상기 RAM(40)에 등록되어 있는 단어 모델의 대표 벡터를 매칭시켜 음성 데이터와 단어 모델의 거리를 측정한 결과, 최소 거리값을 가지는 단어 모델을 추출하는 단계(S23), 및

상기 최소 거리값을 가지는 단어 모델을 음성 인식 결과로 출력하여 상기 목표 컨트롤러(60)로 인가시키는 단계(S24)

로 이루어진 것을 특징으로 하는 유사 음소에 기반한 화자 종속형 음성 인식 방법.