KR100259523B1

KR100259523B1 - 음성인식방법

Info

Publication number: KR100259523B1
Application number: KR1019960073130A
Authority: KR
Inventors: 고영철
Original assignee: 정몽규; 현대자동차주식회사
Priority date: 1996-12-27
Filing date: 1996-12-27
Publication date: 2000-06-15
Also published as: KR19980054000A

Abstract

본 발명은 음성 인식 방법에 관한 것으로서, 음성 인식율을 향상시킬 수 있는 음성 인식 방법을 제공함에 있다.

상기한 목적을 실현하기 위하여 본 발명은 단어에 따른 스테이트값을 샘플링하여 음성을 인식하도륵 하는 음성 인식 방법에 있어서, 상기한 스테이트값을 샘플링할 때 입력 단어를 20∼30ms인 평균 분석 시간에 따라 프레임수로 분할하고, 상기한 프레임수에 1/2값이 되도록 스테이트값을 부여하는 것을 포함함을 특징으로 한다.

Description

음성 인식 방법

본 발명은 음성 인식 방법에 관한 것이다.

일반적으로, 차량에서의 음셩 인식은 운전자가 도어를 열 때, 도어 글래스를 개폐할 때 등 매우 단순한 부분에서 사용되고 있다.

상기한 음성 인식 방법은 HMM(Hidden Markov Model)등과 같은 여러 방법이 사용되고 있는 바, 상기한 방법중에서 샘플링할 때는 예를 들면, 우리말은 음소수로 분리하여 체크하거나, 모든 단어에 동일한 스테이트(STATE)값을 부여하는 방법이 사용되고 있다.

상기한 음소수 분리 방법은 예를 들어, 유리창 : ㅇ ++ ㄹ + ｜ + ㅊ ++ ㅇ으로 음소수를 분리하고, 상기한 각 음소에 3스테이트값을 부여하여 계산하게 되는바, 상기한 예는 21스테이트값을 가지게 되는 것이다.

또한, 모든 단어에 동일한 스테이트값을 부여하는 방법은 한 단어에 35스테이트로 고정하여 계산하게 되는 것인 바, 상기한 예는 35스테이트값을 가지게 되는 것이다.

그러나, 상기한 바와 같이 하나의 음소에 3스테이트값을 부여하는 방법이나 모든 단어에 35스테이트값을 부여하는 방법은 오차가 심해 정확한 음성 인식이 안되는 문제점이 있다.

따라서, 본 발명의 목적은 상기한 문제점을 해결하기 위한 것으로서, 음성 인식율을 향상시킬 수 있는 음성 인식 방법을 제공함에 있다.

상기한 목적을 실현하기 의하여 본 발명은 단어에 따른 스테이트값을 샘플링하여 음성을 인식하도록 하는 음성 인식 방법에 있어서, 상기한 스테이트값을 샘플링할 때 입력 단어를 20∼30ms인 평균 분석 시간에 따라 프레임수로 분할하고, 상기한 프레임수에 1/2값이 되도록 스테이트값을 부여하는 것을 포함함을 특징으로 한다.

도1은 본 발명과 종래 음성 인식 방법을 비교한 음성 인식율표.

도2는 도1에 따른 그래프.

도1과 도2는 본 발명에 따른 음성 인식 방법에서 종래 방법에 대한 음성 인식율을 도시한 표와 그래프로서, 차량의 시동을 오프시킨 상태, 아이들링 상태, 30Km/h 주행 상태, 60Km/h상태에서 하나의 음소에 3스테이트값을 부여하는 방법(이하, 제1방법)과, 한단어에 35스테이트값을 부여하는 방법(이하, 제2방법)과, 본 발명에 따라 입력 음성의 평군 분석 프레임(1프레임은 20∼30ms) 개수에 비례하도록 스테이트값을 부여하는 방법(이하, 제3방법)을 비교하고 있다.

즉, 본 발명에 따른 음성 인식 방법은 입력하는 음성의 시간에 따라 프레임수를 분할하고, 상기한 프레임수에 대응하도록 스테이트값을 부여함으르써 보다 정확한 음성 인식을 가능하게 하는 것이다.

예를 들면, "유리창"이란 단어를 발음할 때 1초라는 시간이 소요된다고 하면, 20ms로 가정한 상태에서 50프레임이 되는 바, 상기한 프레임은 도1에 나타난 바와 같이, 2프레임=1스테이트가 되기 때문에 상기한 단어의 스테이트값은 25스테이트가 되는 것이다.

물론, 상기한 바와 같이 단어의 스테이트값이 샘플링되면, 이를 통상적인 HMM 음성인식 방법에 적용함으로써, 정확한 음성 인식이 가능하도록 하는 바, 상기한 20∼30ms는 사람이 한 단어를 말하는 시간을 평균적인 테이터로 만들었을 때 얻어지는 값이다.

상기한 표와 그래프를 설명하면 차량의 시동을 오프시킨 상태에서 외부 소음이 없을 경우에 제1방법은 86.32, 제2방법은 92.77, 제3방법은 96.09의 음성 인식률을 얻을 수 있게 된다.

또한, 아이들링 상태에서는 엔진의 아이들링 소음이 있기 때문에 음성 인식율이 낮아지는 바, 제1방법은 74.06, 제2방법은 85.16, 제3방법은 88.20의 음성 인식율을 나타내게 된다.

즉, 외부 소음이 없을 경우와 소음이 있을 경우에도 본 발명에 따른 제3방법의 음성 인식율이 보다 효율적으로 음성을 인식할 수 있게 되는 것이다.

상기한 30, 60Km/h의 주행시에도 제1방법은 56.13, 41.68의 인식율을 나타내고, 제2방법은 65.81, 54.71의 인식율을 나타내며, 제3방법은 73.19, 63.65의 인식율을 나타냄으로써 외부 소음이 보다 커질 때에도 제3방법의 음성 인식률이 보다 우수하게 되는 것이다.

즉, 하나의 단어 또는 음소를 기준으로 음성 인식을 하는 것에 비해 발음 시간을 분할하여 인식함으로써 보다 정확한 음성 인식이 가능하게 되는 것이다.

이상과 같이 본 발명은 HMM등과 같은 음성 인식 방법에서, 입력 단어의 평균 분석 프레임 개수에 비례하도록 스테이트값을 부여하여 스테이트값을 샘플링함으로써, 음성 인식율을 향상시킬 수 있는 잇점이 있는 것이다.

Claims

(정정) 단어에 따른 스테이트값을 샘플링하여 음성을 인식하도록 하는 음성 인식방법에 있어서, 상기한 스데이트값을 샘플링할 때 입력 단어를 20∼30ms인 평균 분석 시간에 따라 프레임수로 분할하고, 상기한 프레임수에 1/2값이 되도록 스테이트값을 부여하는 것을 포함함을 특징으로 하는 음성 인식 방법.