KR100382473B1

KR100382473B1 - 음성 인식 방법

Info

Publication number: KR100382473B1
Application number: KR10-1999-0003981A
Authority: KR
Inventors: 박익현
Original assignee: 엘지전자 주식회사
Priority date: 1999-02-05
Filing date: 1999-02-05
Publication date: 2003-05-01
Also published as: KR20000055394A

Abstract

음성 인식 방법에 관한 것으로, 특히 주변 잡음이나 사용자의 인지 부족으로 인한 비등록 단어의 발성으로부터 생길 수 있는 사용자가 원하지 않는 불필요한 시스템 동작을 줄이고 사용자의 편의를 제공하기에 적당하도록 한 음성 인식 방법에 관한 것이다. 이와 같은 음성 인식 방법은 인식대상 단어 훈련용 데이터를 준비하는 단계, 상기 훈련용 데이터로부터 임의의 인식대상 단어의 길이에 대한 통계치를 추출하는 단계, 상기 훈련용 데이터를 가지고 상기 인식대상 단어의 특징을 추출하여 각 인식 대상 단어의 단어 모델을 훈련을 통해 작성하는 단계, 잡음 모델 훈련용 데이터를 이용하여 잡음 모델의 특징을 추출하여 상기 잡음 단어 모델을 작성하는 단계, 상기 인식단어 훈련용 데이터에 대한 각 단어의 확률값과 잡음 모델의 확률값을 구하는 단계, 상기 인식 단어 훈련용 데이터에 대한 각 단어의 확률값과 잡음 모델의 확률값이 인식된 경우에 한하여 상기 확률값의 차의 인식 대상 단어 확률값에 대한 비를 통계치로 구하여 평균과 표준 편차를 계산하는 단계로 이루어진다.

Description

음성 인식 방법{Speech recognition method}

본 발명은 음성 인식 방법에 관한 것으로, 특히 주변 잡음이나 사용자의 인지 부족으로 인한 비등록 단어의 발성으로부터 생길 수 있는 사용자가 원하지 않는 불필요한 시스템 동작을 줄이고 사용자의 편의를 제공하기에 적당하도록 한 음성 인식 방법에 관한 것이다. -

음성 인식(Speech recognition, Voice recognition)은 자동적 수단에 의하여 음성으로부터 언어적 의미내용을 식별하는 것으로 구체적으로는 음성 파형을 입력하여 단어나 단어열을 식별하고 의미를 추출하는 처리과정이며, 이것은 크게, 음성 분석, 음소 인식, 단어 인식, 문장 해석 및 의미 추출의 다섯 가지로 분류된다.

좁은 의미로는 음성 분석에서 단어 인식까지를 음성 인식이라고 하는 일이많다.

일반적으로 전화에 의한 은행 잔고 조회, 증권 시세 조회, 통신 판매의 신청, 신용 카드 조회, 호텔이나 항공기 좌석 예약 등에 사용되고 있다.

이들 서비스는 제한된 수의 단어를 하나 하나 떼어서 발음하는 음성 인식하는 고립 단어 음성 인식 장치를 사용하는 것이다.

이와 같은 음성 인식의 궁극적인 목표는 자연스러운 발성에 의한 음성을 인식하여 실행 명령어로서 받아들이거나 자료로서 문서에 입력하는 완전한 음성-텍스트 변환의 실현에 있다.

그리고, 음성 인식 시스템(Speech recognition system, Voice recognition system)은 음성 신호를 입력으로 하여 자동적으로 언어적 의미 내용을 인식하는 하드웨어 또는 소프트웨어 장치나 시스템으로 음성 인식 시스템은 크게 고립 단어 음성 인식 시스템(isolated word recognition system), 연속어 음성 인식 시스템(Continuous word recognition system) 및 화자 인식 시스템(Speaker recognition system)으로 분류된다.

이중에서 고립 단어 음성 인식 시스템과 연속어 음성 인식 시스템은 컴퓨터에 음성으로 명령을 내리거나 정보를 입력하는 좁은 의미의 음성 인식 시스템이라고 하는 경우가 많다.

현재 고립 단어 음성 인식 장치나 시스템은 이미 개발되어 일부 제품이 판매되고 있다.

종래의 고립 단어 음성인식 시스템의 비인식 단어에 대한 거부 방법은 다음과 같이 구성된다.

우선, 인식단어 훈련용 데이터를 통해 각 인식대상 단어들의 발성 길이에 대한 통계치와 잡음 모델과의 확률차에 대한 통계치를 추출하여 비인식 단어 거부에 필요한 파라미터 값을 구하는 훈련과정과, 임의의 입력음성에 대해서 거부(Rejection)할 것인지, 거부하지 않을 것인지를 정하는 인식 과정으로 나뉜다.

훈련과정을 살펴보면 인식단어 훈련용 데이터를 가지고 특징을 추출하고 각 인식대상 단어의 단어모델을 작성한다.

동시에 잡음모델 훈련용 데이터를 가지고 특징을 추출하고 잡음에 대한 단어 모델을 작성한다.

다음 인식단어 훈련용 데이터에 대해 정답이 되는 인식단어 모델의 확률값과 잡음 모델의 확률값을 추출하여 그 차에 대한 평균 및 표준 편차를 구한다.

각 인식대상단어의 발성길이에 대한 통계치는 인식단어 훈련용 데이터로부터 바로 구한다.

인식과정에서는 임의의 입력음성에 대해 특징을 추출하고 인식대상 단어중 최고의 인식 확률값을 내는 단어의 확률값과 잡음 모델에 대한 확률값의 차가 특정 기준치 이상 나지 않으면 잡음이라고 판단하여 거부하며 기준치 이상 나면 정상적인 인식 결과로서 보고한다. 이때, 특정 기준치는 훈련 과정에서 실험적으로 결정된다.

이와 같은 종래 단어 음성 인식에 있어서는 다음과 같은 문제점이 있었다.

음성인식 방법에 있어서, 입력음성의 길이가 길면 입력되는 음성 인식 확률값은 작아지게 된다. 그와 같은 이유는 1보다 작은 확률값을 자꾸 곱하게 되기 때문인 것으로 대체로 인식단어의 확률값과 잡음모델의 확률값간의 차이도 더 커진다. 그런데 단순히 인식단어의 확률값과 잡음 모델의 확률값의 차에 대한 통계치(평균, 표준편차)를 가지고 인식단어의 거부 여부를 결정할 경우 전반적인 확률값의 변동 요인을 잘 반영할 수 없으므로 적절한 거부 기능을 수행하기 어려운 문제가 있으므로 사용자가 원하지 않는 불필요한 시스템 동작이 발생할 가능성이 있었다.

본 발명의 목적은 상기한 바와 같은 종래 고립단어 음성 인식 방법의 문제점들을 해결하기 위하여 안출한 것으로 고립단어 음성인식 시스템의 비인식 대상 단어 거부시 주변 잡음이나 사용자의 인지 부족으로 인한 비등록 단어의 발성으로 발생할 수 있는 불필요한 시스템 동작을 방지할 수 있는 음성 인식 방법을 제공하는데 있다.

이와 같은 목적을 달성하기 위한 본 발명의 특징에 따르면, 인식대상 단어 훈련용 데이터를 준비하는 단계, 상기 훈련용 데이터로부터 임의의 인식대상 단어의 길이에 대한 통계치를 추출하는 단계, 상기 훈련용 데이터를 가지고 상기 인식대상 단어의 특징을 추출하여 각 인식 대상 단어의 단어 모델을 훈련을 통해 작성하는 단계, 잡음 모델 훈련용 데이터를 이용하여 잡음 모델의 특징을 추출하여 상기 잡음 단어 모델을 작성하는 단계, 상기 인식단어 훈련용 데이터에 대한 각 단어의 확률값과 잡음 모델의 확률값을 구하는 단계, 상기 인식 단어 훈련용 데이터에 대한 각 단어의 확률값과 잡음 모델의 확률값이 인식된 경우에 한하여 상기 확률값의 차의 인식 대상 단어 확률값에 대한 비를 통계치로 구하여 평균과 표준 편차를 계산하는 단계로 이루어진다.

도 1은 본 발명 고립단어 음성 인식 시스템의 음성 인식 훈련도를 나타낸 도면

도 2는 본 발명 고립단어 음성 인식 시스템의 고립단어 음성 인식 방법을 나타낸 플로우차트

이하, 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 설명하기로 한다.

도 1은 본 발명 고립단어 음성 인식 시스템의 음성 인식 훈련도를 나타낸 도면이다.

본 발명 고립단어 음성 인식 시스템의 훈련은 훈련과정과 인식과정으로 나뉘는데 단지 훈련과정에 있어서 인식단어 훈련용 데이터를 통해 각 인식대상 단어들과 잡음 모델간의 확률값의 차에 대한 평균과 표준편차를 구하는 것이 아니라 그 차를 인식대상 단어 확률값으로 나눈값에 대한 평균과 표준 편차를 구하며 인식과정에서도 이러한 확률값 차의 비를 이용하기 위한 것이다.

제 1 도는 고립단어 음성인식 시스템의 훈련과정을 나타내고 있다.

우선, 인식대상 단어 훈련용 데이터(1)로부터 각 인식대상 단어의 길이에 대한 통계치를 추출한다.(2)

다음 훈련용 데이터를 가지고 특징을 추출(3)하여 각 인식 대상 단어의 단어 모델을 훈련을 통해 작성한다.(4) 이때, 은닉 마코프 모델(Hidden Markov Model : HMM)이라 한다. 은닉 마코프 모델이란 우리가 생활하는 주변에는 많은 불확실성의 문제들이 널리 분포하고 있으며 불확실성을 지닌 문제점들을 모델링하는 일반적인 방법으로 확률적 방법을 들수 있는데, 그와 같은 확률적 방법의 대표적인방법이 은닉 마코프 모델이다.

계속해서, 잡음 모델 훈련용 데이터(5)를 이용하여 특징을 추출(6)하고 마찬가지 방법으로 잡음 단어 모델을 작성한다.(7)

이어서, 확률차의 비 통계치를 추출한다. 이때, 확률차의 비 통계치 추출은 인식단어 훈련용 데이터에 대한 각 단어의 확률값과 잡음 모델의 확률값을 구한 다음 정확하게 인식된 경우에 한하여 확률값의 차의 인식 대상 단어 확률값에 대한 비를 통계치로 구하여 평균과 표준 편차를 계산한다.(8)

도 2는 본 발명 고립단어 음성 인식 시스템의 고립단어 음성인식방법을 나타낸 플로우차트이다.

본 발명 고립단어 음성 인식 시스템의 고립단어 음성인식방법은 도 2에 나타낸 바와 같이, 전화망등을 통해 음성이 입력되면(100) 별도의 음성구간 검출 모듈을 거쳐 음성 구간이 검출되고 음성의 특징을 추출하게 된다.(101)

이어서, 추출된 특징들을 가지고 각 인식대상 단어 모델(102)을 이용하여 인식 단어들의 모델 중 가장 높은 확률값을 구한다.(103)

그리고, 잡음 모델에 대한 잡음의 은닉 마코프 모델(104)을 이용하여 비터비(Viterbi) 탐색하여 잡음 모델의 확률값을 구한다.(105)

이때, 비터비 알고리즘은 은닉 마코프의 은닉된 부분, 즉 상태열은 밝혀질 수 없으나 다른 의미 있는 방법들로 해석될 수 있는데 복원된 상태열은 모델의 구조에 대해 학습할 수 있도록 하며, 각각의 제한된 상태에서 일반적인 통계나 행동들을 예측할 수 있으므로 주어진 관측열이 주어지면 대응되는 최적의 상태열을 찾는 방법으로 사용가능한 것중의 하나가 최대의 최종확률을 가지는 최적 경로를 찾는 방법인데 이러한 방법을 비터비 알고리즘이라 하며, 천이 정보가 무시되는 동적 시간 정합 방법과 유사한 방법이다.

이와 같은 비터비 알고리즘은 로그 단위에서 덧셈으로 계산이 가능하기 때문에 효율적이다. 그리고 이외에도 계산 과정에서 상태열을 구할 수 있어 많은 음성 인식 알고리즘에서 사용되고 있다.

이어서, 인식대상 단어들의 확률값 중 가장 높은 값과 잡음 모델의 확률값의 차를 상기 인식 모델 단어들의 확률값중 최고 값으로 나눈다.(106)

이렇게 구해진 확률차 비의 값(T)이 훈련과정에서 얻어진 평균값과 표준편차를 이용하여 계산된 값(P)보다 큰가를 판단한다.(107)

앞에서 설명한 바와 같이 T=(단어의 확률값-잡음 모델의 확률값)/단어의 확률값이고, P=(확률차의 평균-k×확률차의 표준편차)/인식대상단어 확률값이다.

이때, k값은 실험적으로 구해야 한다. 그리고 k값은 그 값이 클수록 잡음이 거부되지 않고 통과될 확률이 커지고, 반대로 k값이 작을수록 정상적인 발성이 거부될 확률이 커지므로 적절한 선에서 값을 결정해야 한다.

판단결과(107), 확률차의 비(T)가 P보다 작으면 인식 결과를 거부한다.(108)

그러나, 판단결과(107), 확률차의 비(T)가 P보다 크면 입력음성의 길이가 인식대상 단어의 통계치에 비교 적절한 범위(L1)(L2)에 들어가는지 판단한다.(109)

판단결과(109) 적절한 경우에는 인식 결과를 보고(디지털 신호처리부(DSP)(도시하지 않음))하고(110), 적절하지 않은 경우에는 인식 결과를 거부한다.(108)

본 발명에 따른 음성 인식 방법에 있어서는 잡음이나 사용자의 인지 부족으로 인한 잘못된 단어의 발성으로 발생할 수 있는 잘못된 음성인식 결과의 보고를 최소화하는데 있어 확률값의 차가 아닌 확률값 차의 비를 이용함으로써 정상적인 발성 단어와 잡음 혹은 비인식 대상 단어와의 변별력을 향상시킬 수 있으므로 불필요한 시스템의 동작을 방지하고, 사용자의 편의성을 더욱 향상시킬 수 있다.

Claims

인식대상 단어 훈련용 데이터를 준비하는 단계;

상기 훈련용 데이터로부터 임의의 인식대상 단어의 길이에 대한 통계치를 추출하는 단계;

상기 훈련용 데이터를 가지고 상기 인식대상 단어의 특징을 추출하여 각 인식 대상 단어의 단어 모델을 훈련을 통해 작성하는 단계;

잡음 모델 훈련용 데이터를 이용하여 잡음 모델의 특징을 추출하여 상기 잡음 단어 모델을 작성하는 단계;

상기 인식단어 훈련용 데이터에 대한 각 단어의 확률값과 잡음 모델의 확률값을 구하는 단계;

상기 인식 단어 훈련용 데이터에 대한 각 단어의 확률값과 잡음 모델의 확률값이 인식된 경우에 한하여 상기 확률값의 차의 인식 대상 단어 확률값에 대한 비를 통계치로 구하여 평균과 표준 편차를 계산하는 단계로 이루어지는 것을 특징으로 하는 음성 인식 방법.
통신망을 통해 입력되는 음성의 특징을 추출하는 단계;

상기 추출된 특징들을 가지고 인식대상 단어 모델 중 가장 높은 확률값을 구하는 단계;

잡음 모델에 대한 확률값을 구하는 단계;

상기 인식대상 단어 모델중 가장 높은 확률값과 상기 잡음 모델의 확률값의 차를 상기 인식 모델 단어들의 확률값중 최고 값으로 나누어 확률차의 비의 값을 구하는 단계;

상기 구해진 확률차 비의 값(T)이 상기 인식대상 단어 모델의 훈련과정에서 얻어진 평균값과 표준편차를 이용하여 계산된 값(P)보다 큰가를 판단하여 상기 확률차의 비의 값(T)이 상기 훈련과정에서 얻어진 평균값과 표준편차를 이용하여 계산된 값(P)보다 작으면 인식 결과를 거부하고, 클 경우에는 상기 입력 음성의 길이가 인식대상 단어의 통계치에 비교한 범위에 들어가는 경우에는 상기 인식 결과를 보고하는 단계로 이루어지는 것을 특징으로 하는 음성 인식 방법.