KR19990015122A

KR19990015122A - 음성 인식 방법

Info

Publication number: KR19990015122A
Application number: KR1019970037027A
Authority: KR
Inventors: 임근옥
Original assignee: 구자홍; 엘지전자 주식회사
Priority date: 1997-08-01
Filing date: 1997-08-01
Publication date: 1999-03-05
Also published as: KR100480506B1

Abstract

본 발명은 음성 인식률을 향상시킬 수 있는 음성 인식 방법에 관한 것이다.

본 발명의 방법은, 음성입력신호로부터 특징벡터를 추출하여 상기 특징 벡터를 양자화하는 제1 단계와; 벡터 양자화된 데이터를 기준단어모델 1을 이용하여 유사도를 비교하여 제1 및 제2 유사단어를 인식하는 제 2 단계와; 상기 두 유사단어의 유사값 차이가 임계값보다 큰 경우 상기 두 유사단어 중 최고의 유사값을 가지는 단어를 인식결과로 출력하는 제 3 단계와; 상기 두 유사단어의 유사값 차이가 임계 값보다 작은 경우 이 두 단어들은 인덱스하여 사용자에게 출력하는 제 4 단계와; 사용자가 선택한 번호를 기준단어모델 2를 이용하여 재인식하여 인식결과로 출력하는제 5 단계를 포함한다.

본 발명에 의하면, 오인식의 가능성이 있는 단어들을 인덱스하고 이를 숫자단어 모델을 이용하여 재인식함으로서 음성의 오인식률을 줄일 수 있다.

Description

음성 인식 방법

본 발명은 음성 인식 방법에 관한 것으로, 특히 음성 인식률를 향상시킬 수 있는 음성 인식 방법에 관한 것이다.

일반적으로, 음성 인식이란 패턴 분류(Pattern Classification) 작업을 의미한다. 다시말하여, 음성 인식은 음성 파형인 입력 패턴이 주어졌을 때 이를 기준(Reference) 패턴과 비교하여 가장 유사한 것으로 분류하는 것이다.

이를 상세히 하면, 음성인식은 크게 도1에 도시된 기준 단어모델을 생성하는 학습 단계와, 학습단계에서 생성된 기준 단어 모델을 이용하여 음성을 인식하는 인식 단계로 요약될 수 있다.

먼저, 도1의 학습 단계에서 입력 음성파형을 중첩되는 시간구간으로 나누어 특징벡터를 추출한다. 여기서, 음성인식에 쓰이는 특징벡터는 비교할 두 패턴의 중요한 특성의 차에 민감하고 주변 환경변화와 같은 부적당한 변화에는 민감하지 않아야 한다. 이러한 이유로 특징벡터중 계산이 간단하고 인식성능도 우수한 켑스트럼이 많이 사용되어 오고 있다.

그 다음, 상기 추출한 특징벡터를 양자화하여 기준단어 모델을 생성한다. 여기서, 벡터 양자화는 N개의 다차원 특징 벡터들로 이루어지는 코드북(Code Book)을 집단화(Clustering) 방법으로 구성한 후, 음성 파형으로부터 얻어지는 특징 벡터들을 N개의 코드 벡터와 비교하여 가장 근접한 코드 벡터값으로 양자화함으로서 달성된다. 이는 어느 정도의 왜곡을 포함하지만 특성분석에 적용하기 간단한 좋은 도구를 제공한다.

도2의 인식단계는 벡터 양자화를 통한 특성분석(Feature Analysis) 단계와, 패턴분류 단계로 나누어 진다. 특성 분석 단계에서는 상술한 바와 같이 입력 음성 파형으로부터 특징 벡터들을 추출한 뒤에 코드북을 이용하여 벡터 양자화시키게 된다. 이때, 특성분석은 음성 파형으로부터 음성 인식에 필요한 정보만을 추출해낸다. 이는 배경 잡읍이나 선로의 왜곡(Channel Distortion), 화자의 발음 특성(Speaking Style) 등과 같은 정보들은 배제됨을 의미한다.

다음에, 패턴분류 단계에서는 입력음성과 기준단어 모델간의 유사도를 측정하여 인식을 하게 된다. 패턴분류를 위한 방법으로서 네가지 분야의 방법이 사용되어 오고 있다. 첫째는, 동적 프로그래밍(Dynamic programming)을 이용한 패턴 정합(Pattern Matching) 방법이고, 둘째는 하든 마르코프 모델(Hidden Markov Model, HMM)과 같은 통계적인 모델링 방법이고, 세째는 신경 회로망(Neutral Network)을 이용한 방법이고, 네재는 지식기반 시스템(Knowledge Based System)을 이용한 방법이다.

상세히 하면, 상기 동적 프로그램밍을 이용한 패턴정합 방법은 입력들에 대한 전형적인 기준패턴을 각각 선택하여 다이나믹 타이밍 워핑(Dynamic Timing Warping, DTW)과 같은 최적의 비선형 시간정렬방법을 이용하여 입력패턴과 가장 가까운 기준패턴을 선택하는 방법이다. 그리고, 상기 히든 마르코프 모델은 음성이 통계적으로 모델링될 수 있다는 가정으로부터 출발하여 학습 데이터의 앙상블(Ensemble)을 확률적 모델로 구성하여 패턴분류에 응용하는 방법이다. 또한, 상기 신경 회로방은 퍼셉트론(Perceptron)이란 신경구조를 모델링한 단위를 이용하여 다층 구조망(Multi Layer Network)을 구성하는 것으로서, 이는 인간두뇌의 패턴정합 능력을 학습하고자 하는 방법이다. 끝으로, 상기 전문가 시스템과 같은 지식을 바탕으로 한 지식기반 시스템은 사람들이 음성에 대해서 배운 규칙을 기계에도 이용해보자는 생각으로부터 출발한 방법이다. 이와 같은 여러가지 방법중에서 현재 가장 많이 사용되는 패턴분류 방법은 확률적 모델을 이용한 히든 마르코브 모델이다.

이상 설명한 바와 같이, 종래의 음성 인식 시스템은 학습단에서 인식대상이 되는 단어집단에 대한 특징벡터를 이용해 인식할 기준단어 모델을 미리 구한 후, 인식단에서 입력음성의 특징벡터를 상기 기준단어 모델과 유사도를 비교해 가장 유사한 단어를 인식한다.

그런데, 상기 음성 인식 방법은 음성학적으로 비슷한 단어들을 인식할 때 오인식의 가능성이 높은 단점이 있다. 이에 따라, 음성인식기를 장착한 휴대폰 등에서 음성에 의한 다이얼링을 하는 경우 음성을 오인식하여 잘못된 발산을 하게 됨으로써, 사용자에게 발신을 하지 않은 경우 보다 훨씬 불편을 주게되는 문제점이 있다.

따라서, 본 발명은 상기의 단점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 제2 기준단어 모델을 이용하여 재인식함으로서 음성 인식률을 향상 시킬 수 있는 음성 인식 방법을 제공하는 것이다.

본 발명의 다른 목적은 휴대폰의 음성 오인식에 의한 발신 위험을 줄일 수 있는 음성 인식 방법을 제공하는 것이다.

도 1은 종래의 기준 단어모델을 생성하는 학습과정을 나타내는 흐름도.

도 2는 종래의 음성 인식 방법을 설명하는 흐름도.

도 3은 본 발명의 실시예에 따른 음성 오인식에 의한 오작동 방지 방법을 설명하는 흐름도.

상기 목적을 달성하기 위하여, 본 발명에 따른 음성 인식 방법은 음성입력신호로부터 특징벡터를 추출하여 상기 특징 벡터를 양자화하는 제1 단계와; 벡터 양자화된 데이터를 기준단어모델 1을 이용하여 유사도를 비교하여 제1 및 제2 유사단어를 인식하는 제 2 단계와; 상기 두 유사단어의 유사값 차이가 임계값보다 큰 경우 상기 두 유사단어 중 최고의 유사값을 가지는 단어를 인식결과로 출력하는 제 3 단계와; 상기 두 유사단어의 유사값 차이가 임계 값보다 작은 경우 이 두 단어들을 인덱스하여 사용자에게 출력하는 제 4 단계에와; 사용자가 선택한 번호를 기준단어모델 2를 이용하여 재인식하여 인식결과로 출력하는제 5 단계를 포함하는 것을 특징으로 한다.

상기 목적외에 본 발명의 다른 목적 및 특징들은 첨부도면을 참조한 실시예에 대한 설명을 통하여 명백하게 드러나게 될 것이다.

이하,도 3을 참조하여 본 발명의 바람직한 실시 예를 자세히 설명하기로 한다.

도 3은 본 발명에 따른 음성 인식 방법을 설명하는 흐름도이다.

우선, 단계 1에서 음성 인식기에 음성신호가 입력되면, 단계 2에서 음성에 대한 특징벡터로서 캡스트럼 계수를 구한다. 이때 특징벡터는 각 음성구간의 20ms에 대해서 구해진다. 그리고, 상기 켑스트럼 계수는 음성신호를 퓨리에 변환(Fourier Transform)을 이용해 주파수상으로 변환한 후에 로그를 취한 후 다시 역퓨리에 변환하여 창함수(Window Function)를 이용해 구할 수가 있다. 이 켑스트럼 계수는 음성인식시에 계산이 간단하고 인식성능이 우수해 많은 인식 시스템의 특징벡터로서 사용되고 있다.

그 다음, 단계 3에서 N개의 다차원 특징 벡터들로 이루어지는 코드북을 이용하여 벡터 양자화한다. 이어서, 단계 4에서 상기 단계에서 벡터 양자화된 데이터를 제1 기준단어 모델과 유사도를 비교하여 최고의 유사값을 가지는 단어와 두번째로 유사값을 가지는 단어들을 인식하게 된다. 이때 이용되는 상기 제1 기준단어 모델은 휴대폰인 경우 발신시 이용되는 단어 모델이다. 단계 5에서 최고의 유사값을 가지는 단어와 두번째로 유사값을 가지는 단어의 차이가 실험치에 의해서 설정된 값인 임계값보다 큰지를 판단하여, 두개의 유사 단어의 차이가 임계값보다 큰 경우에는 단계 6에서 최고의 유사값을 가지는 단어를 인식결과로 보낸다.

한편, 상기 단계에서 두개의 유사 단어의 차이가 임계값보다 작으면, 단계 7에서 상기 2개의 후보 유사 단어들을 인덱스 하고, 사용자에게 상기 후보 단어들과 함께 각 후보 단어에 할당된 번호를 스피커를 통해 출력한다. 그리고, 단계 8에서 사용자는 스피커를 통해 들은 것 중 원하는 번호를 말하면, 이를 제2 기준단어 모델을 이용해 재인식하여 인식결과로 보낸다. 이때 이용되는 제2 기준단어 모델은 숫자 단어에 대한 모델이다.

상술한 바와같이, 본 발명에 따른 음성 인식 방법에 의하면 오인식의 가능성이 있는 단어들을 다시한번 인덱스하여 이 인덱스된 단어를 숫자단어 모델을 이용하여 재인식함으로서 음성의 오인식률을 줄일 수 있다. 나아가, 음성인식기의 음성인식 성능을 향상시킬 수 있다. 또한, 휴대폰에서 음성 오인식에 의한 발신 위험을 줄일 수 있다.

이상 설명한 내용을 통해 당업자라면 본 발명의 기술사상을 일탈하지 아니하는 범위에서 다양한 변경 및 수정이 가능함을 알 수 있을 것이다. 따라서, 본 발명의 기술적 범위는 명세서의 상세한 설명에 기재된 내용으로 한정되는 것이 아니라 특허 청구의 범위에 의해 정하여 져야만 할 것이다.

Claims

음성입력신호로부터 특징벡터를 추출하여 상기 특징 벡터를 양자화하는 제1 단계와;

상기 단계에서 벡터 양자화된 데이터를 기준단어모델 1을 이용하여 유사도를 비교하여 제1 및 제2 유사단어를 인식하는 제 2 단계와;

상기 두 유사단어의 유사값 차이가 임계값보다 큰 경우 상기 두 유사단어 중 최고의 유사값을 가지는 단어를 인식결과로 출력하는 제 3 단계와;

상기 두 유사단어의 유사값 차이가 임계 값보다 작은 경우 이 두 단어들을 인덱스하여 사용자에게 출력하는 제 4 단계와;

사용자가 선택한 번호를 기준단어모델 2를 이용하여 재인식하여 인식결과로 출력하는제 5 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
제 1 항에 있어서,

상기 1단계에서 상기 특징벡터로 켑스트럼 계수를 구하는 것을 특징으로 하는 음성 인식 방법.
제 2 항에 있어서,

상기 켑스트럼 계수는 각 음성구간의 20ms 구간에서는 구하는 것을 특징으로 하는 음성 인식 방법.
제 1 항에 있어서,

상기 1단계에서 상기 벡터 양자화는 코드북을 이용하여 수행하는 것을 특징으로 하는 음성 인식 방법.
제 1 항에 있어서,

상기 임계값은 실험치에 의해서 설정되는 것을 특징으로 하는 음성 인식 방법.
제 1 항에 있어서,

상기 4단계에서 사용자에게 상기 제 1 및 제2 유사단어와 함께 각 단어에 할당된 번호를 출력하는 것을 특징으로 하는 음성 인식 방법.
제 6 항에 있어서,

상기 단어들 및 할당번호는 스피커를 통해 사용자에게 출력하는 것을 특징으로 하는 음성 인식 방법.
제 1 항에 있어서,

상기 5단계에서 상기 기준단어모델 2는 숫자 단어 모델인 것을 특징으로 하는 음성 인식 방법.