KR100316776B1

KR100316776B1 - 연속 숫자음 인식 장치 및 그 방법

Info

Publication number: KR100316776B1
Application number: KR1019990011268A
Authority: KR
Inventors: 공병구; 김상룡; 김진
Original assignee: 윤종용; 삼성전자 주식회사
Priority date: 1999-03-31
Filing date: 1999-03-31
Publication date: 2001-12-12
Also published as: KR20000061887A

Abstract

연속적으로 발성되는 숫자음을 인식하는 연속 숫자음 인식 장치가 개시된다. 본 연속 숫자음 인식 장치는 입력된 음성으로부터 특징을 추출하고 추출된 특징을 참조 패턴과 비교하여 매칭되는 단위 숫자음을 추출하는 단위음소 추출수단과, 추출된 단위 숫자음을 길이 별로 모델링하여 복수개의 숫자열 후보를 생성하는 숫자열 생성수단, 및 상기 복수개의 숫자열 후보중에서 연속 발음군내에서의 상대적인 길이비율을 사용하여 적정한 길이 비율을 가지는 숫자음을 선택함으로써 최적의 숫자열을 재구성하는 숫자열 구성수단을 포함하는 것을 특징으로 한다. 본 연속 숫자음 인식 장치는 연속적으로 발성되는 발음군 내에서 인식 길이별로 복수 개의 후보 숫자열을 생성하고, 길이 적정성을 평가하여 최적의 숫자열을 재구성하여 부적당한 단위의 첨가나 삭제 현상을 방지함으로써, 연속적으로 발성되는 숫자음에 대한 인식률을 향상시킬 수 있다.

Description

연속 숫자음 인식 장치 및 그 방법{Continuous digits recognition device and method thereof}

본 발명은 숫자음 인식 장치에 관한 것으로, 특히 연속적으로 발성되는 숫자음을 인식하는 연속 숫자음 인식 장치에 관한 것이다. 또한, 본 발명은 상기 장치내에 구현되는 연속 숫자음 인식 방법에 관한 것이다.

연속 숫자음은 전화 번호나 주민 등록 번호와 같은 숫자열을 연속적으로 발성한 숫자음을 칭한다. 이와 같은 연속 숫자음을 정확하게 인식하기 위한 기술에 대한 개발이 이루어지고 있다.

도 1에는 종래의 연속 숫자음 인식 장치의 구조를 블록도로서 도시하였다. 이와 같은 종래의 연속 숫자음 인식 장치는 숫자열이 임의의 숫자로 구성된다는 사실을 기초로 후처리 기술을 적용하지 않고 음성의 음가 특성을 특징으로 사용하여 참조패턴 또는 참조 모델을 설정하고, 도 2a에 도시한 바와 같이 반복적으로 모델링을 수행한다.

한편, 영어의 경우에는 각각의 숫자음이 두 음절 정도로 이루어져 있기 때문에 숫자 사이의 변별력이 충분하게 존재하여 단순 음가 정보만을 사용한 인식 기술에 의하여 98% 이상의 인식 성능을 얻을 수 있다. 하지만, 한글의 경우에는 하나의 음절을 이루는 모음이 동일하여도 자음이나 유음에 따라 숫자음이 다르게 표현되기 때문에 각각의 숫자음에 대한 변별력이 불충분하다. 또한, 화자 사이의 발성 태도에 따라 특성의 변화폭이 매우 크다. 이러한 이유로, 한글에서의 숫자음 인식률은 95%를 넘지 못하고 있다. 더욱이, 복수 개의 숫자가 모여 이루어지는 숫자열의 경우, 인식률은 각 숫자에 대한 곱으로써 이루어지기 때문에 예를들어 7 자리의 숫자열에 대한 인식률은 70% 정도로 더 낮아진다.

이러한 문제점을 해결하기 위하여 도 2b에 도시한 바와 같이 음가 특성과 더불어 통계적으로 분포된 확률 밀도 함수 등을 사용한 길이 정보를 체크하고 추가적인 특징으로서 사용한다. 이러한 각각의 숫자음의 길이 정보를 기초로 반복적으로 모델링을 수행한다. 이때, 모델링은 미리 준비된 다량의 데이터로부터 일정 특성을 가진 부분의 길이별로 수행되며, 모든 길이를 대상으로 단순 반복적으로 수행된다. 하지만, 일반적으로 길이 정보는 길이 정보를 사용하지 않는 경우의 훈련 데이터 양보다 매우 방대한 양의 데이터와 계산량을 필요로 한다는 문제점이 있다.

이러한 문제점을 해결하기 위한 종래의 방법에 따르면, 길이 정보 특성을 일정한 밀도 함수의 형태로 간주하여 계산량을 줄인다. 하지만, 이러한 다른 종래의 방법은 많은 화자가 미리 발성한 많은 데이터로부터 개개 숫자음의 길이 정보를 기초로 통계적인 길이 정보를 구한다고 하더라도 해당 숫자의 중요성, 발성 습관, 기분 상태등에 따라 발성 길이가 달라지기 때문에 인식 성능 향상의 정도가 크지 않다는 문제점이 있다.

본 발명이 이루고자 하는 기술적 과제는 계산량이 적으면서도 정확하게 연속 숫자음을 인식할 수 있는 연속 숫자음 인식 장치를 제공하는 것이다.

본 발명이 이루고자 하는 다른 기술적 과제는 상기 장치 내에서 구현되는 연속 숫자음 인식 방법을 제공하는 것이다.

도 1은 종래의 연속 숫자음 인식 장치의 구조를 도시한 블록도이다.

도 2a와 도 2b는 각각 종래의 연속 숫자음 인식에서 길이 정보를 사용하지 않는 모델링 방법과 길이 정보를 사용하는 모델링 방법을 설명하기 위한 도면이다.

도 3은 본 발명의 실시예에 따른 연속 숫자음 인식 장치의 구조를 도시한 블록도이다.

도 4는 본 발명의 실시예에 따른 연속 숫자음 인식 방법의 주요 단계들을 도시한 흐름도이다.

도 5는 숫자음을 두가지 속도로 연속 발성한 음성 파형을 도시한 파형도이다.

도 6a 내지 도 6c는 생성된 복수의 숫자열 후보를 예시적으로 도시한 도면이다.

도 7은 길이 적정성 판별에 의하여 구성된 최적의 숫자열에 대한 길이 비율을 도시한 도면이다.

<도면의 주요 부분에 대한 부호의 설명>

32...단위 음소 추출부, 322...특징추출부,

324...참조 패턴 저장부, 326...단위 매칭부,

34...숫자열 생성부, 342...가변길이 모델링부,

344...숫자열 후보 생성부, 36...숫자열 구성부,

362...길이 적정성 판별부, 364...최적 숫자열 구성부.

상기 과제를 이루기 위하여 본 발명에 따른 연속 숫자음 인식 장치는 입력된 음성으로부터 특징을 추출하고 추출된 특징을 참조 패턴과 비교하여 매칭되는 단위 숫자음을 추출하는 단위 음소 추출 수단; 추출된 단위 숫자음을 길이 별로 모델링하여 복수개의 숫자열 후보를 생성하는 숫자열 생성수단; 및 상기 복수개의 숫자열 후보중에서 연속 발음군내에서의 상대적인 길이비율을 사용하여 적정한 길이 비율을 가지는 숫자음을 선택함으로써 최적의 숫자열을 재구성하는 숫자열 구성수단;을 포함하는 것을 특징으로 한다.

상기 숫자열 생성수단은 추출된 단위 음소를 길이별로 모델링하는 가변길이 모델링 수단; 및 모델링된 음소를 인식 판정 길이별로 나열하여 복수개의 숫자열 후보를 생성하는 숫자열 후보 생성수단;을 포함하는 것이 바람직하다.

또한, 상기 숫자열 구성수단은 연속 발음군내에서의 상대적인 길이비율을 사용하여 길이 적정성을 판별하고 그 길이 적정성을 나타내는 제어신호를 출력하는 길이 적정성 판별수단; 및 상기 길이 적정성 판별수단으로부터 출력된 제어신호에 응답하여 숫자열 후보중에서 적정한 숫자음을 선택하여 최적의 숫자열을 재구성하는 최적 숫자열 구성수단;을 포함하는 것이 바람직하다.

또한, 상기 길이 적정성 판별수단은 i를 단위 숫자 인덱스, c는 어중에서는 0이고 어미에서는 1인 임의의 변수, N은 연속 발성군을 이루는 단위 개수,는 연속 발성군 내의 단위 숫자별 길이,는 단위 숫자별 어중 및 어미의 평균 길이라 할 때, 연속 발성군내에서의 평균 길이 비율을 계산하는 평균길이비율 계산 수단; 연속 발성군내에서의 현재 숫자음 길이 비율을 계산하는 현재 숫자음 길이 비율 계산 수단; 및 길이 적정성 판별 함수의 값을 계산하여 상기 함수값이 소정 범위 이내인지를 판별하는 판별 수단인 것이 바람직하며, 상기 판별수단은 1에 근사한 소정의 범위 이내인지를 판별하는 것이 보다 바람직하다.

또한, 상기 최적 숫자열 구성수단은 상기 길이 적정성 함수값 f(i,c)이 상기 소정 범위 이내이면 적정길이로 판정하고 소정 범위를 벗어나면 해당 숫자음을 다른 후보군에서 숫자음을 선택하는 것이 바함직하다.

또한, 상기 길이 적정성 판별수단은 마지막 단어의 피치가 급격히 기본 주파수까지 하강 변화를 나타내는 경우에 어미로 판별하는 것이 보다 바람직하다.

상기 다른 과제를 이루기 위하여 본 발명에 따른 연속 숫자음 인식 방법은 (a) 음성으로부터 특징을 추출하는 단계; (b) 추출된 특징을 참조 패턴과 비교하여매칭되는 단위 숫자음을 추출하는 단계; (c) 추출된 단위 숫자음을 길이 별로 모델링하여 복수개의 숫자열 후보를 생성하는 단계; (d) 상기 복수개의 숫자열 후보중에서 연속 발음군내에서의 상대적인 길이비율을 사용하여 적정한 길이 비율을 가지는 숫자음을 선택하는 단계; 및 (e) 선택된 숫자음을 사용하여 최적의 숫자열을 구성하는 단계;를 포함하는 것을 특징으로 한다.

이하 첨부된 도면들을 참조하여 본 발명에 의한 연속 숫자음 인식 장치 및 방법의 바람직한 실시예를 상세히 설명하기로 한다.

도 3에는 본 발명의 실시예에 따른 연속 숫자음 인식 장치의 구조를 블록도로써 도시하였으며, 도 4에는 본 발명의 실시예에 따른 연속 숫자음 인식 방법의 주요 단계들을 흐름도로써 도시하였다. 도 4는 이하에서 수시로 참조된다.

먼저, 도 3을 참조하면, 본 발명에 의한 연속 숫자음 인식 장치는 단위 음소 추출부(32), 숫자열 생성부(34), 및 숫자열 구성부(36)를 구비한다. 단위 음소 추출부(32)는 특징추출부(322), 참조 패턴 저장부(324), 및 단위 매칭부(326)를 구비한다. 숫자열 생성부(34)는 가변길이 모델링부(342), 및 숫자열 후보 생성부(344)를 구비한다. 숫자열 구성부(36)는 길이 적정성 판별부(362), 및 최적 숫자열 구성부(364)를 구비한다.

상기와 같은 장치의 동작을 설명하면, 특징추출부(322)는 입력된 음성 신호로부터 특징을 추출한다. 음성으로부터 특징을 추출하는 방법은 예를들어 LPC 셉트럼 피치 형상묘사(Linear Prediction Coding Ceptrum Contour)등과 같은 방법이 사용될 수 있다. 참조 패턴 저장부(324)는 훈련 데이터 음성의 음가 특성을 특징으로사용하여 선택된 참조 패턴 또는 모델을 저장한다. 단위 매칭부(326)는 추출된 특징을 참조 패턴 저장부(324)에 저장된 참조 패턴 또는 모델과 비교하여 매칭되는 단위 숫자음을 추출한다. 이로써, 단위 음소 추출부(32)는 입력된 음성으로부터 특징을 추출(단계 420)하고 추출된 특징을 참조 패턴과 비교하여 매칭되는 단위 숫자음을 추출한다(단계 430).

다음으로, 가변길이 모델링부(342)는 추출된 단위 음소를 길이별로 모델링한다(단계 440). 숫자열 후보 생성부(344)는 모델링된 음소를 인식 판정 길이별로 나열하여 복수개의 숫자열 후보를 생성한다(단계 442). 이로써, 숫자열 생성수단(34)은 추출된 단위 숫자음을 길이 별로 모델링하여 복수개의 숫자열 후보를 생성한다.

다음으로, 길이 적정성 판별부(362)는 연속 발음군내에서의 상대적인 길이비율을 사용하여 길이 적정성을 판별하고 그 길이 적정성을 나타내는 제어신호(미도시)를 출력한다.

본 실시예에서 특정 화자가 한 번에 자연스럽게 발성한 연속 발음군내에서 각 숫자음은 상대적인 길이 비율을 가진다는 특성을 사용하기 위하여 간단한 길이 적정성 판별 함수를 정의한다. 이러한 길이 적정성 판별함수는 길이 적정성 판별부(362)내에서 계산되어 길이가 적정한지를 판별하도록 구현하였다.

길이 적정성 판별함수를 정의하기 위하여 먼저, 단위 숫자 인덱스로서 i를 정의한다. 다음으로, 어중에서는 0이고 어미에서는 1인 임의의 변수 c를 정의한다. 이러한 변수 c의 값은 바람직하게는 마지막 단어의 피치가 급격히 기본 주파수까지 하강 변화를 나타내는 경우에 어미로 판별함으로써 설정될 수 있다. 또한,를 연속 발성군 내의 단위 숫자별 길이,를 단위 숫자별 어중 및 어미의 평균 길이라 할 때, 연속 발성군을 이루는 단위 개수 N에 대하여 연속 발성군내에서의 평균 길이 비율,

을 계산한다. 또한, 연속 발성군내에서의 현재 숫자음 길이 비율,

을 계산한다. 다음으로, 길이 적정성 판별 함수 f(i,c),

를 정의한다. 본 실시예에서는 N개의 후보 숫자열 중에서 길이 적정성 판별 함수 f(i,c)의 값이 1에 가까운 후보를 선택한다.

다음으로, 최적 숫자열 구성부(364)는 상기 길이 적정성 판별부(362)로부터 출력된 제어신호에 응답하여 숫자열 후보중에서 적정한 숫자음을 선택하여 최적의 숫자열을 재구성한다. 이로써, 숫자열 구성부(36)는 상기 복수개의 숫자열 후보중에서 연속 발음군내에서의 상대적인 길이비율을 사용하여 적정한 길이 비율을 가지는 숫자음을 선택(단계 450)하고 선택된 숫자음을 사용하여 최적의 숫자열을 재구성한다(단계 452).

상기와 같이 이루어진 본 발명에 따른 연속 음성 장치에 예를들어 숫자음을 두가지 속도로 연속 발성한 음성이 입력되는 경우의 동작을 설명한다. 도 5에는 이와같은 연속 발성된 숫자음 음성을 파형으로서 나타내었다. 도 5를 참조하면, 제1 발성속도(SPEED A)로서 '영', '공', '일'이 발성되고, 제1 발성속도(SPEED A)보다 빠른 제2 발성속도(SPEED B)로서 '공', '일', '오', '영'이 발성되었다.

도 6a 내지 도 6c에는 본 발명에 따른 연속 숫자음 인식 장치의 숫자열 생성부(34)에 의하여 생성된 복수의 숫자열 후보를 예시적으로 도시하였다. 도 6a의 숫자열 후보에서는 숫자음 '육'(622)이 연속 발성군의 평균길이에 비하여 과도하게 길게 나타난다. 또한, 도 6b의 숫자열 후보에서는 숫자음 '공'(642)이 연속 발성군의 평균길이에 비하여 매우 길게 나타난다. 또한, 도 6b의 숫자열 후보에서는 '육'(662)이 연속 발성군의 평균길이에 비하여 지나치게 짧게 나타난다.

도 7에는 길이 적정성 판별에 의하여 구성된 최적의 숫자열에 대한 길이 비율을 나타내었다. 도 7을 참조하면, 현재 숫자음 길이 비율은 참조번호(726)에 해당한다. 또한, 연속 발성군 내에서의 평균 길이 비율를 사용하여 정규화된 길이 적정성 판별 함수의 값은 참조번호(728)의 '상대비율'에 해당한다. 여기서, 상대비율(728)은 1에 근사한 값들로만 이루어져 있으며 잘못 인식된 숫자음, 즉, 상대 비율이 1 보다 지나치게 적거나 큰 숫자음, 예를들어 부적절하게 임의의 숫자음을 제거한 도 6a의 '육'(622), 도 6b의 '공'(642), 부적절하게 삽입된 도 6c의 '육'(662)은 최적 숫자열 후보를 구성할 때 제외된다.

따라서, 본 발명에 따른 연속 숫자음 인식 장치는 숫자음을 인식할 때 연속적으로 발성되는 발음군 내에서 인식 길이별로 복수 개의 후보 숫자열을 생성하고, 길이 적정성을 평가하여 최적의 숫자열을 재구성하여 부적당한 단위의 첨가나 삭제 현상을 방지함으로써, 연속적으로 발성되는 숫자음에 대한 인식률을 향상시킬 수 있다. 또한, 간단한 길이 판별 함수만을 계산하는 적은 계산량만을 추가하기 때문에 숫자음 인식을 위한 처리 속도가 빠르다.

상술한 바와 같이 본 발명에 따른 연속 숫자음 인식 장치는 연속적으로 발성되는 숫자음에 대한 오인식률을 낮춤으로써 인식률을 향상시킬 수 있으며, 적은 계산량으로 인식을 수행하기 때문에 인식 속도가 빠르다.

Claims

연속적으로 발성되는 숫자음을 인식하는 연속 숫자음 인식 장치에 있어서,

입력된 음성으로부터 특징을 추출하고 추출된 특징을 훈련 데이터 음성의 음가 특성을 특징으로 사용하여 선택된 참조 패턴과 비교하여 매칭되는 단위 숫자음을 추출하는 단위음소 추출수단;

추출된 단위 숫자음을 길이 별로 모델링하고 모델링된 음소를 인식 판정 길이별로 나열하여 복수개의 숫자열 후보를 생성하는 숫자열 생성수단; 및

상기 복수개의 숫자열 후보중에서 연속 발음군내에서의 상대적인 길이비율을 사용하여 적정한 길이 비율을 가지는 숫자음을 선택하고 선택된 숫자음을 사용하여 최적의 숫자열을 재구성하는 숫자열 구성수단;을 포함하는 것을 특징으로 하는 연속 숫자음 인식 장치.
제1항에 있어서, 상기 숫자열 생성수단은,

추출된 단위 음소를 길이별로 모델링함으로써 길이별 모델링된 음소를 구하는 가변길이 모델링 수단; 및

모델링된 음소를 인식 판정 길이별로 나열하여 복수개의 숫자열 후보를 생성하는 숫자열 후보 생성수단;을 포함하는 것을 특징으로 하는 연속 숫자음 인식 장치.
제1항에 있어서, 상기 숫자열 구성수단은,

연속 발음군내에서의 상대적인 길이비율을 사용하여 길이 적정성을 판별하고 그 길이 적정성을 나타내는 제어신호를 출력하는 길이 적정성 판별수단; 및

상기 길이 적정성 판별수단으로부터 출력된 제어신호에 응답하여 숫자열 후보중에서 적정한 숫자음을 선택하여 최적의 숫자열을 재구성하는 최적 숫자열 구성수단;을 포함하는 것을 특징으로 하는 연속 숫자음 인식 장치.
제3항에 있어서, 상기 길이 적정성 판별수단은,

i를 단위 숫자 인덱스, c는 어중에서는 0이고 어미에서는 1인 임의의 변수,N은 연속 발성군을 이루는 단위 개수,는 연속 발성군 내의 단위 숫자별 길이,는 단위 숫자별 어중 및 어미의 평균 길이라 할 때,

연속 발성군내에서의 평균 길이 비율을 계산하는 평균길이비율 계산 수단;

연속 발성군내에서의 현재 숫자음 길이 비율을 계산하는 현재 숫자음 길이 비율 계산 수단; 및

길이 적정성 판별 함수의 값을 계산하여 상기 함수값이 소정 범위 이내인지를 판별하는 판별 수단;을 포함하는 것을 특징으로 하는 연속 숫자음 인식 장치.
제4항에 있어서, 상기 판별수단은,

상기 함수값이 1에 근사한 소정의 범위 이내인지를 판별하는 것을 특징으로 하는 연속 숫자음 인식 장치.
제4항에 있어서, 상기 최적 숫자열 구성수단은,

상기 길이 적정성 함수값 f(i,c)이 상기 소정 범위 이내이면 적정길이로 판정하고 소정 범위를 벗어나면 해당 숫자음을 다른 후보군에서 숫자음을 선택하는것을 특징으로 하는 연속 숫자음 인식 장치.
제4항에 있어서, 상기 길이 적정성 판별수단은,

마지막 단어의 피치가 급격히 기본 주파수까지 하강 변화를 나타내는 경우에 어미로 판별하는 것을 특징으로 하는 연속 숫자음 인식 장치.
연속적으로 발성되는 숫자음을 인식하는 연속 숫자음 인식 방법에 있어서,

(a) 음성으로부터 특징을 추출하는 단계;

(b) 추출된 특징을 훈련 데이터 음성의 음가 특성을 특징으로 사용하여 선택된 참조 패턴과 비교하여 매칭되는 단위 숫자음을 추출하는 단계;

(c) 추출된 단위 숫자음을 길이 별로 모델링하여 복수개의 숫자열 후보를 생성하는 단계;

(d) 상기 복수개의 숫자열 후보중에서 연속 발음군내에서의 상대적인 길이비율을 사용하여 적정한 길이 비율을 가지는 숫자음을 선택하는 단계; 및

(e) 선택된 숫자음을 사용하여 최적의 숫자열을 구성하는 단계;를 포함하는 것을 특징으로 하는 연속 숫자음 인식 방법.
제8항에 있어서, 상기 (c) 단계는,

추출된 단위 음소를 길이별로 모델링하는 단계; 및

모델링된 음소를 인식 판정 길이별로 나열하여 복수개의 숫자열 후보를 생성하는 단계;를 포함하는 것을 특징으로 하는 연속 숫자음 인식 방법.
제8항에 있어서, 상기 (d) 단계는,

i를 단위 숫자 인덱스, c는 어중에서는 0이고 어미에서는 1인 임의의 변수, N은 연속 발성군을 이루는 단위 개수,는 연속 발성군 내의 단위 숫자별 길이,는 단위 숫자별 어중 및 어미의 평균 길이라 할 때,

(d-1) 연속 발성군내에서의 평균 길이 비율을 계산하는 단계;

(d-2) 연속 발성군내에서의 현재 숫자음 길이 비율을 계산하는 단계; 및

(d-3) 길이 적정성 판별 함수의 값을 계산하는 단계; 및

(d-4) 상기 함수값이 소정 범위 이내인지를 판별하는 단계;를 포함하는 것을 특징으로 하는 연속 숫자음 인식 방법.
제10항에 있어서, 상기 (d-4) 단계는,

상기 함수값이 1에 근사한 소정의 범위 이내인지를 판별하는 단계를 포함하는 것을 특징으로 하는 연속 숫자음 인식 방법.
제10항에 있어서, 상기 (e) 단계는,

상기 길이 적정성 함수값 f(i,c)이 상기 소정 범위 이내이면 적정길이로 판정하고 소정 범위를 벗어나면 해당 숫자음을 다른 후보군에서 숫자음을 선택하는 단계를 포함하는 것을 특징으로 하는 연속 숫자음 인식 방법.
제8항에 있어서, 상기 (e) 단계는,

마지막 단어의 피치가 급격히 기본 주파수까지 하강 변화를 나타내는 경우에 어미로 판별하는 것을 특징으로 하는 연속 숫자음 인식 방법.