KR20020063665A

KR20020063665A - 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템

Info

Publication number: KR20020063665A
Application number: KR1020010004229A
Authority: KR
Inventors: 이태성
Original assignee: 이태성
Priority date: 2001-01-30
Filing date: 2001-01-30
Publication date: 2002-08-05
Also published as: KR100391123B1

Abstract

본 발명은 피치 검출을 이용하여 음소단위로 패턴매칭을 처리함으로써 처리속도를 향상시킨 음성인식기술에 관한 것이다.

이러한 본 발명의 시스템은 음성신호를 입력받아 피치를 검출하여 피치위치정보를 출력하는 피치검출기; 상기 피치검출기로부터 피치위치정보를 입력받아 피치데이터를 규격화한 후 특징벡터를 추출하여 기 등록된 표준피치 데이터와 비교하여 유성음소 문자열을 생성하는 피치데이터 분석기; 음성신호를 입력받아 묵음구간을 검출하여 묵음구간정보를 출력하는 묵음구간 탐색기; 상기 피치위치정보와 묵음구간정보를 입력받아 무성음구간을 정하고, 상기 음성신호를 입력받아 무성음소 문자열을 출력하는 무성음 식별기; 상기 유성음소 문자열과 무성음소 문자열, 묵음구간정보를 입력받아 발음문자에 대응하는 단음절을 생성하는 음절구분기; 및 상기 음절구분기의 단음절을 입력받아 문법규칙을 적용하여 표준 언어 문자열을 생성하는 언어분석기를 구비한다. 따라서, 본 발명에 따르면 음성신호의 피치를 검출한 후 피치주기로 패턴매칭을 실시하여 음소를 판별하므로 데이터베이스와 계산용량이 작아 상대적으로 적은 용량의 컴퓨터에 의해서도 음성을 정확하게 인식할 수 있다.

Description

피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템 { speech recognition method and system using every single pitch-period data analysis }

본 발명은 음성인식기술에 관한 것으로, 더욱 상세하게는 피치 검출을 이용하여 음소단위로 패턴매칭을 처리함으로써 처리속도를 향상시킨 음성인식기술에 관한 것이다.

일반적으로, 음성인식(speech recognition)은 마이크나 전화기를 통해 화자에 의해 발성된 음향적인 신호를 인간이 이해할 수 있는 단어나 구문들로써 표현하는 일련의 과정을 의미하며, 최종적으로 인식된 단어나 구문등을 컴퓨터나 기계상의 명령이나 제어, 자료입력, 문서의 준비 등을 위한 용도로써 사용하게 된다.

음성인식은 음성신호로부터 음소/음절 혹은 단어를 인식하는 AD(Acoustic Decoder)와 AD의 인식결과와 언어학적 정보를 종합해서 문장을 인식하는 LD로 구성되어 있는데, AD분야를 통상 음성인식이라 한다. 음성인식은 발음된 음성패턴이 주어졌을 때, 인식모델과 패턴매칭을 하여, 가장 근접한 모델의 계수(W)로 인식하는 과정이다. 음성신호는 아날로그-디지털변환(ADC)을 거쳐 음성신호 전처리기로 입력되고, 음성신호 전처리기는 시간도메인의 음성신호를 주파수도메인으로 변환하여 음성에 내재하는 정보가 다음 단의 인식기에서 보다 효과적으로 인식하도록 변환한다. 그리고 음성인식에 사용되는 음성인식 알고리즘으로는 DTW(Dynamic Time Warping)은 HMM(Hidden Markov Mode), 신경망(NN:Neural Network) 등이 있으며, 기본적인 이론은 패턴매칭에 기인한다.

음성인식 기술중에서 음성신호를 문자열로 변환하는 방법을 Speech-To-Text(STT)기술이라 하는데, SST를 위한 종래의 음성인식 기술은 도 14에 도시된 바와 같이 신호처리 과정(2), 목소리 특징 추출 과정(4), 소리 유사성 분석 과정(6), 언어학적 유사성 분석 과정(8)으로 구성되어 목소리로부터 문자와 문장을 구성하였다. 즉, 신호처리과정(2)에서 입력된 음성신호를 디지털로 증폭처리한 후 목소리 특징 추출 과정(4)에서 특징 변환을 하고, 소리 유사성 분석과정(6)에서 소리 DB(10)를 이용하여 상태/음소를 판단한 후 언어학적 유사성 분석과정(8)에서 언어와 발음 DB(12,14)를 이용하여 문장을 판단하였다.

그런데 이와 같은 종래의 기술은 단어나 일정 크기의 버퍼를 기준으로 주파수분석을 하여 음성을 인식하므로 많은 연산량으로 인해 인식속도가 느리고, 표준 데이터 베이스의 크기도 큰 문제점이 있다. 특히, 단어 단위로 인식하는 경우에는 소규모 어휘 인식을 제외하고, 대규모의 어휘 인식을 하기 위해서는 대용량의 컴퓨터가 요구되므로 핸드폰이나 PDA와 같은 휴대용 기기에 적용하기 아려운 문제점이 있다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 음성신호를 한 주기의 피치 데이터 단위로 분석하여 음소단위로 음성인식을 하는 피치검출기 및 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템을 제공하는 데 그 목적이 있다.

도 1은 본 발명에 따른 음성인식 시스템을 도시한 블럭도,

도 2는 도 1에 도시된 피치 검출기를 도시한 세부 블럭도,

도 3은 도 2에 도시된 파형 단순화 필터를 도시한 기능 블럭도,

도 4는 본 발명에 따른 임펄스 트레인 필터의 개념도,

도 5는 본 발명에 따른 피치 선택방법을 도시한 흐름도,

도 6은 도 2에 도시된 위치보상기의 개념도,

도 7은 도 1에 도시된 피치 데이터 분석기를 도시한 세부 블럭도,

도 8은 도 1에 도시된 무성음 식별기를 도시한 세부 블럭도,

도 9는 도 1에 도시된 묵음구간 탐색기를 도시한 세부 블럭도,

도 10은 도 1에 도시된 음절 구분기를 도시한 세부 블럭도,

도 11은 도 1에 도시된 언어분석기를 도시한 세부 블럭도,

도 12는 도 7에 도시된 피치데이터 규격화부의 개념을 도시한 개념도,

도 13은 본 발명에 따른 음성인식과정의 예를 도시한 도면,

도 14는 일반적인 음성인식 절차를 도시한 도면이다.

*도면의 주요부분에 대한 부호의 설명

102: 피치검출기104: 피치데이터 분석기

106: 무성음 식별기108: 묵음구간 탐색기

110: 음절구분기112: 언어분석기

202: 파형단순화필터204: 임펄스 트레인 생성기

206: 피치선택부208: 위치보상기

702: 피치추출기704: 피치데이터 규격화부

706: 특징추출기708:표준피치 데이터베이스

710: 특징벡터비교기802: 무성음 분류기

804: 무성음 특징 추출기808: 무성음 특징 비교기

상기와 같은 목적을 달성하기 위하여 본 발명의 음성인식시스템은, 음성신호를 입력받아 피치를 검출하여 피치위치정보를 출력하는 피치검출기; 상기 피치검출기로부터 피치위치정보를 입력받아 피치데이터를 규격화한 후 특징벡터를 추출하여 기 등록된 표준피치 데이터와 비교하여 유성음소 문자열을 생성하는 피치데이터 분석기; 음성신호를 입력받아 묵음구간을 검출하여 묵음구간정보를 출력하는 묵음구간 탐색기; 상기 피치위치정보와 묵음구간정보를 입력받아 무성음구간을 정하고, 상기 음성신호를 입력받아 무성음소 문자열을 출력하는 무성음 식별기; 상기 유성음소 문자열과 무성음소 문자열, 묵음구간정보를 입력받아 발음문자에 대응하는 단음절을 생성하는 음절구분기; 및 상기 음절구분기의 단음절을 입력받아 문법규칙을 적용하여 표준 언어 문자열을 생성하는 언어분석기를 구비한 것을 특징으로 한다.

상기와 같은 목적을 달성하기 위하여 본 발명의 음성인식방법은, 음성신호를 입력받아 음성신호에 대응하는 문자열을 생성하는 스피치문자변환(STT) 방법에 있어서, 상기 입력된 음성신호에서 피치를 검출하는 단계; 상기 검출된 피치위치정보와 음성신호를 분석하여 피치구간과 묵음구간, 및 무성음구간을 설정하는 단계; 상기 피치구간에서 한 주기 피치패턴을 소정의 표준 데이터와 비교하여 유성음소를 판별하는 단계; 상기 무성음구간에서 한 주기 피치패턴을 소정의 표준 데이터와 비교하여 무성음소를 판별하는 단계; 및 상기 판별된 유성음소와 무성음소를 소정 규칙에 따라 결합하여 단음절을 생성하는 단계를 포함하는 것을 특징으로 한다.

또한, 상기와 같은 목적을 달성하기 위하여 본 발명의 피치검출기는, 음성신호를 입력받아 파형을 단순화하는 파형 단순화 필터; 상기 파형단순화 필터의 출력을 기준으로 소정 채널의 임펄스 트레인을 생성하는 임펄스 트레인 생성기; 소정의 피치선택규칙을 적용하여 피치위치를 검출하는 피치선택부; 및 상기 피치선택부에 의해 검출된 피치위치를 원 입력신호와 단순화된 신호 사이의 위치 차이만큼 보상하는 위치보상기를 포함하는 것을 특징으로 한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 자세히 설명하기로 한다.

도 1은 본 발명에 따른 음성인식 시스템을 도시한 블럭도로서, 본 발명의 음성인식시스템(100)은 피치검출기(102), 피치데이터 분석기(104), 무성음 식별기(106), 묵음구간 탐색기(108), 음절 구분기(110), 언어 분석기(112)로 구성되어 음성신호를 입력받아 표준언어 문자열을 출력한다.

도 1을 참조하면, 피치검출기(102)는 도 2에 도시된 바와 같이, 파형단순화필터(202), 임펄스 트레인 생성기(204), 피치선택부(206), 위치보상기(208)로 구성되어 음성신호를 입력받아 파형단순화 필터를 거친신호를 기준으로 임펄스 트레인을 생성하고, 정해진 규칙에 의거하여 필터링한 후 피치선택규칙을 적용하여 피치위치를 찾은 후 원 입력신호와 단순화된 신호 사이의 위치 차이를 보상하는 과정을 거쳐 피치위치정보를 출력한다.

도 2를 참조하면, 파형 단순화 필터(202)는 도 3에 도시된 바와 같이, 5점 산술평균 필터로 구현된다. 도 3에 따르면, 5점 산술평균 필터는 개념적으로 5개의 지연기(302, 304, 306, 308, 310)와 4개의 가산기(312, 314, 316, 318), 멀티플라이어(320)로 구현되어 입력신호를 산술 평균하여 출력한다.

그리고 도 2의 임펄스 트레인 생성기(204)는 입력신호의 극대점과 극소점에서만 값을 가지는 임펄스들의 집합을 정의한다. 특히, 본 발명에서는 임펄스 트레인 필터를 도 4에 도시된 바와 같이, 종래의 신호무시 구간과 지수감소 구간으로 단순하게 구분하지 않고, "거리에 비례적인 피치점 이동구간"과 '지수감소구간'으로 구분하여 피치점 이동을 통해 보다 정확하게 피치주기를 검출할 수 있다. 즉, 본 발명에서는 정확한 피치점을 찾기 위해 신호무시 구간에서라도 이전 피치점으로부터 거리에 비례한 크기보다 큰 임펄스가 있으면 피치점을 이동하는 방식을 택한다. 이 때, 피치검출과정의 유효구간을 정의하기 위하여 입력신호의 낮은 한계치를 평균잡음치의 약 1.5 배로 설정한다. 그리고 본 발명의 실시예에서는 6채널의 임펄스 트레인 필터를 이용하여 6채널의 임펄스 트레인을 출력한다.

도 2의 피치선택부(206)는 도 5에 도시된 비와 같은 피치선택규칙에 따라 피치를 선택한다. 피치선택규칙은 임펄스트레인 채널 1~3이 일치되는 위치를 기준으로 한 선택과, 채널4~6이 일치되는 위치를 기준으로 한 선택으로 구성되어 있다. 피치점으로 선택하는 경우는 모두 세가지로 다음과 같다.

<선택규칙1>

현재 데이터 위치에서 채널2의 임펄스가 존재하고, 채널1과 채널3 중에서 적어도 하나의 임펄스가 존재하며, 이전에 선택된 피치점과 현재 위치 사이에 채널 4~6의 임펄스가 3개 이상 존재하는 경우, 현재 위치를 피치점으로 선택한다.

<선택규칙2>

현재 데이터 위치에서 채널 4~6의 임펄스가 모두 나타나고, 이전 피치점과 현재 위치 사이에 채널2의 임펄스가 존재하며, 그 채널2 임펄스와 이전에 선택된 피치점 사이에 채널4~6의 임펄스가 2개 이상 존재하는 경우, 채널2 임펄스의 위치를 피치점으로 선택한다.

<선택규칙3>

현재 데이터 위치에서 채널4의 임펄스가 존재하고, 채널5와 6중에서 적어도 하나의 임펄스가 존재하며, 이전에 선택된 피치점과 현재 위치 사이에 피치점 후보가 존재하고, 그 피치점 후보와 이전에 선택된 피치점 사이에 채널 4~6의 임펄스가 2개 이상 존재하는 경우, 피치점 후보의 위치를 피치점으로 선택한다.

이와 같은 피치선택규칙을 적용하기 위한 절차는 도 5에 도시된 바와 같이, 현재 데이터를 입력받아 마지막 데이터인지를 판단하여 마지막 데이터이면 피치선택규칙을 종료한다(S1).

마지막 데이터가 아니면, 채널2를 포함한 피크 임펄스 수가 2 이상인가를 판단(S2)하여 예(yes)이면 이전에 선택된 피치점과 현재위치 사이에 벨리 임펄스가 3개 이상 존재하는가를 판단한다(S3). 판단결과 3개 이상 존재하면 현재위치를 피치점으로 선택한다(S4).

S2단계에서 판단결과 아니오(No)이면 벨리 임펄스가 3개인가를 판단(S5)하여 예(Yes)이면 이전에 선택한 피치점과 현재위치 사이에 0이 아닌 채널1이 존재하는가를 판단(S6)하여 예(Yes)이면 이전 채널1의 위치를 피치점으로 선택한다(S8).

S5단계에서 판단결과 아니오(No)이면 벨리 임펄스가 2개이고 채널4가 0보다 큰값인가를 판단(S9)하여 예(Yes)이면 이전에 선택한 피치점과 현재위치 사이에 피치점 후보가 존재하고, 그 사이에 벨리 임펄스가 2개이상 존재하는가를 판단(S10)하여 예(Yes)이면 이전 피크 후보의 위치를 피치점으로 선택한다(S11).

위치보상기(도 2의 208)의 개념은 도 6에 도시된 바와 같다.

일반적으로, 파형 단순화 필터를 거친 신호의 피크점 위치와 원래 입력신호의 피크점 위치는 일치하지 않기 때문에, 이 차이를 보상해 주지 않으면 원래 입력신호의 피치를 추출하고 분석할 때 정확한 결과를 얻을 수 없다. 위치보상기(208)는 이 차이를 보상하여 입력신호에서 파형을 추출할 경우에도 정확한 피치의 위치를 찾도록 한다. 위치보상기(208)는 파형 단순화 필터를 거친 신호에서 얻어진 피치점의 위치를 중심으로 산술평균 필터에 사용한 차수(degree of median filter)와 동일한 크기의 데이터 영역을 탐색하여 최대값을 찾는 구조로 되어 있다.

이와 같이 본 발명에 따라 임펄스 트레인을 이용하여 피치주기를 예측하는 방법은 피치주기의 정확한 예측뿐만 아니라 한 주기의 피치 데이터를 분석하여 그 특징을 추출하고 비교할 수 있는 기반을 제시하여 음성인식을 위한 파형분석이나 화자의 특성을 추출하는 데 효과적이다.

다시 도 1을 참조하면, 피치 데이터 분석기(104)는 도 7에 도시된 바와 같이 피치추출기(702), 피치데이터 규격화부(704), 특징추출기(706), 표준 피치 데이터베이스(708), 특징 벡터 비교기(710)로 구성되어 피치위치정보를 입력받아 피치데이터를 규격화한 후 특징벡터를 추출하고, 추출된 특징벡터와 피치길이정보를 기준으로 기 등록된 표준 피치 데이터와 비교하여 유성음소 문자열을 생성한다. 이 때 사용되는 표준 피치데이터 베이스의 구조는 다음 표 1과 같다.

길이음소	70	80	90	.......	340	350	360	370
아
에
이
오
우
으
어
....

상기 표 1을 참조하면, 표준 피치 데이터베이스는 음소별로 피치길이를 소정주파수 대역( 예컨대, 70Hz~370Hz대역)에서 소정 주파수(예컨대, 10Hz) 간격으로 구별한다.

도 7을 참조하면, 피치추출기(702)는 피치위치정보를 입력받아 입력신호에서 피치를 추출하여 피치길이정보를 특징벡터 비교기(710)와 피치데이터 규격화부(704)로 출력한다.

피치데이터 규격화부(704)는 피치길이정보를 입력받아 도 12에 도시된 바와 같이 규격화한다. 도 12를 참조하여 피치 데이터 규격화 과정을 설명하면 다음과 같다.

먼저, 단음절 전체 데이터에서 인접한 두 피치점을 잇는 선의 기울기 A를 구한다. 이어 각 피치점을 기준으로 소정 시간(예컨대, 약 10ms) 영역을 탐색하여 극소점(minimum position)을 찾아 두 극소점을 잇는 선의 기울기 B를 구한다. 이어 다음 수학식1에 따라 두 기울기의 평균(C)을 구하고, 원래의 기울기 A에서 평균기울기(C)를 감하여 규격화된 기울기(A')를 구한다(A'=A-C). 이와 같이 규격화된 n 번째 피치 데이터는 다음 수학식 2와 같이 구할 수 있다.

상기 수학식 2에서 X'(n)은 규격화된 피치데이터이고, X(n)은 원래 피치데이터이다.

특징 추출기(706)는 규격화된 피치 데이터에서 특징벡터를 추출한다. 특징벡터 비교기(710)는 특징 추출기(706)로부터 입력받은 특징벡터와 피치 추출기(702)로부터 입력받은 피치길이정보를 표준 피치 데이터베이스(708)의 기준치와 비교하여 유성음소 문자열을 결정한다.

도 1을 참조하면, 무성음 식별기(106)는 도 8에 도시된 바와 같이, 무성음 분류기(802), 무성음 특징 추출기(804), 무성음 표준 데이터베이스(806), 무성음 특징 비교기(808)로 구성되어 피치위치정보와 음성신호를 입력으로 받아 피치구간의 시작점 이전 소정 시간(예컨대, 125msec)의 신호를 추출하여 '무성음 구간'으로 정하고, 그 구간의 음성신호를 분석하여 무성음을 크게 마찰음, 파열음, 비음으로 구분한 후 무성음 특징벡터를 추출하고, 무성음 표준 데이터와 비교하여 무성음소 문자열을 출력한다.

도 8을 참조하면, 무성음 분류기(802)는 음성신호와 피치위치정보를 입력받아 무성음구간에서 무성음신호를 추출하고, 무성음 특징 추출기(804)는 무성음구간의 음성신호를 분석하여 무성음을 마찰음, 파열음, 비음 등으로 구분한 후 무성음 특징벡터를 추출하며, 무성음 특징 비교기(808)는 무성음 특징벡터를 무성음 표준 데이터와 비교하여 무성음소 문자열을 결정한다.

다시 도 1을 참조하면, 묵음구간 탐색기(108)는 도 9에 도시된 바와 같이, 영교차율 측정부(902), 평균음압 측정부(904), 묵음구간 추출부(906)로 구성되어 음성신호를 입력받아 영교차율(Zero Crossing Rate)과 평균진폭(AverageAmplitude)을 측정하여 평균진폭의 크기와 영교차율이 모두 기준 값보다 작으면 묵음구간으로 설정한다.

도 9을 참조하면, 영교차율 측정부(902)는 입력신호에서 영교차율을 측정하고, 평균음압 측정부(904)는 입력신호에서 평균음압을 측정하며, 묵음구간 추출부(906)는 영교차율과 평균음압, 피치위치정보를 입력받아 묵음구간정보를 출력한다.

다시 도 1을 참조하면, 음절 구분기(110)는 도 10에 도시된 바와 같이, 문자열 정보 동기화부(1002)와 음절구분부(1004)로 구성되어 유성음소 문자열과 무성음소 문자열, 그리고 묵음구간정보를 입력받아 단음절의 경계를 설정하고, 경계내에 있는 유성음소 문자열중에서 가장 빈도가 높은 유성음소 문자열을 '중성'으로 정하고 피치 구간에 앞서 오는 무성음구간으로부터 얻어진 무성음소문자를 '초성'으로, 피치구간뒤에 오는 약 피치구간 또는 묵음 구간으로부터 얻어진 무성음소문자를 '종성'으로 한 후 이를 결합하여 발음 문자 한글자를 생성한다.

도 10을 참조하면, 문자열정보 동기화부(1002)는 유성음소 문자열과 무성음소 문자열, 묵음구간정보를 입력받아 초성, 중성, 종성으로 구분하고, 음절구분부(1004)는 음절구분규칙에 따라 발음 문자열을 출력한다.

도 1에서 언어분석기(112)는 도 11에 도시된 바와 같이, 언어/문법 데이터베이스(1102)와 언어모델부(1104)로 구성되어 음절구분기(110)에서 얻어진 발음 문자열을 입력받아 단어 데이터 베이스와 비교하고, 문법규칙을 적용하여 표준언어 문자열을 생성한다.

도 13은 본 발명에 따른 음성인식과정의 한 예를 도시한 도면이다.

도 13을 참조하면, 단음절 "강"이 발음된 경우, 음성신호 파형은 시간영역에서 묵음구간, 무성음구간(초성구간), 피치구간(중성구간), 약피치구간(종성구간), 묵음구간으로 구분되어 나타난다. 본 발명에 따라 무성음구간의 파형분석에 의해 무성음소 "ㄱ"을 인식하고, 피치구간에서 유성음소를 분석하여 다수의 "ㅏ" 특징을 검출한다. 이어 약피치구간에서 무성음소 "ㅇ"을 검출하여 음소문자열을 정의한다. 이어 음절구분규칙에 따라 음소문자를 조합하여 "강"이라는 단어를 인식한다.

이상에서 설명한 바와 같이, 본 발명에 따르면 음성신호의 피치를 검출한 후 피치주기로 패턴매칭을 실시하여 음소를 판별하므로 데이터베이스와 계산용량이 작아 상대적으로 적은 용량의 컴퓨터에 의해서도 음성을 정확하게 인식할 수 있다. 따라서 본 발명은 핸드폰이나 PDA 등과 같이 휴대용 장치의 음성인식수단(STT)에 널리 사용될 수 있다. 또한 음소단위로 인식과정을 수행함으로써 인식 어휘 수에 제한이 없다.

Claims

음성신호를 입력받아 피치를 검출하여 피치위치정보를 출력하는 피치검출기;

상기 피치검출기로부터 피치위치정보를 입력받아 피치데이터를 규격화한 후 특징벡터를 추출하여 기 등록된 표준피치 데이터와 비교하여 유성음소 문자열을 생성하는 피치데이터 분석기;

음성신호를 입력받아 묵음구간을 검출하여 묵음구간정보를 출력하는 묵음구간 탐색기;

상기 피치위치정보와 묵음구간정보를 입력받아 무성음구간을 정하고, 상기 음성신호를 입력받아 무성음소 문자열을 출력하는 무성음 식별기;

상기 유성음소 문자열과 무성음소 문자열, 묵음구간정보를 입력받아 발음문자에 대응하는 단음절을 생성하는 음절구분기; 및

상기 음절구분기의 단음절을 입력받아 문법규칙을 적용하여 표준 언어 문자열을 생성하는 언어분석기를 구비한 것을 특징으로 하는 음성인식시스템.
제1항에 있어서, 상기 피치검출기는

음성신호를 입력받아 파형을 단순화하는 파형 단순화 필터;

상기 파형 단순화 필터의 출력을 기준으로 소정 채널의 임펄스 트레인을 생성하는 임펄스 트레인 생성기;

소정의 피치선택규칙을 적용하여 피치위치를 검출하는 피치선택부; 및

상기 피치선택부에 의해 검출된 피치위치를 원 입력신호와 단순화된 신호 사이의 위치 차이만큼 보상하는 위치보상기로 구성된 것을 특징으로 하는 음성인식시스템.
제2항에 있어서, 상기 파형 단순화 필터는 산술평균 필터로 구현된 것을 특징으로 하는 음성인식시스템.
제2항에 있어서, 상기 피치선택부는 임펄스 트레인 채널 1~3이 일치되는 위치를 기준으로 선택하거나 채널4~6이 일치되는 위치를 기준으로 피치점을 선택하는 것을 특징으로 하는 음성인식시스템.
제1항에 있어서, 상기 피치데이터 분석기는

피치위치정보를 입력받아 입력신호에서 피치를 추출하여 피치길이정보를 출력하는 피치추출기; 상기 피치길이정보를 입력받아 규격화하는 피치데이터 규격화부; 상기 규격화된 피치 데이터에서 특징벡터를 추출하는 특징 추출기; 미리 정의된 표준 피치 데이터를 저장하고 있는 표준 피치 데이터베이스; 상기 특징 추출기로부터 입력받은 특징벡터와 상기 피치 추출기로부터 입력받은 피치길이정보를 상기 표준 피치 데이터베이스의 기준치와 비교하여 유성음소 문자열을 결정하는 특징벡터 비교기로 구성된 것을 특징으로 하는 음성인식시스템.
제5항에 있어서, 상기 표준 피치 데이터베이스는 음소별로 피치길이를 소정 주파수 대역에서 소정 주파수 간격으로 구별한 것을 특징으로 하는 음성인식시스템.
제5항에 있어서, 상기 피치데이터 규격화부는

인접한 두 피치점을 잇는 선의 기울기 A를 구하고, 각 피치점을 기준으로 소정 시간 영역을 탐색하여 극소점을 찾아 두 극소점을 잇는 선의 기울기 B를 구한 후 두 기울기의 평균(C)을 구하여, 원래의 기울기 A에서 평균기울기(C)를 감하여 규격화된 기울기(A')를 구함으로써

n 번째 피치 데이터를으로 규격화하는 것을 특징으로 하는 음성인식시스템.
제1항에 있어서, 상기 묵음구간 탐색기는

입력신호에서 영교차율을 측정하는 영교차율 측정부; 입력신호에서 평균음압을 측정하는 평균음압 측정부; 영교차율과 평균음압, 피치위치정보를 입력받아 묵음구간정보를 출력하는 묵음구간 추출부로 구성된 것을 특징으로 하는 음성인식시스템.
제1항에 있어서, 상기 무성음 식별기는

음성신호와 피치위치정보를 입력받아 무성음구간에서 무성음신호를 추출하는 무성음 분류기; 무성음구간의 음성신호를 분석하여 무성음을 마찰음, 파열음, 비음 등으로 구분한 후 무성음 특징벡터를 추출하는 무성음 특징 추출기; 무성음 특징벡터를 무성음 표준 데이터와 비교하여 무성음소 문자열을 결정하는 무성음 특징 비교기를 포함하는 것을 특징으로 하는 음성인식시스템.
음성신호를 입력받아 파형을 단순화하는 파형 단순화 필터;

상기 파형단순화 필터의 출력을 기준으로 소정 채널의 임펄스 트레인을 생성하는 임펄스 트레인 생성기;

소정의 피치선택규칙을 적용하여 피치위치를 검출하는 피치선택부; 및

상기 피치선택부에 의해 검출된 피치위치를 원 입력신호와 단순화된 신호 사이의 위치 차이만큼 보상하는 위치보상기를 포함하는 것을 특징으로 하는 피치검출기.
제10항에 있어서, 상기 파형단순화 필터는 산술평균 필터로 구현되는 것을 특징으로 하는 피치검출기.
제10항에 있어서, 상기 피치선택부는

상기 임펄스 트레인 생성기가 6채널의 임펄스 트레인을 생성할 경우에,

선택규칙1: 현재 데이터 위치에서 채널2의 임펄스가 존재하고, 채널1과 채널3 중에서 적어도 하나의 임펄스가 존재하며, 이전에 선택된 피치점과 현재 위치 사이에 채널 4~6의 임펄스가 3개 이상 존재하는 경우, 현재 위치를 피치점으로 선택하고,

선택규칙2: 현재 데이터 위치에서 채널 4~6의 임펄스가 모두 나타나고, 이전 피치점과 현재 위치 사이에 채널2의 임펄스가 존재하며, 그 채널2 임펄스와 이전에 선택된 피치점 사이에 채널4~6의 임펄스가 2개 이상 존재하는 경우, 채널2 임펄스의 위치를 피치점으로 선택하며,

선택규칙3: 현재 데이터 위치에서 채널4의 임펄스가 존재하고, 채널5와 6중에서 적어도 하나의 임펄스가 존재하며, 이전에 선택된 피치점과 현재 위치 사이에 피치점 후보가 존재하고, 그 피치점 후보와 이전에 선택된 피치점 사이에 채널 4~6의 임펄스가 2개 이상 존재하는 경우, 피치점 후보의 위치를 피치점으로 선택하는 것을 특징으로 하는 피치검출기.
음성신호를 입력받아 음성신호에 대응하는 문자열을 생성하는 스피치문자변환(STT) 방법에 있어서,

상기 입력된 음성신호에서 피치를 검출하는 단계;

상기 검출된 피치위치정보와 음성신호를 분석하여 피치구간과 묵음구간, 및 무성음구간을 설정하는 단계;

상기 피치구간에서 한 주기 피치패턴을 소정의 표준 데이터와 비교하여 유성음소를 판별하는 단계;

상기 무성음구간에서 한 주기 피치패턴을 소정의 표준 데이터와 비교하여 무성음소를 판별하는 단계; 및

상기 판별된 유성음소와 무성음소를 소정 규칙에 따라 결합하여 단음절을 생성하는 단계를 포함하는 것을 특징으로 하는 음성인식방법.
제13항에 있어서, 상기 피치구간 후에 약피치구간을 설정하고, 상기 약피치구간에서 종성으로 오는 유성자음을 판별하는 단계를 더 구비한 것을 특징으로 하는 음성인식방법.