KR20010096490A

KR20010096490A - 이동통신을 위한 철자 음성인식장치 및 방법

Info

Publication number: KR20010096490A
Application number: KR1020000060110A
Authority: KR
Inventors: 팬제임즈; 김윤; 창조셉핀; 첸주인-얀
Original assignee: 추후제출; 버블텍 인코포레이티드
Priority date: 2000-03-30
Filing date: 2000-10-12
Publication date: 2001-11-07
Also published as: EP1139332A2; JP2002108387A; US6304844B1; CN1315809A; EP1139332A3; TW504663B; EP1139332A9

Abstract

전통적인 시스템의 계산력 및 메모리 필요, 고전력 소비, 복잡한 동작 시스템, 고비용, 및 중량화 없이 단어의 더 큰 변화를 처리할 수 있고 많은 다양한 장치에서 동작가능한 정확한 음성인식 시스템. 단어를 전송하기 위한 개별적인 문자 발성의 사용은 휴대폰, PDAs, 및 다른 통신 장치를 위한 인간 대 인간 통신 및 인간 대 기계통신 양쪽 모두를 위한 음성정보전송을 허용한다. 본 발명은 마이크로폰, 음성 입력 신호의 파라메트릭 신호를 발생하는 전단부 신호 처리기, 발음 데이터베이스, 문자 발음의 파라메트릭 표시와 입력 신호의 파라메트릭 표시를 비교하고 입력 음성 및 발음 데이터베이스에 있는 문자사이에 있는 일련의 연합의 발생하는 문자 유사성 비교기, 어휘 데이터베이스, 어휘 데이터베이스에 있는 단어와 집합된 복수의 문자를 비교하고 그들 사이에 있는 일련의 연합을 발생하는 단어 유사성 비교기, 및 선택된 문자 및 단어를 확인하기위해 표시하는 표시부를 포함하는 음성 인식 시스템을 위한 장치 및 방법이다.

Description

이동통신을 위한 철자 음성인식장치 및 방법{SPELLING SPEECH RECOGNITION APPARATUS AND METHOD FOR MOBILE COMMUNICATION}

본 발명은 보통 음성인식 시스템에 관한 것이고 더 상세하게는 이동통신장치를 위한 음성인식 시스템에 관한 것이다.

인간에서 기계로의 정보의 전송은 손동작의 키보드를 통해서 전통적으로 얻어졌는데, 이것은 적어도 두 인간 손의 편리한 핑거-스프레드(finger-spread)만큼 큰 차원을 갖는 기계를 전제로 한다. 정보입력을 요하지만 전통 퍼스널 컴퓨터보다 작은 전자장치의 출현으로, 정보 입력은 펜 포인팅, 터치패드, 및 음성명령과 같은 다른 형태를 취하게 되었다. 펜포인팅및 터치패드에 의해서 전송될 수있는 정보는 (퍼스널 디지털 어시스턴트(PDAs)및 휴대폰과 같은)장치의 표시 능력에 의해 제한된다. 그러므로, 상당한 연구가 전자장치를 위한 음성인식시스템에 대해 이루어져왔다. 기계에 의한 음성인식의 접근중에는 기계가 음향 특성 및 음성 소리사이에 알려진 관계 및 신호의 관찰된 음향 특성에 근거한 음성 신호파형을 해독하려는 시도가 있다. 이 음향-음성 접근은 거의 50년 동안 연구의 주제이었지만, 실제 많은성공을 거두지 못했다(Fundamentals of Speech Recognition, L.Rabiner & B.H.Juang, Prentice-Hall 참고). 문제가 많은데, 예를 들어, 음성 파형플롯에서 조차, "침묵에서 약한 음, 무성음("f" 또는 "th"와 같은)을, 무성음 또는 침묵에서조차 약한 음, 유성음("v" 또는 "m"과 같은)을 구별하는 것이 자주 어렵고" 가깝게 이웃하는 음성 단위, 소위 소리의 동시조음의 동일성에 의존하는 많은 다양성이 있다(상기 문헌 참고). 해독 후에, 음향-음성 접근에서 단어의 결정이 구두 입력에 매칭할 것 같은 일련 세트의 음소를 표시하는 소위 음소 격자(phoneme lattice)의 사용에 의해 시도되었다. 격자에 있는 음소의 수직 위치는 음성단위에 대하여 음향 매칭의 충실도의 측정이다("사전 접근(lexical access)"). 그러나 "음성인식에 대한 음향-음성 접근의 진짜 문제점은 사전 접근단계를 위한 신뢰할 만한 음소 격자를 얻는 것이 어렵다는 것이고"(상기 문헌 참고); 즉, 임의의 언어의 고유의 큰 다양성때문에 발성을 정확히 등급매기는 것이 거의 불가능하다.

패턴 인식(pattern-recognition) 접근에서, 주어진 음성패턴의 버전의 지식 베이스는 조합되고("트레이닝"), 인식은 지식 베이스에 있는 음성패턴과 입력 음성패턴을 비교함으로써 얻어져서 최상의 매칭을 결정한다. 패러다임은 다음 네 단계를 갖는다:(1)스펙트럼 분석을 사용한 특성추출,(2)발성 분류를 위한 기준 패턴을 생산하는 패턴 트레이닝,(3)두 잘 정의된 스펙트럼 벡터 사이에 있는 스펙트럼 "거리"를 측정하고 두 패턴의 스피킹의 다른 비율을 보상하는 타임정렬(다이내믹 타임 워핑, DTW)에 의해 등급 기준 패턴과 알려지지 않은 테스트 패턴을 비교하는 패턴 분류, 및 (4)유사성 스코어가 최상 매칭을 선택하기 위해서 사용되는 로직 결정. 패턴 인식은 특별히 단계(2) 및 (3)을 위해 과중한 계산을 요하고 소리 등급의 상당한 수를 위한 패턴 인식은 자주 금지된다.

그러므로, 정보 입력을 위한 인간 음성에 의지하는 시스템은, 음성의 고유의 변덕(vagary)(동음자, 단어 유사성, 액센트, 소리 레벨, 음절 강조, 음성패턴, 배경 소음등등을 포함하는)때문에, 정확도의 최소레벨조차 얻기 위해서 상당한 신호처리력 및 많은 룩업 테이블 데이터베이스를 요한다. 메인 프레임 컴퓨터 및 고단부 워크 스테이션은 음성인식의 수용가능 레벨에 접근하기 시작하고 있지만, 현재 퍼스널 컴퓨터(PCs)에서 유용한 메모리 및 계산력에서 조차, 이 기계들을 위한 음성인식은 이제까지 구체적 음성 명령의 주어진 세트에 크게 제한되어 있다. PDAs, 휴대폰, 장난감, 오락장치와 같이, PCs보다 훨씬 적은 메모리 및 처리력을 갖는 장치에 있어서, 자연 음성의 정확한 인식은 지금까지 불가능했다. 예를 들어, 전형적인 음성-구동 휴대폰은 이름을 반복하고 그다음 관련 번호를 입력함으로써 사전프로그래밍을 허용한다. 사용자가 연속적으로 이름을 반복할 때, 휴대폰안에 있는 마이크로프로세서는 저장된 번호와 반복된 이름의 음성 패턴을 매칭하려고 할것이다. 현재 음성구동 휴대폰을 사용했던 사람은 누구나 아는 바와 같이, 매칭은 (일치하지 않는 발음, 배경 소음, 및 처리능력의 부족으로 인한 고유의 제한성으로 인해서) 가끔 부정확하고 오직 약 25개의 저장된 수만이 가능하다. PDAs장치에서, 장치제조자가 매우 제한된 음성인식이라도 얻기 위해서는 광대한 재설계를 수행하는 것이 필요하다(예를 들어, 현 PDAs는 음성입력에 반응하여 데이터베이스를 조사할 수 없다).

음성입력을 위한 철자단어에 대해서, 혼동가능 세트에 관한 문제가 있다:{A,J,K},{B,C,D,E,G,P,T,V,Z},{Q,U},{I,Y}, 및 {F,S,X}. 이것들은 보통 발성의 작고, 엄밀한 부분에 근거하여 구별될 수 있을 뿐이다. 종래 인식은 전체 발성지속에서 단순 누적된 왜곡 스코어에 의존하기 때문에(이진적인 "예' 또는 "노"), 이것은 나쁜 인식 정확도를 초래하는 엄밀한 부분에 충분한 강조를 두지 않는다. 명백하게, 접근은 엄밀한 부분에 비중이 두어져야 하지만, 이 방법은 높은 인식 정확도를 얻지 않았고 과중한 계산부담을 갖는다.

요컨대, 정확하고 빠른 음성 인식에 필요한 메모리 및 계산은 또한 증가된 전력 및 복잡한 동작 시스템을 요구하고; 이 모든 수행들은 비용을 증가시킨다. 이렇게 현 음성 인식 기술은 그들의 무게, 전력 요구, 복잡성, 및 비용때문에 이동 통신을 위해 실용성이 없다.

도 1은 본 발명에 따라서 개별화된 데이터 베이스를 창조하는 시스템의 블록도.

도 2는 본 발명에 따른 음성 인식 시스템의 블록도.

도 3은 본 발명에 따른 LPC전단부 프로세서의 블록도.

도 4는 본 발명에 따른 문자 음성 인식 시스템의 블록도.

도 5는 본 발명에 따라서 마이크로폰에 의해 발생될 때 문자를 위한 파형의 예시도.

도 6은 본 발명에 따른 토털 왜곡 켑스트럼을 계산하는 다이내믹 타임 워핑 초기화 순서도 공정도.

도 7은 본 발명에 다른 토털 왜곡을 계산하는 다이내믹 타임 워핑 반복 공정 순서도.

도 8은 본 발명에 따른 토털 왜곡의 상대치를 계산하는 다이내믹 타임 워핑 순서도.

도 9는 거기에 설치된 본 발명의 실현을 갖는 휴대폰의 시스템 구조의 블록도.

도 10은 종래 기술 시스템 ART및 Sensory와 비교하여 본 발명의 한 실시예의 단어 인식 수행 결과를 설명하는 도면.

그러므로, 계산력과 메모리 요구, 고전력 소비, 복잡한 동작 시스템, 고비용, 및 전통 시스템의 무게를 갖지 않으면서, 많은 다른 장치에서 동작가능하고 단어의 광대한 변화를 신속히 처리할 수 있어 음성정보 전송이 휴대폰, PDAs, 전자장난감, 오락생산품, 및 통신을 요구하는 다른 장치를 위한 인간 대 인간 및 인간 대 기계 통신을 위해 실현가능한 정확한 음성인식 시스템이 필요하다. 본 발명은 저처리력 및 제한된 메모리 저장 능력을 갖는 전자장치를 위한 정확한 음성인식을 제공한다. 정확도는 주로 단어를 전송하기 위해 개별적인 수문자(alphanumeric) 조합의 캐릭터 발성을 사용함으로써 얻어져 사전적 접근 문제를 극복한다. 개별적인 수문자 발성은 타임 영역에서 거의 변하지 않고 단절(개별적인 캐릭터 또는 문자를 구술하는 사이에 있는 전형적인 단절)에 의해 분리되는 음성파형을 생산하기 때문에, 본 발명은 동시조음에 관련된 애매함 및 약한, 무성음을 구별하는 문제를 해결한다. 본 발명은 마이크로폰, 음성 입력 신호의 파라메트릭 표시를 발생하는 전단부 신호처리기, 발음 데이터베이스, 문자 발음의 파라메트릭 표시와 입력신호의 파라메트릭 신호를 비교하고 입력 음성 및 발음 데이터베이스안에 있는 문자사이에 일련의 연합을 발생하는 문자 유사성 비교기, 어휘 데이터베이스, 어휘 데이터베이스안에 있는 단어와 집합적 복수의 문자를 비교하고 그들 사이에 있는 일련의 연합을 발생하는 단어 비교기, 및 확인을 위해 선택된 문자 및 단어를 표시하는 표시부를 포함한다.

도 1은 본 발명의 개별화된 데이터베이스(100)의 블록도이다. 마이크로폰(101)은 가청 음성 현(voice string)(예를 들어, 알파벳 또는 개별적인 중국어 캐릭터의 문자)을 수신하고 음성현을 전자 파형 신호로 변환한다. 전단부 신호처리기(102)는 파형을 처리하여 인식 및 비교에 적당한 파형의 파라메트릭 표시를 생산한다. 바람직한 실시예에서, 음성 현은 선형 예측 부호화(LPC)에 의해 처리되고, 각각의 문자를 위한 파라메트릭 표시(즉, 각각의 가청 주파 신호를 더 분명히 묘사하기 위해서 파형 데이터에서 여분의 정보를 제거하는 "특성 추출(feature extraction)")를 생산한다. 그 결과, 영어 알파벳 문자의 경우, 26×26행렬이고, 이것은 행이 각각의 캐릭터 또는 문자의 파라메트릭 표시를 담고 열은 입력된 음성 캐릭터 또는 문자를 담을 것이다. 본 발명에서, 행렬은 발음 데이터베이스(103)에 저장된 문자의 개별적인 사용자의 발음으로 구성되는"보정형판(calibration template)"이다. 음성입력이 보정형판에 의해 보정되기 때문에, 전형적인 음성 인식 부정확성은 단어 비교에서 피해진다(샘플 보정표가 참고로 첨부되었다).

도 2는 본 발명의 바람직한 실시예의 블록도이다. 마이크로폰(101)은 일련의 압력된 발성을 수신하는데 이것은 전단부신호처리기(102)에 전송되어 파라메트릭화된 음성 현 파형 세트를 형성하고 그다음 이것은 개별적인 발성(예를 들어, 문자)을 위한 최상의 매칭을 선택하기 위해서 문자 비교기(201)를 사용하는 발음 데이터 베이스(103)와 비교된다. 예를 들어, 이름 "Michael"이 "n-y-d-h-a-b-l"(문자의 혼동 가능한 발음으로 인한 어떤 에러)로 부정확게 발음되었다고 가정하자. 한 실시예에서, 문자 비교기(201)는 음성 현을 수용하고, 발음 데이터베이스(103)에 있는 음성 현 발성 및 보정형판사이에 있는 "거리"를 결정한다. 또 다른 실시예에서, 유사하게 발음된 문자(또는 임의의 소리)는 유사성에 근거하여 분류하고, 그래서 비교는 더 효과적이다. 단어 유사성 비교기(202)는 사전 기록된 어휘 데이터베이스(203)안의 입력에 문자의 보정된 결과를 비교한다. 예를들어, 단어의 문자가 정확하게 인식되지 않을지라도, "Michael"과 같은 오직 제한된 수만의 감각적인 단어가 존재하기 때문에, 정확한 단어 매칭의 기회는 상당히 증가한다. 본 발명의 바람직한 실시예에서, 어휘데이터 베이스(203)는 본 발명의 양수인인, VerbalTek, Inc.에서 나온 유용한 사전 데이터베이스이다. 본 발명의 또 다른 실시예는 어휘 데이터베이스(201)로 입력된 Motorola의 사전 데이터베이스를 유익하게 사용한다. 본 발명의 또 다른 실시예는 사용자에 의한 주소북 입력을 사용한다. 본 발명은 어휘 데이터베이스(203)를 위해 사용자에 의해 요구되는 임의의 용어로 구성되는 단어 사전을 꾀한다. 예를 들어, 노력의 구체적 영역(상업, 사업, 서비스 산업, 기술 학술, 및 법, 의학, 회계등등과 같은 전문직)을 위한 전문화된 단어는 어휘 데이터베이스(203)에 유익하게 입력될 수 있다. 더 나아가, 본 발명이 중국어와 같은 단음절 단어 언어를 위한 유익한 사용을 꾀한다는 것은 당업자들에 의해 이해되어야 한다. 입력된 파형과 어휘 데이터베이스(203)에 있는 사전 기록된 파형과의 비교를 통해서 구두 입력과 매칭될지도 모르는 일련 세트의 음소가 발생되고, 음소격자가 발생된다. 격자는 어휘 데이터베이스(203)에 있는 단어와의 각각의 입력된 조합의 근접도에 근거하여 각각의 입력된 파형에 "스코어"를 할당함으로써 구성되어진다. "근접도"표준은 입력 파형 및 저장된 어휘 파형사이에 계산된 왜곡에 근거하여 "왜곡 스코어(distortion score)"를 발생한다. 스코어가 개별화된 발음 데이터베이스와의 상대적으로 정확한(전통음성 인식 음향-음소 방법에 비하여) 문자 또는 캐릭터의 매칭에 근거하기 때문에, 음소 격자는 95%이상의 정확도에서 단어 매칭을 생산한다. 그다음 단어를 위한 최상 매칭은 표시부(204)에 표시된다.

본 발명의 바람직한 실시예에서, 음성 파형(그것의 예가 도 5에 보여진다)을 파라메트릭 표시로 변환하는 전단부 신호 처리는 선형 예측 부호화(LPC)를 사용한다. LPC는 (1)LPC가 무성음 영역에서 보다 음성 스펙트럼 엔벨로프(spectral envelope)의 유성음 영역에서 더 효과적이고, 본 발명은 뚜렷한 문자 소리를 강조하는 철자 발성을 유익하게 사용하고 자연 단절을 갖기 때문에(그래서 무성음은 덜 중요하다), 및 (2)LPC는 보컬 트랙(vocal tract) 특성을 고려하는 계산적으로 효과적인 표시를 제공하기 때문에(그래서 개별화된 발음이 최소 처리 및 저장으로 얻어지도록 허용한다) 본 발명에 특별히 적당하다. 본 발명에서 LPC의 특별한 효과는 예를 들어, 음성 세그먼트가 (유한한 길이 윈도우에 의해 음성 신호를 곱하는 것과 동등한)주어진 간격의 밖에서 동일하게 0인것으로 가정하는, LPC자기상관방법에서 설명된다. LPC전송함수에서, H(z)=S(z)/GU(z)이고 여기서 소오스의 이득 G는 음성신호에서 계산되고 눈금이 있는 소오스가 디지털 필터H(z)에 입력으로서 사용되고, 이것은 생산된 음성의 보컬 트랙 파라메트릭 특성에 의해 제어된다.

도 3은 본 발명의 바람직한 실시예에 따른 LPC전단부 처리기(102)의 블록도이다. 바람직하게 고정된 저차원 디지털 시스템(전형적으로 제 1차 FIR필터)인 프리엠퍼사이저(301)는 스펙트럼으로 신호s(n)를 플래트닝하고 다음과 같이 설명된다:

여기서 0.9≤a≤1.0이다. 본 발명의 또 다른 실시예에서, 프리엠퍼사이저(301)는 다음의 전송 함수를 갖는 제 1차 적응성 시스템이다.

여기서 a_n는 타임(n)과 함께 변하고, 예를 들어, a_n=r_n(1)/r_n(0)여기서 r_n(i)은 자기상관의 수열의 i번째 샘플이다.

프레임 블록커(302)는 N샘플안에 있는 음성 신호를 블록킹하고, 이웃하는 프레임은 M샘플에 의해 분리된다. 본 발명의 실시예에서, 사이에 아무 분리 없이 20㎳ 프레임에 대응하여, 음성의 샘플링률이 8㎑일 때, N=M=160. 프레임 당 한 특성이 존재하여서 일 초 발성동안에(50프레임 동안), 12파라미터가 프레임 데이터를 표시하고, 50×12행렬이 발생된다(형판 특성 세트). 윈도우어(303)는 각각의 개별적인 프레임을 윈도우잉하여 각각의 프레임의 초기 및 단부에서 신호 불연속성을 최소화한다. 바람직한 실시예에서 각각의 프레임의 초기 및 단부에서 신호 불연속성이 존재한다. 본 발명의 바람직한 실시예에서, M=N인 경우에, 직각 윈도우는 윈도우 경계에서 데이터의 손실을 피하기 위해 사용된다. 자기상관기(304)는 다음을 나타내는 자기상관을 수행한다.

여기서 m은 0,1,...,p이고, p는 LPC분석의 차수이다. 본 발명의 바람직한 실시예는 P=10을 사용하지만, 8 내지 16까지의 p의 값은 다른 실시예에 유익하게 사용될 수 있고 정확도를 증가시키는 다른 값은 본 발명의 계획안에 또한 있다. 0번째 자기상관은 주어진 프레임의 프레임 에너지이다. 켑스트럴 계수 발생기(305)는 기술상 알려져 있는 Durbin의 방법을 사용하여 각각의 프레임을 켑스트럴 계수(로그 진폭 스펙트럼(log magnitude spectrum)의 역 푸리에 변환, 아래를 보라)로 변환한다. 테이퍼 켑스트럴 윈도우어(tapered cepstral windower)(306)는 잡음의 효과를 최소화하기 위해서 켑스트럴 계수에 비중을 둔다. 테이퍼 윈도우어(306)는 전체 스펙트럼 경도에 대한 저차 켑스트럴 계수 및 잡음(또는 다른 바람직하지 않은 다양성)에 대한 고차 케스트럴 계수의 민감도를 낮추기 위해서 선택된다. 시간 미분기(307)는 적정치(본 발명에서, 유산 길이 윈도우 도함수의 최소 제곱 추정치)에 맞는 오쏘고날 다항식을 사용하여서 켑스트럴 계수의 제 1차 도함수를 발생하여서 처리된 신호S'(n)을 생산한다. 또 다른 실시예에서, 2차 도함수는 역시 기술상 알려진 근사치 기술을 사용하는 시감 미분기(307)에 의해서 발생될 수 있어 그이상의 음성 신호 정보를 제공하여 음성신호의 스펙트럼 특성의 표시를 향상시킨다. 그러나 또 다른 실시예는 시간 미분기를 건너 뛰어 신호S"(n)을 제공한다. LPC를 사용한 전단부 신호처리기(102)의 위의 설명 및 위에서 설명된 기술은 바람직한 실시예의 개시를 위한 것이고 전단부 신호처리의 다른 기술 및 방법은 본 발명에 유익하게 사용될 수 있다는 것이 이해되어야 한다. 비교 기술 및 발성의 현을 매칭하는 방법은, 그들이 개별적인 캐릭터 및 단어일지라도, 실질적으로 유사하고, 그래서 다음 설명은 비교기(201와 202) 양쪽 모두를 포함한다.

본 발명의 바람직한 실시예에서, 파라메트릭 표시는 켑스트럴 계수를 사용하고 입력된 음성은 켑스트럴 거리를 비교함으로써 사전 기록된 데이터베이스에서 문자 또는 단어현 입력과 비교된다. 입력된 문자들은(또는 단어 조합에 있는 문자) 유사성에 따라서 분류되어진 다수의 후보 캐릭터(또는 문자)매칭을 발생한다. 입력 파형과 사전 기록된 파형과의 비교에서, 구두 입력에 매칭할지도 모르는 일련의 음소는 발생되고, 이것은 행렬에서 정렬될 때, 음소 격자를 생산한다. 격자는 각각의 입력된 파형에 어휘 데이터베이스안에 있는 단어와의 각각의 입력된 조합의 근접도에 근거된 "스코어"값을 할당함으로써 정렬된다. "근접도"표준은 입력 파형 및 저장된 어휘 파형사이에 있는 켑스트럴 거리에 근거하여서 "왜곡 스코어(distortion score)"를 발생한다. 스코어가 상대적으로 정확한(전통적인 음성인식 음향-음소 방법에 비하여) 캐릭터의 매칭에 근거하기 때문에, 본 발명의 음소 격자는 95%이상의 정확도의 단어 매칭을 생산하다.

도 4는 문자 보정기(401)에 입력된 파형 파라메트릭 표시를 보이고, 여기서, 발음 데이터베이스(103)와 관련하여, 보정 행렬(예가 첨부되었다)이 발생된다. 왜곡 계산기(402)는 입력된 음성 및 바람직한 실시예에서, 계산된 켑스트럴 거리(아래에 설명됨)에 근거한 발음 데이터베이스(103)안에 있는 입력 사이에 있는 왜곡을 계산한다. 그다음 스코어 계산기(403)는 사전 결정된 (켑스트럴 거리와 같은)표준에 근거하여 스코어를 할당하고 실렉터(404)는 후보 문자(단어)를 계산한다. 주파수 스케일에 대한 로그 진폭위에 있는 두 음성 스팩트럼 사이에 있는 차이는

두 음성 특성 벡터 사이에 있는 차이점을 표시하기 위해서, 바람직한 실시예는 (주파수에 대하여)로그 진폭의 평균 절대값, 즉, 놈(norm)의 세트를 사용한 실효값(rms) 로그 스펙트럼 왜곡(또는 "거리")측정을 사용한다.

여기서 p=1때, 이것은 평균 절대 로그 스펙트럼 왜곡이고 p=2일때, 이것은 실효값 로그 스펙트럼 왜곡이다. 바람직한 실시예에서, 거리 또는 왜곡 측정은 신호의 복잡한 켑스트럼에 의해 표시되고, 이것은 신호 스펙트럼의 로그의 푸리에 변환으로서 정의된다. ω=0에 대하여 대칭성인 멱 스펙트럼에 대하여, 로그S(ω)의 푸리에 급수 표시는

여기서 c_n=c_-n는 켑스트럴 계수이다.

여기서 c_n및 c_n'은 각각 S(ω) 및 S'(ω)의 켑스트럴 계수이다. 예를 들어 바람직한 실시예에서 10-30 텀과 같이, 무한히 합하지 않음으로해서, 본 발명은 절단된 켑스트럴 거리를 사용한다. 이것은 실효값 로그 스펙트럼 거리를 효과적으로(상대적으로 낮은 계산 부담을 의미하는) 추정한다. 음성 신호의 인식된 크기가 대략 대수이기 때문에, 로그 스펙트럼 거리의 선택은 주관적인 소리 차이를 구별하기에 매우 적당하다. 더 나아가, 낮은 켑스트럴 계수의 다양성은 주로 음성 변덕 및 전송 왜곡에 기인하여서 켑스트럼(켑스트럴 거리의 세트)은 왜곡 측정을 위해 유익하게 선택된다. 동일한 발성의 다른 음향 연출은 자주 다른 시간율로 말해져서 구술 속도 다양성 및 지속 다양성은 언어 차이 스코어에 기여하지 않아야 한다. 다이내믹 타임 워퍼(DTW)(408)는 스펙트럼의 다이내믹 행동 분석을 수행하여 입력된 발성 및 매칭된 데이터베이스 값사이에 있는 차이점을 더 정확하게 결정한다. DTW(408)는 비교되는 두 패턴의 음향 특성을 맵핑하는 격자를 통해서 "최상"을 찾음으로써 구술율 요동(speaking rate fluctuation)을 타임 정렬하고 정상화한다. 바람직한 실시예에서, DTW(408)는 차이점의 다이내믹 프로그래밍 최소화에 의해서 최상의 통로를 찾는다. 두 워핑 기능, ψ_x및 ψ_y은 공동 타임 축, k로 음성 패턴의 두 시간 요동 표준, i_x및 y_y에 각각 관한것이어서,

전체 패턴 차이점 측정은 다음과 같은 전체 발성에 관한 누적 왜곡과 같이, 워핑 기능 쌍에 근거하여, 정의된다:

여기서 d(ψ_x(k),ψ_y(k))는 x_ψx(k)y_ψy(k)를 위해 정의된 단기 스펙트럼 왜곡이고, m(k)는 논네가티브 웨이팅 기능이고, M_ψ는 정상화 요소이고, T는 정상 타임 눈금위에 두 음성 패턴의 "정상"지속이다. 경로ψ=(ψ_x,ψ_y)은 전체 경로 차이점을 일관성있게 측정하기 위해서 선택된다. 본 발명의 바람직한 실시예에서, 차이점 d(X,Y)는 전체 경로에 걸쳐서 d_ψ(X,Y)의 최소치로서 정의되는데, 즉,

정렬 경로 수단을 따라 누적된 왜곡을 사용하면서 차이점이 구술율 차이를 보상하는 최상의 가능한 정렬에 근거하여 측정되기 때문에 위 정의는 X 및 Y가 동일한 단어의 발성일 때 정확하다. 다이내믹 프로그램은 최상 경로를 찾음으로써 위에서 즉시 설명된 것과 같은 일련의 결정 문제를 해결할 수 있다는 것이 알려져 있으며, 이것은 한 지점에서 다른 지점으로 이동하는 최소"비용"을 의미한다. 본 발명의 실시예에서, 이동에 관련된 단계의 수가 "한다면(if-then)"으로 결정되기 때문에, 일련의 결정은 비동기적이다. 결정은 최상 경로 조사가 증가적으로 동작하게 허용하는 재귀 관계를 사용하고 아래에 설명된 바와 같이 본 발명의 바람직한 실시예에서 알고리즘에 의해서 수행된다. 목적지 지점과 함께, 최상 경로 ("폴리시(policy)")안에 다음의 지점을 결정하는 결정룰은 최소화되도록 요구되는 비용을 완전히 정의한다. 비용 ξ(j,i)를 유도하는 초기점 1에서 매개점 j로의 이동을 위한 최상 폴리시는 다음에 의해 주어진다.

그래서 지점 i에서 지점j로의 이동의 최상 시퀀스 및 관련된 최소 비용을 위해서,

또 다른 실시예에서, 일련의 결정은 동기적이고(고정된 수의 이동을 위한 결정 처리의 질서(regularity),M), 관련된 최소비용ψ_m(i,1)은

이것은 본 발명의 실시예에서 사용되는 재귀관계이다.

위에서 설명된 양쪽 모두에서, 방법은 다음과 같이 (1)초기화, (2)재귀, (3)종료, 및 (4)백트랙킹(backtracking)의 단계를 따른다.

위 알고리즘은 계산적으로 경제적이고 그래서 본 발명에 의해 시도되는 포켓용 장치의 실현에 적당하다.

도 6, 7 및 8은 비교되는 형판사이에 있는 토털 왜곡을 계산하는 DTW(408)의 바람직한 실시예의 순서도를 구성한다. "거리"d(i,j)(위의 방정식11)는 형판X의 i번째 특성 및 형판 Y의 j번째 특성사이에 있는 왜곡이다. 도 6은 초기화 공정(601)을 서술하는데 여기서 이전의 거리는 602에서 d(0,0)이다. 그다음 표준 j는 603에서 증가되고 이전 거리는 이제 j(이전 거리[j-1]+d(0,j)과 동일한 이전 거리[j])에서의 거리이다. 605에서, j가 형판 Y(j<번호 Y)에서 특성의 번호보다 작으면, j는 606에서 증가할 것이고 이전 거리[j]의 새 계산을 위해서 604로 피드백될 것이다. j가 번호 Y보다 크지 않으면, 초기화는 완료되고 토털 왜곡을 위한 반복 공정(611)은 도 7에 도시된 바와 같이 개시한다. 612에서, 표준 i는 하나에서 설정되고 현 거리(현거리[0])는 이전거리[0] 더하기 d(i,0)와 같이 계산된다. 614에서, j는 1로 설정되고 관련된 거리 d1,d2,또는 d3으로 인도되는 가능 경로는 다음과 같이 계산된다:

현거리[j-1]+d(i,j)=d1

이전거리[j]+d(i,j)=d2

이전거리[j-1]+d(i,j)=d3.

그다음 관련 거리의 상대치는 도 8의 621 및 622에서 검사된다. d3이 d2보다 크지 않으면, d3은 최소이고 현거리[j]는 623에서 d3이 될 것이다. 626에서 Y형판에서의 특성의 번호보다 j번째 특성이 작은지를 시험한 후에, j는 617에서 증가하고 가능 경로의 거리의 계산으로 피드백되고 최소화 공정은 되돌아간다. d2가 d1보다 크고 d3이 d1보다 크다면, d1은 최소이고 그래서 현재거리[j]로서 설정된다. 그다음 j는 626에서 Y형판에서의 특성의 번호에 반하여 다시 검사되고, j는 617에서 증가되고 재귀를 위해 피드백된다. d3이 d2보다 크고 d1이 d2보다 크다면, d2는 최소이고 현재 거리[j]로 설정되고, 유사한 공정이 반복되어 증가되고 피드백된다. 이런 방법으로, 최소 거리는 발견된다. j가 626에서 형판Y에서의 특성의 번호보다 크거나 같으면, i는 그것이 형판 X-1에서의 특성의 번호와 같은지를 보기위해서 검사된다. i가 형판 X-1에서의 특성의 번호와 같지 않다면, 이전 거리는 618에서 (번호 Y-1에 이르는)j표준을 위한 현거리로서 설정되고, i는 616에서 증가되고 이전 거리 더하기 새 i번째 거리로서 현 거리의 설정을 위해 613으로 피드백되고 공정은 형판X-1에서 특성의 번호와 j가 동일한 매 i증가때마다 반복된다. i가 X형판-1에서의 특성의 번호와 동일하다면, 토털 왜곡은 628에서

와 같이 계산되어,토털 왜곡을 찾는 알고리즘을 완료하게 된다.

최상 인식 정확도를 얻기 위해서, 워핑 기능이 억제된다. 작은 음성 끝점 에러조차 음성 탐색 정확도에서 상당한 하락을 초래한다는 것이 기술상 알려져 있다. 제어된 환경에서 똑똑히 발음된 음성에서, 높은 탐색 정확도가 얻어질 수 있지만, (휴대폰과 같은)일반 사용에서, 스피커 소리의 엉뚱한 것(혀 차는 소리, 호흡, 딸각거리는 소리등을 포함한)이 들리고, 배경 소음, 및 전송 왜곡(크로스 토크, 상호 변조, 및 음색 간섭)은 정확한 끝점 탐색을 어렵게 한다. 발성이 잘 정의된 끝점(패턴의 개시 및 끝나는 프레임을 표시하는)을 가진다면, 유사성 비교는 더 정확한 인식을 초래할 것이다. 입력 발성을 위한 개별적인 철자의 사용에서, 본 발명은 개별적인 캐릭터(문자)의 일반적으로 더 정확한 발음 및 캐릭터 현이 발음되거나 단어가 철자될 때 개별적인 캐릭터(문자) 사이에 있는 전형적인 단절의 결과로서 정확도를 얻는다. 그래서 시간 편차는 끝점안에 있는 지역으로 일반적으로 한정된다. 워핑 기능의 제한조건은 처음 및 마지막 시간 요동 표준, i_x=1, 및 i_y=T로서 시작 및 끝점에서 값을 단순히 설정할 것이다. 이 끝점 제한조건들은 T_x및 T_y의 용어로, 방정식(11)을 통해서 본 발명으로 집약된다:

여기서 X 및 Y는 T_x및 T_y에서 각각 종료한다. 본 발명의 바람직한 실시예는 본 발명의 철자 입력 발성 음성 인식 시스템에 최상으로 적당한 다이내믹 타임 워핑 체제를 제공한다. DTW(408)은 방정식 15를 사용하여서 다음과 같이 (1,1) 및(i_x, i_y)를 연결하는 경로를 따라서 최소 부분 누적 왜곡을 발생한다:

여기서 ψ_x(T')=i_x및 ψ_y(T')=i_y이고 제한조건을 갖는 다이내믹 프로그래밍 재귀는 다음 과 같이 되다.

여기에서 ξ은 지점(i_x', i_y')및 (i_x, i_y)사이에 가중치 주어진 누적 왜곡(로컬 거리)이고,

여기에서, L_s는 ψ_x및 ψ_y에 따른 (i_x', i_y')에서 (i_x, i_y)로의 경로에서 이동의 수이다. 증가 왜곡ξ은 다양한 제한조건에 의해 정의된 경로를 따라서만 진화되어서, 최소화 공정은 제한조건안에서 효과적으로 해결될 수 있다. 그러나, 차이점의 발견적인 성질이 또한 다음 방법에 유익하게 포함되어질 수 있다;예를 들어, 본 발명에서 프레임은 다수의 세그먼트로 절단되어 "a" 및 "f"와 같은, 혼동가능문자 발성사이를 구별한다. 많은 다른 제한조건 및 제한조건의 조합이 본 발명의 범위안에 있다는 것이 이해되어져야 한다. 예를들어, 다른 문자의 발성에서, 가장 정확한 비교를 위한 타임 정렬은 잘 정의되는 언어 개념이 아니기 때문에 직관적인 제한조건이 본 발명에서 사용된다.

동작에서, 사용자는 스피커-독립 입력 디폴트 모드를 사용하고 여기에서 음성 인식을 위한 포장된 캐릭터(문자) 데이터베이스가 사용된다. 본 발명의 실시예에서, 메뉴 선택은 사용자가 남성 또는 여성 음성 인식 및 언어 선택을 선택하도록 허용한다. 발음 데이터베이스(103)은 남성 또는 여성 음성 또는 다른 언어를 위한 사전 기록된 형판을 포함한다. 사용자가 그의 선택된 언어에서 그 자신의 음성을 기록한다면, 이것은 발음 데이터베이스(103) 안에 기록될 것이어서 남성/여성/언어 형판은 필요하지 않을 것이다.

개별화된 데이터베이스(100)를 창조하기 위해서("트레이닝"), 사용자는 개별적인 소리사이에 적어도 0.2초의 단절을 갖는 육성으로 (영어를 예로 들면)"a"에서 "z" 및 "0"에서 "9"까지에서 시스템으로 구술함으로써 알파벳 및 수의 소리를 기록하여 "음성 현"을 발생시킨다. 본 발명의 한 실시예에서, 문자가 런-온(run-on) 한다면, 위에서 설명된 끝점 탐색 설계는 구분불가능 발성을 탐색할 것이고, 사용자는 표시부를 통해서 지시되어 반복을 그치고 처음부터 구술을 반복할 것이다. (도 5에서 보이는 것과 같은) 각각의 문자를 위한 파형을 생산하는 전단부 신호 프로세서(102)를 사용하여, 음성 현의 개별적인 문자는 변환된다. 그다음 파형은 세그먼트되고, 메모리에 주소가 할당되며 그다음 메모리에 저장되어 각각의 발성이 발음데이터베이스(104)로 맵핑된다("라벨링"으로 불리는 공정). 영어 알파벳의 문자의 발성 유사성 비교기(201)와 관련한 발음 데이터베이스(103)는 26×26행렬을 형성하고, 행은 발음 데이터베이스(104)안에 각각의 문자를 위한 저장된 파형을 함유하고 열은 인식 분석(샘플 행렬이 첨부되었다)을 위한 입력된 음성 문자를 함유할 것이다. 발성 유사성 비교기(201)는 입력된 발성과 행(발음 데이터베이스(103))안의 모든 문자를 비교하여 최상 매칭을 찾는다. 예를 들어, 입력된 단어"seat"는 사용자에 의해 "s-e-a-t"로 철자될 것이다. 전단부 신호 처리기(102)는 특성 추출을 수행하고, 이것은 예를 들어, 음성의 1초당 50 행의 켑스트럴 계수(또는 벡터)를 생산한다. 문자 발성 비교기(201)은 다이내믹 타임 워핑(DTW)을 사용하는 a에서 z까지의 발음 데이터베이스(103)에 있는 입력과 각각의 문자의 켑스트럴 거리를 비교한다. 입력된 음성이 2초간 지속되고(100프레임), 음성파일의 각각의 부분이 각각 25프레임이라면, 문자 발성 비교기(201)는 발음 데이터베이스(103)에 있는 알파벳의 26문자와 켑스트럴 벡터의 25행을 비교한다. 발음 데이터베이스(103)에 있는 각각의 문자가 25프레임 길이라면, DTW비교는 25×25이다. 발음의 변덕, 배경 잡음, 및 다른 요인때문에, 문자는 "x-e-k-d"(그것의 각각의 문자의 발음은 요구되는 문자와 유사하고, 그래서 잘못되어 "인식된다")로 인식된다. 본 발명의 바람직한 실시예에서, 데이터베이스안에 있는 문자와 비교되기 전에, 유사한 발음을 가진 문자는 함께 모아져서 조사는 더 효과적이다. 예를 들어, 본 발명의 바람직한 실시예에서의 그룹핑은 음절의 모음 소리를 강조하고 유사성 계산을 상당히 줄인 것이 발견되었고, 그래서 포켓형 장치를 위한 이상적인 그룹핑을 만든다. 예를 들어 이 그룹핑은동일한 그룹에 "a","j", 및 "k"를 할당하고;다른 그룹에 "x","s",및 "f"을 할당하고; 또 다른 그룹에 "b","c","d","e", 및 "g"를 할당한다. "s-e-a-t"예에서, 왜곡 스코어 기술의 설명으로서, 첫 문자"s"는 처음에 "x"로 인식되어서 켑스트럴 거리(예를 들어, 2.0)에 근거하여 할당된 영이 아닌 왜곡 스코어가 있을 것이고; 다음 문자"e"는 정확하에 인식되어서, 스코어는 0이 될 것이고; 다음 문자 "a"는 "k"로 인식되고 이것은 1.5의 스코어가 할당되고; 마지막 문자"t"는 "d"로 인식되고 이것은 1.0의 스코어가 할당된다. 단어를 위한 토털 왜곡 스코어는 4.5이다. 그다음 왜곡 스코어는 어휘 데이터베이스(203)안에 있는 단어와 연결되어 비교된다. 그러나, 연결된 선택된 후보 문자는 더 뚜렷하다(그리고"xekd"는 단어로서 존재하지 않는다). 단어 유사성 비교기(202)는 위에서 설명된 기술을 사용하여 왜곡 스코어를 계산하여서 압력된 "xekd"는 다음과 같은 왜곡 스코어를 생산할 것이다:

단어 유사성비교기(202)는 다이내믹 타임 워핑(DTW)을 사용하는 각각의 비교의 왜곡 스코어를 분류하여서 최하의 왜곡 스코어를 결정한다. 본 예에서 DTW 계산은 단지 4×4행렬(단어의 길이를 반영하는)를 요구하여서, 계산 효율이 얻어진다. 어휘 데이터베이스(203)에 있는 단어에 가장 근접한 매칭(또는 가장 큰 유사성)은"seat"이다. 표시부(204)는 사용자의 확인을 위해 선택된 단어를 표시한다. 임의의 문자 숫자식의 표시장치, 예를 들어 액정 표시장치(LCD)는 유익하게 사용될 수있다. 그다음, 휴대폰 또는 PDAs에서의 사용을 위해서, 문자의 조합은 단어를 구성하고 그다음 이것은 전송을 위해 전화번호 또는 다른 전송 표준에 매칭될 수 있다.

본 발명의 많은 실시예가 영어 알파벳에 근거함에도 불구하고, 그들은 단지 예일 뿐이고 본 발명의 범위는 물론 다른 언어를 포함한다는 것이 이해되어야 하고, 오직 제약은 그런 언어가 구별가능 소리에 근거되어야 한다는 것이다. 사실, 임의의 언어에서는 바뀔 수 있는, 발성의 내용 및 어휘 데이터베이스에 임의의 언어의 음성인식이 주로 의존하여서 그것이 본 발명에 의해서 얻어질 수 있기에 다수 언어 능력을 제공한다. 구두 소리및 데이터베이스와의 유사성 비교는 위에서 설명된 바와 같이 본 발명에 의해 얻어질 수 있고 정확도는 발음 데이터 베이스(104)를 구성하기 위해서 사용자가 소리를 구술함으로써 얻어질 수 있다.

작은 형태 요소로 인하여 본 발명의 실시예는 소비자 전자 장치의 기존하는 동작 시스템(예를 들어, 핸드폰을 위한 PDAs및 ARM7DMI를 위한 마이크로소프트 윈도우 CE)으로의 단순한 통합을 허용하여서, 광대한 재설계 및 재프로그래밍을 미연에 방지한다. 본 발명의 음성 인식 프로그램의 실시예는 또한 휴대폰 또는 PDA와 같은 장치의 플래시 메모리로 로드되어서, 기존의 전자 장치로의 본 발명의 쉽고, 빠르고, 저렴한 통합을 허용하여서, 호스트 장치의 DSP의 재설계 또는 재프로그래밍을 불필요하게 한다. 추가로, 음성 인식 프로그램은 플래시 메모리에 연결된 데이터 포트를 통해서 최종 사용자에 의해 메모리로 로드된다. 이것은 또한 인터넷에서의 다운로드로 얻어질 수 있다. 도 9는 거기에 설치된 본 발명의 실시예와 함께 핸드폰의 시스템 구조를 설명한다. 플래시 메모리(901)는 마이크로프로세서(902)에 연결되어 있고 이것은 교대로 DSP프로세서(903)에 연결된고, 이것은 플래시 메모리(902) 및 마이크로프로세서(902)와 관련하여 위에서 설명된 음성인식을 수행한다. 읽기 전용 메모리(ROM)장치(904) 및 랜덤 액세스 기억장치(RAM)(905)는 발음 데이터베이스(104) 및 어휘 데이터베이스(203)을 위한 메모리 저장을 제공함으로써 DSP프로세서(903)를 돕는다. 마이크로폰(907)을 통한 음성입력은 코더/디코더(CODEC)(906)에 의해 부호화된다. DSP프로세서(903)에 의한 음성 인식후에, 음성 신호는 CODEC(906)에 의해 해독되고 가청 확인을 위해서 스피커(908)로 전송된다. 대안적으로, 스피커(908)는 가시표시부일 수 있다. 본 발명의 애플리케이션 프로토콜 인터페이스(API)의 한 실시예로서, 베이스로서 ARM77TDMI를 사용한, 상술은 다음과 같다: 메모리 사용은 10KB의 코드 크기, 4KB의 스크래치 패드 크기를 요하고 (형판당)저장은 0.5KB이다. 계산 필요조건은 1.9MIPS의 음성 특성 추출이고 0.5MIPS의 형판당 음성인식이다.

전형적인 사용에서, 본 발명은 음성인식이 1-2초안에 얻어지도록 허용하여서 사용자와의 원활한 인터페이스를 제공한다. 검사 결과에서의 정확도는 일관성있게 95% 레벨 이었다. 본 발명의 한 실시예의 이름(단어)인식 수행 결과가 도 10에 되시되고 여기서 본 발명(VerbalLab)의 에러율은 종래 기술 시스템ART 및 Sensory와 비교된다. 검사는 8명의 스피커(3명의 여성 및 5명의 남성) 및 24이름을 사용했고 그중의 8개(Mickey Mouse, Minnie Driver, Bill Gate, Bill Cliton, Julius Smith,Julia Roberts, 및 Bruce Willis)는 애매하게 생각되었다. 본 검사의 모든 스피커들에 대해서, 본 발명은 상당히 적은 에러율을 가졌는데, 전체 에러율의 결과가 검사된 다른 시스템의 것의 절반보다 적었다.

특히, 본 발명이 중국어 및 한국어의 단음절 캐릭터-근거 문자(또는 단어)를 입력하기에 이상적이다라는 것이 알려져있다. 예를 들어, "휴대폰"을 위한 단어는 캐릭터 현"xing-dong-dian-hua"로서 음역된다. 각각의 단어는 단음절이고 그것의 고유 뜻(또는 몇가지 의미)을 갖지만, 집합적으로 "휴대폰"을 위한 유일한 의미를 포함한다. 본 발명은 개별적인 단음절 문자의 (부분적으로 발견적 보정으로 인한)매우 정확한 인식을 제공하고, 이것은 단어를 형성하기 위해서 집합적으로 취해질 때, 감각적인 선택의 제한된 수 때문에 상당히 더 정확한 인식을 생산한다.

상기는 구체적 실시예의 전체 설명인 반면, 다양한 변경, 대안적인 구조 및 동등물이 사용된다. 예를 들어, 본 발명은 다음과 같이 발성으로 분리될 수 있는 구두 언어에 적당하다: (영어 및 러시아어처럼)발성이 알파벳의 문자와 관련된 알파벳 언어 및 (중국어, 한국어 및 일본어처럼)발성이 캐릭터와 관련된 상징 언어. 추가로, 앞선 인식 정확도를 위해서 DTW 구성에서의 제한 조건은 다수의 가능성에서 선택되어져 정확한 음성 인식을 유익하게 생산한다. 그러므로, 위의 설명 및 해설이 첨부된 청구항에 의해 정의된 본 발명의 범위를 제한하는 것으로 받아들여져서는 안된다.

Claims

음성 인식 시스템에 있어서,

음향파를 인식하고 음향파를 전자신호로 변환하는 마이크로폰 수단;

전자신호의 파라메트릭 표시를 발생하기 위해서 전자 신호를 처리하는, 상기 마이크로폰 수단에 연결된 전단부 신호처리수단;

복수의 문자 발음의 파라메트릭 표시를 저장하는 발음 데이터베이스 저장 수단;

상기 문자 발음의 복수의 파라메트릭 표시와 전자 신호의 파라메트릭 표시를 비교하고, 전자신호의 파라메트릭 표시 및 소정의 표준에 반응하여 상기 문자발음의 복수의 파라메트릭 표시사이에 있는 제 1일련의 연합을 발생하는, 상기 전단부 신호 처리 수단 및 상기 발음 데이터베이스 저장 수단에 연결된 문자 유사성 비교기 수단;

복수의 단어 발음의 파라메트릭 표시를 저장하는 어휘 데이터베이스 저장 수단;

상기 복수의 단어 발음의 파라메트릭 표시와 집합된 복수의 문자 발음의 파라메트릭 표시를 비교하고, 소정의 표준에 반응하여 적어도 하나의 상기 복수의 단어 발음의 파라메트릭 표시와 적어도 하나의 상기 집합된 복수의 문자 발음의 파라메트릭 표시사이에 있는 제 2일련의 연합을 발생하는, 상기 문자 유사성 비교기 및 상기 어휘 데이터베이스 저장 수단에 연결된 단어 유사성 비교기 수단; 및

상기 제 1 및 제 2일련의 연합을 표시하는, 상기 단어 유사성 비교기 수단에 연결된 표시수단을 포함하는 것을 특징으로 하는 음성인식 시스템.
제 1 항에 있어서, 상기 전단부 신호 처리 수단이,

상기 마이크로폰 수단에 의해 발생된 전자 신호를 스펙트럼으로 플래트닝하는 프리엠퍼사이저 수단;

M 샘플에 의해 분리된 이웃하는 프레임과 함께 전자 신호를 N 샘플의 프레임으로 블록킹하는, 상기 프리엠퍼사이저 수단에 연결된 프레임-블록킹 수단;

각각의 프레임을 윈도잉하는, 상기 프레임-블록킹 수단에 연결된 윈도잉 수단;

프레임을 자기상관하는, 상기 윈도잉 수단에 연결된 자기상관수단;

각각의 프레임을 켑스트럴 계수로 변환하는, 상기 자기상관 수단에 연결된 켑스트럴 계수 발생 수단; 및

켑스트럴 계수에 가중치를 두는, 상기 켑스트럴 계수 발생 수단에 연결된 테이퍼 윈도우잉 수단을 포함하여서 음파의 파라메트릭 표시를 발생하는 것을 특징으로 하는 음성 인식 시스템.
제 2 항에 있어서, 상기 전단부 신호 처리 수단은 켑스트럴 계수의 1차 도함수를 발생하는, 상기 테이퍼 윈도잉 수단에 연결된 시간 미분 수단을 추가로 포함하는 것을 특징으로 하는 음성 인식 시스템.
제 2 항에 있어서, 상기 전단부 신호 처리 수단은 켑스트럴 계수의 2차 도함수를 발생하는, 상기 테이퍼 윈도잉 수단에 연결된 시간 미분 수단을 추가로 포함하는 것을 특징으로 하는 음성인식 시스템.
제 1 항에 있어서, 상기 문자 유사성 비교기 수단이,

상기 발음 데이터베이스 저장 수단에 저장된 상기 문자 발음의 복수의 파라메트릭 표시에 전자 신호의 파라메트릭 표시를 보정하는, 상기 발음 데이터베이스 저장 수단에 연결된 문자 보정 수단;

전자신호의 파라메트릭 표시 및 상기 발음 데이터베이스 저장 수단에 저장된 상기 문자 발음의 복수의 파라메트릭 표시에 다이내믹 타임 워핑을 수행하는 다이내맥 타임 워퍼 수단;

전자 신호의 파라메트릭 표시 및 상기 발음 데이터베이스 저장 수단에 저장된 상기 문자 발음의 복수의 파라메트릭 표시사이에 있는 왜곡을 계산하는, 상기 문자 보정 수단 및 상기 다이내믹 타임 워퍼 수단에 연결된 왜곡 계산 수단;

소정의 표준에 반응하여 상기 왜곡에 스코어를 할당하는, 상기 왜곡 계산 수단에 연결된 스코어링 수단; 및

최하 왜곡을 갖는, 상기 발음 데이터베이스 저장 수단에 저장된 상기 문자 발음의 복수의 파라메트릭 표시중 적어도 하나를 선택하는, 상기 스코어링 수단에 연결된 선택 수단을 포함하는 것을 특징으로 하는 음성 인식 시스템.
제 5 항에 있어서, 상기 다이내믹 타임 워퍼 수단은 전자 신호의 파라메트릭 표시 및 상기 발음 데이터베이스 저장 수단에 저장된 상기 문자 발음의 복수의 파라메트릭 표시사이에 있는 최소 켑스트럴 거리를 결정하는 최소화 수단을 포함하는 것을 특징으로 하는 음성 인식 시스템.
제 1 항에 있어서, 상기 발음 데이터베이스 저장 수단에 저장된 상기 문자 발음의 복수의 파라메트릭 표시는 중국어의 개별적인 캐릭터의 발음을 포함하고 상기 어휘 데이터베이스 저장 수단에 저장된 상기 단어 발음의 복수의 파라메트릭 표시는 중국어의 집합된 단어 현의 발음을 포함하는 것을 특징으로 하는 음성 인식 시스템.
제 1 항에 있어서, 상기 발음 데이터베이스 저장 수단에 저장된 상기 문자 발음의 복수의 파라메트릭 표시는 한국어의 개별적인 캐릭터의 발음을 포함하고 상기 어휘 데이터베이스 저장 수단에 저장된 상기 단어 발음의 복수의 파라메트릭 표시는 한국어의 집합된 단어 현의 발음을 포함하는 것을 특징으로 하는 음성 인식 시스템.
제 1 항에 있어서, 상기 발음 데이터베이스 저장 수단에 저장된 상기 문자 발음의 복수의 파라메트릭 표시는 일본어의 개별적인 캐릭터의 발음을 포함하고 상기 어휘 데이터베이스 저장 수단에 저장된 상기 단어 발음의 복수의 파라메트릭 표시는 일본어의 집합된 단어 현의 발음을 포함하는 것을 특징으로 하는 음성 인식 시스템.
제 1 항에 있어서, 상기 발음 데이터베이스 저장 수단에 저장된 상기 문자 발음의 복수의 파라메트릭 표시는 프랑스어의 개별적인 캐릭터의 발음을 포함하고 상기 어휘 데이터베이스 저장 수단에 저장된 상기 단어 발음의 복수의 파라메트릭 표시는 프랑스어의 집합된 단어 현의 발음을 포함하는 것을 특징으로 하는 음성인식 시스템.
문자 유사성 비교기에 있어서,

전자 신호 파라메트릭 표시를 수신하는 수단;

복수의 문자 발음 파라메트릭 표시를 저장하는 발음 데이터베이스 저장 수단;

상기 발음 데이터베이스 저장 수단에 저장된 상기 복수의 문자 발음 파라메트릭 표시에 전자 신호 파라메트릭 표시를 보정하는, 상기 수신 수단 및 상기 발음 데이터베이스 저장 수단에 연결된 문자 보정 수단;

전자 신호 파라메트릭 표시 및 상기 발음 데이터베이스 저장 수단에 저장된 상기 복수의 문자 발음 파라메트릭 표시에 다이내믹 타임 워핑을 수행하는 다이내믹 타임 워퍼 수단;

전자 신호 파라메트릭 표시 및 상기 발음 데이터베이스 저장 수단에 저장된 상기 복수의 문자 발음 파라메트릭 표시사이에 있는 왜곡을 계산하는, 상기 문자 보정 수단 및 상기 다이내맥 타임 워퍼 수단에 연결된 왜곡 계산 수단;

소정의 표준에 반응하여 상기 왜곡에 스코어를 할당하는, 상기 왜곡 계산 수단에 연결된 스코어링 수단; 및

최하 왜곡을 갖는 상기 복수의 문자 발음 파라메트릭 표시중 적어도 하나를 선택하는, 상기 스코어링 수단에 연결된 선택 수단을 포함하는 것을 특징으로 하는 문자 유사성 비교기.
전자통신장치에 있어서,

소리 신호를 수신하고 거기에서 전자 신호를 발생하는 마이크로폰;

전자 신호를 부호화하고 해독하는, 상기 마이크로폰에 연결된 코더-디코더;

전자 신호를 처리하여 전자 신호의 파라메트릭 표시를 발생하는, 상기 코더-디코더에 연결된 신호 처리기;

데이터를 저장하고 복수의 문자 발음 파라메트릭 표시를 저장하는 제 1부문 및 복수의 단어 발음 파라메트릭 표시를 저장하는 제 2부문을 그안에 갖는, 상기 신호 처리기에 연결된 데이터베이스 저장 단위;

상기 제 1부문의 상기 데이터베이스 저장 단위에 있는 상기 복수의 문자 발음 파라메트릭 표시에 전자 신호의 파라메트릭 표시를 비교하는, 상기 신호 처리기 및 상기 데이터베이스 저장 단위에 연결된 제 1비교기;

소정의 표준에 반응하여 상기 복수의 문자 발음 파라메트릭 표시중 적어도 하나를 선택하는, 상기 제 1비교기에 연결된 제 1실렉터;

상기 제 2 부문의 상기 데이터베이스 저장 단위에 있는 상기 복수의 단어 발음 파라메트릭 표시와 문자 발음의 집합된 파라메트릭 표시를 비교하는, 상기 신호 처리기 및 상기 데이터베이스 저장 단위에 연결된 제 2비교기;

소정의 표준에 반응하여 상기 복수의 단어 발음 파라메트릭 표시중 적어도 하나를 선택하는, 상기 제 2비교기에 연결된 제 2실렉터; 및

상기 복수의 선택된 문자 발음 파라메트릭 표시중 적어도 하나를 표시하고 상기 복수의 단어 발음 파라메트릭 표시중 적어도 하나를 표시하는, 상기 제 1 및 제 2 실렉터에 연결된 표시부를 포함하는 것을 특징으로 하는 전자통신장치.
제 12 항에 있어서, 제 1부문의 상기 데이터베이스 저장 단위에 저장된 상기 복수의 문자 발음 파라메트릭 표시가 파라메트릭 표시의 유사성에 반응하여 모아지는 것을 특징으로 하는 전자통신장치.
제 12 항에 있어서, 상기 제 1비교기는 상기 제 1부문의 상기 데이터베이스 저장 단위에 있는 상기 복수의 문자 발음 파라메트릭 표시에 반응하여 전자 신호의 파라메트릭 표시를 보정하는 것을 특징으로 하는 전자통신장치.
제 12 항에 있어서, 상기 디지털 신호 처리기는 전자 신호의 파라메트릭 표시, 복수의 문자 발음 파라메트릭 표시, 및 상기 복수의 단어 발음 파라메트릭 표시를 발생하기 위해서 켑스트럴 계수를 계산하는 것을 특징으로 하는 전자통신장치.
제 12 항에 있어서, 상기 제 1비교기는 상기 복수의 문자 발음 파라메트릭 표시와 전자신호의 파라메트릭 표시와의 비교를 발생하기 위해서 다이내믹 타임 워핑을 사용하는 것을 특징으로 하는 전자통신장치.
제 16 항에 있어서, 상기 제 1비교기는 상기 복수의 문자 발음 파라메트릭 표시와 전자 신호의 파라메트릭 표시를 비교하기 위해서 켑스트럴 거리를 사용하는 것을 특징으로 하는 전자통신장치.
제 12 항에 있어서, 상기 제 2비교기는 상기 복수의 단어 발음 파라메트릭 표시와 상기 집합된 복수의 문자 발음 파라메트릭 표시와의 비교를 발생하기 위해서 다이내믹 타임 워핑을 사용하는 것을 특징으로 하는 전자통신장치
제 18 항에 있어서, 상기 제 2비교기는 상기 데이터베이스 저장 단위에 저장된 상기 복수의 단어 발음 파라메트릭 표시와 상기 집합된 복수의 문자 발음의 파라메트릭 표시를 비교하기 위해서 문자 발음 열을 사용하는 것을 특징으로 하는 전자통신장치.
제 18 항에 있어서, 상기 제 2 비교기는 상기 데이터베이스 저장 단위에 저장된 상기 복수의 단어 발음 파라메트릭 표시와 상기 집합된 복수의 문자 발음의 파라메트릭 표시를 비교하기 위해서 켑스트럴 거리를 사용하는 것을 특징으로 하는 전자통신장치.
음성 소리 신호를 인식하는 방법에 있어서,

(a)복수의 문자소리를 파라메트릭화하는 단계;

(b)상기 복수의 파라메트릭화된 문자소리를 저장하는 단계;

(c)복수의 단어 소리를 파라메트릭화하는 단계;

(d)상기 복수의 파라메트릭화된 문자소리를 저장하는 단계;

(e)음파를 수신하는 단계;

(f)음파를 전자신호로 변환하는 단계;

(g)전자 신호를 파라메트릭화하는 단계;

(h)상기 저장된 복수의 파라메트릭화된 문자소리와 상기 파라메트릭화된 전자신호를 비교하는 단계;

(i)소정의 파라미터 유사성 표준에 반응하여 상기 저장된 복수의 파라메트릭화된 문자 소리중 적어도 하나를 선택하는 단계;

(j)상기 선택된 적어도 하나의 상기 저장된 복수의 파라메트릭화된 문자소리를 표시하는 단계;

(k)파라메트릭화된 단어를 형성하기 위해서 상기 선택된 적어도 하나의 상기 저장된 복수의 파라메트릭화된 문자소리를 집합하는 단계;

(l)상기 저장된 복수의 파라메트릭화된 단어 소리와 상기 파라메트릭화된 단어를 비교하는 단계;

(m)소정의 파라미터 유사성 표준에 반응하여 상기 저장된 복수의 파라메트릭화된 단어 소리중 적어도 하나를 선택하는 단계; 및

(n)상기 선택된 적어도 하나의 상기 저장된 복수의 파라메트릭화된 단어 소리를 표시하는 단계를 포함하는 것을 특징으로 하는 방법.
제 20 항에 있어서, 단계(b)가 소정의 파라메트릭화된 문자 소리 유사성 표준에 반응하여 상기 복수의 파라메트릭화된 문자 소리를 그룹핑하는 단계를 추가로 포함하는 것을 특징으로 하는 방법.
제 21 항에 있어서, 단계(h)가 소정의 보정 방법에 반응하여 상기 복수의 파라메트릭화된 문자소리에 상기 복수의 파라메트릭화된 전자 신호를 보정하는 단계를 추가로 포함하는 것을 특징으로 하는 방법.
제 21 항에 있어서, 단계(a)가 상기 복수의 파라메트릭화된 문자소리를 파라메트릭화하기 위해서 켑스트럴 계수를 사용하는 단계를 포함하는 것을 특징으로 하는 방법.
제 21 항에 있어서, 단계(c)가 상기 복수의 파라메트릭화된 단어소리를 파라메트릭화하기 위해서 켑스트럴 계수를 사용하는 단계를 포함하는 것을 특징으로 하는 방법.
제 21 항에 있어서, 단계(g)가 전자 신호를 파라메트릭화하기 위해서 켑스트럴 계수를 사용하는 단계를 포함하는 것을 특징으로 하는 방법.
제 21 항에 있어서, 단계(h)가 상기 복수의 파라메트릭화된 문자소리와 파라메트릭화된 전자신호를 비교하기 위해서 켑스트럴 거리를 사용하는 단계를 포함하는 것을 특징으로 하는 방법.
제 21 항에 있어서, 단계(l)이 상기 복수의 파라메트릭화된 단어 소리와 파라메트릭화된 단어를 비교하기 위해서 켑스트럴 거리를 사용하는 단계를 포함하는 것을 특징으로 하는 방법.
제 21 항에 있어서, 단계(l)이 상기 복수의 파라메트릭화된 단어소리와 파라메트릭화된 단어를 비교하기 위해서 문자 발음 열을 사용하는 단계를 포함하는 것을 특징으로 하는 방법.
제 21 항에 있어서, 복수의 문자 소리를 말하는 단계(a)의 전 단계를 추가로 포함하는 것을 특징으로 하는 방법.
제 30 항에 있어서, 복수의 문자 소리를 말하는 상기 단계후에 스피커가 남성인지 여성인지를 구별하는 단계를 추가로 포함하는 것을 특징으로 하는 방법.
제 30 항에 있어서, 복수의 문자 소리를 말하는 상기 단계후에 구술된 문자 소리가 실질적으로 뚜렷한지 아닌지를 구별하는 단계를 추가적으로 포함하는 것을 특징으로 하는 방법.

샘플보정표 a

샘플보정표 b

샘플보정표 c