KR20010092645A

KR20010092645A - 클라이언트-서버 음성정보 전송 시스템 및 방법

Info

Publication number: KR20010092645A
Application number: KR1020000060103A
Authority: KR
Inventors: 팬제임즈
Original assignee: 추후제출; 버블텍 인코포레이티드
Priority date: 2000-03-23
Filing date: 2000-10-12
Publication date: 2001-10-26
Also published as: EP1136983A1; JP2001306093A; CN1315721A

Abstract

음성정보를 인식하고 제 1세트의 관련된 언어정보를 발생하는 이동 전자통신장치에 설치된 복수의 음향 인식기 및, 상기 제 1세트의 관련된 언어정보를 인식하고 제 2세트의 관련된 언어정보를 발생하는, 서버와 같이, 데이터처리장치에 설치된 복수의 언어인식기를 포함하는, 인터넷과 같이, 통신망 시스템위에 사용하여서 분산된 음성 인식처리방식에서 음성정보를 더 정확하게 인식하는 음성통신시스템 및 방법.

Description

클라이언트-서버 음성정보전송 시스템 및 방법{CLIENT-SERVER SPEECH INFORMATION TRANSFER SYSTEM AND METHOD}

본 발명은 보통 음성 인식 정보전송에 관한 것이고 더 상세하게는 인터넷을 통한 원격 이동 전자장치 및 컴퓨터 사이의 음성 인식 통신에 관한것이다.

인간에서 기계로의 정보전송은 전통적으로 수동 키보드를 통해서 얻어지고, 이것은 적어도 두 인간 손의 편리한 핑거-스프레드(finger-spread)가능할정도로 큰 차원을 갖는 것을 전제로 한다. 정보 입력을 요하지만 전통 퍼스널 컴퓨터보다 작은 전자장치의 출현으로, 정보 입력은 펜 포인팅, 터치패드, 및 음성명령과 같은 다른 형태를 취하기 시작했다. 펜포인팅 및 터치패드에 전송될 수 있는 정보는 (퍼스널 디지털 어시스턴트(PDAs) 및 휴대폰과 같은)장치의 표시 능력에 의해 제한된다. 그러므로, 상당 연구가 전자장치를 위한 음성인식 시스템에 이루어졌다. 기계에 의한 음성인식의 접근중에는 기계가 음향 특성 및 음성 소리사이에 알려진 관계 및 신호의 관찰된 음향 특성에 근거한 음성 신호파형을 해독하려는 시도가 있다. 이 음향-음성 접근은 거의 50년 동안 연구의 주제이었지만, 실제 많은 성공을 거두지 못했다(Fundamentals of Speech Recognition, L.Rabiner & B.H.Juang, Prentice-Hall 참고). 문제가 많은데, 예를 들어, 음성 파형플롯에서 조차,"침묵에서 약한 음, 무성음("f" 또는 "th"와 같은)을, 무성음 또는 침묵에서조차 약한 음, 유성음("v" 또는 "m"과 같은)을 구별하는 것이 자주 어렵고" 가깝게 이웃하는 음성 단위, 소위 소리의 동시조음의 동일성에 의존하는 많은 다양성이 있다(상기 문헌 참조). 해독 후에, 음향-음성 접근에서 단어의 결정이 구두 입력에 매칭할 것 같은 일련 세트의 음소를 표시하는 소위 음소 격자(phoneme lattice)의 사용에 의해 시도되었다. 격자에 있는 음소의 수직 위치는 음성단위에 대하여 음향 매칭의 충실도의 측정이다("사전 접근(lexical access)"). 그러나 "음성인식에 대한 음향-음성 접근의 진짜 문제점은 사전 접근단계를 위한 신뢰할 만한 음소 격자를 얻는 것이 어렵다는 것이고"(상기 문헌참조); 즉, 임의의 언어의 고유의 큰 다양성때문에 발성을 정확히 등급매기는 것이 거의 불가능하다.

패턴 인식(pattern-recognition) 접근에서, 주어진 음성패턴의 버전의 지식 베이스는 조합되고("트레이닝"), 인식은 지식 베이스에 있는 음성패턴과 입력 음성패턴을 비교함으로써 얻어져서 최상의 매칭을 결정한다. 패러다임은 다음 네 단계를 갖는다:(1) 스펙트럼 분석을 사용한 특성추출, (2) 발성 분류를 위한 기준 패턴을 생산하는 패턴 트레이닝, (3) 두 잘 정의된 스펙트럼 벡터 사이에 있는 스펙트럼 "거리"를 측정하고 두 패턴의 스피킹의 다른 비율을 보상하는 타임정렬(다이내믹 타임 워핑,DTW)에 의해 등급 기준 패턴과 알려지지 않은 테스트 패턴을 비교하는 패턴 분류, 및 (4) 유사성 스코어가 최상 매칭을 선택하기 위해서 사용되는 로직 결정. 패턴 인식은 특별히 단계(2) 및 (3)을 위해 과중한 계산을 요하고 소리 등급의 상당한 수를 위한 패턴 인식은 자주 금지된다. 그러므로, 정보 입력을 위한 인간 음성에 의지하는 시스템은, 음성의 고유의 변덕(vagary)(동음자, 단어 유사성, 액센트, 소리 레벨, 음절 강조, 음성패턴, 배경 소음등등을 포함하는)때문에, 정확도의 최소레벨조차 얻기 위해서 상당한 신호처리력 및 많은 룩업 테이블 데이터베이스를 요한다. 메인 프레임 컴퓨터 및 고단부 워크 스테이션은 음성인식의 수용가능 레벨에 접근하기 시작하고 있지만, 현재 퍼스널 컴퓨터(PCs)에서 유용한 메모리 및 계산력에서 조차, 이 기계들을 위한 음성인식은 이제까지 구체적 음성 명령의 주어진 세트에 크게 제한되어 있다. PDAs, 휴대폰, 장난감, 오락장치와 같이, PCs보다 훨씬 적은 메모리 및 처리력을 갖는 장치에 있어서, 일반 음성의 정확한 인식은 지금까지 불가능했다. 예를 들어, 전형적인 음성-구동 휴대폰은 이름을 반복하고 그다음 관련 번호를 입력함으로써 사전프로그래밍을 허용한다. 사용자가 연속적으로 이름을 반복할 때, 휴대폰안에 있는 마이크로프로세서는 저장된 번호와 반복된 이름의 음성 패턴을 매칭하려고 할것이다. 현재 음성구동 휴대폰을 사용했던 사람은 누구나 아는 바와 같이, 매칭은 (일치하지 않는 발음, 배경 소음, 및 처리능력의 부족으로 인한 고유의 제한성으로 인해서) 가끔 부정확하고 오직 약 25개의 저장된 수만이 가능하다. PDAs장치에서, 장치 제조자가 매우 제한된 음성인식이라도 얻기 위해서는 광대한 재설계를 수행하는 것이 필요하다(예를 들어, 현 PDAs는 음성입력에 반응하여 데이터베이스를 조사할 수 없다).

음성입력을 위한 철자단어에 대해서, 혼동가능 세트에 관한 문제가있다:{A,J,K},{B,C,D,E,F,P,T,V,Z},{Q,U},{I,Y}, 및 {F,S,X}. 이것들은 보통 발성의 작고, 엄밀한 부분에 근거하여 구별될 수 있을 뿐이다. 종래 인식은 전체 발성지속에서 단순 누적된 왜곡 스코어에 의존하기 때문에(이진적인 "예' 또는 "노"), 이것은 나쁜 인식 정확도를 초래하는 엄밀한 부분에 충분한 강조를 두지 않는다. 명백하게, 접근은 엄밀한 부분에 비중이 두어져야 하지만, 이 방법은 높은 인식 정확도를 얻지 않았고 과중한 계산부담을 갖는다.

요컨대, 정확하고 빠른 음성인식을 위해 필요한 메모리 및 계산은 증가된 전력 및 복잡한 동작 시스템을 요구하고, 이 모든 것은 증가된 비용을 요한다. 이렇게 현 음성인식 기술은 전자의 무게, 전력, 복잡도, 및 요구 비용때문에 포켓형 정보 장치에 실행가능하지 않다.

이동 인터넷 접근은 특별히 현대 관심사이다; 즉, 휴대폰, PDAs, 및 인터넷으로의 다른 포켓형 전자장치. 무선 애플리케이션 프로토콜(WAP) 상세는 개방, 표준 구조 및 무선 인터넷 접근을 위한 프로토콜의 설정을 정의하기 위해 의도되었다. 무선 마크업 언어(WML)는 이동 인터넷 출원을 위한 표시 표준으로서 WAP에 의해 정의된다. WML은 웹 마크업 언어 하이퍼 텍스트 마크업 언어(HTML)의 변형된 부분 집합이고, 적당하게 스케일링되어 현재 이동 장치, 예를 들어 이동 통신 위한 글로벌 시스템(GSM)의 물리적 제한조건 및 데이터 능력를 충족한다. 전형적으로, 웹 사이트에 의해 제공되는 HTML은 WML 출입구를 통과하여 포켓형 장치를 위해 스케일링되고 포맷팅된다. 첫 단계 WAP서비스는 존재하는 웹 내용을 이동장치에 전하지만, 미래에는, 웹 내용이 이동 사용자를 위해서 구체적으로 창조되어질 수 있을지도 모르고, 날씨, 주식 시세, 은행 업무, 전자 상거래, 항해 구조등과 같은 정보를 전한다. Nokis 7110, Ericsson MC 218, 및 Motorola Timeport와 같이 이미 상업적으로 유용한 생산품이 있다. 이동 무선 인터넷 접근의 수요가 폭발할 것으로 기대된다. Ericsson Mobile Communications는 2004년까지 십억의 이동 사용자가 있을 것으로 예견한다. 그러나, 새로운 이동 인터넷 접근은 새 기술을 요구할 것이다. 제너럴 패킷 라디오 서비스(General Packet Radio Service, GPRS), GSM에벌루션을 위한 앞선 데이터 비(Enhanced Data Rates for GSM Evolution, EDGE), 및 제 3세대 유니버셜 이동 통신 시스템(Third Generation Universal Mobile Telecommunication System, 3G-UMTS)와 같은 데이터비(data rates) 향상이 임박했다. 특별히, UMTS는 (2002년에) 2 메가비트/초(현 GSM폰의 9.6킬로비트 데이터 비의 200여배)에 이르는 광대역 데이터비를 약속한다. 그러나 전송비 및 대역폭이 아무리 증가하고, 내용은 감소되거나 또는 압축되고, 표시 특성이 정보를 효과적으로 표시하기 위해서 변형될 지라도, 이동 장치 끝에서의 정보입력 및 전송의 성가신 문제는 해결되지 않았다. 종래 음성 대 인터넷 통신은 적어도 현재 퍼스널 컴퓨터(PCs)가 소위 보이스 오버 인터넷 프로토콜(Voice over Internet Protocol, VoIP)을 사용하는 인터넷 서비스 프로바이더(Internet Service Provider, ISP)에 보이스 패킷의 전송을 수행하는 계산력 및 메모리 필요를 요구한다. 그런 유용한 계산력 및 메모리가 있다 할지라도, VoIP는 오직 제한된 인식 및 정확도를 허용한다. 추가로, 종래 서버를 근거로 한 (예를 들어, Nuance와 SpeechWork 회사에 의해 생산된) 음성인식 시스템은한 서버당 열보다 적은 사용자에게 서비스를 제공할 수 있을 뿐이다. 이렇게, (현재 휴대폰 사용자의 수를 고려한 특별히 큰 수 가 아닌)100,000추정 사용자를 위해, 10,000서버가 필요하고, 이것은 그런 음성인식이 경제적으로 실행불가능하게 한다. 이렇게 문제는 측정가능성(scalability)이다. 인터넷 음성 통신을 제공하는 PC를 위해, 데이터 베이스는 보통 서버에서 PC클라이언트(예를 들어, Conversa회사에 의한)로 다운로드되지만, 데이터베이스의 크기는 이 방법이 이동 장치를 금지하게 한다.

도 1은 본 발명에 따른 개별화된 데이터 베이스의 블록도,

도 2는 본 발명에 따른 음성 인식 시스템의 블록도,

도 3은 본 발명에 따른 LPC 전단부 처리기의 블록도,

도 4는 본 발명에 따른 문자 음성 인식 시스템의 블록도,

도 5는 본 발명에 따른 마이크로폰에 의해 발생된 것과 같은 문자를 위한 파형도의 예시도,

도 6은 본 발명에 따른 토털 왜곡 켑스트럼을 계산하는 다이내믹 타임 워핑 초기화 순서도 공정도,

도 7은 본 발명에 따른 토털 왜곡 켑스트럼을 계산하는 다이내믹 타임 워핑 반복 공정 순서도,

도 8은 본 발명에 따른 토털 왜곡 켑스트럼의 상대치를 계산하는 다이내믹 타임 워핑 순서도,

도 9는 안에 설치된 본 발명의 실시예를 갖는 핸드폰의 시스템 구조의 블록도,

도 10은 종래 기술 시스템 ART 및 Sensory와 비교시 본 발명의 실시예의 단어 인식 수행 결과를 설명하는 도면,

도 11은 이동 장치끝에서 음향 인식기 및 서버 끝에서 언어 인식기를 사용하는 본 발명의 바람직한 실시예의 블록도,

도 12은 이동 장치끝에서 음성 인식기 및 서버 끝에서 단어 데이터베이스를 사용하는 본 발명의 바람직한 실시예의 블록도.

본 발명은 음성정보를 인식하고 제 1세트의 관련된 언어 정보를 발생하는 이동 전자 통신장치에 설치된 복수의 음향인식기 및 상기 제 1세트의 관련된 언어정보를 인식하고 제 2세트의 관련된 언어정보를 발생하는, 서버와 같은, 데이터 처리 장치에 설치된 복수의 언어인식기를 포함하여서, 분배된 음성인식 처리 방법에서 음성 정보를 더 정확하게 인식하는, 인터넷과 같은 통신 네트 워크 시스템에서 사용되는 음성 통신 시스템 및 방법이다.

도 1은 본 발명의 개별화된 데이터베이스(100)의 블록도이다. 마이크로폰 (101)은 가청 음성 현(voice string) (한 실시예에서, 일련의 문자 또는 캐릭터) 을 수신하고 음성현을 전자 파형 신호로 변환한다. 전단부 신호처리기(102)는 파형을 처리하여 인식 및 비교에 적당한 파형의 파라메트릭 표시를 생산한다. 바람직한 실시예에서, 음성 현은 선형 예측 부호화(LPC)에 의해 처리되고, 각각의 문자 또는 캐릭터를 위한 파라메트릭 표시를 생산하고(소위"특성 추출") 이것은 여분의 정보를 파형도 데이터에서 제거하여 각각의 가청 신호를 더 명백하게 그려낸다. 그 결과, 영어 알파벳의 경우에, 26×26행렬이고, 이것은 행이 각각의 캐릭터 또는 문자의 파라메트릭 표시를 담고 열은 입력된 음성 캐릭터 또는 문자를 담을 것이다. 본 발명에서, 행렬은 발음 데이터베이스(103)에 저장된 문자의 개별적인 사용자의 발음으로 구성되는"보정형판(calibration template)"이다. 음성입력이 보정형판에 의해 보정되기 때문에, 전형적인 음성 인식 부정확성은 단어 비교에서 피해진다(샘플 보정표가 참고로 첨부되었다).

도 2는 본 발명의 바람직한 실시예의 블록도이다. 마이크로폰(101)은 일련의 압력된 발성을 수신하는데 이것은 전단부신호처리기(102)에 전송되어 파라메트릭화된 음성 현 파형 세트를 형성하고 그다음 이것은 개별적인 발성(예를 들어, 문자 또는 캐릭터)을 위한 최상의 매칭을 선택하기 위해서 발성 비교기(201)를 사용하는 발음 데이터 베이스(103)와 비교된다. 예를 들어, 이름 "Michael"이 "n-y-d-h-a-b-l"(문자의 혼동 가능한 발음으로 인한 어떤 에러)로 부정확게 발음되었다고 가정하자. 한 실시예에서, 문자 비교기(201)는 음성 현을 수용하고, 발음 데이터베이스(103)에 있는 음성 현 발성 및 보정형판사이에 있는 "거리"를 결정한다. 또 다른 실시예에서, 유사하게 발음된 문자(또는 임의의 소리)는 유사성에 근거하여 분류하고, 그래서 비교는 더 효과적이다. 집합적인 발성 유사성 비교기(202)는 보정된 문자 열 파형을 사전 기록된 어휘 데이터 베이스(203)안에 있는 입력에 비교한다. 예에서, 단어가 아직 정확하게 철자되지 않은 음성일지라도 "Michael"과 같은 감각의 단어의 제한된 수만이 존재하기 때문에, 정확한 단어 매칭의 기회는 상당히 증가한다. 본 발명의 바람직한 실시예에서, 어휘 데이터베이스(203)는 본 발명의 양수인인, VerbalTek, Inc.에서 나온 유용한 사전 데이터베이스이다. 본 발명의 또 다른 실시예는 어휘 데이터베이스(201)로 입력된 Motorola의 사전 데이터베이스를 유익하게 사용한다. 본 발명의 또 다른 실시예는 사용자에 의한 주소북 입력을 사용한다. 본 발명은 어휘 데이터베이스(203)를 위해 사용자에 의해 요구되는 임의의 용어로 구성되는 단어 사전을 꾀한다. 예를 들어, 노력의 구체적 영역(상업, 사업, 서비스 산업, 기술 학술, 및 법, 의학, 회계등등과 같은 전문직)을 위한 전문화된 단어는 어휘 데이터베이스(203)에 유익하게 입력될 수 있다. 추가로, 본 발명은 캐릭터 현으로 모아질 때 개별적인 발성(중국어 케릭터)이 더 분명해지는 중국어와 같은 단음절 단어 언어를 위한 유익한 사용을 시도한다. 입력된 파형과 어휘 데이터베이스(203)에 있는 사전 기록된 파형과의 비교를 통해서 구두 입력과 매칭될지도 모르는 일련 세트의 음소가 발생되고, 음소격자가 발생된다. 격자는 어휘 데이터베이스(203)에 있는 단어와의 각각의 입력된 조합의 근접도에 근거하여 각각의 입력된 파형에 "스코어"를 할당함으로써 구성되어진다. "근접도" 표준은 입력 파형 및 스코어링된 어휘 파형사이에 있는 계산된 왜형에 근거한다. 스코어는 문자 또는 캐릭터의 상대적으로 정확한(전통적인 음성 인식 음향 음소 방법과 비교하여) 매칭에 근거하기 때문에, 음소 격자는 95%의 단어 매칭 및 그이상의 정확도를 생산한다. 그다음 단어를 위한 최상 매칭은 표시부(204)에 표시된다.

본 발명의 바람직한 실시예에서, 음성 파형(그것의 예가 도 5에 보여진다)을파라메트릭 표시로 변환하는 전단부 신호 처리는 선형 예측 부호화(LPC)를 사용한다. LPC는 (1) LPC가 무성음 영역에서 보다 음성 스펙트럼 엔벨로프(spectral envelope)의 유성음 영역에서 더 효과적이고, 본 발명은 뚜렷한 캐릭터 또는 문자 캐릭터 소리를 강조하는 개별적인 문자 또는 캐릭터 발성을 사용하고 자연 단절을 갖기 때문에(그래서 무성음은 덜 중요하다), 및 (2) LPC는 보컬 트랙(vocal tract) 특성을 고려하는 계산적으로 효과적인 표시를 제공하기 때문에(그래서 개별화된 발음이 최소 처리 및 저장으로 얻어지도록 허용한다) 본 발명에 특별히 적당하다. 본 발명에서 LPC의 특별한 효과는 예를 들어, 음성 세그먼트가 (유한한 길이 윈도우에 의해 음성 신호를 곱하는 것과 동등한)주어진 간격의 밖에서 동일하게 0인것으로 가정하는, LPC자기상관방법에서 설명된다. LPC전송함수에서, H(z)=S(z)/GU(z)이고 여기서 소오스의 이득 G는 음성신호에서 계산되고 눈금이 있는 소오스가 디지털 필터H(z)에 입력으로서 사용되고, 이것은 생산된 음성의 보컬 트랙 파라메트릭 특성에 의해 제어된다.

도 3은 본 발명의 바람직한 실시예에 따른 LPC전단부 처리기(102)의 블록도이다. 고정된 저차원 디지털 시스템(전형적으로 제 1차 FIR필터)인 프리엠퍼사이저 (301)는 스펙트럼으로 신호s(n)를 플래트닝하고 다음과 같이 설명된다:

여기서 0.9≤a≤1.0이다. 본 발명의 또 다른 실시예에서, 프리엠퍼사이저(301)는 다음의 전송 함수를 갖는 제 1차 적응성 시스템이다.

여기서 사전 결정된 채틱된 표준에 따라서 a_n는 타임(n)과 함께 변하고, 예를 들어, a_n=r_n(1)/r_n(0).

프레임 블록커(302)는 N샘플안에 있는 음성 신호를 블록킹하고, 이웃하는 프레임은 M샘플에 의해 분리된다. 본 발명의 실시예에서, 사이에 아무 분리 없이 20㎳ 프레임에 대응하여, 음성의 샘플링률이 8㎑일 때, N=M=160. 프레임 당 한 특성이 존재하여서 일 초 발성동안에(50프레임 동안), 12파라미터가 프레임 데이터를 표시하고, 50×12행렬이 발생된다(형판 특성 세트).

윈도우어(303)는 각각의 개별적인 프레임을 윈도우잉하여 각각의 프레임의 초기 및 단부에서 신호 불연속성을 최소화한다. 자기상관기(304)는 다음을 나타내는 자기상관을 수행한다.

여기서 m=0,1,...,p이고 p는 최상위 자기상관치이다(LPC분석의 차수). 본 발명의 바람직한 실시예는 p=10을 사용하지만, 8 내지 16가지의 p의 값은 또한 유익하게 사용될 수 있다. 0번째 자기 상관은 주어진 프레임의 프레임 에너지이다.켑스트럴 계수(cepstral coefficient) 발생기(305)는 더빈의 방법(Durbin's method)을 사용하여서 각각의 프레임을 켑스트럴 계수(로그 진폭 스펙트럼(log magnitude spectrum)의 푸리에 변환 표시의 계수, 아래를 참조하라)로 변환하고, 이것은 기술상 알려져 있다. 테이퍼 윈도우어(tapered windower)(306)는 잡음효과를 최소화하기 위해서 켑스트럴 계수에 가중치를 둔다. 테이퍼 윈도우어(306)는 저차 켑스트럴 계수의 감도를 전체 스펙트럼 경사(spectral slope)로 낮추고 고차 켑스트럴 계수를 잡음으로(또는 다른 바람직하지 않은 다양성) 낮추기 위해서 선택된다. 시간 미분기(307)는 적정치(본 발명에서, 유산 길이 윈도우 도함수의 최소 제곱 추정치)에 맞는 오쏘고날 다항식을 사용하여서 켑스트럴 계수의 제 1차 도함수를 발생하여서 처리된 신호S'(n)을 생산한다. 또 다른 실시예에서, 두 번째 도함수는 또한 기술상 알려진 근사치 기술을 사용하는 시간 미분기(307)에 의해서 발생될 수 있어서 그이상의 음성 신호 정보를 제공하여 음성신호의 스펙트럼 특성의 표시를 향상시킨다. 그러나 또 다른 실시예는 시간 미분기를 건너 뛰어 신호S"(n)을 제공한다. LPC를 사용한 전단부 신호처리기(102)의 위의 설명 및 위에서 설명된 기술은 바람직한 실시예의 개시를 위한 것이고 전단부 신호처리의 다른 기술 및 방법은 본 발명에 유익하게 사용될 수 있다는 것이 이해되어야 한다. 비교 기술 및 발성의 현을 매칭하는 방법은, 그들이 개별적인 캐릭터 및 단어일지라도, 실질적으로 유사하고, 그래서 다음 설명은 비교기(201와 202) 양쪽 모두를 포함한다.

본 발명의 바람직한 실시예에서, 파라메트릭 표시는 켑스트럴 계수를 사용하고 입력된 음성은 켑스트럴 거리를 비교함으로써 사전 기록된 데이터베이스에서 문자 또는 단어현 입력과 비교된다. 입력된 문자들은(또는 단어 조합에 있는 문자) 유사성에 따라서 분류되어진 다수의 후보 캐릭터(또는 문자)매칭을 발생한다. 입력 파형과 사전 기록된 파형과의 비교에서, 구두 입력에 매칭할지도 모르는 일련의 음소는 발생되고, 이것은 행렬에서 정렬될 때, 음소 격자를 생산한다. 격자는 각각의 입력된 파형에 어휘 데이터베이스안에 있는 단어와의 각각의 입력된 조합의 근접도에 근거된 "스코어"값을 할당함으로써 정렬된다. "근접도"표준은 입력 파형 및 저장된 어휘 파형사이에 있는 켑스트럴 거리에 근거하여서 "왜곡 스코어(distortion score)"를 발생한다. 스코어가 상대적으로 정확한(전통적인 음성인식 음향-음소 방법에 비하여) 캐릭터의 매칭에 근거하기 때문에, 본 발명의 음소 격자는 95%이상의 정확도의 단어 매칭을 생산하다.

도 4는 문자 보정기(401)에 입력된 파형 파라메트릭 표시를 보이고, 여기서, 발음 데이터베이스(103)와 관련하여, 보정 행렬(예가 첨부되었다)이 발생된다. 왜곡 계산기(402)는 입력된 음성 및 바람직한 실시예에서, 계산된 켑스트럴 거리(아래에 설명됨)에 근거한 발음 데이터베이스(103)안에 있는 입력 사이에 있는 왜곡을 계산한다. 그다음 스코어 계산기(403)는 사전 결정된 (켑스트럴 거리와 같은)표준에 근거하여 스코어를 할당하고 실렉터(404)는 후보 문자(단어)를 계산한다.

주파수 스케일에 대한 로그 진폭위에 있는 두 음성 스팩트럼 사이에 있는 거리는

두 음성 특성 벡터 사이에 있는 차이점을 표시하기 위해서, 바람직한 실시예는 (주파수에 대하여)로그 진폭의 평균 절대값, 즉, 놈(norm)의 세트를 사용한 실효값(rms) 로그 스펙트럼 왜곡(또는 "거리")측정을 사용한다.

여기서 p=1때, 이것은 평균 절대 로그 스펙트럼 왜곡이고 p=2일때, 이것은 실효값 로그 스펙트럼 왜곡이다.

바람직한 실시예에서, 거리 또는 왜곡 측정은 신호의 복잡한 켑스트럼에 의해 표시되고, 이것은 신호 스펙트럼의 로그의 푸리에 변환으로서 정의된다. ω=0에 대하여 대칭성인 멱 스펙트럼에 대하여, 로그S(ω)의 푸리에 급수 표시는

여기서 c_n=c_-n는 켑스트럴 계수이다.

여기서 c_n및 c_n'은 각각 S(ω) 및 S'(ω)의 켑스트럴 계수이다. 예를 들어 바람직한 실시예에서 10-30 텀과 같이, 무한히 합하지 않음으로해서, 본 발명은 절단된 켑스트럴 거리를 사용한다. 이것은 실효값 로그 스펙트럼 거리를 효과적으로(상대적으로 낮은 계산 부담을 의미하는) 추정한다. 음성 신호의 인식된 크기가 대략 대수이기 때문에, 로그 스펙트럼 거리의 선택은 주관적인 소리 차이를 구별하기에 매우 적당하다. 더 나아가, 낮은 켑스트럴 계수의 다양성은 주로 음성 변덕 및 전송 왜곡에 기인하여서 켑스트럼(켑스트럴 거리의 세트)은 왜곡 측정을 위해 유익하게 선택된다.

동일한 발성의 다른 음향 연출은 자주 다른 시간율로 말해져서 구술 속도 다양성 및 지속 다양성은 언어 차이 스코어에 기여하지 않아야 한다. 다이내믹 타임 워퍼(DTW)(408)는 스펙트럼의 다이내믹 행동 분석을 수행하여 입력된 발성 및 매칭된 데이터베이스 값사이에 있는 차이점을 더 정확하게 결정한다. DTW(408)는 비교되는 두 패턴의 음향 특성을 맵핑하는 격자를 통해서 "최상"을 찾음으로써 구술율 요동(speaking rate fluctuation)을 타임 정렬하고 정상화한다. 바람직한 실시예에서, DTW(408)는 차이점의 다이내믹 프로그래밍 최소화에 의해서 최상의 통로를 찾는다. 두 워핑 기능, ψ_x및 ψ_y은 공동 타임 축, k로 음성 패턴의 두 시간 요동 표준, i_x및 y_y에 각각 관한것이어서,

전체 패턴 차이점 측정은 다음과 같은 전체 발성에 관한 누적 왜곡과 같이, 워핑 기능 쌍에 근거하여, 정의된다:

여기서 d(ψ_x(k),ψ_y(k))는 x_ψx(k)y_ψy(k)를 위해 정의된 단기 스펙트럼 왜곡이고, m(k)는 논네가티브 웨이팅 기능이고, M_ψ는 정상화 요소이고, T는 정상 타임 눈금위에 두 음성 패턴의 "정상"지속이다. 경로ψ=(ψ_x,ψ_y)은 전체 경로 차이점을 일관성있게 측정하기 위해서 선택된다. 본 발명의 바람직한 실시예에서, 차이점 d(X,Y)는 전체 경로에 걸쳐서 d_ψ(X,Y)의 최소치로서 정의되는데, 즉,

정렬 경로 수단을 따라 누적된 왜곡을 사용하면서 차이점이 구술율 차이를 보상하는 최상의 가능한 정렬에 근거하여 측정되기 때문에 위 정의는 X 및 Y가 동일한 단어의 발성일 때 정확하다. 다이내믹 프로그램은 최상 경로를 찾음으로써 위에서 즉시 설명된 것과 같은 일련의 결정 문제를 해결할 수 있다는 것이 알려져 있으며, 이것은 한 지점에서 다른 지점으로 이동하는 최소"비용"을 의미한다. 본 발명의 실시예에서, 이동에 관련된 단계의 수가 "한다면(if-then)"으로 결정되기 때문에, 일련의 결정은 비동기적이다. 결정은 최상 경로 조사가 증가적으로 동작하게 허용하는 재귀 관계를 사용하고 아래에 설명된 바와 같이 본 발명의 바람직한 실시예에서 알고리즘에 의해서 수행된다. 목적지 지점과 함께, 최상 경로 ("폴리시(policy)")안에 다음의 지점을 결정하는 결정룰은 최소화되도록 요구되는 비용을 완전히 정의한다. 비용 ξ(j,i)를 유도하는 초기점 1에서 매개점 j로의 이동을 위한 최상 폴리시는 다음에 의해 주어진다.

그래서 지점 i에서 지점j로의 이동의 최상 시퀀스 및 관련된 최소 비용을 위해서,

또 다른 실시예에서, 일련의 결정은 동기적이고(고정된 수의 이동을 위한 결정 처리의 질서(regularity),M), 관련된 최소비용ψ_m(i,1)은

이것은 본 발명의 실시예에서 사용되는 재귀관계이다.

위에서 설명된 양쪽 모두에서, 방법은 다음과 같이 (1)초기화, (2)재귀, (3)종료, 및 (4)백트랙킹(backtracking)의 단계를 따른다.

위 알고리즘은 계산적으로 경제적이고 그래서 본 발명에 의해 시도되는 포켓용 장치의 실현에 적당하다.

도 6,7, 및 8은 비교되는 형판사이에 있는 토털 왜곡을 계산하는 DTW(408)의 바람직한 실시예의 순서도를 구성한다. "거리"d(i,j)(위의 수학식 11)는 형판X의 i번째 특성 및 형판 Y의 j번째 특성사이에 있는 왜곡이다. 도 6은 초기화 공정(601)을 서술하는데 여기서 이전의 거리는 602에서 d(0,0)이다. 그다음 표준 j는 603에서 증가되고 이전 거리는 이제 j(이전 거리[j-1]+d(0,j)과 동일한 이전 거리[j])에서의 거리이다. 605에서, j가 형판 Y(j<번호 Y)에서 특성의 번호보다 작으면, j는 606에서 증가할 것이고 이전 거리[j]의 새 계산을 위해서 604로 피드백될 것이다. j가 번호 Y보다 크지 않으면, 초기화는 완료되고 토털 왜곡을 위한 반복 공정(611)은 도 7에 도시된 바와 같이 개시한다. 612에서, 표준 i는 하나에서 설정되고 현 거리(현거리[0])는 이전거리[0] 더하기 d(i,0)와 같이 계산된다. 614에서, j는 1로 설정되고 관련된 거리 d1,d2,또는 d3으로 인도되는 가능 경로는 다음과 같이 계산된다:

현거리[j-1]+d(i,j)=d1

이전거리[j]+d(i,j)=d2

이전거리[j-1]+d(i,j)=d1.

그다음 관련 거리의 상대치는 도 8의 621 및 622에서 검사된다. d3이 d2보다 크지 않으면, d3은 최소이고 현거리[j]는 623에서 d3이 될 것이다. 626에서 Y형판에서의 특성의 번호보다 j번째 특성이 작은지를 시험한 후에, j는 617에서 증가하고 가능 경로의 거리의 계산으로 피드백되고 최소화 공정은 되돌아간다. d2가 d1보다 크고 d3이 d1보다 크다면, d1은 최소이고 그래서 현재거리[j]로서 설정된다. 그다음 j는 626에서 Y형판에서의 특성의 번호에 반하여 다시 검사되고, j는 617에서 증가되고 재귀를 위해 피드백된다. d3이 d2보다 크고 d1이 d2보다 크다면, d2는 최소이고 현재 거리[j]로 설정되고, 유사한 공정이 반복되어 증가되고 피드백된다. 이런 방법으로, 최소 거리는 발견된다. j가 626에서 형판Y에서의 특성의 번호보다크거나 같으면, i는 그것이 형판 X-1에서의 특성의 번호와 같은지를 보기위해서 검사된다. i가 형판 X-1에서의 특성의 번호와 같지 않다면, 이전 거리는 618에서 (번호 Y-1에 이르는)j표준을 위한 현거리로서 설정되고, i는 616에서 증가되고 이전 거리 더하기 새 i번째 거리로서 현 거리의 설정을 위해 613으로 피드백되고 공정은 형판X-1에서 특성의 번호와 j가 동일한 매 i증가때마다 반복된다. i가 X형판-1에서의 특성의 번호와 동일하다면, 토털 왜곡은 628에서

와 같이 계산되어, 토털 왜곡을 찾는 알고리즘을 완료하게 된다.

최상 인식 정확도를 얻기 위해서, 워핑 기능이 억제된다. 작은 음성 끝점 에러조차 음성 탐색 정확도에서 상당한 하락을 초래한다는 것이 기술상 알려져 있다. 제어된 환경에서 똑똑히 발음된 음성에서, 높은 탐색 정확도가 얻어질 수 있지만, (휴대폰과 같은)일반 사용에서, 스피커 소리의 엉뚱한 것(혀 차는 소리, 호흡, 딸각거리는 소리등을 포함한)이 들리고, 배경 소음, 및 전송 왜곡(크로스 토크, 상호 변조, 및 음색 간섭)은 정확한 끝점 탐색을 어렵게 한다. 발성이 잘 정의된 끝점(패턴의 개시 및 끝나는 프레임을 표시하는)을 가진다면, 유사성 비교는 더 정확한 인식을 초래할 것이다. 입력 발성을 위한 개별적인 캐릭터(즉, 문자)의 사용에서, 본 발명은 개별적인 캐릭터(문자)의 일반적으로 더 정확한 발음 및 캐릭터 현이 발음되거나 단어가 철자될 때 개별적인 캐릭터(문자) 사이에 있는 전형적인 단절의 결과로서 정확도를 얻는다. 그래서 시간 편차는 끝점안에 있는 지역으로 일반적으로 한정된다. 워핑 기능의 제한조건은 처음 및 마지막 시간 요동 표준, i_x=1, 및 i_y=T로서 시작 및 끝점에서 값을 단순히 설정할 것이다. 이 끝점 제한조건들은 T_x및 T_y의 용어로, 수학식 11을 통해서 본 발명으로 집약된다:

여기서 X 및 Y는 T_x및 T_y에서 각각 종료한다.

본 발명의 바람직한 실시예는 본 발명의 개별적인 캐릭터(즉, 철자) 입력 발성 음성 인식 시스템에 최상으로 적당한 다이내믹 타임 워핑 체제를 제공한다. DTW(408)은 수학식 15를 사용하여서 다음과 같이 (1,1) 및 (i_x, i_y)를 연결하는 경로를 따라서 최소 부분 누적 왜곡을 발생한다:

여기서 ψ_x(T')=i_x및 ψ_y(T')=i_y이고 제한조건을 갖는 다이내믹 프로그래밍 재귀는 다음과 같이 된다.

여기에서 ξ은 지점(i_x', i_y') 및 (i_x, i_y) 사이에 가중치 주어진 누적 왜곡(로컬 거리)이고,

여기에서, L_s는 ψ_x및 ψ_y에 따른 (i_x', i_y')에서 (i_x, i_y)로의 경로에서 이동의 수이다. 증가 왜곡ξ은 다양한 제한조건에 의해 정의된 경로를 따라서만 진화되어서, 최소화 공정은 제한조건안에서 효과적으로 해결될 수 있다. 그러나, 차이점의 발견적인 성질이 또한 다음 방법에 유익하게 포함되어질 수 있다;예를 들어, 본 발명에서 프레임은 다수의 세그먼트로 절단되어 "a" 및 "f"와 같은, 혼동가능 문자 발성사이를 구별한다. 많은 다른 제한조건 및 제한조건의 조합이 본 발명의 범위안에 있다는 것이 이해되어져야 한다. 예를들어, 다른 문자의 발성에서, 가장 정확한 비교를 위한 타임 정렬은 잘 정의되는 언어 개념이 아니기 때문에 직관적인 제한조건이 본 발명에서 사용된다. 작은 형태 요소로 인하여 본 발명의 바람직한 실시예는 소비자 전자 장치의 기존하는 동작 시스템(예를 들어, 핸드폰을 위한 PDAs및 ARM7DMI를 위한 마이크로소프트 윈도우 CE)으로의 단순한 통합을 허용하여서, 광대한 재설계 및 재프로그래밍을 미연에 방지한다. 본 발명의 음성 인식 프로그램의 실시예는 또한 휴대폰 또는 PDA와 같은 장치의 플래시 메모리로 로드되어서, 기존의 전자 장치로의 본 발명의 쉽고, 빠르고, 저렴한 통합을 허용하여서,호스트 장치의 DSP의 재설계 또는 재프로그래밍을 불필요하게 한다. 추가로, 음성 인식 프로그램은 플래시 메모리에 연결된 데이터 포트를 통해서 최종 사용자에 의해 메모리로 로드된다. 이것은 또한 인터넷에서의 다운로드로 얻어질 수 있다. 이렇게 본 발명은 인터넷 그 자체를 통해서 인터넷과 통신을 위한 이동 장치에 쉽게 설치될 수 있다.

도 9는 거기에 설치된 본 발명의 실시예와 함께 핸드폰의 시스템 구조를 설명한다. 플래시 메모리(901)는 마이크로프로세서(902)에 연결되어 있고 이것은 교대로 DSP프로세서(903)에 연결된고, 이것은 플래시 메모리(902) 및 마이크로프로세러(902)와 관련하여 위에서 설명된 음성인식을 수행한다. 읽기 전용 메모리(ROM)장치(904) 및 랜덤 액세스 기억장치(RAM)(905)는 발음 데이터베이스(104) 및 어휘 데이터베이스(203)을 위한 메모리 저장 및 액세스를 제공함으로써 DSP프로세서(903)를 돕는다. 마이크로폰(907)을 통한 음성입력은 코더/디코더(CODEC)(906)에 의해 부호화된다. DSP프로세서(903)에 의한 음성 인식후에, 음성 신호는 CODEC(906)에 의해 해독되고 (본 발명의 한 실시예에서)가청 확인을 위해서 스피커(908)로 전송된다. 대안적으로, 스피커(908)는 가시표시부일 수 있다. 본 발명의 애플리케이션 프로토콜 인터페이스(API)의 한 실시예로서, 베이스로서 ARM77TDMI를 사용한, 상술은 다음과 같다: 메모리 사용은 10KB의 코드 크기를 요하고 (형판당)저장은 0.5KB이다; 계산 필요조건은 1.9MIPS의 음성 특성 추출이고 0.5MIPS의 형판당 음성인식이다. 음성인식 에러 수행 결과 및 본 발명의 한시리시예(VerbalTek^TM)의 계산력 평가는 도 10에 보여지고 여기서 비교는 ART,Sensory, 및 Parrot회사에서의 음성 인식 시스템과 함께 이루어졌다. 본 발명은 오직 "작은" 계산력(MIPS)을 요하는 회사(ART, Sensory)의 생산품의 것보다 상당히 낮은 에러율결과 및 상대적으로 "거대한" 계산력을 요하는 Parrot의 것에 동등한 정확도를 얻는다.

이렇게 본 발명은 인터넷 통신, 이메일 메시지, 및 매우 많은 수의 전화북 입력의 음성 액세스를 위한 WAP음성 명령을 위해서 유익하게 사용될 수 있다.

분산된 데이터 공정은 클라이언트-서버로서 사용될 수 있는데 여기서 서버에서 이루어진 공정 및 저장의 크기에 함께 각각의 어떤 공정 및 메모리 저장을 수행한다. 본 발명은 음성 정보통신을 위한 언어-의존 처리 및 클라이언트 단부에서의 데이터베이스 및 언어-독립 처리 및 클라이언트-서버 시스템의 서버 단부에서의 데이터베이스의 분리이다. 예를 들어, 클라이언트로서 PDA, 휴대폰, 또는 다른 전자장치 및 서버로서 인터넷 서비스 프로바이드(ISP)를 들수 있다. 감소된 계산력의 요구때문에, 본 발명은 종래 기술의 스케일러비러티 문제를 극복한다.

도 11은 본 발명에 따른 분산된 처리 설계에서 클라이언트에 기반을 둔 언어-의존 음성 인식부 및 서버에 기반을 둔 언어-독립적인 음성 인식부의 바람직한 실시예를 보인다. 함께 취해져, 두 파트는 서버, 예를들어 ISP서버와의 이동 전자 장치 통신을 위한 정확한 음성인식을 수행할 수 있다. 이동 장치 1101, 1102, 1103,...,각각은 각각 음향 인식기 1110, 1111, 1112,...를 포함하며, 이것은 사용자의 음성패턴 및 변덕(예를들어, 위에서 설명된 것과같이, 발음 데이터베이스(103) 및 발성 비교기(201)를 사용함으로써)에 따라서 주문 생산될 수있다. 서버 1104, 1105, 1106,..., 각각은 각각 언어 인식기 1107, 1108, 1109,...,를 포함하고, 이것은 많은 음성 인식(예를 들어, 위에서 설명된 바와 같이, 어휘 데이터베이스(203) 및 집합적으로 된 발성 유사성 비교기(202)를 사용함으로써)을 수행한다. 서버 1104는 웹사이트에 기반을 둘 수 있고 서버 1105는 또 다른 웹사이트등에 기반을 둘 수 있다. 낮추어진 계산력 요구때문에, 한 서버는 많은 클라이언트를 도울 수 있다. 각각의 웹사이트 서버 1104, 1105, 1106,...,에서의 언어인식기 1107, 1108, 1109,..는 그들의 능력에서 특수화될 수 있어서 웹사이트의 성질에 따라서 음성을 인식한다; 예를 들어 전문화된 상업, 기술, 의학기술 및 그와 같은 것은 어휘 데이터베이스(203)에서 특수화된(또는 더 포괄적인 발음 변화) 입력에 의해 더 정확하게 인식될 수 있다.

도 12는 인터넷 서비스 프로바이더 서버 시스템에 대한 이동 전자장치에서 본 발명의 또 다른 실시예를 도시한다. 이동 장치 1201, 1202, 1203,...,는 각각은 각각 음성 인식 시스템 1210, 1211, 1212,...,각각을 포함한다. 서버 1220, 1221, 1222,...,은 각각 단어 현 데이터베이스 1231, 1232, 1233,..,를 포함하는데, 이것은 이동장치 1201,...에서 단어 입력을 인식할 수있다. 본 실시예에서, 많은 양의 음성 인식은 이동장치에서 수행되고 이것은 (예를 들어, 위에서 설명된 것과 같이, 발음 데이터베이스(103), 발성 비교기(201) 및 집합적인 발성 유사성 비교기(202)를 포함하여)완벽한 시스템이다. 음성인식기 1210, 1211, 1212,...,의 바람직한 실시예에서, 음성은 마이크로폰을 통해서 입력되고 이것은 음향 신호를 전자신호로 변환하고 이것은 파라메트릭화되고 발음 데이터베이스(103)과 비교된다. (켑그트럴거리와 같은)사전결정된 표준에 근거한 최상매칭이 선택되고, 선택은 모아지게 되고, 그다음 인터넷을 통해서 전송된다. 웹서버 1220, 1221, 1222,...,는 전송된 집합적인 발성을 수신하고 그들은 데이터베이스 1231, 1232, 1233,...에 있는 입력과 비교한다. 사전 결정된 표준(켑스트럴 거리와 같은)을 사용하는 최상 매칭이 선택되어서 음성 입력은 인식된다. 위 일반 음성 인식 설명에서 위에서 설명된 모든 능력 및 특성은 도 11 및 12에 설명된 분산된 음성 인식 시스템으로 통합될 수 있지만, 임의의 음성 인식 시스템 및 또는 방법이 본 발명에 유익하게 사용될 수 있다

동작에서, 사용자는 스피커-독립 입력 디폴트 모드를 사용하고 여기에서 음성 인식을 위한 포장된 캐릭터(문자) 데이터베이스가 사용된다. 개별화된 데이터베이스(100)를 창조하기 위해서("트레이닝"), 사용자는 개별적인 소리사이에 적어도 0.2초의 단절을 갖는 육성으로 (영어를 예로 들면)"a"에서 "z" 및 "0"에서 "9"까지 에서 시스템으로 구술함으로써 알파벳 및 수의 소리를 기록하여 "음성 현"을 발생시킨다. 본 발명의 한 실시예에서, 문자가 런-온 한다면, 위에서 설명된 끝점 탐색 설계는 구분불가능 발성을 탐색할 것이고, 사용자는 표시부를 통해서 지시되어서 반복을 그치고 처음 부터 구술을 반복할 것이다. (도 5에서 보이는 것과 같은) 각각의 문자를 위한 파형을 생산하는 전단부 신호 프로세서(102)를 사용하여, 음성 현의 개별적인 문자는 변환된다. 그다음 파형은 세크먼트되고, 메모리에 주소가 할당되며 그다음 메모리에 저장되어 각각의 발성이 발음 데이터베이스(104)로 맵핑된다("라벨링"으로 불리는 공정). 영어 알파벳의 문자의 발성 유사성 비교기(201)와 관련한 발음 데이터베이스(103)는 26×26행렬을 형성하고, 행은 발음 데이터베이스(104) 안에 각각의 문자를 위한 저장된 파형을 함유하고 열은 인식 분석(샘플 행렬이 첨부되었다)을 위한 입력된 음성 문자를 함유할 것이다. 발성 유사성 비교기(201)는 입력된 발성과 행(발음 데이터베이스(103))안의 모든 문자를 비교하여 최상 매칭을 찾는다. 예를 들어, 입력된 단어"seat"는 사용자에 의해 "s-e-a-t"로 철자될 것이다. 발음의 변덕, 배경 잡음, 및 다른 요인때문에, 문자는 "x-e-k-d"(그것의 각각의 문자의 발음은 요구되는 문자와 유사하고, 그래서 잘못되어 "인식된다")로 인식된다. 본 발명의 바람직한 실시예에서, 데이터베이스안에 있는 문자와 비교되기 전에, 유사한 발음을 가진 문자는 함께 모아져서 조사는 더 효과적이다(조사 행렬 차원은 영어 알파벳을 위한 26×26 행렬보다 작을 것이다). 예를 들어, 본 발명의 바람직한 실시예에서의 그룹핑은 음절의 모음 소리를 강조하고 유사성 계산을 상당히 줄인 것이 발견되었고, 그래서 포켓형 장치를 위한 이상적인 그룹핑을 만든다. 예를 들어 이 그룹핑은 동일한 그룹에 "a","j", 및 "k"를 할당하고; 다른 그룹에 "x","s",및 "f"을 할당하고; 또 다른 그룹에 "b","c","d","e", 및 "g"를 할당한다. "s-e-a-t"예에서, 왜곡 스코어 기술의 설명으로서, 첫 문자"s"는 처음에 "x"로 인식되어서 켑스트럴 거리(예를 들어, 2.0)에 근거하여 할당된 영이 아닌 왜곡 스코어가 있을 것이고; 다음 문자"e"는 정확하에 인식되어서, 스코어는 0이 될 것이고; 다음 문자 "a"는 "k"로 인식되고 이것은 1.5의 스코어가 할당되고; 마지막 문자"t"는 "d"로 인식되고 이것은 1.0의 스코어가 할당된다. 단어를 위한 토털 왜곡 스코어는 4.5이다. 그다음 왜곡 스코어는 어휘 데이터베이스(203) 안에 있는 단어와 연결되어 비교된다. 그러나, 연결된 선택된 후보 문자는 더 뚜렷하다(그리고 "xekd"는 단어로서 존재하지 않는다). 단어 유사성 비교기(202)는 위에서 설명된 기술을 사용하여 왜곡 스코어를 계산하여서 압력된 "xekd"는 다음과 같은 왜곡 스코어를 생산할 것이다:

단어 비교기(202)는 각각의 비교의 왜곡 스코어의 등급을 매겨서 최소 왜곡 스코어를 결정하고, 이것은 어휘 데이터베이스(203) 안에 있는 단어와 가장 근접한 매칭(또는 가장 큰 유사성)이다. 표시부(204)는 사용자의 확인을 위해 선택된 단어를 표시한다. 임의의 문자 숫자식의 표시장치, 예를 들어 액정 표시장치(LCD)는 유익하게 사용될 수있다. 그다음, 휴대폰 또는 PDAs에서의 사용을 위해서, 문자의 조합은 단어를 구성하고 그다음 이것은 전송을 위해 전화번호 또는 다른 전송 표준에 매칭될 수 있다. 본 발명의 많은 실시예가 영어 알파벳에 근거함에도 불구하고, 그들은 단지 예일 뿐이고 본 발명의 범위는 물론 다른 언어를 포함한다는 것이 이해되어야 하고, 오직 제약은 그런 언어가 구별가능 소리에 근거되어야 한다는 것이다. 사실, 임의의 언어에서는 바뀔 수 있는, 발성의 내용 및 어휘 데이터베이스에 임의의 언어의 음성인식이 주로 의존하여서 그것이 본 발명에 의해서 얻어질 수 있기에 다수 언어 능력을 제공한다. 구두 소리 및 데이터베이스와의 유사성 비교는위에서 설명된 바와 같이 본 발명에 의해 얻어질 수 있고 정확도는 발음 데이터 베이스(104)를 구성하기 위해서 사용자가 소리를 구술함으로써 얻어질 수 있다. 보통 사용에서, 본 발명은 음성인식이 1-2초안에 얻어질 수 있도록 허용하여서 사용자와의 매끄러운 인터페이스를 제공한다. 검사결과에서 정확도는 일관성있게 95% 레벨에 있었다.

특히, 본 발명이 중국어의 단음절 캐릭터-근거 문자(또는 단어)를 입력하기에 이상적이다라는 것이 알려져있다. 예를 들어, "휴대폰"을 위한 단어는 캐릭터 현"xing-dong-dian-hua"로서 음역된다. 각각의 단어는 단음절이고 그것의 고유 뜻(또는 몇가지 의미)을 갖지만, 집합적으로 "휴대폰"을 위한 유일한 의미를 포함한다. 본 발명은 개별적인 단음절 문자의 (부분적으로 발견적 보정으로 인한)매우 정확한 인식을 제공하고, 이것은 단어를 형성하기 위해서 집합적으로 취해질 때, 감각적인 선택의 제한된 수 때문에 상당히 더 정확한 인식을 생산한다.

상기는 구체적 실시예의 전체 설명인 반면, 다양한 변경, 대안적인 구조 및 동등물이 사용된다. 예를 들어, 본 발명은 다음과 같이 발성으로 분리될 수 있는 구두 언어에 적당하다: 발성이 (영어 및 러시아어처럼) 알파벳의 문자와 관련된 알파벳 언어 및 발성이 (중국어 및 일본어처럼)캐릭터와 관련된 상징 언어. 추가적으로, 임의의 음성 인식 시스템 또는 기술이 유익하게 사용될 수 있다. 그러므로, 위의 설명 및 해설이 첨부된 청구항에 의해 정의된 본 발명의 범위를 제한하는 것으로 받아들여져서는 안된다.

Claims

복수의 데이터처리 장치와 상호 통신가능한 복수의 이동 전자 통신 장치를 갖는 통신망 시스템에서,

음향 정보를 인식하고 제 1세트의 관련된 언어 정보를 발생하는 이동 통신 장치의 각각에 전기적으로 배치된 음향 인식기; 및

상기 제 1세트의 관련된 언어정보를 인식하고 제 2세트의 관련된 언어정보를 발생하는 데이터처리장치의 각각에 전기적으로 배치된 언어 인식기를 포함하는 것을 특징으로 하는 음향정보 인식 시스템.
제 1 항에 있어서, 상기 음향 인식기가,

음향 정보를 파라메트릭화하는 전단부 신호처리기;

발성 발음의 복수의 파라메트릭 표시를 저장하는 발성발음 데이터베이스 저장장치; 및

발성 발음의 상기 복수의 파라메트릭 표시와 음향 정보의 파라메트릭 표시를 비교하고, 음향 정보의 상기 파라메트릭 표시 및 소정의 표준에 반응하여 발성 발음의 상기 복수의 파라메트릭 표시의 적어도 하나 사이에 있는 제 1 일련의 연합을 선택하는, 상기 전단부 신호처리 수단 및 상기 발음 데이터베이스 저장수단에 연결된 발성 유사성 비교기 수단을 포함하는 것을 특징으로 하는 음향정보 전송시스템.
제 2 항에 있어서, 상기 언어 인식기가,

단어 현 발음의 복수의 파라메트릭 표시를 저장하는 어휘 데이터베이스 저장장치; 및

상기 어휘 데이터베이스 저장장치에 저장된 집합 발성 발음의 상기 복수의 파라메트릭 표시와 제 1일련의 연합을 비교하고, 소정의 표준에 반응하여 단어 현 발음의 상기 복수의 파라메트릭 표시의 적어도 하나 및 집합 발성 발음의 상기 선택된 파라메트릭 표시사이에서 제 2일련의 연합을 선택하는, 상기 음향 인식기 및 상기 어휘 데이터베이스 저장장치에 연결된 집합 발성 유사성 비교기를 포함하는 것을 특징으로 하는 음향 정보 전송 시스템.
분산된 음성정보통신시스템에 있어서,

음향 신호를 전자 신호로 변환하는 마이크로폰을 각각 포함하는, 인터넷과 통신가능한 복수의 이동 전자통신 장치;

상기 마이크로폰에 일대일로 연결되고, 발성 발음을 포함하는 저장된 데이터베이스를 포함하고, 발성 정보로 전자신호를 변환하고 상기 발성발음과 상기 발성정보를 비교하고, 적어도 하나의 상기 발성 발음을 선택하고, 상기 선택된 발성발음을 모으고, 인터넷을 통해서 상기 선택된 집합 발성발음을 전송하는 복수의 음향인식기;

인터넷을 통해서 상기 선택된 집합 발성 발음을 수신하는, 인터넷과 통신가능한 복수의 데이터 처리장치;

상기 복수의 데이터처리장치에 일대일로 연결되고, 단어 현 발음을 포함하는 저장된 데이터베이스를 각각 갖고, 상기 단어 현 발음과 상기 집합 발성 발음을 비교하고, 적어도 하나의 상기 단어 현 발음을 선택하는 복수의 언어 인식기를 포함하여서, 언어 정보를 인식하는 것을 특징으로 하는, 인터넷과 통신가능한 분산된 음성 정보통신시스템.
발성 발음 데이터베이스를 안에 각각 배치하였던 복수의 이동 전자통신장치를 갖고, 이동 전자통신장치는 단어 현 발음 데이터베이스를 안에 각각 배치하였던 복수의 데이터처리 장치와 상호 통신가능한 통신방 시스템에서,

(a) 음향 정보를 파라메트릭화하는 단계;

(b) 발성 발음 데이터베이스에서 발성 발음과 파라메트릭화된 음향 정보를 비교하는 단계;

(c) 소정의 표준에 반응하여 적어도 하나의 발성 발음을 선택하는 단계;

(d) 선택된 적어도 하나의 발성 발음을 모으는 단계;

(e) 단어 현 발음 데이터베이스안에 있는 단어 현 발음과, 선택된 적어도 하나의 발성 발음을 비교하는 단계; 및

(f) 소정의 표준과 반응하여 적어도 하나의 단어 현 발음을 선택하는 단계를 포함하여서, 음향 정보를 인식하는 것을 특징으로 하는 음향 정보를 인식하는 방법.
제 5 항에 있어서, 음향 정보, 발성 발음, 및 단어 현 발음이 중국어로 된 것을 특징으로 하는 방법.
제 5 항에 있어서, 음향 정보, 발성발음, 및 단어현발음이 일본어로 된 것을 특징으로 하는 방법.
제 5 항에 있어서, 단계(a)가 음향 정보를 파라메트릭화하기 위해서 켑스트럴 계수를 사용하는 단계를 포함하는 것을 특징으로 하는 방법.
제 5 항에 있어서, 단계(c)의 소정의 표준이 켑스트럴 거리의 계산인 것을 특징으로 하는 방법.
제 5 항에 있어서, 단게(f)의 소정의 표준이 켑스트럴 거리의 계산인 것을 특징으로 하는 방법.
복수의 데이터처리 장치와 상호 통신가능한 복수의 이동 전자통신장치를 갖는 통신망시스템에서,

(a) 발성 발음데이터베이스를 포함하기 위해서 각각의 이동 전자통신장치에서 발성을 파라메트릭화하고 저장하는 단계;

(b) 단어 현 발음 데이터베이스를 포함하기 위해서 각각의 데이터처리장치에서 단어 현 발음을 파라메트릭화하고 저장하는 단계;

(c) 적어도 하나의 이동전자통신장치에서 음향 정보를 파라메트릭화하고 저장하는 단계;

(d) 이동 통신장치의 발성 발음 데이터베이스에 있는 발성 발음과 파라메트릭화된 음향정보를 비교하는 단계;

(e) 소정의 표준에 반응하여 적어도 하나의 발성발음을 선택하는 단계;

(f) 선택된 적어도 하나의 발성 발음을 모으는 단계;

(g) 데이터처리장치의 단어 현 발음 데이터베이스에 있는 단어 현 발음과 선택된 적어도 하나의 발성발음을 비교하는 단계; 및

(h) 소정의 표준에 반응하여 적어도 하나의 단어 현 발음을 선택하여서 음향 정보를 인식하는 단계를 포함하는 것을 특징으로 하는 음향 정보 인식 방법.
제 11 항에 있어서, 음향정보, 발성발음, 및 단어 현 발음이 중국어로 된 것을 특징으로 하는 방법.
제 11 항에 있어서, 음향 정보, 발성발음, 및 단어 현 발음이 일본어로 된 것을 특징으로 하는 방법.
제 11 항에 있어서, 단계 (a), (b), 및 (c) 파라메트릭화가 켑스트럴 계수를 사용하는 단계를 포함하는 것을 특징으로 하는 방법.
제 11 항에 있어서, 단계(e) 및 (h)의 소정의 표준이 켑스트럴 거리의 계산인 것을 특징으로 하는 방법.

샘플보정표 a

샘플보정표 b

샘플보정표 c