KR20010096490A - 이동통신을 위한 철자 음성인식장치 및 방법 - Google Patents

이동통신을 위한 철자 음성인식장치 및 방법 Download PDF

Info

Publication number
KR20010096490A
KR20010096490A KR1020000060110A KR20000060110A KR20010096490A KR 20010096490 A KR20010096490 A KR 20010096490A KR 1020000060110 A KR1020000060110 A KR 1020000060110A KR 20000060110 A KR20000060110 A KR 20000060110A KR 20010096490 A KR20010096490 A KR 20010096490A
Authority
KR
South Korea
Prior art keywords
parametric
pronunciation
character
word
database storage
Prior art date
Application number
KR1020000060110A
Other languages
English (en)
Inventor
팬제임즈
김윤
창조셉핀
첸주인-얀
Original Assignee
추후제출
버블텍 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 추후제출, 버블텍 인코포레이티드 filed Critical 추후제출
Publication of KR20010096490A publication Critical patent/KR20010096490A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/086Recognition of spelled words

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephone Function (AREA)

Abstract

전통적인 시스템의 계산력 및 메모리 필요, 고전력 소비, 복잡한 동작 시스템, 고비용, 및 중량화 없이 단어의 더 큰 변화를 처리할 수 있고 많은 다양한 장치에서 동작가능한 정확한 음성인식 시스템. 단어를 전송하기 위한 개별적인 문자 발성의 사용은 휴대폰, PDAs, 및 다른 통신 장치를 위한 인간 대 인간 통신 및 인간 대 기계통신 양쪽 모두를 위한 음성정보전송을 허용한다. 본 발명은 마이크로폰, 음성 입력 신호의 파라메트릭 신호를 발생하는 전단부 신호 처리기, 발음 데이터베이스, 문자 발음의 파라메트릭 표시와 입력 신호의 파라메트릭 표시를 비교하고 입력 음성 및 발음 데이터베이스에 있는 문자사이에 있는 일련의 연합의 발생하는 문자 유사성 비교기, 어휘 데이터베이스, 어휘 데이터베이스에 있는 단어와 집합된 복수의 문자를 비교하고 그들 사이에 있는 일련의 연합을 발생하는 단어 유사성 비교기, 및 선택된 문자 및 단어를 확인하기위해 표시하는 표시부를 포함하는 음성 인식 시스템을 위한 장치 및 방법이다.

Description

이동통신을 위한 철자 음성인식장치 및 방법{SPELLING SPEECH RECOGNITION APPARATUS AND METHOD FOR MOBILE COMMUNICATION}
본 발명은 보통 음성인식 시스템에 관한 것이고 더 상세하게는 이동통신장치를 위한 음성인식 시스템에 관한 것이다.
인간에서 기계로의 정보의 전송은 손동작의 키보드를 통해서 전통적으로 얻어졌는데, 이것은 적어도 두 인간 손의 편리한 핑거-스프레드(finger-spread)만큼 큰 차원을 갖는 기계를 전제로 한다. 정보입력을 요하지만 전통 퍼스널 컴퓨터보다 작은 전자장치의 출현으로, 정보 입력은 펜 포인팅, 터치패드, 및 음성명령과 같은 다른 형태를 취하게 되었다. 펜포인팅및 터치패드에 의해서 전송될 수있는 정보는 (퍼스널 디지털 어시스턴트(PDAs)및 휴대폰과 같은)장치의 표시 능력에 의해 제한된다. 그러므로, 상당한 연구가 전자장치를 위한 음성인식시스템에 대해 이루어져왔다. 기계에 의한 음성인식의 접근중에는 기계가 음향 특성 및 음성 소리사이에 알려진 관계 및 신호의 관찰된 음향 특성에 근거한 음성 신호파형을 해독하려는 시도가 있다. 이 음향-음성 접근은 거의 50년 동안 연구의 주제이었지만, 실제 많은성공을 거두지 못했다(Fundamentals of Speech Recognition, L.Rabiner & B.H.Juang, Prentice-Hall 참고). 문제가 많은데, 예를 들어, 음성 파형플롯에서 조차, "침묵에서 약한 음, 무성음("f" 또는 "th"와 같은)을, 무성음 또는 침묵에서조차 약한 음, 유성음("v" 또는 "m"과 같은)을 구별하는 것이 자주 어렵고" 가깝게 이웃하는 음성 단위, 소위 소리의 동시조음의 동일성에 의존하는 많은 다양성이 있다(상기 문헌 참고). 해독 후에, 음향-음성 접근에서 단어의 결정이 구두 입력에 매칭할 것 같은 일련 세트의 음소를 표시하는 소위 음소 격자(phoneme lattice)의 사용에 의해 시도되었다. 격자에 있는 음소의 수직 위치는 음성단위에 대하여 음향 매칭의 충실도의 측정이다("사전 접근(lexical access)"). 그러나 "음성인식에 대한 음향-음성 접근의 진짜 문제점은 사전 접근단계를 위한 신뢰할 만한 음소 격자를 얻는 것이 어렵다는 것이고"(상기 문헌 참고); 즉, 임의의 언어의 고유의 큰 다양성때문에 발성을 정확히 등급매기는 것이 거의 불가능하다.
패턴 인식(pattern-recognition) 접근에서, 주어진 음성패턴의 버전의 지식 베이스는 조합되고("트레이닝"), 인식은 지식 베이스에 있는 음성패턴과 입력 음성패턴을 비교함으로써 얻어져서 최상의 매칭을 결정한다. 패러다임은 다음 네 단계를 갖는다:(1)스펙트럼 분석을 사용한 특성추출,(2)발성 분류를 위한 기준 패턴을 생산하는 패턴 트레이닝,(3)두 잘 정의된 스펙트럼 벡터 사이에 있는 스펙트럼 "거리"를 측정하고 두 패턴의 스피킹의 다른 비율을 보상하는 타임정렬(다이내믹 타임 워핑, DTW)에 의해 등급 기준 패턴과 알려지지 않은 테스트 패턴을 비교하는 패턴 분류, 및 (4)유사성 스코어가 최상 매칭을 선택하기 위해서 사용되는 로직 결정. 패턴 인식은 특별히 단계(2) 및 (3)을 위해 과중한 계산을 요하고 소리 등급의 상당한 수를 위한 패턴 인식은 자주 금지된다.
그러므로, 정보 입력을 위한 인간 음성에 의지하는 시스템은, 음성의 고유의 변덕(vagary)(동음자, 단어 유사성, 액센트, 소리 레벨, 음절 강조, 음성패턴, 배경 소음등등을 포함하는)때문에, 정확도의 최소레벨조차 얻기 위해서 상당한 신호처리력 및 많은 룩업 테이블 데이터베이스를 요한다. 메인 프레임 컴퓨터 및 고단부 워크 스테이션은 음성인식의 수용가능 레벨에 접근하기 시작하고 있지만, 현재 퍼스널 컴퓨터(PCs)에서 유용한 메모리 및 계산력에서 조차, 이 기계들을 위한 음성인식은 이제까지 구체적 음성 명령의 주어진 세트에 크게 제한되어 있다. PDAs, 휴대폰, 장난감, 오락장치와 같이, PCs보다 훨씬 적은 메모리 및 처리력을 갖는 장치에 있어서, 자연 음성의 정확한 인식은 지금까지 불가능했다. 예를 들어, 전형적인 음성-구동 휴대폰은 이름을 반복하고 그다음 관련 번호를 입력함으로써 사전프로그래밍을 허용한다. 사용자가 연속적으로 이름을 반복할 때, 휴대폰안에 있는 마이크로프로세서는 저장된 번호와 반복된 이름의 음성 패턴을 매칭하려고 할것이다. 현재 음성구동 휴대폰을 사용했던 사람은 누구나 아는 바와 같이, 매칭은 (일치하지 않는 발음, 배경 소음, 및 처리능력의 부족으로 인한 고유의 제한성으로 인해서) 가끔 부정확하고 오직 약 25개의 저장된 수만이 가능하다. PDAs장치에서, 장치제조자가 매우 제한된 음성인식이라도 얻기 위해서는 광대한 재설계를 수행하는 것이 필요하다(예를 들어, 현 PDAs는 음성입력에 반응하여 데이터베이스를 조사할 수 없다).
음성입력을 위한 철자단어에 대해서, 혼동가능 세트에 관한 문제가 있다:{A,J,K},{B,C,D,E,G,P,T,V,Z},{Q,U},{I,Y}, 및 {F,S,X}. 이것들은 보통 발성의 작고, 엄밀한 부분에 근거하여 구별될 수 있을 뿐이다. 종래 인식은 전체 발성지속에서 단순 누적된 왜곡 스코어에 의존하기 때문에(이진적인 "예' 또는 "노"), 이것은 나쁜 인식 정확도를 초래하는 엄밀한 부분에 충분한 강조를 두지 않는다. 명백하게, 접근은 엄밀한 부분에 비중이 두어져야 하지만, 이 방법은 높은 인식 정확도를 얻지 않았고 과중한 계산부담을 갖는다.
요컨대, 정확하고 빠른 음성 인식에 필요한 메모리 및 계산은 또한 증가된 전력 및 복잡한 동작 시스템을 요구하고; 이 모든 수행들은 비용을 증가시킨다. 이렇게 현 음성 인식 기술은 그들의 무게, 전력 요구, 복잡성, 및 비용때문에 이동 통신을 위해 실용성이 없다.
도 1은 본 발명에 따라서 개별화된 데이터 베이스를 창조하는 시스템의 블록도.
도 2는 본 발명에 따른 음성 인식 시스템의 블록도.
도 3은 본 발명에 따른 LPC전단부 프로세서의 블록도.
도 4는 본 발명에 따른 문자 음성 인식 시스템의 블록도.
도 5는 본 발명에 따라서 마이크로폰에 의해 발생될 때 문자를 위한 파형의 예시도.
도 6은 본 발명에 따른 토털 왜곡 켑스트럼을 계산하는 다이내믹 타임 워핑 초기화 순서도 공정도.
도 7은 본 발명에 다른 토털 왜곡을 계산하는 다이내믹 타임 워핑 반복 공정 순서도.
도 8은 본 발명에 따른 토털 왜곡의 상대치를 계산하는 다이내믹 타임 워핑 순서도.
도 9는 거기에 설치된 본 발명의 실현을 갖는 휴대폰의 시스템 구조의 블록도.
도 10은 종래 기술 시스템 ART및 Sensory와 비교하여 본 발명의 한 실시예의 단어 인식 수행 결과를 설명하는 도면.
그러므로, 계산력과 메모리 요구, 고전력 소비, 복잡한 동작 시스템, 고비용, 및 전통 시스템의 무게를 갖지 않으면서, 많은 다른 장치에서 동작가능하고 단어의 광대한 변화를 신속히 처리할 수 있어 음성정보 전송이 휴대폰, PDAs, 전자장난감, 오락생산품, 및 통신을 요구하는 다른 장치를 위한 인간 대 인간 및 인간 대 기계 통신을 위해 실현가능한 정확한 음성인식 시스템이 필요하다. 본 발명은 저처리력 및 제한된 메모리 저장 능력을 갖는 전자장치를 위한 정확한 음성인식을 제공한다. 정확도는 주로 단어를 전송하기 위해 개별적인 수문자(alphanumeric) 조합의 캐릭터 발성을 사용함으로써 얻어져 사전적 접근 문제를 극복한다. 개별적인 수문자 발성은 타임 영역에서 거의 변하지 않고 단절(개별적인 캐릭터 또는 문자를 구술하는 사이에 있는 전형적인 단절)에 의해 분리되는 음성파형을 생산하기 때문에, 본 발명은 동시조음에 관련된 애매함 및 약한, 무성음을 구별하는 문제를 해결한다. 본 발명은 마이크로폰, 음성 입력 신호의 파라메트릭 표시를 발생하는 전단부 신호처리기, 발음 데이터베이스, 문자 발음의 파라메트릭 표시와 입력신호의 파라메트릭 신호를 비교하고 입력 음성 및 발음 데이터베이스안에 있는 문자사이에 일련의 연합을 발생하는 문자 유사성 비교기, 어휘 데이터베이스, 어휘 데이터베이스안에 있는 단어와 집합적 복수의 문자를 비교하고 그들 사이에 있는 일련의 연합을 발생하는 단어 비교기, 및 확인을 위해 선택된 문자 및 단어를 표시하는 표시부를 포함한다.
도 1은 본 발명의 개별화된 데이터베이스(100)의 블록도이다. 마이크로폰(101)은 가청 음성 현(voice string)(예를 들어, 알파벳 또는 개별적인 중국어 캐릭터의 문자)을 수신하고 음성현을 전자 파형 신호로 변환한다. 전단부 신호처리기(102)는 파형을 처리하여 인식 및 비교에 적당한 파형의 파라메트릭 표시를 생산한다. 바람직한 실시예에서, 음성 현은 선형 예측 부호화(LPC)에 의해 처리되고, 각각의 문자를 위한 파라메트릭 표시(즉, 각각의 가청 주파 신호를 더 분명히 묘사하기 위해서 파형 데이터에서 여분의 정보를 제거하는 "특성 추출(feature extraction)")를 생산한다. 그 결과, 영어 알파벳 문자의 경우, 26×26행렬이고, 이것은 행이 각각의 캐릭터 또는 문자의 파라메트릭 표시를 담고 열은 입력된 음성 캐릭터 또는 문자를 담을 것이다. 본 발명에서, 행렬은 발음 데이터베이스(103)에 저장된 문자의 개별적인 사용자의 발음으로 구성되는"보정형판(calibration template)"이다. 음성입력이 보정형판에 의해 보정되기 때문에, 전형적인 음성 인식 부정확성은 단어 비교에서 피해진다(샘플 보정표가 참고로 첨부되었다).
도 2는 본 발명의 바람직한 실시예의 블록도이다. 마이크로폰(101)은 일련의 압력된 발성을 수신하는데 이것은 전단부신호처리기(102)에 전송되어 파라메트릭화된 음성 현 파형 세트를 형성하고 그다음 이것은 개별적인 발성(예를 들어, 문자)을 위한 최상의 매칭을 선택하기 위해서 문자 비교기(201)를 사용하는 발음 데이터 베이스(103)와 비교된다. 예를 들어, 이름 "Michael"이 "n-y-d-h-a-b-l"(문자의 혼동 가능한 발음으로 인한 어떤 에러)로 부정확게 발음되었다고 가정하자. 한 실시예에서, 문자 비교기(201)는 음성 현을 수용하고, 발음 데이터베이스(103)에 있는 음성 현 발성 및 보정형판사이에 있는 "거리"를 결정한다. 또 다른 실시예에서, 유사하게 발음된 문자(또는 임의의 소리)는 유사성에 근거하여 분류하고, 그래서 비교는 더 효과적이다. 단어 유사성 비교기(202)는 사전 기록된 어휘 데이터베이스(203)안의 입력에 문자의 보정된 결과를 비교한다. 예를들어, 단어의 문자가 정확하게 인식되지 않을지라도, "Michael"과 같은 오직 제한된 수만의 감각적인 단어가 존재하기 때문에, 정확한 단어 매칭의 기회는 상당히 증가한다. 본 발명의 바람직한 실시예에서, 어휘데이터 베이스(203)는 본 발명의 양수인인, VerbalTek, Inc.에서 나온 유용한 사전 데이터베이스이다. 본 발명의 또 다른 실시예는 어휘 데이터베이스(201)로 입력된 Motorola의 사전 데이터베이스를 유익하게 사용한다. 본 발명의 또 다른 실시예는 사용자에 의한 주소북 입력을 사용한다. 본 발명은 어휘 데이터베이스(203)를 위해 사용자에 의해 요구되는 임의의 용어로 구성되는 단어 사전을 꾀한다. 예를 들어, 노력의 구체적 영역(상업, 사업, 서비스 산업, 기술 학술, 및 법, 의학, 회계등등과 같은 전문직)을 위한 전문화된 단어는 어휘 데이터베이스(203)에 유익하게 입력될 수 있다. 더 나아가, 본 발명이 중국어와 같은 단음절 단어 언어를 위한 유익한 사용을 꾀한다는 것은 당업자들에 의해 이해되어야 한다. 입력된 파형과 어휘 데이터베이스(203)에 있는 사전 기록된 파형과의 비교를 통해서 구두 입력과 매칭될지도 모르는 일련 세트의 음소가 발생되고, 음소격자가 발생된다. 격자는 어휘 데이터베이스(203)에 있는 단어와의 각각의 입력된 조합의 근접도에 근거하여 각각의 입력된 파형에 "스코어"를 할당함으로써 구성되어진다. "근접도"표준은 입력 파형 및 저장된 어휘 파형사이에 계산된 왜곡에 근거하여 "왜곡 스코어(distortion score)"를 발생한다. 스코어가 개별화된 발음 데이터베이스와의 상대적으로 정확한(전통음성 인식 음향-음소 방법에 비하여) 문자 또는 캐릭터의 매칭에 근거하기 때문에, 음소 격자는 95%이상의 정확도에서 단어 매칭을 생산한다. 그다음 단어를 위한 최상 매칭은 표시부(204)에 표시된다.
본 발명의 바람직한 실시예에서, 음성 파형(그것의 예가 도 5에 보여진다)을 파라메트릭 표시로 변환하는 전단부 신호 처리는 선형 예측 부호화(LPC)를 사용한다. LPC는 (1)LPC가 무성음 영역에서 보다 음성 스펙트럼 엔벨로프(spectral envelope)의 유성음 영역에서 더 효과적이고, 본 발명은 뚜렷한 문자 소리를 강조하는 철자 발성을 유익하게 사용하고 자연 단절을 갖기 때문에(그래서 무성음은 덜 중요하다), 및 (2)LPC는 보컬 트랙(vocal tract) 특성을 고려하는 계산적으로 효과적인 표시를 제공하기 때문에(그래서 개별화된 발음이 최소 처리 및 저장으로 얻어지도록 허용한다) 본 발명에 특별히 적당하다. 본 발명에서 LPC의 특별한 효과는 예를 들어, 음성 세그먼트가 (유한한 길이 윈도우에 의해 음성 신호를 곱하는 것과 동등한)주어진 간격의 밖에서 동일하게 0인것으로 가정하는, LPC자기상관방법에서 설명된다. LPC전송함수에서, H(z)=S(z)/GU(z)이고 여기서 소오스의 이득 G는 음성신호에서 계산되고 눈금이 있는 소오스가 디지털 필터H(z)에 입력으로서 사용되고, 이것은 생산된 음성의 보컬 트랙 파라메트릭 특성에 의해 제어된다.
도 3은 본 발명의 바람직한 실시예에 따른 LPC전단부 처리기(102)의 블록도이다. 바람직하게 고정된 저차원 디지털 시스템(전형적으로 제 1차 FIR필터)인 프리엠퍼사이저(301)는 스펙트럼으로 신호s(n)를 플래트닝하고 다음과 같이 설명된다:
여기서 0.9≤a≤1.0이다. 본 발명의 또 다른 실시예에서, 프리엠퍼사이저(301)는 다음의 전송 함수를 갖는 제 1차 적응성 시스템이다.
여기서 an는 타임(n)과 함께 변하고, 예를 들어, an=rn(1)/rn(0)여기서 rn(i)은 자기상관의 수열의 i번째 샘플이다.
프레임 블록커(302)는 N샘플안에 있는 음성 신호를 블록킹하고, 이웃하는 프레임은 M샘플에 의해 분리된다. 본 발명의 실시예에서, 사이에 아무 분리 없이 20㎳ 프레임에 대응하여, 음성의 샘플링률이 8㎑일 때, N=M=160. 프레임 당 한 특성이 존재하여서 일 초 발성동안에(50프레임 동안), 12파라미터가 프레임 데이터를 표시하고, 50×12행렬이 발생된다(형판 특성 세트). 윈도우어(303)는 각각의 개별적인 프레임을 윈도우잉하여 각각의 프레임의 초기 및 단부에서 신호 불연속성을 최소화한다. 바람직한 실시예에서 각각의 프레임의 초기 및 단부에서 신호 불연속성이 존재한다. 본 발명의 바람직한 실시예에서, M=N인 경우에, 직각 윈도우는 윈도우 경계에서 데이터의 손실을 피하기 위해 사용된다. 자기상관기(304)는 다음을 나타내는 자기상관을 수행한다.
여기서 m은 0,1,...,p이고, p는 LPC분석의 차수이다. 본 발명의 바람직한 실시예는 P=10을 사용하지만, 8 내지 16까지의 p의 값은 다른 실시예에 유익하게 사용될 수 있고 정확도를 증가시키는 다른 값은 본 발명의 계획안에 또한 있다. 0번째 자기상관은 주어진 프레임의 프레임 에너지이다. 켑스트럴 계수 발생기(305)는 기술상 알려져 있는 Durbin의 방법을 사용하여 각각의 프레임을 켑스트럴 계수(로그 진폭 스펙트럼(log magnitude spectrum)의 역 푸리에 변환, 아래를 보라)로 변환한다. 테이퍼 켑스트럴 윈도우어(tapered cepstral windower)(306)는 잡음의 효과를 최소화하기 위해서 켑스트럴 계수에 비중을 둔다. 테이퍼 윈도우어(306)는 전체 스펙트럼 경도에 대한 저차 켑스트럴 계수 및 잡음(또는 다른 바람직하지 않은 다양성)에 대한 고차 케스트럴 계수의 민감도를 낮추기 위해서 선택된다. 시간 미분기(307)는 적정치(본 발명에서, 유산 길이 윈도우 도함수의 최소 제곱 추정치)에 맞는 오쏘고날 다항식을 사용하여서 켑스트럴 계수의 제 1차 도함수를 발생하여서 처리된 신호S'(n)을 생산한다. 또 다른 실시예에서, 2차 도함수는 역시 기술상 알려진 근사치 기술을 사용하는 시감 미분기(307)에 의해서 발생될 수 있어 그이상의 음성 신호 정보를 제공하여 음성신호의 스펙트럼 특성의 표시를 향상시킨다. 그러나 또 다른 실시예는 시간 미분기를 건너 뛰어 신호S"(n)을 제공한다. LPC를 사용한 전단부 신호처리기(102)의 위의 설명 및 위에서 설명된 기술은 바람직한 실시예의 개시를 위한 것이고 전단부 신호처리의 다른 기술 및 방법은 본 발명에 유익하게 사용될 수 있다는 것이 이해되어야 한다. 비교 기술 및 발성의 현을 매칭하는 방법은, 그들이 개별적인 캐릭터 및 단어일지라도, 실질적으로 유사하고, 그래서 다음 설명은 비교기(201와 202) 양쪽 모두를 포함한다.
본 발명의 바람직한 실시예에서, 파라메트릭 표시는 켑스트럴 계수를 사용하고 입력된 음성은 켑스트럴 거리를 비교함으로써 사전 기록된 데이터베이스에서 문자 또는 단어현 입력과 비교된다. 입력된 문자들은(또는 단어 조합에 있는 문자) 유사성에 따라서 분류되어진 다수의 후보 캐릭터(또는 문자)매칭을 발생한다. 입력 파형과 사전 기록된 파형과의 비교에서, 구두 입력에 매칭할지도 모르는 일련의 음소는 발생되고, 이것은 행렬에서 정렬될 때, 음소 격자를 생산한다. 격자는 각각의 입력된 파형에 어휘 데이터베이스안에 있는 단어와의 각각의 입력된 조합의 근접도에 근거된 "스코어"값을 할당함으로써 정렬된다. "근접도"표준은 입력 파형 및 저장된 어휘 파형사이에 있는 켑스트럴 거리에 근거하여서 "왜곡 스코어(distortion score)"를 발생한다. 스코어가 상대적으로 정확한(전통적인 음성인식 음향-음소 방법에 비하여) 캐릭터의 매칭에 근거하기 때문에, 본 발명의 음소 격자는 95%이상의 정확도의 단어 매칭을 생산하다.
도 4는 문자 보정기(401)에 입력된 파형 파라메트릭 표시를 보이고, 여기서, 발음 데이터베이스(103)와 관련하여, 보정 행렬(예가 첨부되었다)이 발생된다. 왜곡 계산기(402)는 입력된 음성 및 바람직한 실시예에서, 계산된 켑스트럴 거리(아래에 설명됨)에 근거한 발음 데이터베이스(103)안에 있는 입력 사이에 있는 왜곡을 계산한다. 그다음 스코어 계산기(403)는 사전 결정된 (켑스트럴 거리와 같은)표준에 근거하여 스코어를 할당하고 실렉터(404)는 후보 문자(단어)를 계산한다. 주파수 스케일에 대한 로그 진폭위에 있는 두 음성 스팩트럼 사이에 있는 차이는
두 음성 특성 벡터 사이에 있는 차이점을 표시하기 위해서, 바람직한 실시예는 (주파수에 대하여)로그 진폭의 평균 절대값, 즉, 놈(norm)의 세트를 사용한 실효값(rms) 로그 스펙트럼 왜곡(또는 "거리")측정을 사용한다.
여기서 p=1때, 이것은 평균 절대 로그 스펙트럼 왜곡이고 p=2일때, 이것은 실효값 로그 스펙트럼 왜곡이다. 바람직한 실시예에서, 거리 또는 왜곡 측정은 신호의 복잡한 켑스트럼에 의해 표시되고, 이것은 신호 스펙트럼의 로그의 푸리에 변환으로서 정의된다. ω=0에 대하여 대칭성인 멱 스펙트럼에 대하여, 로그S(ω)의 푸리에 급수 표시는
여기서 cn=c-n는 켑스트럴 계수이다.
여기서 cn및 cn'은 각각 S(ω) 및 S'(ω)의 켑스트럴 계수이다. 예를 들어 바람직한 실시예에서 10-30 텀과 같이, 무한히 합하지 않음으로해서, 본 발명은 절단된 켑스트럴 거리를 사용한다. 이것은 실효값 로그 스펙트럼 거리를 효과적으로(상대적으로 낮은 계산 부담을 의미하는) 추정한다. 음성 신호의 인식된 크기가 대략 대수이기 때문에, 로그 스펙트럼 거리의 선택은 주관적인 소리 차이를 구별하기에 매우 적당하다. 더 나아가, 낮은 켑스트럴 계수의 다양성은 주로 음성 변덕 및 전송 왜곡에 기인하여서 켑스트럼(켑스트럴 거리의 세트)은 왜곡 측정을 위해 유익하게 선택된다. 동일한 발성의 다른 음향 연출은 자주 다른 시간율로 말해져서 구술 속도 다양성 및 지속 다양성은 언어 차이 스코어에 기여하지 않아야 한다. 다이내믹 타임 워퍼(DTW)(408)는 스펙트럼의 다이내믹 행동 분석을 수행하여 입력된 발성 및 매칭된 데이터베이스 값사이에 있는 차이점을 더 정확하게 결정한다. DTW(408)는 비교되는 두 패턴의 음향 특성을 맵핑하는 격자를 통해서 "최상"을 찾음으로써 구술율 요동(speaking rate fluctuation)을 타임 정렬하고 정상화한다. 바람직한 실시예에서, DTW(408)는 차이점의 다이내믹 프로그래밍 최소화에 의해서 최상의 통로를 찾는다. 두 워핑 기능, ψx및 ψy은 공동 타임 축, k로 음성 패턴의 두 시간 요동 표준, ix및 yy에 각각 관한것이어서,
전체 패턴 차이점 측정은 다음과 같은 전체 발성에 관한 누적 왜곡과 같이, 워핑 기능 쌍에 근거하여, 정의된다:
여기서 d(ψx(k),ψy(k))는 xψx(k)yψy(k)를 위해 정의된 단기 스펙트럼 왜곡이고, m(k)는 논네가티브 웨이팅 기능이고, Mψ는 정상화 요소이고, T는 정상 타임 눈금위에 두 음성 패턴의 "정상"지속이다. 경로ψ=(ψxy)은 전체 경로 차이점을 일관성있게 측정하기 위해서 선택된다. 본 발명의 바람직한 실시예에서, 차이점 d(X,Y)는 전체 경로에 걸쳐서 dψ(X,Y)의 최소치로서 정의되는데, 즉,
정렬 경로 수단을 따라 누적된 왜곡을 사용하면서 차이점이 구술율 차이를 보상하는 최상의 가능한 정렬에 근거하여 측정되기 때문에 위 정의는 X 및 Y가 동일한 단어의 발성일 때 정확하다. 다이내믹 프로그램은 최상 경로를 찾음으로써 위에서 즉시 설명된 것과 같은 일련의 결정 문제를 해결할 수 있다는 것이 알려져 있으며, 이것은 한 지점에서 다른 지점으로 이동하는 최소"비용"을 의미한다. 본 발명의 실시예에서, 이동에 관련된 단계의 수가 "한다면(if-then)"으로 결정되기 때문에, 일련의 결정은 비동기적이다. 결정은 최상 경로 조사가 증가적으로 동작하게 허용하는 재귀 관계를 사용하고 아래에 설명된 바와 같이 본 발명의 바람직한 실시예에서 알고리즘에 의해서 수행된다. 목적지 지점과 함께, 최상 경로 ("폴리시(policy)")안에 다음의 지점을 결정하는 결정룰은 최소화되도록 요구되는 비용을 완전히 정의한다. 비용 ξ(j,i)를 유도하는 초기점 1에서 매개점 j로의 이동을 위한 최상 폴리시는 다음에 의해 주어진다.
그래서 지점 i에서 지점j로의 이동의 최상 시퀀스 및 관련된 최소 비용을 위해서,
또 다른 실시예에서, 일련의 결정은 동기적이고(고정된 수의 이동을 위한 결정 처리의 질서(regularity),M), 관련된 최소비용ψm(i,1)은
이것은 본 발명의 실시예에서 사용되는 재귀관계이다.
위에서 설명된 양쪽 모두에서, 방법은 다음과 같이 (1)초기화, (2)재귀, (3)종료, 및 (4)백트랙킹(backtracking)의 단계를 따른다.
위 알고리즘은 계산적으로 경제적이고 그래서 본 발명에 의해 시도되는 포켓용 장치의 실현에 적당하다.
도 6, 7 및 8은 비교되는 형판사이에 있는 토털 왜곡을 계산하는 DTW(408)의 바람직한 실시예의 순서도를 구성한다. "거리"d(i,j)(위의 방정식11)는 형판X의 i번째 특성 및 형판 Y의 j번째 특성사이에 있는 왜곡이다. 도 6은 초기화 공정(601)을 서술하는데 여기서 이전의 거리는 602에서 d(0,0)이다. 그다음 표준 j는 603에서 증가되고 이전 거리는 이제 j(이전 거리[j-1]+d(0,j)과 동일한 이전 거리[j])에서의 거리이다. 605에서, j가 형판 Y(j<번호 Y)에서 특성의 번호보다 작으면, j는 606에서 증가할 것이고 이전 거리[j]의 새 계산을 위해서 604로 피드백될 것이다. j가 번호 Y보다 크지 않으면, 초기화는 완료되고 토털 왜곡을 위한 반복 공정(611)은 도 7에 도시된 바와 같이 개시한다. 612에서, 표준 i는 하나에서 설정되고 현 거리(현거리[0])는 이전거리[0] 더하기 d(i,0)와 같이 계산된다. 614에서, j는 1로 설정되고 관련된 거리 d1,d2,또는 d3으로 인도되는 가능 경로는 다음과 같이 계산된다:
현거리[j-1]+d(i,j)=d1
이전거리[j]+d(i,j)=d2
이전거리[j-1]+d(i,j)=d3.
그다음 관련 거리의 상대치는 도 8의 621 및 622에서 검사된다. d3이 d2보다 크지 않으면, d3은 최소이고 현거리[j]는 623에서 d3이 될 것이다. 626에서 Y형판에서의 특성의 번호보다 j번째 특성이 작은지를 시험한 후에, j는 617에서 증가하고 가능 경로의 거리의 계산으로 피드백되고 최소화 공정은 되돌아간다. d2가 d1보다 크고 d3이 d1보다 크다면, d1은 최소이고 그래서 현재거리[j]로서 설정된다. 그다음 j는 626에서 Y형판에서의 특성의 번호에 반하여 다시 검사되고, j는 617에서 증가되고 재귀를 위해 피드백된다. d3이 d2보다 크고 d1이 d2보다 크다면, d2는 최소이고 현재 거리[j]로 설정되고, 유사한 공정이 반복되어 증가되고 피드백된다. 이런 방법으로, 최소 거리는 발견된다. j가 626에서 형판Y에서의 특성의 번호보다 크거나 같으면, i는 그것이 형판 X-1에서의 특성의 번호와 같은지를 보기위해서 검사된다. i가 형판 X-1에서의 특성의 번호와 같지 않다면, 이전 거리는 618에서 (번호 Y-1에 이르는)j표준을 위한 현거리로서 설정되고, i는 616에서 증가되고 이전 거리 더하기 새 i번째 거리로서 현 거리의 설정을 위해 613으로 피드백되고 공정은 형판X-1에서 특성의 번호와 j가 동일한 매 i증가때마다 반복된다. i가 X형판-1에서의 특성의 번호와 동일하다면, 토털 왜곡은 628에서
와 같이 계산되어,토털 왜곡을 찾는 알고리즘을 완료하게 된다.
최상 인식 정확도를 얻기 위해서, 워핑 기능이 억제된다. 작은 음성 끝점 에러조차 음성 탐색 정확도에서 상당한 하락을 초래한다는 것이 기술상 알려져 있다. 제어된 환경에서 똑똑히 발음된 음성에서, 높은 탐색 정확도가 얻어질 수 있지만, (휴대폰과 같은)일반 사용에서, 스피커 소리의 엉뚱한 것(혀 차는 소리, 호흡, 딸각거리는 소리등을 포함한)이 들리고, 배경 소음, 및 전송 왜곡(크로스 토크, 상호 변조, 및 음색 간섭)은 정확한 끝점 탐색을 어렵게 한다. 발성이 잘 정의된 끝점(패턴의 개시 및 끝나는 프레임을 표시하는)을 가진다면, 유사성 비교는 더 정확한 인식을 초래할 것이다. 입력 발성을 위한 개별적인 철자의 사용에서, 본 발명은 개별적인 캐릭터(문자)의 일반적으로 더 정확한 발음 및 캐릭터 현이 발음되거나 단어가 철자될 때 개별적인 캐릭터(문자) 사이에 있는 전형적인 단절의 결과로서 정확도를 얻는다. 그래서 시간 편차는 끝점안에 있는 지역으로 일반적으로 한정된다. 워핑 기능의 제한조건은 처음 및 마지막 시간 요동 표준, ix=1, 및 iy=T로서 시작 및 끝점에서 값을 단순히 설정할 것이다. 이 끝점 제한조건들은 Tx및 Ty의 용어로, 방정식(11)을 통해서 본 발명으로 집약된다:
여기서 X 및 Y는 Tx및 Ty에서 각각 종료한다. 본 발명의 바람직한 실시예는 본 발명의 철자 입력 발성 음성 인식 시스템에 최상으로 적당한 다이내믹 타임 워핑 체제를 제공한다. DTW(408)은 방정식 15를 사용하여서 다음과 같이 (1,1) 및(ix, iy)를 연결하는 경로를 따라서 최소 부분 누적 왜곡을 발생한다:
여기서 ψx(T')=ix및 ψy(T')=iy이고 제한조건을 갖는 다이내믹 프로그래밍 재귀는 다음 과 같이 되다.
여기에서 ξ은 지점(ix', iy')및 (ix, iy)사이에 가중치 주어진 누적 왜곡(로컬 거리)이고,
여기에서, Ls는 ψx및 ψy에 따른 (ix', iy')에서 (ix, iy)로의 경로에서 이동의 수이다. 증가 왜곡ξ은 다양한 제한조건에 의해 정의된 경로를 따라서만 진화되어서, 최소화 공정은 제한조건안에서 효과적으로 해결될 수 있다. 그러나, 차이점의 발견적인 성질이 또한 다음 방법에 유익하게 포함되어질 수 있다;예를 들어, 본 발명에서 프레임은 다수의 세그먼트로 절단되어 "a" 및 "f"와 같은, 혼동가능문자 발성사이를 구별한다. 많은 다른 제한조건 및 제한조건의 조합이 본 발명의 범위안에 있다는 것이 이해되어져야 한다. 예를들어, 다른 문자의 발성에서, 가장 정확한 비교를 위한 타임 정렬은 잘 정의되는 언어 개념이 아니기 때문에 직관적인 제한조건이 본 발명에서 사용된다.
동작에서, 사용자는 스피커-독립 입력 디폴트 모드를 사용하고 여기에서 음성 인식을 위한 포장된 캐릭터(문자) 데이터베이스가 사용된다. 본 발명의 실시예에서, 메뉴 선택은 사용자가 남성 또는 여성 음성 인식 및 언어 선택을 선택하도록 허용한다. 발음 데이터베이스(103)은 남성 또는 여성 음성 또는 다른 언어를 위한 사전 기록된 형판을 포함한다. 사용자가 그의 선택된 언어에서 그 자신의 음성을 기록한다면, 이것은 발음 데이터베이스(103) 안에 기록될 것이어서 남성/여성/언어 형판은 필요하지 않을 것이다.
개별화된 데이터베이스(100)를 창조하기 위해서("트레이닝"), 사용자는 개별적인 소리사이에 적어도 0.2초의 단절을 갖는 육성으로 (영어를 예로 들면)"a"에서 "z" 및 "0"에서 "9"까지에서 시스템으로 구술함으로써 알파벳 및 수의 소리를 기록하여 "음성 현"을 발생시킨다. 본 발명의 한 실시예에서, 문자가 런-온(run-on) 한다면, 위에서 설명된 끝점 탐색 설계는 구분불가능 발성을 탐색할 것이고, 사용자는 표시부를 통해서 지시되어 반복을 그치고 처음부터 구술을 반복할 것이다. (도 5에서 보이는 것과 같은) 각각의 문자를 위한 파형을 생산하는 전단부 신호 프로세서(102)를 사용하여, 음성 현의 개별적인 문자는 변환된다. 그다음 파형은 세그먼트되고, 메모리에 주소가 할당되며 그다음 메모리에 저장되어 각각의 발성이 발음데이터베이스(104)로 맵핑된다("라벨링"으로 불리는 공정). 영어 알파벳의 문자의 발성 유사성 비교기(201)와 관련한 발음 데이터베이스(103)는 26×26행렬을 형성하고, 행은 발음 데이터베이스(104)안에 각각의 문자를 위한 저장된 파형을 함유하고 열은 인식 분석(샘플 행렬이 첨부되었다)을 위한 입력된 음성 문자를 함유할 것이다. 발성 유사성 비교기(201)는 입력된 발성과 행(발음 데이터베이스(103))안의 모든 문자를 비교하여 최상 매칭을 찾는다. 예를 들어, 입력된 단어"seat"는 사용자에 의해 "s-e-a-t"로 철자될 것이다. 전단부 신호 처리기(102)는 특성 추출을 수행하고, 이것은 예를 들어, 음성의 1초당 50 행의 켑스트럴 계수(또는 벡터)를 생산한다. 문자 발성 비교기(201)은 다이내믹 타임 워핑(DTW)을 사용하는 a에서 z까지의 발음 데이터베이스(103)에 있는 입력과 각각의 문자의 켑스트럴 거리를 비교한다. 입력된 음성이 2초간 지속되고(100프레임), 음성파일의 각각의 부분이 각각 25프레임이라면, 문자 발성 비교기(201)는 발음 데이터베이스(103)에 있는 알파벳의 26문자와 켑스트럴 벡터의 25행을 비교한다. 발음 데이터베이스(103)에 있는 각각의 문자가 25프레임 길이라면, DTW비교는 25×25이다. 발음의 변덕, 배경 잡음, 및 다른 요인때문에, 문자는 "x-e-k-d"(그것의 각각의 문자의 발음은 요구되는 문자와 유사하고, 그래서 잘못되어 "인식된다")로 인식된다. 본 발명의 바람직한 실시예에서, 데이터베이스안에 있는 문자와 비교되기 전에, 유사한 발음을 가진 문자는 함께 모아져서 조사는 더 효과적이다. 예를 들어, 본 발명의 바람직한 실시예에서의 그룹핑은 음절의 모음 소리를 강조하고 유사성 계산을 상당히 줄인 것이 발견되었고, 그래서 포켓형 장치를 위한 이상적인 그룹핑을 만든다. 예를 들어 이 그룹핑은동일한 그룹에 "a","j", 및 "k"를 할당하고;다른 그룹에 "x","s",및 "f"을 할당하고; 또 다른 그룹에 "b","c","d","e", 및 "g"를 할당한다. "s-e-a-t"예에서, 왜곡 스코어 기술의 설명으로서, 첫 문자"s"는 처음에 "x"로 인식되어서 켑스트럴 거리(예를 들어, 2.0)에 근거하여 할당된 영이 아닌 왜곡 스코어가 있을 것이고; 다음 문자"e"는 정확하에 인식되어서, 스코어는 0이 될 것이고; 다음 문자 "a"는 "k"로 인식되고 이것은 1.5의 스코어가 할당되고; 마지막 문자"t"는 "d"로 인식되고 이것은 1.0의 스코어가 할당된다. 단어를 위한 토털 왜곡 스코어는 4.5이다. 그다음 왜곡 스코어는 어휘 데이터베이스(203)안에 있는 단어와 연결되어 비교된다. 그러나, 연결된 선택된 후보 문자는 더 뚜렷하다(그리고"xekd"는 단어로서 존재하지 않는다). 단어 유사성 비교기(202)는 위에서 설명된 기술을 사용하여 왜곡 스코어를 계산하여서 압력된 "xekd"는 다음과 같은 왜곡 스코어를 생산할 것이다:
단어 유사성비교기(202)는 다이내믹 타임 워핑(DTW)을 사용하는 각각의 비교의 왜곡 스코어를 분류하여서 최하의 왜곡 스코어를 결정한다. 본 예에서 DTW 계산은 단지 4×4행렬(단어의 길이를 반영하는)를 요구하여서, 계산 효율이 얻어진다. 어휘 데이터베이스(203)에 있는 단어에 가장 근접한 매칭(또는 가장 큰 유사성)은"seat"이다. 표시부(204)는 사용자의 확인을 위해 선택된 단어를 표시한다. 임의의 문자 숫자식의 표시장치, 예를 들어 액정 표시장치(LCD)는 유익하게 사용될 수있다. 그다음, 휴대폰 또는 PDAs에서의 사용을 위해서, 문자의 조합은 단어를 구성하고 그다음 이것은 전송을 위해 전화번호 또는 다른 전송 표준에 매칭될 수 있다.
본 발명의 많은 실시예가 영어 알파벳에 근거함에도 불구하고, 그들은 단지 예일 뿐이고 본 발명의 범위는 물론 다른 언어를 포함한다는 것이 이해되어야 하고, 오직 제약은 그런 언어가 구별가능 소리에 근거되어야 한다는 것이다. 사실, 임의의 언어에서는 바뀔 수 있는, 발성의 내용 및 어휘 데이터베이스에 임의의 언어의 음성인식이 주로 의존하여서 그것이 본 발명에 의해서 얻어질 수 있기에 다수 언어 능력을 제공한다. 구두 소리및 데이터베이스와의 유사성 비교는 위에서 설명된 바와 같이 본 발명에 의해 얻어질 수 있고 정확도는 발음 데이터 베이스(104)를 구성하기 위해서 사용자가 소리를 구술함으로써 얻어질 수 있다.
작은 형태 요소로 인하여 본 발명의 실시예는 소비자 전자 장치의 기존하는 동작 시스템(예를 들어, 핸드폰을 위한 PDAs및 ARM7DMI를 위한 마이크로소프트 윈도우 CE)으로의 단순한 통합을 허용하여서, 광대한 재설계 및 재프로그래밍을 미연에 방지한다. 본 발명의 음성 인식 프로그램의 실시예는 또한 휴대폰 또는 PDA와 같은 장치의 플래시 메모리로 로드되어서, 기존의 전자 장치로의 본 발명의 쉽고, 빠르고, 저렴한 통합을 허용하여서, 호스트 장치의 DSP의 재설계 또는 재프로그래밍을 불필요하게 한다. 추가로, 음성 인식 프로그램은 플래시 메모리에 연결된 데이터 포트를 통해서 최종 사용자에 의해 메모리로 로드된다. 이것은 또한 인터넷에서의 다운로드로 얻어질 수 있다. 도 9는 거기에 설치된 본 발명의 실시예와 함께 핸드폰의 시스템 구조를 설명한다. 플래시 메모리(901)는 마이크로프로세서(902)에 연결되어 있고 이것은 교대로 DSP프로세서(903)에 연결된고, 이것은 플래시 메모리(902) 및 마이크로프로세서(902)와 관련하여 위에서 설명된 음성인식을 수행한다. 읽기 전용 메모리(ROM)장치(904) 및 랜덤 액세스 기억장치(RAM)(905)는 발음 데이터베이스(104) 및 어휘 데이터베이스(203)을 위한 메모리 저장을 제공함으로써 DSP프로세서(903)를 돕는다. 마이크로폰(907)을 통한 음성입력은 코더/디코더(CODEC)(906)에 의해 부호화된다. DSP프로세서(903)에 의한 음성 인식후에, 음성 신호는 CODEC(906)에 의해 해독되고 가청 확인을 위해서 스피커(908)로 전송된다. 대안적으로, 스피커(908)는 가시표시부일 수 있다. 본 발명의 애플리케이션 프로토콜 인터페이스(API)의 한 실시예로서, 베이스로서 ARM77TDMI를 사용한, 상술은 다음과 같다: 메모리 사용은 10KB의 코드 크기, 4KB의 스크래치 패드 크기를 요하고 (형판당)저장은 0.5KB이다. 계산 필요조건은 1.9MIPS의 음성 특성 추출이고 0.5MIPS의 형판당 음성인식이다.
전형적인 사용에서, 본 발명은 음성인식이 1-2초안에 얻어지도록 허용하여서 사용자와의 원활한 인터페이스를 제공한다. 검사 결과에서의 정확도는 일관성있게 95% 레벨 이었다. 본 발명의 한 실시예의 이름(단어)인식 수행 결과가 도 10에 되시되고 여기서 본 발명(VerbalLab)의 에러율은 종래 기술 시스템ART 및 Sensory와 비교된다. 검사는 8명의 스피커(3명의 여성 및 5명의 남성) 및 24이름을 사용했고 그중의 8개(Mickey Mouse, Minnie Driver, Bill Gate, Bill Cliton, Julius Smith,Julia Roberts, 및 Bruce Willis)는 애매하게 생각되었다. 본 검사의 모든 스피커들에 대해서, 본 발명은 상당히 적은 에러율을 가졌는데, 전체 에러율의 결과가 검사된 다른 시스템의 것의 절반보다 적었다.
특히, 본 발명이 중국어 및 한국어의 단음절 캐릭터-근거 문자(또는 단어)를 입력하기에 이상적이다라는 것이 알려져있다. 예를 들어, "휴대폰"을 위한 단어는 캐릭터 현"xing-dong-dian-hua"로서 음역된다. 각각의 단어는 단음절이고 그것의 고유 뜻(또는 몇가지 의미)을 갖지만, 집합적으로 "휴대폰"을 위한 유일한 의미를 포함한다. 본 발명은 개별적인 단음절 문자의 (부분적으로 발견적 보정으로 인한)매우 정확한 인식을 제공하고, 이것은 단어를 형성하기 위해서 집합적으로 취해질 때, 감각적인 선택의 제한된 수 때문에 상당히 더 정확한 인식을 생산한다.
상기는 구체적 실시예의 전체 설명인 반면, 다양한 변경, 대안적인 구조 및 동등물이 사용된다. 예를 들어, 본 발명은 다음과 같이 발성으로 분리될 수 있는 구두 언어에 적당하다: (영어 및 러시아어처럼)발성이 알파벳의 문자와 관련된 알파벳 언어 및 (중국어, 한국어 및 일본어처럼)발성이 캐릭터와 관련된 상징 언어. 추가로, 앞선 인식 정확도를 위해서 DTW 구성에서의 제한 조건은 다수의 가능성에서 선택되어져 정확한 음성 인식을 유익하게 생산한다. 그러므로, 위의 설명 및 해설이 첨부된 청구항에 의해 정의된 본 발명의 범위를 제한하는 것으로 받아들여져서는 안된다.

Claims (32)

  1. 음성 인식 시스템에 있어서,
    음향파를 인식하고 음향파를 전자신호로 변환하는 마이크로폰 수단;
    전자신호의 파라메트릭 표시를 발생하기 위해서 전자 신호를 처리하는, 상기 마이크로폰 수단에 연결된 전단부 신호처리수단;
    복수의 문자 발음의 파라메트릭 표시를 저장하는 발음 데이터베이스 저장 수단;
    상기 문자 발음의 복수의 파라메트릭 표시와 전자 신호의 파라메트릭 표시를 비교하고, 전자신호의 파라메트릭 표시 및 소정의 표준에 반응하여 상기 문자발음의 복수의 파라메트릭 표시사이에 있는 제 1일련의 연합을 발생하는, 상기 전단부 신호 처리 수단 및 상기 발음 데이터베이스 저장 수단에 연결된 문자 유사성 비교기 수단;
    복수의 단어 발음의 파라메트릭 표시를 저장하는 어휘 데이터베이스 저장 수단;
    상기 복수의 단어 발음의 파라메트릭 표시와 집합된 복수의 문자 발음의 파라메트릭 표시를 비교하고, 소정의 표준에 반응하여 적어도 하나의 상기 복수의 단어 발음의 파라메트릭 표시와 적어도 하나의 상기 집합된 복수의 문자 발음의 파라메트릭 표시사이에 있는 제 2일련의 연합을 발생하는, 상기 문자 유사성 비교기 및 상기 어휘 데이터베이스 저장 수단에 연결된 단어 유사성 비교기 수단; 및
    상기 제 1 및 제 2일련의 연합을 표시하는, 상기 단어 유사성 비교기 수단에 연결된 표시수단을 포함하는 것을 특징으로 하는 음성인식 시스템.
  2. 제 1 항에 있어서, 상기 전단부 신호 처리 수단이,
    상기 마이크로폰 수단에 의해 발생된 전자 신호를 스펙트럼으로 플래트닝하는 프리엠퍼사이저 수단;
    M 샘플에 의해 분리된 이웃하는 프레임과 함께 전자 신호를 N 샘플의 프레임으로 블록킹하는, 상기 프리엠퍼사이저 수단에 연결된 프레임-블록킹 수단;
    각각의 프레임을 윈도잉하는, 상기 프레임-블록킹 수단에 연결된 윈도잉 수단;
    프레임을 자기상관하는, 상기 윈도잉 수단에 연결된 자기상관수단;
    각각의 프레임을 켑스트럴 계수로 변환하는, 상기 자기상관 수단에 연결된 켑스트럴 계수 발생 수단; 및
    켑스트럴 계수에 가중치를 두는, 상기 켑스트럴 계수 발생 수단에 연결된 테이퍼 윈도우잉 수단을 포함하여서 음파의 파라메트릭 표시를 발생하는 것을 특징으로 하는 음성 인식 시스템.
  3. 제 2 항에 있어서, 상기 전단부 신호 처리 수단은 켑스트럴 계수의 1차 도함수를 발생하는, 상기 테이퍼 윈도잉 수단에 연결된 시간 미분 수단을 추가로 포함하는 것을 특징으로 하는 음성 인식 시스템.
  4. 제 2 항에 있어서, 상기 전단부 신호 처리 수단은 켑스트럴 계수의 2차 도함수를 발생하는, 상기 테이퍼 윈도잉 수단에 연결된 시간 미분 수단을 추가로 포함하는 것을 특징으로 하는 음성인식 시스템.
  5. 제 1 항에 있어서, 상기 문자 유사성 비교기 수단이,
    상기 발음 데이터베이스 저장 수단에 저장된 상기 문자 발음의 복수의 파라메트릭 표시에 전자 신호의 파라메트릭 표시를 보정하는, 상기 발음 데이터베이스 저장 수단에 연결된 문자 보정 수단;
    전자신호의 파라메트릭 표시 및 상기 발음 데이터베이스 저장 수단에 저장된 상기 문자 발음의 복수의 파라메트릭 표시에 다이내믹 타임 워핑을 수행하는 다이내맥 타임 워퍼 수단;
    전자 신호의 파라메트릭 표시 및 상기 발음 데이터베이스 저장 수단에 저장된 상기 문자 발음의 복수의 파라메트릭 표시사이에 있는 왜곡을 계산하는, 상기 문자 보정 수단 및 상기 다이내믹 타임 워퍼 수단에 연결된 왜곡 계산 수단;
    소정의 표준에 반응하여 상기 왜곡에 스코어를 할당하는, 상기 왜곡 계산 수단에 연결된 스코어링 수단; 및
    최하 왜곡을 갖는, 상기 발음 데이터베이스 저장 수단에 저장된 상기 문자 발음의 복수의 파라메트릭 표시중 적어도 하나를 선택하는, 상기 스코어링 수단에 연결된 선택 수단을 포함하는 것을 특징으로 하는 음성 인식 시스템.
  6. 제 5 항에 있어서, 상기 다이내믹 타임 워퍼 수단은 전자 신호의 파라메트릭 표시 및 상기 발음 데이터베이스 저장 수단에 저장된 상기 문자 발음의 복수의 파라메트릭 표시사이에 있는 최소 켑스트럴 거리를 결정하는 최소화 수단을 포함하는 것을 특징으로 하는 음성 인식 시스템.
  7. 제 1 항에 있어서, 상기 발음 데이터베이스 저장 수단에 저장된 상기 문자 발음의 복수의 파라메트릭 표시는 중국어의 개별적인 캐릭터의 발음을 포함하고 상기 어휘 데이터베이스 저장 수단에 저장된 상기 단어 발음의 복수의 파라메트릭 표시는 중국어의 집합된 단어 현의 발음을 포함하는 것을 특징으로 하는 음성 인식 시스템.
  8. 제 1 항에 있어서, 상기 발음 데이터베이스 저장 수단에 저장된 상기 문자 발음의 복수의 파라메트릭 표시는 한국어의 개별적인 캐릭터의 발음을 포함하고 상기 어휘 데이터베이스 저장 수단에 저장된 상기 단어 발음의 복수의 파라메트릭 표시는 한국어의 집합된 단어 현의 발음을 포함하는 것을 특징으로 하는 음성 인식 시스템.
  9. 제 1 항에 있어서, 상기 발음 데이터베이스 저장 수단에 저장된 상기 문자 발음의 복수의 파라메트릭 표시는 일본어의 개별적인 캐릭터의 발음을 포함하고 상기 어휘 데이터베이스 저장 수단에 저장된 상기 단어 발음의 복수의 파라메트릭 표시는 일본어의 집합된 단어 현의 발음을 포함하는 것을 특징으로 하는 음성 인식 시스템.
  10. 제 1 항에 있어서, 상기 발음 데이터베이스 저장 수단에 저장된 상기 문자 발음의 복수의 파라메트릭 표시는 프랑스어의 개별적인 캐릭터의 발음을 포함하고 상기 어휘 데이터베이스 저장 수단에 저장된 상기 단어 발음의 복수의 파라메트릭 표시는 프랑스어의 집합된 단어 현의 발음을 포함하는 것을 특징으로 하는 음성인식 시스템.
  11. 문자 유사성 비교기에 있어서,
    전자 신호 파라메트릭 표시를 수신하는 수단;
    복수의 문자 발음 파라메트릭 표시를 저장하는 발음 데이터베이스 저장 수단;
    상기 발음 데이터베이스 저장 수단에 저장된 상기 복수의 문자 발음 파라메트릭 표시에 전자 신호 파라메트릭 표시를 보정하는, 상기 수신 수단 및 상기 발음 데이터베이스 저장 수단에 연결된 문자 보정 수단;
    전자 신호 파라메트릭 표시 및 상기 발음 데이터베이스 저장 수단에 저장된 상기 복수의 문자 발음 파라메트릭 표시에 다이내믹 타임 워핑을 수행하는 다이내믹 타임 워퍼 수단;
    전자 신호 파라메트릭 표시 및 상기 발음 데이터베이스 저장 수단에 저장된 상기 복수의 문자 발음 파라메트릭 표시사이에 있는 왜곡을 계산하는, 상기 문자 보정 수단 및 상기 다이내맥 타임 워퍼 수단에 연결된 왜곡 계산 수단;
    소정의 표준에 반응하여 상기 왜곡에 스코어를 할당하는, 상기 왜곡 계산 수단에 연결된 스코어링 수단; 및
    최하 왜곡을 갖는 상기 복수의 문자 발음 파라메트릭 표시중 적어도 하나를 선택하는, 상기 스코어링 수단에 연결된 선택 수단을 포함하는 것을 특징으로 하는 문자 유사성 비교기.
  12. 전자통신장치에 있어서,
    소리 신호를 수신하고 거기에서 전자 신호를 발생하는 마이크로폰;
    전자 신호를 부호화하고 해독하는, 상기 마이크로폰에 연결된 코더-디코더;
    전자 신호를 처리하여 전자 신호의 파라메트릭 표시를 발생하는, 상기 코더-디코더에 연결된 신호 처리기;
    데이터를 저장하고 복수의 문자 발음 파라메트릭 표시를 저장하는 제 1부문 및 복수의 단어 발음 파라메트릭 표시를 저장하는 제 2부문을 그안에 갖는, 상기 신호 처리기에 연결된 데이터베이스 저장 단위;
    상기 제 1부문의 상기 데이터베이스 저장 단위에 있는 상기 복수의 문자 발음 파라메트릭 표시에 전자 신호의 파라메트릭 표시를 비교하는, 상기 신호 처리기 및 상기 데이터베이스 저장 단위에 연결된 제 1비교기;
    소정의 표준에 반응하여 상기 복수의 문자 발음 파라메트릭 표시중 적어도 하나를 선택하는, 상기 제 1비교기에 연결된 제 1실렉터;
    상기 제 2 부문의 상기 데이터베이스 저장 단위에 있는 상기 복수의 단어 발음 파라메트릭 표시와 문자 발음의 집합된 파라메트릭 표시를 비교하는, 상기 신호 처리기 및 상기 데이터베이스 저장 단위에 연결된 제 2비교기;
    소정의 표준에 반응하여 상기 복수의 단어 발음 파라메트릭 표시중 적어도 하나를 선택하는, 상기 제 2비교기에 연결된 제 2실렉터; 및
    상기 복수의 선택된 문자 발음 파라메트릭 표시중 적어도 하나를 표시하고 상기 복수의 단어 발음 파라메트릭 표시중 적어도 하나를 표시하는, 상기 제 1 및 제 2 실렉터에 연결된 표시부를 포함하는 것을 특징으로 하는 전자통신장치.
  13. 제 12 항에 있어서, 제 1부문의 상기 데이터베이스 저장 단위에 저장된 상기 복수의 문자 발음 파라메트릭 표시가 파라메트릭 표시의 유사성에 반응하여 모아지는 것을 특징으로 하는 전자통신장치.
  14. 제 12 항에 있어서, 상기 제 1비교기는 상기 제 1부문의 상기 데이터베이스 저장 단위에 있는 상기 복수의 문자 발음 파라메트릭 표시에 반응하여 전자 신호의 파라메트릭 표시를 보정하는 것을 특징으로 하는 전자통신장치.
  15. 제 12 항에 있어서, 상기 디지털 신호 처리기는 전자 신호의 파라메트릭 표시, 복수의 문자 발음 파라메트릭 표시, 및 상기 복수의 단어 발음 파라메트릭 표시를 발생하기 위해서 켑스트럴 계수를 계산하는 것을 특징으로 하는 전자통신장치.
  16. 제 12 항에 있어서, 상기 제 1비교기는 상기 복수의 문자 발음 파라메트릭 표시와 전자신호의 파라메트릭 표시와의 비교를 발생하기 위해서 다이내믹 타임 워핑을 사용하는 것을 특징으로 하는 전자통신장치.
  17. 제 16 항에 있어서, 상기 제 1비교기는 상기 복수의 문자 발음 파라메트릭 표시와 전자 신호의 파라메트릭 표시를 비교하기 위해서 켑스트럴 거리를 사용하는 것을 특징으로 하는 전자통신장치.
  18. 제 12 항에 있어서, 상기 제 2비교기는 상기 복수의 단어 발음 파라메트릭 표시와 상기 집합된 복수의 문자 발음 파라메트릭 표시와의 비교를 발생하기 위해서 다이내믹 타임 워핑을 사용하는 것을 특징으로 하는 전자통신장치
  19. 제 18 항에 있어서, 상기 제 2비교기는 상기 데이터베이스 저장 단위에 저장된 상기 복수의 단어 발음 파라메트릭 표시와 상기 집합된 복수의 문자 발음의 파라메트릭 표시를 비교하기 위해서 문자 발음 열을 사용하는 것을 특징으로 하는 전자통신장치.
  20. 제 18 항에 있어서, 상기 제 2 비교기는 상기 데이터베이스 저장 단위에 저장된 상기 복수의 단어 발음 파라메트릭 표시와 상기 집합된 복수의 문자 발음의 파라메트릭 표시를 비교하기 위해서 켑스트럴 거리를 사용하는 것을 특징으로 하는 전자통신장치.
  21. 음성 소리 신호를 인식하는 방법에 있어서,
    (a)복수의 문자소리를 파라메트릭화하는 단계;
    (b)상기 복수의 파라메트릭화된 문자소리를 저장하는 단계;
    (c)복수의 단어 소리를 파라메트릭화하는 단계;
    (d)상기 복수의 파라메트릭화된 문자소리를 저장하는 단계;
    (e)음파를 수신하는 단계;
    (f)음파를 전자신호로 변환하는 단계;
    (g)전자 신호를 파라메트릭화하는 단계;
    (h)상기 저장된 복수의 파라메트릭화된 문자소리와 상기 파라메트릭화된 전자신호를 비교하는 단계;
    (i)소정의 파라미터 유사성 표준에 반응하여 상기 저장된 복수의 파라메트릭화된 문자 소리중 적어도 하나를 선택하는 단계;
    (j)상기 선택된 적어도 하나의 상기 저장된 복수의 파라메트릭화된 문자소리를 표시하는 단계;
    (k)파라메트릭화된 단어를 형성하기 위해서 상기 선택된 적어도 하나의 상기 저장된 복수의 파라메트릭화된 문자소리를 집합하는 단계;
    (l)상기 저장된 복수의 파라메트릭화된 단어 소리와 상기 파라메트릭화된 단어를 비교하는 단계;
    (m)소정의 파라미터 유사성 표준에 반응하여 상기 저장된 복수의 파라메트릭화된 단어 소리중 적어도 하나를 선택하는 단계; 및
    (n)상기 선택된 적어도 하나의 상기 저장된 복수의 파라메트릭화된 단어 소리를 표시하는 단계를 포함하는 것을 특징으로 하는 방법.
  22. 제 20 항에 있어서, 단계(b)가 소정의 파라메트릭화된 문자 소리 유사성 표준에 반응하여 상기 복수의 파라메트릭화된 문자 소리를 그룹핑하는 단계를 추가로 포함하는 것을 특징으로 하는 방법.
  23. 제 21 항에 있어서, 단계(h)가 소정의 보정 방법에 반응하여 상기 복수의 파라메트릭화된 문자소리에 상기 복수의 파라메트릭화된 전자 신호를 보정하는 단계를 추가로 포함하는 것을 특징으로 하는 방법.
  24. 제 21 항에 있어서, 단계(a)가 상기 복수의 파라메트릭화된 문자소리를 파라메트릭화하기 위해서 켑스트럴 계수를 사용하는 단계를 포함하는 것을 특징으로 하는 방법.
  25. 제 21 항에 있어서, 단계(c)가 상기 복수의 파라메트릭화된 단어소리를 파라메트릭화하기 위해서 켑스트럴 계수를 사용하는 단계를 포함하는 것을 특징으로 하는 방법.
  26. 제 21 항에 있어서, 단계(g)가 전자 신호를 파라메트릭화하기 위해서 켑스트럴 계수를 사용하는 단계를 포함하는 것을 특징으로 하는 방법.
  27. 제 21 항에 있어서, 단계(h)가 상기 복수의 파라메트릭화된 문자소리와 파라메트릭화된 전자신호를 비교하기 위해서 켑스트럴 거리를 사용하는 단계를 포함하는 것을 특징으로 하는 방법.
  28. 제 21 항에 있어서, 단계(l)이 상기 복수의 파라메트릭화된 단어 소리와 파라메트릭화된 단어를 비교하기 위해서 켑스트럴 거리를 사용하는 단계를 포함하는 것을 특징으로 하는 방법.
  29. 제 21 항에 있어서, 단계(l)이 상기 복수의 파라메트릭화된 단어소리와 파라메트릭화된 단어를 비교하기 위해서 문자 발음 열을 사용하는 단계를 포함하는 것을 특징으로 하는 방법.
  30. 제 21 항에 있어서, 복수의 문자 소리를 말하는 단계(a)의 전 단계를 추가로 포함하는 것을 특징으로 하는 방법.
  31. 제 30 항에 있어서, 복수의 문자 소리를 말하는 상기 단계후에 스피커가 남성인지 여성인지를 구별하는 단계를 추가로 포함하는 것을 특징으로 하는 방법.
  32. 제 30 항에 있어서, 복수의 문자 소리를 말하는 상기 단계후에 구술된 문자 소리가 실질적으로 뚜렷한지 아닌지를 구별하는 단계를 추가적으로 포함하는 것을 특징으로 하는 방법.
    샘플보정표 a
    샘플보정표 b
    샘플보정표 c
KR1020000060110A 2000-03-30 2000-10-12 이동통신을 위한 철자 음성인식장치 및 방법 KR20010096490A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/538,657 US6304844B1 (en) 2000-03-30 2000-03-30 Spelling speech recognition apparatus and method for communications
US09/538,657 2000-03-30

Publications (1)

Publication Number Publication Date
KR20010096490A true KR20010096490A (ko) 2001-11-07

Family

ID=24147856

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000060110A KR20010096490A (ko) 2000-03-30 2000-10-12 이동통신을 위한 철자 음성인식장치 및 방법

Country Status (6)

Country Link
US (1) US6304844B1 (ko)
EP (1) EP1139332A3 (ko)
JP (1) JP2002108387A (ko)
KR (1) KR20010096490A (ko)
CN (1) CN1315809A (ko)
TW (1) TW504663B (ko)

Families Citing this family (194)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7406084B2 (en) * 1997-09-19 2008-07-29 Nokia Siemens Networks Gmbh & Co. Kg Flexible software architecture for a call processing system
US7679534B2 (en) 1998-12-04 2010-03-16 Tegic Communications, Inc. Contextual prediction of user words and user actions
US7881936B2 (en) 1998-12-04 2011-02-01 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US8938688B2 (en) 1998-12-04 2015-01-20 Nuance Communications, Inc. Contextual prediction of user words and user actions
US7712053B2 (en) 1998-12-04 2010-05-04 Tegic Communications, Inc. Explicit character filtering of ambiguous text entry
US7720682B2 (en) 1998-12-04 2010-05-18 Tegic Communications, Inc. Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
US7319957B2 (en) * 2004-02-11 2008-01-15 Tegic Communications, Inc. Handwriting and voice input with automatic correction
US6789060B1 (en) * 1999-11-01 2004-09-07 Gene J. Wolfe Network based speech transcription that maintains dynamic templates
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8086697B2 (en) 2005-06-28 2011-12-27 Claria Innovations, Llc Techniques for displaying impressions in documents delivered over a computer network
US7475404B2 (en) 2000-05-18 2009-01-06 Maquis Techtrix Llc System and method for implementing click-through for browser executed software including ad proxy and proxy cookie caching
US6701162B1 (en) * 2000-08-31 2004-03-02 Motorola, Inc. Portable electronic telecommunication device having capabilities for the hearing-impaired
US7219058B1 (en) * 2000-10-13 2007-05-15 At&T Corp. System and method for processing speech recognition results
US20020082834A1 (en) * 2000-11-16 2002-06-27 Eaves George Paul Simplified and robust speech recognizer
US7209880B1 (en) * 2001-03-20 2007-04-24 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
IL142421A0 (en) * 2001-04-03 2002-03-10 Linguistic Agents Ltd Linguistic agent system
US7526431B2 (en) 2001-09-05 2009-04-28 Voice Signal Technologies, Inc. Speech recognition using ambiguous or phone key spelling and/or filtering
US7444286B2 (en) 2001-09-05 2008-10-28 Roth Daniel L Speech recognition using re-utterance recognition
US7467089B2 (en) 2001-09-05 2008-12-16 Roth Daniel L Combined speech and handwriting recognition
US7505911B2 (en) 2001-09-05 2009-03-17 Roth Daniel L Combined speech recognition and sound recording
US7809574B2 (en) 2001-09-05 2010-10-05 Voice Signal Technologies Inc. Word recognition using choice lists
US6968507B2 (en) * 2001-11-27 2005-11-22 Claria Corporation Method and apparatus for defeating a mechanism that blocks windows
TW541517B (en) * 2001-12-25 2003-07-11 Univ Nat Cheng Kung Speech recognition system
DE10207895B4 (de) * 2002-02-23 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
US7050973B2 (en) * 2002-04-22 2006-05-23 Intel Corporation Speaker recognition using dynamic time warp template spotting
US7143037B1 (en) 2002-06-12 2006-11-28 Cisco Technology, Inc. Spelling words using an arbitrary phonetic alphabet
US8583440B2 (en) 2002-06-20 2013-11-12 Tegic Communications, Inc. Apparatus and method for providing visual indication of character ambiguity during text entry
EP1396840A1 (de) * 2002-08-12 2004-03-10 Siemens Aktiengesellschaft Verfahren zur Spracherkennung von buchstabierten Worten
KR100462472B1 (ko) * 2002-09-11 2004-12-17 학교법인 포항공과대학교 동적 타임 워핑 디바이스와 이를 이용한 음성 인식 장치
US7603341B2 (en) 2002-11-05 2009-10-13 Claria Corporation Updating the content of a presentation vehicle in a computer network
US7509257B2 (en) * 2002-12-24 2009-03-24 Marvell International Ltd. Method and apparatus for adapting reference templates
DE10306022B3 (de) * 2003-02-13 2004-02-19 Siemens Ag Dreistufige Einzelworterkennung
GB2401714A (en) * 2003-05-16 2004-11-17 Glencroft Ltd Selecting audio information
US20040243415A1 (en) * 2003-06-02 2004-12-02 International Business Machines Corporation Architecture for a speech input method editor for handheld portable devices
KR100547858B1 (ko) * 2003-07-07 2006-01-31 삼성전자주식회사 음성인식 기능을 이용하여 문자 입력이 가능한 이동통신단말기 및 방법
US7725319B2 (en) * 2003-07-07 2010-05-25 Dialogic Corporation Phoneme lattice construction and its application to speech recognition and keyword spotting
GB2404040A (en) * 2003-07-16 2005-01-19 Canon Kk Lattice matching
US8170912B2 (en) 2003-11-25 2012-05-01 Carhamm Ltd., Llc Database structure and front end
US8095364B2 (en) 2004-06-02 2012-01-10 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US7254535B2 (en) * 2004-06-30 2007-08-07 Motorola, Inc. Method and apparatus for equalizing a speech signal generated within a pressurized air delivery system
US7139701B2 (en) * 2004-06-30 2006-11-21 Motorola, Inc. Method for detecting and attenuating inhalation noise in a communication system
US7155388B2 (en) * 2004-06-30 2006-12-26 Motorola, Inc. Method and apparatus for characterizing inhalation noise and calculating parameters based on the characterization
US8255413B2 (en) 2004-08-19 2012-08-28 Carhamm Ltd., Llc Method and apparatus for responding to request for information-personalization
US8078602B2 (en) 2004-12-17 2011-12-13 Claria Innovations, Llc Search engine for a computer network
US8108386B2 (en) * 2004-09-07 2012-01-31 Stuart Robert O More efficient search algorithm (MESA) using alpha omega search strategy
US7792808B2 (en) * 2004-09-07 2010-09-07 Stuart Robert O More efficient search algorithm (MESA) using virtual search parameters
US20060112091A1 (en) * 2004-11-24 2006-05-25 Harbinger Associates, Llc Method and system for obtaining collection of variants of search query subjects
US7693863B2 (en) 2004-12-20 2010-04-06 Claria Corporation Method and device for publishing cross-network user behavioral data
TWI244638B (en) * 2005-01-28 2005-12-01 Delta Electronics Inc Method and apparatus for constructing Chinese new words by the input voice
US8645941B2 (en) 2005-03-07 2014-02-04 Carhamm Ltd., Llc Method for attributing and allocating revenue related to embedded software
US8073866B2 (en) 2005-03-17 2011-12-06 Claria Innovations, Llc Method for providing content to an internet user based on the user's demonstrated content preferences
US8050924B2 (en) * 2005-04-08 2011-11-01 Sony Online Entertainment Llc System for generating and selecting names
US7962842B2 (en) * 2005-05-30 2011-06-14 International Business Machines Corporation Method and systems for accessing data by spelling discrimination letters of link names
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8311819B2 (en) 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US20070016420A1 (en) * 2005-07-07 2007-01-18 International Business Machines Corporation Dictionary lookup for mobile devices using spelling recognition
US7546233B2 (en) * 2005-08-24 2009-06-09 Yu-Chih Cheng Succession Chinese character input method
US20070055522A1 (en) * 2005-08-26 2007-03-08 Sbc Knowledge Ventures, L.P. Self-learning multi-source speech data reconstruction
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20070094021A1 (en) * 2005-10-25 2007-04-26 Bossemeyer Robert W Jr Spelling sequence of letters on letter-by-letter basis for speaker verification
US7941316B2 (en) * 2005-10-28 2011-05-10 Microsoft Corporation Combined speech and alternate input modality to a mobile device
JP4662861B2 (ja) * 2006-02-07 2011-03-30 日本電気株式会社 モニタリング装置、評価データ選別装置、応対者評価装置、応対者評価システムおよびプログラム
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8255216B2 (en) * 2006-10-30 2012-08-28 Nuance Communications, Inc. Speech recognition of character sequences
US8756063B2 (en) * 2006-11-20 2014-06-17 Samuel A. McDonald Handheld voice activated spelling device
US9830912B2 (en) 2006-11-30 2017-11-28 Ashwin P Rao Speak and touch auto correction interface
US8620952B2 (en) 2007-01-03 2013-12-31 Carhamm Ltd., Llc System for database reporting
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
JP5024154B2 (ja) * 2008-03-27 2012-09-12 富士通株式会社 関連付け装置、関連付け方法及びコンピュータプログラム
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8160866B2 (en) * 2008-04-18 2012-04-17 Tze Fen Li Speech recognition method for both english and chinese
TWI352970B (en) * 2008-04-30 2011-11-21 Delta Electronics Inc Voice input system and voice input method
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
CN101314081B (zh) * 2008-07-11 2010-06-30 华为终端有限公司 一种演讲背景匹配方法和装置
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8645131B2 (en) * 2008-10-17 2014-02-04 Ashwin P. Rao Detecting segments of speech from an audio stream
US9922640B2 (en) 2008-10-17 2018-03-20 Ashwin P Rao System and method for multimodal utterance detection
US20100138221A1 (en) * 2008-12-02 2010-06-03 Boys Donald R Dedicated hardware/software voice-to-text system
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9659559B2 (en) * 2009-06-25 2017-05-23 Adacel Systems, Inc. Phonetic distance measurement system and related methods
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
JP5596869B2 (ja) * 2011-09-09 2014-09-24 旭化成株式会社 音声認識装置
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105264524B (zh) 2013-06-09 2019-08-02 苹果公司 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
KR102245098B1 (ko) 2014-05-23 2021-04-28 삼성전자주식회사 휴대 단말 및 그 제어 방법
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9536521B2 (en) * 2014-06-30 2017-01-03 Xerox Corporation Voice recognition
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
CN105096945A (zh) * 2015-08-31 2015-11-25 百度在线网络技术(北京)有限公司 一种终端的语音识别方法和装置
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
JP6696803B2 (ja) * 2016-03-15 2020-05-20 本田技研工業株式会社 音声処理装置および音声処理方法
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10607601B2 (en) 2017-05-11 2020-03-31 International Business Machines Corporation Speech recognition by selecting and refining hot words
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
JP7219148B2 (ja) * 2018-04-25 2023-02-07 住友化学株式会社 検査システム及び検査システムの駆動方法
US10832675B2 (en) * 2018-08-24 2020-11-10 Denso International America, Inc. Speech recognition system with interactive spelling function

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5208897A (en) * 1990-08-21 1993-05-04 Emerson & Stern Associates, Inc. Method and apparatus for speech recognition based on subsyllable spellings
US5621857A (en) * 1991-12-20 1997-04-15 Oregon Graduate Institute Of Science And Technology Method and system for identifying and recognizing speech
US5677990A (en) * 1995-05-05 1997-10-14 Panasonic Technologies, Inc. System and method using N-best strategy for real time recognition of continuously spelled names
US5799065A (en) * 1996-05-06 1998-08-25 Matsushita Electric Industrial Co., Ltd. Call routing device employing continuous speech
US5995928A (en) * 1996-10-02 1999-11-30 Speechworks International, Inc. Method and apparatus for continuous spelling speech recognition with early identification
US6108627A (en) * 1997-10-31 2000-08-22 Nortel Networks Corporation Automatic transcription tool
US5987410A (en) * 1997-11-10 1999-11-16 U.S. Philips Corporation Method and device for recognizing speech in a spelling mode including word qualifiers
US6684185B1 (en) * 1998-09-04 2004-01-27 Matsushita Electric Industrial Co., Ltd. Small footprint language and vocabulary independent word recognizer using registration by word spelling

Also Published As

Publication number Publication date
EP1139332A2 (en) 2001-10-04
JP2002108387A (ja) 2002-04-10
US6304844B1 (en) 2001-10-16
CN1315809A (zh) 2001-10-03
EP1139332A3 (en) 2001-12-05
TW504663B (en) 2002-10-01
EP1139332A9 (en) 2002-03-20

Similar Documents

Publication Publication Date Title
KR20010096490A (ko) 이동통신을 위한 철자 음성인식장치 및 방법
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
Reddy Speech recognition by machine: A review
US5220639A (en) Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
JP5014785B2 (ja) 表音ベース音声認識システム及び方法
US8015011B2 (en) Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases
US7962341B2 (en) Method and apparatus for labelling speech
JP5208352B2 (ja) 声調言語用分節声調モデリング
US20080147404A1 (en) System and methods for accent classification and adaptation
US20050159949A1 (en) Automatic speech recognition learning using user corrections
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
JP2008233229A (ja) 音声認識システム、および、音声認識プログラム
US11810471B2 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
Chou et al. A set of corpus-based text-to-speech synthesis technologies for Mandarin Chinese
KR20010092645A (ko) 클라이언트-서버 음성정보 전송 시스템 및 방법
Al-Bakeri et al. ASR for Tajweed rules: integrated with self-learning environments
Mote et al. Tactical language detection and modeling of learner speech errors: The case of Arabic tactical language training for American English speakers
Vertanen Efficient correction interfaces for speech recognition
Wallich Putting speech recognizers to work: While advances in signal processing and algorithms would extend their usefulness, limited models are already meeting many inspection and inventory applications
Bahaadini et al. Implementation and evaluation of statistical parametric speech synthesis methods for the Persian language
Soe et al. Syllable-based speech recognition system for Myanmar
Eljagmani Arabic speech recognition systems
Ahmed et al. HMM-Based Speech Synthesiser for the Urdu Language
JP2005099376A (ja) 音声認識方法および装置

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid