KR19980070329A - 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템 - Google Patents
사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템 Download PDFInfo
- Publication number
- KR19980070329A KR19980070329A KR1019980000030A KR19980000030A KR19980070329A KR 19980070329 A KR19980070329 A KR 19980070329A KR 1019980000030 A KR1019980000030 A KR 1019980000030A KR 19980000030 A KR19980000030 A KR 19980000030A KR 19980070329 A KR19980070329 A KR 19980070329A
- Authority
- KR
- South Korea
- Prior art keywords
- grammar
- score
- inrollment
- phrase
- recognition
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000001755 vocal effect Effects 0.000 claims description 11
- 230000001419 dependent effect Effects 0.000 claims description 8
- 238000004091 panning Methods 0.000 claims 3
- 238000013459 approach Methods 0.000 claims 1
- 238000000605 extraction Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000035935 pregnancy Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
사용자 정의 문구의 화자 독립 인식을 위한 아웃 오브 보케뷸러리 스코어를 결정하는 방법 및 시스템은 인롤먼트 그래머(36)를 이용하여 화자 독립(SI) 인식 모델(34) 셋트를 갖는 사용자 정의 문구(38)를 포함한다. 인롤먼트 그래머(36)를 이용하여 구두 문구의 특징을 SI 인식 모델(34)에 비교함으로써 구두 문구의 인롤먼트 그래머 스코어를 결정할 수 있다(92). 인롤먼트 그래머 스코어는 아웃 오브 보케뷸러리 스코어를 생성하도록 페널라이즈될 수 있다(94).
Description
본 발명은 일반적으로 음성 처리 분야에 관한 것으로, 특히 사용자 정의 문구(user-defined phrases)의 화자 독립 인식을 위한 방법 및 시스템에 관한 것이다.
음성 기반 신속 다이얼링과 같은 음성 작동 사용자 주문가능 응용에 대한 요구가 급증하고 있다. 인식을 위해 사용되는 템플레이트는 화자 독립 또는 화자 종속일 수 있다. 화자 종속 템플레이트는 화자의 발성으로부터 도출된 음향 모델이다. 전형적으로, 화자 종속 템플레이트는 사용자 정의 문구가 기록되어 아웃 오브 보케뷸러리 리젝션(out-of-vocabulary rejection)을 제공하는 가비지(garbage) 모델을 채용한다. 화자 종속 템플레이트는 통상적으로 각 문구와 추가된 사용자에 따라서 증가하는 대량의 메모리를 필요로 한다는 점에서 문제가 된다.
화자 독립 템플레이트는 고정 음향 모델을 이용하고 사용자 정의 문구들에 대해서 겨우 수백 바이트의 저장 장치를 필요로 할 수 있다. 그 결과, 화자 독립 템플레이트는 메모리 저장 장치를 아주 조금만 증가시켜도 많은 수의 사용자들과 사용자 정의 문구들을 수용할 수 있다. 그러나, 화자 독립 템플레이트가 가지고 있는 문제는 가비지 모델이 화자 독립 환경에서는 잘 기능을 하지 않는다는 것이다. 이는 부족한 아웃 오브 보케뷸러리 리젝션을 야기시키는데, 이는 잘못된 전화 번호를 다이얼링 하는 것과 같은 비용이 드는 에러를 야기시키는 원인이 될 수 있다.
따라서, 우수한 아웃 오브 보케뷸러리 리젝션 능력을 갖는 개선된 화자 독립 인식 시스템에 대한 기술이 요구되고 있다. 본 발명은 종래의 시스템과 관련된 문제들을 실제로 감소시키거나 제거하는 화자 독립 인식 시스템 및 방법을 제공한다.
본 발명에 따르면, 먼저 인롤먼트 그래머(enrollment grammar)를 이용하여 화자 독립(SI) 인식 모델 셋트를 갖는 사용자 정의 문구를 인롤함으로써 사용자 정의 문구의 화자 독립 인식을 위한 아웃 오브 보케뷸러리 스코어를 결정할 수 있다. 그런 다음, 인롤먼트 그래머를 이용하여 구두 문구(spoken phrase)의 특징을 SI 인식 모델에 비교함으로써 구두 문구의 인롤먼트 그래머 스코어를 결정할 수 있다. 인롤먼트 그래머 스코어는 아웃 오브 보케뷸러리 스코어를 생성하도록 페널라이즈(penalize)될 수 있다.
특히, 본 발명의 한 실시예에 따르면, 인롤먼트 그래머는 포노텍틱 그래머(phonotectic grammar)일 수 있고 SI 인식 모델은 서브 워드 유닛(sub-word units)을 포함할 수 있다. 인롤먼트 그래머 스코어는 아웃 오브 보케뷸러리 스코어가 비정의 문구들의 60% 내지 70%를 리젝트하는 경우 페널티를 가함으로써 페널라이즈될 수있다. 특정 실시예에서, 인롤먼트 스코어는 아웃 오브 보케뷸러리 스코어가 비정의 문구의 약 70%를 리젝트하는 경우 페널라이즈될 수 있다.
본 발명의 기술적 장점들은 아웃 오브 보케뷸러리 리젝션을 실질적으로 개선하는 화자 독립 인식 시스템 및 방법을 제공하는 것을 포함한다. 특히, 말한 문구는 사용자 정의 문구 외에도 페널라이즈 인롤먼트 그래머 스코어에 대해서도 기록될 수 있다. 페널라이즈 인롤먼트 그래머 스코어가 사용자 정의 문구보다 더 나은 일치를 제공하는 경우, 말한 문구는 아웃 오브 보케뷸러리로서 리젝트될 수 있다. 반대로, 말한 문구가 패널라이즈 인롤먼트 그래머 스코어보다 사용자 정의 문구에 더 잘 일치되는 경우에는 인 보케뷸러리(in-vocabulary)로서 허용될 수 있다. 따라서, 잘못된 번호를 다이얼링 하는 것과 같이 아웃 오브 보케뷸러리 문구를 인 보케뷸러리 문구로 인식하는 것이다.
본 발명의 추가적인 기술적 장점은 화자 독립 인식 시스템의 기존의 구성 요소들을 이용하여 아웃 오브 보케뷸러리 리젝션 시스템 및 방법을 제공하는 것을 포함한다. 특히, 인롤먼트 시스템의 구성 요소들은 아웃 오브 보케뷸러리 스코어를 결정하는데 사용될 수 있다. 따라서, 추가 인식 모델을 제공할 필요가 없다.
본 발명의 다른 기술적 장점들은 다음의 도면, 설명 및 청구 범위로부터 당 기술에 통상의 지식을 가진 자에게는 명백할 것이다.
도 1은 본 발명의 한 실시예에 따른 화자 독립 인식 시스템의 블럭도.
도 2는 본 발명의 한 실시예에 따른 도 1의 화자 독립 인식 시스템을 위한 인롤먼트 방법의 흐름도.
도 3은 본 발명의 한 실시예에 따른 도 1의 화자 독립 인식 시스템을 위한 인식 방법의 흐름도.
도면의 주요 부분에 대한 부호의 설명
14 : 마이크로 프로세서
18 : 입력/출력 아날로그-디지탈 변환기
20 : 입력/출력 디지탈-아날로그 변환기
30 : 특징 추출 모듈
32 : 인식 모듈
36 : 인롤먼트 그래머
38 : 사용자 정의 문구
본 발명 및 장점들의 보다 완전한 이해를 돕기 위해 첨부된 도면과 관련하여취해진 다음의 설명에 대해 언급하고, 여기서 동일한 참조 번호는 동일한 부분을 나타낸다.
본 발명의 양호한 실시예들 및 그 장점들이 도 1-3을 보다 상세하게 참조함으로써 가장 이해가 잘 될 것이고, 여기서 동일한 참조 번호는 동일한 부분들을 나타낸다. 도 1-3은 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템을 설명한다. 이하에서 보다 상세하게 설명하겠지만, 이 방법 및 시스템은 아웃 오브 보케뷸러리 리젝션을 위해 사용자 정의 문구에 대해 기록될 수 있는 페널라이즈 인롤먼트 그래머 스코어를 채택할 수 있다. 따라서, 화자 독립 인식 시스템 및 방법은 아웃 오브 보케뷸러리 리젝션을 실질적으로 개선시킨다.
도 1은 본 발명의 한 실시예에 따른 화자 독립 인식 시스템(10)의 블럭도를 나타낸다. 화자 독립 인식 시스템(10)은 입력/출력 시스템(12), 마이크로프로세서(14) 및 메모리(16)를 포함할 수 있다. 입력/출력 시스템(12)은 전화 회선망(도시되지 않음)에 접속되고 신속 디아얼링과 같은 음성 작동 서비스를 제공할 수 있다. 본 실시예에서, 입력/출력 시스템(12)은 아날로그 입력 신호를 변환시키기 위한 아날로그-디지탈 변환기(18)와 디지탈 출력 신호를 변환시키기 위한 디지탈-아날로그 변환기(20)를 포함한다. 입력/출력 시스템(12)은 음성 신호를 전송하거나 처리할 수 있는 다른 네트워크 또는 시스템에 접속될 수 있다는 것이 이해될 것이다.
본 발명은 마이크로 프로세서(14)에 의해 메모리(16)에 로드되어 실행될 수 있는 컴퓨터 소프트웨어를 포함한다. 컴퓨터 소프트웨어는 일반적으로 메모리(16) 내의 모듈 및 유사한 시스템으로 식별될 수 있다. 그렇지 않은 경우 컴퓨터 소프트웨어는 본 발명의 범주 내에서 처리를 하기 위해 결합되거나 분리된다. 따라서, 모듈 및 다른 소프트 웨어 시스템들의 라벨은 설명을 목적으로 한 것이고 본 발명의 범주 내에서 변경될 수 있다. 컴퓨터 소프트웨어는 디스크 저장 장치(도시되지 않음)로부터 메모리(16)로 로드될 수 있다. 디스크 저장장치는, 예를 들면, 플로피 디스크 드라이브, 하드 디스크 드라이브, CD-롬 드라이브 또는 자기 테이프 드라이브와 같은 각종 저장 매체를 포함할 수 있다.
메모리(16)는 특징 추출 모듈(30), 인식 모듈(32), 화자 독립(SI) 인식 모델 셋트(34), 인롤먼트 그래머(36), 및 사용자 정의 문구(38)를 포함할 수 있다. 모듈(30 및 32), 모델(34), 그래머(36), 및 사용자 정의 문구(38)가 판독자의 편리를 도모하기 위해 하나의 메모리(16) 내에 도시되어 있다. 메모리(16)는 RAM, ROM, 디스크 저장 장치 등과 같은 하나 이상의 메모리 장치들을 포함할 수 있다는 것이 이해될 것이다.
특징 추출 모듈(30)은 입력/출력 시스템(12)을 통해서 수신된 구두 문구로부터 특징들을 추출할 수 있다. 통상적으로, 특징들은 구두 문구의 신호 스펙트럼으로부터 얻어진다. 한 실시예에서는, 스펙트럼이 선형 예측 코딩(linear predictive coding; LPC) 방법을 이용하여 산출될 수 있다. 그렇지 않은 경우, 구두 문구의 특징들은 본 발명의 범주 내에서 추출될 수 있다는 것이 이해될 것이다.
이하에서 보다 상세히 설명하겠지만, 인롤먼트 중에, 인식 모듈(32)은 사용자 정의 문구(38)에 대한 일련의 SI 인식 모델을 출력하기 위해 SI 인식 모델(34)과 인롤먼트 그래머(36)와 연관하여 동작할 수 있다. 또한, 비인롤먼트 사용중에는, 인식 모듈(32)의 출력은 페널라이즈될 수 있고 아웃 오브 보케뷸러리 리젝션에 대한 사용자 정의 문구(38)와 비교될 수 있다.
SI 인식 모델(34)은 어떤 특정 보케뷸러리와도 무관한 서브 워드 유닛일 수 있다. 한 실시예에서, SI 인식 모델(34)은 문맥 종속 폰 모델(context-dependent phone models)일 수 있다. 본 실시예에서, 모델은 각 폰 모델이 잘 트레인(train)되도록 많은 수의 화자들과 보케뷸러리로부터의 입력 음성과 함께 트레인될 수 있다. 다른 종류의 SI 인식 모델(34)도 본 발명의 범주 내에서 사용될 수 있다는 것이 이해될 것이다.
인롤먼트 그래머(34)는 모델의 음향 시퀀스의 허용된 시퀀스를 특정할 수 있다. 간단한 실시예에서, 인롤먼트 그래머(36)는 널(null) 그래머일 수 있다. 본 실시예에서, 그래머는 임의의 수의 모델들이 임의의 순서로 발생되게 허용한다. 또 다른 실시예에서, 인롤먼트 그래머(36)는 n-그램 그래머일 수 있다. 이 그래머는 길이 n의 허용된 시퀀스를 특정할 수 있다. 인롤먼트 그래머(36)는 포노텍틱 그래머일 수도 있다. 포노텍틱 그래머는 가능한 음절 또는 반음절과 같은 언어의 가능한 사운드 시퀀스의 견지에서 허용된 시퀀스를 특정할 수 있다. 따라서, 인롤먼트 그래머(36)는 SI 인식 모델(34)에 대한 제한으로서 작용한다. 다른 인롤먼트 그래머(36)는 본 발명의 범주 내에서 사용될 수 있다는 것이 이해될 것이다.
도 2는 본 발명의 한 실시예에 따른 화자 독립 인식 시스템(10)을 위한 인롤먼트 방법을 설명한다. 이 방법은 문구가 화자 독립 인식 시스템(10)으로의 인롤먼트를 위하여 수신되는 단계(50)에서 시작된다. 앞서 설명한 바와 같이, 문구는 입력/출력 시스템(12)을 통해 수신되고 아날로그-디지탈 변환기(18)에 의해 디지탈화될 수 있다. 인롤먼트 문구는 어떠한 사운드 또는 연속된 사운드를 포함할 수 있다.
단계(52)로 나아가면, 특징 추출 모듈(30)은 인롤먼트 문구로부터 특징을 추출할 수 있다. 한 실시예에서, 특징 추출 모듈(30)은 인롤먼트 문구의 각 프레임으로부터 선형 예측 코딩(LPC) 파라미터를 이용하여 스펙트럼 특징을 추출할 수 있다. 다른 특징 추출 기술들이 본 발명의 범주 내에서 단계(52)에서 사용될 수 있다.
단계(54)에서, 인식 모듈(32)은 SI 인식 모듈(34)을 수신할 수 있다. 앞서 설명한 바와 같이, SI 인식 모델(34)은 어떤 특정 보케뷸러리와도 무관한 서브 워드 유닛을 포함할 수 있다. 특정 실시예에서, SI 인식 모델(34)은 많은 수의 화자들과 보케뷸러리로부터 입력 음성으로 트레인된 문맥 종속 폰 모델을 포함할 수 있다.
단계(56)로 나아가면, 인식 모듈(32)은 인롤먼트 그래머(36)를 수신할 수 있다. 앞서 설명한 바와 같이, 인롤먼트 그래머는 포노텍틱 그래머, n-그램 그래머, 또는 널 그래머를 포함할 수 있다. 인롤먼트 그래머는 본 발명의 범주 내에서 다른 종류의 그래머를 포함할 수 있다.
단계(58)에서, 인식 모듈(32)은 추출된 특징에 가장 근접하게 일치하는 SI 인식 모델의 시퀀스를 결정할 수 있다. 이는 인롤먼트 그래머(36)를 이용하여 추출된 특징을 SI 인식 모델(34)에 비교함으로써 행해질 수 있다. 다음으로, 단계(60)에서, 인식 모듈(32)은 인롤먼트 문구에 대하여 SI 인식 모델의 시퀀스를 사용자 정의 문구(38)로서 저장할 수 있다. 사용자 정의 문구용으로 저장된 SI 인식 모델의 시퀀스는 SI 인식 모델과 관련된 일련의 심볼들을 포함할 수 있다. 단계(60)는 과정의 종료에 이른다.
도 3은 본 발명의 한 실시예에 따른 화자 독립 인식 시스템(10)의 비인롤먼트 사용을 위한 인식 방법을 설명한다. 이 방법은 구두 문구가 수신되는 단계(80)에서 시작된다. 인롤먼트 문구와 관련하여 앞서 설명한 바와 같이, 구두 문구는 임의의 사운드 또는 연속된 사운드를 포함할 수 있고 입력/출력 시스템(12)을 통해 수신될 수 있다. 입력/출력 시스템(12)에서, 구두 문구는 아날로그-디지탈 변환기(18)에 의해서 디지탈 포맷으로 변환될 수 있다.
단계(82)로 나아가면, 특징 추출 모듈(30)이 구두 문구로부터 특징들을 추출할 수 있다. 앞서 설명한 바와 같이, 추출된 특징은 선형 예측 코딩(LPC) 파라미터들에 기초한 스펙트럼 특징을 포함할 수 있다. 단계(84)에서, 인식 모듈(32)은 사용자 정의 문구(38)를 수신할 수 있다. 계속해서 단계(86)로 나아가면, 인식 모듈(32)은 각 사용자 정의 문구(38)를 추출된 특징에 비교함으로서 구두 문구에 대한 인 보케뷸러리 문구(38)를 결정할 수 있다. 스코어는 사용자 정의 문구와 추출된 특징들 간의 차일 수 있다.
다음으로, 단계(88)에서, 임식 모듈(32)은 SI 인식 모델(34)을 수신할 수 있다. 단계(90)에서, 인식 모듈(32)은 인롤먼트 그래머(36)를 수신할 수 있다. SI 인식 모델(34)과 인롤먼트 그래머(36)는 도 1 및 도 2와 관련하여 앞서 설명하였다.
단계(92)로 나아가면, 인식 모듈(32)은 인롤먼트 그래머(36)를 이용하여 SI 인식 모델(34)을 추출된 특징들에 비교함으로서 구두 문구에 대한 인롤먼트 그래머 스코어를 결정할 수 있다. 인롤먼트 그래머 스코어는 그래머에 의해 허용된 SI 인식 모델(34)과 추출된 특징들 간의 차일 수 있다.
단계(94)에서, 인식 모듈(32)은 아웃 오브 보케뷸러리 스코어를 생성하도록 인롤먼트 그래머 스코어를 페널라이즈할 수 있다. 한 실시예에서, 인식 모듈(32)은 스코어에 페널티를 가함으로써 인롤먼트 그래머 스코어를 페널라이즈할 수 있다. 한 실시예에서, 인롤먼트 그래머 스코어는 아웃 오브 보케뷸러리 스코어가 비정의 문구의 60% 내지 80%를 리젝트하는 경우 페널라이즈될 수 있다. 특정 실시예에서, 인롤먼트 그래머 스코어는 아웃 오브 보케뷸러리 스코어가 비정의 문구의 약 70%를 리젝트하는 경우 페널라이즈될 수 있다. 페널티는 변할 수 있고 그렇지 않은 경우 본 발명의 범주 내에서 결정될 수 있다는 것이 이해될 것이다.
단계(96)에서, 스코어는 인식 모듈(32)에 의해 비교될 수 있다. 다음으로, 결정 단계(98)에서, 인식 모듈(32)은 아웃 오브 보케뷸러리 스코어가 구두 문구에 가장 근접하게 일치하는지의 여부를 판정할 수 있다. 아웃 오브 보케뷸러리 스코어가 구두 문구에 가장 근접하게 일치하면, 결정 단계(98)의 YES 브랜치는 구두 문구가 아웃 오브 보케뷸러리로서 리젝트되는 단계(100)로 이른다. 이 경우, 화자 독립 인식 시스템(10)은 화자로 하여금 재인식 목적을 위해 문구를 반복하도록 요구할 수 있다.
결정 단계(98)로 돌아가면, 아웃 오브 보케뷸러리 스코어가 구두 문구에 가장 근접하게 일치되지 않으면, 결정 단계(98)의 NO 브랜치는 단계(100)으로 유도된다. 단계(102)에서, 인식 모듈(32)은 구두 문구를 인 보케뷸러리 문구로서 허용한다. 따라서, 문구는 인식되고 작용될 수 있다. 단계(100 및 102)는 과정의 종료에 이른다.
전술한 것에 따르면, 본 발명의 화자 독립 인식 시스템 및 방법은 아웃 오브 보케뷸러리 리젝션을 실제로 개선시킨다. 특히, 구두 문구들은 사용자 정의 문구 외에도 페널라이즈 인롤먼트 그래머 스코어에 대해서 기록될 수 있다. 페널라이즈 인롤먼트 그래머 스코어가 사용자 정의 구문보다 더 나은 일치를 제공하는 경우, 구두 문구는 아웃 오브 보케뷸러리로서 리젝트될 수 있다. 반대로, 구두 문구는 페널라이즈 인롤먼트 그래머 스코어보다 사용자 정의 문구에 더 잘 일치되는 인 보케뷸러리로서 허용될 수 있다.
본 발명이 몇 개의 실시예들을 이용하여 설명하였지만, 당 기술에 통상의 지식을 가진 자에게는 다양한 변화 및 수정이 있을 수 있다. 본 발명은 첨부된 청구 범위의 범주 내에 속하는 이러한 변화 및 수정을 포함하고자 한다.
Claims (22)
- 사용자 정의 문구의 화자 독립 인식을 위한 아웃 오브 보케뷸러리 스코어(out-of-vocabulary score)를 결정하는 방법에 있어서,인롤먼트 그래머(enrollment grammar)를 이용하여 화자 독립(SI) 인식 모델의 셋트로 사용자 정의 문구를 인롤(enroll)하는 단계;상기 인롤먼트 그래머를 이용하여 구두 문구(spoken phrase)의 특징들을 상기 SI 인식 모델에 비교함으로써 구두 문구의 인롤먼트 그래머 스코어를 결정하는 단계; 및아웃 오브 보케뷸러리 스코어를 생성하기 위해 인롤먼트 그래머 스코어를 페널라이즈(penalize)하는 단계를 포함하는 것을 특징으로 하는 사용자 정의 문구의 화자 독립 인식을 위한 아웃 오브 보케뷸러리 스코어를 결정하는 방법.
- 제1항에 있어서, 상기 인롤먼트 그래머 스코어를 페널라이즈 하는 단계는 상기 인롤먼트 그래머 스코어에 페널티를 가하는 단계를 포함하는 것을 특징으로 하는 방법.
- 제1항에 있어서, 상기 상기 인롤먼트 그래머는 포노텍틱 그래머(phonotatic grammar)인 것을 특징으로 하는 방법.
- 제1항에 있어서, 상기 인롤먼트 그래머는 널 그래머(null grammar)인 것을 특징으로 하는 방법.
- 제1항에 있어서, 상기 인롤먼트 그래머는 n-그램 그래머인 것을 특징으로 하는 방법.
- 제1항에 있어서, 상기 SI 인식 모델들은 서브 워드 유닛(sub-word units)을 포함하는 것을 특징으로 하는 방법.
- 제1항에 있어서, 상기 SI 인식 모델들은 문맥 종속 폰 모델(context-dependent phone model)을 포함하는 것을 특징으로 하는 방법.
- 제1항에 있어서, 상기 인롤먼트 그래머 스코어는 상기 아웃 오브 보케뷸러리 스코어가 비정의 문구들의 60% 내지 80%를 리젝트(reject)하는 경우 페널라이즈되는 것을 특징으로 하는 방법.
- 제1항에 있어서, 상기 인롤먼트 그래머 스코어는 아웃 오브 보케뷸러리 스코어 그래머가 비정의 문구들의 약 70%를 리젝트하는 경우 페널라이즈되는 것을 특징으로 하는 방법.
- 사용자 정의 문구들의 화자 독립 인식 방법에 있어서,구두 문구를 수신하는 단계;상기 구두 문구로부터 특징들(features)을 추출하는 단계;상기 추출된 특징들을 사용자 정의 문구에 비교함으로써 구두 문구의 인 보케뷸러리 스코어(in-vocabulary score)를 결정하는 단계;화자 독립(SI) 인식 모델들의 셋트를 수신하는 단계;인롤먼트 그래머를 수신하는 단계;상기 인롤먼트 그래머를 이용하여 상기 추출된 특징들을 상기 SI 인식 모델들에 비교함으로써 구두 문구의 인롤먼트 그래머 스코어를 결정하는 단계;아웃 오브 보케뷸러리 스코어를 생성하기 위해 상기 인롤먼트 그래머 스코어를 페널라이즈하는 단계;상기 스코어들을 비교하는 단계;상기 아웃 오브 보케뷸러리 스코어가 일치 스코어에 근접하면, 구두 문구를 아웃 오브 보케뷸러리 문구로서 리젝트하는 단계;상기 아웃 오브 보케뷸러리가 매칭 스코어에 근접하지 않으면, 구두 문구를 인 보케뷸러리 문구로서 허용하는 단계를 포함하는 것을 특징으로 하는 방법.
- 제10항에 있어서, 상기 인롤먼트 그래머 스코어를 페널라이즈하는 단계는 상기 인롤먼트 그래머 스코어에 페널티를 가하는 단계를 포함하는 것을 특징으로 하는 방법.
- 제10항에 있어서, 상기 인롤먼트 그래머는 포노텍틱 그래머인 것을 특징으로 하는 방법.
- 제10항에 있어서, 상기 그래머는 널 그래머인 것을 특징으로 하는 방법.
- 제10항에 있어서, 상기 그래머는 n-그램 그래머인 것을 특징으로 하는 방법.
- 제10항에 있어서, 상기 SI 인식 모델들은 서브 워드 유닛을 포함하는 것을 특징으로 하는 방법.
- 제10항에 있어서, 상기 SI 인식 모델들은 문맥 종속 폰 모델을 포함하는 것을 특징으로 하는 방법.
- 제10항에 있어서, 상기 추출된 특징들은 LPC 특징들인 것을 특징으로 하는 방법.
- 제10항에 있어서, 상기 인롤먼트 그래머 스코어는 아웃 오브 보케뷸러리 스코어가 비정의 문구들의 60% 내지 80%를 리젝트하는 경우 페널라이즈되는 것을 특징으로 하는 방법.
- 제10항에 있어서, 상기 인롤먼트 그래머 스코어는 아웃 오브 보케뷸러리 스코어가 비정의 문구들의 약 70%를 리젝트하는 경우 페널라이즈되는 것을 특징으로 하는 방법.
- 화자 독립 인식 시스템에 있어서,화자 독립(SI) 인식 모델 셋트;인롤먼트 그래머;인롤먼트 그래머를 이용하여 SI 인식 모델들로 인롤되는 사용자 정의 문구;상기 SI 인식 모델들과 상기 인롤먼트 그래머를 이용하여 구두 문구의 인롤먼트 그래머 스코어를 결정하도록 동작가능한 인식 모듈; 및아웃 오브 보케뷸러리 스코어를 생성하도록 상기 인롤먼트 그래머 스코어를 페널라이즈하도록 동작가능한 인식 모듈을 포함하는 것을 특징으로 하는 화자 독립 인식 시스템.
- 제20항에 있어서,구두 문구의 특징들을 상기 사용자 정의 문구에 비교함으로써 구두 문구의 인 보케뷸러리 스코어를 결정하도록 동작가능한 인식 모듈;상기 스코어들을 비교하도록 동작가능한 인식 모듈;상기 아웃 오브 보케뷸러이 스코어가 매칭 스코어에 근접하면 구두 문구를 아웃 오브 보케뷸러리 문구로서 리젝트하도록 동작가능한 인식 모듈; 및상기 아웃 오브 보케뷸러리 스코어가 매칭 스코어에 근접하지 않으면 구두 문구를 인 보케뷸러리 문구로서 허용하도록 동작가능한 인식 모듈을 더 포함하는 것을 특징으로 하는 시스템.
- 제20항에 있어서, 상기 SI 인식 모델들은 서브 워드 유닛을 더 포함하는 것을 특징으로 하는 시스템.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US3447797P | 1997-01-02 | 1997-01-02 | |
US60/034,477 | 1997-01-02 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR19980070329A true KR19980070329A (ko) | 1998-10-26 |
Family
ID=21876675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019980000030A KR19980070329A (ko) | 1997-01-02 | 1998-01-03 | 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6058363A (ko) |
EP (1) | EP0852374A3 (ko) |
JP (2) | JPH10198396A (ko) |
KR (1) | KR19980070329A (ko) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6567778B1 (en) * | 1995-12-21 | 2003-05-20 | Nuance Communications | Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores |
US5719921A (en) * | 1996-02-29 | 1998-02-17 | Nynex Science & Technology | Methods and apparatus for activating telephone services in response to speech |
US6275801B1 (en) * | 1998-11-03 | 2001-08-14 | International Business Machines Corporation | Non-leaf node penalty score assignment system and method for improving acoustic fast match speed in large vocabulary systems |
US7082397B2 (en) | 1998-12-01 | 2006-07-25 | Nuance Communications, Inc. | System for and method of creating and browsing a voice web |
US6570964B1 (en) | 1999-04-16 | 2003-05-27 | Nuance Communications | Technique for recognizing telephone numbers and other spoken information embedded in voice messages stored in a voice messaging system |
US7058573B1 (en) | 1999-04-20 | 2006-06-06 | Nuance Communications Inc. | Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes |
EP1215654B1 (en) * | 2000-12-13 | 2006-05-24 | Sony Deutschland GmbH | Method for recognizing speech |
FR2820872B1 (fr) * | 2001-02-13 | 2003-05-16 | Thomson Multimedia Sa | Procede, module, dispositif et serveur de reconnaissance vocale |
US7966187B1 (en) | 2001-02-15 | 2011-06-21 | West Corporation | Script compliance and quality assurance using speech recognition |
US7191133B1 (en) | 2001-02-15 | 2007-03-13 | West Corporation | Script compliance using speech recognition |
US7739115B1 (en) | 2001-02-15 | 2010-06-15 | West Corporation | Script compliance and agent feedback |
US7664641B1 (en) | 2001-02-15 | 2010-02-16 | West Corporation | Script compliance and quality assurance based on speech recognition and duration of interaction |
US8180643B1 (en) | 2001-02-15 | 2012-05-15 | West Corporation | Script compliance using speech recognition and compilation and transmission of voice and text records to clients |
US6952674B2 (en) * | 2002-01-07 | 2005-10-04 | Intel Corporation | Selecting an acoustic model in a speech recognition system |
US7403967B1 (en) | 2002-06-18 | 2008-07-22 | West Corporation | Methods, apparatus, and computer readable media for confirmation and verification of shipping address data associated with a transaction |
EP1603116A1 (en) * | 2003-02-19 | 2005-12-07 | Matsushita Electric Industrial Co., Ltd. | Speech recognition device and speech recognition method |
US6930759B2 (en) * | 2003-09-23 | 2005-08-16 | Eastman Kodak Company | Method and apparatus for exposing a latent watermark on film |
US8924212B1 (en) * | 2005-08-26 | 2014-12-30 | At&T Intellectual Property Ii, L.P. | System and method for robust access and entry to large structured data using voice form-filling |
US20070226164A1 (en) * | 2006-03-21 | 2007-09-27 | Honeywell International Inc. | Type variables and/or temporal constraints in plan recognition |
US8108205B2 (en) | 2006-12-01 | 2012-01-31 | Microsoft Corporation | Leveraging back-off grammars for authoring context-free grammars |
US8731925B2 (en) * | 2006-12-22 | 2014-05-20 | Nuance Communications, Inc. | Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack |
US20080273672A1 (en) * | 2007-05-03 | 2008-11-06 | Microsoft Corporation | Automated attendant grammar tuning |
US7974411B2 (en) * | 2008-01-31 | 2011-07-05 | International Business Machines Corporation | Method for protecting audio content |
US7978853B2 (en) * | 2008-01-31 | 2011-07-12 | International Business Machines Corporation | System and computer program product for protecting audio content |
US9020816B2 (en) * | 2008-08-14 | 2015-04-28 | 21Ct, Inc. | Hidden markov model for speech processing with training method |
WO2012075640A1 (en) * | 2010-12-10 | 2012-06-14 | Panasonic Corporation | Modeling device and method for speaker recognition, and speaker recognition system |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0562138A1 (en) * | 1992-03-25 | 1993-09-29 | International Business Machines Corporation | Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary |
US5732187A (en) * | 1993-09-27 | 1998-03-24 | Texas Instruments Incorporated | Speaker-dependent speech recognition using speaker independent models |
US5699456A (en) * | 1994-01-21 | 1997-12-16 | Lucent Technologies Inc. | Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars |
US5710864A (en) * | 1994-12-29 | 1998-01-20 | Lucent Technologies Inc. | Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords |
US5719921A (en) * | 1996-02-29 | 1998-02-17 | Nynex Science & Technology | Methods and apparatus for activating telephone services in response to speech |
-
1997
- 1997-12-29 US US08/999,437 patent/US6058363A/en not_active Expired - Lifetime
-
1998
- 1998-01-02 EP EP98300011A patent/EP0852374A3/en not_active Withdrawn
- 1998-01-03 KR KR1019980000030A patent/KR19980070329A/ko not_active Application Discontinuation
- 1998-01-05 JP JP10000477A patent/JPH10198396A/ja not_active Withdrawn
-
2007
- 2007-05-09 JP JP2007124314A patent/JP2007233412A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
JPH10198396A (ja) | 1998-07-31 |
EP0852374A3 (en) | 1998-11-18 |
JP2007233412A (ja) | 2007-09-13 |
EP0852374A2 (en) | 1998-07-08 |
US6058363A (en) | 2000-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6058363A (en) | Method and system for speaker-independent recognition of user-defined phrases | |
US7630878B2 (en) | Speech recognition with language-dependent model vectors | |
CN1121680C (zh) | 语音识别 | |
US7231019B2 (en) | Automatic identification of telephone callers based on voice characteristics | |
US7974843B2 (en) | Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer | |
EP1936606B1 (en) | Multi-stage speech recognition | |
EP2126900B1 (en) | Method and system for creating entries in a speech recognition lexicon | |
US6041300A (en) | System and method of using pre-enrolled speech sub-units for efficient speech synthesis | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
EP0769184B1 (en) | Speech recognition methods and apparatus on the basis of the modelling of new words | |
US6836758B2 (en) | System and method for hybrid voice recognition | |
JPH0394299A (ja) | 音声認識方法と音声認識装置訓練方法 | |
JPH09500223A (ja) | 多言語音声認識システム | |
JPH06214587A (ja) | 事前指定ワードスポッティングサブシステム及び事前ワードスポッティング方法 | |
US7181395B1 (en) | Methods and apparatus for automatic generation of multiple pronunciations from acoustic data | |
EP1734509A1 (en) | Method and system for speech recognition | |
EP1022725A1 (en) | Selection of acoustic models using speaker verification | |
KR20010086402A (ko) | 음성인식 장치 | |
US7844459B2 (en) | Method for creating a speech database for a target vocabulary in order to train a speech recognition system | |
JP2004053742A (ja) | 音声認識装置 | |
US20010056345A1 (en) | Method and system for speech recognition of the alphabet | |
EP1213706B1 (en) | Method for online adaptation of pronunciation dictionaries | |
EP1418570B1 (en) | Cross-lingual speech recognition method | |
KR100445907B1 (ko) | 음성언어 식별 장치 및 방법 | |
Mohanty et al. | Design of an Odia Voice Dialler System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid |