KR19980070329A - 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템 - Google Patents

사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템 Download PDF

Info

Publication number
KR19980070329A
KR19980070329A KR1019980000030A KR19980000030A KR19980070329A KR 19980070329 A KR19980070329 A KR 19980070329A KR 1019980000030 A KR1019980000030 A KR 1019980000030A KR 19980000030 A KR19980000030 A KR 19980000030A KR 19980070329 A KR19980070329 A KR 19980070329A
Authority
KR
South Korea
Prior art keywords
grammar
score
inrollment
phrase
recognition
Prior art date
Application number
KR1019980000030A
Other languages
English (en)
Inventor
라멜린감코임베토르에스.
Original Assignee
윌리엄비.켐플러
텍사스인스트루먼츠인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윌리엄비.켐플러, 텍사스인스트루먼츠인코포레이티드 filed Critical 윌리엄비.켐플러
Publication of KR19980070329A publication Critical patent/KR19980070329A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

사용자 정의 문구의 화자 독립 인식을 위한 아웃 오브 보케뷸러리 스코어를 결정하는 방법 및 시스템은 인롤먼트 그래머(36)를 이용하여 화자 독립(SI) 인식 모델(34) 셋트를 갖는 사용자 정의 문구(38)를 포함한다. 인롤먼트 그래머(36)를 이용하여 구두 문구의 특징을 SI 인식 모델(34)에 비교함으로써 구두 문구의 인롤먼트 그래머 스코어를 결정할 수 있다(92). 인롤먼트 그래머 스코어는 아웃 오브 보케뷸러리 스코어를 생성하도록 페널라이즈될 수 있다(94).

Description

사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템
본 발명은 일반적으로 음성 처리 분야에 관한 것으로, 특히 사용자 정의 문구(user-defined phrases)의 화자 독립 인식을 위한 방법 및 시스템에 관한 것이다.
음성 기반 신속 다이얼링과 같은 음성 작동 사용자 주문가능 응용에 대한 요구가 급증하고 있다. 인식을 위해 사용되는 템플레이트는 화자 독립 또는 화자 종속일 수 있다. 화자 종속 템플레이트는 화자의 발성으로부터 도출된 음향 모델이다. 전형적으로, 화자 종속 템플레이트는 사용자 정의 문구가 기록되어 아웃 오브 보케뷸러리 리젝션(out-of-vocabulary rejection)을 제공하는 가비지(garbage) 모델을 채용한다. 화자 종속 템플레이트는 통상적으로 각 문구와 추가된 사용자에 따라서 증가하는 대량의 메모리를 필요로 한다는 점에서 문제가 된다.
화자 독립 템플레이트는 고정 음향 모델을 이용하고 사용자 정의 문구들에 대해서 겨우 수백 바이트의 저장 장치를 필요로 할 수 있다. 그 결과, 화자 독립 템플레이트는 메모리 저장 장치를 아주 조금만 증가시켜도 많은 수의 사용자들과 사용자 정의 문구들을 수용할 수 있다. 그러나, 화자 독립 템플레이트가 가지고 있는 문제는 가비지 모델이 화자 독립 환경에서는 잘 기능을 하지 않는다는 것이다. 이는 부족한 아웃 오브 보케뷸러리 리젝션을 야기시키는데, 이는 잘못된 전화 번호를 다이얼링 하는 것과 같은 비용이 드는 에러를 야기시키는 원인이 될 수 있다.
따라서, 우수한 아웃 오브 보케뷸러리 리젝션 능력을 갖는 개선된 화자 독립 인식 시스템에 대한 기술이 요구되고 있다. 본 발명은 종래의 시스템과 관련된 문제들을 실제로 감소시키거나 제거하는 화자 독립 인식 시스템 및 방법을 제공한다.
본 발명에 따르면, 먼저 인롤먼트 그래머(enrollment grammar)를 이용하여 화자 독립(SI) 인식 모델 셋트를 갖는 사용자 정의 문구를 인롤함으로써 사용자 정의 문구의 화자 독립 인식을 위한 아웃 오브 보케뷸러리 스코어를 결정할 수 있다. 그런 다음, 인롤먼트 그래머를 이용하여 구두 문구(spoken phrase)의 특징을 SI 인식 모델에 비교함으로써 구두 문구의 인롤먼트 그래머 스코어를 결정할 수 있다. 인롤먼트 그래머 스코어는 아웃 오브 보케뷸러리 스코어를 생성하도록 페널라이즈(penalize)될 수 있다.
특히, 본 발명의 한 실시예에 따르면, 인롤먼트 그래머는 포노텍틱 그래머(phonotectic grammar)일 수 있고 SI 인식 모델은 서브 워드 유닛(sub-word units)을 포함할 수 있다. 인롤먼트 그래머 스코어는 아웃 오브 보케뷸러리 스코어가 비정의 문구들의 60% 내지 70%를 리젝트하는 경우 페널티를 가함으로써 페널라이즈될 수있다. 특정 실시예에서, 인롤먼트 스코어는 아웃 오브 보케뷸러리 스코어가 비정의 문구의 약 70%를 리젝트하는 경우 페널라이즈될 수 있다.
본 발명의 기술적 장점들은 아웃 오브 보케뷸러리 리젝션을 실질적으로 개선하는 화자 독립 인식 시스템 및 방법을 제공하는 것을 포함한다. 특히, 말한 문구는 사용자 정의 문구 외에도 페널라이즈 인롤먼트 그래머 스코어에 대해서도 기록될 수 있다. 페널라이즈 인롤먼트 그래머 스코어가 사용자 정의 문구보다 더 나은 일치를 제공하는 경우, 말한 문구는 아웃 오브 보케뷸러리로서 리젝트될 수 있다. 반대로, 말한 문구가 패널라이즈 인롤먼트 그래머 스코어보다 사용자 정의 문구에 더 잘 일치되는 경우에는 인 보케뷸러리(in-vocabulary)로서 허용될 수 있다. 따라서, 잘못된 번호를 다이얼링 하는 것과 같이 아웃 오브 보케뷸러리 문구를 인 보케뷸러리 문구로 인식하는 것이다.
본 발명의 추가적인 기술적 장점은 화자 독립 인식 시스템의 기존의 구성 요소들을 이용하여 아웃 오브 보케뷸러리 리젝션 시스템 및 방법을 제공하는 것을 포함한다. 특히, 인롤먼트 시스템의 구성 요소들은 아웃 오브 보케뷸러리 스코어를 결정하는데 사용될 수 있다. 따라서, 추가 인식 모델을 제공할 필요가 없다.
본 발명의 다른 기술적 장점들은 다음의 도면, 설명 및 청구 범위로부터 당 기술에 통상의 지식을 가진 자에게는 명백할 것이다.
도 1은 본 발명의 한 실시예에 따른 화자 독립 인식 시스템의 블럭도.
도 2는 본 발명의 한 실시예에 따른 도 1의 화자 독립 인식 시스템을 위한 인롤먼트 방법의 흐름도.
도 3은 본 발명의 한 실시예에 따른 도 1의 화자 독립 인식 시스템을 위한 인식 방법의 흐름도.
도면의 주요 부분에 대한 부호의 설명
14 : 마이크로 프로세서
18 : 입력/출력 아날로그-디지탈 변환기
20 : 입력/출력 디지탈-아날로그 변환기
30 : 특징 추출 모듈
32 : 인식 모듈
36 : 인롤먼트 그래머
38 : 사용자 정의 문구
본 발명 및 장점들의 보다 완전한 이해를 돕기 위해 첨부된 도면과 관련하여취해진 다음의 설명에 대해 언급하고, 여기서 동일한 참조 번호는 동일한 부분을 나타낸다.
본 발명의 양호한 실시예들 및 그 장점들이 도 1-3을 보다 상세하게 참조함으로써 가장 이해가 잘 될 것이고, 여기서 동일한 참조 번호는 동일한 부분들을 나타낸다. 도 1-3은 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템을 설명한다. 이하에서 보다 상세하게 설명하겠지만, 이 방법 및 시스템은 아웃 오브 보케뷸러리 리젝션을 위해 사용자 정의 문구에 대해 기록될 수 있는 페널라이즈 인롤먼트 그래머 스코어를 채택할 수 있다. 따라서, 화자 독립 인식 시스템 및 방법은 아웃 오브 보케뷸러리 리젝션을 실질적으로 개선시킨다.
도 1은 본 발명의 한 실시예에 따른 화자 독립 인식 시스템(10)의 블럭도를 나타낸다. 화자 독립 인식 시스템(10)은 입력/출력 시스템(12), 마이크로프로세서(14) 및 메모리(16)를 포함할 수 있다. 입력/출력 시스템(12)은 전화 회선망(도시되지 않음)에 접속되고 신속 디아얼링과 같은 음성 작동 서비스를 제공할 수 있다. 본 실시예에서, 입력/출력 시스템(12)은 아날로그 입력 신호를 변환시키기 위한 아날로그-디지탈 변환기(18)와 디지탈 출력 신호를 변환시키기 위한 디지탈-아날로그 변환기(20)를 포함한다. 입력/출력 시스템(12)은 음성 신호를 전송하거나 처리할 수 있는 다른 네트워크 또는 시스템에 접속될 수 있다는 것이 이해될 것이다.
본 발명은 마이크로 프로세서(14)에 의해 메모리(16)에 로드되어 실행될 수 있는 컴퓨터 소프트웨어를 포함한다. 컴퓨터 소프트웨어는 일반적으로 메모리(16) 내의 모듈 및 유사한 시스템으로 식별될 수 있다. 그렇지 않은 경우 컴퓨터 소프트웨어는 본 발명의 범주 내에서 처리를 하기 위해 결합되거나 분리된다. 따라서, 모듈 및 다른 소프트 웨어 시스템들의 라벨은 설명을 목적으로 한 것이고 본 발명의 범주 내에서 변경될 수 있다. 컴퓨터 소프트웨어는 디스크 저장 장치(도시되지 않음)로부터 메모리(16)로 로드될 수 있다. 디스크 저장장치는, 예를 들면, 플로피 디스크 드라이브, 하드 디스크 드라이브, CD-롬 드라이브 또는 자기 테이프 드라이브와 같은 각종 저장 매체를 포함할 수 있다.
메모리(16)는 특징 추출 모듈(30), 인식 모듈(32), 화자 독립(SI) 인식 모델 셋트(34), 인롤먼트 그래머(36), 및 사용자 정의 문구(38)를 포함할 수 있다. 모듈(30 및 32), 모델(34), 그래머(36), 및 사용자 정의 문구(38)가 판독자의 편리를 도모하기 위해 하나의 메모리(16) 내에 도시되어 있다. 메모리(16)는 RAM, ROM, 디스크 저장 장치 등과 같은 하나 이상의 메모리 장치들을 포함할 수 있다는 것이 이해될 것이다.
특징 추출 모듈(30)은 입력/출력 시스템(12)을 통해서 수신된 구두 문구로부터 특징들을 추출할 수 있다. 통상적으로, 특징들은 구두 문구의 신호 스펙트럼으로부터 얻어진다. 한 실시예에서는, 스펙트럼이 선형 예측 코딩(linear predictive coding; LPC) 방법을 이용하여 산출될 수 있다. 그렇지 않은 경우, 구두 문구의 특징들은 본 발명의 범주 내에서 추출될 수 있다는 것이 이해될 것이다.
이하에서 보다 상세히 설명하겠지만, 인롤먼트 중에, 인식 모듈(32)은 사용자 정의 문구(38)에 대한 일련의 SI 인식 모델을 출력하기 위해 SI 인식 모델(34)과 인롤먼트 그래머(36)와 연관하여 동작할 수 있다. 또한, 비인롤먼트 사용중에는, 인식 모듈(32)의 출력은 페널라이즈될 수 있고 아웃 오브 보케뷸러리 리젝션에 대한 사용자 정의 문구(38)와 비교될 수 있다.
SI 인식 모델(34)은 어떤 특정 보케뷸러리와도 무관한 서브 워드 유닛일 수 있다. 한 실시예에서, SI 인식 모델(34)은 문맥 종속 폰 모델(context-dependent phone models)일 수 있다. 본 실시예에서, 모델은 각 폰 모델이 잘 트레인(train)되도록 많은 수의 화자들과 보케뷸러리로부터의 입력 음성과 함께 트레인될 수 있다. 다른 종류의 SI 인식 모델(34)도 본 발명의 범주 내에서 사용될 수 있다는 것이 이해될 것이다.
인롤먼트 그래머(34)는 모델의 음향 시퀀스의 허용된 시퀀스를 특정할 수 있다. 간단한 실시예에서, 인롤먼트 그래머(36)는 널(null) 그래머일 수 있다. 본 실시예에서, 그래머는 임의의 수의 모델들이 임의의 순서로 발생되게 허용한다. 또 다른 실시예에서, 인롤먼트 그래머(36)는 n-그램 그래머일 수 있다. 이 그래머는 길이 n의 허용된 시퀀스를 특정할 수 있다. 인롤먼트 그래머(36)는 포노텍틱 그래머일 수도 있다. 포노텍틱 그래머는 가능한 음절 또는 반음절과 같은 언어의 가능한 사운드 시퀀스의 견지에서 허용된 시퀀스를 특정할 수 있다. 따라서, 인롤먼트 그래머(36)는 SI 인식 모델(34)에 대한 제한으로서 작용한다. 다른 인롤먼트 그래머(36)는 본 발명의 범주 내에서 사용될 수 있다는 것이 이해될 것이다.
도 2는 본 발명의 한 실시예에 따른 화자 독립 인식 시스템(10)을 위한 인롤먼트 방법을 설명한다. 이 방법은 문구가 화자 독립 인식 시스템(10)으로의 인롤먼트를 위하여 수신되는 단계(50)에서 시작된다. 앞서 설명한 바와 같이, 문구는 입력/출력 시스템(12)을 통해 수신되고 아날로그-디지탈 변환기(18)에 의해 디지탈화될 수 있다. 인롤먼트 문구는 어떠한 사운드 또는 연속된 사운드를 포함할 수 있다.
단계(52)로 나아가면, 특징 추출 모듈(30)은 인롤먼트 문구로부터 특징을 추출할 수 있다. 한 실시예에서, 특징 추출 모듈(30)은 인롤먼트 문구의 각 프레임으로부터 선형 예측 코딩(LPC) 파라미터를 이용하여 스펙트럼 특징을 추출할 수 있다. 다른 특징 추출 기술들이 본 발명의 범주 내에서 단계(52)에서 사용될 수 있다.
단계(54)에서, 인식 모듈(32)은 SI 인식 모듈(34)을 수신할 수 있다. 앞서 설명한 바와 같이, SI 인식 모델(34)은 어떤 특정 보케뷸러리와도 무관한 서브 워드 유닛을 포함할 수 있다. 특정 실시예에서, SI 인식 모델(34)은 많은 수의 화자들과 보케뷸러리로부터 입력 음성으로 트레인된 문맥 종속 폰 모델을 포함할 수 있다.
단계(56)로 나아가면, 인식 모듈(32)은 인롤먼트 그래머(36)를 수신할 수 있다. 앞서 설명한 바와 같이, 인롤먼트 그래머는 포노텍틱 그래머, n-그램 그래머, 또는 널 그래머를 포함할 수 있다. 인롤먼트 그래머는 본 발명의 범주 내에서 다른 종류의 그래머를 포함할 수 있다.
단계(58)에서, 인식 모듈(32)은 추출된 특징에 가장 근접하게 일치하는 SI 인식 모델의 시퀀스를 결정할 수 있다. 이는 인롤먼트 그래머(36)를 이용하여 추출된 특징을 SI 인식 모델(34)에 비교함으로써 행해질 수 있다. 다음으로, 단계(60)에서, 인식 모듈(32)은 인롤먼트 문구에 대하여 SI 인식 모델의 시퀀스를 사용자 정의 문구(38)로서 저장할 수 있다. 사용자 정의 문구용으로 저장된 SI 인식 모델의 시퀀스는 SI 인식 모델과 관련된 일련의 심볼들을 포함할 수 있다. 단계(60)는 과정의 종료에 이른다.
도 3은 본 발명의 한 실시예에 따른 화자 독립 인식 시스템(10)의 비인롤먼트 사용을 위한 인식 방법을 설명한다. 이 방법은 구두 문구가 수신되는 단계(80)에서 시작된다. 인롤먼트 문구와 관련하여 앞서 설명한 바와 같이, 구두 문구는 임의의 사운드 또는 연속된 사운드를 포함할 수 있고 입력/출력 시스템(12)을 통해 수신될 수 있다. 입력/출력 시스템(12)에서, 구두 문구는 아날로그-디지탈 변환기(18)에 의해서 디지탈 포맷으로 변환될 수 있다.
단계(82)로 나아가면, 특징 추출 모듈(30)이 구두 문구로부터 특징들을 추출할 수 있다. 앞서 설명한 바와 같이, 추출된 특징은 선형 예측 코딩(LPC) 파라미터들에 기초한 스펙트럼 특징을 포함할 수 있다. 단계(84)에서, 인식 모듈(32)은 사용자 정의 문구(38)를 수신할 수 있다. 계속해서 단계(86)로 나아가면, 인식 모듈(32)은 각 사용자 정의 문구(38)를 추출된 특징에 비교함으로서 구두 문구에 대한 인 보케뷸러리 문구(38)를 결정할 수 있다. 스코어는 사용자 정의 문구와 추출된 특징들 간의 차일 수 있다.
다음으로, 단계(88)에서, 임식 모듈(32)은 SI 인식 모델(34)을 수신할 수 있다. 단계(90)에서, 인식 모듈(32)은 인롤먼트 그래머(36)를 수신할 수 있다. SI 인식 모델(34)과 인롤먼트 그래머(36)는 도 1 및 도 2와 관련하여 앞서 설명하였다.
단계(92)로 나아가면, 인식 모듈(32)은 인롤먼트 그래머(36)를 이용하여 SI 인식 모델(34)을 추출된 특징들에 비교함으로서 구두 문구에 대한 인롤먼트 그래머 스코어를 결정할 수 있다. 인롤먼트 그래머 스코어는 그래머에 의해 허용된 SI 인식 모델(34)과 추출된 특징들 간의 차일 수 있다.
단계(94)에서, 인식 모듈(32)은 아웃 오브 보케뷸러리 스코어를 생성하도록 인롤먼트 그래머 스코어를 페널라이즈할 수 있다. 한 실시예에서, 인식 모듈(32)은 스코어에 페널티를 가함으로써 인롤먼트 그래머 스코어를 페널라이즈할 수 있다. 한 실시예에서, 인롤먼트 그래머 스코어는 아웃 오브 보케뷸러리 스코어가 비정의 문구의 60% 내지 80%를 리젝트하는 경우 페널라이즈될 수 있다. 특정 실시예에서, 인롤먼트 그래머 스코어는 아웃 오브 보케뷸러리 스코어가 비정의 문구의 약 70%를 리젝트하는 경우 페널라이즈될 수 있다. 페널티는 변할 수 있고 그렇지 않은 경우 본 발명의 범주 내에서 결정될 수 있다는 것이 이해될 것이다.
단계(96)에서, 스코어는 인식 모듈(32)에 의해 비교될 수 있다. 다음으로, 결정 단계(98)에서, 인식 모듈(32)은 아웃 오브 보케뷸러리 스코어가 구두 문구에 가장 근접하게 일치하는지의 여부를 판정할 수 있다. 아웃 오브 보케뷸러리 스코어가 구두 문구에 가장 근접하게 일치하면, 결정 단계(98)의 YES 브랜치는 구두 문구가 아웃 오브 보케뷸러리로서 리젝트되는 단계(100)로 이른다. 이 경우, 화자 독립 인식 시스템(10)은 화자로 하여금 재인식 목적을 위해 문구를 반복하도록 요구할 수 있다.
결정 단계(98)로 돌아가면, 아웃 오브 보케뷸러리 스코어가 구두 문구에 가장 근접하게 일치되지 않으면, 결정 단계(98)의 NO 브랜치는 단계(100)으로 유도된다. 단계(102)에서, 인식 모듈(32)은 구두 문구를 인 보케뷸러리 문구로서 허용한다. 따라서, 문구는 인식되고 작용될 수 있다. 단계(100 및 102)는 과정의 종료에 이른다.
전술한 것에 따르면, 본 발명의 화자 독립 인식 시스템 및 방법은 아웃 오브 보케뷸러리 리젝션을 실제로 개선시킨다. 특히, 구두 문구들은 사용자 정의 문구 외에도 페널라이즈 인롤먼트 그래머 스코어에 대해서 기록될 수 있다. 페널라이즈 인롤먼트 그래머 스코어가 사용자 정의 구문보다 더 나은 일치를 제공하는 경우, 구두 문구는 아웃 오브 보케뷸러리로서 리젝트될 수 있다. 반대로, 구두 문구는 페널라이즈 인롤먼트 그래머 스코어보다 사용자 정의 문구에 더 잘 일치되는 인 보케뷸러리로서 허용될 수 있다.
본 발명이 몇 개의 실시예들을 이용하여 설명하였지만, 당 기술에 통상의 지식을 가진 자에게는 다양한 변화 및 수정이 있을 수 있다. 본 발명은 첨부된 청구 범위의 범주 내에 속하는 이러한 변화 및 수정을 포함하고자 한다.

Claims (22)

  1. 사용자 정의 문구의 화자 독립 인식을 위한 아웃 오브 보케뷸러리 스코어(out-of-vocabulary score)를 결정하는 방법에 있어서,
    인롤먼트 그래머(enrollment grammar)를 이용하여 화자 독립(SI) 인식 모델의 셋트로 사용자 정의 문구를 인롤(enroll)하는 단계;
    상기 인롤먼트 그래머를 이용하여 구두 문구(spoken phrase)의 특징들을 상기 SI 인식 모델에 비교함으로써 구두 문구의 인롤먼트 그래머 스코어를 결정하는 단계; 및
    아웃 오브 보케뷸러리 스코어를 생성하기 위해 인롤먼트 그래머 스코어를 페널라이즈(penalize)하는 단계
    를 포함하는 것을 특징으로 하는 사용자 정의 문구의 화자 독립 인식을 위한 아웃 오브 보케뷸러리 스코어를 결정하는 방법.
  2. 제1항에 있어서, 상기 인롤먼트 그래머 스코어를 페널라이즈 하는 단계는 상기 인롤먼트 그래머 스코어에 페널티를 가하는 단계를 포함하는 것을 특징으로 하는 방법.
  3. 제1항에 있어서, 상기 상기 인롤먼트 그래머는 포노텍틱 그래머(phonotatic grammar)인 것을 특징으로 하는 방법.
  4. 제1항에 있어서, 상기 인롤먼트 그래머는 널 그래머(null grammar)인 것을 특징으로 하는 방법.
  5. 제1항에 있어서, 상기 인롤먼트 그래머는 n-그램 그래머인 것을 특징으로 하는 방법.
  6. 제1항에 있어서, 상기 SI 인식 모델들은 서브 워드 유닛(sub-word units)을 포함하는 것을 특징으로 하는 방법.
  7. 제1항에 있어서, 상기 SI 인식 모델들은 문맥 종속 폰 모델(context-dependent phone model)을 포함하는 것을 특징으로 하는 방법.
  8. 제1항에 있어서, 상기 인롤먼트 그래머 스코어는 상기 아웃 오브 보케뷸러리 스코어가 비정의 문구들의 60% 내지 80%를 리젝트(reject)하는 경우 페널라이즈되는 것을 특징으로 하는 방법.
  9. 제1항에 있어서, 상기 인롤먼트 그래머 스코어는 아웃 오브 보케뷸러리 스코어 그래머가 비정의 문구들의 약 70%를 리젝트하는 경우 페널라이즈되는 것을 특징으로 하는 방법.
  10. 사용자 정의 문구들의 화자 독립 인식 방법에 있어서,
    구두 문구를 수신하는 단계;
    상기 구두 문구로부터 특징들(features)을 추출하는 단계;
    상기 추출된 특징들을 사용자 정의 문구에 비교함으로써 구두 문구의 인 보케뷸러리 스코어(in-vocabulary score)를 결정하는 단계;
    화자 독립(SI) 인식 모델들의 셋트를 수신하는 단계;
    인롤먼트 그래머를 수신하는 단계;
    상기 인롤먼트 그래머를 이용하여 상기 추출된 특징들을 상기 SI 인식 모델들에 비교함으로써 구두 문구의 인롤먼트 그래머 스코어를 결정하는 단계;
    아웃 오브 보케뷸러리 스코어를 생성하기 위해 상기 인롤먼트 그래머 스코어를 페널라이즈하는 단계;
    상기 스코어들을 비교하는 단계;
    상기 아웃 오브 보케뷸러리 스코어가 일치 스코어에 근접하면, 구두 문구를 아웃 오브 보케뷸러리 문구로서 리젝트하는 단계;
    상기 아웃 오브 보케뷸러리가 매칭 스코어에 근접하지 않으면, 구두 문구를 인 보케뷸러리 문구로서 허용하는 단계
    를 포함하는 것을 특징으로 하는 방법.
  11. 제10항에 있어서, 상기 인롤먼트 그래머 스코어를 페널라이즈하는 단계는 상기 인롤먼트 그래머 스코어에 페널티를 가하는 단계를 포함하는 것을 특징으로 하는 방법.
  12. 제10항에 있어서, 상기 인롤먼트 그래머는 포노텍틱 그래머인 것을 특징으로 하는 방법.
  13. 제10항에 있어서, 상기 그래머는 널 그래머인 것을 특징으로 하는 방법.
  14. 제10항에 있어서, 상기 그래머는 n-그램 그래머인 것을 특징으로 하는 방법.
  15. 제10항에 있어서, 상기 SI 인식 모델들은 서브 워드 유닛을 포함하는 것을 특징으로 하는 방법.
  16. 제10항에 있어서, 상기 SI 인식 모델들은 문맥 종속 폰 모델을 포함하는 것을 특징으로 하는 방법.
  17. 제10항에 있어서, 상기 추출된 특징들은 LPC 특징들인 것을 특징으로 하는 방법.
  18. 제10항에 있어서, 상기 인롤먼트 그래머 스코어는 아웃 오브 보케뷸러리 스코어가 비정의 문구들의 60% 내지 80%를 리젝트하는 경우 페널라이즈되는 것을 특징으로 하는 방법.
  19. 제10항에 있어서, 상기 인롤먼트 그래머 스코어는 아웃 오브 보케뷸러리 스코어가 비정의 문구들의 약 70%를 리젝트하는 경우 페널라이즈되는 것을 특징으로 하는 방법.
  20. 화자 독립 인식 시스템에 있어서,
    화자 독립(SI) 인식 모델 셋트;
    인롤먼트 그래머;
    인롤먼트 그래머를 이용하여 SI 인식 모델들로 인롤되는 사용자 정의 문구;
    상기 SI 인식 모델들과 상기 인롤먼트 그래머를 이용하여 구두 문구의 인롤먼트 그래머 스코어를 결정하도록 동작가능한 인식 모듈; 및
    아웃 오브 보케뷸러리 스코어를 생성하도록 상기 인롤먼트 그래머 스코어를 페널라이즈하도록 동작가능한 인식 모듈
    을 포함하는 것을 특징으로 하는 화자 독립 인식 시스템.
  21. 제20항에 있어서,
    구두 문구의 특징들을 상기 사용자 정의 문구에 비교함으로써 구두 문구의 인 보케뷸러리 스코어를 결정하도록 동작가능한 인식 모듈;
    상기 스코어들을 비교하도록 동작가능한 인식 모듈;
    상기 아웃 오브 보케뷸러이 스코어가 매칭 스코어에 근접하면 구두 문구를 아웃 오브 보케뷸러리 문구로서 리젝트하도록 동작가능한 인식 모듈; 및
    상기 아웃 오브 보케뷸러리 스코어가 매칭 스코어에 근접하지 않으면 구두 문구를 인 보케뷸러리 문구로서 허용하도록 동작가능한 인식 모듈
    을 더 포함하는 것을 특징으로 하는 시스템.
  22. 제20항에 있어서, 상기 SI 인식 모델들은 서브 워드 유닛을 더 포함하는 것을 특징으로 하는 시스템.
KR1019980000030A 1997-01-02 1998-01-03 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템 KR19980070329A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US3447797P 1997-01-02 1997-01-02
US60/034,477 1997-01-02

Publications (1)

Publication Number Publication Date
KR19980070329A true KR19980070329A (ko) 1998-10-26

Family

ID=21876675

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980000030A KR19980070329A (ko) 1997-01-02 1998-01-03 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템

Country Status (4)

Country Link
US (1) US6058363A (ko)
EP (1) EP0852374A3 (ko)
JP (2) JPH10198396A (ko)
KR (1) KR19980070329A (ko)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6567778B1 (en) * 1995-12-21 2003-05-20 Nuance Communications Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores
US5719921A (en) * 1996-02-29 1998-02-17 Nynex Science & Technology Methods and apparatus for activating telephone services in response to speech
US6275801B1 (en) * 1998-11-03 2001-08-14 International Business Machines Corporation Non-leaf node penalty score assignment system and method for improving acoustic fast match speed in large vocabulary systems
US7082397B2 (en) 1998-12-01 2006-07-25 Nuance Communications, Inc. System for and method of creating and browsing a voice web
US6570964B1 (en) 1999-04-16 2003-05-27 Nuance Communications Technique for recognizing telephone numbers and other spoken information embedded in voice messages stored in a voice messaging system
US7058573B1 (en) 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
EP1215654B1 (en) * 2000-12-13 2006-05-24 Sony Deutschland GmbH Method for recognizing speech
FR2820872B1 (fr) * 2001-02-13 2003-05-16 Thomson Multimedia Sa Procede, module, dispositif et serveur de reconnaissance vocale
US7966187B1 (en) 2001-02-15 2011-06-21 West Corporation Script compliance and quality assurance using speech recognition
US7191133B1 (en) 2001-02-15 2007-03-13 West Corporation Script compliance using speech recognition
US7739115B1 (en) 2001-02-15 2010-06-15 West Corporation Script compliance and agent feedback
US7664641B1 (en) 2001-02-15 2010-02-16 West Corporation Script compliance and quality assurance based on speech recognition and duration of interaction
US8180643B1 (en) 2001-02-15 2012-05-15 West Corporation Script compliance using speech recognition and compilation and transmission of voice and text records to clients
US6952674B2 (en) * 2002-01-07 2005-10-04 Intel Corporation Selecting an acoustic model in a speech recognition system
US7403967B1 (en) 2002-06-18 2008-07-22 West Corporation Methods, apparatus, and computer readable media for confirmation and verification of shipping address data associated with a transaction
EP1603116A1 (en) * 2003-02-19 2005-12-07 Matsushita Electric Industrial Co., Ltd. Speech recognition device and speech recognition method
US6930759B2 (en) * 2003-09-23 2005-08-16 Eastman Kodak Company Method and apparatus for exposing a latent watermark on film
US8924212B1 (en) * 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
US20070226164A1 (en) * 2006-03-21 2007-09-27 Honeywell International Inc. Type variables and/or temporal constraints in plan recognition
US8108205B2 (en) 2006-12-01 2012-01-31 Microsoft Corporation Leveraging back-off grammars for authoring context-free grammars
US8731925B2 (en) * 2006-12-22 2014-05-20 Nuance Communications, Inc. Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack
US20080273672A1 (en) * 2007-05-03 2008-11-06 Microsoft Corporation Automated attendant grammar tuning
US7974411B2 (en) * 2008-01-31 2011-07-05 International Business Machines Corporation Method for protecting audio content
US7978853B2 (en) * 2008-01-31 2011-07-12 International Business Machines Corporation System and computer program product for protecting audio content
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
WO2012075640A1 (en) * 2010-12-10 2012-06-14 Panasonic Corporation Modeling device and method for speaker recognition, and speaker recognition system

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0562138A1 (en) * 1992-03-25 1993-09-29 International Business Machines Corporation Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary
US5732187A (en) * 1993-09-27 1998-03-24 Texas Instruments Incorporated Speaker-dependent speech recognition using speaker independent models
US5699456A (en) * 1994-01-21 1997-12-16 Lucent Technologies Inc. Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
US5710864A (en) * 1994-12-29 1998-01-20 Lucent Technologies Inc. Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords
US5719921A (en) * 1996-02-29 1998-02-17 Nynex Science & Technology Methods and apparatus for activating telephone services in response to speech

Also Published As

Publication number Publication date
JPH10198396A (ja) 1998-07-31
EP0852374A3 (en) 1998-11-18
JP2007233412A (ja) 2007-09-13
EP0852374A2 (en) 1998-07-08
US6058363A (en) 2000-05-02

Similar Documents

Publication Publication Date Title
US6058363A (en) Method and system for speaker-independent recognition of user-defined phrases
US7630878B2 (en) Speech recognition with language-dependent model vectors
CN1121680C (zh) 语音识别
US7231019B2 (en) Automatic identification of telephone callers based on voice characteristics
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
EP1936606B1 (en) Multi-stage speech recognition
EP2126900B1 (en) Method and system for creating entries in a speech recognition lexicon
US6041300A (en) System and method of using pre-enrolled speech sub-units for efficient speech synthesis
EP2048655B1 (en) Context sensitive multi-stage speech recognition
EP0769184B1 (en) Speech recognition methods and apparatus on the basis of the modelling of new words
US6836758B2 (en) System and method for hybrid voice recognition
JPH0394299A (ja) 音声認識方法と音声認識装置訓練方法
JPH09500223A (ja) 多言語音声認識システム
JPH06214587A (ja) 事前指定ワードスポッティングサブシステム及び事前ワードスポッティング方法
US7181395B1 (en) Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
EP1734509A1 (en) Method and system for speech recognition
EP1022725A1 (en) Selection of acoustic models using speaker verification
KR20010086402A (ko) 음성인식 장치
US7844459B2 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
JP2004053742A (ja) 音声認識装置
US20010056345A1 (en) Method and system for speech recognition of the alphabet
EP1213706B1 (en) Method for online adaptation of pronunciation dictionaries
EP1418570B1 (en) Cross-lingual speech recognition method
KR100445907B1 (ko) 음성언어 식별 장치 및 방법
Mohanty et al. Design of an Odia Voice Dialler System

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid