KR900018909A - 언어 인식 방법 및 언어 인식기 트레이닝 방법 - Google Patents

언어 인식 방법 및 언어 인식기 트레이닝 방법 Download PDF

Info

Publication number
KR900018909A
KR900018909A KR1019900006831A KR900006831A KR900018909A KR 900018909 A KR900018909 A KR 900018909A KR 1019900006831 A KR1019900006831 A KR 1019900006831A KR 900006831 A KR900006831 A KR 900006831A KR 900018909 A KR900018909 A KR 900018909A
Authority
KR
South Korea
Prior art keywords
model
acoustic
models
language
acoustic event
Prior art date
Application number
KR1019900006831A
Other languages
English (en)
Other versions
KR970011022B1 (ko
Inventor
에이취. 리 친
알. 래비너 로렌스
지.윌폰 제이
Original Assignee
더블유. 라이언
아메리칸 텔리폰 앤드 텔레그라프 캄파니
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 더블유. 라이언, 아메리칸 텔리폰 앤드 텔레그라프 캄파니 filed Critical 더블유. 라이언
Publication of KR900018909A publication Critical patent/KR900018909A/ko
Application granted granted Critical
Publication of KR970011022B1 publication Critical patent/KR970011022B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

내용 없음

Description

언어 인식 방법 및 언어 인식기 트레이닝 방법
본 내용은 요부공개 건이므로 전문내용을 수록하지 않았음
제1도는 본 발명이 이용될 수 있는 인식 시스템의 일반적인 흐름도.
제2도는 본 발명에서 이용된 상태-천이모델 및 관련 매개변수의 다이어그램.
제3도는 본 발명의 실행시 발생하는 가장 대표적인 문법적 시퀸스를 도시한 도면.

Claims (10)

  1. 인식될 구두유닛(verbal unit)의 모델을 사용하는 단계와, 언어를 포함한 음향 이벤의 시퀸스중 일부분과 상기 모델 사이의 양호한 매칭을 결정하는 단계를 포함하며, 상기 결정 단계는 선정된 기준을 만족시키도록 상기 양호한 매칭의 순위에 제한을 가하는 것을 포함하는 타입의 언어 인식 방법으로서, 상기 방법은 사용 단계가 음향 이벤트의 두가지 타입의 모델, 즉, (a) 선택된 유닛이 되는 음향 이벤트를 위한 특정 모델, (b) 무언을 포함한 다른 음향 이벤트를 위한 적어도 하나의 일반적 모델을 사용하는 것을 포함하며, 제한 단계가 특정 모델과 음향 이벤트 사이의 양호한 매칭이 일반적 모델과 음향 이벤트 사이의 양호한 매칭에 인접하여 발생되는 것을 요구한다는 점에서 개선된 것인 언어 인식 방법.
  2. 언어 이벤트를 포함한 음향 이벤트의 입력 시퀸스의 일부분과, 인식될 구두 유닛의 모델의 세트, 사이의 매칭을 이용한 언어 인식 방법에 있어서, 상기 일부분을, 인식될 상기 구두 유닛 이외의 적어도 하나의 음형 이벤트를 포함한 음향 이벤트의 적어도 제2세트의 모델과 매칭시키며, 상기 입력 시퀸스내의 특정 음향 이벤트와 인식될 구두 유닛의 모델의 양호한 매칭 및, 상기 특정 음향 이벤트와 선정된 관계를 갖는 상기 입력 시퀸스내의 음향이벤트와 상기 제2세트내의 모델의 양호한 매칭을, 선정된 관계식에 따라 검출하는 것이 개선된 언어 인식 방법.
  3. 언어 이벤트를 포함한 음향 이벤트의 입력 시퀸스의 일부분과, 인식될 구두 유닛의 모델의 세트 사이의 매칭을 이용한 언어 인식 방법에 있어서, 상기 일부분을 인식될 상기 구두 유닛 이외의 적어도 하나의 음향 이벤트를 포함한 음향 이벤트의 적어도 제2세트의 모델과 매칭시키며, 상기 입력 시퀸스내의 특정 음향 이벤트와 인식될 구두 유닛의 모델의 인접한 양호한 매칭 및, 상기 특정 음향 이벤트에 인접한 상기 입력 시퀸스내의 음향 이벤트와 상기 제2세트내의 모델의 인접한 양호한 매칭을 어떤 규칙에 따라 검출하는 것이 개선된 언어 인식 방법.
  4. 제1항에 있어서, 적어도 하나의 일반적 모델은 상태-천이 타입의 것으로서, 각각의 상태에 대해, 천이의 확률, 관측의 확률 밀도에 관련되는 다수의 매트릭스 신호, 적어도 하나의 에너지 밀도 신호, 적어도 한 세트의 상태 지속 확률 신호를 구비하는 언어 인식 방법.
  5. 제1항에 있어서, 선택된 구두 유닛 모델은 상태-천이 타입의 것으로서, 각각의 상태에 대해, 천이의 확률 및 관측 시퀸스의 확률 밀도에 관련되는 다수의 매트릭스 신호, 적어도 하나의 에너지 밀도 신호, 적어도 한 세트의 상태 지속 시간 확률 신호를 구비하며, 결정 단계는 일반적 모델과 특정 모델의 양호한 전체 시퀸스를 어떤 규칙에 따라 결정하는 것을 포함하는 언어 인식 방법.
  6. 제5항에 있어서, 결정 단계는 초기화 단계와 종결 단계를 포함하며, 제한 단계는 초기화 단계와 종결 단계 사이에 하나 이상의 특정 모델을 포함한 양호한 매칭 모델의 시퀸스로 부터 초기화 단계와 종결 단계 사이에 적어도 하나의 키워드 특정 모델을 포함한 양호한 매칭 모델의 시퀸스를 구별하는 언어 인식 방법.
  7. 제5항에 있어서, 결정 단계는 초기화 단계와 종결 단계를 포함하며, 제한 단계는 초기화 단계와 종결 단계 사이에 하나 이상의 특정 모델을 포함한 양호한 매칭 모델의시퀸스로부터 초기화 단계와 종결 단계 사이에 하나 이하의 키워드 특정 모델을 포함한 양호한 매칭 모델의시퀸스를 구별하는 언어 인식 방법.
  8. 두가지 타입의 음향 이벤트의 모델, 즉 (a) 선택된 구두 유닛인 음향 이벤트에 대한 특정 모델, (b) 다른 음향 이벤트에 대한 적어도 하나의 일반적 모델을 사용하는 단계를 포함하는 언어 인식기 트레이닝 방법.
  9. 두가지 타입의 음향 이벤트의 모델, 즉, (a) 선택된 구두 유닛인 음향 이벤트에 대한 특정 모델, (b) 다른 음향 이벤트에 대한 적어도 하나의 일반적 모델을 사용하는 타입의 언어 인식기트레이닝 방법으로서, 상기 인식기의 환경에서 적어도 부분적으로 예측 가능한 음향 이벤트의 합성물을 만드는 단계와, 상기 합성물중 가장 공통적인 특성을 추출하는 단계와, 상기 추출된 특성으로부터 적어도 하나의 상기 상태 천이 타입의 일반적 모델을 만드는 단계를 포함하는 언어 인식기 트레이닝 방법.
  10. 제8항에 있어서, 다른 음향 이벤트에 대해 적어도 하나의 일반적 모델을 사용하는 단계는 전형적인 환경에서 전형적 사용자 통신으로부터 모여진 트레이닝 베이스를 상기 사용자 통신을 위해 상당한 추후의 선택이 없이 이용하는 것을 포함하는 언어 인식기 트레이닝 방법.
    ※ 참고사항 : 최초출원 내용에 의하여 공개하는 것임.
KR1019900006831A 1989-05-17 1990-05-14 구두 발성을 나타내는 입력 신호의 처리 방법 및 음성 인식 시스템 KR970011022B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US35328389A 1989-05-17 1989-05-17
US353,283 1989-05-17

Publications (2)

Publication Number Publication Date
KR900018909A true KR900018909A (ko) 1990-12-22
KR970011022B1 KR970011022B1 (ko) 1997-07-05

Family

ID=23388462

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019900006831A KR970011022B1 (ko) 1989-05-17 1990-05-14 구두 발성을 나타내는 입력 신호의 처리 방법 및 음성 인식 시스템

Country Status (7)

Country Link
US (1) US5649057A (ko)
EP (1) EP0398574B1 (ko)
JP (1) JP2963142B2 (ko)
KR (1) KR970011022B1 (ko)
AU (2) AU5463390A (ko)
CA (1) CA2015410C (ko)
DE (1) DE69032777T2 (ko)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
MY119374A (en) * 1995-09-12 2005-05-31 Texas Instruments Inc Method and system for enrolling addresses in a speech recognition database
EP1758351B1 (en) * 1995-09-12 2016-12-21 Texas Instruments Incorporated Method and system for enrolling addresses in a speech recognition database
JP3459712B2 (ja) * 1995-11-01 2003-10-27 キヤノン株式会社 音声認識方法及び装置及びコンピュータ制御装置
GB9602691D0 (en) * 1996-02-09 1996-04-10 Canon Kk Word model generation
US5895448A (en) * 1996-02-29 1999-04-20 Nynex Science And Technology, Inc. Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose
US6076054A (en) * 1996-02-29 2000-06-13 Nynex Science & Technology, Inc. Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition
US5842165A (en) * 1996-02-29 1998-11-24 Nynex Science & Technology, Inc. Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes
DE69613556T2 (de) * 1996-04-01 2001-10-04 Hewlett Packard Co Schlüsselworterkennung
US5991720A (en) * 1996-05-06 1999-11-23 Matsushita Electric Industrial Co., Ltd. Speech recognition system employing multiple grammar networks
GB9619165D0 (en) * 1996-09-13 1996-10-23 British Telecomm Training apparatus and method
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
US6023676A (en) * 1996-12-12 2000-02-08 Dspc Israel, Ltd. Keyword recognition system and method
US6076057A (en) * 1997-05-21 2000-06-13 At&T Corp Unsupervised HMM adaptation based on speech-silence discrimination
FI973093A (fi) * 1997-07-23 1999-01-24 Nokia Mobile Phones Ltd Menetelmä telepalvelun ohjaamiseksi ja päätelaite
US6006181A (en) * 1997-09-12 1999-12-21 Lucent Technologies Inc. Method and apparatus for continuous speech recognition using a layered, self-adjusting decoder network
AU744678B2 (en) * 1997-10-15 2002-02-28 British Telecommunications Public Limited Company Pattern recognition using multiple reference models
JPH11143485A (ja) * 1997-11-14 1999-05-28 Oki Electric Ind Co Ltd 音声認識方法及び音声認識装置
US6243677B1 (en) * 1997-11-19 2001-06-05 Texas Instruments Incorporated Method of out of vocabulary word rejection
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6195634B1 (en) 1997-12-24 2001-02-27 Nortel Networks Corporation Selection of decoys for non-vocabulary utterances rejection
US6571210B2 (en) 1998-11-13 2003-05-27 Microsoft Corporation Confidence measure system using a near-miss pattern
US6577999B1 (en) * 1999-03-08 2003-06-10 International Business Machines Corporation Method and apparatus for intelligently managing multiple pronunciations for a speech recognition vocabulary
US7149690B2 (en) 1999-09-09 2006-12-12 Lucent Technologies Inc. Method and apparatus for interactive language instruction
US6442520B1 (en) 1999-11-08 2002-08-27 Agere Systems Guardian Corp. Method and apparatus for continuous speech recognition using a layered, self-adjusting decoded network
US7263484B1 (en) 2000-03-04 2007-08-28 Georgia Tech Research Corporation Phonetic searching
US6856956B2 (en) * 2000-07-20 2005-02-15 Microsoft Corporation Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
AU2001286937A1 (en) * 2000-09-01 2002-03-13 Eliza Corporation Sppech recognition method and system to determine the status of an outbound telephone call
AU2002213338A1 (en) * 2000-10-16 2002-04-29 Eliza Corporation Method of and system for providing adaptive respondent training in a speech recognition application
DE10051794C2 (de) * 2000-10-18 2003-04-17 Saymore Speech Operated System Verfahren zur eindeutigen Zuweisung eines Befehls und Verfahren zur Sprachsteuerung
US7400712B2 (en) * 2001-01-18 2008-07-15 Lucent Technologies Inc. Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access
US6950796B2 (en) * 2001-11-05 2005-09-27 Motorola, Inc. Speech recognition by dynamical noise model adaptation
US7295982B1 (en) 2001-11-19 2007-11-13 At&T Corp. System and method for automatic verification of the understandability of speech
US6885744B2 (en) 2001-12-20 2005-04-26 Rockwell Electronic Commerce Technologies, Llc Method of providing background and video patterns
JP4061094B2 (ja) * 2002-03-15 2008-03-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US7698136B1 (en) * 2003-01-28 2010-04-13 Voxify, Inc. Methods and apparatus for flexible speech recognition
US7359860B1 (en) 2003-02-27 2008-04-15 Lumen Vox, Llc Call flow object model in a speech recognition system
US7324940B1 (en) 2003-02-28 2008-01-29 Lumen Vox, Llc Speech recognition concept confidence measurement
JP4357867B2 (ja) * 2003-04-25 2009-11-04 パイオニア株式会社 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体
US7904296B2 (en) * 2003-07-23 2011-03-08 Nexidia Inc. Spoken word spotting queries
US7440895B1 (en) 2003-12-01 2008-10-21 Lumenvox, Llc. System and method for tuning and testing in a speech recognition system
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
CN101154379B (zh) * 2006-09-27 2011-11-23 夏普株式会社 定位语音中的关键词的方法和设备以及语音识别系统
JP5200712B2 (ja) * 2008-07-10 2013-06-05 富士通株式会社 音声認識装置、音声認識方法及びコンピュータプログラム
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8543395B2 (en) 2010-05-18 2013-09-24 Shazam Entertainment Ltd. Methods and systems for performing synchronization of audio with corresponding textual transcriptions and determining confidence values of the synchronization
US9118669B2 (en) 2010-09-30 2015-08-25 Alcatel Lucent Method and apparatus for voice signature authentication
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
US10740578B2 (en) 2015-04-08 2020-08-11 Fractal Antenna Systems, Inc. Fractal plasmonic surface reader

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE32012E (en) * 1980-06-09 1985-10-22 At&T Bell Laboratories Spoken word controlled automatic dialer
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition
US4713777A (en) * 1984-05-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method having noise immunity
US5218668A (en) * 1984-09-28 1993-06-08 Itt Corporation Keyword recognition system and method using template concantenation model
JPH0774960B2 (ja) * 1984-09-28 1995-08-09 インタ−ナシヨナル・スタンダ−ド・エレクトリツク・コ−ポレイシヨン テンプレ−ト連鎖モデルを使用するキ−ワ−ド認識方法およびシステム
AU583871B2 (en) * 1984-12-31 1989-05-11 Itt Industries, Inc. Apparatus and method for automatic speech recognition
US4811399A (en) * 1984-12-31 1989-03-07 Itt Defense Communications, A Division Of Itt Corporation Apparatus and method for automatic speech recognition
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4977599A (en) * 1985-05-29 1990-12-11 International Business Machines Corporation Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
JPS62231993A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声認識方法
US4827521A (en) * 1986-03-27 1989-05-02 International Business Machines Corporation Training of markov models used in a speech recognition system
JPS6312312A (ja) * 1986-07-04 1988-01-19 Yasuhiro Matsukuma 電界イオン交換クロマトグラフイ
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US4914703A (en) * 1986-12-05 1990-04-03 Dragon Systems, Inc. Method for deriving acoustic models for use in speech recognition
US4802231A (en) * 1987-11-24 1989-01-31 Elliot Davis Pattern recognition error reduction system
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
US5440662A (en) * 1992-12-11 1995-08-08 At&T Corp. Keyword/non-keyword classification in isolated word speech recognition
US5452397A (en) * 1992-12-11 1995-09-19 Texas Instruments Incorporated Method and system for preventing entry of confusingly similar phases in a voice recognition system vocabulary list

Also Published As

Publication number Publication date
EP0398574B1 (en) 1998-11-25
AU643142B2 (en) 1993-11-04
CA2015410A1 (en) 1990-11-17
AU1804492A (en) 1992-07-30
JPH0394299A (ja) 1991-04-19
AU5463390A (en) 1990-11-22
DE69032777D1 (de) 1999-01-07
DE69032777T2 (de) 1999-05-27
KR970011022B1 (ko) 1997-07-05
CA2015410C (en) 1996-04-02
EP0398574A3 (en) 1991-09-25
JP2963142B2 (ja) 1999-10-12
US5649057A (en) 1997-07-15
EP0398574A2 (en) 1990-11-22

Similar Documents

Publication Publication Date Title
KR900018909A (ko) 언어 인식 방법 및 언어 인식기 트레이닝 방법
US5033087A (en) Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
US11037553B2 (en) Learning-type interactive device
US6208964B1 (en) Method and apparatus for providing unsupervised adaptation of transcriptions
EP1162602B1 (en) Two pass speech recognition with active vocabulary restriction
US6618726B1 (en) Voice activated web browser
US6182039B1 (en) Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US9361879B2 (en) Word spotting false alarm phrases
US5758319A (en) Method and system for limiting the number of words searched by a voice recognition system
CA2198306A1 (en) Method and apparatus for an improved language recognition system
US6553342B1 (en) Tone based speech recognition
KR870009322A (ko) 스피커 배열 언어 인식 시스템
EP0755046A3 (en) Speech recogniser using a hierarchically structured dictionary
JP4684409B2 (ja) 音声認識方法及び音声認識装置
Meteer et al. Statistical language modeling combining n-gram and context-free grammars
EP1398758B1 (en) Method and apparatus for generating decision tree questions for speech processing
KR100379994B1 (ko) 문법적 제한사항을 갖는 라벨러를 이용한 구두 발언 거절
JP6605105B1 (ja) 文章記号挿入装置及びその方法
Boite et al. A new approach towards keyword spotting.
Thorne A computer model for the perception of syntactic structure
Paul et al. The Lincoln large-vocabulary stack-decoder HMM CSR
JP2966002B2 (ja) 音声認識装置
Glavitsch A first approach to speech retrieval
KR100382473B1 (ko) 음성 인식 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
G160 Decision to publish patent application
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20020702

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee