KR100346736B1 - 음성인식방법 - Google Patents

음성인식방법 Download PDF

Info

Publication number
KR100346736B1
KR100346736B1 KR1019950019063A KR19950019063A KR100346736B1 KR 100346736 B1 KR100346736 B1 KR 100346736B1 KR 1019950019063 A KR1019950019063 A KR 1019950019063A KR 19950019063 A KR19950019063 A KR 19950019063A KR 100346736 B1 KR100346736 B1 KR 100346736B1
Authority
KR
South Korea
Prior art keywords
pattern
learning
voice
reference pattern
average reference
Prior art date
Application number
KR1019950019063A
Other languages
English (en)
Other versions
KR970002854A (ko
Inventor
김경선
공병구
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to KR1019950019063A priority Critical patent/KR100346736B1/ko
Publication of KR970002854A publication Critical patent/KR970002854A/ko
Application granted granted Critical
Publication of KR100346736B1 publication Critical patent/KR100346736B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

음성인식에서의 인식률향상에 관련된 것으로서 음성의 공통특징을 추출하여 음성인식에 적용하는 방법이 개시된다.
본 발명에 따른 음성인식방법은 학습용 음성패턴으로부터 평균참조패턴및 발생/천이확률을 구하는 과정; 학습용 음성패턴이 공통으로 갖는 공통특징패턴을 추출하고, 이에 의해 상기 평균참조패턴을 갱신하는 과정; 상기 갱신된 평균참조패턴에 의해 입력되는 음성을 인식하는 과정;및 상기 인식과정의 결과에 의해 상기 발생/천이확률을 갱신하는 과정을 포함함을 특징으로 한다.
본 발명에 따른 음성인식방법은 학습어휘중의 공통특징패턴을 추가적으로 사용함으로써 인식률을 제고시키는 효과를 갖는다.

Description

음성인식방법
본 발명은 음성인식에서의 인식률향상에 관련된 것으로서 음성의 공통특징을 추출하여 음성인식에 적용하는 방법에 관한 것이다.
다수의 학습용 음성패텅에서 평균참조패턴을 추출하여 인식에 이용하는 방법이 많이 연구되어져 왔다. 예를 들면 DP(Dynamic Programming)매칭을 이용하는 방법과 HMM(Hidden Markov Modeling)방법이 대표적으로 사용된다.
이러한 방법을 이용한 음성인식장치에서는 입력환경이 바뀌어 입력되는 음성신호에 왜곡이 발생하는 경우에도 높은 인식률을 얻기 위해서는 입력환경에 적응하도록 참조패턴의 적응과정이 필요하다.
그러나, 인식대상어휘가 많을 때에는 모든 입력환경을 고려하여 참조패턴을 구하는 것은 많은 시간과 노력을 요구하는 것이다.
이러한, 작업을 회피하기 위하여 화자적응에 관한 많은 연구가 수행되어졌지만 아직도 입력환경의 변화에 의한 인식률감소의 문제를 해결하기에는 미흡하다.
본 발명은 상기의 문제점을 해결하기 위하여 창출된 것으로서 노이즈첨가, 음색의 변화 등의 입력환경의 변화에 적응하여 인식률을 향상시키는 음성인식방법을 제공하는 것을 목적으로 한다.
상기의 목적을 달성하는 본 발명에 따른 음성인식방법은
학습용 음성패턴으로부터 평균참조패턴및 발생/천이확률을 구하는 과정;
학습용 음성패턴이 공통으로 갖는 공통특징패턴을 추출하고, 이에 의해 상기 평균참조패턴을 갱신하는 과정;
상기 갱신된 평균참조패턴에 의해 입력되는 음성을 인식하는 과정;및
상기 인식과정의 결과에 의해 상기 발생/천이확률을 갱신하는 과정을 포함함을 특징으로 한다.
본 발명에 따른 음성인식방법은 다음과 같은 과정을 따라 수행된다.
1) 학습용 음성패턴으로부터 평균참조패턴및 발생/천이확률을 구한다.
음성인식기의 학습은 제1도에 도시되는 바와 같이 목표가 되는 음소에 대하여 복수의 학습패턴들이 주어지고, 목표클래스와 시간지연 신경망에서 인식한 결과로서 출력된 음소와의 차이를 구하고, 이를 피드백시켜 최적의 음소인식을 수행하는 가중치를 계산한다.
가중치는 20ms의 크기를 갖는 프레임을 순차적으로 처리해가면서 최적의 값을 갖도록 조정된다.
발생/천이확률은 인식대상어휘의 음소분포를 확률적으로 표시한 것을 말하며, 발생확률은 현상태에서의 음소발생을 예측하는 것이고, 천이확률은 현상태에서 어떤 음소가 주어졌을 때 다음상태의 음소를 예측하는 것이다.
2) 학습용 음성패턴이 공통으로 갖는 공통특징패턴을 추출하고, 이에 의해 상기 평균참조패턴을 갱신한다.
공통특징패턴은 자율신경만을 이용하여 중심벡터와 유클리디안 거리정보를 이용하여 학습패턴을 특징별로 분류한다.
구체적으로는 하나의 음소에 대한 공통특징패턴은 대상음소를 포함하는 M개의 단어마다 N개의 샘플을 설정하고, 설정된 N개의 샘플에서 공통되는 특징을 구하고, 구해진 M개의 공통되는 특징을 발생빈도수에 따른 가중평균에 의하여 구해진다.
예를 들면 제2도에 도시되는 바와 같이 /아/라는 음소에 대하여, 이를 포함하는 "-ㄴ 녕하십니까", "아버지", 등등의 M개의 단어를 설정한다. 그리고, 자율신경망을 통하여 설정된 각각의 단어를 N회 반복발성하여 얻어진 N개의 음성신호에서 공통되는 패턴을 추출한다.
M개의 단어마다 공통되는 패턴을 추출하면 총 M개의 공통패턴이 추출된다. 이를 다시 가중평균하여 공통특징패턴을 얻는다.
이렇게 얻어진 공통특징패턴과 1)과정에서 얻어진 평균참조패턴을 가중평균하여 얻어진 패턴으로 평균참조패턴을 갱신한다.
3) 갱신된 평균참조패턴에 의해 입력되는 음성을 인식한다.
여기서, 입력되는 음성신호의 전체 음소들을 제3도에 도시되는 바와 같이 공통특징패턴을 포함하는 음소와 그렇지 않은 음소로 분리하고, 각각에 대하여 별도의 음성인식처리를 행한다.
학습패턴에 있던 공통특징패턴과 우사한 부분을 검출하여 그 부분의 음소를 미리 알아내어 인식해야 할 패턴수를 줄임으로써 인식률을 제고시킬 수 있다.
또한, 음력음성의 공통특징구간을 재학습시키면 현재 입력음성과 학습음성 간의 적응과정을 수행시키는 결과를 얻을 수 있다. 따라서, 입력환경의 변화 예를 들면, 노이즈가 가변되는 자동차 안이나 공장 등에서의 인식률을 향상시킬 수 있다.
4) 인식과정의 결과에 의해 발생/천이확률을 갱신한다.
최근에 사용된 음소들에 의해 발생/천이확률이 갱신됨으로써 자주 사용되는 어휘에 대해 가중치가 높아져서 인식률이 향상된다.
상술한 바와 같이 본 발명에 따른 음성인식방법은 학습어휘중의 공통특징패턴을 추가적으로 사용함으로써 인식률을 제고시키는 효과를 갖는다.
더우기, 입력환경의 변화에 대응하여 공통특징패턴을 재학습시킴에 의해 간단하게 화자적응을 달성할 수 있다.
제1도는 평균참조패턴을 학습하는 것을 보이는 도면이다.
제2도는 본 발명에 따른 음성인식방법에 있어서 공통특징패턴을 구하는 방법을 보이기 위한 도면이다.
제3도는 전체 입력음성에 있어서 공통특성패턴의 분포를 보이기 위한 도면이다.

Claims (1)

  1. 학습된 참조패턴을 참조하여 음성을 인식하는 방법에 있어서,
    학습용 음성패턴으로부터 평균참조패턴및 발생/천이확률을 구하는 과정;
    학습용 음성패턴이 공통으로 갖는 공통특징패턴을 추출하고, 이에 의해 상기 평균참조패턴을 갱신하는 과정;
    상기 갱신된 평균참조패턴에 의해 입력되는 음성을 인식하는 과정; 및
    상기 인식과정의 결과에 의해 상기 발생/천이확률을 갱신하는 과정을 포함하는 음성인식방법.
KR1019950019063A 1995-06-30 1995-06-30 음성인식방법 KR100346736B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019950019063A KR100346736B1 (ko) 1995-06-30 1995-06-30 음성인식방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019950019063A KR100346736B1 (ko) 1995-06-30 1995-06-30 음성인식방법

Publications (2)

Publication Number Publication Date
KR970002854A KR970002854A (ko) 1997-01-28
KR100346736B1 true KR100346736B1 (ko) 2002-10-25

Family

ID=37488721

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019950019063A KR100346736B1 (ko) 1995-06-30 1995-06-30 음성인식방법

Country Status (1)

Country Link
KR (1) KR100346736B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8812317B2 (en) 2009-01-14 2014-08-19 Samsung Electronics Co., Ltd. Signal processing apparatus capable of learning a voice command which is unsuccessfully recognized and method of recognizing a voice command thereof

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8812317B2 (en) 2009-01-14 2014-08-19 Samsung Electronics Co., Ltd. Signal processing apparatus capable of learning a voice command which is unsuccessfully recognized and method of recognizing a voice command thereof

Also Published As

Publication number Publication date
KR970002854A (ko) 1997-01-28

Similar Documents

Publication Publication Date Title
US6553342B1 (en) Tone based speech recognition
EP0535146B1 (en) Continuous speech processing system
EP1269464B1 (en) Discriminative training of hidden markov models for continuous speech recognition
US5742928A (en) Apparatus and method for speech recognition in the presence of unnatural speech effects
US7319959B1 (en) Multi-source phoneme classification for noise-robust automatic speech recognition
JP2001503154A (ja) 音声認識システムにおける隠れマルコフ音声モデルの適合方法
JPH0585916B2 (ko)
US5864809A (en) Modification of sub-phoneme speech spectral models for lombard speech recognition
US5943647A (en) Speech recognition based on HMMs
KR100346736B1 (ko) 음성인식방법
JPH08211897A (ja) 音声認識装置
KR100322731B1 (ko) 음성인식방법및이에적합한음성패턴의시간정규화방법
JP3571821B2 (ja) 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法
JPH09160585A (ja) 音声認識装置および音声認識方法
Schofield Research on Speech Recognition at NPL
Zhou et al. DNN-based unit selection using frame-sized speech segments
JP3900628B2 (ja) 音声認識装置
Soni The Comprehensive Analysis Speech Recognition System
Priyanka Enhancing the Technique of Speech Emotion recognition using Feature Learning
JP3256979B2 (ja) 音響モデルの入力音声に対する尤度を求める方法
JPH0229799A (ja) 音素を単位とした音声認識装置
O'Shaughnessy Improving analysis techniques for automatic speech recognition
JPH02272498A (ja) 音声認識方法
JPH06175678A (ja) 音声認識装置
JP3105708B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
A201 Request for examination
E801 Decision on dismissal of amendment
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080627

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee