KR19990059297A - 음성 인식 장치 및 방법 - Google Patents

음성 인식 장치 및 방법 Download PDF

Info

Publication number
KR19990059297A
KR19990059297A KR1019970079496A KR19970079496A KR19990059297A KR 19990059297 A KR19990059297 A KR 19990059297A KR 1019970079496 A KR1019970079496 A KR 1019970079496A KR 19970079496 A KR19970079496 A KR 19970079496A KR 19990059297 A KR19990059297 A KR 19990059297A
Authority
KR
South Korea
Prior art keywords
model
recognition
variable
environment
result
Prior art date
Application number
KR1019970079496A
Other languages
English (en)
Inventor
장육현
Original Assignee
서평원
엘지정보통신 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서평원, 엘지정보통신 주식회사 filed Critical 서평원
Priority to KR1019970079496A priority Critical patent/KR19990059297A/ko
Priority to CN98126606A priority patent/CN1112670C/zh
Publication of KR19990059297A publication Critical patent/KR19990059297A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Abstract

본 발명은 음성 인식 장치 및 방법에 관한 것으로서, 특히, 수정된 모델 변수 변환 방식인 결합지수를 이용한 상태 의존형 모델 변수 변환 방식과 VTS근사화법을 이용한 환경변수 예측 기법을 통한 모델변수 변환방식을 통하여 잡음에 강한 음성인식 장치 및 방법에 관한 것이다.
종래의 PMC방식인 경우는 모델 변수 조합시 많은 근사화가 이루어지고 잡음 모델을 이용하여 인식대상 단어모두에 대하여 조정을 함으로 기존의 학습된 모델 변수중에서 잡음에 그다지 많이 변화하지 않는 음성부분까지도 원하지 않는 방향으로 조정되며, 또한 VTS방식은 환경변수 모델을 수렴할때까지 계속 반복하여 예측하는 과정이 그 다지 큰 효과가 있지 못하며 이로 인하여 계산량이 증가하게 되며, 환경 변수 모델 중 공분산을 조정하는데 있어서 적은 양의 데이타를 가져 정확하지 못하게 예측할 경우 인식 성능이 저하되는 문제점이 있다.
본 발명은 음성 인식 장치를 잡음 환경인 실제 환경과 인식 전단계에 모델 변수 변환을 수행 할수 있는 블럭을 삽입하여 쉽게 응용할수 있고, 또한 자동차 환경과 같은 응용 분야에서 음성인식을 통한 음성 다이얼링이나 음성 명령 장치 개발에 적용이 가능하므로 시끄러운 주변환경에서의 음성 인식을 향상시킨다.

Description

음성 인식 장치 및 방법
본 발명은 음성 인식 장치 및 방법에 관한 것으로서, 특히 수정된 모델 변수 변환 방식인 결합지수를 이용한 상태 의존형 모델 변수 변환 방식과 VTS근사화법을 이용한 환경변수 예측 기법을 통한 모델변수 변환방식을 통하여 잡음에 강한 음성인식장치및 방법에 관한 것이다.
종래의 음성 인식 방법은 첨부된 도면 도1, 2에 도시한 바와 같이
먼저, Parallel Model Combination(PMC)방식은 조용한 환경에서 훈련된 인식장치의 모델 변수와 입력 음성의 잡음 통계치 또는 기존에 만들어진 잡음 모델을 입력한다(스텝 S1-1), 상기 두 모델을 모든 인식 대상 음성의 모델 변수에 대하여 각각 더하여 준다 (스텝 S1-2), 상기 만들어진 인식 장치 모델을 이용해 입력 음성에 대하여 인식을 수행한다(스텝 S1-3).
한편, Vector Taylor Series(VTS)방식은 초기의 환경요소 모델을 결정한후에 입력 음성을 이용하여 환경 요소 모델을 예측하고(스텝S2-1), 상기 예측된 모델의 수렴여부를 결정하고 수렴하면 (스텝S2-2), 상기 결과와 학습된 인식장치 모델 변수를 입력하고 모델 변수를 새로이 조정하여(스텝S2-3), 상기 결과를 입력 음성에 대한 인식을 수행한다(스텝 S2-4).
상기 스텝 S2-2에서 수렴하지 않으면 스텝 S2-1로 귀환한다.
전술한 바와 같은 음성인식방법에 있어서, PMC방식인 경우는 모델 변수 조합시 많은 근사화가 이루어지고 잡음 모델을 이용하여 인식대상 단어모두에 대하여 조정을 함으로 기존의 학습된 모델 변수중에서 잡음에 그다지 많이 변화하지 않는 음성부분 까지도 원하지 않는 방향으로 조정되는 문제점이 있다. 또한 VTS방식은 환경변수 모델을 수렴할때까지 계속 반복하여 예측하는 과정이 그 다지 큰 효과가 있지 못하며 이로 인하여 계산량이 증가하게 되며, 환경 변수 모델 중 공분산을 조정하는데 있어서 적은 양의 데이타를 가져 정확하지 못하게 예측할 경우 인식 성능이 저하되는 문제점이 있다.
본 발명은 전술한 바와 같은 문제점을 감안하여 안출한 것으로, 음성 인식장치에서 잡음환경인 실제 환경에 쉽게 응용할수 있고, 기존의 학습된 인식장치를 그대로 사용하면서 인식 전단계에 모델 변수변환을 수행할수 있는 블럭을 삽입하여 쉽게 응용이 가능함에 목적이 있다.
상기와 같은 목적을 달성하기 위해 본 발명 음성 인식 장치에 있어서, 입력되는 음성신호를 PCM음성데이타로 변환하여 출력하는 보코더와; 학습된 모델변수와 인식대상 단어를 저장하고 출력하는 메모리부와; 상기 보코더로 부터 인가되는 PCM음성데이타에서 특정벡터를 추출하여 출력하는 보조 처리부와; 상기 보조 처리부로 부터 인가되는 특정벡터를 입력받아 모델변수 변환과 음성인식을 수행한후 인식결과를 이용하여 인식 음성 출력을 조절하는 주처리부를 구비하는 것을 특징으로 한다.
한편, 음성 인식 방법에 있어서, 인식대상 단어를 입력으로 하여 모델 변수 변환을 수행하는 제 1과정과; 모델 변수 변화정도를 조절하는 초기 결합지수와 상기 제 1과정의 결과를 입력으로 하는 제 2과정과; 상기 제 2과정에서 인가된 인식결과를 인식단위별로 나누는 제 3과정과; 상기 제 3과정에서 인가된 결과를 이용하여 결합지수를 재조정하는 결합지수 제 4과정과; 상기 제 4과정에서 인가된 재조정된 결합지수를 이용하여 모델 변수를 조정한후 인식을 수행하는 제 5과정을 포함하는 것을 특징으로 한다.
또한, 음성 인식 방법에 있어서, 인식대상 음성과 초기의 환경변수를 모델을 이용하여 모델 변수를 조정하는 제 1과정과; 상기 제 1과정에서 인가된 결과를 입력으로 하여 인식을 수행하고 인식결과를 인식단위로 나누어주는 제 2과정과; 상기 제 2과정에서 인가된 결과를 이용하여 환경변수 모델을 새로이 예측하는 제 3과정과: 상기 제 3과정에 인가된 재조정된 환경변수 모델과 학습된 모델변수를 입력으로하여 인식장치의 모델변수를 재조정하여 인식을 수행하는 제 4과정을 특징으로 한다.
도1은 종래의 PMC방식의 인식과정의 순서도
도2는 종래의 VTS방식의 인식과정의 순서도
도3는 본 발명의 음성인식 장치의 구성블록도
도4은 본 발명의 상태의존형 모델변수변환 방식의 순서도
도5는 본 발명의 환경변수예측기법을 통한 모델변수변환방식의 순서도
* 도면의 주요부분에 대한 부호의 설명 *
30:보코더 31:보조 처리부
32:주처리부 33:메모리부
34:스피커
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명하면 다음과 같다.
본 발명에 따른 모델변수 변환 방식을 이용한 음성인식장치는 첨부된 도면 도1에 도시된바와 같이 보코더(30), 보조 처리부(31), 주처리부(32), 메모리부(33), 스피커(34)을 구비하여 이루어진다.
보코더(30)는 인식실험을 위해 인가된 입력음성신호를 PCM음성데이타로 변환시킨후 보조 처리부(31)로 출력 한다.
보조 처리부(31)는 인가되는 PCM음성데이타를 받아들어 특징벡터을 추출하여 주처리부(32)로 인가한다.
주처리부(32)는 상기 보조 처리부(31)에서 인가되는 추출한 특징벡터를 모델변수변환과 음성인식을 수행한후 인식결과를 이용하여 인식 음성출력을 조절하고, 인식결과를 메모리부(33)에서 인가한후 그에 해당하는 인식음성을 다시 인가받아 스피커부(34)로 출력하도록 제어한다.
메모리부(33)는 학습된 모델 변수와 인식 대상 단어를 저장하고 상기 주처리부(32)에서 인식결과가 나오면 그에 해당하는 인식음성을 출력한다.
스피커(34)는 상기 주처리부(32)에서 인가되는 음성신호를 외부로 출력한다.
전술한 바와 같이 구성되는 본 발명의 동작을 첨부된 도면 3,4에 따라 상세하게 설명하면 다음과 같다.
먼저, 결합 지수를 이용한 상태 의존형 모델 변수 변환방식을 사용한 주 처리부(32)에서는 보조처리부(31)에서 PCM음성데이타 받아 들여 특징벡터로 추출하는데 이를 인가받아 입력 음성의 특징벡터에 대하여 PMC방식을 이용하여 모델 변수 변환을 수행하여(스텝 S3-1), 상기와 같이 조정된 모델 변수 변화정도를 조절하는 초기 결합지수와 모델 변수를 이용하여 인식 결과를 수행하고(스텝 S3-2), 상기 스텝 S3-2에서 인가된 인식결과에 대하여 복호화 과정을 수행하여 인식단어를 인식단위인 음소 단위별로 나누고, 나누어진 음소의 세그멘트 정보를 이용하여 결합지수를 예측하여(스텝 S3-3), 결합지수가 알고리즘을 통하여 예측되며 이와 같이 예측된 결합지수는 모델변수중 평균을 변화시키며, 평균의 변화량은 은닉마르코프모델의 각 상태별로 PMC에 의해 변화된 평균의 개별적인 변화량과 각 상태내에서의 평균벡터들의 변화량의 평균이 결합지수에 의해 조절되어 결정되며 이와 같이 만들어진 평균의 변화량은 상기 스텝 S3-2에서 인식결과로 나온 음성의 음소의 모델변수중 평균벡터에 더하여 진다. 이때 PMC에 의해 변화된 공분산은 그대로 사용하고(스텝 S3-4), 상기 조정된 모델변수를 이용하여 인식이 수행되며 인식결과가 주처리부(33)의 결과가된다(스텝 S3-5).
한편, VTS근사화법을 이용한 환경 변수 예측 기법을 통한 모델 변수 변환 방식을 이용한 주처리부에서는 인식 대상 음성과 초기의 환경 변수 모델을 이용해서 모델변수를 조정하여(스텝 S4-1), 상기 스텝 S4-1의 결과를 인가받아 예비 인식한후 인식결과를 인식 단위로 나누어 주고(스텝 S4-2), 상기 스텝 S4-2에서 인가되는 결과로 새로이 예측된 환경변수를 이용하여 학습된 모델 변수중 평균 벡터만을 조정는데 이때 공분산은 기존의 학습된 값을 사용하며(스텝 S4-3), 상기 스텝 S4-3에서 인가되는 재조정된 환경변수모델과 학습된 모델 변수을 입력으로 하여 인식장치의 모델변수를 재조정하여 인식을 수행한다(스텝 S4-4).
이와 같이 모델 변수 변환을 잡음 환경인 실제 환경과 인식 전단계에 블럭을 삽입해 수행 할수 있고, 자동차 환경과 같은 응용 분야에서 음성인식을 통한 음성 다이얼링이나 음성 명령 장치 개발에 적용이 가능하므로 시끄러운 주변환경에서의 음성 인식을 향상시킨다.
전술한 바와 같이, 본 발명은 음성 인식 장치를 잡음 환경인 실제 환경과 인식 전단계에 모델 변수 변환을 수행 할수 있는 블럭을 삽입하여 쉽게 응용할수 있고, 또한 자동차 환경 과 같은 응용 분야에서 음성인식을 통한 음성 다이얼링이나 음성 명령 장치 개발에 적용이 가능하므로 시끄러운 주변환경에서의 음성 인식을 향상시킨다.

Claims (3)

  1. 음성 인식 장치에 있어서, 입력되는 음성신호를 PCM음성데이타로 변환하여 출력하는 보코더와; 학습된 모델변수와 인식대상 단어를 저장하고 출력하는 메모리부와; 상기 보코더로 부터 인가되는 PCM음성데이타에서 특정벡터를 추출하여 출력하는 보조 처리부와; 상기 보조 처리부로 부터 인가되는 특정벡터를 입력받아 모델변수 변환과 음성인식을 수행한후 인식결과를 이용하여 인식 음성 출력을 조절하는 주처리부를 구비하는 것을 특징으로 하는 음성인식장치.
  2. 음성 인식 방법에 있어서, 인식대상 단어를 입력으로 하여 모델 변수 변환을 수행하는 제 1과정과; 모델 변수 변화정도를 조절하는 초기 결합지수와 상기 제 1과정의 결과를 입력으로 하는 제 2과정과; 상기 제 2과정에서 인가된 인식결과를 인식단위별로 나누는 제 3과정과; 상기 제 3과정에서 인가된 결과를 이용하여 결합지수를 재조정하는 결합지수 제 4과정과; 상기 제 4과정에서 인가된 재조정된 결합지수를 이용하여 모델 변수를 조정한후 인식을 수행하는 제 5과정을 포함하는 것을 특징으로 하는 음성인식방법.
  3. 음성 인식 방법에 있어서, 인식대상 음성과 초기의 환경변수를 모델을 이용하여 모델 변수를 조정하는 제 1과정과; 상기 제 1과정에서 인가된 결과를 입력으로 하여 인식을 수행하고 인식결과를 인식단위로 나누어주는 제 2과정과; 상기 제 2과정에서 인가된 결과를 이용하여 환경변수 모델을 새로이 예측하는 제 3과정과: 상기 제3과정에 인가된 재조정된 환경변수 모델과 학습된 모델변수를 입력으로하여 인식장치의 모델변수를 재조정하여 인식을 수행하는 제4과정을 특징으로 하는 음성 인식 방법.
KR1019970079496A 1997-12-30 1997-12-30 음성 인식 장치 및 방법 KR19990059297A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1019970079496A KR19990059297A (ko) 1997-12-30 1997-12-30 음성 인식 장치 및 방법
CN98126606A CN1112670C (zh) 1997-12-30 1998-12-29 语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970079496A KR19990059297A (ko) 1997-12-30 1997-12-30 음성 인식 장치 및 방법

Publications (1)

Publication Number Publication Date
KR19990059297A true KR19990059297A (ko) 1999-07-26

Family

ID=19530138

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970079496A KR19990059297A (ko) 1997-12-30 1997-12-30 음성 인식 장치 및 방법

Country Status (2)

Country Link
KR (1) KR19990059297A (ko)
CN (1) CN1112670C (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002091357A1 (en) * 2001-05-08 2002-11-14 Intel Corporation Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system
US7356466B2 (en) * 2002-06-28 2008-04-08 Samsung Electronics Co., Ltd. Method and apparatus for performing observation probability calculations
DE602004016681D1 (de) * 2003-12-05 2008-10-30 Kenwood Corp Audioeinrichtungs-steuereinrichtung, audioeinrichtungs-steuerverfahren und programm
CN1674092B (zh) * 2004-03-26 2010-06-09 松下电器产业株式会社 连续数字识别的声韵母跨词建模、解码方法及系统
US8756062B2 (en) * 2010-12-10 2014-06-17 General Motors Llc Male acoustic model adaptation based on language-independent female speech data
CN104485103B (zh) * 2014-11-21 2017-09-01 东南大学 一种基于矢量泰勒级数的多环境模型孤立词识别方法
CN104485108A (zh) * 2014-11-26 2015-04-01 河海大学 一种基于多说话人模型的噪声与说话人联合补偿方法
CN105355199B (zh) * 2015-10-20 2019-03-12 河海大学 一种基于gmm噪声估计的模型组合语音识别方法

Also Published As

Publication number Publication date
CN1229971A (zh) 1999-09-29
CN1112670C (zh) 2003-06-25

Similar Documents

Publication Publication Date Title
CN108564940B (zh) 语音识别方法、服务器及计算机可读存储介质
KR100760666B1 (ko) 패턴 인식
JP3479691B2 (ja) 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置
KR101229034B1 (ko) 디바이스 인터페이싱을 위한 다중모드 조음 통합
KR100697961B1 (ko) 반-지시된 화자 적응
EP1449203B1 (en) Method and system for real-time speech recognition
KR20090123396A (ko) 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
JPH11126090A (ja) 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体
JP3459712B2 (ja) 音声認識方法及び装置及びコンピュータ制御装置
KR19990059297A (ko) 음성 인식 장치 및 방법
US5943647A (en) Speech recognition based on HMMs
Fujie et al. Back-channel feedback generation using linguistic and nonlinguistic information and its application to spoken dialogue system.
JP3535292B2 (ja) 音声認識システム
JP2898568B2 (ja) 声質変換音声合成装置
JP6712754B2 (ja) 談話機能推定装置及びそのためのコンピュータプログラム
Meirong et al. Query-by-example on-device keyword spotting using convolutional recurrent neural network and connectionist temporal classification
JPH02232696A (ja) 音声認識装置
KR0169592B1 (ko) 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법
KR19990015122A (ko) 음성 인식 방법
JP2001188783A (ja) 情報処理装置および方法、並びに記録媒体
JPH10116093A (ja) 音声認識装置
JPH05224692A (ja) 連続音声認識方式
JP2000075890A (ja) ヒドン・マルコフ・モデルの学習方法及び音声認識システム
Kim et al. Speech recognition by integrating audio, visual and contextual features based on neural networks
CA2409488C (en) Method and system for real-time speech recognition

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination