KR0169592B1 - 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법 - Google Patents

음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법 Download PDF

Info

Publication number
KR0169592B1
KR0169592B1 KR1019960038319A KR19960038319A KR0169592B1 KR 0169592 B1 KR0169592 B1 KR 0169592B1 KR 1019960038319 A KR1019960038319 A KR 1019960038319A KR 19960038319 A KR19960038319 A KR 19960038319A KR 0169592 B1 KR0169592 B1 KR 0169592B1
Authority
KR
South Korea
Prior art keywords
speech
feature vector
weight
speech feature
occurrence probability
Prior art date
Application number
KR1019960038319A
Other languages
English (en)
Other versions
KR19980020011A (ko
Inventor
안영목
Original Assignee
양승택
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 양승택, 한국전자통신연구원 filed Critical 양승택
Priority to KR1019960038319A priority Critical patent/KR0169592B1/ko
Publication of KR19980020011A publication Critical patent/KR19980020011A/ko
Application granted granted Critical
Publication of KR0169592B1 publication Critical patent/KR0169592B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 음성 인식에 사용되는 음성 특징 벡터에 관한 것이다. 음성 특징 벡터는 음성 명령어 입력신호를 A/D 변환한 후에 음성 특징 추출기에서 추출되는 것으로써 기준 패턴 비교기의 압력으로 사용된다. 이 음성 특징 벡터는 동일한 단어를 발성한다고 해도 음성 인식기가 어디에서 사용되느냐에 따라서 달라지며, 또한 사용자의 발성 패턴의 변화 및 입력 수단의 변경에 의해서도 달라진다. 따라서 이러한 변화는 기준 패턴 비교기에서 사용되는 기준 모델 생성시 사용하였던 음성 특징 벡터와 차이를 발생시키고, 이 차이에 의해 음성 인식기의 성능은 저하된다. 따라서 음성 특징 벡터가 기준 패턴 비교기에 입력되기 전에 음성 특징 벡터를 기준 모델에 적합하도록 처리해 줌으로써 음성 인식기의 성능 저하를 막을 수 있다. 본 발명은 이러한 처리 단계에 필요한 적응 음성 특징 벡터의 생성 방법 및 그 구현 절차에 관한 것이다.

Description

음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법
본 발명은 사람과 컴퓨터 사이의 인터페이스에서 음성 인식 방법을 사용할 때 음성 인식에 사용되는 음성 특징을 사용하는 환경에 따라서 적응 시킴으로써 음성 인식의 성능을 개선 시키기 위한 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법에 관한 것이다.
종래의 음성 인식 시스템에서 사용되는 음성 특징은 구현된 프로그램 및 하드웨어 장치에 의해서 입력되는 음성의 특징을 매 구간마다 구하여 사용 환경에 따른 특별한 변환 및 적응의 단계가 없이 바로 비교기로 넘겨준다. 따라서, 음성 인식기의 사용 환경이 바뀌게 되면 저장되어 있는 기준 패턴들의 각 모델들은 새로운 환경과 차리가 발생된다. 이러한 차이는 음성 인식기의 성능을 저하시키는 한 원인이 된다. 또한 화자의 건강 상태 및 감정에 의해서 목소리가 바뀔 수 있다. 이러한 경우에 그 화자가 처음에 음성 인식기를 훈련시킬 때와는 다른 음성 특징이 추출된다. 즉, 화자가 처음 등록할 때 생성한 각 기준 패턴들의 각 모델들과 현재 발성에 의해서 만들어 지는 각 기준 패턴들의 각 모델들 사이에는 차이가 발생된다. 이러한 변화는 화자가 바뀔 경우에도 발생될 수 있으며, 음성 입력 장치에 의해서 바뀔 수 있다.
상술한 바와 같이 최초의 모델 생성시의 환경과 달라진 이러한 변화들은 음성 인식기의 성능을 저하시키므로 변화에 적응할 수 있는 처리 단계가 필요하다.
따라서, 본 발명은 음성 특징을 비교부로 넘겨주는 단계에서 바뀐 환경에 적응된 음성 특징을 넘겨줌으로써 음성 인식기의 성능이 환경 및 화자의 변화에 대해서 적응력을 갖도록 하는데 그 목적이 있다.
상기의 목적을 달성하기 위한 본 발명은 음성 명령어 입력신호를 A/D 변환 하고, 이로부터 음성 특징 벡터를 추출하는 단계와, 추출된 상기 음성 특징 벡터을 입력으로하여 적응 음성 특징 벡터를 추출하는 단계와, 컴퓨터 내에 미리 시스템 제작자나 사용자가 정의하고 등록해 놓은 어휘 목록 및 이의 음소 단위 발음 사전인 등록 단어 발음 사전과 각 음소의 모델 성분을 조합하여 각 등록된 단어의 단어 모델들을 생성하는 단계와, 생성된 상기 단어 모델들과 상기 적응 음성 특징 벡터를 기준 패턴 비교하는 단계와, 상기 기준 패턴 비교에 따라 가장 거리가 가까운 단어를 인식 결과로 출력하는 단계로 이루어진 것을 특징으로 한다. 적응 음성 추출 단계는 음성 인식기를 새로운 환경에 적응시킴에 있어서, 가중치를 선택하는 단계와, 상기 가중치를 선택하는 단계에서 결정된 가중치를 현재 음성 특징 벡터와 이전 음성 특징 벡터에 반영한 결과를 바탕으로 하여 현재 음성 특징 벡터를 구하는 적응 음성 벡터 생성 단계와, 상기 적응 음성 벡터 생성 단계에서 추출된 적응 음성 특징 벡터를 기준 패턴과 비교 하여 해당 모델에 대한 발생 확률 값을 구하는 발생 확률 값 계산 단계와, 상기 발생 확률 값 계산 단계에서 얻어진 발생 확률 값을 이용하여 최적의 가중치가 얻어 졌는지를 판단하여 최적 가중치 판단 단계로 이루어진 것을 특징으로 한다.
제1도는 본 발명이 적용되는 하드웨어의 구성도.
제2도는 종래의 음성 인식기의 처리 흐름도.
제3도는 본 발명에 따른 음성 인식기의 처리 흐름도.
제4도는 본 발명에 따른 음성 특징의 환경 적응에 대한 흐름도.
* 도면의 주요부분에 대한 부호의 설명
11 : 음성 입력 장치 12 : A/D 변환 장치
13 : 기억 장치 14 : 중앙 처리 장치
15 : 인식 결과 출력 장치
이하 첨부된 도면을 참조하여 본 발명에 따른 일실시 예를 상세히 설명한다.
제1도는 본 발명이 적용되는 하드웨어의 구성도이다. 컴퓨터에 음성 명령어를 발성하면 음성 입력 장치(11)와 컴퓨터 내의 A/D 변환 장치(12)를 거쳐 디지털로 변환 된다. 중앙 처리 장치(14)는 이 디지털 음성 데이터로부터 음성 특징 벡터를 추출하고, 이 특징 벡터와, 기억 장치(13) 내에 저장되어 있던 인식 대상 단어의 단어 모델과 비교하여 가장 거리가 가까운 단어를 출력 장치(15)를 통해 인식 결과로 출력 시킨다.
제2도는 종래의 음성 인식기의 처리 흐름도이다. 먼저, 음성 명령어가 입력(21)되면, 이를 A/D 변환(22)하고, 이로부터 음성 특징 벡터 추출기(23)에서 음성 특징벡터를 추출한다. 추출된 음성 특징 벡터와 비교할 모델을 구성하는 방법은, 컴퓨터 내에 미리 시스템 제작자나 사용자가 정의하고 등록해 놓은 어휘 목록 및 이의 음소 단위 발음 사전인 등록 단어 발음 사전(25)과 각 음소의 모델 성분(27)을 조합하여 각 등록된 단어의 단어 모델을 생성(26)시킨다. 생성된 단어 모델들과 앞서 추출해 놓은 음성 특징 벡터 열을 기준 패턴 비교기(24)에서 비교하여 가장 거리가 가까운 단어를 인식 결과로 출력(28)한다.
제3도는 본 발명에 따른 음성 특징 적응기가 포함된 처리 흐름도이다. 음성 명령어가 입력(21)되면, 이를 A/D 변환(22)하고, 이로부터 음성 특징 벡터 추출기(23)에서 음성 특징 벡터를 추출 한다. 이후, 추출된 음성 특징 벡터를 입력으로하는 적응 음성 특징 벡터 추출기(29)에서 적응 음성 특징 벡터를 추출(29)한다. 추출된 적응 음성 특징 벡터와 비교할 모델을 구성하는 방법은, 컴퓨터 내에 미리 시스템 제작자나 사용자가 정의하고 등록해 놓은 어휘 목록 및 이의 음소 단위 발음 사전인 등록 단어 발음 사전(28)과 각 음소의 모델 성분(27)을 조합하여 각 등록된 단어의 단어 모델을 생성(26)시킨다. 생성된 단어 모델들과 앞서 추출해 놓은 음성 특징 벡터 열을 기준 패턴 비교기(24)에서 비교하여 가장 거리가 가까운 단어를 인식 결과로 출력(28)한다.
제4도는 적응 음성 특징 추출기의 처리 흐름도이다. 가중치 선택기(31)에는 제3도의 음성 특징 추출기(23)의 출력인 음성 특징 벡터가 입력된다. 최초로 음성 특징 벡터가 입력되는 경우에 현재 음성 특징 벡터는 현재 음성 특징 벡터만을 이용한다. 다시 말하면 이전 음성 특징 벡터의 반영 비율은 0 %이고, 현재 음성 특징 벡터는 100 %이다. 이 반영 비율 즉, 가중치는 적응 음성 벡터 생성기(32)에 전해지고 이 가중치를 사용하여 적응 음성 벡터가 생성 된다. 따라서, 최초로 구해지는 적응 음성 벡터는 원래 음성 특징 벡터 즉 음성 특징 추출기(23)에서 전해지는 것과 동일하다. 이 적응 음성 벡터는 발생 학률 값계산기(33)에서 해당 모델과 음성 특징 벡터를 비교하여 발생 확률 값이 구해진다. 이 발생 확률 값은 최적 가중치 판단기(34)로 전해진다. 최적 가중치 판단기(34)에서는 넘겨 받은 발생 확률 값을 이전 발생 확률 값과 비교하여 최적의 가중치가 발생되었는가를 판단하여 음성 특징 적응기의 작업을 계속할 것인지 끝낼 것인지를 판단한다. 최적 가중치 판단기(34)에서는 전체적으로 세 가지의 상황이 발생된다. 첫째의 경우는 최초로 최적 가중치 판단기(34)가 동작하였을 경우이다. 즉 발생 확률 값 계산이 처음으로 이루어진 경우를 말한다. 이런 경우에는 다음 작업이 바로 가중치 선택기(31)로 넘어간다. 둘째의 경우는 이전의 발생 확률 값과 현재의 발생 확률 값을 비교한 결과 그 발생 확률값이 감소한 경우이다. 이러한 경우에는 이전의 가중치를 고정 시키는 신호를 가중치 선택기(31)에 전달한다. 셋째의 경우에는 이전의 발생 확률 값과 현재의 발생 확률 값을 비교한 결과 그 발생 확률 값이 증가한 경우이다. 이러한 경우에는 가중치 선택기(31)에 가중치를 계속적으로 변화시키라는 신호를 보낸다. 가중치 선택기(31)에서는 최적 가중치 판단기(34)의 신호를 바탕으로 가중치를 변경시켜서 적응 음성 벡터 생성기(32)로 전달한다.
상기와 같이 구성되어 동작하는 본 발명은 다음과 같은 효과가 있다.
첫 번째의 효과는 음성 특징 벡터가 변화된 발성 환경에 따라서 기준 패턴에 적합하도록 적응됨으로써 음성 인식기가 발성 환경에 덜 민감하게 된다.
두 번째의 효과는 화자의 변화 즉, 건강 상태, 감정 등에 의해서 발성 패턴은 변화하게 되는데 이러한 경우에 음성 특징 벡터가 새로운 발성에 적응함으로써 음성 인식기의 성능이 유지된다.
세 번째의 효과는 음성 입력 장치가 바뀔 경우 원래의 기준 패턴과 입력되는 음성 특징은 다소 차리가 발생된다. 이러한 경우 적응 음성 벡터 생성기는 음성 특징을 변환하여 음성 입력 장치의 특성에 의한 기준 패턴과의 차이를 감소시킨다.

Claims (6)

  1. 음성 명령어 입력신호를 A/D 변환 하고, 이로부터 음성 특징 벡터를 추출하는 단계와, 추출된 상기 음성 특징 벡터에 따라 적응 음성 특징 벡터를 추출하는 단계와, 컴퓨터 내에 미리 시스템 제작자나 사용자가 정의하고 등록해 놓은 어휘 목록 및 이의 음소 단위 발음 사전인 등록 단어 발음 사전과 각 음소의 모델 성분을 조합하여 각 등록된 단어의 단어 모델들을 생성하는 단계와, 생성된 상기 단어 모델들과 상기 적응 음성 특징 벡터를 기준 패턴 비교하는 단계와, 상기 기준 패턴 비교에 따라 가장 거리가 가까운 단어를 인식 결과로 출력하는 단계로 이루어진 것을 특징으로 하는 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법.
  2. 제1항에 있어서, 상기 적응 음성 추출 단계는 음성 인식기를 새로운 환경에 적응시킴에 있어서 가중치 선택 단계와, 상기 가중치 선택 단계에서 결정된 가중치를 현재 음성 특징 벡터와 이전 음성 특징 벡터에 반영한 결과를 바탕으로 하여 현재 음성 특징 벡터를 구하는 적응 음성 벡터 생성 단계와, 상기 적응 음성 벡터 생성 단계에서 추출된 적응 음성 특징 벡터를 기준 패턴과 비교 하여 해당 모델에 대한 발생 확률 값을 구하는 발생 확률 값 계산 단계와, 상기 발생 확률 값 계산 단계에서 얻어진 발생 확률 값을 이용하여 최적의 가중치가 얻어 졌는지를 판단하는 최적 가중치 판단 단계로 이루어진 것을 특징으로 하는 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법.
  3. 제2항에 있어서, 상기 최적 가중치 판단 단계는 최초로 최적 가중치 판단기가 동작하였을 경우에는 다음 작업이 바로 가중치 선택기로 넘어가도록 이루어진 것을 특징으로 하는 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법.
  4. 제2항에 있어서, 상기 최적 가중치 판단 단계는 이전의 발생 확률 값과 현재의 발생 확률 값을 비교한 결과 그 발생 확률 값이 감소한 경우에는 이전의 가중치를 고정시키는 신호가 가중치 선택기로 넘어가도록 이루어진 것을 특징으로 하는 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법.
  5. 제2항에 있어서, 상기 최적 가중치 판단 단계는 이전의 발생 확률 값과 현재의 발생 확률 값을 비교한 결과 그 발생 확률 값이 증가한 경우에는 가중치 선택기에 가중치를 계속적으로 변화시키라는 신호를 보내도록 이루어진 것을 특징으로 하는 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법.
  6. 제2항에 있어서, 상기 가중치 선택 단계는 최적 가중치 판단기의 신호를 바탕으로 가중치를 변경시켜서 적응 음성 벡터 생성기로 전달하도록 이루어진 것을 특징으로 하는 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법.
KR1019960038319A 1996-09-05 1996-09-05 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법 KR0169592B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019960038319A KR0169592B1 (ko) 1996-09-05 1996-09-05 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960038319A KR0169592B1 (ko) 1996-09-05 1996-09-05 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법

Publications (2)

Publication Number Publication Date
KR19980020011A KR19980020011A (ko) 1998-06-25
KR0169592B1 true KR0169592B1 (ko) 1999-03-20

Family

ID=19472786

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960038319A KR0169592B1 (ko) 1996-09-05 1996-09-05 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법

Country Status (1)

Country Link
KR (1) KR0169592B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100335189B1 (ko) * 1997-03-25 2002-06-20 류정열 음성인식 장치 작동방법
KR100717385B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
KR101398218B1 (ko) * 2012-09-03 2014-05-22 경희대학교 산학협력단 감정 음성 인식장치 및 방법

Also Published As

Publication number Publication date
KR19980020011A (ko) 1998-06-25

Similar Documents

Publication Publication Date Title
US11887582B2 (en) Training and testing utterance-based frameworks
US5865626A (en) Multi-dialect speech recognition method and apparatus
US7502739B2 (en) Intonation generation method, speech synthesis apparatus using the method and voice server
JP4274962B2 (ja) 音声認識システム
KR100932538B1 (ko) 음성 합성 방법 및 장치
JP2000507714A (ja) 言語処理
JPH04313034A (ja) 合成音声生成方法及びテキスト音声合成装置
NZ316124A (en) Pattern recognition for speech recognising noise signals signatures
CN112581963B (zh) 一种语音意图识别方法及系统
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
US5706397A (en) Speech recognition system with multi-level pruning for acoustic matching
KR20230056741A (ko) 목소리 변환 및 스피치 인식 모델을 사용한 합성 데이터 증강
US7212965B2 (en) Robust parameters for noisy speech recognition
CN111724809A (zh) 一种基于变分自编码器的声码器实现方法及装置
JP3535292B2 (ja) 音声認識システム
US20040006469A1 (en) Apparatus and method for updating lexicon
US11276389B1 (en) Personalizing a DNN-based text-to-speech system using small target speech corpus
KR0169592B1 (ko) 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법
Viikki et al. Speaker-and language-independent speech recognition in mobile communication systems
JP3039634B2 (ja) 音声認識装置
Furui Robust methods in automatic speech recognition and understanding.
KR20050088014A (ko) 은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에따른 음성 인식 방법 및 장치
US11335321B2 (en) Building a text-to-speech system from a small amount of speech data
JPH10116093A (ja) 音声認識装置
JP3033322B2 (ja) 連続音声認識方法

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20070919

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee