KR930011740B1 - 유사단어 인식방법 - Google Patents

유사단어 인식방법 Download PDF

Info

Publication number
KR930011740B1
KR930011740B1 KR1019910011866A KR910011866A KR930011740B1 KR 930011740 B1 KR930011740 B1 KR 930011740B1 KR 1019910011866 A KR1019910011866 A KR 1019910011866A KR 910011866 A KR910011866 A KR 910011866A KR 930011740 B1 KR930011740 B1 KR 930011740B1
Authority
KR
South Korea
Prior art keywords
probability
model
word
hmm
states
Prior art date
Application number
KR1019910011866A
Other languages
English (en)
Other versions
KR930003011A (ko
Inventor
김민성
Original Assignee
주식회사 금성사
이헌조
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 금성사, 이헌조 filed Critical 주식회사 금성사
Priority to KR1019910011866A priority Critical patent/KR930011740B1/ko
Publication of KR930003011A publication Critical patent/KR930003011A/ko
Application granted granted Critical
Publication of KR930011740B1 publication Critical patent/KR930011740B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

내용 없음.

Description

유사단어 인식방법
제1도는 종래의 음성인식 시스템 원리도.
제2도는 제1도에 따른 HMM 좌-우모텔파라미터 상태도.
제3도는 본 발명에 따른 유사단어 데이타인식 시스템 구성도.
제4도는 본 발명에 따른 유사단어 인식처리 흐름도.
* 도면의 주요 부분에 대한 부호의 설명
1 : 마이크 2 : 마이크인터페이스
3 : 아날로그처리부 4 : 아날로그/디지탈변환기
5 ; 디지탈신호처리기(DSP) 6 : 어드레스디코더
7 : 어드레스버퍼 8 : 기준데이타램
9 : 데이타램 10 : 프로그램톰
11 : 입/출력디코딩로직 12 : 음성인식결과 출력장치
본 발명은 음성인식방법에 관한 것으로, 특히 유사단어의 인식오류를 해결하여 음성인식의 신뢰도를 향상시키는 유사단어 인식방법에 관한 것이다.
일반적인 음성인식방법으로, Hidden Markov Model(HMM)에 의한 고립어 인식은 인식대상이 되는 단어를 확률, 통계적 방법에 의해 모델링하고, 음성이 입력되었을때 각 단어의 확률값을 구하여 확률이 최대인 단어로 인식하는 방법이다.
제1도는 일반적인 HMM에 의한 음성인식 시스템 원리도이고, 제2도는 제1도에 따른 HMM의 좌-우모델파라미터 상태도로서, 이에 도시한 바와 같이 음성인식을 위한 모델파라미터를 알고 있는 훈련데이타와 입력음성의 특징 벡터데이타를 스위치(SW1)를 통해 스위칭시켜 입력받아 벡터양장화부(Vector Quantize : Vq)(1), (2)에서 훈련음성데이타 및 입력음성의 음성특징벡터를 심볼(symbol)열로 변화시키며, 리스티메이션(Reestimation)부(3)는 훈련음성데이타로부터 모델의 확류파라미터를 추정하게 되고, 이에 따라 확률계산부(4)를 통해 확률을 계산하여 최대 확률값이 되는 단어로 인식하게 된다.
모델의 확률파라미터는 제2도에 도시된 바와 같이 상태(state) 전이확률(aij: i상태에서 j상태로 갈 확률)과 각 상태에서 심볼을 나타낼 확률(bj(k) : j상태에서 k심볼을 보일 확률)로 구성된다. 인식과정은 VQ에 의해 입력음성이 심볼열로 변환되면 각 단어모델에 입력음성이 발생할 확률을 계산한다.
즉, 각 단어에 대한 모델파라미터를 가지고 입력음성이 들어오면 각 단어모델에 입력음성이 발생할 확률 값을 계산한다. 이 확률값을 단어 모델1, 단어모델, …, 단어모델N에 대해 계산하고 그 값이 가장 큰 단어로 인식하게 된다.
그러나, 유사한 단어를 인식할때는, 기존의 방법을 이용하면 단어와 단어간의 구별되는 요소와 구별되지 않는 요소를 균등하게 처리하게 된다. 예를 들어 "삼"과 "상"의 경우 "사"부분은 "삼"과 "상"을 구별하는데 영향을 미치지 않고, 인식하는데 중요한 부분은 "ㅁ"과 "ㅇ"부분을 균일하게 처리하므로서 "사"부분의 음향학적 특성변화가 인식에 영향을 미치게 된다.
본 발명은 이와 같은 문제점을 감안하여 단어간의 구별적 요소의 중요성을 강조하기 위해 HMM에서 유사한 단어 모델을 비교하여 상태의 확률분포가 다른 상태보다 큰 차이를 나타내는 상태에는 가중치를 크게하고 그렇지 않은 나머지 상태에는 가중치를 크게하고 그렇지 않은 나머지 상태에는 적게주어 음성인식을 하도록 하는 유사단어 인식방법을 창안한 것으로, 이를 첨부한 도면을 참조해 상세히 설명하면 다음과 같다.
제3도는 본 발명에 따른 유사단어 인식 시스템 구성도로서, 이에 도시한 바와 같이 마이크(1)로 부터 음성입력을 받아들이는 마이크인터페이스(2)와, 마이크인터페이스(2)를 통해 입력되는 아날로그 음성신호를 아날로그/디지탈변환기(4)에 적당하도록 전치 처리하는 아날로그처리부(3)와, 그 아날로그처리부(3)에서 전치 처리된 아날로그 음성신호를 디지탈 신호로 변환하는 아날로그/디지탈 변환기(4)와, 그 아날로그/디지탈변환기(4)의 출력을 입력받아 음성인식 프로그램에 따라 유사한 HMM 단어모델로부터 가중치 계산하여 이 가중치를 이용하여 인식처리를 실시간으로 처리하는 디지탈신호처리기(5)와 HMM파라미터를 미리 기준데이타로 저장하고 있는 기준데이타램(8)과, 입력음성데이타의 VQ처리에 의한 심볼열데이타를 저장하는 데이타램(9)과, 음성인식프로그램롬(10)과, 상기 디지탈신호처리기(5)의 어드레스제어신호(DS, IS, PS)를 디코딩하여 상기 램(8), (9) 및 롬(10)의 선택제어신호를 발생하는 어드레스디코더(6)와 상기 디지탈신호처리기(5)의 어드레스(AΦ-A15)를 버퍼링하여 상기 램(8), (9) 및 롬(10)의 어드레스신호로 인가시키는 어드레스버퍼(7)와, 상기 어드레스디코드(6)의 출력에 의해 선택제어되고, 상기 디지탈신호처리기(5)의 제어신호(IS)를 디코딩하여 상기 마이크인터페이스(2)의 입력제어를 함과 아울러 음성인식결과 출력제어를 하는 입/출력디코딩로직(11)과, 상기 입/출력디코딩로직(11)의 음성인식결과를 출력제어에 따라 상기 디지탈 신호처리기(5)에서 처리된 음성인식 결과 출력하는 음성인식결과 출력장치(12)로 구성된다.
이와 같이 구성된 본 발명의 작용 및 효과를 설명하면 다음과 같다.
본 발명은 단어간의 구별적 요소의 중요성을 강조하기 위해 가중치를 주는데 HMM에서 유사한 단어모델을 비교하여 상태(state)의 확률분포가 다른 상태보다 큰 차이를 나타내는 상태에는 가중치를 크게주고, 그렇지 않은 나머지 상태에는 가중치를 적게주어 인식하도록 한다.
이러한 가중치를 유사한 HMM단어 모델로부터 계산하는 스텝과 이 가중치를 이용해서 인식하는 스텝으로 이를 실시간 처리하도록 디지탈신호처리기(DSP)(5)를 사용하여 음성인식처리를 한다.
먼저, 입력음성은 마이크(1)를 통해 마이크인터페이스(2)에서 받아들여지며, 이때 마이크인터페이스(2)는 차단부파가 4.7KHz인 저역필터링을 하게 되고, 아날로그처리기(3)에서 10KHz신호로 증폭되어 전치처리 된후 아날로그/디지탈변환기(4)에서 디지탈 신호로 변환된다. 그 아날로그/디지탈변환기(4)를 통해 디지탈 신호로 변환된 입력음성신호는 디지탈신호처리기(5)에서 음성인식 프로그램에 따라 음성인식 처리되는데, 제4도는 본 발명에 따른 유사단어 인식방법을 보인 제어흐름도로서, 이에 도시한 바와 같이 디지탈신호처리기(5)가 아날로그/디지탈변환기(4)를 통해 디지탈 신호로 입력받는 음성신호를 묵음구간과 음성구간으로 구분하여 음성구간을 추출하고, 음성구간에 대하여 벡터궤티저(VQ)를 통하여 심볼열(code book index)로 변환시킨다.
입력음성신호의 음성구간에서 VQ에 따른 심볼열로 특징을 추출하여 데이타램(9)에 저장시킨 후, HMM파라미터를 저장하고 있는 기준데이타램(8)으로부터 HMM모델을 읽어 그 HMM모델중 현재 데이타램(9)에 저장된 입력음성의 확률을 계산하고, 확률이 큰 m>H 기준값을 선택하며, 이에 따라 가중치를 주어 최대값을 갖는 기준값을 계산하여 그 결과에 따라 음성인식을 최대값을 갖는 기준값의 HMM모델로 인식하여 출력장치(12)를 통해 출력된다.
한편, 가중치의 계산을 다음 식(1)과 같이 계산하며,
여기서, b(j), b(j)은 k 및 l 기준값(reference)의 1상태에서 j심볼이 나타낼 확률을 나타내고, W는 k 기준값의 i상태에 대한 가중치를 나타내며, A는 비례상수이고, B는 바이어스값이다.
이와 같은 가중치(W)를 이용한 음성인식방법은 입력음성데이타가 O=O1, O2,…,On으로 나타내면, 각 단어 HMM모델에서의 확률b(J), b(j)를 구한다. 이를 P1, P2, …PR, R은 단어모델수라 하면 이 값중 가장 큰 m개를 선택하고, 이 m개의 모델에 대해서 다음의 테스트를 한다.
입력 O=O1, O2,…,On이 앞의 m모델의 어느 상태에 속하는지를 구한다. 1모델에서 j번째 입력(O3)에 대응하는 상태를 S(j)라고 하면,
(단, r은 앞에서 구한 m개 모델에 대한 인덱스)
R이 인식된 단어가 된다.
이상에서 설명한 바와 같이 본 발명은 유사단어간의 구별되는 부분을 가중치를 줌으로서 구별되지 않는 부분의 변화의 영향을 줄이는데, HMM에서 상태에 차등 가중을 적용하여 유사한 단어에 대한 음성인식시스템의 신뢰도를 높이고, 소규모 고립단어 인식을 이용하는 장치에 적용할 수 있는 효과가 있다.

Claims (3)

  1. 각 단어에 대한 HMM모델파라미터를 설정하고, 입력음성의 특징추출(VQ)에 따른 심볼열을 구하여 상기 모델파라미터에 입력음성의 심볼열이 발생한 확률을 구한 후, 확률발생값이 큰 소정수(m개)의 모델을 선택하여 유사한 모델을 비교하여 상태의 확률분포가 다른 상태보다 큰 차이를 나타내는 상태에는 가중치를 크게하고, 그렇지 않은 나머지 상태에는 가중치를 적게주어 확률값이 가장 큰 HMM모델의 기준값에 해당하는 단어로 인식하는 것을 특징으로 하는 유사단어 인식방법.
  2. 제1항에 있어서, 가중치는 bK(J), b(j)가 k 및 l 기준값의 1상태에서 j심볼이 나타낼 확률이고, W는 k 기준값의 i상태에 대한 가중치를 나타내며, A는 비례상수이고, B는 바이어스값을 나타낼때,
    윗 식(1)을 만족하는 것을 특징으로 하는 유사단어 인식방법.
  3. 제1항에 있어서, 확률값이 가장 큰 HMM모델은 입력음성 (O=O1, O2,…,On)의 확률발생값이 큰 m개의 모델중 1모델에서 j번째 입력(Oj)에 대응하는 상태를 구하여,
    (단, r은 m개 모델에 대한 인덱스)
    윗 식(2)을 만족하는 R로 구하는 것을 특징으로 하는 유사단어 인식방법.
KR1019910011866A 1991-07-12 1991-07-12 유사단어 인식방법 KR930011740B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019910011866A KR930011740B1 (ko) 1991-07-12 1991-07-12 유사단어 인식방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019910011866A KR930011740B1 (ko) 1991-07-12 1991-07-12 유사단어 인식방법

Publications (2)

Publication Number Publication Date
KR930003011A KR930003011A (ko) 1993-02-23
KR930011740B1 true KR930011740B1 (ko) 1993-12-18

Family

ID=19317165

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019910011866A KR930011740B1 (ko) 1991-07-12 1991-07-12 유사단어 인식방법

Country Status (1)

Country Link
KR (1) KR930011740B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101143030B1 (ko) * 2003-06-03 2012-05-11 마이크로소프트 코포레이션 자연어 입력을 분류하는 컴퓨터 구현 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101143030B1 (ko) * 2003-06-03 2012-05-11 마이크로소프트 코포레이션 자연어 입력을 분류하는 컴퓨터 구현 방법

Also Published As

Publication number Publication date
KR930003011A (ko) 1993-02-23

Similar Documents

Publication Publication Date Title
US5627939A (en) Speech recognition system and method employing data compression
US5794197A (en) Senone tree representation and evaluation
Ghai et al. Literature review on automatic speech recognition
US4741036A (en) Determination of phone weights for markov models in a speech recognition system
JP4351385B2 (ja) 連続および分離音声を認識するための音声認識システム
EP4018437B1 (en) Optimizing a keyword spotting system
CN106875936B (zh) 语音识别方法及装置
US20100131262A1 (en) Speech Recognition Based on a Multilingual Acoustic Model
CN109036471B (zh) 语音端点检测方法及设备
US6662159B2 (en) Recognizing speech data using a state transition model
JP2010049291A (ja) 音声認識システムのための動的にコンフィギュレーション可能な音響モデル
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
JP3535292B2 (ja) 音声認識システム
KR101862982B1 (ko) LPC-10e 보코더에서 DNN을 이용한 유무성음 판별 방법
KR930011740B1 (ko) 유사단어 인식방법
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2001195087A (ja) 音声認識システム
RU2597498C1 (ru) Способ распознавания речи на основе двухуровневого морфофонемного префиксного графа
JPH09134192A (ja) 統計的言語モデル生成装置及び音声認識装置
EP0238695B1 (en) Automatic generation of simple markov model stunted baseforms for words in a vocabulary
KR0176788B1 (ko) 음성인식의 자동모델 결정방법
JP3009640B2 (ja) 音響モデル生成装置及び音声認識装置
JPH05232989A (ja) 音響モデルの話者適応化法
JP2980382B2 (ja) 話者適応音声認識方法および装置
EP4068279A1 (en) Method and system for performing domain adaptation of end-to-end automatic speech recognition model

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
G160 Decision to publish patent application
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 19961230

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee