KR940002852B1 - 격리단어 인식방법 - Google Patents

격리단어 인식방법 Download PDF

Info

Publication number
KR940002852B1
KR940002852B1 KR1019910020182A KR910020182A KR940002852B1 KR 940002852 B1 KR940002852 B1 KR 940002852B1 KR 1019910020182 A KR1019910020182 A KR 1019910020182A KR 910020182 A KR910020182 A KR 910020182A KR 940002852 B1 KR940002852 B1 KR 940002852B1
Authority
KR
South Korea
Prior art keywords
reference pattern
voice
vectors
vector
pattern
Prior art date
Application number
KR1019910020182A
Other languages
English (en)
Other versions
KR930010848A (ko
Inventor
김민성
Original Assignee
주식회사 금성사
이헌조
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 금성사, 이헌조 filed Critical 주식회사 금성사
Priority to KR1019910020182A priority Critical patent/KR940002852B1/ko
Publication of KR930010848A publication Critical patent/KR930010848A/ko
Application granted granted Critical
Publication of KR940002852B1 publication Critical patent/KR940002852B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

내용 없음.

Description

격리단어 인식방법
제1도는 본 발명의 격리단어 인식방법.
제2도는 본 발명의 격리단어 인식방법의 신호흐름도.
* 도면의 주요 부분에 대한 부호의 설명
1 : 인터페이스부 2 : A/D변환기
3 : 디에스피 집적소자 4 : 어드레스 디코더
5 : 버퍼 6 : 기준백터 롬
7 : 기준패턴 램 8 : 프로그램 롬
9 : I/O 디코더 10 : 음성인식 정보 이용장치
본 발명은 음성인식 시스템에서 격리단어를 인식하는 기술에 관한 것으로, 특히 시간적 정보를 첨가하여 인식률을 저하시키지 않으면서 응답시간을 단축시키는데 적당하도록한 격리단어 인식방법에 관한 것이다.
일반적인 단어 인식 알고리즘에 있어서는 입력패턴과 기준패턴을 DTW(Dynamic Time Warping)를 이용해서 유사도를 계산하여 유사도가 가장 큰 패턴으로 입력 문자를 인식하는바, DWP는 계산량이 많아 기준 패턴수(인식하고자 하는 단어수)의 증가에 따라 응답시간이 매우 길어지게 되므로 실시간 처리가 곤란하게 된다.
이를 해결하기 위한 수단으로 VQ(Vector Quantizer)를 이용하는 방법이 제안되었는바, 이는 M개의 벡터에서 대표적인 N개(<M)의 백터를 양자화 하는 방법으로써 이때 양자화된 N개의 벡터를 VQ코드북 벡터라 하며, 여기서 기준패턴 R=r1 r2 …rn(M은 기준패턴의 퓨처 벡터의 프레임수)로 표현되고, 이 양자화된 패턴 R'=Ck1 1Ck2 2Ck3 3… Ckm m(Ckj j는 rj에 대응하는 VQ코드북)로 표현된다.
시간 감축을 위해서 기준패턴을 R기준패턴으로 DTW하여 인식하지 않고, R' 패턴으로 입력 데이타와의 유사도를 계산하며, 유사도는 다음의 식에 의하여 간단히 구해진다.
Dj=[MIN(Ii,Cj k)] … (식1)(여기서 MIN은 Ii,Cj k퓨처 백터간의 거리가 모든 k에 대하여 가장 적은 값을 의미한다)
여기서 L은 입력패턴의 프레임수, Ii는 i번째 프레임의 퓨처 벡터를, Cj k는 j기준패턴의 k번째 코드북 벡터를, Dj는 입력(I)과 j기준패턴과의 유사도를 측정하는 값으로 이 값이 작으면 유사도는 크게된다.
따라서 모든 기준패턴에 대하여 Dj를 구하고, 여기서 가장 작은값을 나타내는 Jn을 찾으면 이때 jn이 인식된 단위가된다.
이와같은 VQ 시스템을 이용할 경우 계산시간은 단축되지만 시간축 정렬을 하지 않아 인식률이 떨어지게 되는데, 예를들어 기준패턴이 R'이고, 입력이 I라하며, R'=C1C2C3C4C5I=I1I2I3I4I5라 할때, R'와 I가 상기와 같이 5프레임으로 구성되어지고, I1과 거리가 가장작은 R'의 벡터 C5, I2에 대해서는 C4, I3에 대해서는 C2,I4에 대해서는 C2, I5에 대해서는 C1이라고 하면, 상기 (식1)의 D는 매우 작게되지만 시간적 배열은 완전히 반대로 되고, 이때 D만으로 인식하면 이러한 시간적 불일치 배열에 의해 오인식이 발생된다.
이와같이 VQ방법은 DWP에서 가장 오랜 계산시간을 요하는 시간축 정렬을 하지않고, 단순히 VQ 코드북 벡터와 입력을 비교하여 계산시간은 감소시킬 수 있게 되나 인식률이 떨어지게되는 결함이 있었다.
본 발명은 종래에서 시간적 검열을 하지않아 발생되는 결함을 해결하기 위하여 코드북 벡터의 통계적 특성을 이용해서 시간적 정보를 추가하여 인식오류를 감소시킬 수 있게 창안한 것으로 이를 첨부한 도면에 의하여 상세히 설명한다.
제1도는 본 발명의 격리단어 인식방법이 적용되는 음성인식 블록도로서 이에 도시한 바와같이, 마이크(MIC)를 통해 입력되는 음성신호중에서 원하는 주파수대의 음성신호만을 선별적으로 통과시키는 인터페이스부(1)와, 상기 인터페이스부(1)로부터 공급되는 아날로그신호를 디지탈 신호로 변환하는 아날로그(A)/디지탈(D) 변환기(2)와, 상기 A/D변환기(2)의 출력신호를 공급받아 음성부분에 대한 특징을 추출하는 디에스피 집적소자(3)와, 상기 디에스피 집적소자(3)에 출력되는 어드레스를 디코딩하는 어드레스 디코더(4)와, 기준 벡터를 저장하는 기준패턴 롬(6)과, 입력 특징벡터 및 중간과정에서 획득된 결과 정보를 저장하는 기준패턴 램(7)과, 격리단어 인식 프로그램이 내장된 프로그램 롬(8)을 비롯하여 본 시스템에 의하여 인식된 정보를 이용하기 위한 I/O 디코더(9) 및 음성인식 정보 이용 장치(10)로 구성한 것으로, 이와같이 구성한 본 발명을 본 발명의 신호 흐름도인 제2도를 참조하여 상세히 설명하면 다음과 같다.
기준벡터 R'는 코드북 벡터(Code Book Vector)의 열로서 구성되고, 기준패턴 R'의 시간적 정보는 P(Ck, n/N)로 나타내는데, 여기서 P(Ck, n/N)는 코드북 벡터 Ck가 전체 길이 N에서 n번째 나타날 확률을 뜻하며, 이 확률값을 이용하여 계산시간도 감축하면서 시간축상의 정보도 포함시킬 수 있다.
즉, 기준패턴 R'과 입력 I와의 거리 D는 다음과 같이 구한다.
D=[MIN(Ii,Cj k)]+α(log P(Cn,i/L)
여기서, Cn은 MIN(Ii, Ck)에 되게 하는 Ck이며, α는 비례상수로서 이는 실험결과로 구할 수 있다. j기준 패턴과 입력과의 거리를 유사도 측정값 Dj라 할때 인식결과는 jn이 되며, 그 jn=arg MIN [Dj]로 표현되고, 여기서 arg MIN은 Dj가 최소가 되는값을 뜻한다.
마이크(MIC)를 통해 공급되는 음성신호는 인터페이스부(1) 및 A/D변환기(2)를 통하면서 소정의 차단주파수(4.7㎑)를 갖는 필터에 의해 일정 주파수(10㎑)로 샘플링됨과 아울러 디지탈신호로 변환된후, 디에스 피 집적소자(3)에 공급되어 음성인식이 처리되는데, 이하 이 과정을 설명한다.
먼저, 입력데이타는 음성과 묵음으로 분류한다음 음성부분에 대해서만 특징을 추출하게 되며, 이렇게 추출된 특징 벡터와 기준벡터 롬(6)에 내장된 음성기준 패턴으로부터 유사도 측정값 Dj를 계산하게 된다.
유사도 측정값 Dj를 모든 j에 대해서 구하되, 최소가되는 값과 그대의 j값을 구하고, 이렇게 Dj를 최소로 하는 j값을 음성을 이용하는 디바이스(10)에 전달한다.
이상에서 상세히 설명한 바와 같이 본 발명은 코드북 벡터의 통계적 특성을 이용해서 시간적 정보를 추가하여 시간적 불일치된 배여로 인한 인식오류를 감소시킬 수 있는 잇점이 있다.

Claims (2)

  1. 마이크(MIC)를 통해 입력된 음성신호를 필터 및 A/D변환기(2)를 통해 샘플링한후, 음성과 묵음중에서 음성부분에 대하여 특징 벡터를 추출하고, 상기 특징벡터와 기 설정된 기준벡터로부터 기준패턴수(j) 만큼의 유사도 측정값(Dj)을 구하여 이중에서 최소가 되는값과 그때의 기준패턴수를 구하여 코드북 데이타의 통계적 특성을 구하는 것을 특징으로 하는 격리단어 인식방법.
  2. 제1항에 있어서,로 유사도 측정값(Dj)을 구하는 것을 특징으로 하는 격리단어 인식방법.
KR1019910020182A 1991-11-13 1991-11-13 격리단어 인식방법 KR940002852B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019910020182A KR940002852B1 (ko) 1991-11-13 1991-11-13 격리단어 인식방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019910020182A KR940002852B1 (ko) 1991-11-13 1991-11-13 격리단어 인식방법

Publications (2)

Publication Number Publication Date
KR930010848A KR930010848A (ko) 1993-06-23
KR940002852B1 true KR940002852B1 (ko) 1994-04-04

Family

ID=19322778

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019910020182A KR940002852B1 (ko) 1991-11-13 1991-11-13 격리단어 인식방법

Country Status (1)

Country Link
KR (1) KR940002852B1 (ko)

Also Published As

Publication number Publication date
KR930010848A (ko) 1993-06-23

Similar Documents

Publication Publication Date Title
US10109271B2 (en) Frame erasure concealment technique for a bitstream-based feature extractor
US5305421A (en) Low bit rate speech coding system and compression
KR100316077B1 (ko) 분산형음성인식시스템
EP1159736B1 (en) Distributed voice recognition system
US5649056A (en) Speech recognition system and method which permits a speaker&#39;s utterance to be recognized using a hidden markov model with subsequent calculation reduction
TW514867B (en) Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
EP0140777A1 (en) Process for encoding speech and an apparatus for carrying out the process
JPS6466698A (en) Voice recognition equipment
KR890002816A (ko) 저렴한 음성 인식 시스템 및 방법
RU2466468C1 (ru) Система и способ распознавания речи
JP2004523788A (ja) 音声認識モデルの効率的な記憶のためのシステムおよび方法
JPS5870299A (ja) 音声信号の判定法及び解析装置
CN113744722A (zh) 一种用于有限句库的离线语音识别匹配装置与方法
CN110570842B (zh) 基于音素近似度和发音标准度的语音识别方法及系统
Kuhn et al. Improvements in isolated word recognition
CN111724809A (zh) 一种基于变分自编码器的声码器实现方法及装置
JP2003036097A (ja) 情報検出装置及び方法、並びに情報検索装置及び方法
US6792405B2 (en) Bitstream-based feature extraction method for a front-end speech recognizer
KR940002852B1 (ko) 격리단어 인식방법
Hirata et al. A lOObit/s speech coding using a speech recognition technique.
Spanias et al. Speech coding and speech recognition technologies: a review
US6044147A (en) Telecommunications system
KR930011739B1 (ko) 초성 프리매칭의 2단매칭을 이용한 음성 인식방법
JPH0414813B2 (ko)
KR100322730B1 (ko) 화자적응방법

Legal Events

Date Code Title Description
A201 Request for examination
G160 Decision to publish patent application
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20010314

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee