KR100393196B1 - 음성인식장치및방법 - Google Patents

음성인식장치및방법 Download PDF

Info

Publication number
KR100393196B1
KR100393196B1 KR1019960047781A KR19960047781A KR100393196B1 KR 100393196 B1 KR100393196 B1 KR 100393196B1 KR 1019960047781 A KR1019960047781 A KR 1019960047781A KR 19960047781 A KR19960047781 A KR 19960047781A KR 100393196 B1 KR100393196 B1 KR 100393196B1
Authority
KR
South Korea
Prior art keywords
phase
spectrum
voice
pattern
speech
Prior art date
Application number
KR1019960047781A
Other languages
English (en)
Other versions
KR19980028644A (ko
Inventor
공병구
김상룡
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1019960047781A priority Critical patent/KR100393196B1/ko
Publication of KR19980028644A publication Critical patent/KR19980028644A/ko
Application granted granted Critical
Publication of KR100393196B1 publication Critical patent/KR100393196B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Telephonic Communication Services (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

위상 정보를 이용하여 음성 인식을 수행하는 장치 및 방법이 개시되어 있다. 본 발명에 따른 음성 인식 장치에서 샘플링된 아날로그 음성 신호는 아날로그 디지탈 컨버터에 의하여 디지탈 신호로 변환된 후 스펙트럼 분석기 및 위상 분석기로 인가된다. 스펙트럼 분석기 및 위상 분석기는 디지탈 음성 신호로부터 스펙트럼 분석 및 위상 분석을 수행하여 각각 스펙트럼 패턴 및 위상 패턴을 발생한다. 서로 다르게 인식되고자 하는 음성 신호들에 대한 스펙트럼 패턴들은 스펙트럼형 템플리트/모델에 저장되어 있으며, 위상 패턴들은 동일 스펙트럼을 가지는 것들끼리 그룹별로 분류되어 위상형 템플리트/모델에 저장되어 있다. 제1 패턴 매칭부는 스펙트럼형 템플리트/모델에 저장되어 있는 스펙트럼 패턴들중 스펙트럼 분석기의 출력에 일치하는 것에 대응되는 음성 데이타를 제1 음성 인식 데이타로서 출력하여 이를 제2 패턴 매칭부로 인가된다. 제2 패턴 매칭부는 제1 음성 인식 데이타에 따라 위상형 템플리트/모델의 각 그룹중 어느 한 그룹을 선택하여, 선택된 그룹에 속하는 위상 패턴들중 위상 분석기의 출력과 일치하는 것에 대응되어 저장되어 있는 음성 데이타를 최종 인식 결과인 제2 음성 인식 데이타로서 출력한다. 이와 같은 음성 인식 장치는 잡음 환경에서도 변별력을 가지며, 자연어를 원활히 인식할 수 있는 장점이 있다.

Description

음성 인식 장치 및 방법
본 발명은 음성 인식 장치 및 방법에 관한 것으로, 특히 음성 신호에 대한 식별 능력이 높은 음성 인식 장치 및 방법에 관한 것이다.
도 1을 참조하면, 종래 기술에 따른 음성 인식 장치는 아날로그 디지탈 컨버터(110), 스펙트럼 분석기(120), 패턴 매칭부(140), 스펙트럼형 템플리트/모델(130)을 구비한다. 아날로그 디지탈 컨버터(110)는 샘플링된 아날로그 형태의 음성 신호를 디지탈 신호로 변환하여 출력한다. 디지탈 음성 신호는 스펙트럼 분석기(120)에서 분석되어 그 안에 포함된 스펙트럼 정보에 근거하여 스펙트럼 패턴이 발생된다. 스펙트럼형 템플리트/모델(130)은 서로 다르게 구별되어야 할 각 음성 신호들에 대한 스펙트럼 패턴들을 저장하고 있다. 패턴 매칭부(140)는 스펙트럼형 템플리트/모델(130)에 저장되어 있는 스펙트럼 패턴들중에서 스펙트럼 분석기(120)로부터 출력되는 스펙트럼 패턴과 일치하는 스펙트럼 패턴에 대응되는 음성 데이타를 인식 결과로서 출력한다. 이와 같은 음성 인식 장치는 스펙트럼 분석 결과만을 이용하여 음성 인식을 수행하기 때문에 주파수 형태가 완연히 다른 음성 신호들을 구분하는 경우에는 그 기능을 충분히 달성할 수 있으나, 서로 다르게 인식되어야 할 음성 신호가 주파수 형태가 비슷한 경우에는 이를 구별하지 못하여 인식률을 향상시킬 수 없는 문제점이 있다. 즉, 도 2a 및 도 2b에서 도시한 바와 같이, 스펙트럼 형태가 큰 차이를 보이는 경우에는 단순히 스펙트럼 크기 정보만으로 도 2a 및 도 2b에 대응되는 서로 다른 2개의 음성 신호들을 구별하는 것이 가능하다. 반면에, 도 2c 및 도 2d에 도시한 바와 같이, 서로 다르게 인식되어야 하지만 주파수의 형태가 비슷한 음성 신호는 스펙트럼 정보만으로 구별하는 데에는 한계가 있다. 예를 들면, "오" 및 "우"는 서로 비슷한 주파수 형태를 가지기 때문에 단순히 스펙트럼 정보만으로 이들을 구별하여 인식하는 것은 어려운 점이 있다. 더욱이, 음성 신호가 단일의 음성원이 아니라 다양한 음성원으로부터 발생된 음성을 분석하여 음성 인식을 수행하는 경우(즉, 한 사람의 음성이 아니라 여러 사람의 음성을 분석하여 음성 인식을 수행하는 경우)에는, 서로 구별되어야 할 음성 신호의 스펙트럼 크기 정보의 구별성이 떨어지기 때문에, 스펙트럼 정보만으로 음성 신호를 구별하는 것이 더욱 어렵게 된다. 또한, 인식되어야 할 음성 신호가 고립어가 아니라 완전한 발음 형태를 갖지 못하는 자연음인 경우에도 스펙트럼 크기 정보의 구별성이 모호해지기 때문에 스펙트럼 크기 정보만으로 음성 인식을 수행하는 것이 불가능하게 되는 문제점이 있다.
따라서, 본 발명의 목적은 다양한 음성원으로부터 발생된 음성 신호인 경우에도 인식률이 떨어지지 않는 음성 인식 장치 및 방법을 제공하는 것이다.
본 발명의 또 다른 목적은 고립어가 아닌 자연음인 경우에도 인식률이 높은 음성 인식 장치 및 방법을 제공하는 것이다.
도 1은 종래 기술에 따른 음성 인식 장치의 블럭도이다.
도 2a 내지 도 2d는 음성 인식의 특성을 설명하기 위한 도면들이다.
도 3은 본 발명에 따른 음성 인식 장치의 블럭도이다.
도 4는 도 3에서 스펙트럼 분석기(120) 및 위상 분석기(310)의 구체적인 블럭도를 나타낸 도면이다.
도 5a 및 도 5b는 서로 다르게 인식되어야 할 음성 신호들이 주파수 크기 형태가 비슷하게 나타나고 있음을 나타내는 그래프들이고, 도 5c는 주파수 크기 형태가 같은 경우일지라도 그들의 표준화된 위상 크기의 형태는 다르게 나타남을 보여주는 그래프들이다.
<도면의 주요 부분에 대한 부호의 설명>
110...아날로그 디지탈 컨버터 120...스펙트럼 분석기
130...스펙트럼형 템플리트/모델 140...패턴 매칭부
310...위상 분석기 320...위상형 템플리트/모델
330...패턴 매칭부
상기한 목적들을 달성하기 위하여, 본 발명에 의한 음성 인식 장치는 아날로그 디지탈 컨버터, 스펙트럼 분석기, 위상 분석기, 스펙트럼형 템플리트/모델, 위상형 템플리트/모델, 제1 패턴 매칭부 및 제2 패턴 매칭부를 구비한다. 샘플링된아날로그 음성 신호는 아날로그 디지탈 컨버터에 의하여 디지탈 신호로 변환된 후 스펙트럼 분석기 및 위상 분석기로 인가된다. 스펙트럼 분석기 및 위상 분석기는 디지탈 음성 신호로부터 스펙트럼 분석 및 위상 분석을 수행하여 각각 스펙트럼 패턴 및 위상 패턴을 발생한다. 서로 다르게 인식되고자 하는 음성 신호들에 대한 스펙트럼 패턴들은 스펙트럼형 템플리트/모델에 저장되어 있으며, 위상 패턴들은 동일 스펙트럼을 가지는 것들끼리 그룹별로 분류되어 위상형 템플리트/모델에 저장되어 있다. 제1 패턴 매칭부는 스펙트럼형 템플리트/모델에 저장되어 있는 스펙트럼 패턴들중 스펙트럼 분석기의 출력에 일치하는 것에 대응되는 음성 데이타를 제1 음성 인식 데이타로서 출력하여 이를 제2 패턴 매칭부로 인가된다. 제2 패턴 매칭부는 제1 음성 인식 데이타에 따라 위상형 템플리트/모델의 각 그룹중 어느 한 그룹을 선택하여, 선택된 그룹에 속하는 위상 패턴들중 위상 분석기의 출력과 일치하는 것에 대응되어 저장되어 있는 음성 데이타를 최종 인식 결과인 제2 음성 인식 데이타로서 출력한다.
스펙트럼 분석기는 아날로그 디지탈 변환기의 출력을 고속 푸리에 변환하는 고속 푸리에 변환기(FFT); 및 고속 푸리에 변환기의 출력에서 스펙트럼을 추출하여 스펙트럼 패턴을 출력하는 스펙트럼 추출기를 구비한다.
위상 분석기는 아날로그 디지탈 변환기의 출력을 고속 푸리에 변환하는 고속 푸리에 변환기(FFT); 및 고속 푸리에 변환기의 출력으로부터 위상 정보를 추출하여 위상 패턴을 출력하는 위상 추출기를 구비한다.
제1 및 제2 패턴 매칭부는 은닉 마코브 모델 알고리즘(Hidden Markov ModelAlgorithm)을 수행하거나 다이내믹 시간 왜곡 알고리즘(Dynamic Time Warping Algorithm)을 수행한다.
상기한 목적들을 달성하기 위하여 본 발명에 의한 음성 인식 방법은 샘플링된 아날로그 형태의 음성 신호를 디지탈 신호로 변환시키는 제1 단계; 디지탈로 변환된 음성 신호에 대하여 스펙트럼 분석을 수행하여 스펙트럼 패턴을 발생하는 제2 단계; 디지탈로 변환된 음성 신호에 대하여 위상 분석을 수행하여 위상 패턴을 발생하는 제3 단계; 서로 다르게 인식되어야 할 음성 신호들에 대한 스펙트럼 패턴들중에서 제2 단계에서 얻어진 스펙트럼 패턴과 일치하는 것에 대응되는 음성 데이타를 제1 음성 인식 데이타로서 발생하는 제4단계; 및 서로 다르게 인식되어야 할 음성 신호들에 대한 위상 패턴들중에서 어느 한 그룹을 제1 음성 인식 데이타에 따라 선택하고, 선택된 그룹에 속하는 위상 패턴들중 제3단계에서 발생된 위상 패턴과 일치하는 것에 대응되는 음성 데이타를 제2 음성 인식 데이타로서 발생하는 제5단계를 구비한다.
제2 단계는 디지탈 음성 신호를 고속 푸리에 변환하고 이에 대하여 스펙트럼을 추출하여 스펙트럼 패턴을 발생한다. 제3 단계는 디지탈 음성 신호를 고속 푸리에 변환하고 이에 대하여 위상 정보를 추출하여 위상 패턴을 발생한다.
제4 및 제5 단계는 은닉 마코브 모델 알고리즘(Hidden Markov Model Algorithm)에 의하여 이루어지거나, 다이내믹 시간 왜곡 알고리즘(Dynamic Time Warping Algorithm)에 의하여 수행된다.
이어서, 첨부한 도면들을 참조하여 본 발명의 바람직한 실시예들을 상세히설명하기로 한다.
도 3은 본 발명에 의한 음성 인식 장치를 나타낸 블럭도로서, 아날로그 디지탈 컨버터(110), 스펙트럼 분석기(120), 위상 분석기(310), 스펙트럼형 템플리트/모델(130), 위상형 템플리트/모델(320), 패턴 매칭부(140) 및 패턴 매칭부(330)를 포함하여 구성되어 있다.
아날로그 디지탈 컨버터(110)는 샘플링된 음성 신호를 디지탈 신호로 변환하여 출력한다. 아날로그 디지탈 컨버터(110)로부터 출력되는 디지탈 음성 신호(DV)은 스펙트럼 분석기(120) 및 위상 분석기(310)로 인가된다. 스펙트럼 분석기(120)는 디지탈 음성 신호(DV)에 대하여 스펙트럼 분석을 수행하여 그 안에 포함되어 있는 스펙트럼 정보를 추출하여 그에 따라 스펙트럼 패턴(SI)을 출력한다.
위상 분석기(310)는 디지탈 음성 신호(DV)에 대하여 위상 분석을 수행하여 그 안에 포함되어 있는 위상 정보를 추출하여 그에 따른 위상 패턴(PI)을 출력한다. 위상 정보에는 개인차를 나타내는 성문, 즉 조음 기관이 사람마다 크기, 길이 등이 다르게 때문에 나타나는 특성과 특징적인 소리의 고유 위상을 나타내는 성문으로 구성된다. 따라서, 음성 인식 장치가 화자를 인식할 수 있도록 하는 경우에는 개인차를 나타내는 성문에 따른 위상 패턴을 발생하고, 음성 인식 장치가 단순한 음의 구별을 위한 것일 경우에는 음의 고유 위상 성문에 따른 위상 패턴을 발생하도록 한다.
스펙트럼형 템플리트/모델(130)에는 서로 다르게 인식되어야 할 각 음성 신호들에 대한 스펙트럼 패턴들이 저장되어 있다. 패턴 매칭부(140)는 스펙트럼형 템플리트/모델(130)에 저장되어 있는 스펙트럼 패턴들중에서 스펙트럼 분석기(120)로부터 출력되는 스펙트럼 패턴(SI)과 일치하는 스펙트럼 패턴을 찾아내어 그에 대응되는 음성 데이타를 제1 음성 인식 데이타로서 출력한다. 위상형 템플리트/모델(320)에는 서로 다르게 인식되어야 할 음성 신호들에 대한 위상 패턴들이 저장되어 있는데, 각 위상 패턴들은 동일 스펙트럼을 가지는 것들끼리 그룹별로 분류되어 저장되어 있다. 패턴 매칭부(330)는 패턴 매칭부(140)로부터 출력되는 제1 음성 인식 데이타에 근거하여 위상형 템플리트/모델(320)의 각 그룹중 어느 한 그룹을 선택한다. 그런 다음, 선택된 그룹에 속하는 위상 패턴들중에서 위상 분석기(310)로부터 출력되는 위상 패턴과 일치하는 것을 찾아내고 그에 대응되는 음성 데이타를 제2 음성 인식 데이타로서 출력된다. 여기서, 제2 음성 인식 데이타가 본 발명에 따른 음성 인식 장치의 인식 결과가 된다.
스펙트럼형 템플리트/모델(130) 및 위상형 템플리트/모델(320)에 저장되는 스펙트럼 패턴 및 위상 패턴들은 일정 길이를 가지며 서로 다르게 인식되어야 하는 음성 신호들로부터 얻도록 한다. 또한, 화자 인식이 아닌 음의 인식률을 높이기 위한 경우에는 다양한 음성원으로부터 취득된 음성 신호를 분석하여 스펙트럼 패턴 및 위상 패턴들을 만들고 이를 평균하여 저장함으로써 화자에 개인차에 따른 위상 정보의 변동분을 고려할 필요가 있다.
여기서, 위상 분석기(310)로부터 출력되는 위상 패턴(PI)이 화자 인식을 위한 개인차를 나타내는 성문에 관련된 정보만을 포함하고 있는 경우에는 패턴 매칭부(140)에서 스펙트럼 패턴을 이용하여 음성 인식을 수행하게 되고 패턴매칭부(330)에서 위상 패턴에 따른 화자 인식을 수행하게 된다.
한편, 위상 분석기(310)로부터 출력되는 위상 패턴(PI)이 음성 인식률을 높이기 위한 것으로 음의 고유의 위상 성문에 관련된 정보만을 포함하고 있는 경우에는 패턴 매칭부(140)에서 개략적인 음성 인식이 수행되고 패턴 매칭부(330)에서 보다 세밀한 음성 인식이 수행된다. "오"와 "우"를 예를 들어 설명하면, 이들은 거의 비슷한 주파수 크기 형태를 가지는 것으로 같은 그룹으로 분류할 수 있다. 이 경우, 패턴 매칭부(140)에서는 이들이 속하는 그룹을 인식하게 되고, 패턴 매칭부(330)에서는 위상 분석기(310)로부터 발생되는 위상 패턴(PI)에 근거하여 "오"인지 "우"인지 등을 판별하게 된다. 또한, 스펙트럼형 템플리트/모델(130)에는 "오"와 "우"가 가지는 공통적인 스펙트럼 패턴과 "오"와 "우"가 속하는 그룹이 대응되어 저장되며, 위상형 템플리트/모델(320)에는 "오"에 대한 위상 패턴이 "오"라는 음성 데이타에 대응되어 저장되고, "우"에 대한 위상 패턴이 "우"라는 음성 데이타에 대응되어 저장된다. 그리하여, 패턴 매칭부(330)에서는 위상 분석기(310)로부터 출력되는 위상 패턴이 "오"에 대응되는 위상 패턴과 일치하는 경우에는 "오"를 출력하게 되고, "우"에 대응되는 위상 패턴과 일치하는 경우에는 "우"를 출력하게 된다. 도 5a 및 도 5b에서 도시된 바와 같이, 유사한 스펙트럼 정보를 가지는 음성 신호들을 동일한 그룹으로 분류하고, 대표적인 스펙트럼 패턴이 그룹 정보와 함께 스펙트럼형 템플리트/모델(130)에 저장되는 것이다. 도 5c는 동일 그룹에 속하는 음성 신호들이라도 그들의 위상 정보가 다름을 나타내는 그래프이다. 즉, 스펙트럼 패턴만으로는 충분히 식별할 수 없던 음성 신호들이라도 위상 패턴을 이용하는 경우에는 충분히 식별이 가능하게 됨을 알 수 있다.
다른 경우로는, 위상 분석기(310)에서 화자 인식을 위하여 개인차를 나타내는 성문 및 세밀한 음성 인식을 위한 음의 고유 위상 성문 등 2 이상의 위상 정보에 근거하여 위상 패턴을 발생하도록 할 수 있다. 이와 같은 경우에, 위상 패턴은 디지탈 데이타의 형태를 가지는 것으로 비트 포맷중 일정 비트들은 개인차 성문에 관한 정보를 나타내도록 하고 나머지 비트들은 음의 고유 위상 성문에 관한 정보를 나타내도록 한다. 이 경우, 그에 맞추어 위상형 템플리트/모델(320)을 구성하게 된다. 예를 들면, 위상형 템플리트/모델(320)은 동일 스펙트럼을 가지는 음성 신호들에 대한 위상 패턴이 동일 그룹으로 분류되어 저장되어 있는 부분과, 개인차를 나타내는 성문에 대한 위상 패턴이 저장되어 있는 부분으로 나누어질 수 있다. 좀 더 구체적으로 말하면, 위상 분석기(310)에서 발생되는 N비트의 위상 패턴중 K비트가 음의 고유 성문을 나타내는 정보이고 나머지 N-K 비트가 개인차를 나타내는 성문 정보인 경우에, 위상형 템플리트/모델(320)은 음성 신호들의 K비트 위상 패턴들을 동일 스펙트럼 패턴을 가지는 것들끼리 그룹별로 분류하여 저장을 저장하는 부분과, 개인차를 나타내는 성문에 따른 N-K비트의 위상 패턴을 저장하는 부분들로 구성될 수 있다. 이 경우, 패턴 매칭부(330)는 K비트의 위상 패턴, N-K비트의 위상 패턴에 대하여 그 알고리즘을 병렬로 수행하게 된다. 따라서, 인식 결과에는 인식된 음에 대한 정보뿐만 아니라 화자에 대한 정보도 포함되게 된다.
스펙트럼형 템플리트/모델(130) 및 위상형 템플리트/모델(320)에 저장되는 스펙트럼 패턴들 및 위상 패턴들은 실질적으로 많은 사람들이 발음하도록 함으로써취득된 음성 신호에 대하여 분석을 수행하여 스펙트럼 패턴 및 위상 패턴을 만들어 저장할 필요가 있다.
위상 패턴은 위상 정보 중 특정 주파수의 위상 값이 0이 되도록 표준화(normalization)를 수행하고, 다른 주파수는 표준화 계수를 적용하여 얻을 수 있다.
패턴 매칭부(140) 및 패턴 매칭부(330)는 각각 일치되는 스펙트럼 패턴 및 위상 패턴을 추출하는 것으로, 은닉 마코브 모델 알고리즘(Hidden Markov Model Algorithm)을 수행하거나 다이내믹 시간 왜곡 알고리즘(Dynamic Time Warping Algorithm)을 수행한다.
도 4는 도 3에 도시된 위상 분석기(310) 및 스펙트럼 분석기(120)의 구체적인 블럭도를 나타낸 것으로, 아날로그 디지탈 컨버터(110)로부터 출력되는 디지탈 음성 신호는 고속 푸리에 변환기(FFT; Fast Fourier Transform)(410)에서 변환된 후 각각 스펙트럼 정보 추출기(420) 및 위상 정보 추출기(430)로 인가된다.
본 발명에 의한 음성 인식 방법은 먼저, 샘플링된 아날로그 형태의 음성 신호를 디지탈 신호로 변환시킨다. 그런 다음, 디지탈로 변환된 음성 신호에 대하여 스펙트럼 분석 및 위상 분석을 수행하여 스펙트럼 패턴 및 위상 패턴을 발생시킨다. 이와 같이 발생된 스펙트럼 패턴 및 위상 패턴을 이용하여 인식을 수행하게 된다. 1차 인식은 스펙트럼 패턴을 이용하는데, 서로 구별되어야 할 음성 신호들에 대한 스펙트럼 패턴들이 미리 저장되어 있으며, 미리 저장되어 있는 스펙트럼 패턴들중 일치되는 것에 대응되는 음성 데이타를 제1 음성 인식 데이타로 발생한다. 그런 다음, 제1 음성 인식 데이타 및 위상 분석에 의하여 발생된 위상 패턴을 이용하여 2차 인식을 수행하게 된다. 2차 인식에서는 제1 음성 인식 데이타에 따라 그룹을 판별하고, 그 그룹에 속하는 위상 패턴들중 일치하는 것에 대응되는 음성 데이타를 제2 음성 인식 데이타로 출력하게 된다. 여기서, 제2 음성 인식 데이타가 최종 인식 결과가 된다. 스펙트럼 패턴 및 위상 패턴을 발생하는 단계에서는 디지탈 음성 신호를 고속 푸리에 변환하고 이에 대하여 스펙트럼 및 위상 정보를 추출하여 그에 따라 스펙트럼 패턴 및 위상 패턴을 발생한다. 1차 인식 및 2차 인식에서는 각각 은닉 마코브 모델 알고리즘(Hidden Markov Model Algorithm) 또는 다이내믹 시간 왜곡 알고리즘(Dynamic Time Warping Algorithm)을 사용하여 인식을 수행하도록 한다.
본 발명은 상기 실시예에 한정되지 않으며, 많은 변형이 본 발명의 사상 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 가능함은 물론이다.
이상에서 설명한 바와 같이 본 발명은 다양한 잡음이 발생하는 실제 환경에서 취득되는 자연음에 대해서도 명확하게 인식을 수행할 수 있다. 즉, 종래 기술에 따른 음성 인식 장치는 실험실과 같이 비교적 조용한 환경에서 명확하게 분리된 발음에 대하여만 음성 인식을 수행할 수 있고, 실제 인식 환경이 주는 잡음 상황, 자연스러운 발성 등을 극복하지 못해 인식률이 급격히 저하되어 실용화 단계로 접어들지 못한 것임에 반하여, 본 발명에 따른 음성 인식 장치 및 방법은 잡음 환경에서도 변별력을 가지며, 충분한 음가를 이루는 특성이 지속되지 않고 음과 음 사이에 천이 과정이 더욱 두드러져, 다양한 운율(prosody) 특성을 가지는 자연어에서도 인식이 원활히 수행될 수 있다. 또한, 필요한 경우에는 위상 정보를 이용함으로써 음성 인식과 병행하여 화자 인식도 수행할 수 있게 되어 이를 채용하는 시스템의 성능을 향상시키게 된다.

Claims (14)

  1. 아날로그 형태의 음성 신호를 샘플링하여 디지탈 신호로 변환하는 아날로그 디지탈 컨버터;
    상기 변환된 디지탈 음성 신호를 입력받아 스펙트럼 분석을 수행하여 스펙트럼 패턴을 출력하는 스펙트럼 분석기;
    상기 변환된 디지탈 음성 신호 출력을 입력받아 개인의 특성에 따른 성문정보 또는 음성의 고유한 위상 성문정보를 나타내는 위상 패턴을 출력하는 위상 분석기;
    서로 다르게 인식되고자 하는 음성 신호들에 대한 스펙트럼 패턴들을 저장하고 있는 스펙트럼형 템플리트 모델 저장부;
    서로 다르게 인식되고자 하는 음성 신호들에 대한 위상 패턴들을 저장하고 있는 것으로, 각 위상 패턴들은 개인의 특성에 따른 성문정보와 음성의 고유한 위상 성문정보가 동일 스펙트럼을 가지는 것들끼리 하나의 그룹으로 분할되어 저장되어 있는 위상형 템플리트 모델 저장부;
    상기 스펙트럼 분석기의 출력을 상기 스펙트럼형 템플리트 모델 저장부에 저장되어 있는 스펙트럼 패턴들과 비교하여 일치하는 스펙트럼 패턴에 대응되어 저장되어 있는 음성 데이타를 제1 음성 인식 데이타로서 출력하는 제1 패턴 매칭부; 및
    상기 제1 음성 인식 데이타에 따라 상기 위상형 템플리트 모델 저장부의 각 그룹중 어느 한 그룹을 선택하여, 선택된 그룹 내에 속하는 위상 패턴들과 상기 위상 분석기의 출력을 비교하여 일치하는 위상 패턴에 대응되어 저장되어 있는 음성 데이타를 제2 음성 인식 데이타로서 출력하는 제2 패턴 매칭부를 구비하는 것을 특징으로 하는 음성 인식 장치.
  2. 제1항에 있어서, 상기 스펙트럼 분석기는
    상기 아날로그 디지탈 변환기의 출력을 고속 푸리에 변환하는 고속 푸리에 변환기(FFT); 및
    상기 고속 푸리에 변환기의 출력에서 스펙트럼을 추출하여 스펙트럼 패턴을 출력하는 스펙트럼 추출기를 구비하는 것을 특징으로 하는 음성 인식 장치.
  3. 제1항에 있어서, 상기 위상 분석기는
    상기 아날로그 디지탈 변환기의 출력을 고속 푸리에 변환하는 고속 푸리에 변환기(FFT); 및
    상기 고속 푸리에 변환기의 출력으로부터 위상 정보를 추출하여 위상 패턴을 출력하는 위상 추출기를 구비하는 것을 특징으로 하는 음성 인식 장치.
  4. 제1항에 있어서, 상기 제1 패턴 매칭부는 은닉 마코브 모델 알고리즘(Hidden Markov Model Algorithm)을 수행하는 것을 특징으로 하는 음성 인식 장치.
  5. 제1항에 있어서, 상기 제1 패턴 매칭부는 다이내믹 시간 왜곡알고리즘(Dynamic Time Warping Algorithm)을 수행하는 것을 특징으로 하는 음성 인식 장치.
  6. 제1항에 있어서, 상기 제2 패턴 매칭부는 은닉 마코브 모델 알고리즘(Hidden Markov Model Algorithm)을 수행하는 것을 특징으로 하는 음성 인식 장치.
  7. 제1항에 있어서, 상기 제2 패턴 매칭부는 다이내믹 시간 왜곡 알고리즘(Dynamic Time Warping Algorithm)을 수행하는 것을 특징으로 하는 음성 인식 장치.
  8. 샘플링된 아날로그 형태의 음성 신호를 디지탈 신호로 변환시키는 제1 단계;
    디지탈로 변환된 음성 신호에 대하여 스펙트럼 분석을 수행하여 스펙트럼 패턴을 발생하는 제2 단계;
    디지탈로 변환된 음성 신호를 입력받아 위상 분석을 수행하여 개인의 특성에 따른 성문정보 또는 음성의 고유한 위상 성분 정보를 나타내는 위상 패턴을 발생하는 제3 단계;
    서로 다르게 인식되어야 할 음성 신호들에 대한 스펙트럼 패턴들중에서 제2 단계에서 얻어진 스펙트럼 패턴과 일치하는 것에 대응되는 음성 데이타를 제1 음성 인식 데이타로서 발생하는 제4단계; 및
    서로 다르게 인식되어야 할 음성 신호들에 대해서 개인의 특성에 따른 성문정보와 음성의 고유한 위상 성문정보를 나타내는 위상 패턴들을 그룹화하여 저장하고 있는 데이타베이스에서 어느 한 그룹을 상기 제1 음성 인식 데이타에 따라 선택하고, 선택된 그룹에 속하는 위상 패턴들중 상기 제3단계에서 발생된 위상 패턴과 일치하는 것에 대응되는 음성 데이타를 제2 음성 인식 데이타로서 발생하는 제5단계를 구비하는 것을 특징으로 하는 음성 인식 방법.
  9. 제8항에 있어서, 상기 제2 단계는
    상기 디지탈 음성 신호를 고속 푸리에 변환하는 단계; 및
    상기 고속 푸리에 변환된 디지탈 음성 신호에서 스펙트럼을 추출하여 스펙트럼 패턴을 발생하는 단계를 구비하는 것을 특징으로 하는 음성 인식 방법.
  10. 제8항에 있어서, 상기 제3 단계는
    상기 디지탈 음성 신호를 고속 푸리에 변환하는 단계; 및
    상기 고속 푸리에 변환된 디지탈 음성 신호에서 위상 정보를 추출하여 위상 패턴을 발생하는 단계를 구비하는 것을 특징으로 하는 음성 인식 방법.
  11. 제8항에 있어서, 상기 제4 단계는 은닉 마코브 모델 알고리즘(Hidden Markov Model Algorithm)에 의하여 이루어지는 것을 특징으로 하는 음성 인식 방법.
  12. 제8항에 있어서, 상기 제4 단계는 다이내믹 시간 왜곡 알고리즘(DynamicTime Warping Algorithm)에 의하여 수행하는 것을 특징으로 하는 음성 인식 방법.
  13. 제8항에 있어서, 상기 제5 단계는 은닉 마코브 모델 알고리즘(Hidden Markov Model Algorithm)에 의하여 수행되는 것을 특징으로 하는 음성 인식 방법.
  14. 제8항에 있어서, 상기 제5 단계는 다이내믹 시간 왜곡 알고리즘(Dynamic Time Warping Algorithm)에 의하여 수행되는 것을 특징으로 하는 음성 인식 방법.
KR1019960047781A 1996-10-23 1996-10-23 음성인식장치및방법 KR100393196B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019960047781A KR100393196B1 (ko) 1996-10-23 1996-10-23 음성인식장치및방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960047781A KR100393196B1 (ko) 1996-10-23 1996-10-23 음성인식장치및방법

Publications (2)

Publication Number Publication Date
KR19980028644A KR19980028644A (ko) 1998-07-15
KR100393196B1 true KR100393196B1 (ko) 2004-01-28

Family

ID=37422006

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960047781A KR100393196B1 (ko) 1996-10-23 1996-10-23 음성인식장치및방법

Country Status (1)

Country Link
KR (1) KR100393196B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05165492A (ja) * 1991-12-12 1993-07-02 Hitachi Ltd 音声認識装置
JPH0641557A (ja) * 1992-03-17 1994-02-15 Televerket 音声合成のための方法および装置
JPH0756591A (ja) * 1993-08-19 1995-03-03 Sony Corp 音声合成装置、音声合成方法及び記録媒体
JPH0844390A (ja) * 1994-07-26 1996-02-16 Matsushita Electric Ind Co Ltd 音声認識装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05165492A (ja) * 1991-12-12 1993-07-02 Hitachi Ltd 音声認識装置
JPH0641557A (ja) * 1992-03-17 1994-02-15 Televerket 音声合成のための方法および装置
JPH0756591A (ja) * 1993-08-19 1995-03-03 Sony Corp 音声合成装置、音声合成方法及び記録媒体
JPH0844390A (ja) * 1994-07-26 1996-02-16 Matsushita Electric Ind Co Ltd 音声認識装置

Also Published As

Publication number Publication date
KR19980028644A (ko) 1998-07-15

Similar Documents

Publication Publication Date Title
US5873062A (en) User independent, real-time speech recognition system and method
Vergin et al. Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition
CN1167045C (zh) 语音识别的方法和装置
US5528725A (en) Method and apparatus for recognizing speech by using wavelet transform and transient response therefrom
WO2014145960A2 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
JP4811993B2 (ja) 音声処理装置、およびプログラム
Cherif et al. Pitch detection and formant analysis of Arabic speech processing
KR20080018658A (ko) 사용자 선택구간에 대한 음성비교 시스템
Kumar et al. Text dependent voice recognition system using MFCC and VQ for security applications
Hasija et al. Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier
KR100393196B1 (ko) 음성인식장치및방법
EP1286329B1 (en) Method and system for phonetic recognition
KR100391123B1 (ko) 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템
JPH07191696A (ja) 音声認識装置
EP0886854B1 (en) User independent, real-time speech recognition system and method
CN111681674A (zh) 一种基于朴素贝叶斯模型的乐器种类识别方法和系统
KR0173204B1 (ko) 한국어 변이음 집단화 수형도를 이용한 변이음 단위의 음성인식 방법
JPH04324499A (ja) 音声認識装置
KR100304665B1 (ko) 피치 웨이브 특성을 이용한 음성 인식 장치 및 그 방법
JPS63213899A (ja) 話者照合方式
Anggrayni et al. HMM-based speech synthesis system with expressive Indonesian speech corpus
KR100349341B1 (ko) 유사단어 및 문장 인식시의 인식율 개선 방법
JPH03120434A (ja) 音声認識装置
JPH03223799A (ja) 分離しているワード、特に非常に大きい語いの認識方法と装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080627

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee