KR19980068249A - 잡음 처리 기능을 갖춘 음성 인식 장치 및 음성 인식 방법 - Google Patents

잡음 처리 기능을 갖춘 음성 인식 장치 및 음성 인식 방법 Download PDF

Info

Publication number
KR19980068249A
KR19980068249A KR1019970004760A KR19970004760A KR19980068249A KR 19980068249 A KR19980068249 A KR 19980068249A KR 1019970004760 A KR1019970004760 A KR 1019970004760A KR 19970004760 A KR19970004760 A KR 19970004760A KR 19980068249 A KR19980068249 A KR 19980068249A
Authority
KR
South Korea
Prior art keywords
voice
signal
noise
noisy
digital signal
Prior art date
Application number
KR1019970004760A
Other languages
English (en)
Other versions
KR100468817B1 (ko
Inventor
공병구
김상룡
Original Assignee
김광호
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김광호, 삼성전자 주식회사 filed Critical 김광호
Priority to KR1019970004760A priority Critical patent/KR100468817B1/ko
Publication of KR19980068249A publication Critical patent/KR19980068249A/ko
Application granted granted Critical
Publication of KR100468817B1 publication Critical patent/KR100468817B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

본 발명은 잡음이 존재하는 일반 환경에서의 음성 인식 장치에 관한 것으로서, 잡음 환경에서 음성 신호가 포함된 잡음성 아날로그 신호를 입력받아, 소정의 음성을 인식하는 장치는 잡음성 아날로그 신호를 잡음성 디지털 신호로 변환하는 아날로그/디지털 변환기; 잡음성 디지털 신호를 음성 신호가 포함된 음성구간과 음성 신호가 포함되지 않은 비음성구간으로 분류하는 음성분류기; 음성분류기에서 분류된 비음성구간 중 최근 비음성구간의 디지털 신호에 의해 잡음 신호를 추정하는 잡음추정기; 음성분류기에서 분류된 음성구간의 디지털 신호에서 입력음성의 특징을 추출하는 특징추출기; 및 잡음이 없는 환경에서 생성된 소정의 참조패턴에 잡음추정기에 의해 추정된 잡음 신호를 더한 값에서 참조패턴의 특징을 추출하여 특징추출기에서 추출된 입력음성의 특징과 비교한 결과를 출력하는 패턴매칭기를 포함함을 특징으로 한다.
본 발명에 의하면, 종래의 기술에 비하여 다소 계산량은 증가하나, 잡음 수준이 높은 환경에서의 음성 인식률이 월등하게 향상된다.

Description

잡음 처리 기능을 갖춘 음성 인식 장치 및 음성 인식 방법
본 발명은 음성 인식 장치에 관한 것으로서, 잡음이 존재하는 일반 환경에서의 음성 인식 장치에 관한 것이다.
종래의 잡음 처리 기술은 잡음이 음성에 단순히 산술적으로 더해졌다는 것과 짧은 시간구간 동안의 잡음을 소정의 패턴으로 하여 반복한 잡음의 특성이 긴 시간구간 동안의 잡음의 특성과 동일하다는 것을 기본적으로 가정하여, 입력된 잡음성 신호로부터 잡음 성분을 예측하여 단순히 빼는 전처리 과정을 수행하였다. 이러한 방식을 스펙트럼 차감법(SS:Spectrum Substraction)이라 하는데, 잡음 수준이 낮은 경우에는 효과적이나 잡음 수준이 높아지면 신호의 스펙트럼 왜곡이 심해져, 음성 인식 성능이 저하된다.
또한, 종래의 기술로는 잡음성 신호의 특징을 깨끗한 신호의 특징으로 변환/매핑하는 알고리즘(MMSE, POF 등)이 있다. 상기 변환/매핑 함수는 고차의 비선형 함수이지만, 계산의 복잡도 때문에 선형 함수 또는 약간 복잡한 2~3차 함수로 구성된 비선형 함수로 구현하였다. 따라서, 잡음과 음성 신호의 섞이는 메카니즘을 완벽히 추적하는 변환/매핑 함수를 구하는 것은 불가능하며, 학습(training) 단계에서 모든 형태의 잡음에 대한 변환/매핑 함수를 구하는 것도 불가능하다.
도 1은 종래의 잡음 처리 기법을 적용한 음성 인식 장치의 구성을 도시한 블록구성도이다. 도 1에 의하면, 종래의 잡음 처리 기법을 적용한 음성 인식 장치는 아날로그/디지털변환기(이하에서 A/D 변환기라 한다)(100), 음성분류기(110), 잡음추정기(120), 잡음삭제기(140), 특징추출기(130) 및 패턴매칭기(160)를 포함하여 구성된다.
잡음이 없는 경우에는, 등록/학습 단계에서 미리 준비한 참조 패턴(150)과 입력 신호의 특징을 바로 비교하여 만족할 만한 인식율을 결과를 얻는다. 하지만, 잡음이 존재하는 경우에는 입력 음성 신호에 잡음 성분이 포함되어 있다. 따라서, 잡음 성분으로 추정되는 비음성 구간으로부터 잡음 특성을 추출하고, 그 특성을 음성 구간의 잡음성 음성 신호로부터 삭제(빼기 작동)한 후, 그 신호를 음성 신호로 간주하고 특징 추출을 한다.
여기서 실제 잡음 Y와 추정된 잡음 Y'를 같다고 가정한다. 이때, 음성 분석 구간과 같은 길이의 잡음 구간을 설정하여 음성 구간의 잡음을 추정하는 것이 아니라, 소정의 길이의 잡음 구간 내의 특성을 반복해서 적용한다. 이는 짧은 구간의 잡음 특성을 반복하더라도 긴 구간의 잡음 특성과 동일하다는 가정을 내포하고 있다. 하지만, 실제 잡음을 분석해 보면, 소정의 특성을 갖는 잡음 구간의 길이는 잡음의 종류에 따라 다르고, 통상적으로 음성 구간에 비하여 상당히 길다. 즉, 잡음 분석을 통하여 살펴본 잡음 특성은 음성 구간보다 상당히 긴 구간에서 일정하게 유지되고, 음성 구간 바로 앞 구간의 잡음이 음성 구간의 잡음 성분과 상관도가 제일 크다. 이는 음성 구간의 잡음을 추정하는 것이 최상책이나, 현재 기술상 이는 불가능하므로 차선책으로 바로 음성 구간 바로 앞 구간을 잡음 특성을 충분히 포함하는 정도의 길이로 설정하여 잡음 성분을 추정해야 한다는 것을 의미한다. 그런데, 이는 계산량 증가를 의미한다.
종래 기술의 또 다른 문제는 잡음 성분이 음성 성분에 주파수영역에서 단순히 더해졌다는 가정이다. 이러한 의미에서 종래의 기술에서는 주파수영역인 잡음성 음성(공간에서 잡음 섞인 음성)의 스펙트럼 값에서 잡음 추정값(Y')을 역으로 빼 줌으로써, 잡음 처리를 하게된다. 그런데, 간단한 실험을 통하여 주파수 영역에서의 잡음성 음성의 스펙트럼이 음성과 잡음의 단순 더하기는 아님을 알수 있다. 즉, 음성 신호, 잡음 신호, 잡음성 음성 신호를 동기 맞추어 준비하고, 상기 음성 신호와 상기 잡음 신호를 각각 파형상에서 더하여 스펙트럼 영역으로 변환하고, 스펙트럼 상에서 더하여, 그 결과들을 상기 잡음성 음성 신호의 스펙트럼과 비교해보면, 전자의 왜곡이 훨씬 적고, 그 격차도 잡음 수준이 높아감에 따라 점차 커짐을 알 수 있다. 따라서, 종래 방식에서는 잡음 수준이 올라갈수록 스펙트럼 왜곡에 기인하여 인식 성능이 급격히 저하됨을 알 수 있다.
따라서, 도 1에서 도시된 종래의 기술에 의한 음성 인식 방식에서의 잡음 처리는 대개 신호대잡음비(Signal-to-Noise Ratio : SNR) 10dB을 기준으로 급격한 성능 저하를 보인다.
본 발명은 상기의 문제점을 해결하기 위하여 창작된 것으로서, 종래의 기술에 비하여 다소 계산량은 증가하나, 잡음 수준이 높은 환경에서의 음성 인식률이 월등하게 높은 잡음 처리 기능을 갖춘 음성 인식 장치 및 그 인식 방법을 제공함을 목적으로 한다. 또한, 상기 음성 인식 방법에 있어서, 그 계산량이 감소시킨 잡음환경 하에서의 음성 인식 방법을 제공함을 또 다른 목적으로 한다.
도 1은 종래의 잡음 처리 기법을 적용한 음성 인식 장치의 구성을 도시한 블럭도이다.
도 2는 본 발명에 의한 음성 인식 장치의 구성을 도시한 블록도이다.
도 3은 본 발명에 의한 잡음 환경 하에서의 음성 인식 방법에 대한 흐름도이다.
도 4는 본 발명에 의한 잡음 환경 하에서의 계산량을 감소시킨 음성 인식 방법에 대한 흐름도이다.
상기의 목적을 달성하기 위하여, 본 발명에 의한 잡음 환경에서 음성 신호가 포함된 잡음성 아날로그 신호를 입력받아, 소정의 음성을 인식하는 장치에 있어서, 상기 잡음성 아날로그 신호를 잡음성 디지털 신호로 변환하는 아날로그/디지털 변환기; 상기 잡음성 디지털 신호를 음성 신호가 포함된 음성구간과 음성 신호가 포함되지 않은 비음성구간으로 분류하는 음성분류기; 상기 음성분류기에서 분류된 비음성구간 중 최근 비음성구간의 디지털 신호에 의해 잡음 신호를 추정하는 잡음추정기; 상기 음성분류기에서 분류된 음성구간의 디지털 신호에서 입력음성의 특징을 추출하는 특징추출기; 및 잡음이 없는 환경에서 생성된 소정의 참조패턴에 상기 잡음추정기에 의해 추정된 잡음 신호를 더한 값에서 참조패턴의 특징을 추출하여, 상기 특징추출기에서 추출된 입력음성의 특징과 비교한 결과를 출력하는 패턴매칭기를 포함함을 특징으로 한다.
상기의 다른 목적을 달성하기 위하여, 본 발명에 의한 잡음 환경에서 음성 신호가 포함된 잡음성 아날로그 신호를 입력받아, 소정의 음성을 인식하는 방법에 있어서, 상기 잡음성 아날로그 신호를 잡음성 디지털 신호로 변환하는 제1단계; 상기 잡음성 디지털 신호를 음성 신호가 포함된 음성구간과 음성 신호가 포함되지 않은 비음성구간으로 분류하는 제2단계; 상기 분류된 음성구간의 디지털 신호에서 입력음성의 특징을 추출하는 제3단계; 상기 분류된 비음성구간 중 최근 비음성구간의 디지털 신호에 의해 잡음 신호를 추정하는 제4단계; 잡음이 없는 환경에서 생성된 소정의 참조패턴들에 상기 추정된 잡음 신호를 각각 더하고, 상기 추정된 잡음 신호가 더하여진 참조패턴들의 특징을 추출하는 제5단계; 및 상기 추출된 입력음성의 특징을 상기 추정된 잡음 신호가 더하여진 참조패턴들의 특징과 각각 비교하여 일치 여부를 결정하는 제6단계를 포함함을 특징으로 한다.
상기의 또 다른 목적을 달성하기 위하여, 본 발명에 의한 잡음 환경에서 음성 신호가 포함된 잡음성 아날로그 신호를 입력받아, 소정의 음성을 인식하는 방법에 있어서, 상기 잡음성 아날로그 신호를 잡음성 디지털 신호로 변환하는 제1단계; 상기 잡음성 디지털 신호를 음성 신호가 포함된 음성구간과 음성 신호가 포함되지 않은 비음성구간으로 분류하는 제2단계; 상기 분류된 음성구간의 디지털 신호에서 입력음성의 특징을 추출하는 제3단계; 상기 분류된 비음성구간 중 최근 비음성구간의 디지털 신호에 의해 잡음 신호를 추정하는 제4단계; 잡음이 없는 환경에서 생성된 소정의 참조패턴들의 특징을 추출하는 제5단계; 상기 추출된 입력음성의 특징을 상기 추출된 참조패턴들의 특징과 각각 비교하여 소정의 범위 내의 후보 참조패턴을 선택하는 제6단계; 상기 선택된 소정의 범위 내의 후보 참조패턴들에 상기 추정된 잡음 신호를 각각 더하고, 상기 추정된 잡음 신호가 더하여진 후보 참조패턴들의 특징을 추출하는 제7단계; 및 상기 추출된 입력음성의 특징을 상기 추정된 잡음 신호가 더하여진 후보 참조패턴들의 특징과 각각 비교하여 일치 여부를 결정하는 제8단계를 포함함을 특징으로 한다.
이하에서 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.
도 2는 본 발명에 의한 음성 인식 장치의 구성을 도시한 블록도이다. 도 2에 의하면, 본 발명에 의한 음성 인식 장치는 A/D 변환기(200), 음성분류기(210), 잡음추정기(220), 특징추출기(230) 및 패턴매칭기(250)를 포함하여 구성된다.
상기 A/D 변환기(200)은 아날로그 음성신호를 디지털 신호로 변환하는 구성블럭으로서, 종래 기술에 의한 A/D 변환기(100)와 동일하다. 음성정보를 포함하고 있는 파형은 원래 진폭에 있어서 연속적이고 시간상으로도 연속적인 아날로그(Analog) 신호이다. 따라서, 파형을 이산 신호로 표현하기 위해서 A/D(Analog-to-Digital) 변환이 필요하다. A/D 변환을 하기 위해서는 두 가지의 과정을 필요로 한다. 그 중 하나는 시간상의 연속 신호를 이산 신호를 바꾸어 주는 표본화(Sampling)과정이고, 다른 하나는 가능한 진폭의 수를 유한한 값으로 제한하기 위한 진폭 양자화 과정이다. 즉, 상기 진폭의 양자화 과정은 시간 n에서 입력 진폭 x(n)을 가능한 진폭의 유한한 집합중의 한 원소인 y(n)으로 변환해 주는 과정이다.
상기 음성분류기(210)는 상기 잡음성 디지털 신호를 음성 신호가 포함된 음성구간과 음성 신호가 포함되지 않은 비음성구간으로 분류한다. 즉, 잡음이 있는 환경에서 사람이 말을 하고 있는 시간구간에서의 입력신호는 음성구간으로, 사람의 음성은 포함되지 않고 잡음만이 존재하는 시간구간에서의 입력신호는 비음성구간으로 분류하는데 종래 기술에 의한 도 1의 음성분류기(110)와 동일하다.
상기 잡음추정기(120)는 상기 음성분류기(210)에서 분류된 비음성구간 중 최근 비음성구간의 디지털 신호에 의해 잡음 신호를 추정한다. 이는 인식하기 위한 음성구간 직전의 잡음구간에 의해 음성구간에 포함된 잡음을 추정하는 것이 가장 바람직하기 때문이다. 이때, 상기 최근 비음성구간의 길이가 추정된 잡음신호가 더하여 질 참조패턴의 길이보다 긴 경우에는 상기 참조패턴과 동일한 길이가 되도록 상기 최근 비음성구간의 가장 오래된 구간부분을 잘라내고, 짧은 경우에는 상기 참조패턴과 동일한 길이가 되도록 상기 최근 비음성구간을 반복하여 상기 최근 비음성구간의 길이를 조정한다.
상기 특징추출기(230)는 상기 음성분류기(210)에서 분류된 음성구간의 디지털 신호에서 입력음성의 특징을 추출한다. 선형예측계수(Linear Predictive Coding)에 근거한 셉스트럼(Cepstrum)과 이들의 1차 차이계수가 특징으로 사용될 수 있다.
상기 패턴매칭기(250)는 잡음이 없는 환경에서 생성한 참조패턴(240)에 상기 잡음추정기(220)에 의해 추정된 잡음 신호를 더한 값에서 참조패턴의 특징을 추출하여 상기 특징추출기에서 추출된 입력음성의 특징과 비교한 결과를 출력한다.
도 3은 본 발명에 의한 잡음 환경 하에서의 음성 인식 방법에 대한 흐름도이다. 도 3에 의하면, 본 발명에 의한 잡음 환경하에서의 음성 인식 과정은 먼저, 상기 잡음성 아날로그 신호를 잡음성 디지털 신호로 변환하고(300단계), 상기 잡음성 디지털 신호를 음성 신호가 포함된 음성구간과 음성 신호가 포함되지 않은 비음성구간으로 분류한다(310단계).
다음, 상기 분류된 음성구간의 디지털 신호에서 입력음성의 특징을 추출한다(320단계). 종래의 기술과는 달리 본 발명에서는 입력음성에서 잡음성분을 삭제하지 않고, 잡음을 포함한 입력음성에서 특징을 추출한다.
다음, 상기 분류된 비음성구간 중 최근 비음성구간의 디지털 신호에 의해 잡음 신호를 추정한다(330단계). 이때, 상기 최근 비음성구간의 길이가 추정된 잡음신호가 더하여 질 참조패턴의 길이보다 긴 경우에는 상기 참조패턴과 동일한 길이가 되도록 상기 최근 비음성구간의 가장 오래된 구간부분을 잘라내고, 짧은 경우에는 상기 참조패턴과 동일한 길이가 되도록 상기 최근 비음성구간을 반복하여 상기 최근 비음성구간의 길이를 조정한다.
다음, 잡음이 없는 환경에서 생성된 모든 참조패턴들에 상기 추정된 잡음 신호를 각각 더하고, 잡음이 섞인 모든 참조패턴들의 특징을 추출한다(340단계).
그리고, 상기 추출된 입력음성의 특징을 상기 추출된 잡음이 섞인 모든 참조패턴들의 특징과 각각 비교하여 음성 인식을 한다(350단계).
도 4는 본 발명에 의한 잡음 환경 하에서의 계산량을 감소시킨 음성 인식 방법에 대한 흐름도이다. 도 4에 의하면, 400 ∼ 430단계는 도 3의 300 ∼ 330단계와 동일하다.
그 다음, 잡음이 없는 환경에서 생성된 모든 참조패턴의 특징을 추출하고(440단계), 상기 추출된 입력음성의 특징을 상기 추출된 모든 참조패턴의 특징과 각각 비교하여 소정의 범위 내의 후보 참조패턴들을 선택한다(450단계).
다음, 상기 선택된 소정의 범위 내의 후보 참조패턴들에 상기 추정된 잡음 신호를 각각 더하고, 잡음이 섞인 후보 참조패턴들의 특징을 추출한다(460단계).
그리고, 상기 추출된 입력음성의 특징을 상기 추출된 잡음이 섞인 후보 참조패턴들의 특징과 각각 비교하여 음성 인식을 한다(470단계).
이와 같이 모든 참조패턴에 상기 추정된 잡음신호를 더하지 않고, 소정의 범위의 후보 참조패턴들을 선택하여, 선택된 후보 참조패턴에 대하여만 상기 추정된 잡음신호를 더함으로써 종래의 방법에 비해 계산량의 급격한 증가를 방지할 수 있다.
본 발명에 의한 음성 인식 장치의 음성 인식 성능은 종래 기술에 의한 음성 인식 장치가 보인 급격한 성능 저하점인 SNR 10dB뿐만 아니라, SNR 0dB에서도 그 성능이 약간만 저하되는 현상을 보였다.
본 발명에 의한 음성 인식 장치의 성능과 종래 기술에 의한 음성 인식 장치의 성능을 비교하기 위한 실험을 다음과 같이 하였다.
인식 방식으로 패턴 매칭 기법(DTW:Dynamic Time Warping)을 사용하고, 100 단어를 화자 종속으로 실험하였다. 주변에 오디오 장치를 이용하여 각종 잡음을 배경음으로 그 크기를 변경하면서 남녀 화자 각 100명씩 5회 발성하였다.
[표 1]
상기 실험의 결과는 표 1과 같다.
본 발명에 의하면, 종래의 기술에 비하여 다소 계산량은 증가하나, 잡음 수준이 높은 환경에서의 음성 인식률이 월등하게 향상된다.

Claims (7)

  1. 잡음 환경에서 음성 신호가 포함된 잡음성 아날로그 신호를 입력받아, 소정의 음성을 인식하는 장치에 있어서,
    상기 잡음성 아날로그 신호를 잡음성 디지털 신호로 변환하는 아날로그/디지털 변환기;
    상기 잡음성 디지털 신호를 음성 신호가 포함된 음성구간과 음성 신호가 포함되지 않은 비음성구간으로 분류하는 음성분류기;
    상기 음성분류기에서 분류된 비음성구간 중 최근 비음성구간의 디지털 신호에 의해 잡음 신호를 추정하는 잡음추정기;
    상기 음성분류기에서 분류된 음성구간의 디지털 신호에서 입력음성의 특징을 추출하는 특징추출기; 및
    잡음이 없는 환경에서 생성된 소정의 참조패턴에 상기 잡음추정기에 의해 추정된 잡음 신호를 더한 값에서 참조패턴의 특징을 추출하여, 상기 특징추출기에서 추출된 입력음성의 특징과 비교한 결과를 출력하는 패턴매칭기를 포함함을 특징으로 하는 잡음 처리 기능을 갖춘 음성 인식 장치.
  2. 잡음 환경에서 음성 신호가 포함된 잡음성 아날로그 신호를 입력받아, 소정의 음성을 인식하는 방법에 있어서,
    상기 잡음성 아날로그 신호를 잡음성 디지털 신호로 변환하는 제1단계;
    상기 잡음성 디지털 신호를 음성 신호가 포함된 음성구간과 음성 신호가 포함되지 않은 비음성구간으로 분류하는 제2단계;
    상기 분류된 음성구간의 디지털 신호에서 입력음성의 특징을 추출하는 제3단계;
    상기 분류된 비음성구간 중 최근 비음성구간의 디지털 신호에 의해 잡음 신호를 추정하는 제4단계;
    잡음이 없는 환경에서 생성된 소정의 참조패턴들에 상기 추정된 잡음 신호를 각각 더하고, 상기 추정된 잡음 신호가 더하여진 참조패턴들의 특징을 추출하는 제5단계; 및
    상기 추출된 입력음성의 특징을 상기 추정된 잡음 신호가 더하여진 참조패턴들의 특징과 각각 비교하여 일치 여부를 결정하는 제6단계를 포함함을 특징으로 하는 잡음 환경에서의 음성 인식 방법.
  3. 제2항에 있어서, 상기 제4단계는
    상기 최근 비음성구간의 길이가 상기 제5단계에서 추정된 잡음신호가 더하 여 질 참조패턴의 길이보다 긴 경우에는 상기 참조패턴과 동일한 길이가 되도록 상기 최근 비음성구간의 가장 오래된 구간부분을 잘라내고, 짧은 경우에는 상기 참조패턴과 동일한 길이가 되도록 상기 최근 비음성구간을 반복하여 상기 최근 비음성구간의 길이를 조정하는 단계; 및
    상기 길이가 조정된 최근 비음성구간의 디지털 신호에 의해 잡음 신호를 추정하는 단계로 이루어짐을 특징으로 하는 잡음 환경에서의 음성 인식 방법.
  4. 제2항 또는 제3항 중 어느 한 항에 있어서, 상기 제5단계에서 더하여지는 상기 잡음이 없는 상황에서 생성된 소정의 참조패턴들과 상기 추정된 잡음 신호는 시간 영역의 값임을 특징으로 하는 잡음 환경에서의 음성 인식 방법.
  5. 잡음 환경에서 음성 신호가 포함된 잡음성 아날로그 신호를 입력받아, 소정의 음성을 인식하는 방법에 있어서,
    상기 잡음성 아날로그 신호를 잡음성 디지털 신호로 변환하는 제1단계;
    상기 잡음성 디지털 신호를 음성 신호가 포함된 음성구간과 음성 신호가 포함되지 않은 비음성구간으로 분류하는 제2단계;
    상기 분류된 음성구간의 디지털 신호에서 입력음성의 특징을 추출하는 제3단계;
    상기 분류된 비음성구간 중 최근 비음성구간의 디지털 신호에 의해 잡음 신호를 추정하는 제4단계;
    잡음이 없는 환경에서 생성된 소정의 참조패턴들의 특징을 추출하는 제5단계;
    상기 추출된 입력음성의 특징을 상기 추출된 참조패턴들의 특징과 각각 비교하여 소정의 범위 내의 후보 참조패턴을 선택하는 제6단계;
    상기 선택된 소정의 범위 내의 후보 참조패턴들에 상기 추정된 잡음 신호를 각각 더하고, 상기 추정된 잡음 신호가 더하여진 후보 참조패턴들의 특징을 추출하는 제7단계; 및
    상기 추출된 입력음성의 특징을 상기 추정된 잡음 신호가 더하여진 후보 참조패턴들의 특징과 각각 비교하여 일치 여부를 결정하는 제8단계를 포함함을 특징으로 하는 잡음 환경에서의 음성 인식 방법.
  6. 제5항에 있어서, 상기 제4단계는
    상기 최근 비음성구간의 길이가 상기 제7단계에서 추정된 잡음신호가 더하 여 질 후보 참조패턴의 길이보다 긴 경우에는 상기 후보 참조패턴과 동일한 길이가 되도록 상기 최근 비음성구간의 가장 오래된 구간부분을 잘라내고, 짧은 경우에는 상기 참조패턴과 동일한 길이가 되도록 상기 최근 비음성구간을 반복하여 상기 최근 비음성구간의 길이를 조정하는 단계; 및
    상기 길이가 조정된 최근 비음성구간의 디지털 신호에 의해 잡음 신호를 추정하는 단계로 이루어짐을 특징으로 하는 잡음 환경에서의 음성 인식 방법.
  7. 제5항 또는 제6항 중 어느 한 항에 있어서, 상기 제7단계에서 더하여지는 상기 선택된 소정의 범위 내의 후보 참조패턴들과 상기 추정된 잡음 신호는 시간 영역의 값임을 특징으로 하는 잡음 환경에서의 음성 인식 방법.
KR1019970004760A 1997-02-17 1997-02-17 잡음 처리 기능을 갖춘 음성 인식 장치 및 음성 인식 방법 KR100468817B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019970004760A KR100468817B1 (ko) 1997-02-17 1997-02-17 잡음 처리 기능을 갖춘 음성 인식 장치 및 음성 인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970004760A KR100468817B1 (ko) 1997-02-17 1997-02-17 잡음 처리 기능을 갖춘 음성 인식 장치 및 음성 인식 방법

Publications (2)

Publication Number Publication Date
KR19980068249A true KR19980068249A (ko) 1998-10-15
KR100468817B1 KR100468817B1 (ko) 2005-05-16

Family

ID=37302501

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970004760A KR100468817B1 (ko) 1997-02-17 1997-02-17 잡음 처리 기능을 갖춘 음성 인식 장치 및 음성 인식 방법

Country Status (1)

Country Link
KR (1) KR100468817B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000032730A (ko) * 1998-11-17 2000-06-15 서평원 음성인식 시스템의 잡음 처리 방법
KR100857467B1 (ko) * 2006-12-08 2008-09-08 한국전자통신연구원 잡음 모델을 이용한 순수 음성 추정 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3008593B2 (ja) * 1991-08-21 2000-02-14 日本電気株式会社 音声認識装置
JPH05181500A (ja) * 1991-11-26 1993-07-23 Sekisui Chem Co Ltd 単語認識システム
JPH0643892A (ja) * 1992-02-18 1994-02-18 Matsushita Electric Ind Co Ltd 音声認識方法
JP3102195B2 (ja) * 1993-04-02 2000-10-23 三菱電機株式会社 音声認識装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000032730A (ko) * 1998-11-17 2000-06-15 서평원 음성인식 시스템의 잡음 처리 방법
KR100857467B1 (ko) * 2006-12-08 2008-09-08 한국전자통신연구원 잡음 모델을 이용한 순수 음성 추정 방법

Also Published As

Publication number Publication date
KR100468817B1 (ko) 2005-05-16

Similar Documents

Publication Publication Date Title
US7231347B2 (en) Acoustic signal enhancement system
CA2501989C (en) Isolating speech signals utilizing neural networks
Lin et al. Adaptive noise estimation algorithm for speech enhancement
US20060224382A1 (en) Noise reduction and audio-visual speech activity detection
EP1914727A1 (en) Noise suppression method and device thereof
US7917359B2 (en) Noise suppressor for removing irregular noise
Itoh et al. Environmental noise reduction based on speech/non-speech identification for hearing aids
El-Solh et al. Evaluation of speech enhancement techniques for speaker identification in noisy environments
KR100446626B1 (ko) 음성신호에서 잡음을 제거하는 방법 및 장치
Segura et al. Feature extraction combining spectral noise reduction and cepstral histogram equalization for robust ASR
Sorqvist et al. Kalman filtering for low distortion speech enhancement in mobile communication
EP1286334A2 (en) Method and circuit arrangement for reducing noise during voice communication in communications systems
JPH04245300A (ja) 雑音除去装置
Hamid et al. Speech enhancement using EMD based adaptive soft-thresholding (EMD-ADT)
KR100468817B1 (ko) 잡음 처리 기능을 갖춘 음성 인식 장치 및 음성 인식 방법
KR100571427B1 (ko) 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법
Rao et al. Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration
Shao et al. A versatile speech enhancement system based on perceptual wavelet denoising
Safa et al. The real time implementation on dsp of speech enhancement based on kalman filter and wavelet thresholding
China Venkateswarlu et al. A wavelet-based de-noising speech signal performance with objective measures
JP2001249676A (ja) 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法
Ghasemi A new approach based on SVD for speech enhancement
Ju et al. Speech enhancement based on generalized singular value decomposition approach.
Gazor et al. An adaptive subspace approach for speech enhancement
Ito et al. Forward masking on a generalized logarithmic scale for robust speech recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121228

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20131230

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee