KR100565428B1 - 인간 청각 모델을 이용한 부가잡음 제거장치 - Google Patents

인간 청각 모델을 이용한 부가잡음 제거장치 Download PDF

Info

Publication number
KR100565428B1
KR100565428B1 KR1020030057646A KR20030057646A KR100565428B1 KR 100565428 B1 KR100565428 B1 KR 100565428B1 KR 1020030057646 A KR1020030057646 A KR 1020030057646A KR 20030057646 A KR20030057646 A KR 20030057646A KR 100565428 B1 KR100565428 B1 KR 100565428B1
Authority
KR
South Korea
Prior art keywords
additional noise
human auditory
signal
auditory model
unit
Prior art date
Application number
KR1020030057646A
Other languages
English (en)
Other versions
KR20050019686A (ko
Inventor
이성주
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020030057646A priority Critical patent/KR100565428B1/ko
Publication of KR20050019686A publication Critical patent/KR20050019686A/ko
Application granted granted Critical
Publication of KR100565428B1 publication Critical patent/KR100565428B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Signal Processing (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Noise Elimination (AREA)

Abstract

본 발명은 인간 청각 모델을 이용한 부가잡음 제거장치에 관한 것이다. 본 발명의 부가잡음 제거장치는 입력신호 버퍼링 및 프레이밍부와 주파수 스펙트럼 추정부 사이에 인간 청각 모델 적용부가 구비된다. 상기 인간 청각 모델 적용부는 입력된 음성 신호에 대해 자동 이득 제어 과정, 외이 및 중이의 주파수 응답 적용 과정, 미세한 내부 잡음 처리 과정을 각각 수행하여 인간 청각 모델을 상기 음성 신호에 적용시킨다. 따라서, 음성 언어의 신호 성분 중에서 언어를 인지하는데 필요한 신호 성분들이 강조되어 부가잡음이 제거된 음성 신호의 음질을 향상시킬 수 있으며, 특히, 부가잡음 제거의 전처리 과정을 거치는 음성인식 시스템의 경우, 이러한 인간 청각 모델을 고려함으로써 그 성능을 크게 향상시킬 수 있다.
인간 청각 모델(human auditory model), 음성 인식, 자동 이득 제어, 부가잡음 제거

Description

인간 청각 모델을 이용한 부가잡음 제거장치{APPARATUS FOR REMOVING ADDITIONAL NOISE BY USING HUMAN AUDITORY MODEL}
도 1 내지 도 4는 종래 기술에 따른 부가잡음 제거장치의 4가지 예를 각각 나타낸 도면.
도 5는 본 발명의 실시예에 따른 인간 청각 모델 적용부의 구성을 나타낸 도면.
도 6 내지 도 9는 상기 도 5에 도시된 인간 청각 모델 적용부를 이용하여 부가잡음 제거장치를 구성한 실시예를 각각 나타낸 도면.
<도면의 주요부분에 대한 부호의 설명>
10 : 입력신호 버퍼링 및 프레이밍부 20 : 음성 검출부
30 : 부가잡음 추정부 40 : 주파수 스펙트럼부
50 : 부가잡음 제거부 60 : 신호 재생부
70 : 특징벡터 추출부 100 : 인간 청각 모델 적용부
110 : 자동 이득 제어부
120 : 외이 및 중이의 주파수 응답 적용부
130 : 내부 잡음 처리부
본 발명은 인간 청각 모델(human auditory model)을 이용한 부가잡음 제거장치에 관한 것으로서, 더욱 상세하게는 부가잡음 제거를 위한 전처리 단계에서 입력 음성 신호에 대해 인간 청각 모델을 적용함으로써 음성인식 시스템의 성능 향상을 가능하게 하는 부가잡음 제거장치에 관한 것이다.
통계적 음향모델을 기반으로 한 음성인식 시스템에서는 일반적으로 훈련 음성 데이터들과 테스트 음성 데이터들 사이의 불일치가 존재하는 경우, 인식 성능이 저하되는 현상이 관찰된다. 이러한 인식 성능 저하 문제는 음성인식 기술의 상용화 과정에서 걸림돌로 작용하고 있으며, 음성인식 기술의 상용화를 위해서 반드시 해결해야 될 문제로 인식되고 있다. 이러한 불일치의 요인들 중 대표적인 것으로 환경에 따른 부가잡음과 채널잡음 등을 들 수가 있다. 그러므로, 이러한 부가잡음과 채널잡음의 제거기술은 다양한 환경에서 보다 향상된 음성인식을 달성하기 위하여 꼭 필요한 기술들이다.
종래의 대부분의 부가잡음 제거 기술들은 입력신호에 포함된 부가잡음을 추정하고, 이를 바탕으로 신호대잡음비(SNR : signal to noise ratio)를 추정한 다음, 추정된 신호대잡음비를 기초로 하여 입력신호에 부가된 잡음 성분들을 제거하는 방식을 취하고 있다. 이러한 부가잡음 제거 기술은 음성인식 시스템의 입력신호 전처리 기술로 널리 사용되고 있는 추세이다.
이하, 첨부된 도면을 참조하여 종래의 기술에 따른 부가잡음 제거장치에 대해 설명한다.
도 1 내지 도 4에는 종래의 기술에 따른 부가잡음 제거장치의 4가지 예가 각각 도시되어 있다. 도 1 및 도 2에 도시된 부가잡음 제거장치는 재생된 음성 신호를 얻기 위한 것이고, 도 3 및 도 3에 도시된 부가잡음 제거장치는 음성 신호에 포함된 특징 벡터를 얻기 위한 것이다.
도 1 내지 도 4에 도시된 부가잡음 제거장치는 입력신호 버퍼링 및 프레이밍부(10), 부가잡음 추정부(30), 주파수 스펙트럼 추정부(40) 및 부가잡음 제거부(50)를 기본적으로 포함하고 있다. 상기 도 1 및 도 2에 도시된 부가잡음 제거장치는 상기 설명된 기본적 구성 외에 부가잡음 제거부(50)의 출력을 이용하여 음성 신호를 재생하는 신호 재생부(60)를 더 포함하고 있으며, 도 3 및 도 4에 도시된 부가잡음 제거장치는 상기 설명된 기본적 구성 외에 부가잡음 제거부(50)의 출력을 이용하여 음성 신호의 특징 벡터를 추출하기 위한 특징벡터 추출부(70)를 더 포함하고 있다. 또한, 도 1 및 도 2에 도시된 부가잡음 제거장치는 음성 검출부(20)가 구비되어 있는지의 여부로 구별되며, 도 3 및 도 4에 도시된 부가잡음 제거장치도 음성 검출부(20)의 구비 여부에 따라 구별된다.
음성 신호가 상기 입력신호 버퍼링 및 프레이밍부(10)에 입력되면, 상기 입력신호 버퍼링 및 프레이밍부(10)에서는 실시간 처리를 위하여 음성 신호가 버퍼링되고 그 다음에, 일정 시간 간격마다 음성 신호를 프레임(frame) 단위로 구분하는 프레이밍(framing)이 수행된다. 음성 검출부(20)는 상기 프레이밍된 음성 신호가 묵음 구간인지 또는 음성 구간인지를 판단한다. 상기 음성 검출부(20)가 구비되지 않은 도 2 및 도 4의 부가잡음 제거장치의 경우에는 입력된 음성 신호의 초기 일정 구간이 묵음이라고 가정하여 잡음을 추정하며, 그 후 잡음신호의 추정치는 거의 업데이트 되지 않는다. 상기 주파수 스펙트럼 추정부(40)는 프레이밍된 음성신호를 주파수 영역으로 변환하여 주파수 스펙트럼을 생성하며, 주파수 스펙트럼은 진폭 성분과 위상 성분으로 이루어진다. 상기 부가잡음 추정부(30)는 상기 생성된 주파수 스펙트럼을 이용하여 잡음의 스펙트럼 정보를 추정하는 역할을 수행한다. 이 때, 도 1 및 도 3의 부가잡음 제거장치에서와 같이, 음성 검출부(20)에서 검출된 정보를 이용하면 보다 정확한 부가잡음의 추정이 가능하다. 상기 부가잡음 제거부(50)는 상기 주파수 스펙트럼 추정부(40)로부터 입력된 주파수 스펙트럼으로부터 상기 부가잡음 추정부(30)에 의해 추정된 부가잡음을 제거하는 기능을 수행한다. 상기 도 1 및 도 2에 도시된 부가잡음 제거장치에서는 신호 재생부(60)가 더 구비되어, 상기 부가잡음이 제거된 스펙트럼을 시간 영역으로 변환하는 역할을 수행한다. 또한, 상기 도 3 및 도 4에 도시된 부가잡음 제거장치에서는 상기 신호 재생부(60) 대신에 특징벡터 추출부(70)가 더 구비되어, 부가잡음이 제거된 음성신호의 스펙트럼으로부터 음성인식에 필요한 특징 벡터들을 추출하는 역할을 수행한다. 상기와 같이 구성 및 동작하는 종래의 기술에 따른 부가잡음 제거 장치에서는 추정된 신호대잡음비를 바탕으로 입력신호에 부가된 잡음 성분들이 제거된다. 이 때, 사용되는 신호대잡음비에는 인간의 청각적인 특성들이 고려되어 있지 않다.
인간의 청각 기관은 단순히 소리를 감지하는 기능뿐만 아니라 인간의 음성 언어를 인지하는데 필요한 신호 성분들을 강조하여 인간이 언어를 잘 인지할 수 있도록 하는 기능도 수행한다. 따라서, 이러한 인간의 청각적 특성을 부가잡음 제거 기술에 적용하면, 입력된 음성 신호의 음질 향상뿐만 아니라 특히, 부가잡음 제거 기술에서 음성신호의 전처리 단계에서 사용됨으로써 음성인식 시스템의 성능 향상에 기여할 수 있다. 일반적으로, 음성인식 시스템에서는 입력된 음성신호에 잡음이 부가된 경우 인식 성능이 저하되는 현상이 관찰되며, 이러한 성능 저하 현상은 음성인식 기술의 상용화를 가록막는 걸림돌로 작용하고 있다.
본 발명은 상기 설명한 종래의 기술적 과제를 해결하기 위한 것으로서, 부가잡음 제거를 위한 전처리 단계에서 입력 음성 신호에 대해 인간 청각 모델을 적용함으로써 음성인식 시스템의 성능 향상을 가능하게 하는 부가잡음 제거장치를 제공하는데 그 목적이 있다.
상기한 목적을 달성하기 위한 본 발명에 따른 부가잡음 제거장치는,
음성 신호를 입력받아 버퍼링하고, 일정 시간 간격마다 상기 음성 신호를 프레임 단위로 구분하는 프레이밍 작용을 수행하는 입력신호 버퍼링 및 프레이밍부; 상기 입력된 음성 신호에 대해 자동 이득 제어 과정, 외이 및 중이의 주파수 응답 적용 과정, 미세한 내부 잡음 처리 과정을 각각 수행하여 인간 청각 모델을 상기 음성 신호에 적용시키는 인간 청각 모델 적용부; 입력된 음성 신호를 주파수 영역으로 변환하여 진폭 성분과 위상 성분으로 이루어진 주파수 스펙트럼을 생성하는 주파수 스펙트럼 추정부; 상기 주파수 스펙트럼 추정부에서 생성된 주파수 스펙트럼을 이용하여 음성 신호에 부가된 잡음의 스펙트럼 정보를 추정하는 역할을 수행하는 부가잡음 추정부; 및, 상기 주파수 스펙트럼 추정부에서 생성된 주파수 스펙트럼으로부터 상기 부가잡음 추정부에 의해 추정된 부가잡음을 제거하는 작용을 수행하는 부가잡음 제거부를 포함하는 것을 특징으로 한다.
상기와 같이 구성되는 본 발명에 따른 부가잡음 제거장치는 인간 청각 모델을 적용함으로써 음성 언어의 신호 성분 중에서 언어를 인지하는데 필요한 신호 성분들이 강조되어 부가잡음이 제거된 음성 신호의 음질을 향상시킬 수 있으며, 특히, 부가잡음 제거의 전처리 과정을 거치는 음성인식 시스템의 경우, 이러한 인간 청각 모델을 고려함으로써 그 성능을 크게 향상시킬 수 있다.
이하, 본 발명의 실시예를 첨부한 도면을 참조하여 상세히 설명하기로 한다.
도 5에는 본 발명의 실시예에 따른 인간 청각 모델 적용부(100)의 구성이 도시되어 있다.
일반적으로, 인간의 청각 기관은 단순히 소리를 감지하는 기능뿐만 아니라 인간의 음성 언어를 인지하는데 필요한 신호 성분들을 강조하는 역할을 수행하는 것으로 알려져 있다. 본 발명에서는 부가잡음을 제거함에 있어서 이러한 인간의 청각적 특성을 반영하여 부가잡음 제거의 성능을 향상시키고자 한다. 부가잡음 제거 기술은 입력된 음성신호의 음질을 향상시키는 목적으로 사용되며, 유무선 전화 망 또는 이동통신 전화망 등에서 서비스 음질을 향상시킬 목적으로 이용될 수 있고, 군사용 혹은 공장용 등 소음이 심한 환경 하에서 음성 통신이 필요한 경우에 유용하게 사용될 수 있다. 특히, 음성인식 시스템의 전처리 과정으로 사용될 경우에 잡음 환경에서의 음성인식 성능을 크게 향상시킬 수 있다.
본 발명에서는 인간의 청각 특성을 부가잡음을 제거하는데에 반영하기 위해 인간 청각 모델(human auditory model) 적용부(100)를 이용하고 있으며, 그 구성이 도 5에 도시되어 있다.
상기 도 5를 참조하면, 인간 청각 모델 적용부(100)는 자동 이득 제어부(110), 외이(outer ear) 및 중이(middle ear)의 주파수 응답 적용부(120) 및 내부 잡음 처리부(130)를 포함한다.
자동 이득 제어부(110)는 AGC(automatic gain control)를 의미하며, 작은 소리에 대해서는 그 크기를 증폭시키고 큰 소리에 대해서는 그 크기에 상대적으로 둔감해지는 인간의 청각 특성을 나타낸 것으로, 입력 신호의 진폭에 대해 인간의 청각 특성과 유사하도록 자동 이득 제어를 수행한다. 보다 구체적으로, 인간의 청각 기관과 유사한 자동 이득 제어를 수행하도록 하기 위하여, 상기 자동 이득 제어부(110)는 아래의 수학식 1과 같이 표현되는 인지 가중 필터(perceptual weighting filter)를 이용한다.
Figure 112003030719546-pat00001
상기 수학식 1에서, ai는 i번째 선형 예측 계수(LPC : Linear Prediction Coefficient)를 나타내고,
Figure 112005057406438-pat00017
1
Figure 112005057406438-pat00018
2는 상기 인지 가중 필터의 주파수 특성을 결정짓는 값으로서 0과 1 사이의 값을 가질 수 있다.
외이 및 중이의 주파수 응답 적용부(120)는 인간의 청각 기관 중에서 외이(outer ear) 및 중이(middle ear)의 신호 전달 특성 즉, 주파수 응답 특성을 구현하기 위한 것으로서, 외이 및 중이의 주파수 응답 특성과 동일한 주파수 응답 특성을 갖는 필터를 이용하여 음성 신호를 처리한다. 즉, 인간의 외이 및 중이의 주파수 응답 특성은 아래의 수학식 2와 같은 주파수 응답 특성을 갖는 대역 통과 필터 형태로 모델링하는 것이 가능하다.
Figure 112003030719546-pat00002
상기 수학식 2에서 f는 Hz 단위의 주파수를 나타내며, f/kHz는 kHz 단위의 주파수로서 f/1000을 나타낸다. W(f)/dB는 dB 단위의 주파수 응답 특성이므로 이를 신호 크기에 따른 주파수 응답 특성으로 변환하면 아래의 수학식 3과 같다.
Figure 112003030719546-pat00003
상기 내부 잡음 처리부(130)는 인간의 청각 기관 내부를 둘러싸고 있는 혈액 의 흐름에 의해 발생하는 미세한 내부 잡음을 모델링하여 음성 신호를 처리하기 위한 것으로서, 상기 미세한 내부 잡음은 인간의 귀의 내부에서 픽업하기 때문에 실제 인간이 느끼기에 무시할 수 있는 정도의 잡음은 아니다. 이러한 내부 잡음의 세기는 아래의 수학식 4로 표현된다.
Figure 112003030719546-pat00004
본 발명에서는 인간의 청각 모델 중에서 위에서 설명한 자동 이득 제어, 외이 및 중이의 주파수 응답, 내부 잡음의 세가지 특성에 대해서 고려하였지만, 이들 뿐만 아니라 다양한 특성들이 존재하며 이에 대한 연구들은 현재에도 활발히 진행 중에 있다.
일반적으로, 인간이 음성 신호를 픽업하는 경우에는 청각기관을 통해 전달된 음성 신호를 픽업하게 된다. 따라서, 마이크 혹은 CTI 보드 등에서 픽업된 음성 신호에 상기와 같이 구성되는 인간 청각 모델 적용부(100)가 작용되어야 인간이 청취하는 입력 신호와 유사한 특성을 가질 수 있다. 앞서 설명한 바와 같이, 인간의 청각 특성은 단순히 소리를 감지하는 기능에만 그치지 않고 음성 언어를 인지하게 위해 필요한 음성 성분들을 인간이 잘 식별할 수 있게 도와주는 기능이 있다. 그러므로, 본 발명에서와 같이 부가잡음 제거장치의 전처리 단계에서 인간 청각 모델을 적용함으로써 인간의 청각 특성에 의해 음성 신호의 식별성이 보다 향상된 후, 부가잡음 제거장치에서 처리된다.
도 6 내지 도 9에는 상기 도 5에 도시된 인간 청각 모델 적용부(100)를 이용한 부가잡음 제거장치의 실시예가 도시되어 있다.
상기 도 6에 도시된 부가잡음 제거장치는 입력신호 버퍼링 및 프레이밍부(10), 인간 청각 모델 적용부(100), 음성 검출부(20), 주파수 스펙트럼 추정부(40), 부가잡음 추정부(30), 부가잡음 제거부(50) 및 신호 재생부(60)를 포함한다.
음성 신호가 상기 입력신호 버퍼링 및 프레이밍부(10)에 입력되면, 상기 입력신호 버퍼링 및 프레이밍부(10)는 실시간 처리를 위하여 음성 신호를 버퍼링하고, 그 다음에 일정 시간 간격마다 음성 신호를 프레임(frame) 단위로 구분하는 프레이밍 작용을 수행한다. 실시간 처리를 위한 음성 신호의 버퍼링에는 더블 버퍼(double buffer)가 이용되며, 이러한 입력 버퍼로부터 음성 분석을 위해서는 음성 신호를 몇십 ms에 해당하는 일정 시간 간격으로 시프트(shift)하면서 프레임으로 만든다.
상기 프레이밍된 음성 신호는 상기 인간 청각 모델 적용부(100)에 입력되며, 상기 인간 청각 모델 적용부(100)는 입력된 음성 신호에 대해 자동 이득 제어 과정, 외이 및 중이의 주파수 응답 적용 과정, 미세한 내부 잡음 처리 과정을 각각 수행하여 인간 청각 모델을 상기 음성 신호에 적용시킨다. 상기 인간 청각 모델 적용부(100)의 구체적인 구성 및 작용은 도 5를 참조하여 이미 설명된 바 있으므로, 중복을 피하기 위하여 여기서는 그 상세한 설명을 생략한다.
상기 음성 검출부(20)는 상기 인간 청각 모델 적용부(100)에서 처리된 음성 신호가 묵음 구간인지 또는 음성 구간인지를 판단한다. 이렇게 구해진 음성 신호에 대한 정보는 잡음 신호 및 음성 신호를 추정하는데 유용하게 이용된다. 만약, 부가잡음 제거장치에 음성 검출부가 구비되지 않은 경우에는 입력 신호의 초기 일정 구간이 묵음이라고 가정하여 잡음을 추정하며, 그 후 잡음 신호의 추정치는 거의 업데이트되지 않는다.
상기 주파수 스펙트럼 추정부(40)는 입력된 음성 신호를 주파수 영역으로 변환하여 주파수 스펙트럼을 생성하며, 상기 생성된 주파수 스펙트럼은 진폭(amplitude) 성분과 위상(phase) 성분으로 이루어진다. 이것은 음성 신호의 분석이 시간 영역보다 주파수 영역에서 보다 유리한 경우가 많기 때문이다. 상기 부가잡음 추정부(30)는 상기 주파수 스펙트럼 추정부(40)에서 생성된 주파수 스펙트럼을 이용하여 잡음의 스펙트럼 정보를 추정하는 역할을 수행한다. 이 때, 음성 검출부가 구비된 경우에는 상기 음성 검출부(20)에서 검출된 정보를 이용하면 보다 정확한 부가 잡음의 추정이 가능하다.
상기 부가잡음 제거부(50)는 상기 주파수 스펙트럼 추정부(40)로부터 입력된 주파수 스펙트럼으로부터 상기 부가잡음 추정부(30)에 의해 추정된 부가잡음을 제거하는 작용을 수행한다. 이렇게 함으로써 잡음이 제거되어 음질이 개선된 음성이 추정될 수 있다. 다음으로, 상기 신호 재생부(60)는 상기 부가잡음 제거부(50)에서 얻어진 부가잡음이 제거된 스펙트럼을 시간 영역으로 변환하는 작용을 수행한다. 따라서, 시간 영역에서 음질이 개선된 음성 신호가 얻어질 수 있다.
도 7에는 상기 도 6에 도시된 부가잡음 제거장치의 변형예가 도시되어 있으 며, 상기 도 7의 부가잡음 제거장치는 음성 검출부(20)가 제외되어 있다는 점에서 상기 도 6의 부가잡음 제거장치와 다르다. 상기 도 7의 부가잡음 제거장치에서 그 밖의 다른 구성 요소는 상기 도 6의 부가잡음 제거장치와 동일하므로, 중복을 피하기 위하여 그 상세한 설명을 생략한다.
도 8에는 상기 도 6에 도시된 부가잡음 제거장치의 또 다른 변형예가 도시되어 있으며, 상기 도 8의 부가잡음 제거장치는 상기 도 6의 부가잡음 제거장치의 신호 재생부(60) 대신에 특징벡터 추출부(70)가 구비되어 있다는 점이 다르다. 상기 특징벡터 추출부(70)는 부가 잡음이 제거된 음성 신호의 스펙트럼으로부터 음성 인식에 필요한 특징 벡터들을 추출하는 작용을 수행한다. 현재, 음성 인식을 위한 특징 벡터로는 MFCC(Mel-Frequency Cepstral Coefficient), PLP(Perceptual Linear Prediction coefficient), LPCC(Linear Predictive Cepstral coefficient), LSP(Line Spectral Pair) 등이 널리 사용되고 있다. 이와 추출된 특징 벡터들은 음성인식 시스템에 제공되며, 인간 청각 모델을 적용하여 얻어진 특징 벡터이므로 음성인식 성능의 향상에 기여할 수 있다. 상기 도 8의 부가잡음 제거장치에서 그 밖의 다른 구성 요소는 상기 도 6의 부가잡음 제거장치와 동일하므로, 중복을 피하기 위하여 그 상세한 설명을 생략한다.
도 9에는 상기 도 6에 도시된 부가잡음 제거장치의 변형예가 도시되어 있으며, 상기 도 9의 부가잡음 제거장치는 음성 검출부(20)가 제외되어 있고 신호 재생부(60) 대신에 특징벡터 추출부(70)가 구비되어 있다는 점에서 상기 도 6의 부가잡음 제거장치와 다르다. 상기 도 9의 부가잡음 제거장치에서 그 밖의 다른 구성 요 소는 상기 도 6의 부가잡음 제거장치와 동일하므로, 중복을 피하기 위하여 그 상세한 설명을 생략한다.
위와 같이 설명된 본 발명에 따른 부가잡음 제거장치는 음성 신호에 포함되어 있는 부가 잡음을 제거함으로써 음성 신호의 음질을 향상시킬 수 있다. 본 발명에 따른 부가잡음 제거장치는 음성통신 환경에서 입력된 음성 신호와 그 주위의 잡음을 분리하여 사용자 통화음질을 향상시키거나 다른 음성관련 응용분야에서 사용자 음질을 향상시키는 등 많은 응용분야에서 유용하게 이용될 수 있다. 특히, 실제 음성통신 환경에서 음성인식 시스템의 전처리 과정에 적용되는 경우, 음성인식 시스템의 성능을 크게 향상시킬 수 있는 장점을 가지고 있다. 따라서, 인간의 청각적 특성이 반영되어 입력된 음성 신호의 음질을 한 차원 더 향상시킬 수 있는 본 발명의 부가잡음 제거장치는 음성통신 환경에서 서비스의 질을 향상시킬 수 있을 뿐만 아니라 다른 음성관련 응용분야에서도 유용하게 활용될 수 있다. 예를 들어, 실제 음성통신 환경에서 음성인식 시스템의 전처리 과정에 적용되는 경우 종래의 기술보다 향상된 음성인식 성능을 얻을 수 있다.
이상으로 설명한 것은 본 발명에 따른 부가잡음 제거장치를 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기한 실시예에 한정되지 않고, 이하의 특허청구의 범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 미친다고 할 것이다.

Claims (8)

  1. 음성 신호를 입력받아 버퍼링하고, 일정 시간 간격마다 상기 음성 신호를 프레임 단위로 구분하는 프레이밍 작용을 수행하는 입력신호 버퍼링 및 프레이밍부;
    상기 입력된 음성 신호의 진폭에 대해 인간의 청각 특성과 유사하도록 자동 이득 제어를 수행하는 자동 이득 제어부, 상기 입력된 음성 신호에 대해 인간의 외이 및 중이의 주파수 응답 특성과 동일한 주파수 응답 특성을 갖는 필터를 이용하여 신호 처리를 수행하는 외이 및 중이의 주파수 응답 적용부 및 인간의 청각 기관 내부의 잡음을 모델링하여 상기 입력된 음성 신호를 처리하는 내부 잡음 처리부를 포함하여 구성되어 인간 청각 모델을 상기 음성 신호에 적용시키는 인간 청각 모델 적용부;
    입력된 음성 신호를 주파수 영역으로 변환하여 진폭 성분과 위상 성분으로 이루어진 주파수 스펙트럼을 생성하는 주파수 스펙트럼 추정부;
    상기 주파수 스펙트럼 추정부에서 생성된 주파수 스펙트럼을 이용하여 음성 신호에 부가된 잡음의 스펙트럼 정보를 추정하는 역할을 수행하는 부가잡음 추정부; 및
    상기 주파수 스펙트럼 추정부에서 생성된 주파수 스펙트럼으로부터 상기 부가잡음 추정부에 의해 추정된 부가잡음을 제거하는 작용을 수행하는 부가잡음 제거부를 포함하는
    인간 청각 모델을 이용한 부가잡음 제거장치.
  2. 삭제
  3. 제1항에 있어서,
    상기 자동 이득 제어부는 아래의 수학식과 같이 표현되는 인지 가중 필터를 이용하며, ai는 i번째 선형 예측 계수를 나타내고,
    Figure 112005057406438-pat00019
    1
    Figure 112005057406438-pat00020
    2는 상기 인지 가중 필터의 주파수 특성을 결정짓는 값으로서 0과 1 사이의 값을 가지는
    인간 청각 모델을 이용한 부가잡음 제거장치.
    Figure 112005057406438-pat00005
  4. 제1항 또는 제3항에 있어서,
    상기 외이 및 중이의 주파수 응답 특성은 아래의 수학식과 같은 주파수 응답 특성을 갖는 대역 통과 필터로 모델링되며, f는 Hz 단위의 주파수를 나타내고 f/kHz는 kHz 단위의 주파수로서 f/1000을 나타내는
    인간 청각 모델을 이용한 부가잡음 제거장치.
    Figure 112005057406438-pat00006
  5. 제4항에 있어서,
    상기 내부 잡음의 세기는 아래의 수학식으로 표현되는
    인간 청각 모델을 이용한 부가잡음 제거장치.
    Figure 112005057406438-pat00007
  6. 제1항에 있어서,
    상기 인간 청각 모델 적용부에서 처리된 음성 신호가 묵음 구간인지 또는 음성 구간인지를 판단하기 위한 음성 검출부를 더 포함하는
    인간 청각 모델을 이용한 부가잡음 제거장치.
  7. 제1항 또는 제6항에 있어서,
    상기 부가잡음 제거부에서 얻어진 부가잡음이 제거된 스펙트럼을 시간 영역으로 변환하는 작용을 수행하는 신호 재생부를 더 포함하는
    인간 청각 모델을 이용한 부가잡음 제거장치.
  8. 제1항 또는 제6항에 있어서,
    상기 부가잡음 제거부에서 얻어진 부가잡음이 제거된 스펙트럼으로부터 음성 인식에 필요한 특징 벡터들을 추출하는 작용을 수행하는 특징벡터 추출부를 더 포함하는
    인간 청각 모델을 이용한 부가잡음 제거장치.
KR1020030057646A 2003-08-20 2003-08-20 인간 청각 모델을 이용한 부가잡음 제거장치 KR100565428B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020030057646A KR100565428B1 (ko) 2003-08-20 2003-08-20 인간 청각 모델을 이용한 부가잡음 제거장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030057646A KR100565428B1 (ko) 2003-08-20 2003-08-20 인간 청각 모델을 이용한 부가잡음 제거장치

Publications (2)

Publication Number Publication Date
KR20050019686A KR20050019686A (ko) 2005-03-03
KR100565428B1 true KR100565428B1 (ko) 2006-03-30

Family

ID=37228901

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030057646A KR100565428B1 (ko) 2003-08-20 2003-08-20 인간 청각 모델을 이용한 부가잡음 제거장치

Country Status (1)

Country Link
KR (1) KR100565428B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102059341B1 (ko) 2013-04-02 2019-12-27 삼성전자주식회사 난청인의 청각 모델을 이용한 파라미터 결정 장치 및 방법

Also Published As

Publication number Publication date
KR20050019686A (ko) 2005-03-03

Similar Documents

Publication Publication Date Title
EP2643834B1 (en) Device and method for producing an audio signal
US5757937A (en) Acoustic noise suppressor
EP2643981B1 (en) A device comprising a plurality of audio sensors and a method of operating the same
JP6553111B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
EP1208563B1 (en) Noisy acoustic signal enhancement
KR100750440B1 (ko) 잔향 추정 및 억제 시스템
EP2306457B1 (en) Automatic sound recognition based on binary time frequency units
US20060224382A1 (en) Noise reduction and audio-visual speech activity detection
AU2011200494A1 (en) A speech intelligibility predictor and applications thereof
CN101593522A (zh) 一种全频域数字助听方法和设备
JP4816711B2 (ja) 通話音声処理装置および通話音声処理方法
KR101260938B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
JP2011033717A (ja) 雑音抑圧装置
Itoh et al. Environmental noise reduction based on speech/non-speech identification for hearing aids
CN112053702A (zh) 一种语音处理的方法、装置及电子设备
Sun et al. Investigations into the relationship between measurable speech quality and speech recognition rate for telephony speech
JPH04245300A (ja) 雑音除去装置
KR100565428B1 (ko) 인간 청각 모델을 이용한 부가잡음 제거장치
KR101610708B1 (ko) 음성 인식 장치 및 방법
WO2021059497A1 (ja) 音信号処理装置、音信号処理方法および記憶媒体
JP2002064617A (ja) 反響抑圧方法・反響抑圧装置
KR100574883B1 (ko) 비음성 제거에 의한 음성 추출 방법
EP1104925A1 (en) Method for processing speech signals by substracting a noise function
JPH03269498A (ja) 雑音除去方式
JP2003316380A (ja) 会話を含む音の信号処理を行う前の段階の処理におけるノイズリダクションシステム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130304

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140303

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20150226

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20160226

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20170224

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20180226

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20190311

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20200310

Year of fee payment: 15