KR20060109418A - 인지 가중 필터를 이용한 전처리 방법 및 전처리기 - Google Patents

인지 가중 필터를 이용한 전처리 방법 및 전처리기 Download PDF

Info

Publication number
KR20060109418A
KR20060109418A KR1020060096954A KR20060096954A KR20060109418A KR 20060109418 A KR20060109418 A KR 20060109418A KR 1020060096954 A KR1020060096954 A KR 1020060096954A KR 20060096954 A KR20060096954 A KR 20060096954A KR 20060109418 A KR20060109418 A KR 20060109418A
Authority
KR
South Korea
Prior art keywords
speech
input
weighting filter
perceptual weighting
cognitive weighting
Prior art date
Application number
KR1020060096954A
Other languages
English (en)
Other versions
KR100741355B1 (ko
Inventor
장준혁
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020060096954A priority Critical patent/KR100741355B1/ko
Publication of KR20060109418A publication Critical patent/KR20060109418A/ko
Application granted granted Critical
Publication of KR100741355B1 publication Critical patent/KR100741355B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 인지 가중 필터를 이용한 전처리 방법에 관한 것으로서, 인지 가중 필터에 대하여 듣기 테스트를 통해 주관적으로 인지 가중 상수 값을 결정하는 단계 및 결정된 인지 가중 상수 값을 갖는 인지 가중 필터를 이용하여 음성 코덱에 입력될 입력 음성에 대하여 전처리를 행하는 단계를 포함한다.
본 발명에 따른 전처리 방법에 의하면, 인지 가중 필터를 포함하는 인지적으로 개선된 전처리 과정을 통해 가청 양자화 오차를 줄임으로써, 대부분의 조건에서 종래의 방법들에 비해 코덱 출력에서 주관적으로 향상된 음성 신호를 얻을 수 있었다.
음성 향상, 음성 수정, 전처리 단계, 인지 가중 필터, 인지 가중 상수 값, 가청 양자화 오차, 코덱

Description

인지 가중 필터를 이용한 전처리 방법 및 전처리기{A PREPROCESSING METHOD AND A PREPROCESSOR USING A PERCEPTUAL WEIGHTING FILTER}
도 1은 통상적인 음성향상 처리에 대한 흐름을 도시한 도면.
도 2는 본 발명의 일 실시예에 따라 인지 가중 필터를 적용한 경우를 인지 가중 필터를 적용하지 않은 경우와 비교하는 도면.
<도면 중 주요 부분에 대한 부호의 설명>
110 : 전처리 단계
120 : 음성 향상 단계
130 : 후처리 단계
본 발명은 음성 처리를 위한 전처리 방법에 관한 것으로서, 보다 구체적으로는 인지 가중 필터를 이용한 전처리 방법 및 전처리기에 관한 것이다.
일반적으로, 저 전송률 음성 코더(low-bit-rate speech coder)의 성능은, 배경 잡음, 음향학적 에코들, 음악 소리 또는 간섭하는 화자의 음성과 같은 다양한 간섭 신호들이 존재하는 경우 심각하게 저하된다. 이러한 현상은 주로 가정된 음 성 생성 모델(코더에서 사용된 다수의 코드북은 많은 양의 음성 데이터 및 순수 음성 신호에 맞추어 특정된 파라미터 검색에 대한 범위에 기초하여 트레이닝 되기 때문에, 음성 생성 모델이 코드북 트레이닝에서 사용됨)로부터의 이탈에 의해 초래된다. 저 전송률 코딩에 대해 원하지 않는 왜곡을 감소시키는 방법의 성공적인 응용 중의 하나는, 한국특허 등록번호 제10-304666호 등에 개시된 것과 같은 음성향상 방법(speech enhancement technique)의 적용이다. 그러나, 이들 음성향상 방법들은 정상 배경 잡음(stationary background noise)의 존재 하에서는 음성향상에 효과적이라고 밝혀져 왔지만, 음향학적 에코들, 음악 소리 또는 간섭 음성과 같은 간섭 신호들의 존재 하에서는 그 성능이 많이 저하된다는 문제점이 있다. 이것은 주로 이러한 종래의 접근법들이 음성 코더의 특성들을 이용할 수 없는 개방 루프 분석법(open loop analysis)을 채택하기 때문이다.
본 발명은 상기와 같은 문제점을 해결하기 위해 제안된 것으로서, 인지 가중 필터를 포함하는 인지적으로 개선된 전처리 과정을 통해 가청 양자화 오차를 줄임으로써 코덱의 출력에서 향상된 음성을 제공하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 전처리 방법은, 입력-출력 특성을 모델링한 전달 함수가 벡터 Q인 음성 코덱(출력 = Q(입력))에 입력될 입력 음성에 대하여 적용되는 방법으로서,
Figure 112006072034208-PAT00001
에 의해 주어지는 인지 가중 필터에 대하여 듣기 테스트를 통해 주관적으로 인지 가중 상수
Figure 112006072034208-PAT00002
값을 결정하는 단계(여기서,
Figure 112006072034208-PAT00003
는 p-차 선형 예측 분석 필터이고,
Figure 112006072034208-PAT00004
는 선형 예측 계수임); 및
상기 결정 단계에서 결정된 상기
Figure 112006072034208-PAT00005
값을 갖는 상기 인지 가중 필터를 이용하여 음성 코덱에 입력될 입력 음성에 대하여
Figure 112006072034208-PAT00006
를 적용하여 전처리하는 단계(여기서,
Figure 112006072034208-PAT00007
은 본 발명에 따라 전처리된 입력 음성, X는 전처리되기 전의 입력 음성, I는 N X N 항등 매트릭스, K는 양의 상수 수정 인자,
Figure 112006072034208-PAT00008
, WQ는 양자화 오차들에 대한 인지 가중 필터의 대각 매트릭스임)를 포함함을 특징으로 한다.
이하에서 첨부된 도면을 참조하여 본 발명의 실시예를 보다 상세히 설명하기 로 한다.
도 1은 통상적인 음성향상 방법에 대한 흐름도를 도시한 도면이다. 도 1에 도시된 바와 같이, 통상적인 음성향상 처리는 전처리 단계(110), 음성향상 단계(120) 및 후처리 단계(130)로 구성된다. 통상적으로, 전처리 단계(110)에서는 잡음이 섞여서 입력되는 음성신호에 대해 프리-엠퍼시스(pre-emphasis)와 고속 푸리에 변환(FFT; Fast Fourier Transform)이 행해진다. 음성향상 단계(120)에서는 전처리 단계(110)에서 전처리된 입력 음성 신호에 대해 여러 가지 음성향상 방법들을 적용하여 실제적인 음성향상 처리를 행하게 되며, 후처리 단계(130)에서는 음성향상 단계(120)에서 음성향상 처리된 신호에 대해 역 고속 푸리에 변환(IFFT)과 디-엠퍼시스(de-emphasis)가 행해지게 된다. 본 발명은 상기 단계들 중 전처리 단계(110)에 관한 것으로, 잡음이 섞여서 입력되는 음성신호에 대해 단순히 프리-엠퍼시스와 고속 푸리에 변환을 행하는 것에 머무는 것이 아니라, 인지 가중 필터를 적용하여 입력 음성을 수정함으로써 가청 양자화 오차를 줄여 음성향상을 꾀하는 발명이다. 본 발명의 구체적인 내용, 즉 본 발명에 따른 전처리 단계(110)에 대해서 아래에서 더욱 상세하게 설명하기로 한다.
시스템 매트릭스를 위한 시스템 식별
먼저 시스템 매트릭스 평가에 대한 기본 이론을 간단히 검토한다. 일반화된 AbS(Analysis-by-Synthesis) 패러다임을 사용하면, 입력 음성 신호는 코더에 입력되기 전에 수정되어 수신기 측에서 최소한의 왜곡을 가지고 재생성될 수 있도록 한 다. 본 발명에 따른 접근법에서는, 인코더에 적용하기 전에 입력 벡터 x를 수정하여 음성 코더에 더 적합한 수정 입력 벡터를 생성한다. y=[y(0), y(1), …, y(M-1)]T를 입력 벡터 x를 수정함으로써 얻어지는 신호 샘플들이라고 하고, z=[z(0), z(1), …, z(M-1)] T를 y가 코더에서 적용되고 난 후 디코더에서 재합성되는 경우에 생성되는 출력 벡터라고 하자. 또한, Y=[Y(0), Y(1), …, Y(N-1)]T와 Z=[Z(0), Z(1), …, Z(N-1)]T를 각각 y와 z의 변환 도메인 표현(transform domain representation)이라고 하자. 일반성을 잃지 않고도, Z=Q(Ya)이고, Ya T=[Yp T|YT|Yf T]는 확대된 입력 벡터이며, Q(·)는 코덱의 입력-출력 특성을 모델링한 전달 함수를 나타낸다고 가정할 수 있다. 여기서, Y는 현재 프레임의 입력 데이터를 나타내고, Yp는 이전 데이터를 나타내며, Yf는 흔히 룩-어헤드 데이터(look-ahead data)라고 지칭되는 미래의 입력 샘플들을 나타낸다. 그런데, 코덱 출력 Z는 주로 현재 입력 Y에 의해 영향을 받으므로, 이전 및 룩-어헤드 데이터의 효과는 별다른 모델링 오차 없이 무시될 수 있다고 가정할 수 있다. 이러한 이유로, Z=Q(Y)라고 가정할 수 있다.
전달 매트릭스 Q의 평가(estimation)는 시스템 식별 기술(system identification technique)을 선택하는 것으로부터 얻어진다. 전달 매트릭스 Q의 평가에 대한 도출을 제공하기 위해, 본 발명에서는 재귀 최소 제곱(recursive least square; RLS) 평가 프로시저를 따른다. 전달 매트릭스 Q의 평가에 대한 보다 상세한 설명은 "A preprocessor for low-bit-rate speech coding" (IEEE Signal Processing Letters, vol. 9(10), October 2002, pp. 318-321, 김남수, 장준혁)을 참조하면 된다.
음성 수정을 위한 인지 가중 필터
통상, 인지 가중 프로시저는 종종 음성 코더 성능에서 향상된 결과를 초래한다. 흔히 사용되는 가중 필터는, 음성 신호 내의 단기 상관 관계(short-term correlation)를 나타내는 선형 예측(LP) 계수들에 기초한다. 대표적인 인지 가중 필터 W(z)는 앞서 살펴본 수학식 1과 같이 주어진다. 수학식 1에서, A(z)는 p-차 LP 분석 필터이고, ai는 LP 계수인데, 필터 계수들을 계산하기 위해 선형 예측 분석이 사용된다. 또한,
Figure 112006072034208-PAT00009
는 인지적으로 가중된 인자로서, 중심 포먼트 주파수를 변경시키지는 않고 포먼트들의 대역폭을 넓히기만 하는데, 특히 주파수 증가분 δf는 δf = (fs/π) ln
Figure 112006072034208-PAT00010
(Hz)로서 주어지며, 여기서 fs는 헤르츠 단위의 샘플링 주파수이다. 이러한 이유로, 가중 필터는 음성 신호의 포먼트 밸리들을 강조하는 반면에, 포먼트 구조는 강조하지 않는다. 이것은 포먼트들 영역에서 더욱 큰 매칭 오차의 결과를 초래하는데, 포먼트들 영역에서는 스펙트럼 마스킹에 의해 청각 시스템이 양자화 오차에 덜 민감하게 된다.
Figure 112006072034208-PAT00011
의 가장 적합한 값은 듣기 테스트들에 의해 주관적으로 선택되는데, 본 발명의 일 실시예에서는 8kHz 샘플링에 대해
Figure 112006072034208-PAT00012
가 0.9로 선택된다.
만약 z-도메인에서 W(z)(=
Figure 112006072034208-PAT00013
)가 유한 임펄스 응답(finite impulse response; FIR) 시퀀스 형태의 시간 도메인 응답 f(n)을 가진다고 가정하면, f(n)은 다음과 같이 주어진다.
Figure 112006072034208-PAT00014
여기서, 본 발명에 따른 일 실시예에서는 p의 값으로 12를 선택하는데, 이 값은 실험적으로 선택된 값이다. p의 값으로 12를 선택함으로써, 임펄스 응답이 더 지속함에도 불구하고, f(n)을 단지 처음 12개 샘플로만 잘라내게 된다. 그 결과, 모음 세그먼트에 충분하고 적합한 평탄화된 스펙트럼을 얻게 되는데, 상기 스펙트럼은 주관적인 음성 품질의 관점에서 적합한 것으로 간주된다.
이 때문에, 값이 0인 충분한 샘플들을 가지고 f(n)을 보충하여 N-포인트 시퀀스를 형성하고, 이에 대해 이산 푸리에 변환(DFT)을 사용함으로써 W(ej ω)를 계산할 수 있다.
Figure 112006072034208-PAT00015
을 제공하는 0으로 메워진 f(n) 시퀀스의 DFT를 취한다. 주어진 Q에 대해, 입력 벡터 X의 수정은 다음 기준에 따라 획 득된다:
Figure 112006072034208-PAT00016
.
종래 음성 수정에 대한 기준으로, "A preprocessor for low-bit-rate speech coding"(IEEE Signal Processing Letters, vol. 9(10), October 2002, pp. 318-321, 김남수, 장준혁)에서는 다음과 같은 목적 함수가 사용되었다.
Figure 112006072034208-PAT00017
여기서, K는 음성 수정에 대한 (양의 상수인) 수정 인자로 지칭되며, W는 인지 가중 필터이며,
Figure 112006072034208-PAT00018
(#는 Hermitian 연산을 의미함)이다.
본 발명에서는 상기 목적 함수 대신에, 양자화 오차에 대하여 인지 가중 필터를 포함하는 다음과 같은 새로운 목적 함수를 제안한다.
Figure 112006072034208-PAT00019
여기서, WQ는 양자화 오차들에 대한 인지 가중 필터의 대각 매트릭스(diagonal matrix)를 나타낸다. J(Y)를 Y에 관하여 편미분 하면,
Figure 112006072034208-PAT00020
여기서,
Figure 112006072034208-PAT00021
이고, I는 N x N 항등 매트릭스(identity matrix)이다. 상기 수학식 6을 0으로 두고 풀면, 다음과 같은 해를 얻을 수 있다.
Figure 112006072034208-PAT00022
수학식 7로부터, 본 발명에 따른 접근법에서 GW는 KWQ를 대신하고 있다는 것을 확인할 수 있다. 상기 유도식을 정리하면, GW는 인지 가중된 수정 인자가 되는데, 이것은 개별적인 음성 수정 인자가 각각의 주파수 빈에 할당되는 것을 의미하며, 보다 강인하고 현실적이라고 생각된다.
수학식 4의 목적 함수로부터, 수정 및 양자화 오차들의 양이 양의 상수 수정 인자 K에 의해 제어된다는 것을 분명하게 확인할 수 있다. 만약 K가 큰 값이면, 양자화 오차에 보다 중요성이 놓이며, 입력 음성의 보다 큰 수정이 허용된다. 그러나, 상기 수학식 4에서는 고정된 K가 모든 주파수 성분들에 대해 동일하게 적용되게 되므로, 인지 가중 원리의 장점을 최대한으로 활용할 수 없다. 음성 신호의 포먼트 밸리들에서의 양자화 잡음은 인간 청취자의 귀에 더욱더 거슬리는 경향이 있다. 이 때문에, 포먼트 밸리들 상에서는 보다 강한 음성 수정이 요구된다. 전술한 바와 같이, 인지 가중 필터는 포먼트 밸리들은 강조하는 반면, 포먼트 부분들은 강조하지 않으므로 이러한 요구에 부합한다. 한편, GW는 양의 상수 K와 인지 가 중 필터가 결합한 값이기 때문에, 포먼트 밸리들에서는 더욱 강한 음성 수정을 적용하고, 포먼트 영역들에서는 약하게 음성 수정을 적용하는 것이 가능하다. 즉, 본 발명에 따르면 가청 양자화 잡음이 주로 위치하는 포먼트 밸리에 대해서 선택적으로 강한 음성 수정을 적용할 수 있다는 장점을 가진다. 다수의 청취 테스트들을 통해, 인지 가중 필터가 LP 분석에 따른 복잡성에서의 약간의 증가를 대가로 가청 양자화 잡음을 최소화하는 것으로 확인되었다. 구체적인 실험 결과는 도 2를 참조하여 아래에서 상세하게 설명한다.
실험 결과
도 2는 본 발명의 일 실시예에 따라 인지 가중 필터를 적용한 경우를 인지 가중 필터를 적용하지 않은 경우와 비교하는 도면이다.
도 2(a)는 유성음 부분에 초점을 둘 경우, 깨끗한 입력 음성(실선 표시)과 잡음이 섞인 수정된 입력 음성(점선 표시)을 도시한다. 도 2(b)는 잡음이 섞인 수정된 입력 음성에 대해 본 발명에 따른 인지 가중 필터를 적용한 경우(실선 표시)와 적용하지 않은 경우(점선 표시) 각각에 대한 음성 수정의 결과를 도시한다. 그림으로부터, 본 발명에 따라 인지 가중 필터를 적용한 경우, 인지 가중 필터를 적용하지 않은 종래의 방법에 비해 포먼트 밸리들에서 보다 강한 수정이 일어나는 것을 분명하게 확인할 수 있다. 도 2(c)는 본 발명에 따른 인지 가중 필터를 적용한 경우(실선 표시)와 적용하지 않은 경우(점선 표시) 각각에 대한 음성 수정 인자를 도시한다. 그림으로부터, 본 발명에 따른 인지 가중 필터를 적용하는 경우 인지 가중 필터를 적용하지 않은 경우보다 포먼트 밸리들에서의 수정 인자가 훨씬 높게 되는 것을 확인할 수 있다.
본 발명에 따른 접근법의 주관적인 품질은 10명의 다양한 청취자들의 평균 평가점(mean opinion score; MOS)을 사용하여 평가되었다. 20개의 테스트 문장들(10개는 남성 화자에 의해 생성되었고, 나머지 10개는 여성 화자에 의해 생성되었음)이 품질 측정을 위해 사용되었다. 각각의 문장은 8kHz에서 샘플링되었으며, 프레임 크기는 10ms였다. 타깃 음성 코더로서, 우리는 ITU-T 8kb/s 음성 코더 G.729A를 사용하였다. 입력 음성 수정에 대하여, 각각의 프레임의 데이터는 대응 DFT 계수들로 이루어지는 벡터로 변환되었으며, 수정은 80 포인트 DFT 도메인에서 이루어졌다.
잡음이 섞인 환경을 시뮬레이션하기 위해, 우리는 신호대 잡음 비(SNR)를 변화시켜가면서 NOISEX-92 데이터베이스로부터의 배블 잡음(babble noise) 및 백색 잡음을 추가하였다. 또한, 배경 음악 신호 및 함께 대화하는 화자의 음성(간섭 음성)도 입력 음성 품질을 저하하기 위해 사용되었다. MOS 결과가 아래 표 1에 도시된다.
조건 (SNR) G.729A 종래의 방법 본 발명에 따른 방법
깨끗한 음성 4.12 ± 0.02 4.14 ± 0.02 4.14 ± 0.02
백색 잡음 (5dB) 2.00 ± 0.07 2.18 ± 0.07 2.30 ± 0.07
백색 잡음 (10dB) 2.75 ± 0.08 2.90 ± 0.08 3.11 ± 0.09
배블 잡음 (5dB) 2.70 ± 0.07 2.90 ± 0.10 2.95 ± 0.10
배블 잡음 (10dB) 3.07 ± 0.10 3.17 ± 0.10 3.27 ± 0.10
음악 소리 (5dB) 2.80 ± 0.11 3.12 ± 0.11 3.25 ± 0.11
음악 소리 (10dB) 3.20 ± 0.12 3.35 ± 0.12 3.50 ± 0.11
간섭 음성 (5dB) 2.52 ± 0.10 2.80 ± 0.10 2.85 ± 0.10
간섭 음성 (10dB) 3.02 ± 0.10 3.15 ± 0.11 3.17 ± 0.11
여기서, 상기 결과는 95% 신뢰 구간을 가지며, 종래의 방법은 "A preprocessor for low-bit-rate speech coding" (IEEE Signal Processing Letters, vol. 9(10), October 2002, pp. 318-321, 김남수, 장준혁)에 따른 방법을 나타낸다.
표에서 모든 점수들은 K = 0.2에서 얻어졌다. 표에 나타난 결과들로부터, 본 발명에 따른 접근법이 대부분의 테스트 환경에서 종래의 방법에 비해 향상된 결과를 가져다준다는 것을 확인할 수 있다. 성능 향상은 다른 경우에 비해 백색 잡음 및 음악 소리가 더해지는 조건에서 더욱 큰 것으로 확인되었다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
본 발명에 따르면, 인지 가중 필터를 포함하는 인지적으로 개선된 전처리 과정을 통해 가청 양자화 오차를 줄임으로써, 대부분의 조건에서 종래의 방법들에 비해 코덱 출력에서 주관적으로 향상된 음성 신호를 얻을 수 있었다.

Claims (3)

  1. 입력-출력 특성을 모델링한 전달 함수가 벡터 Q인 음성 코덱(출력 = Q(입력))에 입력될 입력 음성에 대한 전처리 방법에 있어서,
    아래 식에 의해 주어지는 인지 가중 필터에 대하여 듣기 테스트를 통해 인지 가중 상수
    Figure 112006072034208-PAT00023
    값을 주관적으로 결정하는 단계; 및
    Figure 112006072034208-PAT00024
    (여기서,
    Figure 112006072034208-PAT00025
    는 p-차 선형 예측 분석 필터이고,
    Figure 112006072034208-PAT00026
    는 선형 예측 계수임)
    상기 결정 단계에서 결정된 상기
    Figure 112006072034208-PAT00027
    값을 갖는 상기 인지 가중 필터를 이용하여 음성 코덱에 입력될 입력 음성에 대하여 다음 식을 적용하여 전처리하는 단계
    Figure 112006072034208-PAT00028
    (여기서,
    Figure 112006072034208-PAT00029
    은 본 발명에 따라 전처리된 입력 음성, X는 전처리되기 전의 입력 음성, I는 N X N 항등 매트릭스, K는 양의 상수 수정 인자,
    Figure 112006072034208-PAT00030
    , WQ는 양자화 오차들에 대한 인지 가중 필터의 대각 매트릭스이며, #은 Hermitian 연산을 나타냄)
    를 포함하는 전처리 방법.
  2. 제1항에 있어서,
    상기
    Figure 112006072034208-PAT00031
    값은 0.9로 결정되는 전처리 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 전처리 방법에 따라 입력 음성에 대해 전처리를 행하는 전처리기.
KR1020060096954A 2006-10-02 2006-10-02 인지 가중 필터를 이용한 전처리 방법 KR100741355B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060096954A KR100741355B1 (ko) 2006-10-02 2006-10-02 인지 가중 필터를 이용한 전처리 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060096954A KR100741355B1 (ko) 2006-10-02 2006-10-02 인지 가중 필터를 이용한 전처리 방법

Publications (2)

Publication Number Publication Date
KR20060109418A true KR20060109418A (ko) 2006-10-20
KR100741355B1 KR100741355B1 (ko) 2007-07-20

Family

ID=37615721

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060096954A KR100741355B1 (ko) 2006-10-02 2006-10-02 인지 가중 필터를 이용한 전처리 방법

Country Status (1)

Country Link
KR (1) KR100741355B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100718528B1 (ko) * 2006-10-25 2007-05-16 인하대학교 산학협력단 입력 음성을 수정함으로써 음성 품질을 향상시키는 방법 및이를 구현한 시스템
KR20150079805A (ko) * 2012-10-24 2015-07-08 에이에스엠엘 네델란즈 비.브이. 기판 위치설정 시스템, 리소그래피 장치 및 디바이스 제조 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR960012937B1 (ko) * 1993-08-31 1996-09-25 대우전자 주식회사 적응적 전처리 기능을 갖는 영상 부호화 장치
KR970008415B1 (ko) * 1993-12-24 1997-05-23 고등기술연구원 연구조합 동영상 부호화장치의 전처리 방법
KR100841096B1 (ko) * 2002-10-14 2008-06-25 리얼네트웍스아시아퍼시픽 주식회사 음성 코덱에 대한 디지털 오디오 신호의 전처리 방법
KR100754439B1 (ko) * 2003-01-09 2007-08-31 와이더댄 주식회사 이동 전화상의 체감 음질을 향상시키기 위한 디지털오디오 신호의 전처리 방법
KR20050115779A (ko) * 2004-06-05 2005-12-08 삼성전자주식회사 다 해상도 기반의 동 영상 부호화 방법 및 시스템

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100718528B1 (ko) * 2006-10-25 2007-05-16 인하대학교 산학협력단 입력 음성을 수정함으로써 음성 품질을 향상시키는 방법 및이를 구현한 시스템
KR20150079805A (ko) * 2012-10-24 2015-07-08 에이에스엠엘 네델란즈 비.브이. 기판 위치설정 시스템, 리소그래피 장치 및 디바이스 제조 방법

Also Published As

Publication number Publication date
KR100741355B1 (ko) 2007-07-20

Similar Documents

Publication Publication Date Title
Williamson et al. Time-frequency masking in the complex domain for speech dereverberation and denoising
Kingsbury et al. Robust speech recognition using the modulation spectrogram
Chen et al. New insights into the noise reduction Wiener filter
Hansen Morphological constrained feature enhancement with adaptive cepstral compensation (MCE-ACC) for speech recognition in noise and Lombard effect
JP7383725B2 (ja) オーディオデコーダ、フィルタの特性を定義する値のセットを決定するための装置、復号されたオーディオ表現を提供するための方法、フィルタの特性を定義する値のセットを決定するための方法、およびコンピュータプログラム
Liu et al. Bone-conducted speech enhancement using deep denoising autoencoder
Sadjadi et al. Blind spectral weighting for robust speaker identification under reverberation mismatch
Yu et al. A deep neural network based Kalman filter for time domain speech enhancement
Liang et al. Real-time speech enhancement algorithm based on attention LSTM
Garg et al. A comparative study of noise reduction techniques for automatic speech recognition systems
Martin et al. A noise reduction preprocessor for mobile voice communication
O'Shaughnessy Enhancing speech degrated by additive noise or interfering speakers
Nandkumar et al. Dual-channel iterative speech enhancement with constraints on an auditory-based spectrum
O'Shaughnessy Speech Enhancement—A Review of Modern Methods
Elshamy et al. An iterative speech model-based a priori SNR estimator
KR100741355B1 (ko) 인지 가중 필터를 이용한 전처리 방법
Bäckström et al. Voice activity detection
Wang Speech enhancement in the modulation domain
Thiagarajan et al. Pitch-based voice activity detection for feedback cancellation and noise reduction in hearing aids
Tiwari et al. Speech enhancement using noise estimation with dynamic quantile tracking
Shu et al. A human auditory perception loss function using modified bark spectral distortion for speech enhancement
Peng et al. Perceptual Characteristics Based Multi-objective Model for Speech Enhancement.
Feng et al. DNN-based linear prediction residual enhancement for speech dereverberation
Tzudir et al. Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients
Le et al. Harmonic enhancement using learnable comb filter for light-weight full-band speech enhancement model

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120702

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20130527

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee