KR100587568B1 - Speech enhancement system and method - Google Patents
Speech enhancement system and method Download PDFInfo
- Publication number
- KR100587568B1 KR100587568B1 KR1020030016896A KR20030016896A KR100587568B1 KR 100587568 B1 KR100587568 B1 KR 100587568B1 KR 1020030016896 A KR1020030016896 A KR 1020030016896A KR 20030016896 A KR20030016896 A KR 20030016896A KR 100587568 B1 KR100587568 B1 KR 100587568B1
- Authority
- KR
- South Korea
- Prior art keywords
- noise
- frame
- voice
- real part
- imaginary part
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000001629 suppression Effects 0.000 claims abstract description 32
- 230000003595 spectral effect Effects 0.000 claims description 19
- 238000001228 spectrum Methods 0.000 claims description 15
- 230000002787 reinforcement Effects 0.000 claims description 12
- 230000003014 reinforcing effect Effects 0.000 claims description 7
- 239000003623 enhancer Substances 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 5
- 238000011410 subtraction method Methods 0.000 description 5
- 230000002708 enhancing effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B01—PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
- B01D—SEPARATION
- B01D35/00—Filtering devices having features not specifically covered by groups B01D24/00 - B01D33/00, or for applications not specifically covered by groups B01D24/00 - B01D33/00; Auxiliary devices for filtration; Filter housing constructions
- B01D35/14—Safety devices specially adapted for filtration; Devices for indicating clogging
- B01D35/153—Anti-leakage or anti-return valves
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B01—PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
- B01D—SEPARATION
- B01D2201/00—Details relating to filtering apparatus
- B01D2201/16—Valves
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B01—PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
- B01D—SEPARATION
- B01D2201/00—Details relating to filtering apparatus
- B01D2201/29—Filter cartridge constructions
Landscapes
- Chemical & Material Sciences (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
본 발명은 잡음 억제 처리시 뮤지컬 노이즈의 발생을 최소화하면서 음성신호 성분을 강화시킬 수 있는 음성 향상 시스템 및 방법에 관한 것으로, 입력된 음성신호를 프레임 단위로 나눈 다음, 상기 프레임이 잡음 성분만을 가진 잡음 프레임인 경우 상기 잡음 프레임의 실수부와 허수부에 대하여 각각 잡음 억제 처리를 수행한 후, 상기 프레임의 실수부와 허수부에 대하여 각각 음성 강화 처리를 수행하는 것을 특징으로 한다. The present invention relates to a voice enhancement system and method that can enhance a voice signal component while minimizing the generation of musical noise during noise suppression processing. After dividing an input voice signal into frame units, the frame has a noise component only. In the case of a frame, after the noise suppression process is performed on the real part and the imaginary part of the noise frame, the voice enhancement process is performed on the real part and the imaginary part of the frame, respectively.
잡음, 억제, 음성, 향상, musical, noiseNoise, suppression, voice, enhancement, musical, noise
Description
도 1은 종래의 음성 향상 방법을 설명하기 위한 도면이다.1 is a view for explaining a conventional voice enhancement method.
도 2는 본 발명에 따른 음성 향상 시스템의 블럭도이다.2 is a block diagram of a speech enhancement system according to the present invention.
도 3은 도 2에 도시된 잡음 평균 계산부의 상세 구성도이다.3 is a detailed block diagram of the noise average calculator illustrated in FIG. 2.
도 4는 본 발명에 따른 음성 향상 방법의 흐름도이다.4 is a flowchart of a voice enhancement method according to the present invention.
도 5는 본 발명에 의해 음성성분이 강화된 일예를 나타낸 도면이다.5 is a view showing an example in which the negative component is enhanced by the present invention.
* 도면의 주요부분에 대한 부호의 설명 *Explanation of symbols on the main parts of the drawings
10...전처리부 20...고속 퓨리에 변환부10
30...잡음 억제부 40...음성 검출부30 ...
50...잡음 평균 계산부 51...제1 잡음 평균 계산부50 ... noise
52...제2 잡음 평균 계산부 53...힐버트 변환부52 ... second noise
54...엔벨로프 크기 검출부 55...Mean 계산부54 ...
60...잡음 가중치 계산부 70...곱셈기60 ...
80...음성 강화부 90...음성 가중치 계산부80 ...
100...곱셈기 110...역고속 퓨리에 변환부100
120...오버랩부120.Overlap
본 발명은 음성 향상 시스템 및 방법에 관한 것으로서, 특히 잡음 억제 처리시 뮤지컬 노이즈(musical noise)의 발생을 최소화하면서 음성신호 성분을 강화시킬 수 있는 음성 향상 시스템 및 방법에 관한 것이다.The present invention relates to a speech enhancement system and method, and more particularly, to a speech enhancement system and method capable of enhancing speech signal components while minimizing the generation of musical noise during noise suppression processing.
음성신호 프로세싱에서 공통적인 문제점은 배경잡음 성분은 억제하고 음성신호 성분은 향상시키는 것인데, 그 대표적인 음성 향상 방법으로, 도 1에 도시된 바와 같이 잡음이 섞인 입력신호를 퓨리에 변환한 다음 서브트렉션 필터(S)(Subtraction Filter)를 사용해 퓨리에 변환된 신호 스펙트럼에서 잡음 스펙트럼을 감산하여 배경잡음을 억제시키는 스펙트럼 감산법(Spectral Subtraction Method)을 들 수 있다. A common problem in speech signal processing is to suppress background noise components and to improve speech signal components. A typical speech enhancement method is to perform a Fourier transform on a noisy input signal as shown in FIG. Spectral Subtraction Method (S) (Subtraction Filter) is used to subtract the noise spectrum from the Fourier transformed signal spectrum to suppress background noise.
그러나, 상기와 같은 스펙트럼 감산법에 의해 잡음 억제 처리를 하면, 실제 잡음 스펙트럼을 정확하게 추정할 수 없기 때문에 원래의 음성신호 스펙트럼에서 추정된 잡음 스펙트럼을 감산할 때 음성신호의 스펙트럼이 0 이하의 값을 갖게될 수 있으며, 이러한 경우 스펙트럼 감산법은 0 이하의 값을 갖는 구간을 강제로 작은값으로 할당하는 방식을 취하므로, 이로 인하여 특유의 주파수 잡음인 뮤지컬 노이즈가 발생되어 잡음 억압후의 음성이 극히 부자연스러워질 수 있다는 문제점이 있다.However, when the noise suppression process is performed by the spectral subtraction method as described above, since the actual noise spectrum cannot be estimated accurately, when the noise spectrum estimated from the original speech signal spectrum is subtracted, the value of the speech signal has a value of 0 or less. In this case, the spectral subtraction method forcibly assigns a section having a value of 0 or less to a small value, which causes musical noise, which is a characteristic frequency noise, to make the voice after noise suppression extremely unnatural. There is a problem that can be confusing.
이러한 문제점들을 해결하기 위한 것으로, 미국 특허 제5,742,927호(공개일: 1998.8.8)에는 스펙트럼 차감법을 이용하여 잡음을 억제한 후 LPC(Linear Prediction Coefficient) 스펙트럼 추정기를 통해 음성의 포먼트만을 강조하는 방법이 개시되어 있지만, 상기 음성 향상 방법 역시 뮤지컬 노이즈가 발생되는 것을 해결할 수 없다는 한계점을 갖고 있다. In order to solve these problems, US Patent No. 5,742,927 (published: August 8, 1998) suppresses noise by using a spectral subtraction method, and then emphasizes only a formant of speech through a linear prediction coefficient (LPC) spectrum estimator. Although the method is disclosed, the voice enhancement method also has a limitation in that it cannot solve the occurrence of musical noise.
본 발명은 상기한 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 잡음 억제 처리에 있어서 큰 문제점으로 지적되는 뮤지컬 노이즈를 최대한 억제하면서 음성신호 성분을 강화할 수 있도록 하는 것이다.SUMMARY OF THE INVENTION The present invention has been made to solve the above problems, and an object of the present invention is to enhance the sound signal component while suppressing the musical noise as indicated as a major problem in the noise suppression process.
상기 목적을 달성하기 위하여 본 발명에 따른 음성 향상 시스템은, 입력된 음성신호를 프레임 단위로 나누는 전처리부, 상기 전처리부로부터 입력된 프레임이 잡음 성분만을 가진 잡음 프레임인 경우 상기 잡음 프레임의 실수부와 허수부에 대하여 잡음 억제를 수행하는 잡음 억제부, 및 상기 잡음 억제부로부터 입력된 프레임의 실수부와 허수부에 대하여 음성 강화를 수행하는 음성 강화부를 포함하는 것을 특징으로 한다.In order to achieve the above object, the voice enhancement system includes a preprocessor that divides an input voice signal into frame units, and a real part of the noise frame when the frame input from the preprocessor is a noise frame having only noise components. And a voice reinforcement unit for performing noise suppression on the imaginary unit, and a voice reinforcement unit performing voice reinforcement on the real part and the imaginary part of the frame inputted from the noise suppression unit.
이하 첨부된 도면을 참조하여 본 발명의 실시예를 보다 상세히 설명하기로 한다. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 2는 본 발명에 따른 음성 향상 시스템의 블럭도로서, 도 2에 도시된 바와 같이, 본 발명에 따른 음성 향상 시스템(1)은 전처리부(10), 고속 퓨리에 변환부(20), 잡음 억제부(30), 음성 강화부(80), 역고속 퓨리에 변환부(110), 및 오버랩부(120)를 포함한다.2 is a block diagram of a speech enhancement system according to the present invention. As shown in FIG. 2, the
전처리부(10)는 잡음이 섞인 입력신호를 소정의 주파수로 샘플링하여 디지탈 신호로 바꾸고, 상기 디지탈 신호를 간단한 고역 통과 필터에 의해서 프리엠퍼시스(preemphasis)하여 신호의 고주파수를 약간 강조한 다음, 필터링된 신호를 음성 처리의 기본 단위인 프레임으로 나눈다.The preprocessing
고속 퓨리에 변환부(Fast Fourier Transform, FFT)(20)는 상기 전처리부(10)로부터 입력된 프레임에 윈도우(window)를 적용한 다음 N-포인트 고속 퓨리에 변환을 하는데, 여기에서 N-포인트 FFT에 관한 식은 하기의 수학식 1과 같이 주어진다.A Fast Fourier Transform (FFT) 20 applies a window to a frame input from the
상기와 같이 고속 퓨리에 변환된 신호는 복소수로 표현되는데, 이 경우 고속 퓨리에 변환된 프레임의 스펙트럼은 다음의 수학식 2와 같이 실수부와 허수부로 표현된다.As described above, the fast Fourier transformed signal is represented by a complex number. In this case, the spectrum of the fast Fourier transformed frame is represented by a real part and an imaginary part as shown in
한편, 전술한 바와 같이 스펙트럼 감산법에 의하면 잡음 억제 처리시 뮤지컬 노이즈가 발생될 수 있기 때문에, 이러한 현상을 방지하기 위하여 본 발명에서는 다음과 같이 잡음 억제부(30)를 통해 잡음 프레임에 포함되어 있는 잡음 성분의 특성에 따라 적절한 잡음 억압 처리가 수행되도록 하는데, 이하 잡음 억제부(30)에 대하여 더 자세히 설명한다.Meanwhile, according to the spectral subtraction method as described above, musical noise may be generated during the noise suppression process. In order to prevent such a phenomenon, the present invention includes the
도 2를 참조하면, 잡음 억제부(30)는 상기 고속 퓨리에 변환부(20)로부터 입력된 프레임내에 음성이 존재하는지의 여부를 판단하는 음성 검출부(40), 상기 고속 퓨리에 변환부(20)로부터 입력된 프레임이 잡음 성분만을 가진 잡음 프레임으로 판단된 경우 상기 잡음 프레임에서 실수부와 허수부에 대한 평균 스펙트럼을 구하는 잡음 평균 계산부(50), 상기 잡음 평균 계산부(50)를 통해 계산된 평균 스펙트럼값에 따라 잡음 프레임의 실수부와 허수부에 대한 가중치를 계산하는 잡음 가중치 계산부(60), 및 상기 고속 퓨리에 변환부(20)로부터 입력된 프레임의 실수부와 허수부에 잡음 가중치 계산부(60)에서 계산된 가중치를 각각 곱하는 곱셈기(70)를 포함한다.Referring to FIG. 2, the
음성 검출부(40)는 상기 고속 퓨리에 변환부(20)로부터 입력된 프레임내에 음성이 존재하는지의 여부를 판단하여 입력된 프레임이 잡음 성분만을 가진 잡음 프레임으로 판단되면 그 잡음 프레임을 잡음 평균 계산부(50)로 출력하는데, 만약 입력된 프레임내에 음성이 존재하면 그 프레임은 잡음 평균 계산부(50)로 출력되지 않는다.The
여기에서, 음성 검출부(40)는 입력된 프레임의 에너지를 계산하여 가장 알맞는 임계값을 찾아 이를 기준으로 음성의 존재 여부를 판단하는 VAD(Voice Activity Detector)로 구현될 수 있으며, 이 외에 다른 방법으로 음성의 존재 여부를 판단하는 것도 가능하다. Here, the
잡음 평균 계산부(50)는 상기 음성 검출부(40)로부터 입력된 잡음 프레임에서 실수부와 허수부에 대한 평균 스펙트럼을 각각 별도로 구하는데, 이하 도 3을 참조하여 잡음 평균 계산부(50)에 대하여 더 자세히 설명한다.The noise
도 3은 도 2에 도시된 잡음 평균 계산부(50)의 상세 구성도로서, 도 3에 도시된 바와 같이, 잡음 평균 계산부(50)는 상기 음성 검출부(40)로부터 입력된 잡음 프레임에서 실수부의 평균을 계산하는 제1 잡음 평균 계산부(51) 및 상기 음성 검출부(40)로부터 입력된 잡음 프레임에서 허수부의 평균을 계산하는 제2 잡음 평균 계산부(52)로 구성되어 있으며, 제1 잡음 평균 계산부(51)와 제2 잡음 평균 계산부(52)는 각각 힐버트 변환부(53), 엔벨로프 크기 계산부(54), 및 Mean 계산부(55)를 포함하고 있다.3 is a detailed configuration diagram of the noise
상기 힐버트 변환부(53)는 음성 검출부(40)로부터 입력된 잡음 프레임에서 각각 실수부와 허수부에 대한 복소 신호(analytic complex signal)를 만들어 내기 위한 것으로, 입력된 잡음 프레임의 실수부와 허수부 각각에 대해 힐버트 변환을 수행하는데, 여기에서, 힐버트 변환은 입력신호에 대하여 그에 대한 분석 가능한 복소 신호를 만들어 내는 것으로, 힐버트 변환된 신호의 실수부는 입력신호와 같고 허수부는 입력 신호와 위상이 90도 바뀐 신호가 되며, 이러한 힐버트 변환은 신호의 엔벨로프를 검출할 때 일반적으로 이용되는 방법이므로 힐버트 변환에 대한 자세한 설명은 생략한다.The Hilbert
상기 엔벨로프 크기 계산부(54)는 힐버트 변환부(53)에 의해 구해진 각각의 복소 신호에 절대값을 취하여 잡음 프레임의 실수부와 허수부에 대한 엔벨로프(Envelope)의 크기를 계산하며, 상기 Mean 계산부(55)는 엔벨로프 크기 계산부(54)를 통해 계산된 각 엔벨로프의 크기를 평균하여 이를 잡음 프레임의 실수 부와 허수부에 대한 평균 스펙트럼값으로 출력하는데, 이 때 평균 스펙트럼값은 잡음 억제 처리의 효율성을 높이기 위해 여러 잡음 프레임(약 100msec)의 엔벨로프 크기를 평균한 값인 것이 바람직하다. The envelope
상기와 같이, 제1 잡음 평균 계산부(51)와 제2 잡음 평균 계산부(52)는 힐버트 변환부(53), 엔벨로프 크기 계산부(54), 및 Mean 계산부(55)를 통해 상기 음성 검출부(40)로부터 입력된 잡음 프레임에서 각각 실수부와 허수부에 대한 평균 스펙트럼을 계산하며, 이렇게 계산된 잡음 프레임의 실수부와 허수부에 대한 평균 스펙트럼값은 잡음 가중치 계산부(60)로 전달된다.As described above, the first noise
다시 도 2를 참조하면, 잡음 가중치 계산부(60)는 상기 잡음 평균 계산부(50)를 통해 계산된 평균 스펙트럼값을 역변환(Inverse Transform)하여 잡음 프레임의 실수부와 허수부에 적용할 가중치를 계산하는데, 여기에서, 가중치는 잡음 프레임에 포함된 잡음 성분을 억제하기 위한 값으로, 상기 잡음 평균 계산부(50)로부터 입력된 평균 스펙트럼값이 크면, 즉, 입력된 잡음 프레임에 잡음 성분이 많으면, 가중치를 작게 하여 잡음 성분을 많이 줄일 수 있도록 하고, 입력된 평균 스펙트럼값이 작으면, 즉, 입력된 잡음 프레임에 잡음 성분이 적으면, 가중치를 크게 하여 잡음 성분을 상대적으로 작은폭으로 억제할 수 있도록 한다.Referring back to FIG. 2, the
곱셈기(70)는 상기 고속 퓨리에 변환부(20)로부터 입력된 프레임의 실수부와 허수부에 상기 잡음 가중치 계산부(70)를 통해 계산된 잡음 프레임의 실수부와 허수부에 대한 가중치를 각각 곱한다.The
상기한 바와 같이, 잡음 억제부(30)는 잡음 성분만을 가진 잡음 프레임의 실 수부와 허수부에 대하여 각각 다른 비율로 억압 처리를 수행하여 잡음 억제시 음성신호의 스펙트럼이 0 이하의 값을 갖게 되지 않도록 함으로써, 잡음 프레임에서 잡음 성분을 효과적으로 억제하면서도 뮤지컬 노이즈의 발생을 최대한 억제할 수 있도록 한다. As described above, the
한편, 상기 잡음 억제부(30)로부터 음성 강화부(80)로 입력된 프레임은 음성 강화 처리를 거치게 되는데, 이하 음성 강화부(80)에 대하여 더 자세히 설명한다.On the other hand, the frame input from the
음성 강화부(80)는 상기 잡음 억제부(30)로부터 입력된 프레임에서 음성에 대한 가중치를 계산하는 음성 가중치 계산부(90), 및 상기 잡음 억제부(30)로부터 입력된 프레임에 음성 가중치 계산부(100)에서 계산된 가중치를 곱하는 곱셈기(100)를 포함한다. The
음성 가중치 계산부(90)는 상기 잡음 억제부(30)로부터 입력된 프레임에서 음성 성분을 강화하기 위한 가중치를 계산하기 위한 것으로, 입력된 프레임에서 실수부와 허수부에 대한 표준 편차를 계산하여 이를 프레임의 실수부와 허수부에 대한 가중치로 출력하는데, 여기에서, 음성 성분에 대한 가중치값으로 표준 편차를 사용하는 이유는, 잡음 성분에 비하여 음성 성분의 표준편차가 크기 때문에 이에 따라 표준편차를 가중치값으로 설정하면 상대적으로 음성 성분은 강화되고 고주파 대역의 잡음 성분은 억제될 수 있기 때문이다.The
곱셈기(110)는 상기 잡음 억제부(30)로부터 입력된 프레임의 실수부와 허수부에 상기 음성 가중치 계산부(100)를 통해 계산된 프레임의 실수부와 허수부에 대한 가중치를 각각 곱하여 음성신호에서 음성 성분을 강화시킨다.The
상기한 바와 같이, 음성 강화부(80)는 입력된 프레임의 실수부와 허수부에 대하여 각각 다른 비율로 음성 성분을 강화시킴으로써, 프레임에 포함된 잡음 성분은 억제하면서 음성 성분만 강화시킬 수 있도록 한다.As described above, the
한편, 역고속 퓨리에 변환부(Inverse Fast Fourier Transform, IFFT)(120)는 상기 음성 강화부(80)로부터 입력된 프레임을 역퓨리에 변환하여 다시 시간 영역의 프레임으로 되돌리고, 오버랩부(120)는 상기 역고속 퓨리에 변환부(110)로부터 출력된 시간 영역의 프레임들을 오버랩(overlap)시켜 전후 프레임이 매끄럽게 연접될 수 있도록 하는데, 여기에서 역고속 퓨리에 변환에 관한 식은 하기의 수학식 3과 같이 주어진다.Meanwhile, an inverse fast Fourier transform (IFFT) 120 inversely transforms a frame input from the
따라서, 본 발명에 따른 음성 향상 시스템(1)은 해당 프레임의 특성에 따라 적절한 잡음 억제 처리 또는 음성 강화 처리를 수행함으로써, 음성 성분은 강화하고 잡음 성분은 억제하면서도 뮤지컬 노이즈의 발생을 최소화시킬 수 있도록 한다.Accordingly, the
한편, 본 발명에 따른 음성 향상 방법은, 입력된 음성신호를 프레임 단위로 나누는 단계, 상기 각 프레임이 잡음 성분만을 가진 잡음 프레임인 경우 상기 잡음 프레임의 실수부와 허수부에 대하여 잡음을 억제하는 단계, 및 상기 각 프레임의 실수부와 허수부에 대하여 음성을 강화하는 단계를 포함하는 것을 특징으로 한다. On the other hand, the speech enhancement method according to the present invention, the step of dividing the input speech signal in units of frames, if each frame is a noise frame having only a noise component, the step of suppressing noise for the real part and imaginary part of the noise frame And reinforcing the voice with respect to the real part and the imaginary part of each frame.
이하, 본 발명에 따른 음성 검출 방법에 대하여 첨부된 도면들을 참조하여 상세히 설명한다.Hereinafter, a voice detection method according to the present invention will be described in detail with reference to the accompanying drawings.
도 4는 본 발명에 따른 음성 향상 방법의 흐름도이다.4 is a flowchart of a voice enhancement method according to the present invention.
우선, 음성신호가 입력되면 전처리부(10)는 입력된 신호를 소정의 주파수로 샘플링하여 디지탈 신호로 바꾸고, 상기 디지탈 신호를 간단한 고역 통과 필터에 의해서 프리엠퍼시스(preemphasis)하여 신호의 고주파수를 약간 강조한 다음, 필터링된 신호를 음성 처리의 기본 단위인 프레임으로 나눈다(S10). First, when a voice signal is input, the
그 다음, 고속 퓨리에 변환부(20)는 상기 전처리부(10)로부터 입력된 각 프레임에 윈도우(window)를 적용한 후 N-포인트 고속 퓨리에 변환을 수행하는데(S20), 고속 퓨리에 변환 방법에 대하여는 도 2와 관련된 설명에서 상세히 설명하였으므로 이에 대한 자세한 설명은 생략한다.Next, the fast
그 다음, 음성 검출부(40)는 상기 고속 퓨리에 변환부(20)로부터 입력된 프레임내에 음성이 존재하는지의 여부를 판단하는데(S30), 여기에서 음성 검출부(40)는 입력된 프레임의 에너지를 계산하여 가장 알맞는 임계값을 찾아 이를 기준으로 음성의 존재 여부를 판단하며, 이 외에 다른 방법으로 음성의 존재 여부를 판단하는 것도 가능하다. Next, the
한편, 상기 음성 검출부(40)를 통해 프레임에 음성이 포함되어 있지 않다고 판단되면, 즉, 프레임이 잡음 성분만을 가진 잡음 프레임으로 판단되면, 그 잡음 프레임은 잡음 평균 계산부(50)로 출력되어 잡음 억제 단계(S40)를 거치게 되는데, 이하 잡음 억제 단계(S40)에 대하여 더 자세히 설명한다.On the other hand, if it is determined by the
우선, 잡음 평균 계산부(50)는 상기 음성 검출부(40)로부터 입력된 잡음 프 레임에서 실수부와 허수부에 대한 평균 스펙트럼을 각각 별도로 계산하는데(S41), 이에 대해 더 자세히 설명하면, 잡음 평균 계산부(50)는 힐버트 변환을 이용하여 잡음 프레임에서 각각 실수부와 허수부에 대한 해석 가능한 복소 신호를 구한 다음, 각 복소 신호에 절대값을 취하여 잡음 프레임의 실수부와 허수부에 대한 엔벨로프의 크기를 구하고, 이렇게 구해진 각 엔벨로프의 크기를 평균하여 이를 잡음 프레임의 실수부와 허수부에 대한 평균 스펙트럼값으로 출력한다.First, the noise
그 다음, 잡음 가중치 계산부(60)는 상기 잡음 프레임의 실수부와 허수부에 대한 평균 스펙트럼값을 역변환(Inverse Transform)하여 잡음 프레임의 실수부와 허수부에 대한 가중치를 계산하는데(S42), 여기에서 상기 가중치값은 잡음 프레임에 포함된 잡음 성분을 억제하기 위한 값으로, 잡음 프레임의 평균 스펙트럼값이 크면, 즉, 입력된 잡음 프레임에 잡음 성분이 많으면, 가중치를 작게 하여 잡음 성분을 많이 줄일 수 있도록 하고, 잡음 프레임의 평균 스펙트럼값이 작으면, 즉, 입력된 잡음 프레임에 잡음 성분이 적으면, 가중치를 크게 하여 잡음 억제 처리시 뮤지컬 노이즈의 발생을 최대한 억제할 수 있도록 한다.Next, the noise
그 다음, 곱셈기(70)는 상기 고속 퓨리에 변환부(20)로부터 입력된 프레임의 실수부와 허수부에 상기 잡음 가중치 계산부(60)를 통해 계산된 잡음 프레임의 실수부와 허수부에 대한 가중치값들을 각각 곱하는데(S43), 이에 따라 프레임에 포함된 잡음 성분은 실수부와 허수부에 따라 각각 다른 비율로 억제되게 된다.Next, the
즉, 이와 같은 잡음 억제 단계(S40)에 의하여 고속 퓨리에 변환부(20)로부터 입력된 프레임이 잡음 성분만을 가진 잡음 프레임인 경우 잡음 성분의 특성에 따라 적절한 잡음 억압 처리를 수행할 수 있으므로, 잡음 프레임에서 잡음 성분을 효과적으로 억제하면서도 뮤지컬 노이즈의 발생을 최소화시킬 수 있다.That is, when the frame input from the fast
한편, 잡음 억제부(30)로부터 출력된 프레임은 음성 강화부(80)로 입력되어 음성 강화 단계(S50)를 거치게 되는데, 이하 음성 강화 단계(S50)에 대하여 더 자세히 설명한다.On the other hand, the frame output from the
우선, 음성 가중치 계산부(90)는 입력된 프레임에서 실수부와 허수부에 대한 표준 편차를 계산하여 이를 프레임의 실수부와 허수부에 대한 가중치로 설정하는데(S51), 여기에서, 음성 성분에 대한 가중치로 표준 편차를 사용하는 이유는, 잡음 성분에 비하여 음성 성분의 표준편차가 크기 때문에 표준편차를 가중치로 설정하면 상대적으로 음성 성분은 강화되고 고주파 대역의 잡음 성분은 억제될 수 있기 때문이다.First, the speech
그 다음, 곱셈기(100)는 상기 잡음 억제부(30)로부터 입력된 프레임의 실수부와 허수부에 음성 가중치 계산부(90)를 통해 계산된 가중치값들을 각각 곱하는데(S52), 이에 따라 프레임내에서 비교적 낮은 주파수 대역을 가진 음성 성분은 강화되고 비교적 높은 주파수 대역을 가진 잡음 성분은 억제된다. Next, the
즉, 이와 같은 음성 강화 단계(S50)에 의하여 프레임의 실수부와 허수부에 대하여 각각 다른 비율로 음성을 강화시킴으로써, 음성 프레임에 섞여 있는 잡음 성분을 효과적으로 억제하면서 음성을 강화시킬 수 있다.That is, by the voice reinforcing step (S50) by reinforcing the voice at different ratios with respect to the real part and the imaginary part of the frame, the voice can be enhanced while effectively suppressing noise components mixed in the voice frame.
한편, 상기와 같은 잡음 억제 단계(S40) 또는 음성 강화 단계(S50)를 거친 프레임은 역고속 퓨리에 변환부(110)에 의해 역퓨리에 변환되어 다시 시간 영역의 프레임으로 변환된다(S60).On the other hand, the frame that has undergone the noise suppression step (S40) or the voice enhancement step (S50) as described above is inverse Fourier transformed by the inverse fast
그 다음, 음성신호의 모든 프레임에 대해 잡음 억제 또는 음성 강화가 수행되면, 오버랩부(120)는 역고속 퓨리에 변환부(110)로부터 출력된 시간 영역의 프레임들을 오버랩시켜 전후 프레임을 매끄럽게 연접하여 출력한다(S70~80). Then, when noise suppression or speech enhancement is performed on all the frames of the voice signal, the
상기한 바와 같이, 본 발명에 따르면 해당 프레임의 특성에 따라 적절한 잡음 억제 처리 또는 음성 강화 처리를 수행함으로써, 음성 성분은 강화하고 잡음 성분은 억제하면서도 뮤지컬 노이즈의 발생을 최소화시킬 수 있다.As described above, according to the present invention, by performing the appropriate noise suppression process or the speech enhancement process according to the characteristics of the frame, it is possible to minimize the generation of musical noise while enhancing the speech component and suppressing the noise component.
도 5는 본 발명에 의해 음성성분이 강화된 일예를 나타낸 도면으로, 도 5(a)와 같이 잡음이 포함된 음성신호에서 실수부와 허수부를 각각 분리하여 잡음 억제 처리 또는 음성 강화 처리를 수행하면, 도 5(b)에 도시된 바와 같이 잡음 성분은 억제되고 음성 성분만 강화되는 것을 알 수 있다. FIG. 5 is a diagram illustrating an example in which a speech component is enhanced by the present invention. When a real part and an imaginary part are separated from a voice signal including noise as shown in FIG. As shown in FIG. 5 (b), it can be seen that the noise component is suppressed and only the voice component is enhanced.
본 발명은 도면에 도시된 일실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.Although the present invention has been described with reference to one embodiment shown in the drawings, this is merely exemplary, and it will be understood by those skilled in the art that various modifications and equivalent other embodiments are possible. Therefore, the true technical protection scope of the present invention will be defined by the technical spirit of the appended claims.
따라서, 본 발명에 따르면 음성 성분은 강화하고 잡음 성분은 억제하면서도 뮤지컬 노이즈의 발생을 최소화시킬 수 있으므로, 이에 따라 잡음이 있는 환경에서의 음성 인식, 화자 인식 시스템의 성능을 향상시킬 수 있는 효과가 있다.Therefore, according to the present invention, it is possible to minimize the occurrence of musical noise while enhancing the speech component and suppressing the noise component, thereby improving the performance of speech recognition and speaker recognition system in a noisy environment. .
Claims (17)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030016896A KR100587568B1 (en) | 2003-03-18 | 2003-03-18 | Speech enhancement system and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030016896A KR100587568B1 (en) | 2003-03-18 | 2003-03-18 | Speech enhancement system and method |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040082207A KR20040082207A (en) | 2004-09-24 |
KR100587568B1 true KR100587568B1 (en) | 2006-06-08 |
Family
ID=37366148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020030016896A KR100587568B1 (en) | 2003-03-18 | 2003-03-18 | Speech enhancement system and method |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100587568B1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100565086B1 (en) * | 2004-10-13 | 2006-03-30 | 삼성전자주식회사 | Apparatus and method for eliminating spectral noise to reduce musical noise |
-
2003
- 2003-03-18 KR KR1020030016896A patent/KR100587568B1/en not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
KR20040082207A (en) | 2004-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7706550B2 (en) | Noise suppression apparatus and method | |
KR100828962B1 (en) | Speech enhancement with gain limitations based on speech activity | |
US7286980B2 (en) | Speech processing apparatus and method for enhancing speech information and suppressing noise in spectral divisions of a speech signal | |
EP1706864B1 (en) | Computationally efficient background noise suppressor for speech coding and speech recognition | |
EP3866165B1 (en) | Method for enhancing telephone speech signals based on convolutional neural networks | |
JPWO2005124739A1 (en) | Noise suppression device and noise suppression method | |
WO1994018666A1 (en) | Noise reduction | |
US10382857B1 (en) | Automatic level control for psychoacoustic bass enhancement | |
CN110875049B (en) | Voice signal processing method and device | |
Hardwick et al. | Speech enhancement using the dual excitation speech model | |
US7917359B2 (en) | Noise suppressor for removing irregular noise | |
US9418677B2 (en) | Noise suppressing device, noise suppressing method, and a non-transitory computer-readable recording medium storing noise suppressing program | |
JP2003280696A (en) | Apparatus and method for emphasizing voice | |
Thanhikam et al. | Stationary and non-stationary wide-band noise reduction using zero phase signal | |
US20140249809A1 (en) | Audio signal noise attenuation | |
KR100587568B1 (en) | Speech enhancement system and method | |
CN109151663B (en) | Signal processor and signal processing system | |
JP2006126859A (en) | Speech processing device and method | |
JP3693022B2 (en) | Speech recognition method and speech recognition apparatus | |
Oukherfellah et al. | FPGA implementation of voice activity detector for efficient speech enhancement | |
CN114360572A (en) | Voice denoising method and device, electronic equipment and storage medium | |
JP6707914B2 (en) | Gain processing device and program, and acoustic signal processing device and program | |
JP3831220B2 (en) | Noise suppression method and apparatus, noise suppression program, and program recording medium | |
CN113763975A (en) | Voice signal processing method and device and terminal | |
Prodeus et al. | Objective estimation of the quality of radical noise suppression algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130429 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20140429 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20150429 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20160428 Year of fee payment: 11 |
|
LAPS | Lapse due to unpaid annual fee |