KR101936242B1 - Apparatus and method for noise removal, and recording medium thereof - Google Patents

Apparatus and method for noise removal, and recording medium thereof Download PDF

Info

Publication number
KR101936242B1
KR101936242B1 KR1020170056901A KR20170056901A KR101936242B1 KR 101936242 B1 KR101936242 B1 KR 101936242B1 KR 1020170056901 A KR1020170056901 A KR 1020170056901A KR 20170056901 A KR20170056901 A KR 20170056901A KR 101936242 B1 KR101936242 B1 KR 101936242B1
Authority
KR
South Korea
Prior art keywords
band
noise
standard deviation
bands
interval
Prior art date
Application number
KR1020170056901A
Other languages
Korean (ko)
Other versions
KR20180122826A (en
Inventor
김명남
이기현
나승대
성기웅
조진호
Original Assignee
경북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경북대학교 산학협력단 filed Critical 경북대학교 산학협력단
Priority to KR1020170056901A priority Critical patent/KR101936242B1/en
Publication of KR20180122826A publication Critical patent/KR20180122826A/en
Application granted granted Critical
Publication of KR101936242B1 publication Critical patent/KR101936242B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Abstract

잡음 제거 장치 및 방법, 기록 매체가 개시된다. 본 발명의 실시예에 따른 잡음 제거 방법은 웨이블릿 패킷 분해(wavelet packet decomposition)에 의해 음성 신호를 다수의 밴드들로 분할하는 단계; 분할된 밴드별로 표준편차를 산출하고, 밴드별로 산출된 표준편차를 기반으로 밴드들의 문턱값 매트릭스를 생성하는 단계; 밴드별로 산출된 표준편차 및 문턱값 매트릭스 중 적어도 하나를 기반으로, 밴드별로 음성 구간 및 잡음 구간을 결정하는 단계; 잡음 구간으로 결정된 밴드에 대하여, 잡음 구간으로 결정된 밴드의 표준편차를 지수 값으로 가지는 필터링 마스크를 산출하는 단계; 및 필터링 마스크를 기반으로, 잡음 구간으로 결정된 밴드에 대한 잡음을 제거하는 단계를 포함한다. 본 발명의 실시예에 의하면, 음성 정보의 손실을 최소화하면서 잡음만을 효율적으로 제거하여 음성 연속성을 향상시킬 수 있다.Noise canceling apparatus and method, and recording medium are disclosed. The noise cancellation method according to an embodiment of the present invention includes: dividing a speech signal into a plurality of bands by wavelet packet decomposition; Calculating a standard deviation for each divided band and generating a threshold value matrix of bands based on the standard deviation calculated for each band; Determining a speech interval and a noise interval for each band based on at least one of a standard deviation and a threshold value matrix calculated for each band; Calculating a filtering mask having an index value as a standard deviation of a band determined as a noise interval for a band determined as a noise interval; And removing noise for a band determined as a noise period based on the filtering mask. According to the embodiment of the present invention, it is possible to improve voice continuity by effectively removing only noise while minimizing loss of voice information.

Figure 112017043316403-pat00042
Figure 112017043316403-pat00042

Description

잡음 제거 장치 및 방법, 기록 매체{APPARATUS AND METHOD FOR NOISE REMOVAL, AND RECORDING MEDIUM THEREOF}TECHNICAL FIELD [0001] The present invention relates to a noise canceling apparatus, a noise canceling apparatus, a noise canceling apparatus,

본 발명은 잡음 제거 장치 및 방법, 기록 매체에 관한 것으로, 보다 상세하게는 음성 정보의 손실을 최소화하면서 잡음만을 효율적으로 제거하는 잡음 제거 장치 및 방법, 기록 매체에 관한 것이다.The present invention relates to a noise cancellation apparatus and method, and a recording medium, and more particularly, to a noise cancellation apparatus, a noise cancellation method, and a recording medium that minimize noise while minimizing loss of audio information.

최근 다양한 음성신호 처리 응용분야에서, 환경 잡음으로 인한 시스템 성능의 저하 현상은 해결되어야 할 중요한 문제로 인식되고 있으며, 음성 향상 기술이 요구되고 있다. 음성 향상은 음성신호가 주변 잡음에 의해 오염되어 입력되었을 때 음성 신호에서 잡음을 제거하고 음성을 강화하여 음성 신호를 향상시키는 기법으로, 극한의 작업 환경이나 군사 작전 중에 사용되는 음성 통신 기기의 통신 품질을 향상시키거나 여러 가지 스마트 장비나 이식형 보청기와 같은 의료기기에서 인간-기기 상호작용 시 음성 인식이나 화자 인식 성능을 높일 수 있다. 또한, 헤드셋과 디지털 보청기와 같은 음향기기에서 배경 잡음을 억제하고 음질을 향상시키기 위해 사용될 수도 있다.Recently, the degradation of system performance due to environmental noise has been recognized as an important problem to be solved in various voice signal processing applications, and a voice enhancement technology is required. The voice enhancement is a technique for improving the voice signal by removing noise from the voice signal and enhancing the voice when the voice signal is contaminated by the ambient noise, Or improve voice recognition or speaker recognition performance in human-machine interaction in medical devices such as smart devices or implantable hearing aids. It can also be used to suppress background noise and improve sound quality in audio equipment such as headsets and digital hearing aids.

잡음이 미치는 영향을 줄이기 위해, 다양한 잡음 감쇄 기법과 음성 향상 기법이 연구되어 왔으며 다양한 음성 신호처리 분야에 사용되고 있다. 예를 들어, 잡음 제거 및 음성 향상을 위해 웨이블릿 변환(wavelet transform) 기반의 알고리즘이 연구되고 있다. 그러나, 종래의 알고리즘은 잡음 특성이 화자의 음성과 유사하거나, 잡음이 음성과 유사하거나 동일한 주파수 대역에 분포하는 경우, 잡음과 음성을 분할하지 못하게 되거나, 잡음 제거시 음성 정보 손실량이 많아 음성 연속성이 확보되기 어려운 문제점이 있다.To reduce the effect of noise, various noise attenuation techniques and speech enhancement techniques have been studied and used in various voice signal processing fields. For example, wavelet transform based algorithms are being studied for noise reduction and speech enhancement. However, in the conventional algorithm, when the noise characteristic is similar to the speaker's voice, or when the noise is distributed in a frequency band similar to or the same as the voice, it is impossible to divide the noise and the voice, There is a problem that it is difficult to secure.

본 발명은 잡음 제거 성능이 우수하고, 음성 정보의 손실을 최소화하면서 잡음만을 효율적으로 제거할 수 있는 잡음 제거 장치 및 방법, 기록 매체를 제공한다.Disclosed are a noise canceller, a method, and a recording medium that are excellent in noise cancellation performance and can effectively remove only noise while minimizing loss of voice information.

본 발명이 해결하고자 하는 과제는 이상에서 언급된 과제로 제한되지 않는다. 언급되지 않은 다른 기술적 과제들은 이하의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The problems to be solved by the present invention are not limited to the above-mentioned problems. Other technical subjects not mentioned will be apparent to those skilled in the art from the description below.

본 발명의 일 측면에 따른 잡음 제거 방법은 웨이블릿 패킷 분해(wavelet packet decomposition)에 의해 음성 신호를 다수의 밴드들로 분할하는 단계; 분할된 밴드별로 표준편차를 산출하고, 상기 밴드별로 산출된 표준편차를 기반으로 상기 밴드들의 문턱값 매트릭스를 생성하는 단계; 상기 밴드별로 산출된 표준편차 및 상기 문턱값 매트릭스 중 적어도 하나를 기반으로, 상기 밴드별로 음성 구간 및 잡음 구간을 결정하는 단계; 상기 잡음 구간으로 결정된 밴드에 대하여, 상기 잡음 구간으로 결정된 밴드의 표준편차를 지수 값으로 가지는 필터링 마스크를 산출하는 단계; 및 상기 밴드별로 산출된 필터링 마스크를 기반으로, 상기 잡음 구간으로 결정된 밴드에 대하여 잡음을 제거하는 단계를 포함한다.According to an aspect of the present invention, there is provided a noise removal method including: dividing a speech signal into a plurality of bands by wavelet packet decomposition; Calculating a standard deviation for each divided band and generating a threshold value matrix of the bands based on the standard deviation calculated for each band; Determining a speech interval and a noise interval for each band based on at least one of the standard deviation calculated for each band and the threshold value matrix; Calculating a filtering mask having a standard deviation of a band determined as the noise interval as an exponent value for a band determined as the noise period; And removing noise for a band determined as the noise period based on the filtering mask calculated for each band.

상기 문턱값 매트릭스를 생성하는 단계는, 하기 수식 1에 따라 상기 밴드별로 표준편차를 산출하고, 하기 수식 2에 따라 상기 문턱값 매트릭스를 생성할 수 있다.The step of generating the threshold value matrix may generate the threshold value matrix according to Equation (2) by calculating the standard deviation for each band in accordance with Equation (1) below.

[수식 1][Equation 1]

Figure 112017043316403-pat00001
Figure 112017043316403-pat00001

[수식 2][Equation 2]

Figure 112017043316403-pat00002
Figure 112017043316403-pat00002

상기 수식 1 및 수식 2에서,

Figure 112017043316403-pat00003
는 상기 밴드들 중 m번째 밴드의 음성 신호값,
Figure 112017043316403-pat00004
은 음성 신호의 샘플 길이,
Figure 112017043316403-pat00005
은 상기 m번째 밴드의 표준편차, N은 음성 신호의 프레임당 샘플 개수,
Figure 112017043316403-pat00006
은 상기 문턱값 매트릭스의 상기 m번째 밴드의 문턱값이다.In Equations (1) and (2)
Figure 112017043316403-pat00003
Is the speech signal value of the m-th band among the bands,
Figure 112017043316403-pat00004
Is the sample length of the speech signal,
Figure 112017043316403-pat00005
Is the standard deviation of the m-th band, N is the number of samples per frame of the speech signal,
Figure 112017043316403-pat00006
Is a threshold value of the m-th band of the threshold matrix.

상기 필터링 마스크를 산출하는 단계는, 상기 밴드들 중 가장 에너지가 큰 밴드인 기본 밴드의 순번과 상기 잡음 구간으로 결정된 밴드의 순번 간의 차이값에 반비례하고 상기 잡음 구간으로 결정된 밴드의 표준편차 및 상기 밴드들의 개수에 비례하는 값을 상기 지수 값으로 갖도록 상기 필터링 마스크를 산출할 수 있다.Wherein the step of calculating the filtering mask comprises the step of calculating a filtering mask in which the standard deviation of the bands determined in the noise period and the standard deviation of the bands determined as the noise period are compared with the difference between the order of the fundamental bands, The filtering mask can be calculated to have a value proportional to the number of the filter coefficients.

상기 음성 구간 및 잡음 구간을 결정하는 단계는, 각 밴드의 음성 신호 크기와 상기 문턱값 매트릭스의 문턱값을 비교하는 단계; 상기 음성 신호 크기가 상기 문턱값 이상인 경우, 상기 음성 구간으로 판단하는 단계; 상기 밴드의 음성 신호 크기가 상기 문턱값보다 작은 경우, 상기 밴드의 이전 프레임의 음성 신호의 평균값을 상기 표준편차와 비교하는 단계; 상기 이전 프레임의 음성 신호의 평균값이 상기 표준편차보다 큰 경우, 제1 잡음 구간으로 판단하는 단계; 및 상기 이전 프레임의 음성 신호의 평균값이 상기 표준편차 이하인 경우, 제2 잡음 구간으로 판단하는 단계를 포함할 수 있다.Wherein the determining the speech interval and the noise interval comprises: comparing a magnitude of a speech signal of each band with a threshold value of the threshold matrix; Determining the voice interval as the voice interval if the voice signal size is equal to or greater than the threshold value; Comparing an average value of speech signals of a previous frame of the band with the standard deviation if the speech signal magnitude of the band is smaller than the threshold value; Determining a first noise interval if the average value of the speech signal of the previous frame is greater than the standard deviation; And determining a second noise interval when the average value of the speech signal of the previous frame is equal to or less than the standard deviation.

상기 잡음을 제거하는 단계는, 상기 제1 잡음 구간으로 판단된 밴드에 대해, 상기 필터링 마스크를 적용하여 잡음을 제거하는 단계; 및 상기 제2 잡음 구간으로 판단된 밴드에 대해 상기 밴드의 음성 신호를 0으로 적용하는 단계를 포함할 수 있다.The removing the noise may include removing noise by applying the filtering mask to the band determined as the first noise period. And applying a voice signal of the band to a band determined to be the second noise period as '0'.

상기 잡음을 제거하는 단계는 하기의 수식 3에 따라 잡음을 제거할 수 있다.The step of removing the noise may remove the noise according to Equation (3).

[수식 3][Equation 3]

Figure 112017043316403-pat00007
Figure 112017043316403-pat00007

상기 수식 3에서,

Figure 112017043316403-pat00008
는 상기 밴드들 중 m번째 밴드의 음성 신호,
Figure 112017043316403-pat00009
은 상기 문턱값 매트릭스의 상기 m번째 밴드의 문턱값,
Figure 112017043316403-pat00010
은 상기 m번째 밴드의 t-N 내지 t 구간의 N개의 음성 신호의 평균값, N은 음성 신호의 프레임당 샘플 개수,
Figure 112017043316403-pat00011
은 상기 m번째 밴드의 표준편차, B는 상기 밴드들의 개수, I는 상기 기본 밴드의 순번,
Figure 112017043316403-pat00012
는 상기 필터링 마스크이다.In Equation (3)
Figure 112017043316403-pat00008
The audio signal of the m-th band among the bands,
Figure 112017043316403-pat00009
Th band of the threshold value matrix,
Figure 112017043316403-pat00010
Is an average value of N audio signals of the m-th band from tN to t, N is the number of samples per frame of the audio signal,
Figure 112017043316403-pat00011
Is the standard deviation of the m-th band, B is the number of bands, I is the order of the base band,
Figure 112017043316403-pat00012
Is the filtering mask.

본 발명의 다른 측면에 따르면, 상기 잡음 제거 방법을 실행시키는 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체가 제공된다.According to another aspect of the present invention, there is provided a computer-readable recording medium on which a program for executing the noise reduction method is recorded.

본 발명의 또 다른 측면에 따르면, 웨이블릿 패킷 분해(wavelet packet decomposition)에 의해 음성 신호를 다수의 밴드들로 분할하는 웨이블릿 패킷 분해부; 분할된 밴드별로 표준편차를 산출하고, 상기 밴드별로 산출된 표준편차를 기반으로 상기 밴드들의 문턱값 매트릭스를 생성하는 문턱값 산출부; 상기 밴드별로 산출된 표준편차 및 상기 문턱값 매트릭스 중 적어도 하나를 기반으로, 상기 밴드별로 음성 구간 및 잡음 구간을 결정하는 잡음구간 결정부; 상기 잡음 구간으로 결정된 밴드에 대하여, 상기 잡음 구간으로 결정된 밴드의 표준편차를 지수 값으로 가지는 필터링 마스크를 산출하는 마스크 산출부; 및 상기 필터링 마스크를 기반으로, 상기 잡음 구간으로 결정된 밴드에 대하여 잡음을 제거하는 잡음 제거부를 포함하는 잡음 제거 장치가 제공된다.According to another aspect of the present invention, there is provided a wavelet decomposition unit for decomposing a speech signal into a plurality of bands by wavelet packet decomposition. A threshold value calculation unit for calculating a standard deviation for each divided band and generating a threshold value matrix of the bands based on the standard deviation calculated for each band; A noise interval determining unit for determining a speech interval and a noise interval for each band based on at least one of the standard deviation calculated for each band and the threshold value matrix; A mask calculating unit for calculating a filtering mask having a standard deviation of a band determined by the noise period as an exponent value for a band determined as the noise period; And a noise removing unit for removing noise from a band determined as the noise period based on the filtering mask.

상기 마스크 산출부는, 상기 밴드들 중 가장 에너지가 큰 밴드인 기본 밴드의 순번과 상기 잡음 구간으로 결정된 밴드의 순번 간의 차이값에 반비례하고 상기 잡음 구간으로 결정된 밴드의 표준편차 및 상기 밴드들의 개수에 비례하는 값을 상기 지수 값으로 갖도록 상기 필터링 마스크를 산출할 수 있다.Wherein the mask calculator calculates a mask variation ratio of the bands determined by the noise interval and a ratio of the number of bands determined by the noise interval to the number of bands determined by the noise interval, The filtering mask may be calculated so that the value of the filtering mask is equal to the exponent value.

상기 잡음구간 결정부는, 각 밴드의 음성 신호 크기와 상기 문턱값 매트릭스의 문턱값을 비교하고, 상기 밴드의 음성 신호 크기가 상기 문턱값보다 작은 경우 상기 밴드의 이전 프레임의 음성 신호의 평균값을 상기 표준편차와 비교하고, 상기 이전 프레임의 음성 신호의 평균값이 상기 표준편차보다 큰 경우 제1 잡음 구간으로 판단하고, 상기 이전 프레임의 음성 신호의 평균값이 상기 표준편차 이하인 경우 제2 잡음 구간으로 판단할 수 있다.Wherein the noise interval determining unit compares a magnitude of a voice signal of each band with a threshold value of the threshold value matrix, and when the magnitude of the voice signal of the band is smaller than the threshold value, A second noise interval is determined when the average value of the speech signal of the previous frame is equal to or less than the standard deviation, have.

상기 잡음 제거부는, 상기 제1 잡음 구간으로 판단된 밴드에 대해, 상기 필터링 마스크를 적용하여 잡음을 제거하고, 상기 제2 잡음 구간으로 판단된 밴드에 대해 상기 밴드의 음성 신호를 0으로 적용할 수 있다.The noise canceller may remove the noise by applying the filtering mask to the bands determined to be the first noise period and may apply the audio signal of the band to zero for the band determined to be the second noise period have.

본 발명의 실시예에 의하면, 잡음 제거 성능이 우수하고, 음성 정보의 손실을 최소화하면서 잡음만을 효율적으로 제거할 수 있는 잡음 제거 장치 및 방법, 기록 매체가 제공된다.According to an embodiment of the present invention, there is provided a noise canceller, a method, and a recording medium that are excellent in noise cancellation performance and can effectively remove only noise while minimizing loss of voice information.

본 발명의 효과는 상술한 효과들로 제한되지 않는다. 언급되지 않은 효과들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.The effects of the present invention are not limited to the effects described above. Unless stated, the effects will be apparent to those skilled in the art from the description and the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 잡음 제거 방법의 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 잡음 제거 장치의 구성도이다.
도 3은 본 발명의 일 실시예에 따라 음성 신호를 웨이블릿 패킷 분해한 것을 보여주는 개념도이다.
도 4는 본 발명의 실시예에 따른 잡음 제거 장치를 구성하는 문턱값 산출부의 구성도이다.
도 5는 백색 잡음이 섞이지 않은 음성 신호의 예시적인 파형이다.
도 6은 백색 잡음이 섞인 음성 신호(SNR: 5dB)의 예시적인 파형이다.
도 7은 본 발명의 실시예에 따라 잡음을 제거하여 음성을 향상시킨 결과를 보여주는 도면이다.
1 is a flowchart of a noise removal method according to an embodiment of the present invention.
2 is a block diagram of a noise removing apparatus according to an embodiment of the present invention.
3 is a conceptual diagram showing a wavelet packet decomposition of a speech signal according to an embodiment of the present invention.
4 is a configuration diagram of a threshold value calculating unit constituting a noise removing apparatus according to an embodiment of the present invention.
FIG. 5 is an exemplary waveform of a white noise-free audio signal.
6 is an exemplary waveform of a white noise mixed speech signal (SNR: 5 dB).
FIG. 7 is a diagram illustrating a result of improving noise by eliminating noise according to an embodiment of the present invention. Referring to FIG.

본 발명의 다른 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술하는 실시예를 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예에 한정되지 않으며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 만일 정의되지 않더라도, 여기서 사용되는 모든 용어들(기술 혹은 과학 용어들을 포함)은 이 발명이 속한 종래 기술에서 보편적 기술에 의해 일반적으로 수용되는 것과 동일한 의미를 갖는다. 공지된 구성에 대한 일반적인 설명은 본 발명의 요지를 흐리지 않기 위해 생략될 수 있다. 본 발명의 도면에서 동일하거나 상응하는 구성에 대하여는 가급적 동일한 도면부호가 사용된다. 본 발명의 이해를 돕기 위하여, 도면에서 일부 구성은 다소 과장되거나 축소되어 도시될 수 있다.Other advantages and features of the present invention and methods of achieving them will be apparent by referring to the embodiments described hereinafter in detail with reference to the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, and the present invention is only defined by the scope of the claims. Although not defined, all terms (including technical or scientific terms) used herein have the same meaning as commonly accepted by the generic art in the prior art to which this invention belongs. A general description of known configurations may be omitted so as not to obscure the gist of the present invention. In the drawings of the present invention, the same reference numerals are used as many as possible for the same or corresponding configurations. To facilitate understanding of the present invention, some configurations in the figures may be shown somewhat exaggerated or reduced.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다", "가지다" 또는 "구비하다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used in this application is used only to describe a specific embodiment and is not intended to limit the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise. In the present application, the terms "comprises", "having", or "having" are intended to specify the presence of stated features, integers, steps, operations, components, Steps, operations, elements, parts, or combinations thereof, whether or not explicitly described or implied by the accompanying claims.

본 명세서 전체에서 사용되는 '~부'는 적어도 하나의 기능이나 동작을 처리하는 단위로서, 예를 들어 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미할 수 있다. 그렇지만 '~부'가 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.Used throughout this specification may refer to a hardware component such as, for example, software, FPGA or ASIC, as a unit for processing at least one function or operation. However, "to" is not meant to be limited to software or hardware. &Quot; to " may be configured to reside on an addressable storage medium and may be configured to play one or more processors.

일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함할 수 있다. 구성요소와 '~부'에서 제공하는 기능은 복수의 구성요소 및 '~부'들에 의해 분리되어 수행될 수도 있고, 다른 추가적인 구성요소와 통합될 수도 있다.As an example, the term '~' includes components such as software components, object-oriented software components, class components and task components, and processes, functions, attributes, procedures, Routines, segments of program code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays, and variables. The functions provided by the components and components may be performed separately by a plurality of components and components, or may be integrated with other additional components.

본 발명의 실시예에 따른 잡음 제거 방법은 웨이블릿 패킷 분해(wavelet packet decomposition)에 의해 음성 신호를 다수의 밴드들로 분할하는 단계; 분할된 밴드별로 표준편차를 산출하고, 밴드별로 산출된 표준편차를 기반으로 밴드들의 문턱값 매트릭스를 생성하는 단계; 밴드별로 산출된 표준편차 및 문턱값 매트릭스 중 적어도 하나를 기반으로, 밴드별로 음성 구간 및 잡음 구간을 결정하는 단계; 잡음 구간으로 결정된 밴드에 대하여, 잡음 구간으로 결정된 밴드의 표준편차를 지수 값으로 가지는 필터링 마스크를 산출하는 단계; 및 밴드별로 산출된 필터링 마스크를 기반으로, 잡음 구간으로 결정된 밴드에 대하여 잡음을 제거하는 단계를 포함한다.The noise cancellation method according to an embodiment of the present invention includes: dividing a speech signal into a plurality of bands by wavelet packet decomposition; Calculating a standard deviation for each divided band and generating a threshold value matrix of bands based on the standard deviation calculated for each band; Determining a speech interval and a noise interval for each band based on at least one of a standard deviation and a threshold value matrix calculated for each band; Calculating a filtering mask having an index value as a standard deviation of a band determined as a noise interval for a band determined as a noise interval; And removing a noise for a band determined as a noise period based on the filtering mask calculated for each band.

도 1은 본 발명의 일 실시예에 따른 잡음 제거 방법의 흐름도이다. 도 2는 본 발명의 일 실시예에 따른 잡음 제거 장치의 구성도이다. 도 1 및 도 2를 참조하면, 음성신호 입력부(110)는 잡음이 포함된 음성 신호를 입력받는다(S10). 일 실시예로, 음성신호 입력부(110)는 음성 신호를 입력받는 장치, 예컨대 마이크로폰 등으로 제공될 수 있다. 다른 예로, 음성신호 입력부(110)는 다른 장치로부터 음성 신호를 수신받기 위한 통신 인터페이스 장치로 제공될 수도 있다.1 is a flowchart of a noise removal method according to an embodiment of the present invention. 2 is a block diagram of a noise removing apparatus according to an embodiment of the present invention. 1 and 2, the voice signal input unit 110 receives a voice signal including noise (S10). In one embodiment, the voice signal input unit 110 may be provided as a device for receiving a voice signal, such as a microphone. As another example, the voice signal input unit 110 may be provided as a communication interface device for receiving a voice signal from another device.

음성신호 입력부(110)로부터 잡음이 섞인 음성 신호가 입력되면, 웨이블릿 패킷 분해부(120)는 웨이블릿 패킷 분해(wavelet packet decomposition)에 의해, 음성 신호를 시간-주파수 2차원 영역의 밴드들로 분해한다(S20).When a voice signal mixed with noise is input from the voice signal input unit 110, the wavelet packet decomposition unit 120 decomposes the voice signal into bands of a time-frequency two-dimensional region by wavelet packet decomposition (S20).

일 실시예로, 웨이블릿 패킷 분해부(120)는 단순히 산술적인 밴드별 에너지를 기반으로 하지 않고, 인간의 음향 청각 모델을 기반으로 인간의 청신경에 자극되는 에너지의 크기에 맞추어, 음성 신호를 도 3에 도시된 바와 같이 20개의 밴드로 분해할 수 있다.According to one embodiment, the wavelet packet decomposition unit 120 may convert the speech signal into a speech signal according to the magnitude of the energy stimulated in the human auditory nerve based on the human acoustic acoustic model, And can be decomposed into 20 bands as shown in Fig.

음성 신호로부터 분해된 밴드들은 20개의 주파수 정보를 가진 시간 영역 신호의 형태를 가지고 있으며, 시간과 주파수의 정보를 모두 나타내어 2차원 행렬로 나타낼 수 있다.The bands decomposed from the speech signal have the form of a time domain signal having 20 frequency information, and both time and frequency information can be represented as a two dimensional matrix.

일 실시예에서, 음성 신호는 20개의 서브밴드를 가지는 웨이블릿 계수 (w j,m (k))로 분해될 수 있다. 웨이블릿 계수 (w j ,m (i))는 j번째 레벨, m번째 웨이블릿 밴드의 i번째 웨이블릿 계수를 나타낸다(j=3,4,5, m=1,...,20). 웨이블릿 계수 (w j,m (i))를 시간과 주파수 영역의 정보를 동시에 처리하기 위해, 웨이블릿 계수를 하기의 식 1과 같이 2차원 행렬로 나타낼 수 있다.In one embodiment, the speech signal may be decomposed into wavelet coefficients w j, m ( k ) having 20 subbands. The wavelet coefficients w j , m ( i ) represent the i- th wavelet coefficients of the j- th level and the m- th wavelet band ( j = 3, 4, 5, m = 1,. In order to process the wavelet coefficients w j, m ( i ) simultaneously in the time and frequency domain, the wavelet coefficients can be represented by a two-dimensional matrix as shown in the following equation (1).

[식 1][Formula 1]

Figure 112017043316403-pat00013
Figure 112017043316403-pat00013

여기서

Figure 112017043316403-pat00014
는 특정시간 t에서의 m번째 서브밴드의 웨이블릿 계수를 나타낸다. 다시 도 1 및 도 2를 참조하면, 웨이블릿 패킷 분해부(120)에 의해 음성 신호가 다수의 밴드들로 분해되면, 문턱값 산출부(130)는 분할된 밴드별로 표준편차를 산출하고, 밴드별로 산출된 표준편차를 기반으로 밴드들의 문턱값 매트릭스를 생성한다.here
Figure 112017043316403-pat00014
Represents the wavelet coefficient of the mth subband at a specific time t . 1 and 2, when the speech signal is decomposed into a plurality of bands by the wavelet packet decomposition unit 120, the threshold value calculation unit 130 calculates a standard deviation for each divided band, And generates a threshold matrix of bands based on the calculated standard deviation.

도 4는 본 발명의 실시예에 따른 잡음 제거 장치를 구성하는 문턱값 산출부의 구성도이다. 도 1, 도 2 및 도 4를 참조하면, 문턱값 산출부(130)는 분할된 각 밴드별로 표준편차를 산출하고, 밴드별로 산출된 표준편차를 기반으로 밴드들의 문턱값 매트릭스(threshold matrix)를 생성한다(S30).4 is a configuration diagram of a threshold value calculating unit constituting a noise removing apparatus according to an embodiment of the present invention. 1, 2, and 4, the threshold calculator 130 calculates a standard deviation for each divided band, and calculates a threshold matrix of bands based on the standard deviation calculated for each band (S30).

일 실시예로, 문턱값 산출부(130)는 표준편차 산출부(132)와, 문턱값 매트릭스 생성부(134)를 포함할 수 있다. 일 실시예로, 표준편차 산출부(132)는 하기의 식 2에 따라 각 밴드별로 표준편차를 산출할 수 있다.In one embodiment, the threshold calculator 130 may include a standard deviation calculator 132 and a threshold matrix generator 134. [ In one embodiment, the standard deviation calculator 132 may calculate the standard deviation for each band according to the following equation (2).

[식 2][Formula 2]

Figure 112017043316403-pat00015
Figure 112017043316403-pat00015

식 2에서,

Figure 112017043316403-pat00016
는 상기 밴드들 중 m번째 밴드의 음성 신호값,
Figure 112017043316403-pat00017
은 음성 신호의 샘플 길이(예를 들어, 25ms),
Figure 112017043316403-pat00018
은 상기 m번째 밴드의 표준편차이다.In Equation 2,
Figure 112017043316403-pat00016
Is the speech signal value of the m-th band among the bands,
Figure 112017043316403-pat00017
(E.g., 25 ms) of the speech signal,
Figure 112017043316403-pat00018
Is the standard deviation of the m-th band.

각 밴드별로 표준편차가 산출되면, 문턱값 매트릭스 생성부(134)는 하기 식 3에 따라, 문턱값 매트릭스를 생성할 수 있다.When the standard deviation is calculated for each band, the threshold matrix generator 134 can generate a threshold matrix according to Equation 3 below.

[식 3][Formula 3]

Figure 112017043316403-pat00019
(m=1,2,...,20)
Figure 112017043316403-pat00019
(m = 1, 2, ..., 20)

식 3에서,

Figure 112017043316403-pat00020
은 m번째 밴드의 표준편차, N은 음성 신호의 프레임당 샘플 개수,
Figure 112017043316403-pat00021
은 문턱값 매트릭스(threshold matrix)의 m번째 밴드의 문턱값이다.In Equation 3,
Figure 112017043316403-pat00020
Is the standard deviation of the m-th band, N is the number of samples per frame of the speech signal,
Figure 112017043316403-pat00021
Is the threshold of the mth band of the threshold matrix.

다시 도 1 및 도 2를 참조하면, 잡음구간 결정부(140)는 문턱값 산출부(130)에 의해 산출된 밴드별 표준편차 및 문턱값 매트릭스를 기반으로, 밴드별로 음성 구간 및 잡음 구간을 결정한다(S40).Referring again to FIGS. 1 and 2, the noise interval determining unit 140 determines a voice interval and a noise interval for each band based on the standard deviation and the threshold value matrix of each band calculated by the threshold calculating unit 130 (S40).

일 실시예로, 잡음구간 결정부(140)는 각 밴드의 음성 신호 크기와 문턱값 매트릭스의 문턱값을 비교하여 음성 신호 크기가 문턱값 이상인 경우, 음성 구간으로 판단한다.In one embodiment, the noise interval determining unit 140 compares the voice signal size of each band with the threshold value of the threshold value matrix, and determines that the voice interval is equal to or larger than the threshold value.

잡음구간 결정부(140)는 밴드의 음성 신호 크기가 문턱값보다 작은 경우, 밴드의 이전 프레임의 음성 신호의 평균값을 표준편차와 비교하여, 이전 프레임의 음성 신호의 평균값이 표준편차보다 큰 경우 제1 잡음 구간으로 판단하고, 이전 프레임의 음성 신호의 평균값이 표준편차 이하인 경우, 제2 잡음 구간으로 판단한다.The noise interval determining unit 140 compares the average value of the voice signals of the previous frame of the band with the standard deviation when the voice signal size of the band is smaller than the threshold, 1 noise period, and when the average value of the speech signal of the previous frame is equal to or less than the standard deviation, it is determined to be the second noise period.

마스크 산출부(150)는 잡음구간 결정부(140)에 의해 제1 잡음 구간으로 결정된 밴드에 대하여, 제1 잡음 구간으로 결정된 밴드의 표준편차를 지수 값으로 가지는 필터링 마스크를 산출한다(S50).The mask calculating unit 150 calculates a filtering mask having the standard deviation of the band determined by the first noise period as an exponent value for the band determined as the first noise period by the noise period determining unit 140 (S50).

일 실시예로, 마스크 산출부(150)는 밴드들 중 가장 에너지가 큰 밴드인 기본 밴드(fundamental wavelet band)의 순번과 잡음 구간으로 결정된 밴드의 순번 간의 차이값에 반비례하고 잡음 구간으로 결정된 밴드의 표준편차 및 밴드들의 개수에 비례하는 값을 지수 값으로 갖도록 필터링 마스크를 산출할 수 있다.In an exemplary embodiment, the mask calculator 150 may be configured to calculate a mask band inversely proportional to the difference between the order of the fundamental wavelet band, which is the highest energy band among the bands, and the order of bands determined by the noise period, The filtering mask can be calculated so as to have a value proportional to the standard deviation and the number of bands as an exponent value.

마스크 산출부(150)는 기본 밴드의 결정을 위해 각 밴드별로 에너지를 산출하고, 밴드들 중 가장 큰 에너지를 갖는 밴드를 기본 밴드로 결정할 수 있다. 밴드의 에너지는 밴드의 평균 신호 크기, 엔트로피, 표준편차 또는 분산 등을 기반으로 산출될 수 있으나, 이에 제한되지는 않는다.The mask calculating unit 150 may calculate energy for each band for determining a base band, and determine a band having the largest energy among the bands as a base band. The energy of the band can be calculated based on the average signal size, entropy, standard deviation or dispersion of the band, but is not limited thereto.

잡음 제거부(160)는 마스크 산출부(150)에 의해 산출된 필터링 마스크를 기반으로, 잡음 구간으로 결정된 밴드에 대한 잡음을 제거한다(S60). 일 실시예로, 잡음 제거부(160)는 잡음구간 결정부(140)에 의해 제1 잡음 구간으로 판단된 밴드에 대하여는 필터링 마스크를 적용하여 잡음을 제거하고, 제2 잡음 구간으로 판단된 밴드에 대해서는 밴드의 음성 신호를 0으로 적용할 수 있다. 일 실시예로, 잡음 제거부(160)는 하기의 식 4에 따라 각 밴드별로 잡음을 제거할 수 있다.The noise removing unit 160 removes noise for a band determined as a noise period based on the filtering mask calculated by the mask calculating unit 150 (S60). In one embodiment, the noise removing unit 160 removes noise by applying a filtering mask to bands determined to be the first noise period by the noise period determining unit 140, The audio signal of the band can be applied as zero. In one embodiment, the noise eliminator 160 may remove noise for each band according to Equation (4) below.

[식 4][Formula 4]

Figure 112017043316403-pat00022
Figure 112017043316403-pat00022

상기 식 4에서,

Figure 112017043316403-pat00023
는 m(m=1,2,...,B)번째 밴드의 음성 신호,
Figure 112017043316403-pat00024
은 문턱값 매트릭스의 m번째 밴드의 문턱값,
Figure 112017043316403-pat00025
은 m번째 밴드의 t-N 내지 t 구간의 N개의 음성 신호의 평균값, N은 음성 신호의 프레임당 샘플 개수,
Figure 112017043316403-pat00026
은 m번째 밴드의 표준편차, B는 밴드들의 개수(도 3의 예에서 20개), I는 밴드들 중 가장 에너지가 큰 밴드인 기본 밴드의 순번,
Figure 112017043316403-pat00027
는 필터링 마스크이다. 밴드의 순번은 저주파수 대역 순으로 1,2,...,B로 순차적으로 할당될 수 있다.In Equation (4)
Figure 112017043316403-pat00023
(M = 1, 2, ..., B) -th band audio signal,
Figure 112017043316403-pat00024
Is the threshold value of the m < th > band of the threshold value matrix,
Figure 112017043316403-pat00025
Is an average value of N audio signals in the interval of tN to t of the m-th band, N is the number of samples per frame of the audio signal,
Figure 112017043316403-pat00026
B is the number of bands (20 in the example of FIG. 3), I is the order of the base band which is the band with the highest energy among the bands,
Figure 112017043316403-pat00027
Is a filtering mask. The order of the bands can be sequentially assigned to 1, 2, ..., B in the order of the low frequency bands.

상기 식 4에 따라, 각 밴드별로 음성 구간(음성 신호가 문턱값 이상인 구간)에 대하여는 잡음 제거가 수행되지 않으며, 제2 잡음 구간에 대하여는 음성 신호 값이 0으로 적용되고, 음성 구간과 제2 잡음 구간 사이의 제1 잡음 구간에 대하여는 세미소프트 필터링 마스크(exponential semisoft filtering mask)

Figure 112017043316403-pat00028
가 적용되어 음성 손실을 최소화하면서 잡음이 제거된다. 세미소프트 필터링 마스크는 각 밴드별 특성을 반영하여 잡음을 제거하도록 산출된다.According to Equation (4), no noise cancellation is performed for a speech interval (a speech signal having a threshold value or more) for each band, a speech signal value is applied to a second noise interval, For the first noise interval between the intervals, a semi-soft filtering mask (exponential filtering)
Figure 112017043316403-pat00028
Is applied to eliminate noise while minimizing voice loss. The semi-soft filtering mask is calculated so as to remove noise by reflecting characteristics of each band.

본 실시예에 의하면, 가장 에너지가 큰 밴드(기본 밴드)의 주파수에 근접한 주파수 대역의 밴드일수록, 즉 상기 식 4에서 (I-m)의 절대치가 작을수록, 필터링 마스크 값이 지수적으로 증가하여 잡음신호 제거 성능을 줄이게 되며, 그에 따라 잡음과 음성이 유사한 대역 내에 분포하는 경우 음성 보존 성능을 향상시킬 수 있다. 이와 반대로, 상기 기본 밴드로부터 먼 주파수 대역을 가지는 밴드의 경우, 상기 식 4에서 (I-m)의 절대치가 증가하여 필터링 마스크 값이 지수적으로 감소하게 되고, 그에 따라 잡음신호 제거 성능이 증가하여 잡음이 효과적으로 제거된다.According to the present embodiment, as the band of the frequency band close to the frequency of the band having the highest energy (fundamental band), that is, the absolute value of (Im) in Equation 4 is smaller, the filtering mask value exponentially increases, Elimination performance is reduced, so that speech preservation performance can be improved if noise and speech are distributed within similar bands. On the other hand, in the case of a band having a frequency band far from the fundamental band, the absolute value of (Im) in Equation (4) increases and the filtering mask value exponentially decreases, Effectively removed.

본 실시예에 따라 웨이블릿 분해를 이용하여 음성과 잡음이 섞인 신호를 분할하는 경우, 분할된 대역에서 음성은 잡음보다 전체적인 신호의 강도가 강하기 때문에, 웨이블릿 밴드의 계수 값이 잡음과 비교하여 크게 나타나게 된다. 결과적으로, 해당 밴드의 표준편차 및 문턱값(Πm)은 신호의 강도가 큰 음성 대역의 밴드에서 그 값이 크게 나타난다. 이 경우, 세미소프트 필터링 마스크는 상대적으로 큰 값으로 산출되어, 음성 정보 손실을 줄이게 된다. 반대의 경우, 세미소프트 필터링 마스크는 상대적으로 작은 값으로 산출되어, 잡음 제거 성능을 향상시키게 된다.In the case of dividing a signal mixed with speech and noise using the wavelet decomposition according to the present embodiment, since the intensity of the entire signal is stronger than the noise in the divided bands, the coefficient value of the wavelet band is larger than noise . As a result, the standard deviation and the threshold value (Π m ) of the corresponding band are large in the band of the voice band in which the signal strength is large. In this case, the semi-soft filtering mask is calculated to have a relatively large value, thereby reducing loss of voice information. In the opposite case, the semi-soft filtering mask is calculated to have a relatively small value, thereby improving the noise canceling performance.

이상에서 설명한 바와 같이, 본 실시예에 따른 잡음 제거 방법은 웨이블릿 패킷 분해된 밴드들의 음성 영역 정보를 활용하여 각 밴드의 표준편차를 산출하고, 음성과 잡음을 구분하기 위한 문턱값(Πm)을 밴드별로 유동적으로 결정한다. 또한, 밴드별로 유동적으로 결정되는 문턱값에 따라, 음성 구간과 제1 잡음 구간(세미소프트 필터링 마스크가 적용되는 중간 구간) 및 제2 잡음 구간의 판단 기준이 변화되고, 전체 잡음 구간에 대해 일률적으로 음성 신호에 0 값을 적용하는 대신, 음성과 잡음의 영역 구분을 완만하게 설정하여, 중간 구간(제1 잡음 구간)에 존재하는 잡음은 필터링 마스크에 의해 효과적으로 제거할 수 있다. 따라서, 잡음과 음성이 유사하게 분포하는 영역(제1 잡음 구간)에서의 잡음 과정에서 음성 정보 손실을 최소화하여 잡음만을 효율적으로 제거할 수 있으며, 음성 연속성을 향상시킬 수 있다.As described above, according to the present embodiment, the standard deviation of each band is calculated by using the speech region information of the wavelet packet decomposed bands, and the threshold value (Π m ) for distinguishing speech and noise is calculated It is decided flexibly for each band. In addition, according to a threshold value that is fluidly determined for each band, a criterion of a speech interval, a first noise interval (an intermediate interval to which a semi-soft filtering mask is applied) and a second noise interval are changed, Instead of applying a zero value to the speech signal, the region of speech and noise may be set to be gentle, and the noise in the intermediate region (first noise region) may be effectively removed by the filtering mask. Accordingly, it is possible to effectively remove noise only by minimizing loss of voice information in a noise process in a region where noise and voice are similarly distributed (first noise interval), and improve voice continuity.

본 발명의 실시예에 따른 잡음 제거 장치의 성능을 검증하기 위하여, 공인된 데이터베이스에서 임의 추출한 신호 샘플을 사용하여, 다양한 잡음 환경 하에서 잡음 제거 실험을 수행하였다. 음성 신호의 샘플은 TIMIT 데이터베이스에서 추출하였으며, 잡음 신호의 샘플은 NOISEX-9213 데이터베이스에서 추출하였다. 추출된 데이터 샘플들은 16kHz 샘플링레이트(sampling rate), 16bps 비트율(bit rate)을 갖는다. 백색 잡음(white noise), 핑크 노이즈(pink noise), 탱크 엔진 잡음 등 다양한 잡음을 음성과 섞어 실험 환경을 구축하고, 다양한 SNR(0dB, 5dB, 10dB, 15dB) 조건에서 실험을 수행하였다.In order to verify the performance of the noise canceller according to the embodiment of the present invention, noise cancellation experiments were performed under various noise environments using signal samples arbitrarily extracted from an authorized database. Samples of the speech signal were extracted from the TIMIT database and samples of the noise signal were extracted from the NOISEX-9213 database. The extracted data samples have a sampling rate of 16 kHz and a bit rate of 16 bps. Experiments were carried out under various SNR conditions (0dB, 5dB, 10dB, 15dB) by mixing various noises such as white noise, pink noise, and tank engine noise.

도 5는 백색 잡음이 섞이지 않은 음성 신호의 예시적인 파형이고, 도 6은 백색 잡음이 섞인 음성 신호(SNR: 5dB)의 예시적인 파형이고, 도 7은 본 발명의 실시예에 따라 잡음을 제거하여 음성을 향상시킨 결과를 보여주는 도면이다. 도 7의 도시와 같이, 본 실시예에 의하면, 잡음이 깨끗하게 제거되어 도 5와 거의 동일한 파형을 나타내도록 음성 향상이 이루어진 것을 확인할 수 있다.6 is an exemplary waveform of a white noise mixed speech signal (SNR: 5 dB), and FIG. 7 is a flowchart illustrating a method of removing noise according to an embodiment of the present invention Fig. 8 is a diagram showing a result of improving speech. As shown in Fig. 7, according to the present embodiment, it is confirmed that the noise is removed cleanly, and the sound is improved so as to exhibit substantially the same waveform as in Fig.

Figure 112017043316403-pat00029
Figure 112017043316403-pat00029

표 1에 나타낸 바와 같이, 본 발명의 실시예에 의하면, 다양한 잡음 환경에서 우수한 잡음 제거 및 음성 향상 성능을 보였다. 특히 본 발명의 실시예는 잡음이 많이 섞인 SNR 환경에서도 좋은 결과를 보였다. 본 발명의 실시예에 따른 음성 향상 기술은 이식형 디지털 보청기, 음성 통신, 인간-기기 상호 작용, 스마트기기 등의 다양한 음성 신호 처리 분야에 적용될 수 있다.As shown in Table 1, according to the embodiment of the present invention, excellent noise cancellation and speech enhancement performance are exhibited in various noise environments. Particularly, the embodiment of the present invention shows good results even in a SNR environment with a lot of noises. The speech enhancement technology according to an embodiment of the present invention can be applied to various voice signal processing fields such as an implantable digital hearing aid, voice communication, human-machine interaction, and smart device.

본 발명의 실시예에 따른 방법은 예를 들어 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 컴퓨터로 읽을 수 있는 기록매체는 SRAM(Static RAM), DRAM(Dynamic RAM), SDRAM(Synchronous DRAM) 등과 같은 휘발성 메모리, ROM(Read Only Memory), PROM(Programmable ROM), EPROM(Electrically Programmable ROM), EEPROM(Electrically Erasable and Programmable ROM), 플래시 메모리 장치, PRAM(Phase-change RAM), MRAM(Magnetic RAM), RRAM(Resistive RAM), FRAM(Ferroelectric RAM)과 같은 불휘발성 메모리, 플로피 디스크, 하드 디스크 또는 광학적 판독 매체 예를 들어 시디롬, 디브이디 등과 같은 형태의 저장매체일 수 있으나, 이에 제한되지는 않는다.The method according to an embodiment of the present invention can be realized in a general-purpose digital computer that can be created as a program that can be executed by a computer and operates the program using a computer-readable recording medium. The computer readable recording medium may be a volatile memory such as SRAM (Static RAM), DRAM (Dynamic RAM), SDRAM (Synchronous DRAM), ROM (Read Only Memory), PROM (Programmable ROM), EPROM (Electrically Programmable ROM) Non-volatile memory such as EEPROM (Electrically Erasable and Programmable ROM), flash memory device, Phase-change RAM (PRAM), Magnetic RAM (MRAM), Resistive RAM (RRAM), Ferroelectric RAM But are not limited to, optical storage media such as CD ROMs, DVDs, and the like.

이상의 실시예들은 본 발명의 이해를 돕기 위하여 제시된 것으로, 본 발명의 범위를 제한하지 않으며, 이로부터 다양한 변형 가능한 실시예들도 본 발명의 범위에 속하는 것임을 이해하여야 한다. 본 발명의 기술적 보호범위는 특허청구범위의 기술적 사상에 의해 정해져야 할 것이며, 본 발명의 기술적 보호범위는 특허청구범위의 문언적 기재 그 자체로 한정되는 것이 아니라 실질적으로는 기술적 가치가 균등한 범주의 발명에 대하여까지 미치는 것임을 이해하여야 한다.It is to be understood that the above-described embodiments are provided to facilitate understanding of the present invention, and do not limit the scope of the present invention, and it is to be understood that various modified embodiments are also within the scope of the present invention. It is to be understood that the technical scope of the present invention should be determined by the technical idea of the claims and the technical scope of protection of the present invention is not limited to the literary description of the claims, To the invention of the invention.

100: 잡음 제거 장치
110: 음성신호 입력부
120: 웨이블릿 패킷 분해부
130: 문턱값 산출부
140: 잡음구간 결정부
150: 마스크 산출부
160: 잡음 제거부
100: Noise canceling device
110: audio signal input unit
120: wavelet packet decomposition unit
130: Threshold value calculating section
140: noise section determining section
150: mask calculation unit
160: Noise canceling

Claims (11)

웨이블릿 패킷 분해(wavelet packet decomposition)에 의해 음성 신호를 다수의 밴드들로 분할하는 단계;
분할된 밴드별로 표준편차를 산출하고, 상기 밴드별로 산출된 표준편차를 기반으로 상기 밴드들의 문턱값 매트릭스를 생성하는 단계;
상기 밴드별로 산출된 표준편차 및 상기 문턱값 매트릭스 중 적어도 하나를 기반으로, 상기 밴드별로 음성 구간 및 잡음 구간을 결정하는 단계;
상기 잡음 구간으로 결정된 밴드에 대하여, 상기 잡음 구간으로 결정된 밴드의 표준편차를 지수 값으로 가지는 필터링 마스크를 산출하는 단계; 및
상기 필터링 마스크를 기반으로 상기 잡음 구간으로 결정된 밴드에 대한 잡음을 제거하는 단계를 포함하고,
상기 필터링 마스크를 산출하는 단계는,
상기 밴드들의 주파수 대역을 기준으로 결정되는 상기 밴드들의 순번과, 상기 잡음 구간으로 결정된 밴드의 표준편차에 기초하여 상기 필터링 마스크를 산출하는 잡음 제거 방법.
Dividing a speech signal into a plurality of bands by wavelet packet decomposition;
Calculating a standard deviation for each divided band and generating a threshold value matrix of the bands based on the standard deviation calculated for each band;
Determining a speech interval and a noise interval for each band based on at least one of the standard deviation calculated for each band and the threshold value matrix;
Calculating a filtering mask having a standard deviation of a band determined as the noise interval as an exponent value for a band determined as the noise period; And
And removing noise for a band determined as the noise period based on the filtering mask,
Wherein the step of calculating the filtering mask comprises:
Wherein the filtering mask is calculated based on the order of the bands determined based on the frequency band of the bands and the standard deviation of bands determined by the noise period.
웨이블릿 패킷 분해(wavelet packet decomposition)에 의해 음성 신호를 다수의 밴드들로 분할하는 단계;
분할된 밴드별로 표준편차를 산출하고, 상기 밴드별로 산출된 표준편차를 기반으로 상기 밴드들의 문턱값 매트릭스를 생성하는 단계;
상기 밴드별로 산출된 표준편차 및 상기 문턱값 매트릭스 중 적어도 하나를 기반으로, 상기 밴드별로 음성 구간 및 잡음 구간을 결정하는 단계;
상기 잡음 구간으로 결정된 밴드에 대하여, 상기 잡음 구간으로 결정된 밴드의 표준편차를 지수 값으로 가지는 필터링 마스크를 산출하는 단계; 및
상기 필터링 마스크를 기반으로 상기 잡음 구간으로 결정된 밴드에 대한 잡음을 제거하는 단계를 포함하고,
상기 문턱값 매트릭스를 생성하는 단계는, 하기 수식 1에 따라 상기 밴드별로 표준편차를 산출하고, 하기 수식 2에 따라 상기 문턱값 매트릭스를 생성하며,
[수식 1]
Figure 112018092896030-pat00030

[수식 2]
Figure 112018092896030-pat00031

상기 수식 1 및 수식 2에서,
Figure 112018092896030-pat00032
는 상기 밴드들 중 m번째 밴드의 음성 신호값,
Figure 112018092896030-pat00033
은 음성 신호의 샘플 길이,
Figure 112018092896030-pat00034
은 상기 m번째 밴드의 표준편차, N은 음성 신호의 프레임당 샘플 개수,
Figure 112018092896030-pat00035
은 상기 문턱값 매트릭스의 상기 m번째 밴드의 문턱값인 잡음 제거 방법.
Dividing a speech signal into a plurality of bands by wavelet packet decomposition;
Calculating a standard deviation for each divided band and generating a threshold value matrix of the bands based on the standard deviation calculated for each band;
Determining a speech interval and a noise interval for each band based on at least one of the standard deviation calculated for each band and the threshold value matrix;
Calculating a filtering mask having a standard deviation of a band determined as the noise interval as an exponent value for a band determined as the noise period; And
And removing noise for a band determined as the noise period based on the filtering mask,
The step of generating the threshold value matrix may include: calculating a standard deviation for each band according to Equation 1 below, generating the threshold value matrix according to Equation 2 below,
[Equation 1]
Figure 112018092896030-pat00030

[Equation 2]
Figure 112018092896030-pat00031

In Equations (1) and (2)
Figure 112018092896030-pat00032
Is the speech signal value of the m-th band among the bands,
Figure 112018092896030-pat00033
Is the sample length of the speech signal,
Figure 112018092896030-pat00034
Is the standard deviation of the m-th band, N is the number of samples per frame of the speech signal,
Figure 112018092896030-pat00035
Is a threshold value of the m-th band of the threshold matrix.
제1 항에 있어서,
상기 필터링 마스크를 산출하는 단계는,
상기 밴드들 중 가장 에너지가 큰 밴드인 기본 밴드의 순번과 상기 잡음 구간으로 결정된 밴드의 순번 간의 차이값에 반비례하고 상기 잡음 구간으로 결정된 밴드의 표준편차 및 상기 밴드들의 개수에 비례하는 값을 상기 지수 값으로 갖도록 상기 필터링 마스크를 산출하는 잡음 제거 방법.
The method according to claim 1,
Wherein the step of calculating the filtering mask comprises:
A value that is inversely proportional to a difference between a sequence number of a base band that is the highest energy band among the bands and a sequence number of bands determined as the noise period and that is proportional to a standard deviation of the band determined by the noise interval, Value of the filtering mask.
제3 항에 있어서,
상기 음성 구간 및 잡음 구간을 결정하는 단계는,
각 밴드의 음성 신호 크기와 상기 문턱값 매트릭스의 문턱값을 비교하는 단계;
상기 음성 신호 크기가 상기 문턱값 이상인 경우, 상기 음성 구간으로 판단하는 단계;
상기 밴드의 음성 신호 크기가 상기 문턱값보다 작은 경우, 상기 밴드의 이전 프레임의 음성 신호의 평균값을 상기 표준편차와 비교하는 단계;
상기 이전 프레임의 음성 신호의 평균값이 상기 표준편차보다 큰 경우, 제1 잡음 구간으로 판단하는 단계; 및
상기 이전 프레임의 음성 신호의 평균값이 상기 표준편차 이하인 경우, 제2 잡음 구간으로 판단하는 단계를 포함하는 잡음 제거 방법.
The method of claim 3,
Wherein the determining the speech interval and the noise interval comprises:
Comparing a voice signal size of each band with a threshold value of the threshold value matrix;
Determining the voice interval as the voice interval if the voice signal size is equal to or greater than the threshold value;
Comparing an average value of speech signals of a previous frame of the band with the standard deviation if the speech signal magnitude of the band is smaller than the threshold value;
Determining a first noise interval if the average value of the speech signal of the previous frame is greater than the standard deviation; And
And determining a second noise period if the average value of the speech signals of the previous frame is equal to or less than the standard deviation.
제4 항에 있어서,
상기 잡음을 제거하는 단계는,
상기 제1 잡음 구간으로 판단된 밴드에 대해, 상기 필터링 마스크를 적용하여 잡음을 제거하는 단계; 및
상기 제2 잡음 구간으로 판단된 밴드에 대해 상기 밴드의 음성 신호를 0으로 적용하는 단계를 포함하는 잡음 제거 방법.
5. The method of claim 4,
The step of removing the noise includes:
Removing noise by applying the filtering mask to bands determined as the first noise period; And
And applying a voice signal of the band to zero for a band determined as the second noise period.
제4 항에 있어서,
상기 잡음을 제거하는 단계는 하기의 수식 3에 따라 잡음을 제거하고,
[수식 3]
Figure 112017043316403-pat00036

상기 수식 3에서,
Figure 112017043316403-pat00037
는 상기 밴드들 중 m번째 밴드의 음성 신호,
Figure 112017043316403-pat00038
은 상기 문턱값 매트릭스의 상기 m번째 밴드의 문턱값,
Figure 112017043316403-pat00039
은 상기 m번째 밴드의 t-N 내지 t 구간의 N개의 음성 신호의 평균값, N은 음성 신호의 프레임당 샘플 개수,
Figure 112017043316403-pat00040
은 상기 m번째 밴드의 표준편차, B는 상기 밴드들의 개수, I는 상기 기본 밴드의 순번,
Figure 112017043316403-pat00041
는 상기 필터링 마스크인 잡음 제거 방법.
5. The method of claim 4,
The noise removing step may include removing noise according to Equation (3) below,
[Equation 3]
Figure 112017043316403-pat00036

In Equation (3)
Figure 112017043316403-pat00037
The audio signal of the m-th band among the bands,
Figure 112017043316403-pat00038
Th band of the threshold value matrix,
Figure 112017043316403-pat00039
Is an average value of N audio signals of the m-th band from tN to t, N is the number of samples per frame of the audio signal,
Figure 112017043316403-pat00040
Is the standard deviation of the m-th band, B is the number of bands, I is the order of the base band,
Figure 112017043316403-pat00041
Wherein the filtering mask is the filtering mask.
제1 항 내지 제6 항 중 어느 한 항의 잡음 제거 방법을 실행시키는 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.A computer-readable recording medium having recorded thereon a program for executing the noise cancellation method according to any one of claims 1 to 6. 웨이블릿 패킷 분해(wavelet packet decomposition)에 의해 음성 신호를 다수의 밴드들로 분할하는 웨이블릿 패킷 분해부;
분할된 밴드별로 표준편차를 산출하고, 상기 밴드별로 산출된 표준편차를 기반으로 상기 밴드들의 문턱값 매트릭스를 생성하는 문턱값 산출부;
상기 밴드별로 산출된 표준편차 및 상기 문턱값 매트릭스 중 적어도 하나를 기반으로, 상기 밴드별로 음성 구간 및 잡음 구간을 결정하는 잡음구간 결정부;
상기 잡음 구간으로 결정된 밴드에 대하여, 상기 잡음 구간으로 결정된 밴드의 표준편차를 지수 값으로 가지는 필터링 마스크를 산출하는 마스크 산출부; 및
상기 필터링 마스크를 기반으로 상기 잡음 구간으로 결정된 밴드에 대하여 잡음을 제거하는 잡음 제거부를 포함하고,
상기 마스크 산출부는,
상기 밴드들의 주파수 대역을 기준으로 결정되는 상기 밴드들의 순번과, 상기 잡음 구간으로 결정된 밴드의 표준편차에 기초하여 상기 필터링 마스크를 산출하는 잡음 제거 장치.
A wavelet packet decomposition unit for dividing a speech signal into a plurality of bands by wavelet packet decomposition;
A threshold value calculation unit for calculating a standard deviation for each divided band and generating a threshold value matrix of the bands based on the standard deviation calculated for each band;
A noise interval determining unit for determining a speech interval and a noise interval for each band based on at least one of the standard deviation calculated for each band and the threshold value matrix;
A mask calculating unit for calculating a filtering mask having a standard deviation of a band determined by the noise period as an exponent value for a band determined as the noise period; And
And a noise eliminator for removing noise with respect to a band determined as the noise period based on the filtering mask,
The mask calculating unit may calculate,
Wherein the filtering mask is calculated based on the order of the bands determined based on the frequency band of the bands and the standard deviation of the band determined by the noise period.
제8 항에 있어서,
상기 마스크 산출부는,
상기 밴드들 중 가장 에너지가 큰 밴드인 기본 밴드의 순번과 상기 잡음 구간으로 결정된 밴드의 순번 간의 차이값에 반비례하고 상기 잡음 구간으로 결정된 밴드의 표준편차 및 상기 밴드들의 개수에 비례하는 값을 상기 지수 값으로 갖도록 상기 필터링 마스크를 산출하는 잡음 제거 장치.
9. The method of claim 8,
The mask calculating unit may calculate,
A value that is inversely proportional to a difference between a sequence number of a base band that is the highest energy band among the bands and a sequence number of bands determined as the noise period and that is proportional to a standard deviation of the band determined by the noise interval, Value of the filtering mask.
제9 항에 있어서,
상기 잡음구간 결정부는,
각 밴드의 음성 신호 크기와 상기 문턱값 매트릭스의 문턱값을 비교하고, 상기 밴드의 음성 신호 크기가 상기 문턱값보다 작은 경우 상기 밴드의 이전 프레임의 음성 신호의 평균값을 상기 표준편차와 비교하고, 상기 이전 프레임의 음성 신호의 평균값이 상기 표준편차보다 큰 경우 제1 잡음 구간으로 판단하고, 상기 이전 프레임의 음성 신호의 평균값이 상기 표준편차 이하인 경우 제2 잡음 구간으로 판단하는 잡음 제거 장치.
10. The method of claim 9,
The noise interval determining unit may determine,
Comparing the average value of the speech signal of the previous frame of the band with the standard deviation when the size of the speech signal of the band is smaller than the threshold value, And determines the second noise interval as a first noise interval when the average value of the speech signal of the previous frame is greater than the standard deviation and determines the second noise interval as the average value of the speech signal of the previous frame is equal to or less than the standard deviation.
제10 항에 있어서,
상기 잡음 제거부는,
상기 제1 잡음 구간으로 판단된 밴드에 대해, 상기 필터링 마스크를 적용하여 잡음을 제거하고, 상기 제2 잡음 구간으로 판단된 밴드에 대해 상기 밴드의 음성 신호를 0으로 적용하는 잡음 제거 장치.
11. The method of claim 10,
The noise-
Wherein the filtering mask is applied to the band determined as the first noise period to remove noise and the speech signal of the band is applied to the band determined to be the second noise period as zero.
KR1020170056901A 2017-05-04 2017-05-04 Apparatus and method for noise removal, and recording medium thereof KR101936242B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170056901A KR101936242B1 (en) 2017-05-04 2017-05-04 Apparatus and method for noise removal, and recording medium thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170056901A KR101936242B1 (en) 2017-05-04 2017-05-04 Apparatus and method for noise removal, and recording medium thereof

Publications (2)

Publication Number Publication Date
KR20180122826A KR20180122826A (en) 2018-11-14
KR101936242B1 true KR101936242B1 (en) 2019-01-08

Family

ID=64328240

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170056901A KR101936242B1 (en) 2017-05-04 2017-05-04 Apparatus and method for noise removal, and recording medium thereof

Country Status (1)

Country Link
KR (1) KR101936242B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583132B (en) * 2020-04-20 2023-05-02 国家卫星气象中心(国家空间天气监测预警中心) Method, device, equipment and medium for removing abnormal stripe noise of remote sensing image

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Gihyoun Lee et al., ‘Voice activity detection algorithm using perceptual wavelet entropy neighbor slope’, Bio-Medical Materials and Engineering 24, pp.3295~3301, 2014.*
Juan Sun et al., ‘Speech enhancement via coding with ideal binary mask’, ICSP 2014, pp.537~540, 2014.*

Also Published As

Publication number Publication date
KR20180122826A (en) 2018-11-14

Similar Documents

Publication Publication Date Title
US10650796B2 (en) Single-channel, binaural and multi-channel dereverberation
CN111583949A (en) Howling suppression method, device and equipment
US20030185411A1 (en) Single channel sound separation
US10755728B1 (en) Multichannel noise cancellation using frequency domain spectrum masking
CN112565981B (en) Howling suppression method, howling suppression device, hearing aid, and storage medium
JP6987075B2 (en) Audio source separation
US20200286501A1 (en) Apparatus and a method for signal enhancement
CN104021798A (en) Method for soundproofing an audio signal by an algorithm with a variable spectral gain and a dynamically modulatable hardness
CN106331969B (en) Method and system for enhancing noisy speech and hearing aid
EP2689419B1 (en) Method and arrangement for damping dominant frequencies in an audio signal
US10199048B2 (en) Bass enhancement and separation of an audio signal into a harmonic and transient signal component
KR101936242B1 (en) Apparatus and method for noise removal, and recording medium thereof
TWI594232B (en) Method and apparatus for processing of audio signals
DE102015204010B4 (en) Method for suppressing a noise in an acoustic system
KR102033469B1 (en) Adaptive noise canceller and method of cancelling noise
DE60033039T2 (en) DEVICE AND METHOD FOR THE SUPPRESSION OF ZISCHLAUTEN USING ADAPTIVE FILTER ALGORITHMS
Jaffery et al. Selection of optimal decomposition level based on entropy for speech denoising using wavelet packet
CN104867498A (en) Mobile communication terminal and voice enhancement method and module thereof
DE10137348A1 (en) Noise filtering method in voice communication apparatus, involves controlling overestimation factor and background noise variable in transfer function of wiener filter based on ratio of speech and noise signal
KR101958006B1 (en) Apparatus and method for speech enhancement, and recording medium thereof
DE102018117558A1 (en) ADAPTIVE AFTER-FILTERING
CN113593599A (en) Method for removing noise signal in voice signal
Oktar et al. Denoising speech by notch filter and wavelet thresholding in real time
Manikandan Speech enhancement based on wavelet denoising
US11322168B2 (en) Dual-microphone methods for reverberation mitigation

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant