KR20110063253A - Method and apparatus of deleting the noises, and the terminal for human voices telecommunication - Google Patents

Method and apparatus of deleting the noises, and the terminal for human voices telecommunication Download PDF

Info

Publication number
KR20110063253A
KR20110063253A KR1020100030223A KR20100030223A KR20110063253A KR 20110063253 A KR20110063253 A KR 20110063253A KR 1020100030223 A KR1020100030223 A KR 1020100030223A KR 20100030223 A KR20100030223 A KR 20100030223A KR 20110063253 A KR20110063253 A KR 20110063253A
Authority
KR
South Korea
Prior art keywords
noise
voice signal
signal
voice
frame
Prior art date
Application number
KR1020100030223A
Other languages
Korean (ko)
Inventor
이성도
김흥국
Original Assignee
(주)웰리브솔루션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)웰리브솔루션 filed Critical (주)웰리브솔루션
Publication of KR20110063253A publication Critical patent/KR20110063253A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/18Automatic or semi-automatic exchanges with means for reducing interference or noise; with means for reducing effects due to line faults with means for protecting lines

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)

Abstract

PURPOSE: A noise removing method, apparatus thereof, and voice communication terminal are provided to remove noise from a voice signal of a sender and to transmit a clear signal to a transmission side. CONSTITUTION: A voice signal is divided into frames(S1). The voice signal is converted into a spectrum signal(S2). A moving average line is obtained by applying moving average to the spectrum signal(S3). A plurality of major peaks is selected from the moving average line(S4). The spectrum signal is restored as a voice signal(S7).

Description

잡음제거방법 및 그 장치, 음성통신 단말기{METHOD AND APPARATUS OF DELETING THE NOISES, AND THE TERMINAL FOR HUMAN VOICES TELECOMMUNICATION}Noise reduction method and apparatus, voice communication terminal {METHOD AND APPARATUS OF DELETING THE NOISES, AND THE TERMINAL FOR HUMAN VOICES TELECOMMUNICATION}

본 발명은 음성의 통화품질을 개선하기 위한 것으로서, 특히 잡음제거방법 및 그 장치에 관한 것이다.
The present invention is to improve the call quality of voice, and more particularly, to a noise removing method and apparatus.

음성통신 단말기에서 가장 주요한 요소는 깨끗한 음성신호의 전달이다. 그러나, 일반적으로 마이크를 통한 음성신호 채취 시에 주변 잡음 또는 단말기 자체에서 유기되는 잡음 성분에 의하여 깨끗한 음성신호의 전달이 어렵게 된다. 시끄러운 장소에서는 이러한 현상이 두드러진다.
The most important element in voice communication terminals is the transmission of clean voice signals. However, in general, when a voice signal is collected through a microphone, it is difficult to transmit a clean voice signal due to ambient noise or noise components emitted from the terminal itself. In noisy places, this phenomenon is noticeable.

본 발명에서는 혼입된 잡음을 적절히 판별하여 제거하는 방법 그 장치를 제시한다.
The present invention provides a method and apparatus for properly discriminating and removing mixed noise.

본 발명에서는, 사람의 발성 기관은 아주 짧은 시간 내에는 움직임의 크기가 적을 것으로 가정으로 하여 타임 도메인에서 이웃하는 음성신호 구간의 주파수 성분은 급격한 변화를 할 수 없다는 사실을 이용하여 혼입되는 잡음을 판단하여 제거코자 하는 것이다. 이를 위하여, 음성신호를 타임도메인에서 일정한 주기로 구획하여 프레임(frame)으로 분할하고, 연속되는 각 프레임에 대하여 음성신호를 주파수 대역의 신호인 스펙트럼 신호로 변환하고, 스펙트럼 신호에 이동평균을 적용하여 이동평균선을 구하고, 이동평균선에서 스펙트럼의 분포가 봉우리 처럼 집중되어 있는 주봉을 복수개 선정하고, 최초의 프레임에서는 주봉 중에서 에너지가 가장 큰 3개의 주봉을 포만트로 선정하고, 그 이후의 프레임에서는 각 포만트에 대해 전 프레임의 포만트 상/하 10% 범위에 위치하는 주봉을 해당 프레임의 포만트로 선택하고, 선택되지 않은 주봉은 잡음의 영향으로 판단하여 스텍트럼 신호에서 제거하고, 남은 스텍트럼 신호를 타임도메인으로 역변환하여 음성신호로 복원하는 것을 특징으로 하는 잡음제거방법을 제공한다.In the present invention, the human speech organ determines the noise to be mixed using the fact that the frequency components of neighboring voice signal sections cannot be changed rapidly in the time domain on the assumption that the motion is small in a very short time. To remove it. To this end, the speech signal is divided into frames at regular intervals in the time domain, and the speech signal is converted into a spectral signal, which is a signal of a frequency band, for each successive frame, and the moving average is applied to the spectral signal. Find the average line, select a plurality of main rods with the spectrum distribution on the moving average line as the peak, select the three main rods with the highest energy among the main rods as the formant in the first frame, and select each formant in the subsequent frame. For the main frame, select the main bar that is in the 10% range up / down of the previous frame as the formant of the frame, remove the unselected main bar from the spectrum signal as the influence of noise, and reverse convert the remaining spectrum signal to the time domain. Noise reduction method, characterized in that to restore the voice signal to provide.

여기에서, 프레임의 분할은, 전후 프레임과 시간상 일부가 중첩되게 하거나, 타임도메인의 신호를 시간상 일부 생략할 수 있다.Here, in the division of the frame, a part of the front and rear frame overlaps in time, or a part of the time domain signal may be omitted in time.

또한 본 발명은, 마이크에서 입력된 음성신호를 채취하는 음성신호채취부와, 상기 잡음제거방법을 실행하는 잡음제거부와, 상기 잡음제거부에 의하여 잡음이 제거된 음성신호를 음성통신 단말기의 음성신호처리부로 전달하는 인터페이스부로 구성된 것을 특징으로 하는 잡음제거장치를 제공한다.In another aspect, the present invention, the voice signal collecting unit for collecting the voice signal input from the microphone, the noise removing unit for performing the noise removing method, and the voice signal from which the noise is removed by the noise removing unit voice of the voice communication terminal It provides a noise canceling device comprising an interface unit for transmitting to a signal processor.

또한 음성통신 단말기의 음성신호처리부로부터 음성신호를 전달받는 인터페이스부와, 상기 잡음제거방법을 실행하는 잡음제거부와, 상기 잡음제거부에 의하여 잡음이 제거된 음성신호를 스피커를 통하여 재생하는 음성신호 재생부로 구성된 것을 특징으로 하는 잡음제거장치를 제공한다.In addition, a voice signal for reproducing the voice signal from the voice signal processing unit of the voice communication terminal, a noise removing unit for executing the noise removing method, and a voice signal from which the noise is removed by the noise removing unit through a speaker. It provides a noise canceling device, characterized in that consisting of a regeneration unit.

또한 상기 잡음제거장치를 구비하는 음성통신 단말기를 제공한다.
Also provided is a voice communication terminal having the noise canceling device.

약 75데시벨 음압 레벨 이상의 주변 잡음이 있으면 음성 통화가 거의 어려운 정도이나, 본 발명을 사용할 경우 주변 잡음이 대부분 제거되어 깨끗한 음성 통화가 가능하다. 본 발명은 송신측 / 수신측 모두 적용할 수 있다. 즉, 송신측에서는 발신자의 음성신호에서 잡음을 제거하여 깨끗한 신호를 송신할 수 있고, 수신측에서는 상대방의 잡음 섞인 신호에서 잡음을 제거하여 깨끗한 신호를 들을 수 있게 한다.
If there is an ambient noise of about 75 decibels or more sound pressure level, the voice call is almost difficult, but when using the present invention, most of the ambient noise is removed to enable a clean voice call. The present invention can be applied to both the transmitting side and the receiving side. That is, the transmitting side can remove the noise from the sender's voice signal and transmit a clean signal, and the receiving side can remove the noise from the noise mixed signal of the other party so that the clean signal can be heard.

도1은, 음성신호의 스펙트로그램을 나타내는 도면,
도2은, 잡음제거 처리의 흐름도를 나타내는 도면,
도3은, 잡음 처리 중간 과정의 신호를 나타내는 도면,
도 4는, 포만트 결정 처리 흐름도를 나타내는 도면,
도 5는, 프레임 분할 예1을 나타내는 도면,
도 6은, 프레임 분할 예2를 나타내는 도면,
도 7은, 프레임 분할 예3을 나타내는 도면,
도 8은, 송신측 (TX) 잡음제거 장치의 블록도를 나타내는 도면,
도 9는, 수신측 (RX) 잡음제거 장치의 블록도를 나타내는 도면이다.
1 is a diagram showing a spectrogram of an audio signal;
2 is a diagram showing a flowchart of the noise reduction process;
3 is a diagram showing a signal in the middle of noise processing;
4 is a diagram showing a formant decision processing flowchart;
5 is a diagram showing a frame division example 1;
6 is a diagram illustrating a frame division example 2;
7 is a diagram showing a frame division example 3;
8 is a block diagram of a transmitter (TX) noise canceller;
9 is a block diagram of a receiving side (RX) noise canceling device.

이하, 본 발명을 구체적인 실시예에 의거하여 상세히 설명한다.Hereinafter, the present invention will be described in detail based on specific examples.

본 발명은 기본적으로, 음성통신 단말기에서 통화품질을 개선하기 위하여 음성신호 이외의 잡음을 제거하는 것을 목적으로 한다.Basically, an object of the present invention is to remove noise other than a voice signal in order to improve call quality in a voice communication terminal.

도1의 상단 부분은 음성신호가 마이크 회로를 거친 후에 ADC(Analog to Digital Converter)에 의하여 디지털 신호로 변환된 후의 타임 도메인 파형이다. 도1의 하단 부분은 음성신호의 스펙트로그램(Spectrogram)이다.1 is a time domain waveform after a voice signal has been converted into a digital signal by an analog to digital converter (ADC) after passing through a microphone circuit. The lower part of FIG. 1 is a spectrogram of a voice signal.

스펙트로그램이란, 타임 도메인의 음성신호를 약 20ms 정도의 일정한 주기로 구획하여 프레임(frame)으로 분할하고 각 프레임에 해당하는 음성신호의 스펙트럼을 구해서 스펙트럼의 크기를 명암(grey scale)으로 표현한 것이다. 즉, 짙은 부분은 스펙트럼의 크기가 큰 것이고 옅은 부분은 스펙트럼의 크기가 작은 것이다. 연속되는 프레임에 대한 스펙트럼을 명암으로 계속하여 표현하면 도1 하단 부분의 스펙트로그램이 완성된다. 이 도면에서 연속되는 프레임 구간에서 에너지가 높은 부분을 (즉, 명암이 짙은 부분을) 선으로 연결한 곡선을 주파수가 낮은 순서대로 F1, F2, F3, F4, ....로 부르며 이를 포만트(formants; 공진주파수)라고 한다.The spectrogram is a speech signal of a time domain, divided into a predetermined period of about 20 ms, divided into frames, and a spectrum of the speech signal corresponding to each frame is obtained to express the magnitude of the spectrum in gray scale. In other words, the darker part is larger in the spectrum and the lighter part is smaller in the spectrum. Continued representation of the spectrum for successive frames in contrast completes the spectrogram in the lower portion of FIG. In this figure, a curve connecting high-energy parts (ie dark and dark parts) in a continuous frame section is called F1, F2, F3, F4, .... It is called (formants).

약 20ms 정도의 아주 짧은 분석구간에서는 사람의 발음기관은 고정인 것으로 간주할 수 있다. 따라서 다음 프레임으로 이동하더라도 그 시간 폭이 길지 않으므로 발음기관의 움직임은 아주 적다. 짧은 시간 내에 사람의 발음기관이 물리적으로 급격하게 변할 수는 없기 때문이다. 포만트(공진주파수)는 주어진 파이프를 잘 통과하는 주파수 값을 의미하며, 파이프의 모양이 결정되면 포만트는 정할 수 있다. 사람의 구강구조를 파이프라고 생각하여, 사람의 구강구조를 잘 통과하는 주파수 값들을 포만트라고 정의한다. 즉, 발음기관의 모양에 의하여 결정되는 상기한 포만트는 이웃하는 프레임 사이에서는 아주 천천히 변화할 수 밖에 없다.In a very short analysis period of about 20ms, the human pronunciation organ can be considered fixed. Therefore, even if it moves to the next frame, the time is not long so the movement of the pronunciation organ is very small. This is because a person's pronunciation organ cannot change physically in a short time. The formant (resonant frequency) is the frequency value that passes through a given pipe well, and once the shape of the pipe is determined, the formant can be determined. Considering the oral structure of a person as a pipe, frequency values that pass through the oral structure of a person are defined as formants. That is, the formant, which is determined by the shape of the sounding organ, may change very slowly between neighboring frames.

여기에 착안하여 앞, 뒤 프레임에 대한 포만트의 변화를 분석하여 갑자기 나타난 스펙트럼 성분은 잡음에 의한 것이라고 판별할 수 있다. 이러한 방식에 따른 잡음 제거의 흐름도를 도2에 나타내었고, 잡음 제거 과정의 중간 단계에서 생성되는 신호를 도3에 도시하였다.With this in mind, it is possible to determine the sudden spectral components due to noise by analyzing the formant changes for the front and rear frames. A flowchart of noise cancellation in this manner is shown in FIG. 2, and a signal generated in the middle of the noise cancellation process is shown in FIG.

우선, 도2에 의거하여 잡음을 판별하는 구체적인 방법을 도2의 각각의 과정별로 아래에 설명한다.First, a detailed method of discriminating noise based on FIG. 2 will be described below for each process of FIG. 2.

타임 도메인의 음성신호를 약 20ms 정도의 일정한 주기로 구획하여 프레임(frame)으로 분할하고, 현재 프레임에 대하여 자연수인 인덱스를 순차적으로 붙인다(S1). 설명의 편의상 현재 프레임의 인덱스를 n으로 한다. 여기서, 통신의 표준인 8KHz의 샘플링 주파수를 가정한다. 샘플링 주파수란 아날로그 음성신호를 디지털로 변환할 때 1초당 몇 개의 샘플을 채취할 것인가를 결정하는 변수이다. 설명의 편의상 디지털 음성신호를 x(k)로 표기하면, 20 ms 내에 160개의 디지털 음성신호가 존재하므로, k의 범위는 k=0부터 159까지의 자연수이다. 이는 샘플링 주파수가 8KHz인 경우에는 음성신호 각 샘플 사이의 간격은 1/8000 s = 0.125 ms이고, 20 ms 구간에는 160개의 음성 샘플이 존재하기 때문이다.The voice signal of the time domain is divided into frames by a constant period of about 20 ms, and a natural index is sequentially attached to the current frame (S1). For convenience of explanation, the index of the current frame is n. Here, a sampling frequency of 8 KHz, which is a standard of communication, is assumed. The sampling frequency is a variable that determines how many samples are taken per second when the analog voice signal is converted to digital. For convenience of explanation, if a digital voice signal is denoted by x (k), 160 digital voice signals exist within 20 ms, so the range of k is a natural number from k = 0 to 159. This is because, when the sampling frequency is 8KHz, the interval between each sample of the voice signal is 1/8000 s = 0.125 ms, and there are 160 voice samples in the 20 ms interval.

그리고 프레임 n의 주파수 분석을 위하여, 해당 프레임 n에 대하여 타임 도메인의 음성신호를 주파수 대역의 스펙트럼 신호로 변환한다(S2). 타임 도메인의 디지털 음성신호는 DFT (Discrete Fourier Transform)을 이용하여 스펙트럼 신호로 변환할 수 있다. DFT 연산은 다음에 정의하였다.In order to analyze the frequency of the frame n, the voice signal of the time domain is converted into a spectrum signal of the frequency band for the frame n (S2). The digital voice signal of the time domain may be converted into a spectral signal using a discrete fourier transform (DFT). The DFT operation is defined next.

Figure pat00001
Figure pat00001

여기서 X(j)는 j번째 스페트럼 값이며,Where X (j) is the jth spectrum value,

j는 스펙트럼 값을 인덱싱 하기 위한 변수로 0에서 159사이의 자연수이며,j is a variable for indexing spectral values and is a natural number between 0 and 159.

j=0인 경우 0Hz, j=1인 경우는 50Hz, j=2인 경우는 100Hz, ....등의 주파수 값을 나타낸다.When j = 0, 0Hz, j = 1, 50Hz, j = 2, 100Hz, ..., and so on.

N은 각 프레임에 포함된 디지털 음성신호의 개수로, 여기서는 160이며,N is the number of digital audio signals included in each frame, where 160 is

x(k)는 k번째 입력 음성신호값 (디지털)이며,x (k) is the kth input voice signal value (digital)

k는 해당 프레임에서 160개의 디지털 음성신호값을 인덱싱하기 위한 변수이며,k is a variable for indexing 160 digital voice signal values in a corresponding frame.

k는 0에서 159사이의 자연수이다.k is a natural number between 0 and 159.

상기의 스펙트럼 X(j)에 대하여 스펙트럼의 크기를 다음과 같이 정의한다.The magnitude of the spectrum with respect to the spectrum X (j) is defined as follows.

Figure pat00002
Figure pat00002

상기의 | X(j) | (j=0에서 159까지의 자연수), 즉, 스펙트럼 크기의 예를 도3의 실선으로 나타낸다. 여기서 x축은 j이고 y축은 | X(j) | 이다.Above | X (j) | (a natural number from j = 0 to 159), that is, an example of spectral magnitude is shown by the solid line in FIG. Where the x-axis is j and the y-axis is | X (j) | to be.

그리고, 스펙트럼의 주봉(major peaks;스펙트럼의 분포가 봉우리처럼 집중되어 있는 부분)의 선택을 쉽게 하기 위하여 이동평균(Moving Average)을 적용하여 스펙트럼의 이동평균선을 구한다(S3). 이를 도3에서는 점선으로 나타낸다.Then, the moving average line of the spectrum is obtained by applying a moving average in order to easily select major peaks (parts in which the distribution of the spectrum is concentrated like peaks) (S3). This is indicated by a dotted line in FIG.

이동평균을 구하는 방법은, 예를 들어, j번째 스펙트럼의 크기와 전후 5개의 스펙트럼의 크기를 모두 합하고 이를 11로 나눈 값을 그 주파수에 대한 이동평균값으로 하여 구한다. 수식으로 표현하면 다음과 같다.The moving average is calculated by summing the magnitude of the j th spectrum and the magnitudes of the front and rear five spectra and dividing it by 11 as the moving average of the frequency. Expressed as an expression:

Figure pat00003
Figure pat00003

이렇게 얻어진 이동평균선의 신호에서, 예를 들어 6개의 주봉을 선택하여 주봉의 각각을 mp1(n), mp2(n), mp3(n), mp4(n), mp5(n), mp6(n)으로 저장하고(S4), 이 6개의 주봉으로부터 포만트 F1(n), F2(n), F3(n)을 결정한다(S5). 각 포만트의 결정방법은 후술한다.In the signal of the moving average line thus obtained, for example, six main peaks are selected and each of the main peaks is selected as mp1 (n), mp2 (n), mp3 (n), mp4 (n), mp5 (n), and mp6 (n). The formants F1 (n), F2 (n), and F3 (n) are determined from the six main rods (S4). The method of determining each formant will be described later.

그리고, 상기 S4 과정에서 선택한 6개의 주봉 중에서 S5 과정에서 포만트로 선택되지 않은 주봉은 잡음의 영향이라고 판단하고 이를 스펙트럼에서 제거한다(S6). 그리고 최종적으로 잡음이 제거된 주파수 대역의 신호를 타임 도메인의 음성신호로 역변환 한다(S7).Of the six main rods selected in step S4, the main rods not selected as formants in step S5 are determined to be an effect of noise and are removed from the spectrum (S6). Finally, the signal of the frequency band from which the noise is removed is inversely converted into the voice signal of the time domain (S7).

이렇게 하여 입력된 음성신호에서 잡음을 제거하는 처리가 완료된다.In this way, the process of removing noise from the input voice signal is completed.

상기 처리의 S5 과정에서 포만트를 선택하는 과정을 도4에 나타낸다.4 shows a process of selecting a formant in step S5.

우선, 프레임 인덱스 n이 1인가 아닌가의 판단을 한다(S11).First, it is determined whether the frame index n is 1 (S11).

만약 n=1이면 선택된 주봉 6개 중에서 스펙트럼의 크기(즉, 에너지)가 가장 큰 3개의 주봉을 선택하여 주파수가 작은 순서로 F1(n), F2(n), F3(n)로 하여 해당 주파수를 저장한다(S12). 즉, 구체적으로 도3의 경우에는 F1(1)=mp1(1), F2(1)=mp2(1), F3(1)=mp3(1)인 주파수를 저장한다.If n = 1, select 3 main peaks with the largest spectrum (i.e. energy) among the 6 selected main peaks, and select F1 (n), F2 (n), and F3 (n) in order of decreasing frequency. Store the (S12). Specifically, in the case of FIG. 3, frequencies F1 (1) = mp1 (1), F2 (1) = mp2 (1), and F3 (1) = mp3 (1) are stored.

또한 만약 n이 1이 아니면 즉 2번째 이후의 프레임이면, 0.9 * F1(n-1)과 1.1 * F1(n-1) 사이의 범위에 위치하는 주봉 중에 가장 에너지가 큰 것을 F1(n)으로 선택하여 저장한다(S13), 즉, 다시 설명하면, 직전의 프레임의 포만트 F1(n)의 주파수의 전후 10% 범위에 속하는 현재 프레임의 주봉을 선택하여 이를 F1(n)의 주파수로 저장한다.If n is not 1, i.e., the second and subsequent frames, the highest energy among the main rods in the range between 0.9 * F1 (n-1) and 1.1 * F1 (n-1) is taken as F1 (n). Select and store (S13), that is, to describe again, select the main rod of the current frame in the range of 10% before and after the frequency of the formant F1 (n) of the previous frame and stores it as the frequency of F1 (n). .

그리고 마찬가지로 0.9 * F2(n-1)과 1.1 * F2(n-1) 사이의 범위에 위치하는 주봉 중에 가장 에너지가 큰 것을 F2(n)로 선택하여 저장한다(S14). 단, S13 과정에서 이미 선택된 주봉은 S14과정에서 다시 선택하지 않는다.Similarly, among the main rods located between 0.9 * F2 (n-1) and 1.1 * F2 (n-1), the largest energy is selected and stored as F2 (n) (S14). However, the weekly bar selected in step S13 is not selected again in step S14.

그리고 같은 방식으로 0.9 * F3(n-1)과 1.1 * F3(n-1) 사이의 범위에 위치하는 주봉 중에 가장 에너지가 큰 것을 F3(n)으로 선택하여 저장한다(S15). 마찬가지로, 상기 S13과 S14 과정에서 이미 선택된 주봉은 S15과정에서 다시 선택하지 않는다.In the same manner, among the main rods located between 0.9 * F3 (n-1) and 1.1 * F3 (n-1), the largest energy is selected and stored as F3 (n) (S15). Similarly, the main rods already selected in steps S13 and S14 are not selected again in step S15.

이렇게 선택된 주봉, 즉 포만트만이 본래의 음성신호로서 판단되어 유지되고, 선택되지 않은 주봉은 잡음으로 판단되어 제거된다.Only the selected main bar, that is, the formant, is judged and maintained as the original voice signal, and the unselected main bar is judged as noise and removed.

상기에서 현 프레임 중에서 음성신호로 선택되는 포만트를 전 프레임의 각 포만트 주파수의 상하 10%의 범위로 하였으나, 이러한 10%는 주변 환경 등 통신 사정이나 통신기기에 따라 가변적으로 설정될 수 있다. 즉, 10% 이상으로 할 수도 있고 그 미만으로 할 수 있다. 이러한 수치범위를 낮게 설정 할수록 잡음에 대하여 엄격한 제거가 이루어진다. Although the formants selected as voice signals among the current frames are in the range of 10% above and below each formant frequency of the previous frame, the 10% may be variably set according to communication conditions or communication devices such as the surrounding environment. That is, it may be 10% or more or less. The lower this numerical range, the tighter the rejection of noise.

또한, 프레임의 분할은, 도5에 도시한 것 처럼 전후 프레임과 시간상 딱 맞아 떨어지게 할 수도 있고, 도6에 도시한 것처럼 전후 프레임과 시간상 일부가 중첩되게 할 수도 있고, 도7에서 도시한 것처럼 전후 프레임과 시간상 일부가 생략되게 할 수도 있다. 시간상 일부가 중첩되게 분할을 하면 아주 세세한 분석이 가능하여 잡음 혼입 여부를 판단하기 쉽다. 반대로 시간상 일부가 포함되지 않게 분할을 할 경우 계산 상 많은 절약을 할 수 있어 경제적인 구현을 이룰 수 있다.In addition, the division of the frame may be in time with the front and rear frame as shown in FIG. 5, or may overlap with the front and rear frame and time as shown in FIG. 6, or as shown in FIG. You may want to omit some of the frames and time. When parts are overlapped in time, very detailed analysis is possible, and it is easy to determine whether noise is mixed. On the contrary, if the partition is not included in time part, it can save a lot of calculations and achieve economic implementation.

이하, 상기 기능을 구현하는 장치에 대하여 설명한다.Hereinafter, an apparatus for implementing the above function will be described.

도8은 일반적인 음성통신 단말기(1)의 송신부(TX)의 일부를 나타낸 블럭도로서, 이 도면의 중앙부분에 실선으로 표시된 부분이 본 발명 장치의 블럭도이다. 발명의 장치(5)는 마이크(6)로부터 입력되는 음성신호를 채취하기 위한 음성신호채취부(51)와 채취된 음성신호에서 잡음을 제거하기 위한 잡음제거부(52)와 음성통신 단말기(1)와의 인터페이스를 담당하는 인터페이스부(53)로 구성된다.Fig. 8 is a block diagram showing a part of the transmitting unit TX of the general voice communication terminal 1, and the part indicated by the solid line in the center of this figure is a block diagram of the apparatus of the present invention. The apparatus 5 of the present invention includes a voice signal collecting unit 51 for collecting a voice signal input from the microphone 6, a noise removing unit 52 for removing noise from the collected voice signal, and a voice communication terminal 1. It is composed of an interface unit 53 in charge of the interface with.

이를 상세히 설명한다. 음성신호채취부(51)는 마이크(6)에서 입력된 음성신호를 채취하여 잡음제거부(52)로 전달하는 역할을 수행한다. 잡음제거부(52)는 상기 도2에서 설명한 기능을 수행한다. 인터페이스부(53)는 잡음이 제거된 신호를 음성통신 단말기(1)의 음성신호처리부(2)로 전달하는 역할을 수행한다.This will be described in detail. The voice signal collecting unit 51 collects the voice signal input from the microphone 6 and delivers the voice signal to the noise removing unit 52. The noise canceling unit 52 performs the function described with reference to FIG. 2. The interface unit 53 transmits the signal from which the noise is removed to the voice signal processing unit 2 of the voice communication terminal 1.

도9는 일반적인 음성통신 단말기(1)의 수신부(RX)의 일부를 나타낸 블럭도로서, 이 그림의 중앙부분에 실선으로 표시된 부분이 본 발명 장치(8)의 블럭도이다. 발명의 장치는 음성통신 단말기(1)의 음성신호처리부(2)로부터 음성신호를 전달받는 인터페이스부(81)와 이 수신된 음성신호로부터 잡음을 제거하기 위한 잡음제거부(82)와 이 신호를 재생하기 위한 음성신호재생부(83)로 구성된다.Fig. 9 is a block diagram showing a part of the receiving unit RX of the general voice communication terminal 1, and a block diagram of the apparatus 8 of the present invention is shown in the center in this figure. The apparatus of the present invention comprises an interface unit 81 which receives a voice signal from the voice signal processing unit 2 of the voice communication terminal 1, a noise canceling unit 82 for removing noise from the received voice signal, and the signal. And a sound signal reproducing section 83 for reproducing.

이를 상세히 설명한다. 인터페이스부(81)는 음성통신 단말기(1)로부터 수신된 음성신호를 전달받는 역할을 수행한다. 잡음제거부(82)는 상기 도2에서 설명한 기능을 수행한다. 음성신호 재생부(83)는 잡음이 제거된 음성신호를 스피커(7)을 통하여 재생하는 역할을 수행한다.
This will be described in detail. The interface unit 81 serves to receive a voice signal received from the voice communication terminal 1. The noise canceling unit 82 performs the function described with reference to FIG. 2. The voice signal reproducing unit 83 reproduces the voice signal from which the noise is removed through the speaker 7.

Claims (7)

음성신호를 타임도메인에서 일정한 주기로 구획하여 프레임(frame)으로 분할하고,
연속되는 각 프레임에 대하여 음성신호를 주파수 대역의 신호인 스펙트럼 신호로 변환하고,
스펙트럼 신호에 이동평균을 적용하여 이동평균선을 구하고,
이동평균선에서 스펙트럼의 분포가 봉우리 처럼 집중되어 있는 주봉을 복수개 선정하고,
최초의 프레임에서는 주봉 중에서 에너지가 가장 큰 3개의 주봉을 포만트로 선정하고,
그 이후의 프레임에서는 각 포만트에 대해 전 프레임의 포만트 상/하 10% 범위에 위치하는 주봉을 해당 프레임의 포만트로 선택하고, 선택되지 않은 주봉은 잡음의 영향으로 판단하여 스텍트럼 신호에서 제거하고,
남은 스텍트럼 신호를 타임도메인으로 역변환하여 음성신호로 복원하는 것을
특징으로 하는 잡음제거방법.
The voice signal is divided into frames by dividing the voice signal into regular periods in the time domain.
For each successive frame, the audio signal is converted into a spectral signal, which is a signal of a frequency band,
Apply moving average to spectral signals to find moving average line
In the moving average line, select a plurality of main peaks where the spectrum distribution is concentrated like peaks.
In the first frame, three main rods with the highest energy were selected as formants.
In subsequent frames, the main rods located at 10% of the top and bottom of the formant for each formant are selected as the formants of the frame. ,
Restoring the remaining spectrum signal back to the time domain to restore the voice signal.
Noise reduction method characterized in that.
제1항에 있어서,
프레임의 분할은, 전후 프레임과 시간상 일부가 중첩되는 것을
특징으로 하는 잡음제거방법.
The method of claim 1,
Frame division is to overlap part of time with frame before and after
Noise reduction method characterized in that.
제 1항에 있어서,
프레임의 분할은, 타임도메인의 신호를 시간상 일부 생략하게 하는 것을
특징으로 하는 잡음제거방법.
The method of claim 1,
Splitting a frame allows you to omit some of the time domain's signals in time.
Noise reduction method characterized in that.
마이크에서 입력된 음성신호를 채취하는 음성신호채취부와,
제1항 내지 제3항 중의 어느 한 항의 잡음제거방법을 실행하는 잡음제거부와,
상기 잡음제거부에 의하여 잡음이 제거된 음성신호를 음성통신 단말기의 음성신호처리부로 전달하는 인터페이스부로
구성된 것을 특징으로 하는 잡음제거장치.
A voice signal collecting unit for collecting a voice signal input from a microphone,
A noise removing unit for executing the noise removing method according to any one of claims 1 to 3;
The interface unit for transmitting the voice signal from which the noise is removed by the noise removing unit to the voice signal processing unit of the voice communication terminal.
Noise canceller, characterized in that configured.
음성통신 단말기의 음성신호처리부로부터 음성신호를 전달받는 인터페이스부와,
제1항 내지 제3항 중의 어느 한 항의 잡음제거방법을 실행하는 잡음제거부와,
상기 잡음제거부에 의하여 잡음이 제거된 음성신호를 스피커를 통하여 재생하는 음성신호 재생부로
구성된 것을 특징으로 하는 잡음제거장치.
An interface unit for receiving a voice signal from a voice signal processor of the voice communication terminal;
A noise removing unit for executing the noise removing method according to any one of claims 1 to 3;
The voice signal reproducing unit reproduces the voice signal from which the noise is removed by the noise removing unit through a speaker.
Noise canceller, characterized in that configured.
제4항의 잡음제거장치를 구비하는 음성통신 단말기.
Voice communication terminal having a noise canceling device of claim 4.
제5항의 잡음제거장치를 구비하는 음성통신 단말기.Voice communication terminal having a noise canceling device of claim 5.
KR1020100030223A 2009-12-03 2010-04-02 Method and apparatus of deleting the noises, and the terminal for human voices telecommunication KR20110063253A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020090119375 2009-12-03
KR20090119375 2009-12-03

Publications (1)

Publication Number Publication Date
KR20110063253A true KR20110063253A (en) 2011-06-10

Family

ID=44397266

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100030223A KR20110063253A (en) 2009-12-03 2010-04-02 Method and apparatus of deleting the noises, and the terminal for human voices telecommunication

Country Status (1)

Country Link
KR (1) KR20110063253A (en)

Similar Documents

Publication Publication Date Title
Wu et al. A two-stage algorithm for one-microphone reverberant speech enhancement
EP2905778B1 (en) Echo cancellation method and device
ES2347760T3 (en) NOISE REDUCTION PROCEDURE AND DEVICE.
CA2501989C (en) Isolating speech signals utilizing neural networks
EP2643834B1 (en) Device and method for producing an audio signal
CN1122970C (en) Signal noise reduction by time-domain spectral subtraction using fixed filters
CN105118522B (en) Noise detection method and device
CN108447500B (en) Method and device for speech enhancement
KR101737824B1 (en) Method and Apparatus for removing a noise signal from input signal in a noisy environment
JP2008293038A (en) Voice activity detection device and mobile station, and voice activity detection method
CN101826892A (en) Echo cancelle
CN106463106A (en) Wind noise reduction for audio reception
EP1995722B1 (en) Method for processing an acoustic input signal to provide an output signal with reduced noise
CN108806712B (en) Method and apparatus for reducing frequency domain processing
US11380312B1 (en) Residual echo suppression for keyword detection
KR101396873B1 (en) Method and apparatus for noise reduction in a communication device having two microphones
US8165872B2 (en) Method and system for improving speech quality
CN112151055B (en) Audio processing method and device
EP2230664B1 (en) Method and apparatus for attenuating noise in an input signal
Sehgal et al. Utilization of two microphones for real-time low-latency audio smartphone apps
Abutalebi et al. A hybrid subband adaptive system for speech enhancement in diffuse noise fields
WO2022068440A1 (en) Howling suppression method and apparatus, computer device, and storage medium
KR20110063253A (en) Method and apparatus of deleting the noises, and the terminal for human voices telecommunication
Lin et al. Speech enhancement for nonstationary noise environment
JP4527654B2 (en) Voice communication device

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application