KR100423029B1 - A system for adaptively filtering audio signals to increase speech intelligibility in a noisy environment - Google Patents
A system for adaptively filtering audio signals to increase speech intelligibility in a noisy environment Download PDFInfo
- Publication number
- KR100423029B1 KR100423029B1 KR10-1998-0701913A KR19980701913A KR100423029B1 KR 100423029 B1 KR100423029 B1 KR 100423029B1 KR 19980701913 A KR19980701913 A KR 19980701913A KR 100423029 B1 KR100423029 B1 KR 100423029B1
- Authority
- KR
- South Korea
- Prior art keywords
- noise
- filter
- frame
- speech
- estimate
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 38
- 238000001914 filtration Methods 0.000 title claims description 11
- 230000004044 response Effects 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000005259 measurement Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 3
- 230000001133 acceleration Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 19
- 230000003044 adaptive effect Effects 0.000 description 9
- 230000001413 cellular effect Effects 0.000 description 9
- 230000003595 spectral effect Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000009467 reduction Effects 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000010267 cellular communication Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 206010019133 Hangover Diseases 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02168—Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Noise Elimination (AREA)
- Filters That Use Time-Delay Elements (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Abstract
방법 및 시스템은 음성 및 배경잡음 모두를 포함하는 디지털화된 오디오신호의 프레임에서 잡음을 적응해서 감소시키기 위해 제공된다. 디지털화된 오디오신호의 프레임은 조정가능한 고역필터회로를 통해 통과되어 디지털화된 신호의 저주파수 범위에 위치된 배경잡음 부분을 필터링한다. 필터회로는 현재의 프레임에 적응된 필터제어회로에 조정되어 선택된 주파수 응답곡선을 나타낸다. 필터제어회로는 디지털화된 오디오신호의 프레임에서 음성의 존재 여부를 검출하는 음성검출기를 포함한다. 음성이 현재의 프레임에서 검출되지 않을 때 필터회로는 조정된다. 제1양호한 실시예에서, 필터제어회로는 배경잡음에 대응하는 잡음 추정치를 계산함으로써 및 그 잡음 추정치를 토대로 해서 필터회로를 조정함으로써 필터회로를 제어한다. 잡음 추정치가 증가함에 따라, 필터회로는 음성의 저주파수 범위에 있는 증가하는 에너지량을 인출하기 위해 조정된다. 제2양호한 실시예에서, 필터회로는 잡음 프로파일 추정치의 기능으로써 조정된다. 현재의 프레임의 잡음 프로파일 추정치는 음성검출의 기능으로써 결정되고 기준잡음 프로파일에 비교된다. 상기 비교를 토대로 해서 필터회로는 적응해서 조정된다.A method and system are provided for adaptively reducing noise in a frame of a digitized audio signal including both speech and background noise. The frame of the digitized audio signal is passed through an adjustable high pass filter circuit to filter the background noise portion located in the low frequency range of the digitized signal. The filter circuit is tuned to the filter control circuit adapted to the current frame to represent the selected frequency response curve. The filter control circuit includes a speech detector for detecting the presence or absence of speech in the frame of the digitized audio signal. The filter circuit is adjusted when no speech is detected in the current frame. In a first preferred embodiment, the filter control circuit controls the filter circuit by calculating a noise estimate corresponding to the background noise and adjusting the filter circuit based on the noise estimate. As the noise estimate increases, the filter circuit is adjusted to fetch an increasing amount of energy in the low frequency range of speech. In a second preferred embodiment, the filter circuit is adjusted as a function of the noise profile estimate. The noise profile estimate of the current frame is determined as a function of speech detection and compared to a reference noise profile. Based on the above comparison, the filter circuit is adapted and adjusted.
Description
셀룰러 전화 산업은 미국뿐만 아니라 세계의 나머지 지역의 상업적 운용에서 놀라운 진전을 이루어왔다. 주요 대도시 지역에서 셀룰러 서비스에 대한 요구가 현재의 시스템 용량을 앞서고 있다. 이러한 경향이 계속된다고 가정하면, 셀룰러 통신은 가장 작은 시골 시장까지도 도달하게 될 것이다. 결과적으로, 셀룰러 용량이 증가되어야 하는데 동시에 합리적인 비용으로 높은 품질 서비스를 유지할 수 있어야 한다. 용량 증가를 위한 하나의 중요한 단계는 셀룰러 시스템을 아날로그로부터 디지털 송신으로 변환하는 것이다. 이러한 변환은 집, 사무실, 거리, 차량 등에서 쉽게 이동될 수 있고 호출을 하거나 수신하기 위해 사용될 수 있는 저가의 포켓용 무선전화를 사용하는 제1세대 개인통신 망(PCNs)이 차세대 디지털 셀룰러 기반을 사용하는 셀룰러 전기통신 사업자에 의해 제공될 것으로 예상되므로 상기 변환이 또한 중요하다.The cellular telephony industry has made tremendous strides in the commercial operation of the rest of the world as well as the United States. The demand for cellular services in major metropolitan areas is ahead of current system capacity. Assuming this trend continues, cellular communications will reach even the smallest rural market. As a result, cellular capacity needs to be increased while at the same time maintaining high quality service at a reasonable cost. One important step for increasing capacity is to convert the cellular system from analog to digital transmission. These conversions can be easily performed in homes, offices, streets, vehicles, etc., and first-generation personal communication networks (PCNs) using low-cost pocket wireless telephones, which can be used to make or receive calls, The conversion is also important because it is expected to be provided by a cellular telecommunication operator.
디지털 통신시스템은 강력한 디지털신호 처리기술을 이용한다. 디지털신호처리는 일반적으로 디지털화된 신호를 수학적으로 그리고 다른 방법으로 조작하는 것을 말한다. 예를 들어, 아날로그 신호를 디지털 형태로 변환(디지털화)한 후, 그 디지털신호는 디지털신호 처리기(DSP)에서 간단한 수학적인 루틴을 이용해서 필터되고, 증폭되고, 감쇄될 수 있다.Digital communication systems use powerful digital signal processing techniques. Digital signal processing generally refers to manipulating digitized signals mathematically and in other ways. For example, after converting (digitizing) an analog signal into a digital form, the digital signal can be filtered, amplified, and attenuated using a simple mathematical routine in a digital signal processor (DSP).
통상적으로, DSPs는 고속 집적 회로로서 제조되어 데이터처리 동작이 반드시 실시간으로 수행될 수 있다. 또한 DSP는 디지털화된 음성의 비트 송신 속도를 감소시키기 위해 또한 사용될 수 있는데 이는 송신된 무선신호의 스펙트럼 점유를 감소시키고 시스템 용량을 증가시키게 된다. 예를 들어, 음성신호이 14비트 선형펄스 코드변조(PCM)를 사용해서 디지털화되고 8KHz속도로 샘플링되면, 112Kbits/sec의 직렬 비트 속도가 발생된다. 더구나, 인간 음성의 리던던시(redundancies) 및 다른 예측가능한 특징을 수학적으로 이용함으로써, 음성코딩 기술은 112Kbits/sec로부터 7.95Kbit/sec까지의 직렬 비트속도를 압축하기 위해 사용될 수 있어 비트 송신 속도를 14:1로 줄인다. 송신 속도가 줄어들어서 사용가능한 대역폭이 늘어난다.Typically, DSPs are fabricated as high-speed integrated circuits and data processing operations can be performed in real time. DSPs can also be used to reduce the bit rate of digitized voice, which reduces the spectrum occupancy of transmitted radio signals and increases system capacity. For example, when a voice signal is digitized using 14 bit linear pulse code modulation (PCM) and sampled at 8 KHz, a serial bit rate of 112 Kbits / sec is generated. Furthermore, by mathematically utilizing the redundancies and other predictable features of human speech, speech coding techniques can be used to compress serial bit rates from 112 Kbits / sec to 7.95 Kbits / sec, resulting in bit transmission rates of 14: 1. The transmission speed is reduced and the available bandwidth is increased.
2세대 셀룰러 전화시스템(즉, IS-54)용 디지털 표준으로써 사용하기 위해 TIA에 의해 미국에서 채택된 대중적인 음성 압축 기술은 벡터 소스북 여기 선형 예측 코딩(VSELP:vector sourcebook excited linear predictive coding)이다.A popular voice compression technique adopted in the United States by the TIA for use as a digital standard for a second generation cellular telephone system (i.e., IS-54) is vector sourcebook excited linear predictive coding (VSELP) .
유감스럽게도, 고레벨의 주위잡음(특히 "착색한(colored) 잡음")이 합성된 음성을 포함하는 오디오신호가 VSELP를 사용해서 코드화/압축될 때, 결과적으로 바람직하지 않은 오디오신호 특성이 야기될 수 있다. 예를 들어, 디지털 이동전화가 잡음이 있는 환경(예를 들어, 이동하는 자동차내에서)에서 사용되면, 주위잡음 및바람직한 음성 모두가 VSELP인코딩 알고리즘을 사용해서 압축되고, 그 압축된 신호가 디코드되고 가청 음성으로 재구성되는 기지국으로 송신된다. 배경잡음이 아날로그 포맷으로 재구성될 때, 잡음, 때로는 음성의 바람직하지않은 가청 왜곡이 도입된다. 이러한 왜곡은 보통의 청취자에게 매우 귀찮은 것이다.Unfortunately, when an audio signal containing a synthesized voice of high level ambient noise (especially " colored noise ") is coded / compressed using VSELP, undesirable audio signal characteristics may result have. For example, if a digital mobile phone is used in a noisy environment (e.g., in a moving car), both ambient noise and the desired voice are compressed using the VSELP encoding algorithm, the compressed signal is decoded And transmitted to the base station that is reconstructed with the audible voice. When background noise is reconstructed into an analog format, undesirable audible distortion of noise, sometimes speech, is introduced. This distortion is very annoying to the average listener.
왜곡은 상당 부분이 이동전화가 사용되는 환경에 의해 야기된다. 통상적으로 이동전화는 차량의 엔진 및 주위의 교통량에 의해 발생된 주변잡음이 있는 차량 내부에서 사용된다. 차량 내부의 이러한 주변잡음은 통상적으로 낮은 가청 주파수 범위에서 집중되고 잡음 크기는 차량의 속도와 가속 및 주위의 교통량의 정도와 같은 요인으로 인해 변화할 수 있다. 이러한 형태의 저 주파 잡음은 차량 환경에서 대화자로부터 나오는 음성의 명료도를 상당히 감소시키는 경향이 있다. 저 주파 잡음에 의해 야기된 음성 명료도의 감소는 VSELP 음성코더를 배치하는 통신시스템에서 특히 현저하나, VSELP 음성코더를 포함하지않은 통신시스템에서도 발생할 수 있다.Distortion is largely caused by the environment in which the mobile phone is used. A mobile phone is typically used inside a vehicle with ambient noise generated by the vehicle's engine and surrounding traffic. This ambient noise inside the vehicle is typically concentrated in a low audible frequency range and the noise magnitude may change due to factors such as the speed and acceleration of the vehicle and the amount of traffic around it. This type of low frequency noise tends to significantly reduce the intelligibility of speech from talkers in a vehicle environment. The reduction in speech intelligibility caused by low frequency noise can occur notably in communication systems that deploy VSELP voice coders, but also in communication systems that do not include VSELP voice coders.
또한, 이동전화상에서 주변잡음의 영향은 이동전화가 사용되는 방법에 의해 영향받을 수 있다. 특히, 이동전화는 수화기대에 있을 때 전화 사용자가 전화에서 대화하는 핸즈프리 모드에서 사용될 수 있다. 그것은 전화 사용자의 손을 자유롭게 하여 운전이 가능하지만 전화사용자의 말소리가 이동전화의 마이크로폰 입력에 도달하기전에 이동해야하는 거리를 증가시킨다. 변화하는 주변잡음과 함께 사용자 및 이동전화간의 거리 증가로 이동전화로 입력된 오디오신호의 총전력 스펙트럼 에너지의 상단한 부분으로 되는 잡음을 발생시킬 수 있다.In addition, the influence of ambient noise on the mobile phone can be affected by how the mobile phone is used. In particular, a mobile phone can be used in a hands-free mode where a telephone user is talking on the telephone when in a sign language standby. It increases the distance that a telephone user's hand must be free to operate but the telephone user's voice must travel before reaching the microphone input of the mobile phone. An increase in the distance between the user and the mobile phone along with the varying ambient noise can generate noise that is an upper portion of the total power spectral energy of the audio signal input to the mobile phone.
EP 0 645 756, EP 0 558 312, EP 0 665 530, DE 4 012 349, 미합중국 특허제4,811,404, 제4,461,025, 및 제5,251,263호 모두는 원치않는 신호성분을 필터링하기 위한 방법을 개시한다.EP 0 645 756, EP 0 558 312, EP 0 665 530, DE 4 012 349, U.S. Pat. Nos. 4,811,404, 4,461,025, and 5,251,263 all disclose methods for filtering unwanted signal components.
이론으로, VSELP 인코된 배경잡음을 필터시키기 위해 디지털신호 처리기를 사용해서 각종의 신호처리 알고리즘이 수행될 수 있었다. 그러나, 이러한 해결책은 소중한 처리시간, 메모리 공간, 및 소모전력을 소비하며 MIPS(millions of instructions executed per second)의 견지에서 측정할 때 상당한 디지털신호 처리 오버헤드를 요구한다. 그러나, 이러한 신호처리 자원 각각은 휴대용 무선전화로 제한된다. 그러므로, 단순히 DSP의 처리량을 증가시키는 것은 VSELP 인코드 및 다른 형태의 배경 잡음을 최소화하는 최적의 해결책이 아니다.In theory, various signal processing algorithms could be performed using a digital signal processor to filter VSELP-encoded background noise. However, this solution consumes valuable processing time, memory space, and power consumption and requires significant digital signal processing overhead when measured in terms of millions of instructions executed per second (MIPS). However, each of these signal processing resources is limited to portable wireless telephones. Therefore, simply increasing the throughput of the DSP is not the optimal solution to minimize VSELP encoding and other types of background noise.
본 발명은 잡음 감소 시스템, 특히 휴대용 디지털 무선전화에 사용하기 위한 적응형 음성 명료도 증대시스템에 관한 것이다.The present invention relates to an adaptive speech intelligibility enhancement system for use in a noise reduction system, particularly a portable digital radiotelephone.
도 1은 본 발명의 일반적인 기능 블록 다이어그램.1 is a general functional block diagram of the present invention.
도 2는 셀룰러 무선통신용 미합중국 디지털 표준 IS-54의 프레임 및 슬롯구조의 예시도.2 is an illustration of the frame and slot structure of the United States digital standard IS-54 for cellular wireless communications.
도 3은 디지털신호 처리기를 사용해서 수행된 본 발명의 제1양호한 실시예의 블록 다이어그램.Figure 3 is a block diagram of a first preferred embodiment of the present invention performed using a digital signal processor.
도 4는 통신시스템에서의 복수의 휴대용 무선 송수신기중 하나에서 본 발명의 일실시예의 기능 블록 다이어그램.4 is a functional block diagram of one embodiment of the invention in one of a plurality of portable radio transceivers in a communication system.
도 5A 및 5B는 본 발명의 제1양호한 실시예를 수행할 때 디지털신호 처리기에 의해 수행된 기능/동작을 예시하는 흐름도.5A and 5B are flow charts illustrating functions / operations performed by a digital signal processor when performing a first preferred embodiment of the present invention.
도 6A는 본 발명의 제1양호한 실시예에 따른 필터회로의 감쇄 대 주파수 특성의 제1예를 예시하는 그래프.6A is a graph illustrating a first example of attenuation versus frequency characteristics of a filter circuit according to a first preferred embodiment of the present invention.
도 6B는 본 발명의 제1양호한 실시예에 따른 필터회로의 감쇄 대 주파수 특성의 제2예를 예시하는 그래프.6B is a graph illustrating a second example of the attenuation versus frequency characteristic of a filter circuit according to the first preferred embodiment of the present invention;
도 7은 본 발명의 제1양호한 실시예의 필터제어회로에 의해 액세스가능한 참조표의 예시도.7 is an illustration of an example of a reference table accessible by the filter control circuit of the first preferred embodiment of the present invention;
도 8A 및 8B는 예시된 입력 오디오신호의 진폭 대 주파수 특성을 예시하는 그래프.8A and 8B are graphs illustrating the amplitude vs. frequency characteristics of the illustrated input audio signal.
도 9A 및 9B는 본 발명의 필터회로에 의해 필터된 후에, 도 8A 및 8B의 입력오디오신호의 진폭 대 주파수 특성을 예시하는 그래프.Figures 9A and 9B are graphs illustrating the amplitude vs. frequency characteristics of the input audio signal of Figures 8A and 8B after being filtered by the filter circuit of the present invention.
도 10은 디지털신호 처리기를 사용하여 수행된 본 발명의 제2양호한 실시예의 블록 다이어그램.10 is a block diagram of a second preferred embodiment of the present invention performed using a digital signal processor.
도 11은 본 발명의 제2양호한 실시예를 수행할 때 디지털신호 처리기에 의해 수행된 기능/동작을 예시하는 도 5B의 흐름도에 대응하는 흐름도.11 is a flow chart corresponding to the flowchart of FIG. 5B illustrating the function / operation performed by the digital signal processor when performing the second preferred embodiment of the present invention;
도 12는 본 발명의 제2양호한 실시예의 필터제어회로에 의해 액세스가능한 참조표의 예시도.12 is an illustration of an example of a reference table accessible by the filter control circuit of the second preferred embodiment of the present invention.
본 발명은 인코드된 음성품질에 부정적인 영향을 최소화하고 디지털신호 처리기 자원상에서 드레인 증가를 최소화하면서 인코된 배경잡음의 바람직하지않은 영향을 감소시키는 적응형 잡음감소 시스템을 제공한다. 본 발명의 방법 및 시스템은 필터회로를 통해 디지털화된 오디오신호의 프레임을 통과시킴으로써 디지털화된 오디오신호에서 음성의 명료도를 증가시킨다. 필터회로는 저 가청 주파수 범위에서 디지털화된 신호중 일부를 필터링시키며 더 높은 주파수 범위에 있는 디지털화된 신호중 일부를 통과시키는 조정 가능한 고역 필터로서 작용한다. 차량의 잡음은 저 가청 주파수 범위에서 집중되는 경향이 있고, 음성 명료도의 상대적으로 적은 부분만이 이러한 저 주파수 범위내에 있기 때문에, 필터회로는 덜 중요한 음성 세그먼트를 필터링만하는 동시에 디지털화된 오디오신호에서의 큰 잡음 세그먼트를 필터링한다. 그것은 제거된 음성 에너지중 일부와 비교해서 잡음 에너지중 상대적으로 큰 부분이 제거되게 한다. 필터회로의 주파수 응답곡선을 적응해서 조정 및 선택함으로써, 필터된 음성량은 제한되고 무선에 의해 출력된 음성 명료도에 최소의 영향을 미친다.The present invention provides an adaptive noise reduction system that minimizes the negative impact on the encoded speech quality and reduces undesirable effects of the encoded background noise while minimizing drain increase on digital signal processor resources. The method and system of the present invention increases the intelligibility of speech in a digitized audio signal by passing the frame of the digitized audio signal through a filter circuit. The filter circuit acts as an adjustable high-pass filter that filters some of the digitized signals in the low audible frequency range and passes some of the digitized signals in the higher frequency range. Since the noise of the vehicle tends to be concentrated in the low audible frequency range and only a relatively small fraction of the voice intelligibility is within this low frequency range, the filter circuit only filters the less important voice segments, Filter out large noise segments. Which causes a relatively large portion of the noise energy to be removed compared to some of the removed speech energy. By adaptively adjusting and selecting the frequency response curve of the filter circuit, the amount of filtered speech is limited and has a minimal effect on speech intelligibility output by the radio.
필터제어회로는 필터회로를 조정하기 위해 사용되어 오디오신호에서 잡음에 대응하는 잡음 추정치 및/또는 스펙트럼 프로파일 결과의 함수로써 다른 주파수 응답곡선을 나타낸다. 잡음 추정치 및/또는 스펙트럼 프로파일 결과는 디지털신호에 대해 프레임마다 그리고 음성 검출에 따라서 조정된다. 음성이 검출되지 않으면, 잡음 추정치 및/또는 스펙트럼 프로파일 결과는 현재의 프레임에 대해 갱신된다. 음성이 검출되면, 잡음 추정치 및/또는 스펙트럼 프로파일 결과는 조정되지 않은채로 그대로 둔다.The filter control circuit is used to adjust the filter circuit to represent different frequency response curves as a function of the noise estimate and / or the spectral profile results corresponding to the noise in the audio signal. The noise estimate and / or spectral profile results are adjusted for each frame and for voice detection on the digital signal. If no speech is detected, the noise estimate and / or spectral profile results are updated for the current frame. If speech is detected, the noise estimate and / or spectral profile results remain unadjusted.
제1실시예에서, 필터회로는 디지털화된 오디오신호의 프레임에 대해 잡음 추정치를 계산한다. 잡음 추정치는 디지털화된 오디오신호들의 프레임에서 배경잡음량에 대응한다. 음성의 저주파수 범위에서 음성에 또한 상대적인 배경잡음량이 증가함에 따라, 잡음 추정치는 증가한다. 음성의 저주파수 범위에서 음성에 대한 상대적인 배경잡음량이 증가함에 따라 필터제어회로는 필터회로를 조정하기 위해 잡음 추정치를 사용하여 음성의 저주파수 범위의 큰 부분을 필터링한다. 배경잡음이 없을 때, 음성 신호의 어떤 부분도 필터링되지 않는다. 잡음 및 음성정보의 더 많은 부분은 더 높은 배경잡음 레벨이 있을 때 인출된다. 잡음이 저주파수 범위에 집중되고 음성의 명료도의 상대적으로 적은 부분만이 이러한 저주파 범위내에 있기때문에, 오디오신호의 전체 명료도는 잡음 추정치가 증가함에 따라 필터되는 저주파수 에너지의 일부를 증가시킴으로써 증가될 수 있다.In a first embodiment, the filter circuit computes a noise estimate for the frame of the digitized audio signal. The noise estimate corresponds to the background noise level in the frame of digitized audio signals. As the relative background noise amount also increases in speech in the low-frequency range of speech, the noise estimate increases. As the amount of background noise relative to speech increases in the low-frequency range of speech, the filter control circuit filters a large portion of the low-frequency range of the speech using the noise estimate to adjust the filter circuit. When there is no background noise, no part of the speech signal is filtered. More portions of noise and speech information are extracted when there is a higher background noise level. Since the noise is concentrated in the low frequency range and only a relatively small portion of the speech intelligibility is within this low frequency range, the overall intelligibility of the audio signal can be increased by increasing some of the low frequency energy being filtered as the noise estimate is increased.
제2실시예에서, 변경된 필터제어회로는 필터회로를 조정하기 위해 사용되어 오디오신호에서 선택된 주파수 범위를 통해 잡음 추정치의 잡음 프로파일의 함수로써 상이한 주파수 응답곡선을 나타낸다. 필터제어회로는 검출 음성의 함수로써 잡음 프로파일 추정치를 결정하는 스펙트럼 분석기를 포함한다. 잡음 프로파일 추정치는 현재의 프레임에 대해 결정되고 기준잡음 프로파일과 비교된다. 이러한 비교를 토대로 해서, 필터회로는 적응해서 조정되어 현재의 프레임으로부터 변화하는 저주파 에너지량을 인출한다.In a second embodiment, the modified filter control circuit is used to adjust the filter circuit to represent a different frequency response curve as a function of the noise profile of the noise estimate over the selected frequency range in the audio signal. The filter control circuit includes a spectrum analyzer that determines the noise profile estimate as a function of the detected speech. The noise profile estimate is determined for the current frame and compared to the reference noise profile. Based on this comparison, the filter circuit adjusts and adapts to fetch the varying amounts of low-frequency energy from the current frame.
본 발명에 따른 적응형 잡음감소 시스템은 휴대용/이동무선 송수신기가 RF채널 등을 통해 서로 또는 고정된 전화선 가입자와 통신하는 통신시스템에 유리하게 인가된다. 각 송수신기는 안테나와, 그 안테나를 경유해서 RF채널을 통해 수신된 무선 신호를 아날로그 오디오신호로 변환하는 수신기와, 송신기를 포함한다. 송신기는 디지털화된 음성정보의 프레임으로 송신되도록 아날로그 오디오신호를 디지털화한 코더-디코더(코덱)를 포함하고, 이 음성정보는 음성 및 배경잡음을 포함한다. 디지털신호 처리기는 배경 잡음의 추정치 및 현재의 프레임내의 음성검출을 토대로 하여 현재의 프레임을 처리하여 배경잡음을 최소화한다. 변조기는 안테나를 경유해서 송신을 계속하기 위해 디지털화된 음성정보의 처리된 프레임으로써 RF반송파를 변조시킨다.The adaptive noise reduction system according to the present invention is advantageously applied to a communication system in which a portable / mobile wireless transceiver communicates with each other or with a fixed telephone line subscriber via an RF channel or the like. Each transceiver includes an antenna, a receiver that converts the radio signal received via the RF channel to an analog audio signal via the antenna, and a transmitter. The transmitter includes a coder-decoder (codec) that digitizes the analog audio signal to be transmitted in the frame of digitized voice information, which includes voice and background noise. The digital signal processor processes the current frame based on an estimate of the background noise and speech detection within the current frame to minimize background noise. The modulator modulates the RF carrier with the processed frame of digitized voice information to continue transmission via the antenna.
본 발명의 상기 및 다른 특성 및 장점은 도면을 참조하여 다음의 설명으로부터 본 기술 분야에 보통의 숙련된 자라면 쉽게 이해할 수 있다.These and other features and advantages of the present invention will be readily apparent to those of ordinary skill in the art from the following description with reference to the drawings.
다음의 설명에서, 제한이 아니라 설명을 하기 위한 목적으로, 본 발명의 이해를 돕기위해서, 특정한 회로, 회로소자, 기술, 흐름도 등의 특정 세부사항 이 설명된다. 그러나, 본 기술에 숙련된 자라면 본 발명이 상기 특정의 세부사항과는 다른 실시예에서 실시될 수 있음을 알 수 있다. 다른 예에서, 이미 공지된 방법, 장치, 및 회로의 상세한 설명은 불필요한 세부 설명으로 본 발명의 설명이 모호해지지 않도록 생략된다.In the following description, for purposes of explanation and not limitation, specific details are set forth such as particular circuits, circuit elements, techniques, flow diagrams, etc., in order to facilitate understanding of the present invention. However, it will be understood by those skilled in the art that the present invention may be practiced in other embodiments than the above-described specific details. In other instances, a detailed description of known methods, apparatus, and circuits is omitted so as not to obscure the description of the present invention with unnecessary detail.
도 1은 본 발명에 따른 적응형 잡음감소 시스템(100)의 일반적인 블록 다이어그램이다. 적응형 잡음감소 시스템(100)은 필터회로(115)에 연결된 필터제어회로(105)를 포함한다. 필터제어회로(105)는 디지털화된 오디오신호의 현재 프레임용 필터제어신호를 발생한다. 필터제어신호는 필터회로(115)에 출력되고, 필터회로(115)는 필터제어신호에 응답해서 조절되어 필터제어신호를 토대로 해서 선택된 고역 주파수 응답곡선을 나타낸다. 그 조절된 필터회로(115)는 디지털화된오디오신호의 현재 프레임을 필터시킨다. 필터링신호는 음성코더(120)에 의해 처리되어 디지털화된 오디오신호를 나타내는 코드된 신호를 발생시킨다.1 is a general block diagram of an adaptive noise reduction system 100 in accordance with the present invention. The adaptive noise reduction system 100 includes a filter control circuit 105 coupled to a filter circuit 115. The filter control circuit 105 generates a filter control signal for the current frame of the digitized audio signal. The filter control signal is output to the filter circuit 115 and the filter circuit 115 is adjusted in response to the filter control signal to represent the selected high frequency response curve based on the filter control signal. The adjusted filter circuit 115 filters the current frame of the digitized audio signal. The filtered signal is processed by speech coder 120 to generate a coded signal representing the digitized audio signal.
셀룰러 통신시스템에서 휴대용/이동무선전화 송수신기에 적용된 본 발명의 전형적인 실시예에서, 도 2는 디지털 셀룰러 전기통신용 IS-54표준에 의해 사용된 시분할 다중접속(TDMA) 프레임구조를 예시한다. "프레임"은 하나의 송신블록(TX), 하나의 수신블록(RX), 및 MAHO(mobile-assisted hand-off)에 사용된 신호강도 측정 블록을 포함하는 20밀리초 시간주기이다. 도 2에 도시된 2개의 연속 프레임이 40밀리초 시간주기로 송신된다. 디지털화된 음성 및 배경잡음 정보는 하기에서 더 상세히 설명되듯이 프레임마다 처리 및 필터된다.In an exemplary embodiment of the present invention applied to a portable / mobile radiotelephone transceiver in a cellular communication system, Figure 2 illustrates a time division multiple access (TDMA) frame structure used by the IS-54 standard for digital cellular telecommunication. The " frame " is a 20 millisecond time period that includes one transmit block TX, one receive block RX, and a signal strength measurement block used for mobile-assisted hand-off (MAHO). The two consecutive frames shown in Fig. 2 are transmitted in a 40 millisecond time period. The digitized speech and background noise information is processed and filtered on a frame-by-frame basis as described in more detail below.
양호하게는, 도 1에 도시된 필터제어회로(105), 필터회로(115), 및 음성코더(120)의 기능은 고속 디지털신호 처리기로써 수행된다. 적합한 디지털신호 처리기는 일례는 텍사스 인스트루먼트사의 TMS320C53 DSP이다. TMS320C53 DSP는 단일 집적 칩상에 16비트 마이크로 프로세서와, 처리되는 음성 프레임 등의 데이터를 저장하는 온-칩(on-chip) RAM과, VSELP음성압축 알고리즘을 포함하는 각종 데이터처리 알고리즘을 저장하는 ROM과, 필터제어회로(105) 및 필터회로(115)에 의해 수행된 기능을 수행하기 위해(하기에서 설명되는) 다른 알고리즘을 포함한다.Preferably, the functions of the filter control circuit 105, the filter circuit 115, and the speech coder 120 shown in Fig. 1 are performed as a high-speed digital signal processor. An example of a suitable digital signal processor is the Texas Instruments TMS320C53 DSP. The TMS320C53 DSP includes a 16-bit microprocessor on a single integrated chip, a ROM that stores various data processing algorithms including an on-chip RAM for storing data such as processed voice frames, a VSELP voice compression algorithm, , Filter control circuit 105, and other algorithms (described below) to perform the functions performed by filter circuit 115. [
본 발명의 제1실시예가 도 3에 도시된다. 제1실시예에서, 필터회로(115)는 필터제어회로에 의해 결정된 배경잡음 추정치의 함수로써 조절된다. 펄스 코드 변조된(PCM) 오디오정보는의 프레임은 DSP의 온-칩 RAM에 순차적으로 저장된다. 오디오정보는 다른 디지털화 기술을 사용해서 디지털화된다. 각 PCM프레임은 DSP온-칩RAM으로부터 검색되어 프레임 에너지 추정기(210)에 의해 처리되고, 일시적인 프레임 기억장치(220)에 일시적으로 저장된다. 프레임 에너지 추정기(210)에 의해 결정된 현재 프레임의 에너지는 잡음 추정기(230) 및 음성검출기(240) 기능블록으로 제공된다. 음성검출기(240)는 프레임 에너지 추정치가 이전의 잡음 추정치 및 음성임계값의 합을 초과할 때 음성이 현재의 프레임에 존재한다는 것을 표시한다. 음성검출기(240)가 음성이 없다는 것을 결정하면, 디지털신호 처리기(200)는 이전의 잡음 추정치 및 현재 프레임 에너지의 함수로써 갱신된 잡음 추정치를 계산한다(블록(230)).A first embodiment of the present invention is shown in Fig. In the first embodiment, the filter circuit 115 is adjusted as a function of the background noise estimate determined by the filter control circuit. The frames of the pulse code modulated (PCM) audio information are sequentially stored in the on-chip RAM of the DSP. The audio information is digitized using other digitization techniques. Each PCM frame is retrieved from the DSP on-chip RAM, processed by the frame energy estimator 210, and temporarily stored in the temporary frame memory 220. The energy of the current frame determined by the frame energy estimator 210 is provided to a noise estimator 230 and a voice detector 240 function block. Speech detector 240 indicates that speech is present in the current frame when the frame energy estimate exceeds the sum of the previous noise estimate and the speech threshold. If the speech detector 240 determines that there is no speech, the digital signal processor 200 calculates an updated noise estimate as a function of the previous noise estimate and the current frame energy (block 230).
갱신된 잡음 추정치는 필터선택기(235)로 출력된다. 필터선택기(235)는 잡음 추정치를 토대로 해서 필터제어신호를 발생시킨다. 양호한 실시예에서, 필터선택기(235)는 필터제어신호의 발생시 참조표(look-up table)를 액세스한다. 참조표는 잡음 추정치 또는 잡음 추정치의 범위와 각기 부합되는 일련의 필터제어값을 포함한다. 참조표로부터 필터제어값은 갱신된 잡음 추정치를 토대로 해서 선택되고 상기 필터제어값은 필터회로(115)용 필터뱅크(bank)(265)에 출력된 필터제어신호에 의해 표시된다. 처리를 안정화시키고 상이한 필터간의 액세시브(accessive) 스위칭을 방지하기 위해 N프레임의 행오버(hangover)시간이 새로운 필터의 선택에 설정된다. 새로운 필터는 단지 N프레임마다 선택될 수 있고, 여기서 N는 일 이상의 정수이고 양호하게는 10 이상이다.The updated noise estimate is output to filter selector 235. The filter selector 235 generates a filter control signal based on the noise estimate. In the preferred embodiment, the filter selector 235 accesses a look-up table when the filter control signal is generated. The lookup table includes a series of filter control values that correspond to the noise estimates or ranges of noise estimates, respectively. From the look-up table, the filter control value is selected based on the updated noise estimate and the filter control value is indicated by the filter control signal output to the filter bank (bank) 265 for the filter circuit 115. The hangover time of N frames is set to the selection of a new filter to stabilize processing and prevent accessive switching between different filters. The new filter can be selected only every N frames, where N is one or more integers and is preferably 10 or more.
필터회로(115)는 필터제어신호에 응답해서 조절되어, 입력된 필터제어신호 및 잡음 추정치에 해당하는 고역 주파수 응답곡선을 나타낸다. 종래기술에서 이미공지된 필터회로의 여러 다른 형태는 필터제어신호에 응답해서 선택된 주파수 응답곡선을 나타내기위해 이용될 수 있다. 이러한 종래기술은 Butterworth, Chebyshev(Tschebyscheff) 또는 타원형 필터 등의 IIR필터를 포함한다. IIR필터는 낮은 처리 요구조건으로 인해 사용될 수 있는 FIR필터로 선호된다.The filter circuit 115 is adjusted in response to the filter control signal to indicate a high frequency response curve corresponding to the input filter control signal and the noise estimate. Various other forms of filter circuits already known in the art can be used to represent the selected frequency response curve in response to the filter control signal. Such prior art techniques include IIR filters such as Butterworth, Chebyshev (Tschebyscheff) or elliptical filters. IIR filters are preferred as FIR filters that can be used due to low processing requirements.
필터된 신호는 필터된 신호의 비트속도를 압축하기 위해 사용되는 음성코더(120)에 의해 처리된다. 양호한 실시예에서, 음성코더(120)는 VSELP(vector sourcebook excited linear predictive coding)를 사용하여 오디오신호를 코딩한다. CELP(code excited linear predictive) 코딩, RPE-LTP(residual pulse excited linear predictive) 코딩, IMBE(improved multiband excited) 코딩 등의 다른 음성 코딩기술 및 알고리즘은 사용될 수 있다. 음성 코딩전에 본 발명에 따라 오디오신호의 프레임을 필터링함으로써, 배경잡음이 최소로되어 그것이 재구성 될 때 음성내의 바람직하지않은 잡음효과를 실질적으로 감소시킨다. 그것은 음성이 간혹 생기는 잡음에서 "압도"되는 것을 방지한다.The filtered signal is processed by a voice coder 120 that is used to compress the bit rate of the filtered signal. In a preferred embodiment, speech coder 120 codes the audio signal using vector sourcebook excited linear predictive coding (VSELP). Other speech coding techniques and algorithms such as code excited linear predictive (CELP) coding, residual pulse excited linear predictive (RPE-LTP) coding, and improved multiband excited (IMBE) coding can be used. By filtering the frame of the audio signal according to the present invention prior to speech coding, the background noise is minimized and substantially reduces the undesirable noise effect in the speech as it is reconstructed. It prevents the voice from being "overwhelmed" by occasional noise.
도 3과 결부해서 설명된 디지털신호 처리기(200)는 예를들어 무선통신시스템에서 사용된 디지털 휴대용/이동무선전화의 송수신기에서 사용될 수 있다. 도 4는 셀룰러 전기통신망에 사용될 수 있는 하나의 디지털 무선 송수신기를 예시한다.The digital signal processor 200 described in connection with FIG. 3 can be used, for example, in a transceiver of a digital portable / mobile radiotelephone used in a wireless communication system. 4 illustrates one digital radio transceiver that may be used in a cellular telecommunication network.
음성 및 배경잡음을 포함하는 오디오신호는 마이크로폰(400)에서 양호하게는 ASIC(application specific integrated circuit)인 코더-디코더(codec)(402)로 입력된다. 마이크로폰(400)에서 검출된 대역 제한 오디오신호는 초당 8,000샘플의 속도로 코덱(402)에 의해 샘플링되고 프레임으로 블록된다. 따라서, 각기 20밀리초프레임은 160개 음성 샘플을 포함한다. 이러한 샘플은 양자화되고 14-비트 선형 PCM 등의 코드된 디지털 포맷으로 변환된다. 현재의 프레임에 대한 디지털화된 음성의 160개 샘플이 온-칩 RAM(202)의 송신 DSP(200)에 일단 저장되면, 송신 DSP(200)는 도 3에 결부해서 설명된 바와같이, VSELP 알고리즘에 따라 채널 인코딩 기능, 프레임 에너지 추정, 잡음 추정, 음성검출, FFT, 필터기능 및 디지털 음성코딩/압축을 수행한다.The audio signal, including speech and background noise, is input to a coder-decoder (codec) 402, preferably an application specific integrated circuit (ASIC), in the microphone 400. The bandlimited audio signal detected at the microphone 400 is sampled by the codec 402 at a rate of 8,000 samples per second and blocked into frames. Thus, each 20 millisecond frame contains 160 audio samples. These samples are quantized and converted into a coded digital format such as a 14-bit linear PCM. Once the 160 samples of the digitized voice for the current frame are stored in the transmit DSP 200 of the on-chip RAM 202, the transmit DSP 200 may determine the VSELP algorithm as described in connection with FIG. Performs channel encoding, frame energy estimation, noise estimation, speech detection, FFT, filter functions, and digital speech coding / compression.
감독의 마이크로 프로세서(432)는 도 4에 도시된 송수신기의 소자 모두의 전체 동작을 제어한다. 송신 DSP(200)에 의해 발생되는 필터된 PCM데이터 흐름은 직교 변조 및 송신에 대해 구비된다. 상기 목적을 위해, ASIC게이트 어래이(404)는 DSP(200)로부터의 필터된 PCM데이터 흐름을 토대로 해서 동위상(I) 및 직교(Q) 채널 정보를 발생한다. I 및 Q비트 흐름은 정합된 저역필터(406 및 408)에 의해 처리되고 균형된 변조기(410)에서 IQ합성기로 통과된다. 기준발진기(412) 및 승산기(414)는 송신중간 주파수(IF)를 제공한다. I신호는 동위상 IF와 합성되고, Q신호는 직교 IF(즉, 위상 시프터(416)에 의해 90°만큼 지연된 동위상 IF)와 합성된다. 합성된 I 및 Q신호는 합산되고, 채널 합성기(430)에 의해 선택된 RF채널 주파수에 "상향" 변환되고, 그 선택된 무선 주파수 채널에서 듀플렉서(duplexer)(420) 및 안테나(422)를 경유해서 송신된다.The director's microprocessor 432 controls the overall operation of all of the elements of the transceiver shown in Fig. The filtered PCM data flow generated by the transmitting DSP 200 is provided for quadrature modulation and transmission. ASIC gate array 404 generates in-phase (I) and quadrature (Q) channel information based on the filtered PCM data flow from DSP 200 for this purpose. The I and Q bit flows are processed by the matched low-pass filters 406 and 408 and passed from the balanced modulator 410 to the IQ synthesizer. Reference oscillator 412 and multiplier 414 provide a transmit intermediate frequency (IF). I signal is combined with the in-phase IF and the Q signal is combined with a quadrature IF (i.e., in-phase IF delayed by 90 degrees by phase shifter 416). The synthesized I and Q signals are summed and "up" converted to the RF channel frequency selected by the channel combiner 430 and transmitted via the duplexer 420 and antenna 422 in the selected radio frequency channel do.
수신측에서, 안테나(422) 및 듀플렉서(420)를 경유해서 수신된 신호는 기준 발진기(428)의 출력을 토대로 해서 채널 합성기(430)에 의해 합성된 국부 발진기 신호를 사용해서 합성기(424)에서 선택된 수신채널 주파수로부터 제1의 IF주파수로하향 변환된다. 제1의 IF합성기(424)의 출력은 필터되고 채널 합성기(430) 및 복조기(426)로부터의 다른 출력을 토대로 해서 제2의 IF주파수로 주파수가 하향 변환된다. 그후 수신 게이트 어래이(434)는 제2의 IF신호를 일련의 위상샘플 및 일련의 주파수 샘플로 변환한다. 수신 DSP(436)는 수신된 신호상에서 복조, 필터링, 이득/감쇄, 채널 디코딩, 및 음성확장을 수행한다. 처리된 음성 데이터는 코덱(402)으로 보내져서 확성기(438)를 구동시키는 기본대역 오디오신호로 변환된다.At the receiving end, the signal received via the antenna 422 and the duplexer 420 is fed to the combiner 424 using the local oscillator signal synthesized by the channel combiner 430 based on the output of the reference oscillator 428 And downconverted from the selected receive channel frequency to the first IF frequency. The output of the first IF synthesizer 424 is filtered and the frequency is downconverted to the second IF frequency based on the other outputs from the channel combiner 430 and the demodulator 426. [ The receive gate array 434 then converts the second IF signal into a series of phase samples and a series of frequency samples. The receive DSP 436 performs demodulation, filtering, gain / attenuation, channel decoding, and speech enhancement on the received signal. The processed voice data is sent to the codec 402 and converted into a baseband audio signal that drives the loudspeaker 438. [
이제, 필터제어회로(105), 필터회로(115), 및 음성코더(120)의 기능을 수행하는 디지털신호 처리기(200)에 의해 수행된 동작이 도 5A 및 5B에 예시된 흐름도와 결부시켜서 설명한다. 프레임 에너지 추정기(210)는 오디오신호의 각 프레임에서 에너지를 결정한다. 프레임 에너지 추정기(210)는 프레임에서 각 PCM샘플의 제곱 값의 합을 계산함으로써 현재의 프레임의 에너지를 결정한다(단계 505). 제2샘플링 속도당 8,000개 샘플에 대해 20밀리초 프레임당 160샘플이 있기 때문에, 160개의 제곱된 PCM샘플이 합산된다. 수학적으로 표시해서 프레임 에너지 추정치가 하기 식 1에 따라 결정된다.The operation performed by the digital signal processor 200 performing the functions of the filter control circuit 105, the filter circuit 115 and the speech coder 120 is now described in connection with the flowchart illustrated in FIGS. 5A and 5B do. The frame energy estimator 210 determines the energy in each frame of the audio signal. The frame energy estimator 210 determines the energy of the current frame by calculating the sum of the squared values of each PCM sample in the frame (step 505). Because there are 160 samples per 20 millisecond frame for 8,000 samples per second sampling rate, 160 squared PCM samples are summed. Mathematically, the frame energy estimate is determined according to Equation 1 below.
현재의 프레임에 대해 계산된 프레임 에너지값이 DSP(200)의 온-칩 RAM(202)에 저장된다(단계 510).The calculated frame energy value for the current frame is stored in the on-chip RAM 202 of the DSP 200 (step 510).
음성검출기(240)의 기능은 DSP(200)의 온-칩 RAM으로부터 잡음 추정기(230)에 의해 이전에 결정된 잡음 추정치를 페치하는 것을 포함한다(단계 515). 물론,송수신기에 초기에 전력이 공급될 때, 잡음 추정치가 존재하지 않는다. 결정블록(520)은 상기 상황을 기대하고 단계 525에서 잡음 추정치를 할당한다. 양호하게는, 정상 음성 레벨 이상의 20dB를 예로 하는 임의로 높은 값이 하기 설명했듯이 잡음 추정치를 갱신하기 위해 잡음 추정치로써 할당된다. 프레임 에너지 추정기(210)에 의해 결정된 프레임 에너지는 DSP(200)의 온-칩 RAM(202)으로부터 검색된다(블록 530). 프레임 에너지 추정치가 하기 식 2에 도시했듯이 그 검색된 잡음 추정치에 설정된 음성 임계값의 합을 초과하는 지에 관한 결정이 블록(535)에서 이루어진다.The function of the speech detector 240 includes fetching previously determined noise estimates by the noise estimator 230 from the on-chip RAM of the DSP 200 (step 515). Of course, when the transceiver is initially powered up, there is no noise estimate. The decision block 520 expects the situation and assigns a noise estimate at step 525. [ Preferably, an arbitrarily high value, e.g. 20 dB above the normal speech level, is assigned as a noise estimate to update the noise estimate, as described below. The frame energy determined by the frame energy estimator 210 is retrieved from the on-chip RAM 202 of the DSP 200 (block 530). A determination is made at block 535 as to whether the frame energy estimate exceeds the sum of the speech thresholds set for the retrieved noise estimate, as shown in Equation 2 below.
프레임 에너지 추정치 > (잡음 추정치 + 음성 임계값) (식 2)Frame energy estimate > (noise estimate + speech threshold) (Equation 2)
음성 임계값이 통상적인 배경잡음의 단기간 에너지 변화보다 크도록 실험적으로 결정되는 고정값으로서, 예를 들어 9dB로 세트된다. 이에 더해서, 음성 임계값은 스피커가 더 시끄럽거나 더 조용한 환경으로 진입될 때 등과 같은 음성조건을 변화시키는 것을 반영하기 위해 적응해서 변경될 수 있다. 프레임 에너지 추정치가 식 2의 합을 초과하면, 플래그는 블록(570)에서 세트되며 음성이 존재한다. 음성검출기(240)가 음성이 있다는 것을 검출하면, 잡음 추정기(230)는 우회되고 디지털화된 오디오에서 이전의 프레임에 대해 계산된 잡음 추정치가 검색되고 현재의 잡음 추정치로서 사용된다. 역으로, 프레임 에너지 추정치가 식 2의 합보다 적으면, 음성 플래그는 블록(540)에서 리세트된다.For example, 9 dB as a fixed value experimentally determined such that the speech threshold is greater than the short term energy variation of the conventional background noise. In addition, the speech threshold may be changed by adapting to reflect changes in speech conditions, such as when the speaker is entering a louder or quieter environment. If the frame energy estimate exceeds the sum of Equation 2, the flag is set at block 570 and a voice is present. If the speech detector 240 detects that speech is present, the noise estimator 230 retrieves the calculated noise estimate for the previous frame in the bypassed and digitized audio and uses it as the current noise estimate. Conversely, if the frame energy estimate is less than the sum of Equation 2, then the audio flag is reset at block 540.
현재의 프레임에서 음성을 검출하는 나머지 시스템도 사용될 수 있다. 예를 들어, ETSI(European Telecommunication Standards Institute)는 GSM(GlobalSystem for Mobile communications) 시스템에서 VAD(voice activity detection)용 표준을 개발해 왔고 ETSI Reference, 즉 참고 문서로 되는 RE/SMG-020632P에서 설명된다. 이러한 표준은 본 발명에서 음성검출용으로 사용될 수 있고 본원에 참고 문서로 사용된다.The remaining system for detecting speech in the current frame may also be used. For example, the European Telecommunication Standards Institute (ETSI) has developed a standard for voice activity detection (VAD) in Global System for Mobile communications (GSM) systems and is described in the ETSI Reference, reference document RE / SMG-020632P. Such a standard may be used for speech detection in the present invention and is used herein as a reference document.
음성이 존재하지 않으면, 잡음 추정기(230)의 잡음 추정치 갱신 루틴이 실행된다. 본질적으로, 잡음 추정치는 음성이 없는 기간동안 프레임 에너지의 동작 평균이다. 상설했듯이, 초기 시동 잡음 추정치가 충분히 높게 선택되면, 음성이 검출되지 않고, 음성 플래그는 리세트되어 잡음 추정치를 갱신시킨다.If no voice is present, the noise estimate update routine of noise estimator 230 is executed. In essence, the noise estimate is the operating average of the frame energy over a period of no speech. As set forth above, if the initial startup noise estimate is chosen to be sufficiently high, no speech is detected and the speech flag is reset to update the noise estimate.
잡음 추정기(230)에 의해 추종된 잡음 추정치 루틴에서, 차분/에러 델타(Δ)는 다음의 식에 따라 프레임 에너지 추정기(210)에 의해 발생된 프레임 잡음 에너지 및 잡음 추정기(230)에 의해 이전에 계산된 잡음 추정치간에 블록(545)에서 결정된다.In the noise estimate routine followed by the noise estimator 230, the difference / error delta? Is previously calculated by the frame noise energy and noise estimator 230 generated by the frame energy estimator 210 according to the following equation: Is determined at block 545 between the computed noise estimates.
Δ = 현재의 프레임 에너지 - 이전의 잡음 추정치 (식 3)Δ = current frame energy - previous noise estimate (Equation 3)
Δ가 제로를 초과하는 지가 결정블록(550)에서 결정된다. Δ가 높은 잡음 추정치에 대해 발생해서 네가티브이면, 잡음 추정치가 다음의 식에 따라 블록(560)에서 재계산된다.It is determined at decision block 550 whether? Exceeds zero. If < RTI ID = 0.0 > A < / RTI > occurs for a high noise estimate and is negative, the noise estimate is recalculated at block 560 according to the following equation.
잡음 추정치 = 이전의 잡음 추정치 + Δ/2 (식 4)Noise estimate = previous noise estimate +? / 2 (Equation 4)
Δ가 네가티브이면, 그것은 잡음 추정치의 하향을 정정한다. 상대적으로 큰 단계 크기 Δ/2는 잡음 레벨을 감소시키도록 빠르게 정정하기 위해 선택된다. 그러나, 프레임 에너지가 잡음 추정치를 초과하면, 제로보다 큰 Δ를 구비하고, 잡음이다음의 식에 따라 블록(555)에서 갱신된다.If? Is negative, it corrects the downwardness of the noise estimate. A relatively large step size? / 2 is selected to quickly correct to reduce the noise level. However, if the frame energy exceeds the noise estimate, then it has a larger than zero and the noise is updated at block 555 according to the following equation.
잡음 추정치 = 이전의 잡음 추정치 + Δ/256 (식 5)Noise estimate = previous noise estimate +? / 256 (Equation 5)
Δ가 포지티브이면, 잡음 추정치는 증가되야 한다. 그러나, 적은 단계 크기 Δ/256(Δ/2와 비교해)은 선택되어 잡음 추정치를 점차로 증가시키고 일시적인 잡음에 실질적인 불활성 상태를 제공한다.If A is positive, the noise estimate should be increased. However, a small step size? / 256 (compared to? / 2) is selected to gradually increase the noise estimate and provide a substantially inactive state to the transient noise.
현재의 프레임에 대해 계산된 잡음 추정치가 필터선택기(235)로 출력된다. 제1양호한 실시예에서, 필터선택기(235)는 참조표를 액세스하고 현재의 잡음 추정치를 사용하여 필터제어값을 선택한다(단계 572). 필터회로(115)(단계 574)는 그 선택된 필터제어값의 기능으로써 조절되어 잡음 추정치 및 배경잡음이 증가함에 따라 필터된 잡음량을 증가시키도록 의도된 주파수 응답곡선을 나타낸다. DSP RAM에 저장된 PCM샘플은 잡음을 제거하기 위해 그 조절된 필터회로(265)를 통해 통과되어 PCM샘플을 필터링한다(단계 576). 필터된 PCM샘플은 음성코더(120)에 의해 처리되고(단계 578), 그 코드된 샘플은 RF송신회로에 출력된다(단계 580).The noise estimate computed for the current frame is output to the filter selector 235. In a first preferred embodiment, the filter selector 235 accesses the look-up table and selects a filter control value using the current noise estimate (step 572). The filter circuit 115 (step 574) is adjusted with the function of the selected filter control value to represent a frequency response curve that is intended to increase the filtered noise volume as the noise estimate and background noise increase. The PCM samples stored in the DSP RAM are passed through the adjusted filter circuit 265 to filter the PCM samples to remove noise (step 576). The filtered PCM samples are processed by the speech coder 120 (step 578) and the coded samples are output to the RF transmit circuitry (step 580).
도 6A 및 6B는 필터회로(115)가 필터회로(115)에 입력된 다른 필터제어신호에 대해 다른 주파수 응답곡선(F1∼F4)을 나타내기 위해 어떻게 조정하는 지의 예를 도시한다. 도 6A에 도시했듯이, 필터회로(115)는 일련의 다른 주파수 응답곡선을 차단 주파수(F1c∼F4c) 각각을 갖는 주파수 응답곡선(F1∼F4)으로써 나타내기 위해 선택될 수 있다. 필터회로(115)의 차단 주파수는 양호한 실시예에서는 300Hz 내지 800Hz의 범위에 있다. 잡음 추정치가 증가함에 따라, 필터회로(115)는 설계되어 더 높은 차단 주파수를 갖는 주파수 응답곡선을 나타낸다. 더 높은 차단 주파수가 필터회로(115)에 인출되는 음성의 저주파 범위내에 일치하는 프레임 에너지중 큰 부분을 발생시킨다.Figures 6A and 6B show examples of how the filter circuit 115 adjusts to represent different frequency response curves F1 to F4 for different filter control signals input to the filter circuit 115. [ As shown in FIG. 6A, the filter circuit 115 may be selected to represent a series of different frequency response curves as frequency response curves F1 to F4, each having cutoff frequencies F1c to F4c. The cut-off frequency of the filter circuit 115 is in the range of 300 Hz to 800 Hz in the preferred embodiment. As the noise estimate increases, the filter circuit 115 is designed to exhibit a frequency response curve with a higher cut-off frequency. A higher cutoff frequency results in a larger portion of the frame energy coinciding within the low frequency range of the speech being drawn into the filter circuit 115.
비슷하게, 도 6B에 도시했듯이, 필터회로(115)는 일련의 다른 주파수 응답곡선(F1∼F4)을 다른 경사 및 같은 차단 주파수를 갖는 각 주파수 응답곡선으로써 나타내기 위해 선택될 수 있다. 주파수 응답곡선(F1∼F4)의 차단 주파수는 상기 언급된 범위에 있다. 잡음 추정치가 증가함에 따라, 필터회로(115)는 더 깊은 경사를 갖는 주파수 응답곡선을 나타내기 위해 조정된다. 더 깊은 경사는 필터회로(115)에 의해 인출되는 음성의 저 주파수 범위내에 있는 프레임 에너지의 큰 부분을 발생시킨다.Similarly, as shown in FIG. 6B, the filter circuit 115 can be selected to represent a series of different frequency response curves F1 to F4 as different frequency response curves with different tilt and the same cutoff frequency. The cut-off frequency of the frequency response curves F1 to F4 is in the above-mentioned range. As the noise estimate increases, the filter circuit 115 is adjusted to exhibit a frequency response curve with a deeper slope. A deeper slope produces a large portion of the frame energy within the low frequency range of the speech being drawn by the filter circuit 115.
필터회로(115)는 현재의 프레임에 대해 계산된 잡음 추정치의 기능으로써 현재의 프레임을 필터링한다. 현재의 프레임이 필터링되어 잡음이 감소되고 음성의 주요부분이 통과된다. 필터링 되지 않은 채로 통과되는 음성의 주요부분이 음성신호 품질에서 최소로 감소되는 인지가능한 음성출력에 대해 구비한다. 다른 차단 주파수 및 다른 경사의 결합은 음성의 저 주파 범위내에 있는 프레임 에너지의 선택된 부분을 적응해서 인출함으로써 사용될 수 있었다.Filter circuit 115 filters the current frame as a function of the noise estimate computed for the current frame. The current frame is filtered to reduce noise and pass a major portion of the speech. For a recognizable voice output in which a major portion of the voice passed unfiltered is minimized in voice signal quality. The combination of different cutoff frequencies and other slopes could be used by adapting a selected portion of the frame energy within the low frequency range of the speech.
도 7은 필터회로(115)의 필터 응답곡선(F1∼F4)중 하나를 선택하기 위해 필터선택기(235)에 의해 액세스된 참조표를 예를 들어 도시한다. 참조표는 필터회로(115)에 의해 나타내어질 수 있는 전위 응답곡선과 대응하는 일련의 전위 잡음 추정치(N1∼Nn) 및 필터제어값(F1∼Fn)을 포함한다. 잡음추정(N1∼Nn)은 잡음추정 범위를 각기 나타낼 수 있고, 특정한 필터제어값(F1∼F4)과 각기 부합된다.필터제어회로(105)는 잡음 추정치를 계산함으로써 및 그것과 함께 연관된 필터제어값을 참조표로부터 검색함으로써 필터제어신호를 발생시킨다.FIG. 7 illustrates, by way of example, a look-up table accessed by filter selector 235 to select one of the filter response curves F1-F4 of filter circuit 115. FIG. The reference table includes a series of potential noise estimates (N1 to Nn) and filter control values (F1 to Fn) corresponding to the potential response curves that can be represented by the filter circuit (115). The noise estimates N1 through Nn may each represent a noise estimation range and correspond to specific filter control values F1 through F4. The filter control circuit 105 calculates the noise estimate by calculating the noise estimate, The filter control signal is generated by retrieving the value from the look-up table.
도 8A 및 B와 9A 및 B는 2개 프레임에 대한 오디오신호가 RF송신기에 출력되는 개선된 오디오신호를 구비하기 위해 각기 적응해서 필터링된다. 도 8A 및 8B는 음성성분(s1 및 s2) 및 잡음성분(n1 및 n2) 각각을 포함하는 오디오신호의 제1프레임 및 제2프레임을 도시한다. 도시했듯이, 2개의 프레임의 잡음 에너지(n1 및 n2)는 저 가청 주파수 범위에 집중되는 반면에, 음성 에너지(s1 및 s2)는 더 높은 가청 주파수 범위에서 집중된다. 도 9A는 필터링후 제1프레임에 대해 잡음신호(n1) 및 음성신호(s1)를 도시한다. 도 9B는 필터링후 제2프레임에 대해 잡음신호(n2) 및 음성신호(s2)를 도시한다.8A and B and 9A and B are respectively adaptively filtered to provide an improved audio signal in which the audio signals for the two frames are output to the RF transmitter. Figs. 8A and 8B show first and second frames of an audio signal that include speech components s1 and s2 and noise components n1 and n2, respectively. As shown, the noise energy (n1 and n2) of the two frames is concentrated in the low audible frequency range, while the voice energies s1 and s2 are concentrated in the higher audible frequency range. 9A shows the noise signal n1 and the speech signal s1 for the first frame after filtering. Fig. 9B shows the noise signal n2 and the voice signal s2 for the second frame after filtering.
논의했듯이, 적응형 오디오 잡음감소 시스템(100)은 현재의 프레임의 계산된 잡음 추정치를 토대로 해서 필터제어회로(105)를 조정함으로써 제1프레임 및 제2프레임간의 잡음 레벨차를 계산하기 위해 설계된다. 예를 들어, 잡음 추정치(N1) 및 스펙트럼 프로파일(S1)은 필터제어회로(105)에 의해 계산되고 F1의 필터제어값이 제1프레임에 대해 선택된다. 양호한 실시예에서, 필터회로(115)는 필터제어값(F1)을 토대로 해서 조정되고 도 6A에 도시했듯이 차단 주파수(F1c)를 갖는 주파수 응답곡선(F1)을 나타낸다. 제1프레임이 상기 조정된 필터회로(115)를 통해 통과된다. 필터회로(115)는 선택되어 잡음(n1)의 큰 부분 및 음성(s1)의 적은 부분만이 주파수 응답곡선(F1)의 차단 주파수(F1c)이하에 있다. 그것은 결과적으로 효과적으로 필터링되는 잡음(n1)을 발생시키며 음성(s1)의 상대적으로 무의미한 부분이 필터링된다. 제1프레임의 그 필터된 오디오신호는 도 9A에 도시된다.As discussed, the adaptive audio noise reduction system 100 is designed to calculate the noise level difference between the first frame and the second frame by adjusting the filter control circuit 105 based on the calculated noise estimate of the current frame . For example, the noise estimate N1 and the spectral profile S1 are calculated by the filter control circuit 105 and the filter control value of F1 is selected for the first frame. In the preferred embodiment, the filter circuit 115 is adjusted based on the filter control value F1 and exhibits a frequency response curve F1 with a cutoff frequency F1c as shown in Fig. 6A. The first frame is passed through the adjusted filter circuit 115. The filter circuit 115 is selected so that only a large portion of the noise n1 and a small portion of the voice s1 are below the cutoff frequency F1c of the frequency response curve F1. This results in a noise n1 that is effectively filtered and a relatively insignificant portion of the voice s1 is filtered. The filtered audio signal of the first frame is shown in Figure 9A.
도 8B에 도시된 제2프레임에서, 더 높은 배경잡음이 있고, 음성이 검출되지 않는 것으로 가정하고, 더 높은 잡음 추정치(n2)는 필터제어회로(105)에 의해 계산된다. 더 높게 대응하는 필터제어값(F2)은 더 높은 잡음 추정치를 토대로 해서 제2프레임에 대해 결정된다. 제1양호한 실시예에서, 필터회로(115)는 더 높은 필터제어값(F2)에 응답해서 조정되어 도 6A에 도시했듯이 더 높은 차단 주파수(F2c)를 갖는 주파수 응답곡선을 나타낸다. 오디오신호의 연속 프레임은 조정된 필터회로(115)를 통해 통과된다. 주파수 응답곡선(F2)의 차단 주파수가 연속 프레임에 대해 더 높아지기 때문에, 잡음(n2) 및 음성(s2) 모두의 큰 부분이 필터된다. 필터된 음성(s2)부분이 프레임에 의해 포함된 명료도(intelligibility) 정보에 여전히 상대적으로 무의미하다. 음성(s2)의 더 많은 부분을 필터링하는 단점은 제2프레임으로부터 잡음(n2) 제거를 증가시킨다는 장점에 의해 상쇄된다. 음성의 필터된 스펙트럼 부분이 음성의 명료도에 별로 기여하지 않는다. 제2프레임의 필터된 오디오신호는 도 9B에 도시된다.In the second frame shown in Fig. 8B, the higher noise estimate n2 is calculated by the filter control circuit 105, assuming there is higher background noise and no speech is detected. The higher corresponding filter control value F2 is determined for the second frame based on the higher noise estimate. In a first preferred embodiment, the filter circuit 115 is tuned in response to a higher filter control value F2 to exhibit a frequency response curve with a higher cutoff frequency F2c as shown in Fig. 6A. Continuous frames of the audio signal are passed through the adjusted filter circuit 115. Since the cutoff frequency of the frequency response curve F2 is higher with respect to the continuous frame, a large portion of both the noise n2 and the voice s2 is filtered. The filtered speech (s2) portion is still relatively insignificant to the intelligibility information included by the frame. The disadvantage of filtering more parts of speech s2 is offset by the advantage of increasing noise n2 removal from the second frame. The filtered spectral portion of speech does not contribute much to the clarity of speech. The filtered audio signal of the second frame is shown in Fig. 9B.
적응형 잡음감소 시스템(100)의 제2양호한 실시예는 도 10∼12에 도시된다. 제2양호한 실시예에서, 필터제어회로(105)는 잡음 프로파일 추정치의 기능으로써 필터회로(115)를 조정한다. 잡음 프로파일 추정치가 각 프레임에 대해 계산되고 기준잡음 프로파일에 비교된다. 상기 비교를 토대로 해서, 필터회로(115)는 현재의 프레임으로부터 저주파수 에너지의 변화량을 인출하기 위해 적응해서 조정된다.A second preferred embodiment of the adaptive noise reduction system 100 is shown in Figs. In a second preferred embodiment, the filter control circuit 105 adjusts the filter circuit 115 as a function of the noise profile estimate. A noise profile estimate is calculated for each frame and compared to a reference noise profile. Based on the comparison, the filter circuit 115 is adjusted to adapt to fetch the amount of change in low-frequency energy from the current frame.
도 10에서, 제2양호한 실시예에 따라 형성된 DSP(200)는 도시된다. 도시했듯이, 필터제어회로(105)는 제1양호한 실시예에 대해서 설명되는 프레임 에너지 추정기(210), 잡음 추정기(230), 음성검출기(240), 및 필터선택기(235)에 부가해서 스펙트럼 분석기(270)를 포함한다. 필터제어회로(105)는 잡음 추정치를 결정하고 제1실시예에 대해 설명되고, 흐름도 5A 및 5B에 도시했듯이 수신된 프레임에 대한 음성을 검출한다. 현재의 프레임에 대한 음성검출시, 스펙트럼 분석기(270)는 잡음 프로파일 추정치를 갱신하고 필터회로(115)를 조정할 때 잡음 프로파일을 사용한다.In Fig. 10, a DSP 200 formed in accordance with the second preferred embodiment is shown. As shown, the filter control circuit 105 includes a frame energy estimator 210, a noise estimator 230, a voice detector 240, and a filter selector 235, which are described for the first preferred embodiment, 270). The filter control circuit 105 determines the noise estimate and is described for the first embodiment and detects speech for the received frame as shown in flowcharts 5A and 5B. Upon speech detection for the current frame, the spectrum analyzer 270 uses the noise profile to update the noise profile estimate and adjust the filter circuit 115. [
도 11에서, 잡음 프로파일 추정치를 갱신하고 필터회로(115)를 조정하는 단계가 도시된다. 도 11은 제1양호한 실시예의 도 5A 및 5B의 흐름도에서 이전에 설명된 모든 처리에 결부된 스펙트럼 분석기(270)에 의해 수행된 단계를 도시한다.In Fig. 11, the steps of updating the noise profile estimate and adjusting the filter circuit 115 are shown. Figure 11 shows the steps performed by the spectrum analyzer 270 associated with all of the processes previously described in the flow charts of Figures 5A and 5B of the first preferred embodiment.
음성이 현재의 프레임에 대해 검출되지 않을 때, 스펙트럼 분석기(270)는 현재의 프레임용 잡음 프로파일을 우선 결정한다(단계 600). 현재의 프레임에 대해 결정된 잡음 프로파일은 현재의 프레임에 대해 음성이 선택된 저 주파 범위내에서 다른 주파수(즉, 주파수 빈스(bins))에 대해 에너지 계산을 포함한다. 양호한 실시예에서, 그 선택된 주파수 범위는 대략 300 내지 800헤르쯔이다. 현재의 프레임의 잡음 프로파일은 N개 주파수 빈스를 갖는 FFT(Fast Fourier Transform)를 사용해서 현재의 프레임을 처리함으로써 결정될 수 있다. FFT를 사용하는 처리 디지털신호는 종래기술에서 양호하게 공지되고 매우 적은 처리 전력이 FFT를 32와 같은 상대적으로 적은 주파수 빈스수로 제한시키는 데서 요구되는 데 유리하다. N개 주파수 빈스를 갖는 FFT는 N개의 다른 주파수에서 에너지 계산을 발생시킨다. 그 선택된 주파수내에 있는 주파수 빈스에 대한 에너지 계산은 현재의 프레임용 잡음 프로파일을 형성한다.When no speech is detected for the current frame, the spectrum analyzer 270 first determines the noise profile for the current frame (step 600). The noise profile determined for the current frame includes energy calculations for different frequencies (i. E. Frequency bins) within the low frequency range at which speech is selected for the current frame. In a preferred embodiment, the selected frequency range is approximately 300 to 800 Hz. The noise profile of the current frame may be determined by processing the current frame using Fast Fourier Transform (FFT) with N frequency vices. Processing digital signals using FFT are well known in the prior art and are advantageous in that very little processing power is required to limit the FFT to a relatively small number of frequency v [ An FFT with N frequency bins generates energy calculations at N different frequencies. The energy calculation for the frequency frequency within the selected frequency forms a noise profile for the current frame.
현재의 프레임용 잡음 프로파일 추정치를 결정하기 위해(단계 604), 현재의 프레임용 잡음 프로파일은 오디오신호의 이전 프레임에 대해 결정된 잡음 프로파일 추정치로써 평균화된다. 이전의 잡음 프로파일 추정치가 초기화후 등과 같이 사용할 수 없을 때, 저장된 초기잡음 프로파일 추정치가 사용될 수 있다. 잡음 프로파일 추정치는 연속적으로 낮은 주파수에서 위치된 잡음 에너지 추정치(ei)(i=1,2,...n)이다(즉, e1은 최고 주파수에 대한 잡음 에너지 추정치이고, en은 선택된 주파수 범위에서 최저 주파수에 대한 잡음 에너지 추정치이다). 양호한 실시예에서, 각 잡음 에너지 추정치(ei)는 음성이 검출되지 않는 복수의 연속 프레임을 통해 선택된 주파수 범위의 특정한 주파수에서 에너지 계산의 평균에 대응한다. 잡음 프로파일 추정치를 결정할 때, 복수의 프레임을 사용함으로써, 필터회로(115)는 더 점진적으로 조정된다. 다른 실시예에서, 잡음 프로파일 추정치는 현재의 프레임의 잡음 프로파일과 같을 수 있다.To determine a noise profile estimate for the current frame (step 604), the noise profile for the current frame is averaged with the noise profile estimate determined for the previous frame of the audio signal. When the previous noise profile estimate is unavailable, such as after initialization, the stored initial noise profile estimate may be used. Noise profile estimate is successively positioned at the low-frequency noise energy estimate (e i) (i = 1,2 , ... n) (i.e., e 1 is the noise energy estimate for the highest frequency, e n is selected Is the noise energy estimate for the lowest frequency in the frequency range). In a preferred embodiment, each noise energy estimate e i corresponds to an average of energy calculations at a particular frequency in a selected frequency range over a plurality of consecutive frames where no speech is detected. By using a plurality of frames when determining the noise profile estimate, the filter circuit 115 is adjusted more gradually. In another embodiment, the noise profile estimate may be the same as the noise profile of the current frame.
잡음 프로파일 추정치의 에너지 추정치(ei)는 기준잡음 프로파일과 비교된다(단계 604). 기준잡음 프로파일은 잡음 프로파일 추정치의 잡음 에너지 추정치(ei)용 주파수에 대응하는 주파수에서 기준 에너지 임계값(eri)(여기서 i=1, 2, …n)을 포함한다. 기준 에너지 임계값(eri)은 실험적으로 결정될 수 있다. 잡음 에너지 추정치(ei)는 최고 주파수 추정치(e1)로부터 최저 주파수 에너지 추정치(en)까지에 대응하는 기준 에너지 임계값(eri)과 연속해서 비교된다.The energy estimate e i of the noise profile estimate is compared to the reference noise profile (step 604). The reference noise profile includes a reference energy threshold e ri (where i = 1, 2, ... n) at a frequency corresponding to the frequency for the noise energy estimate e i of the noise profile estimate. The reference energy threshold e ri can be determined experimentally. The noise energy estimate e i is continuously compared with the reference energy threshold e ri corresponding to the lowest frequency energy estimate e n from the highest frequency estimate e 1 .
특히, 잡음 에너지 추정치(e1)는 기준 에너지 임계값(er1)과 우선 비교된다. e1이 기준잡음 임계값(er1)보다 크면, 비교값(c1)이 선택되고 필터선택기(235)로 입력된다. 잡음 에너지 추정치(e1)가 기준 에너지 임계값(er1)보다 적으면, 잡음 에너지 추정치(e2)(e1보다 낮은 주파수에서 얻어진 잡음 에너지 추정치)는 기준잡음 임계값(er2)과 비교된다. 잡음 에너지 추정치(e2)는 기준잡음 임계치(er2)보다 크면, 비교값(c2)은 선택되고 필터선택기(235)에 입력된다. 비교값(c1)(여기서 I=1, 2, ....n)이 선택될 때 까지 상기 비교 처리는 계속된다.In particular, the noise energy estimate e 1 is first compared with the reference energy threshold e r1 . If e 1 is greater than the reference noise threshold (e r1 ), the comparison value c 1 is selected and input to the filter selector 235. If the noise energy estimate e 1 is less than the reference energy threshold e r1 then the noise energy estimate e 2 (the noise energy estimate obtained at a frequency lower than e 1 ) is compared to the reference noise threshold e r2 do. If the noise energy estimate e 2 is greater than the reference noise threshold e r2 , the comparison value c 2 is selected and input to the filter selector 235. The comparison process continues until the comparison value c 1 (where I = 1, 2, .... n) is selected.
필터회로(235)는 그 결정된 비교값(ci)을 사용하여 필터제어값을 결정한다. 필터제어값은 도 12에서 도시된 것과 같은 참조표로부터 선택된다. 참조표는 일련의 비교값(ci) 및 대응하는 필터제어값(Fi)을 포함한다. 필터회로(115)는 선택된 필터제어값의 기능으로써 조정된다. 필터회로(115)는 조정되어 현재의 프레임으로부터 저주파 에너지를 인출하는 주파수 응답곡선을 나타낸다. 필터회로(115)는 연속해서 더 높은 주파수에서 잡음 에너지 추정치가 그 대응하는 기준 에너지 임계값을 능가함에 따라 증가하는 저주파수 에너지량을 인출하기 위해 조정된다. 도 6A 및 6B는 선택된 필터제어값에 대한 주파수 스펙트럼 응답곡선의 예를 도시한다.The filter circuit 235 uses the determined comparison value c i to determine the filter control value. The filter control value is selected from the look-up table as shown in Fig. The look-up table contains a series of comparison values (c i ) and corresponding filter control values (F i ). The filter circuit 115 is adjusted as a function of the selected filter control value. The filter circuit 115 is tuned to represent a frequency response curve that draws low frequency energy from the current frame. The filter circuit 115 is adjusted to fetch a low-frequency energy amount that increases continuously as the noise energy estimate exceeds its corresponding reference energy threshold at higher frequencies. 6A and 6B show examples of frequency spectrum response curves for selected filter control values.
잡음 프로파일 추정치의 사용은 필터회로를 적응해서 조절하는 능력을 개선시키는 데 도움을 주어서 음성의 전체 품질을 개선시키기 위한 방법으로 저주파 에너지를 인출한다. 차량환경은 이동통신장치가 사용되는 환경만으로 되지 않고, 그러므로 소정의 상황의 잡음 프로파일이 더 높은 주파수를 더 경사질 수 있기 때문에, 스펙트럼 분석기(270)는 저주파수의 잡음 에너지가 적을 때 선택적으로 동작불능되어질 수 있다. 또한, 잡음 주파수 스펙트럼의 상당한 부분이 저주파에 있을 때, 일부 처리 전력이 희생될지라도 더 심한 필터링 경사가 인가될 수 있다. 그 여분의 처리 요구사항은 여전히 매우 적다.The use of noise profile estimates fetches low frequency energy as a way to improve the overall quality of speech by helping to improve the ability to adapt and control the filter circuitry. Because the vehicle environment is not limited to the environment in which the mobile communication device is used, and therefore the noise profile of a given situation may be tilted at a higher frequency, the spectrum analyzer 270 may selectively disable the low frequency noise energy Lt; / RTI > Further, when a significant portion of the noise frequency spectrum is at a low frequency, even more severe filtering gradients may be applied, although some processing power is sacrificed. The extra processing requirements are still very small.
상기 설명으로부터 명백하듯이, 본 발명의 적응형 잡음 필터 시스템은 간단히 그리고 상당한 DSP계산 증가없이 수행된다. "스펙트럼 감산" 등과 같은 잡음을 감소시키는 더 복잡한 방법이 몇 개의 계산에 관련된 MIPS 및 데이터 및 프로그램 코드 저장용 대량의 메모리를 요구한다. 비교에 의해, 본 발명은 또한 많은 음성 왜곡을 도입하는 "스펙트럼 감산" 알고리즘용으로 요구된 MIPS 및 메모리의 부분만을 사용해서 수행된다. 감소된 메모리는 DSP집적회로의 크기를 감소시키고, 즉 다시 말하면 감소된 MIPS는 전력소모를 감소시킨다. 상기 분배 모두는 배터리로 전력 공급되는 휴대용/이동무선전화용에 바람직하다.As is apparent from the above description, the adaptive noise filter system of the present invention is performed simply and without significant DSP computation increase. A more complex method of reducing noise such as " spectral subtraction " requires a large amount of memory for MIPS and data and program code storage associated with some calculations. By comparison, the present invention is also performed using only the portions of MIPS and memory required for the " spectral subtraction " algorithm, which introduces many speech distortions. Reduced memory reduces the size of the DSP integrated circuit, i.e. reduced MIPS reduces power consumption. All of these distributions are desirable for battery powered portable / mobile radiotelephones.
본 발명이 그 양호한 실시예를 참고로 특히 도시 및 설명되는 동안, 그것은 그 실시예로 제한되지 않는다. 예를 들어, DSP가 프레임 에너지 추정기(210), 잡음 추정기(230), 음성검출기(240), 필터선택기(235) 및 필터회로(265)의 기능을 수행하는 것으로 개시되는 동안, 상기 기능은 다른 디지털 및/또는 아날로그 소자를 사용해서 수행될 수 있었다. 또한, 적응형 필터링 시스템(100)은 필터회로(115)가 잡음 추정치 및 잡음 프로파일 추정치 모두의 기능으로써 조정되는 데서 수행될 수 있었다. 상기 기술에 숙련된 자에게는 본 발명의 정신 및 범위로부터 벗어남이 없이 형태 및 내용에서 각종 대안이 이루어지는 것을 알 수 있다.While the invention has been particularly shown and described with reference to a preferred embodiment thereof, it is not limited to that embodiment. For example, while the DSP is disclosed as performing the functions of frame energy estimator 210, noise estimator 230, voice detector 240, filter selector 235, and filter circuit 265, Digital and / or analog devices. In addition, the adaptive filtering system 100 could be performed where the filter circuit 115 is adjusted as a function of both the noise estimate and the noise profile estimate. It will be apparent to those skilled in the art that various alternatives are possible in form and content without departing from the spirit and scope of the invention.
Claims (10)
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US52800595A | 1995-09-14 | 1995-09-14 | |
US08/528005 | 1995-09-14 | ||
US8/528005 | 1995-09-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR19990044659A KR19990044659A (en) | 1999-06-25 |
KR100423029B1 true KR100423029B1 (en) | 2004-07-01 |
Family
ID=24103874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-1998-0701913A KR100423029B1 (en) | 1995-09-14 | 1996-09-13 | A system for adaptively filtering audio signals to increase speech intelligibility in a noisy environment |
Country Status (15)
Country | Link |
---|---|
EP (1) | EP0852052B1 (en) |
JP (1) | JPH11514453A (en) |
KR (1) | KR100423029B1 (en) |
CN (1) | CN1121684C (en) |
AU (1) | AU724111B2 (en) |
BR (1) | BR9610290A (en) |
CA (1) | CA2231107A1 (en) |
DE (1) | DE69613380D1 (en) |
EE (1) | EE03456B1 (en) |
MX (1) | MX9801857A (en) |
NO (1) | NO981074L (en) |
PL (1) | PL185513B1 (en) |
RU (1) | RU2163032C2 (en) |
TR (1) | TR199800475T1 (en) |
WO (1) | WO1997010586A1 (en) |
Families Citing this family (171)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19747885B4 (en) * | 1997-10-30 | 2009-04-23 | Harman Becker Automotive Systems Gmbh | Method for reducing interference of acoustic signals by means of the adaptive filter method of spectral subtraction |
JP2001508197A (en) * | 1997-10-31 | 2001-06-19 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Method and apparatus for audio reproduction of speech encoded according to the LPC principle by adding noise to a constituent signal |
KR20000074236A (en) * | 1999-05-19 | 2000-12-15 | 정몽규 | Auto audio volume control means |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
JP2001318694A (en) * | 2000-05-10 | 2001-11-16 | Toshiba Corp | Device and method for signal processing and recording medium |
US6983242B1 (en) * | 2000-08-21 | 2006-01-03 | Mindspeed Technologies, Inc. | Method for robust classification in speech coding |
KR20030010432A (en) * | 2001-07-28 | 2003-02-05 | 주식회사 엑스텔테크놀러지 | Apparatus for speech recognition in noisy environment |
IL148592A0 (en) | 2002-03-10 | 2002-09-12 | Ycd Multimedia Ltd | Dynamic normalizing |
KR100978015B1 (en) * | 2002-07-01 | 2010-08-25 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | Stationary spectral power dependent audio enhancement system |
WO2004004297A2 (en) * | 2002-07-01 | 2004-01-08 | Koninklijke Philips Electronics N.V. | Stationary spectral power dependent audio enhancement system |
WO2004008801A1 (en) * | 2002-07-12 | 2004-01-22 | Widex A/S | Hearing aid and a method for enhancing speech intelligibility |
US7242763B2 (en) | 2002-11-26 | 2007-07-10 | Lucent Technologies Inc. | Systems and methods for far-end noise reduction and near-end noise compensation in a mixed time-frequency domain compander to improve signal quality in communications systems |
DE10305369B4 (en) * | 2003-02-10 | 2005-05-19 | Siemens Ag | User-adaptive method for noise modeling |
US7127076B2 (en) | 2003-03-03 | 2006-10-24 | Phonak Ag | Method for manufacturing acoustical devices and for reducing especially wind disturbances |
EP2254352A3 (en) * | 2003-03-03 | 2012-06-13 | Phonak AG | Method for manufacturing acoustical devices and for reducing wind disturbances |
CA2691762C (en) | 2004-08-30 | 2012-04-03 | Qualcomm Incorporated | Method and apparatus for an adaptive de-jitter buffer |
KR100640865B1 (en) | 2004-09-07 | 2006-11-02 | 엘지전자 주식회사 | method and apparatus for enhancing quality of speech |
US8085678B2 (en) | 2004-10-13 | 2011-12-27 | Qualcomm Incorporated | Media (voice) playback (de-jitter) buffer adjustments based on air interface |
US8082156B2 (en) | 2005-01-11 | 2011-12-20 | Nec Corporation | Audio encoding device, audio encoding method, and audio encoding program for encoding a wide-band audio signal |
GB2429139B (en) * | 2005-08-10 | 2010-06-16 | Zarlink Semiconductor Inc | A low complexity noise reduction method |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
KR100667852B1 (en) * | 2006-01-13 | 2007-01-11 | 삼성전자주식회사 | Apparatus and method for eliminating noise in portable recorder |
EP4178110B1 (en) * | 2006-01-27 | 2024-04-24 | Dolby International AB | Efficient filtering with a complex modulated filterbank |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
KR101414233B1 (en) | 2007-01-05 | 2014-07-02 | 삼성전자 주식회사 | Apparatus and method for improving speech intelligibility |
KR100883896B1 (en) * | 2007-01-19 | 2009-02-17 | 엘지전자 주식회사 | Speech intelligibility enhancement apparatus and method |
KR100876794B1 (en) * | 2007-04-03 | 2009-01-09 | 삼성전자주식회사 | Apparatus and method for enhancing intelligibility of speech in mobile terminal |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
EP2191466B1 (en) * | 2007-09-12 | 2013-05-22 | Dolby Laboratories Licensing Corporation | Speech enhancement with voice clarity |
CN101904097B (en) | 2007-12-20 | 2015-05-13 | 艾利森电话股份有限公司 | Noise suppression method and apparatus |
EP2232704A4 (en) * | 2007-12-20 | 2010-12-01 | Ericsson Telefon Ab L M | Noise suppression method and apparatus |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
CN101221767B (en) * | 2008-01-23 | 2012-05-30 | 晨星半导体股份有限公司 | Voice boosting device and method used on the same |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
EP2373067B1 (en) * | 2008-04-18 | 2013-04-17 | Dolby Laboratories Licensing Corporation | Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
DE102009011583A1 (en) | 2009-03-06 | 2010-09-09 | Krones Ag | Method and device for producing and filling thin-walled beverage containers |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
DE202011111062U1 (en) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Device and system for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
CN102202038B (en) * | 2010-03-24 | 2015-05-06 | 华为技术有限公司 | Method and system for realizing voice energy display, conference server and terminal |
US9837097B2 (en) | 2010-05-24 | 2017-12-05 | Nec Corporation | Single processing method, information processing apparatus and signal processing program |
CN101859569B (en) * | 2010-05-27 | 2012-08-15 | 上海朗谷电子科技有限公司 | Method for lowering noise of digital audio-frequency signal |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
CN102128976B (en) * | 2011-01-07 | 2013-05-15 | 钜泉光电科技(上海)股份有限公司 | Energy pulse output method and device of electric energy meter and electric energy meter |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
AU2012232977A1 (en) * | 2011-09-30 | 2013-04-18 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
CN102737646A (en) * | 2012-06-21 | 2012-10-17 | 佛山市瀚芯电子科技有限公司 | Real-time dynamic voice noise reduction method for single microphone |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
KR20240132105A (en) | 2013-02-07 | 2024-09-02 | 애플 인크. | Voice trigger for a digital assistant |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
CN104095640A (en) * | 2013-04-03 | 2014-10-15 | 达尔生技股份有限公司 | Oxyhemoglobin saturation detecting method and device |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101772152B1 (en) | 2013-06-09 | 2017-08-28 | 애플 인크. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
EP3008964B1 (en) | 2013-06-13 | 2019-09-25 | Apple Inc. | System and method for emergency calls initiated by voice command |
EP2816557B1 (en) * | 2013-06-20 | 2015-11-04 | Harman Becker Automotive Systems GmbH | Identifying spurious signals in audio signals |
US9697831B2 (en) * | 2013-06-26 | 2017-07-04 | Cirrus Logic, Inc. | Speech recognition |
DE112014003653B4 (en) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatically activate intelligent responses based on activities from remote devices |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
CN110797019B (en) | 2014-05-30 | 2023-08-29 | 苹果公司 | Multi-command single speech input method |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
EP2980801A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
RU2589298C1 (en) * | 2014-12-29 | 2016-07-10 | Александр Юрьевич Бредихин | Method of increasing legible and informative audio signals in the noise situation |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
EP3374990B1 (en) | 2015-11-09 | 2019-09-04 | Nextlink IPR AB | Method of and system for noise suppression |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
CN105869650B (en) * | 2015-12-28 | 2020-03-06 | 乐融致新电子科技(天津)有限公司 | Digital audio data playing method and device |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
CN106060717A (en) * | 2016-05-26 | 2016-10-26 | 广东睿盟计算机科技有限公司 | High-definition dynamic noise-reduction pickup |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US9748929B1 (en) * | 2016-10-24 | 2017-08-29 | Analog Devices, Inc. | Envelope-dependent order-varying filter control |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
CN107039044B (en) * | 2017-03-08 | 2020-04-21 | Oppo广东移动通信有限公司 | Voice signal processing method and mobile terminal |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10157627B1 (en) | 2017-06-02 | 2018-12-18 | Bose Corporation | Dynamic spectral filtering |
WO2019187841A1 (en) * | 2018-03-30 | 2019-10-03 | パナソニックIpマネジメント株式会社 | Noise reduction device |
RU2680735C1 (en) * | 2018-10-15 | 2019-02-26 | Акционерное общество "Концерн "Созвездие" | Method of separation of speech and pauses by analysis of the values of phases of frequency components of noise and signal |
CN109643554B (en) * | 2018-11-28 | 2023-07-21 | 深圳市汇顶科技股份有限公司 | Adaptive voice enhancement method and electronic equipment |
US11438452B1 (en) | 2019-08-09 | 2022-09-06 | Apple Inc. | Propagating context information in a privacy preserving manner |
CN112581935B (en) | 2019-09-27 | 2024-09-06 | 苹果公司 | Context-aware speech assistance devices and related systems and methods |
US11501758B2 (en) | 2019-09-27 | 2022-11-15 | Apple Inc. | Environment aware voice-assistant devices, and related systems and methods |
CN111370033B (en) * | 2020-03-13 | 2023-09-22 | 北京字节跳动网络技术有限公司 | Keyboard sound processing method and device, terminal equipment and storage medium |
US20230305590A1 (en) * | 2020-03-13 | 2023-09-28 | University Of South Australia | A data processing method |
CN111402916B (en) * | 2020-03-24 | 2023-08-04 | 青岛罗博智慧教育技术有限公司 | Voice enhancement system, method and handwriting board |
CN114093391A (en) * | 2020-07-29 | 2022-02-25 | 华为技术有限公司 | Abnormal signal filtering method and device |
CN111916106B (en) * | 2020-08-17 | 2021-06-15 | 牡丹江医学院 | Method for improving pronunciation quality in English teaching |
CN112927715B (en) * | 2021-02-26 | 2024-06-14 | 腾讯音乐娱乐科技(深圳)有限公司 | Audio processing method, equipment and computer readable storage medium |
CN114550740B (en) * | 2022-04-26 | 2022-07-15 | 天津市北海通信技术有限公司 | Voice definition algorithm under noise and train audio playing method and system thereof |
CN118411998B (en) * | 2024-07-02 | 2024-09-24 | 杭州知聊信息技术有限公司 | Audio noise processing method and system based on big data |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05108088A (en) * | 1991-10-14 | 1993-04-30 | Mitsubishi Electric Corp | Speech section detection device |
JPH05259928A (en) * | 1992-03-09 | 1993-10-08 | Oki Electric Ind Co Ltd | Method and device for canceling adaptive control noise |
JPH0695693A (en) * | 1992-09-09 | 1994-04-08 | Fujitsu Ten Ltd | Noise reducing circuit for voice recognition device |
JPH06274196A (en) * | 1993-03-23 | 1994-09-30 | Sony Corp | Method and device for noise removal |
EP0645756A1 (en) * | 1993-09-29 | 1995-03-29 | Ericsson Ge Mobile Communications Inc. | System for adaptively reducing noise in speech signals |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4461025A (en) * | 1982-06-22 | 1984-07-17 | Audiological Engineering Corporation | Automatic background noise suppressor |
US4630305A (en) * | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic gain selector for a noise suppression system |
US4811404A (en) * | 1987-10-01 | 1989-03-07 | Motorola, Inc. | Noise suppression system |
DE4012349A1 (en) * | 1989-04-19 | 1990-10-25 | Ricoh Kk | Noise elimination device for speech recognition system - uses spectral subtraction of sampled noise values from sampled speech values |
US5412735A (en) * | 1992-02-27 | 1995-05-02 | Central Institute For The Deaf | Adaptive noise reduction circuit for a sound reproduction system |
US5251263A (en) * | 1992-05-22 | 1993-10-05 | Andrea Electronics Corporation | Adaptive noise cancellation and speech enhancement system and apparatus therefor |
US5657422A (en) * | 1994-01-28 | 1997-08-12 | Lucent Technologies Inc. | Voice activity detection driven noise remediator |
-
1996
- 1996-09-13 PL PL96325532A patent/PL185513B1/en not_active IP Right Cessation
- 1996-09-13 RU RU98107313/09A patent/RU2163032C2/en not_active IP Right Cessation
- 1996-09-13 BR BR9610290A patent/BR9610290A/en not_active IP Right Cessation
- 1996-09-13 CA CA002231107A patent/CA2231107A1/en not_active Abandoned
- 1996-09-13 JP JP9512112A patent/JPH11514453A/en not_active Ceased
- 1996-09-13 DE DE69613380T patent/DE69613380D1/en not_active Expired - Lifetime
- 1996-09-13 TR TR1998/00475T patent/TR199800475T1/en unknown
- 1996-09-13 KR KR10-1998-0701913A patent/KR100423029B1/en not_active IP Right Cessation
- 1996-09-13 CN CN96198008A patent/CN1121684C/en not_active Expired - Fee Related
- 1996-09-13 WO PCT/US1996/014665 patent/WO1997010586A1/en active IP Right Grant
- 1996-09-13 EE EE9800068A patent/EE03456B1/en not_active IP Right Cessation
- 1996-09-13 AU AU70784/96A patent/AU724111B2/en not_active Ceased
- 1996-09-13 EP EP96931552A patent/EP0852052B1/en not_active Expired - Lifetime
-
1998
- 1998-03-09 MX MX9801857A patent/MX9801857A/en unknown
- 1998-03-11 NO NO981074A patent/NO981074L/en not_active Application Discontinuation
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05108088A (en) * | 1991-10-14 | 1993-04-30 | Mitsubishi Electric Corp | Speech section detection device |
JPH05259928A (en) * | 1992-03-09 | 1993-10-08 | Oki Electric Ind Co Ltd | Method and device for canceling adaptive control noise |
JPH0695693A (en) * | 1992-09-09 | 1994-04-08 | Fujitsu Ten Ltd | Noise reducing circuit for voice recognition device |
JPH06274196A (en) * | 1993-03-23 | 1994-09-30 | Sony Corp | Method and device for noise removal |
EP0645756A1 (en) * | 1993-09-29 | 1995-03-29 | Ericsson Ge Mobile Communications Inc. | System for adaptively reducing noise in speech signals |
Also Published As
Publication number | Publication date |
---|---|
PL185513B1 (en) | 2003-05-30 |
KR19990044659A (en) | 1999-06-25 |
CN1201547A (en) | 1998-12-09 |
PL325532A1 (en) | 1998-08-03 |
EE9800068A (en) | 1998-08-17 |
AU7078496A (en) | 1997-04-01 |
NO981074L (en) | 1998-05-13 |
WO1997010586A1 (en) | 1997-03-20 |
EE03456B1 (en) | 2001-06-15 |
NO981074D0 (en) | 1998-03-11 |
CA2231107A1 (en) | 1997-03-20 |
CN1121684C (en) | 2003-09-17 |
BR9610290A (en) | 1999-03-16 |
RU2163032C2 (en) | 2001-02-10 |
DE69613380D1 (en) | 2001-07-19 |
TR199800475T1 (en) | 1998-06-22 |
EP0852052A1 (en) | 1998-07-08 |
EP0852052B1 (en) | 2001-06-13 |
AU724111B2 (en) | 2000-09-14 |
JPH11514453A (en) | 1999-12-07 |
MX9801857A (en) | 1998-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100423029B1 (en) | A system for adaptively filtering audio signals to increase speech intelligibility in a noisy environment | |
CA2117587C (en) | System for adaptively reducing noise in speech signals | |
US9646621B2 (en) | Voice detector and a method for suppressing sub-bands in a voice detector | |
RU2151430C1 (en) | Noise simulator, which is controlled by voice detection | |
US5544250A (en) | Noise suppression system and method therefor | |
US6122384A (en) | Noise suppression system and method | |
US20010001853A1 (en) | Low frequency spectral enhancement system and method | |
JP2003514473A (en) | Noise suppression | |
WO1997022117A1 (en) | Method and device for voice activity detection and a communication device | |
US8019603B2 (en) | Apparatus and method for enhancing speech intelligibility in a mobile terminal | |
US5666429A (en) | Energy estimator and method therefor | |
US7889874B1 (en) | Noise suppressor | |
US5710862A (en) | Method and apparatus for reducing an undesirable characteristic of a spectral estimate of a noise signal between occurrences of voice signals | |
KR101539268B1 (en) | Apparatus and method for noise suppress in a receiver | |
JP2002076960A (en) | Noise suppressing method and mobile telephone | |
EP1131815A1 (en) | Processing circuit for correcting audio signals, receiver, communication system, mobile apparatus and related method | |
JP2003517761A (en) | Method and apparatus for suppressing acoustic background noise in a communication system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |