PL184098B1 - Sposób i urządzenie do redukcji szumu - Google Patents
Sposób i urządzenie do redukcji szumuInfo
- Publication number
- PL184098B1 PL184098B1 PL96312845A PL31284596A PL184098B1 PL 184098 B1 PL184098 B1 PL 184098B1 PL 96312845 A PL96312845 A PL 96312845A PL 31284596 A PL31284596 A PL 31284596A PL 184098 B1 PL184098 B1 PL 184098B1
- Authority
- PL
- Poland
- Prior art keywords
- value
- noise
- level
- signal
- maximum
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02163—Only one microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Noise Elimination (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Diaphragms For Electromechanical Transducers (AREA)
- Vehicle Body Suspensions (AREA)
- Circuit For Audible Band Transducer (AREA)
- Electric Ovens (AREA)
- Superconductors And Manufacturing Methods Therefor (AREA)
- Treating Waste Gases (AREA)
- Investigating Or Analyzing Materials By The Use Of Ultrasonic Waves (AREA)
- Stereo-Broadcasting Methods (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Abstract
5. U rzadzenie do red u kcji szum u, w w e jsc io w y m sygn ale m o w y, które je s t zaopatrzone w srodki p rzeksztalcajace sy g n a l w e js c io w y n a w id m o czestot- liw o sc i sygn alu w e jsc io w e g o , srodki ro zd zielajace w id m o czestotliw osci na zb ió r p asm czestotliw osci, oraz srodki przetw arzajace kazd e z tych p asm czestot- liw o sc i zgodnie z o k re slo n a ch arak terystyk a filtracji dla dostarczenia sygn alu w e jsc io w e g o o zred u kow a- nym szum ie, znamienne tym, ze srodki przetw a- rzajace s a zaopatrzone w b lo k licz a cy (7) w yzn aczajacy w lasciw o sci filtru na p od staw ie w artosci w yznaczonej ze stosunku poziom u w id m a czestotliw osci do oszaco- w anego poziom u w id m a szum u zaw artego w w idm ie czestotliw osci 1 drugiej w artosci, w yzn aczo n ej z m a- ksym aln ej w artosci stosunku p o zio m u sygn alu ram ki w id m a czestotliw osci do o szaco w an ego poziom u szu- m u oraz tego o szaco w an ego p ozio m u szum u oraz blok k o relacji w id m ow ej p rzetw arzajacy kazd e z pasm a czesto tliw o sci zgodnie z o k re slo n a ch arakterystyka fi- ltracji, p olaczon y z b lo kam i (11, 12 ) rekom binacji 1 o d zyskiw an ia p rzetw orzonych pasm czestotliw osci. F ig. 1 PL PL
Description
Przedmiotem wynalazku jest sposób i urządzenie do redukcji szumu, zwłaszcza zawartego w sygnale mowy, dla eliminacji lub zmniejszenia poziomu szumu zawartego w tym sygnale.
Z opisu patentowego nr EP-A 1-0,556,992 znany jest system do redukcji szumu w sygnale głosu. Opisane w nim urządzenie dzieli sygnał wejściowy na grupy w celu oszacowania tła szumu w różnych pasmach widma sygnału wejściowego. Stosunek sygnału do szumu dla każ184 098 dego kanału jest jednoznacznie określony a wzory stosowane do ich obliczeń znane. Zastosowane w nich wielkości do określania parametrów charakterystyk każdego pasma mają pewne stałe wartości.
Również w opisie amerykańskiego wynalazku nr US-A-5097510 przedstawiony jest sposób i urządzenie do redukcji szumu w sygnale mowy. Wejściowy sygnał jest przekształcany w widmo częstotliwości. Wartości wzmocnienia dla poszczególnych pasm widma częstotliwości są wyliczone i stanowiąwspółczynniki korekcji tych pasm przed konwersjąwstecznądo stałobazowego sygnału. Wzmocnienie dla każdego pasma jest obliczone na podstawie analizy widma częstotliwości za pomocą systemu sztucznej inteligencji, w systemie tym porównuje się energie w każdym paśmie widma częstotliwości i określa pasma zawierające szum biorąc za podstawę to, że poziom mocy w paśmie zawierającym pożądany sygnał głosu zmienia się znacznie w czasie. podczas gdy poziom mocy w paśmie zawierającym tylko szum zmienia się nieznacznie w czasie. w rozwiązaniu tym zastosowano bardzo skomplikowaną technikę obliczeń do wyznaczenia wartości wzmocnienia dla każdego filtru pasmowego.
Z opisu patentowego nr EP-A-0451796 znane jest urządzenie. które wykrywa czy w określonym segmencie czasu trwania sygnału jest w nim zawarty sygnał mowy czy też nie. dając na swym wyjściu informacje „jest sygnał” lub „nie ma sygnału”.
W dziedzinie przenośnych urządzeń telefonicznych lub rozpoznawania mowy. stwierdza się potrzebę tłumienia szumu. występującego w postaci szumu tła lub szumu środowiskowego. zawartego w zbieranym sygnale mowy. w celu uwydatnienia jego składowych mowy.
Sposobem uwydatniania mowy. czyli redukcji szumu jest na przykład sposób wykorzystujący funkcje prawdopodobieństwa warunkowego do regulacji współczynnika tłumienia. opisany przez R. J. McAulaya i M. L. Maplassa. w pracy „Uwydatnienie mowy z wykorzystaniem aktywowanego sygnałem mowy filtru redukującego szum”. w materiałach IEEE Trans. Acoust.. Speech Signal Processing. wol. 28. str. 137-145. kwiecień 1980.
W powyższym sposobie tłumienia szumu. zdarza się często. że w wyniku nieodpowiedniego działania filtru tłumiącego. lub przy pracy z nieodpowiednio ustawionym stosunkiem sygnału do szumu (SNR). występują dźwięki niesamoistne. lub zniekształcenia mowy. Nie jest pożądane. aby dla osiągnięcia jego optymalnej sprawności. użytkownik był zmuszony regulować poziom redukcji szumu SNRjako jeden z parametrów urządzenia podczas rzeczywistej pracy. Poza tym. trudno w przypadku konwencjonalnych metod poprawiania parametrów mowy wyeliminować szum bez generacji zniekształceń sygnału mowy. wynikających ze znacznych zmian SNR w krótkich okresach czasu.
Tego rodzaju metoda poprawy jakości sygnału. czyli redukcji szumu. wymaga sposobów dyskryminacji zakresu szumu. przez porównywanie mocy wejściowej. czyli poziomu. z zadaną wartością progową. Jednak. jeżeli stałą czasu i wartości progowe w tym sposobie zostają zwiększone w celu zapobieżeniu podążania wartości progowych za zmianami sygnału mowy. to nie ma możliwości odpowiedniego nadążania za poziomem szumu. zwłaszcza przy jego podwyższonym poziomie. co prowadzi często do błędów dyskryminacji.
Dla usunięcia tej wady zaproponowano wjapońskim zgłoszeniu patentowym Hei-6-99869 (1994) sposób redukcji szumu w sygnale mowy, w sposobie tym redukcja szumu sygnału mowy odbywa się przez adaptacyjną regulację filtru maksymalnego prawdopodobieństwa. skonfigurowanego do obliczania składowej mowy na podstawie SNR otrzymanego z wejściowego sygnału mowy i prawdopodobieństwa wystąpienia sygnału mowy. Tym sposobem wykorzystuje się sygnał odpowiadający wejściowemu widmu mowy. z pominięciem oszacowanego widma szumowego. obliczanego na podstawie prawdopodobieństwa wystąpienia sygnału mowy. Tym sposobem możliwe jest osiągnięcie dostatecznej redukcji szumu sygnału mowy. gdyż filtr maksymalnego prawdopodobieństwa jest dostrojony do optymalizacji tłumienia.
Sposób redukcji szumu. w wejściowym sygnale mowy. w którym sygnał wejściowy przekształca się na widmo częstotliwości sygnału wejściowego. widmo częstotliwości dzieli się na zbiór pasm częstotliwości. następnie każde pasmo częstotliwości przetwarza się za pomocą filtru o określonej charakterystyce. a przetworzone pasmo częstotliwości poddaje się rekombinacji
184 098 i rekonwersji i dostarcza się sygnał wejściowy ze zredukowanym poziomem szumu, według wynalazku charakteryzuje się tym, że określoną charakterystykę filtru wyznacza się na podstawie pierwszej wartości wyznaczonej ze stosunku poziomu widma częstotliwości do oszacowanego poziomu widma szumu zawartego w widmie częstotliwości, oraz drugiej wartości, wyznaczonej z wartości maksymalnej stosunku poziomu sygnału ramki widma częstotliwości do oszacowanego poziomu szumu oraz tego oszacowanego poziomu szumu, a szum w wejściowym sygnale mowy redukuje się w procesie filtrowania w zależności od widma szumu.
Korzystnym jest, że pierwszą wartość wyznacza się z wykorzystaniem wartości z tablicy zawieraj ącej wstępne poziomy widma sygnału wej ściowego i oszacowane poziomy widma szumów;
Korzystnym jest, że drugą wartość wyznacza się na podstawie maksymalnej wartości stosunku poziomu sygnału do oszacowanego poziomu szumów i odniesionego do ramki poziomu szumu, a wartość tę stosuje się do regulacji parametrów filtru, przy czym maksymalna redukcja szumu w procesie filtracji zmienia się liniowo w skali dB.
Korzystnym jest, że jako oszacowany poziom szumów stosuje się wartość otrzymaną na podstawie wartości skutecznej amplitudy odniesionej do ramki sygnału wejściowego i wartości maksymalnej spośród wartości skutecznych, ajako maksymalnąwartość stosunku poziomu sygnału do oszacowanego poziomu szumu stosuje się wartość obliczoną na podstawie maksymalnej wartości skutecznej i oszacowanego poziomu szumu, przy czym jako maksymalną wartość skuteczną stosuje się maksymalną wartość spośród amplitud podzielonego na ramki sygnału wejściowego, wartości otrzymanej na podstawie maksymalnej wartości skutecznej ramki bezpośrednio poprzedzającej i wartości zadanej wstępnie.
Urządzenie do redukcji szumu, w wejściowym sygnale mowy, które jest zaopatrzone w środki przekształcające sygnał wejściowy na widmo częstotliwości sygnału wejściowego, środki rozdzielające widmo częstotliwości na zbiór pasm częstotliwości, oraz środki przetwarzające każde z tych pasm częstotliwości zgodnie z określona charakterystyką filtracji dla dostarczenia sygnału wejściowego o zredukowanym szumie, według wynalazku charakteryzuje się tym, że środki przetwarzające są zaopatrzone w blok obliczania wartości Hn wyznaczający właściwości filtru na podstawie wartości wyznaczonej ze stosunku poziomu widma częstotliwości do oszacowanego poziomu widma szumu zawartego w widmie częstotliwości i drugiej wartości, wyznaczonej z maksymalnej wartości stosunku poziomu sygnału ramki widma częstotliwości do oszacowanego poziomu szumu oraz tego oszacowanego poziomu szumu oraz blok korelacji widmowej przetwarzający każde z pasma częstotliwości zgodnie z określoną charakterystyką filtracji, połączony z blokami rekombinacji i odzyskiwania przetworzonych pasm częstotliwości.
Opracowane według wynalazku sposób i urządzenie do redukcji szumu w wejściowym sygnale mowy, zapewniają redukcję szumu w wejściowym sygnale mowy przy jednoczesnym uproszczeniu operacji przetwarzania sygnału.
W przypadku sposobu i urządzenia według niniejszego wynalazku do redukcji szumu w sygnale mowy pierwsza wartość, która jest wartością obliczoną na podstawie stosunku wejściowego widma sygnału otrzymanego przez transformację wejściowego sygnału mowy na oszacowane widmo szumowe zawarte w wejściowym widmie sygnału, wpływa na wstępne wartości parametrów filtru, określające stopień redukcji szumu przy filtracji redukcyjnej. Druga wartość jest wartością obliczoną na podstawie maksymalnej wartości stosunku poziomu sygnału wejściowego widma sygnałowego do oszacowanego poziomu szumu, to znaczy maksymalnego SNR, i samego oszacowanego poziomu szumu, i stanowi wartość służącą do regulacji parametrów filtru. Szum może być eliminowany z wejściowego sygnału mowy w stopniu odpowiadającym maksymalnemu SNR, przez filtrację dokonywaną odpowiednio do parametrów filtru, regulowanych za pomocą wartości, pierwszej i drugiej.
Ponieważ ujęte w tablicy wstępne poziomy widma sygnału wejściowego, i poziomy oszacowane widma szumu wprowadzane do niego, mogą być wykorzystywane do otrzymywania pierwszej z tych wartości, co pozwala na korzystne zmniejszenie objętości obliczeń.
Również druga wartość jest wyznaczana w zależności od maksymalnego SNR i poziomu szumu ramkowych, tak, więc parametry filtru można regulować w ten sposób, aby maksymalna
184 098 redukcja szumu przy filtracji zmieniała się w zasadzie liniowo w skali dB, odpowiednio do maksymalnego stosunku SN.
W przypadku sposobu redukcji szumu według wynalazku, wartości pierwsza i druga, wykorzystywane są do regulacji parametrów filtru służącego do filtrowania zmniejszającego szum w wejściowym sygnale mowy, przy czym szum może być eliminowany z wejściowego sygnału mowy przez filtrację uzależnioną od maksymalnego SNR w wejściowym sygnale mowy, a zwłaszcza istnieje możliwość minimalizacji zniekształceń sygnału mowy powodowanych przez filtrację, przy dużym stosunku SN, jak również możliwe jest zmniejszenie objętości obliczeń potrzebnych do otrzymania parametrów filtru.
Ponadto zgodnie z wynalazkiem, pierwsza wartość do regulacji parametrów filtru może być wyliczona z wykorzystaniem tablicy zawierającej poziomy widma sygnału wejściowego oraz poziomy oszacowanego widma szumu, wprowadzone do niego w celu zmniejszenia objętości obliczeń, potrzebnych do wyznaczenia parametrów filtru.
Zgodnie z wynalazkiem, również druga wartość otrzymana dla maksymalnego stosunku SN i ramkowego poziomu szumu może być wykorzystana do sterowania parametrów filtrów, w celu zmniejszenia objętości obliczeń koniecznych do otrzymania parametrów filtru. Maksymalny stopień redukcji szumu osiągany przy danych parametrach filtru może się zmieniać zależnie od zawartości N w wejściowym sygnale mowy.
Przedmiot wynalazku jest objaśniony w przykładach wykonania na rysunku, na którym fig. 1 przedstawia schemat blokowy pierwszego urządzenia do redukcji szumu, fig. 2 - wykres energii E [w, k] w zależności od liczby ramek, z zaznaczeniem energii zaniku Edecay [k], dla urządzenia z fig. 1, fig. 3 - wykres wartości skutecznych RMS [k] w zależności od liczby ramek z zaznaczeniem oszacowanego poziomu szumów MinRMS [k] oraz maksymalnej wartości skutecznej MaxRMS [k]dla urządzenia z fig. 1, fig. 4 - wykres energii względnej Brel [k], w zależności od liczby ramek z zaznaczeniem maksymalnego stosunku sygnału do szumu MaxSNR [k] w dB, minimalnego stosunku sygnału do szumu MinSNR[k] oraz wartości dB-thresrel [k] jako wartości progowych dla dyskryminacji szumów w urządzeniu z fig. 1, fig. 5 - wykres ukazujący zmiennąNR-level [k] w funkcji maksymalnego stosunku SNRMaxSNR [k] dla urządzenia z fig. 1, fig. 6 - zależność między NR[w, k]I maksymalnym stopniem redukcji szumów w dB, dla urządzenia z fig.1, fig.7 - zależność między stosunkiem Y [w, k]/N [w, k] a Hn [w, k] przy różnych NR [w, k] w dB dla urządzenia z fig.1, fig.8 - schemat blokowy drugiego urządzenia do redukcji szumu sygnału mowy według wynalazku, a fig. 9 przedstawia wykres ukazujący zniekształcenia segmentów sygnału mowy, otrzymanych przy redukcji szumu za pomocą urządzenia redukcji szumu z fig. 1 i 8, w odniesieniu do stosunku SN segmentów.
Na figurze 1 przedstawiono urządzenie do redukcji szumu w sygnale mowy, według niniejszego wynalazku.
Urządzenie do redukcji szumu zawiera blok szybkiej transformacji Fouriera 3, do przetwarzania wejściowego sygnału mowy na widmo częstotliwościowe, blok obliczania wartości Hn 7 do regulacji parametrów filtru podczas redukcji części szumu z wejściowego sygnału mowy metodą filtracyjną oraz blok korekcji widma 10, do zmniejszania zawartości szumu w wejściowym sygnale mowy przez filtrację uzależnioną od parametrów filtracji, generowanych przez blok obliczania wartości Hn 7.
Wejściowy sygnał mowy Y[t], wchodzący przez zacisk wejściowy sygnału mowy 13 w urządzeniu do redukcja szumu, podawany jest do bloku procesora ramki 1. Ramkowany sygnał Y_frame[j, k] wyprowadzany z bloku ramki 1 podawany jest do okna bloku obliczania wartości skutecznej (RmS) 21 w module szacowania szumu 5, bloku procesora filtracyjnego 8 oraz bloku procesora okna 2.
Sygnał wyjściowy bloku procesora okna 2 podawany jest do pierwszego bloku szybkiej transformacj i F ouriera 3, z którego dane wyj ściowe sąpodawane zarówno do bloku korekcj i widma 10, jak i bloku podziału pasma 4. Informacja wyjściowa bloku podziału pasma 4 podawana jest do bloku korekcji widmowej 10, bloku szacowania widma szumowego 26 wewnątrz modułu szacowania szumu 5, oraz do bloku obliczania wartości Hn 7. Informacja wyjściowa bloku kore6
184 098 kej i widma 10 podawanajest na zacisk wyj ściowy sygnału mowy 14 za pośrednictwem drugiego bloku szybkiej transformacji Fouriera 11 oraz bloku korekcji granicznej widma 12.
Informacja wyjściowa z bloku obliczania wartości RMS 21 podawana jest do bloku obliczania względnej energii 22, bloku obliczania maksymalnej wartości RMS 23 w bloku obliczania oszacowanego poziomu szumu 24 oraz do bloku szacowania widma szumowego 26. Informacja wyjściowa z bloku obliczania maksymalnej wartości RMS 23 jest podawana do bloku obliczania oszacowanego poziomu szumu 24 oraz do bloku obliczania maksymalnej wartości SNR 25. Informacja wyjściowa z bloku obliczania energii względnej 22 podawanajest do bloku szacowania widma szumowego 26. Informacja wyjściowa bloku obliczania oszacowanego poziomu szumu 24 jest podawana do bloku filtracyjnego 8, bloku obliczania maksymalnej wartości SNR 25, bloku szacowania widma szumowego 26 oraz do bloku obliczania wartości NR 6. Informacja wyjściowa z bloku obliczania maksymalnej wartości SNR 25 podawanajest do bloku obliczania wartości NR 6 oraz do bloku szacowania widma szumowego 26, z którego informacja wyjściowa jest podawana do bloku obliczania wartości Hn 7.
Informacja wyjściowa z bloku obliczania wartości NR 6 podawanajest zwrotnie na blok obliczania wartości Nr 6, z równoczesnym podawaniemjej do bloku obliczania wartości Hn 7.
Informacja wyjściowa z bloku obliczania wartości Hn 7 podawanajest za pośrednictwem bloku procesora filtracyjnego 8 i bloku podziału pasma 9 do bloku korekcji widma 10.
Poniżej objaśniono działanie pierwszej odmiany wykonania urządzenia redukcji szumu.
Do zacisku wejściowego sygnału mowy 13 podawany jest wejściowy sygnał mowy Y[t], zawierający składowąmowy i składową szumową. Wejściowy sygnał mowy Y[t], który jest sygnałem próbkowanym cyfrowo, z częstotliwością, próbkowania na przykład FS, jest podawany do bloku procesora ramki 1, gdzie jest dzielony na wiele ramek, z których każda ma długość FL próbek. Wejściowy sygnał mowy Y[t], w ten sposób podzielony, jest następnie przetwarzany poramkowo. Interwał ramki, który stanowi wielkość przesunięcia wzdłuż osi czasu, wynosi FI próbek tak, że (k + 1)-sza ramka zaczyna się po upływie FI próbek od początku ramki k-tej. w przykładzie, który odnosi się do częstotliwości próbkowania i liczby próbek, jeżeli częstotliwość próbkowania FS wynosi 8 kHz, interwał ramki FI złożonej z 80 próbek odpowiada 10 ms, natomiast długość ramki FL o zawartości 160 próbek odpowiada 20 ms.
Przed dokonaniem obliczeń transformacji ortogonalnej przez pierwszy blok szybkiej transformacji Fouriera 3, blok procesora okna 2 mnoży każdy zramkowany sygnał Yfa-iUj, k] z bloku procesora ramki 1 przez funkcjąokna WinpUt. Po inwersyjnej FFI, wykonywanej w końcowej fazie poramkowych operacji przetwarzania sygnałów, jak to zostanie objaśnione poniżej, sygnał wyjściowy jest mnożony przez funkcję okna W,npUt. Funkcje okna WinpU, i Woutput mogą być odpowiednio zilustrowane przykładami w postaci następujących równań (1) i (2):
W.
input
o < j < FL
W Γ il = output L J J
1
---cos
2
2π j>
vFLjy
Λ3 o < j < FL (2)
Pierwszy blok szybkiej transformacji Fouriera 3 następnie dokonuje operacji 256-punktowej szybkiej transformacji Fouriera powodując otrzymanie wartości amplitud widma częstotliwościowego, które następnie dzielone jest w bloku rozdziału pasma 4 służącego do podziału pasma na przykład na 18 pasm. Zakresy częstotliwości tych pasm przedstawiono w charakterze przykładu w tabeli 1:
184 098
TABELA
| Numery pasm | Zakresy częstotliwości | |||
| 0 | 0 | do | 125 | Hz |
| 1 | 125 | do | 250 | Hz |
| 2 | 250 | do | 375 | Hz |
| 3 | 375 | do | 563 | Hz |
| 4 | 563 | do | 750 | Hz |
| 5 | 750 | do | 938 | Hz |
| 6 | 938 | do | 1125 | Hz |
| 7 | 1125 | do | 1313 | Hz |
| 8 | 1313 | do | 1563 | Hz |
| 9 | 1563 | do | 1813 | Hz |
| 10 | 1813 | do | 2063 | Hz |
| 11 | 2063 | do | 2313 | Hz |
| 12 | 2313 | do | 2563 | Hz |
| 13 | 2563 | do | 2813 | Hz |
| 14 | 2813 | do | 3063 | Hz |
| 15 | 3063 | do | 3375 | Hz |
| 16 | 3375 | do | 3688 | Hz |
| 17 | 3688 | do | 4000 | Hz |
Wartości amplitudy pasm częstotliwości otrzymanych z podziału widma częstotliwości, stają się amplitudami Y[w,k] widma sygnału wejściowego, które są wyprowadzane do odpowiednich części układu, o czym wspomniano uprzednio.
Powyższe zakresy częstotliwości wyprowadzane są na tej zasadzie, że im wyższa jest częstotliwość, tym mniejsza jest rozróżnialność perceptualna ludzkiego słuchu, w charakterze amplitudy poszczególnych pasm wykorzystuje się maksymalne amplitudy FFT odpowiednich zakresów częstotliwości.
W module szacowania szumów 5, z sygnału mowy wydzielany jest szum zramkowanego sygnału yframe [j, k], i następuje wyznaczenie ramki uznanej za zaszumioną, natomiast oszacowana wartość poziomu szumu i maksymalny stosunek SN podawane są do bloku obliczania wartości NR 6. Oszacowanie zakresu szumowego, bądź detekcja ramki z szumami jest dokonywana w połączonych, na przykład trzech operacjach wykrywania. Poniżej opisano przykład szacowania obszaru szumowego.
Blok obliczania wartości skutecznej RMS 21, oblicza wartości RMS sygnału każdej ramki, i wyprowadza obliczone wartości RMS. Wartość RMS 1-tej ramki, czyli RMS[k], oblicza się z następującego wzoru (3):
RMS [k] =
FL
FL-l
Σ
J = 0 (y_ framej k)2 (3)
W bloku obliczania względnej energii 22, odbywa się obliczenie energii względnej k-tej ramki, przechodzącej jako zanikająca z ramki poprzedniej, czyli dBrei[k], a wartość wynikowa zostaje
184 098 wyprowadzona. Względna energia w dB, to znaczy dBrei[k], obliczana jest z następującego równania (4):
dBrel[k] = 101og fEdecayM
E[k] (4) natomiast wartość energii E[k] pujących równań (5) i (6):
i wartość energii zanikającej Edecay[k] obliczane są z nastęFL
E[k]=X (y_framejk)2 1 = 1 (5)
Edecay[k]=max(E[k]), exP^7^ * Edecay [k- 1] (6)
Równanie (5) może być obliczone z równania (3) jako FL*(RMS[k])2. Oczywiście wartość równania otrzymana podczas obliczeń równania (3) w bloku obliczania wartości RMS 21, może być przekazywana bezpośrednio do bloku obliczania energii względnej 22. w równaniu (6) czas zaniku dobrany jest jako 0,65 s.
Na figurze 2 przedstawiono przykład wartości energii E [k] oraz energii zanikającej Edecay[k],
Blok obliczania wartości maksymalnej RMS 23 znajduje i wyprowadza wartość maksymalną RMS niezbędną do szacowania wartości maksymalnej stosunku poziomu sygnału do poziomu szumu, to znaczy maksymalnego stosunku SN. Ta maksymalna wartość RMS MaxRMS[k] może być wyliczona z następującego wzoru (7):
MaxRMS = max(4000, RMS [k],0*MaxRMS [k -1] + (1 - 0)*RMS [k]) (7) gdzie 0 jest stałą zaniku, w przypadku 0 wykorzystuje się takąjej wartość, dla której wartość maksymalna RMS zanika do poziomu l/e w ciągu 3,2 s, to znaczy 0 = 0,993769.
Blok obliczania szacowanego poziomu szumu 24 oblicza i wyprowadza minimalną wartość RMS, przydatną do wyznaczania poziomu szumu tła. Ten oszacowany poziom szumu MinRMS[k]jest najmniejszą wartością spośród pięciu lokalnych wartości minimalnych poprzedzających bieżącą chwilę czasową, to znaczy pięciu wartości spełniających równanie (8):
(RMS [k ] < 0,6*MaxRMS [k] i RMS [k] < 4000 i RMS [k] < RHS [k + 1] i RMS [k] < RMS [k -1] i RMS [k] < RMS[k-2]) lub
RMS [k] < MinRMS) (8)
Oszacowana wartość poziomu szumu Min RMS [k] jest ustawiana tak, aby rosła dla poziomu tła bez mowy. Wzrost w przypadku wysokiego poziomu szumu jest wykładniczy, natomiast w przypadku realizacj i szybszego wzrostu, przy niskim poziomie szumu wykorzystuj e się wzrost ze stałą szybkością.
Na figurze 3 przedstawiono przykłady wartości skutecznych RMS [k], oszacowanej wartości poziomu szumu MinRMS [k] oraz maksymalnych wartości skutecznych MaxRMS [k].
Blok obliczania maksymalnej wartości SNR 25 szacuje i oblicza maksymalny stosunek SN MaxSNR [k], z wykorzystaniem maksymalnej wartości RMS i szacowanych wartości poziomów szumu, zgodnie z następującym równaniem (9):
184 098 (9)
MaxSNR [k]= 20 log AMaxRMS [kf
MinRMS [k]
Z maksymalnej wartości SNR, MaxSNR, obliczany jest parametr normalizacyjny NR-level w zakresie od 0 do 1, reprezentujący względny poziom szumu, w przypadku NR-level, wykorzystuje się następującą funkcję;
NR_level [k] = f MaxSNR[k]-30 λ π—
0,0
1,0 (l - 0,002 ) MaxSNR [k] - 30 )2
30<MaxSNR [k] < 50 MaxSNR [k] > 50 MaxSNR[k]:poza (10)
Poniżej objaśniono działanie bloku szacowania widma szumowego 26. Odpowiednie wartości otrzymywane w bloku obliczania energii względnej 22, bloku obliczania oszacowanego poziomu szumu 24 oraz bloku obliczania maksymalnej wartości SNR 25, wykorzystywane są do dyskryminacji mowy spośród szumu tła. Jeżeli spełnione są następujące warunki:
gdzie ((RMS [k] <NoiseRMSthres[kj) lub (dBrel [k] > dBthres [k])) i (RMS [k] < RMS [k -1] + 200) (U)
NoisePMSthres [k] = 1,05 + 0,45*NR_level [k] xMinRMS [k]
DBthres rei[k] = max (MaxSNR [k] - 4,0; 0, 9*MaxSNR [k]) to sygnał w k-tej ramce jest klasyfikowany jako szum tła.
Amplituda szumu tła tak wyznaczonego obliczanajestjako uśredniona w czasie oszacowana wartość N [w, k] widma szumu.
Na figurze 4 przedstawiono przykłady energii względnej w dB, występującej na fig. 11, to znaczy dBre|l, maksymalna wartość SNR [k] oraz dB^Ki, w charakterze jednej z wartości progowych dyskryminacji szumu.
Na figurze 6 przedstawiono NR-level [k] w funkcji MaxSNR [k] z równania (10).
Jeżeli k-ta ramka klasyfikowana jest jako szum tła lub jako szum, to uśredniona oszacowana czasowo wartość widma szumowego N [w, k] jest uzupełniana amplitudą Y [w, k] widma sygnału wejściowego bieżącej ramki zgodnie z następującym równaniem (12):
N [w, k] = a* max(N[w, k - 1], Y[w, k]) + (1 - a)* min (N[w, k - 1]), Y[w, k]) (12) a= exp
-FI
0,5* FS gdzie w oznacza numer pasma powstałego w wyniku podziału.
Jeżeli k-ta ramka zaklasyfikowana jest jako mowa, to wartość N[w,k-1] wykorzystywana jest bezpośrednio jako N [w, k].
184 098
Blok obliczania wartości NR 6 wylicza NR [w. k]. które jest wartością wykorzystywaną do zapobiegania gwałtownej zmianie charakterystyki filtru. i wyprowadza otrzymaną wartość NR [w. k]. To NR [w. k] stanowi wartość w zakresie od 0 do 1. i określone jest równaniem (13):
NR [w, k] = ' adj [w, k] NRtw.k-ll-ó^ ^NR[w,k-1] + δΝΚ
NR [w, k-1]-δΝΚ (adj [w,k] (NR[w,k-l]+5NR NR [w, k-l]-ÓNR>adj [w,k]
NR [w, k-1] Ί-δ^ <adj [w,k] (13)
W równaniu (13). adj [w. k] jest parametrem wykorzystywanym do uwzględnienia efektu objaśnionego poniżej. i określone jest równaniem (14) :
Ónr = 0, 004 adj [w, k] = min (adj 1 [k], adj 2 [k]) - adj 3 [w, k] (14)
W równaniu (14). adjl [k] jest wartością wykazującą oddziaływanie na zmniejszenie redukcji szumu przez filtrację przy wysokim SNR. w sposobie filtrowania opisanym poniżej. i określony jest następującym równaniem (15):
MaxSNR[k] <29
Adj 1[k] = 1- MaxSNR[k] - 29 29 < MaxSNR[k] <43 (15)
MaxSNR[k] : poza
W równaniu (14). adj2 [k] jest wartościąwykazującąoddziaływanie. w wyniku opisanej powyżej operacji filtracji. na zmniejszenie prędkości redukcji szumu w odniesieniu do skrajnie niskiego lub skrajnie wysokiego poziomu szumu. które określone jest następującym równaniem (16);
adj2[k]=0
MinRSM[k]-20
MinRMS[k]~ 1000 1000
0,2
MinRSM[k]<20 20 < MinRMS[k](60 60 < MinRMS[k](l000 1000 <MinRMS[k](l 800 1800 < MinRMS[k] (16)
W zamieszczonym powyższej równaniu (14) adj3 [k] jest wartością powodującą zmniejszenie maksymalnej redukcji szumu z 18 dB do 15 dB w zakresie między 2375 Hz a 4000 Hz. i określone jest następującym równaniem (17):
adj 3 [w, k] =
0,059415 (w-2375) 4000 - 2375
W(2375 Hz w: poza (17)
184 098
Widać przy tym, że zależność między poszczególnymi wartościami NR [w, k] i maksymalnym stopniem redukcji szumu w dB jest w zasadzie liniowa w skali dB, jak to przedstawiono na fig. 6.
Blok obliczania wartości Hn 7, generuje na podstawie amplitudy Y [w, k] widma sygnału wejściowego, podzielonego na pasma częstotliwościowe, wartość oszacowaną, uśrednioną w czasie, widma szumowego N [w, k] oraz Nr [w, k], czyli wartość Hn [w, k], która określa parametry filtru skonfigurowanego do eliminacji części szumu z wejściowego sygnału mowy. Wartość Hn [w, k] wyliczana jest na podstawie następującego równania (18):
Hn [w,k] = 1- (2*NR [w, k] -NR2 [w, k])*(l- H [w] [S/N=y]) (18)
Wartość H [w] [S/N = r] w powyższym równaniu (18) jest równoważna parametrom optymalnym filtru redukcji szumu, jeżeli SNR jest ustalone na wartości r i jest obliczana z następującego równania (19):
Możliwe jest również wyznaczenie tej wartości uprzednio i umieszczenie jej w tabeli, odpowiednio do wartości Y [w, k]/N [w, k]. Również x[w,k] w równaniu (19) jest równoważne Y [w, k]/N[w, k], natomiast Gmin jest parametrem wskazującym minimalne wzmocnienie, wynoszące H [w] [S/N = r].
Jednocześnie, P (H; Yw) [S/N = r] oraz p (HO; Yw [S/N = r] sąparametrami określającymi stany amplitudy Y [w, k], natomiast P (HI ; Yw) [S/N = r] jest parametrem określającym stan, w którym składowa mowy i składowa szumowa są wymieszane ze sobą w Y [w, k], a P (HO; Yw) [S/N=r] jest parametrem informującym o tym, że w Y [w, k] zawartajest wyłącznie składowa szumowa. Wartości te oblicza się według równania (20):
P(H1!Y„)s„ = 1-P(HO!Yw )[S/N=t] (20)
P(Hl)*(exp(-Y2))*I o(2*y*x[w, k])
P(H1) * (exp(-γ2)) * Io(2* γ* x[w,k]) + P(HO)* (exp(-x2)) gdzie P (H1) = P (HO) = 0,5
Z równania (20) wynika, że P (H1; Yw) [S/N=r] i P (HO; Yw) [S/N = r] są funkcjami x [w, k], natomiast Io (2*r*x [w, k]) jest funkcją Besseła i obliczane jest odpowiednio do wartości r i [w, k]. Zarówno P (H1), jak i P (HO) są ustalone na wartość 0,5. Objętość obliczeń można zredukować do około jednej piątej objętości przy stosowaniu metod konwencjonalnych przez uproszczenie parametrów w sposób wspomniany powyżej.
Zależność między wartościąHn [w, k] powstającąw bloku obliczania wartości Hn 7, i wartościąx [w, k], to znaczy stosunek Y [w, k] /N [w, k] jest taki, że dla wyższych wartości stosunku
Y [w, k] /N [w, k], to znaczy dla składowej mowy wyższej od składowej szumowej, wartość Hn [w, k] wzrasta, to znaczy redukcja zostaje osłabiona, natomiast dla mniejszych wartości stosunku
Y [w, k] /N [w, k], to znaczy dla składowej mowy mniejszej od składowej szumowej, wartość Hn [w, k] maleje, to znaczy redukcja staje się silniejsza, w powyższym równaniu krzywa wykreślona linią ciągłą przedstawia przypadek dla r = 2,7; Gmin = -18dB, a NR [w, k] = 1. Widać również, że krzywa przedstawiaj ącąpowyższą zależność zmienią się w zakresie L zależnie od NR [w, k], i że odpowiednie krzywe dla wartości NR [w, k] zmieniają się wykazując tę samą tendencję, co dla NR [w, k] = 1.
184 098
Blok filtracyjny 8 dokonuje filtrowania w celu wygładzenia Hn [w, k], zarówno wzdłuż osi częstotliwości, jak i wzdłuż osi czasu tak, że powstaje wygładzony sygnał Ht smooth [w, k], stanowiący sygnał wyjściowy. Filtracja w kierunku osi częstotliwości powoduje zmniejszenie skutecznej długości odpowiedzi impulsowej sygnału Hn [w, k]. Zapobiega to nakładaniu się widm granicznych przy realizacji filtru metodą mnożenia w dziedzinie częstotliwości. Filtracja w kierunku osi czasu w efekcie ograniczenia prędkości zmian charakterystyk filtru powoduje stłumienie generacji szumu nagłego obcięcia.
Poniżej jako pierwszą objaśniono filtrację w kierunku osi częstotliwości, w każdym paśmie na Hn [w, k] dokonuje się filtracji uśredniającej. Metoda ta przedstawiona jest za pomocą poniższych równań (21) i (22):
Etap 1: H1 = max (median Hn [w-i, k], Hn [w, k], ., Hn[w + 1, k], Hn[w, k]) (21)
Etap 2: H2 = min (median H1[w-i, k], HI [w, k..,] H1 [w + 1, k], HI [w, k] (222
Jeżeli w równaniach (21) i (22), nie występuje (w - 1)lub(w+ 1), to odpowiednio H1 [w,k] = Hn [w, k] i H2 [w, k] = HI [w, k].
W etapie 1, z Hn[w/k] powstaje H1 [w, k] bez pasma o wartościach najniższych lub zerowych (0), natomiast w etapie 2, z HI [w, k] powstaje H2 [w, k] bez pasm zerowych, najniższych i wyróżniających się w górę. Tak następuje konwersja Hn [w, k] w H2 [w, k].
Poniżej objaśniono filtrację w skali czasu. Przy filtracji wzdłuż osi czasu uwzględnia się fakt, że sygnał wejściowy zawiera trzy składowe, mianowicie składową szumu tła i składową stanu przejściowego, reprezentującą stan przejścia od narastającej części mowy. Sygnał mowy HspeeCh[w, k] jest wygładzany względem osi czasu w sposób zobrazowany równaniem (23):
Hspeech [W, k] = 0,7*H2 [w, k] + 0,3*H2 [w, k - 1] (23)
Szum tła jest wygładzany w kierunku osi czasu w sposób wyrażony równaniem (24):
HnoiSe[w, k] = 0,7*Min_H + 0,3*Max_H (24)
Występujące w powyższym równaniu (24), Min-H i Max-H mogą być wyznaczone z, odpowiednio,
Min_H = min (H2 [w, k], H2 [w, k -1]), i
Max_H - max (H2 [w, k], H2 [w, k -1]),
Sygnały w stanie przejściowym nie są wygładzane w kierunku osi czasu.
Przy wykorzystaniu opisanych powyżej sygnałów wygładzonych powstaje wygładzony sygnał wyjściowy Htsmooth, określony równaniem (25):
Htsmooth [w, k] = (1 - a t r) (asp*Hspeech)[w, k] + + (1 - asp)*Hnoise[w, k]) +a t r*H2[w, k] (25)
W powyższym równaniu (25), asp i actr mogąbyć wyznaczone ze wzorów, odpowiednio (26):
184 098
1,0
SNR inst) 4,0 (26) gdzie oraz z równania (27) 5(SNRto-1) 1,0<SNR„)w 0 SNR,nst: poza
SNR = ,nst MinRMS[k- 1]
1,0 δ >3,5 rms ' j*(27) sp = gdzie
-(óms-2) l,0<5ms<3,5 : poza g _ RMSlocal[k] ™ RMSlocal [k- 1]
Następnie, w bloku konwersji pasmowej 9, wygładzony sygnał Ht-j^^w, k] dla 18 pasm w bloku filtracji 8 jest poddawany ekspansji
I FL —
Σ (y_framejk)2 przez interpolację na przykład do sygnału 128-pasmowego H^s [w, k], który jest wyprowadzany. Takonwersja wykonywanajest na przykład w dwóch etapach, natomiast ekspansjaz 18 do 64 pasm i ekspansja z 64 do 128 pasm wykonywane są za pomocą filtrów interpolacyjnych, odpowiednio, zaporowego rzędu zerowego, i dolnoprzepustowego.
Następnie blok korekcji widmowej 10 mnoży części, rzeczywistą i urojoną, współczynników FFT otrzymanych w szybkiej transformacji Fouriera sygnału ramkowanego Y_ fam j, k, otrzymanego z pierwszego bloku szybkiej transformacji Fouriera 3 z wspomnianym powyżej sygnałem H,28 [w, k] dla korekcji widmowej, to znaczy redukcji składowej szumowej. Otrzymany sygnał jest wyprowadzany, w wyniku osiąga się to, że amplitudy widmowe zostają skorygowane bez zmian fazy.
Drugi blok szybkiej transformacji Fouriera 11 dokonuje następnie inwersyjnej FFT na sygnale wyjściowym z bloku korekcji widmowej 10 w celu wyprowadzania sygnału po transformacji IFFT.
Blok korekcji granicznej widma 12 nakłada i dodaje graniczne części ramki sygnałowej po transformacji IFF. Wynikowe wyjściowe sygnały mowy są wyprowadzane na wyjściowy zacisk 14 sygnału mowy.
Na fig. 8 przedstawiono inny przykład wykonania urządzenia do redukcji szumu, służący do realizacji sposobu redukcji szumu sygnału mowy według niniejszego wynalazku. Wykorzystywane elementy składowe, które są wspólne z urządzeniem do redukcji szumu przedstawionym na fig. 1 oznaczono tymi samymi odnośnikami liczbowymi, i dla uproszczenia pominięto opis ich działania.
Urządzenie do redukcji szumu zaopatrzone jest w blok szybkiej transformacji Fouriera 3, do przetwarzania wejściowego sygnału mowy na sygnał w dziedzinie częstotliwości, blok obliczania wartości 7 Hn, do sterowania parametrami filtru przy operacji filtrowania wejściowego sygnału
184 098 mowy, oraz blok korekcji widmowej 10 do redukcji szumu w wejściowym sygnale mowy przez filtrację zgodnie z parametrami filtru otrzymanymi w bloku obliczania wartości 7 Hn.
W module generującym parametry filtru do redukcji szumu 35, zaopatrzonym w blok obliczania Hn 7, blok podziału pasma 4 dzieli amplitudy widma częstotliwości na wyjściu pierwszy blok szybkiej transformacji Fouriera FFT 3 na przykład między 18 pasm i wyprowadza amplitudę pasma Y [w, k] do bloku obliczającego RMS, MIN.RMS, MAX.SNR 31, oszacowany poziom szumu oraz maksymalny SNR, do bloku szacowania widma szumowego 26, oraz do bloku obliczania wstępnej charakterystyki filtru 33.
Blok obliczający RMS, MIN.RMS, MAX.SNR 31 wylicza, z-y framej, k, sygnału wyprowadzanego z zespołu ramkującego 1, i Y [w, k], wyprowadzanego z bloku podziału pasmowego 4, wartość RMS [k] dla ramki, oszacowana wartość poziomu szumu MinRMS[k] oraz maksymalną wartość skutecznąMax [k], i przekazuje te wartości do bloku szacowania widma szumowego 26, oraz bloku obliczania adj 1, adj2 i adj3 32.
Blok obliczania wstępnej odpowiedzi filtru 33 generuje uśrednioną w czasie wartość szumu N [w, k] wyprowadzaną z bloku szacowania widma szumowego 26 i Y [w, k] wyprowadzaną z bloku podziału pasmowego 4 do bloku z tabelą charakterystyk redukcyjnych 34, w celu wyznaczenia odpowiadającej Y [w, k] i N [w, k] wartości H [w, k] przechowywanej w bloku z tabelą charakterystyk tłumienia filtru 34, w celu przesłania otrzymanej w ten sposób wartości do bloku obliczania wartości Hn 7. w bloku z tabelą tłumienia filtru 34 przechowywana jest tabela wartości H [w, k].
Wyjściowe sygnały mowy otrzymane w urządzeniu do redukcji szumu przedstawionym na fig. 1 i 8 przekazywane są do procesora sygnałowego, na przykład jednego z wielu obwodów kodujących przenośnego aparatu telefonicznego lub do urządzenia do rozpoznawania mowy, w odróżnieniu od tego, redukcja szumu może się odbywać na sygnale wyjściowym dekodera przenośnego aparatu telefonicznego.
Na fig. 9 i 10 przedstawiono zniekształcenia sygnałów mowy otrzymanych w wyniku zastosowania sposobu redukcji szumu według niniejszego wynalazku, oznaczone na czarno, a zniekształcenia w sygnałach mowy otrzymanych za pomocą konwencjonalnego sposobu redukcji szumu oznaczono kolorem białym. Na wykresie z fig. 9, naniesiono wartości SNR segmentów próbkowanych co 20 ms w funkcji zniekształceń dla tych segmentów. Na wykresie z fig. 10, naniesiono wartości SNR w funkcji zniekształceń całego sygnału wejściowego mowy'. Na fig. 9 i 10, rzędne oznaczają zniekształcenia malejące ze wzrostem odległości w pionie od początku układu, natomiast oś odciętych przedstawia stosunek SN segmentów, zwiększający się w kierunku na prawo.
Z przedstawionych przykładów wynika, że w porównaniu z sygnałami mowy otrzymanymi za pomocąkonwencjonalnej metody redukcji szumu, wyniki redukcji szumu otrzymane w rozwiązaniach według wynalazku wykazują mniejsze zniekształcenia, zwłaszcza przy wysokich wartościach SNR, przekraczających 20.
184 098
SS
LICZBA PAHEICL
Fig.2
UCZfiA RAHEK k
LICZBA RAHEKkFig. 4
184 098
Fiy.S
184 098
HARTDŚC HnbH] (d&]
STOSUNEK YCu.k]/N[H,k] (cl&) fig. 7
184 098 /3——<?
Fig. 8
184 098 §
to bi a
-u
Gez korekcji hdoch □ kblJEKCOA HlhOCNlEMI* -*--- &<ł;fec
| -----------Ί I I | ___-__J | ______ | -p°--r3^-ux i a b J ..nOfi?®_____ | |
| ~ Ί | - - - _ | Γ · | Ή ώ 7 D 1 aa □: □ “ □ | |
| Γ J |
15 20 25 30 35 40
SNR idB) SeMeNRI SYSMtN NElŚCJdNE&O
Fig 9
15 20 25 30 35 40 45 50
SNR Cde} St£hENTV SYS-MćF NElŚCJWEGO
Fig !Q
184 098
Departament Wydawnictw UP RP Nakład 60 egz.
Cena 4,00 zł.
Claims (5)
- Zastrzeżenia patentowe1. Sposób redukcji szumu, w wejściowym sygnale mowy, w którym sygnał wejściowy przekształca się na widmo częstotliwości sygnału wejściowego, widmo częstotliwości dzieli się na zbiór pasm częstotliwości, następnie każde pasmo częstotliwości przetwarza się za pomocą filtru o określonej charakterystyce, a przetworzone pasmo częstotliwości poddaj e się rekombinacj i i rekonwersji i dostarcza się sygnał wejściowy ze zredukowanym poziomem szumu, znamienny tym, że określoną charakterystykę filtru wyznacza się na podstawie pierwszej wartości wyznaczonej ze stosunku poziomu widma częstotliwości do oszacowanego poziomu widma szumu zawartego w widmie częstotliwości, oraz drugiej wartości, wyznaczonej z wartości maksymalnej stosunku poziomu sygnału ramki widma częstotliwości do oszacowanego poziomu szumu oraz tego oszacowanego poziomu szumu, a szum w wejściowym sygnale mowy redukuje się w procesie filtrowania w zależności od widma szumu.
- 2. Sposób według zastrz. 1, znamienny tym, że pierwszą wartość wyznacza się z wykorzystaniem wartości z tabeli zawierającej wstępne poziomy widma sygnału wejściowego i oszacowane poziomy widma szumów.
- 3. Sposób według zastrz. 1, znamienny tym, że drugą wartość wyznacza się na podstawie maksymalnej wartości stosunku poziomu sygnału do oszacowanego poziomu szumów i odniesionego do ramki poziomu szumu, a wartość tę stosuje się do regulacji parametrów filtru, przy czym maksymalna redukcja szumu w procesie filtracji zmienia się liniowo w skali dB.
- 4. Sposób według zastrz. 1, znamienny tym, że jako oszacowany poziom szumów stosuje się wartość otrzymanąna podstawie wartości skutecznej amplitudy odniesionej do ramki sygnału wejściowego i wartości maksymalnej spośród wartości skutecznych, a jako maksymalną wartość stosunku poziomu sygnału do oszacowanego poziomu szumu stosuje się wartość obliczoną na podstawie maksymalnej wartości skutecznej i oszacowanego poziomu szumu, przy czym jako maksymalną wartość skuteczną stosuje się maksymalną wartość spośród amplitud podzielonego na ramki sygnału wejściowego, wartości otrzymanej na podstawie maksymalnej wartości skutecznej ramki bezpośrednio poprzedzającej i wartości zadanej wstępnie.
- 5. Urządzenie do redukcji szumu, w wejściowym sygnale mowy, które jest zaopatrzone w środki przekształcające sygnał wejściowy na widmo częstotliwości sygnału wejściowego, środki rozdzielające widmo częstotliwości na zbiór pasm częstotliwości, oraz środki przetwarzające każde z tych pasm częstotliwości zgodnie z określoną charakterystyką filtracji dla dostarczenia sygnału wejściowego o zredukowanym szumie, znamienne tym, że środki przetwarzające sązaopatrzone w blok liczący (7) wyznaczający właściwości filtru na podstawie wartości wyznaczonej ze stosunku poziomu widma częstotliwości do oszacowanego poziomu widma szumu zawartego w widmie częstotliwości i drugiej wartości, wyznaczonej z maksymalnej wartości stosunku poziomu sygnału ramki widma częstotliwości do oszacowanego poziomu szumu oraz tego oszacowanego poziomu szumu oraz blok korelacji widmowej przetwarzający każde z pasma częstotliwości zgodnie z określoną charakterystyką filtracji, połączony z blokami (11, 12) rekombinacji i odzyskiwania przetworzonych pasm częstotliwości.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP02933695A JP3484801B2 (ja) | 1995-02-17 | 1995-02-17 | 音声信号の雑音低減方法及び装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| PL312845A1 PL312845A1 (en) | 1996-08-19 |
| PL184098B1 true PL184098B1 (pl) | 2002-08-30 |
Family
ID=12273403
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PL96312845A PL184098B1 (pl) | 1995-02-17 | 1996-02-16 | Sposób i urządzenie do redukcji szumu |
Country Status (17)
| Country | Link |
|---|---|
| US (1) | US6032114A (pl) |
| EP (1) | EP0727769B1 (pl) |
| JP (1) | JP3484801B2 (pl) |
| KR (1) | KR100414841B1 (pl) |
| CN (1) | CN1140869A (pl) |
| AT (1) | ATE209389T1 (pl) |
| AU (1) | AU696187B2 (pl) |
| BR (1) | BR9600761A (pl) |
| CA (1) | CA2169424C (pl) |
| DE (1) | DE69617069T2 (pl) |
| ES (1) | ES2163585T3 (pl) |
| MY (1) | MY121575A (pl) |
| PL (1) | PL184098B1 (pl) |
| RU (1) | RU2127454C1 (pl) |
| SG (1) | SG52253A1 (pl) |
| TR (1) | TR199600132A2 (pl) |
| TW (1) | TW297970B (pl) |
Families Citing this family (42)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3484757B2 (ja) * | 1994-05-13 | 2004-01-06 | ソニー株式会社 | 音声信号の雑音低減方法及び雑音区間検出方法 |
| JP3591068B2 (ja) * | 1995-06-30 | 2004-11-17 | ソニー株式会社 | 音声信号の雑音低減方法 |
| CN1166160C (zh) * | 1996-05-31 | 2004-09-08 | 皇家菲利浦电子有限公司 | 抑制输入信号中干扰成分的设备 |
| CA2291826A1 (en) * | 1998-03-30 | 1999-10-07 | Kazutaka Tomita | Noise reduction device and a noise reduction method |
| JP3454206B2 (ja) | 1999-11-10 | 2003-10-06 | 三菱電機株式会社 | 雑音抑圧装置及び雑音抑圧方法 |
| AU2002241476A1 (en) * | 2000-11-22 | 2002-07-24 | Defense Group Inc. | Noise filtering utilizing non-gaussian signal statistics |
| US6985859B2 (en) * | 2001-03-28 | 2006-01-10 | Matsushita Electric Industrial Co., Ltd. | Robust word-spotting system using an intelligibility criterion for reliable keyword detection under adverse and unknown noisy environments |
| JP3457293B2 (ja) | 2001-06-06 | 2003-10-14 | 三菱電機株式会社 | 雑音抑圧装置及び雑音抑圧方法 |
| JP3427381B2 (ja) * | 2001-06-20 | 2003-07-14 | 富士通株式会社 | 雑音キャンセル方法及び装置 |
| WO2003001173A1 (en) * | 2001-06-22 | 2003-01-03 | Rti Tech Pte Ltd | A noise-stripping device |
| US6985709B2 (en) * | 2001-06-22 | 2006-01-10 | Intel Corporation | Noise dependent filter |
| AU2002326997A1 (en) * | 2001-09-20 | 2003-04-01 | Honeywell International, Inc. | Station identification for a local area augmentation system on a visual display |
| AUPS102902A0 (en) | 2002-03-13 | 2002-04-11 | Hearworks Pty Ltd | A method and system for reducing potentially harmful noise in a signal arranged to convey speech |
| AU2003209821B2 (en) * | 2002-03-13 | 2006-11-16 | Hear Ip Pty Ltd | A method and system for controlling potentially harmful signals in a signal arranged to convey speech |
| RU2206960C1 (ru) * | 2002-06-24 | 2003-06-20 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ подавления шума в информационном сигнале и устройство для его осуществления |
| US7016651B1 (en) | 2002-12-17 | 2006-03-21 | Marvell International Ltd. | Apparatus and method for measuring signal quality of a wireless communications link |
| US6920193B2 (en) * | 2002-12-19 | 2005-07-19 | Texas Instruments Incorporated | Wireless receiver using noise levels for combining signals having spatial diversity |
| US7065166B2 (en) | 2002-12-19 | 2006-06-20 | Texas Instruments Incorporated | Wireless receiver and method for determining a representation of noise level of a signal |
| US6909759B2 (en) * | 2002-12-19 | 2005-06-21 | Texas Instruments Incorporated | Wireless receiver using noise levels for postscaling an equalized signal having temporal diversity |
| GB2398913B (en) * | 2003-02-27 | 2005-08-17 | Motorola Inc | Noise estimation in speech recognition |
| CN100417043C (zh) * | 2003-08-05 | 2008-09-03 | 华邦电子股份有限公司 | 自动增益控制器及其控制方法 |
| WO2006082636A1 (ja) * | 2005-02-02 | 2006-08-10 | Fujitsu Limited | 信号処理方法および信号処理装置 |
| JP4836720B2 (ja) * | 2006-09-07 | 2011-12-14 | 株式会社東芝 | ノイズサプレス装置 |
| US20080152167A1 (en) * | 2006-12-22 | 2008-06-26 | Step Communications Corporation | Near-field vector signal enhancement |
| GB2450886B (en) * | 2007-07-10 | 2009-12-16 | Motorola Inc | Voice activity detector and a method of operation |
| CA2715432C (en) | 2008-03-05 | 2016-08-16 | Voiceage Corporation | System and method for enhancing a decoded tonal sound signal |
| US8355908B2 (en) | 2008-03-24 | 2013-01-15 | JVC Kenwood Corporation | Audio signal processing device for noise reduction and audio enhancement, and method for the same |
| KR101475864B1 (ko) * | 2008-11-13 | 2014-12-23 | 삼성전자 주식회사 | 잡음 제거 장치 및 잡음 제거 방법 |
| KR101615766B1 (ko) * | 2008-12-19 | 2016-05-12 | 엘지전자 주식회사 | 돌발 잡음 검출기, 돌발 잡음 검출 방법 및 돌발 잡음 제거 시스템 |
| FR2944640A1 (fr) * | 2009-04-17 | 2010-10-22 | France Telecom | Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal. |
| CN103348408B (zh) * | 2011-02-10 | 2015-11-25 | 杜比实验室特许公司 | 噪声和位置外信号的组合抑制方法和系统 |
| US8712076B2 (en) | 2012-02-08 | 2014-04-29 | Dolby Laboratories Licensing Corporation | Post-processing including median filtering of noise suppression gains |
| US9173025B2 (en) | 2012-02-08 | 2015-10-27 | Dolby Laboratories Licensing Corporation | Combined suppression of noise, echo, and out-of-location signals |
| US9231740B2 (en) | 2013-07-12 | 2016-01-05 | Intel Corporation | Transmitter noise in system budget |
| US10504538B2 (en) | 2017-06-01 | 2019-12-10 | Sorenson Ip Holdings, Llc | Noise reduction by application of two thresholds in each frequency band in audio signals |
| CN107786709A (zh) * | 2017-11-09 | 2018-03-09 | 广东欧珀移动通信有限公司 | 通话降噪方法、装置、终端设备及计算机可读存储介质 |
| CN111199174B (zh) * | 2018-11-19 | 2024-11-19 | 北京京东尚科信息技术有限公司 | 信息处理方法、装置、系统和计算机可读存储介质 |
| CN111477237B (zh) * | 2019-01-04 | 2022-01-07 | 北京京东尚科信息技术有限公司 | 音频降噪方法、装置和电子设备 |
| CN111429930B (zh) * | 2020-03-16 | 2023-02-28 | 云知声智能科技股份有限公司 | 一种基于自适应采样率的降噪模型处理方法及系统 |
| CN113035222B (zh) * | 2021-02-26 | 2023-10-27 | 北京安声浩朗科技有限公司 | 语音降噪方法、装置、滤波器的确定方法、语音交互设备 |
| KR102861869B1 (ko) * | 2022-11-28 | 2025-09-22 | 한국생산기술연구원 | 음향파 기반 압전센서 모듈 및 이를 이용한 유체 내 마이크로입자 분리 방법 |
| CN116612738B (zh) * | 2023-05-18 | 2025-09-30 | 东南大学 | 一种基于自适应FxLMS算法的指定降噪量的方法 |
Family Cites Families (24)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS60140399A (ja) * | 1983-12-28 | 1985-07-25 | 松下電器産業株式会社 | 雑音除去装置 |
| US4630304A (en) * | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic background noise estimator for a noise suppression system |
| US4628529A (en) * | 1985-07-01 | 1986-12-09 | Motorola, Inc. | Noise suppression system |
| US4630305A (en) * | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic gain selector for a noise suppression system |
| NL8700985A (nl) * | 1987-04-27 | 1988-11-16 | Philips Nv | Systeem voor sub-band codering van een digitaal audiosignaal. |
| IL84948A0 (en) * | 1987-12-25 | 1988-06-30 | D S P Group Israel Ltd | Noise reduction system |
| US5007094A (en) * | 1989-04-07 | 1991-04-09 | Gte Products Corporation | Multipulse excited pole-zero filtering approach for noise reduction |
| US5212764A (en) * | 1989-04-19 | 1993-05-18 | Ricoh Company, Ltd. | Noise eliminating apparatus and speech recognition apparatus using the same |
| JPH02309820A (ja) * | 1989-05-25 | 1990-12-25 | Sony Corp | デイジタル信号処理装置 |
| US5097510A (en) * | 1989-11-07 | 1992-03-17 | Gs Systems, Inc. | Artificial intelligence pattern-recognition-based noise reduction system for speech processing |
| US5150387A (en) * | 1989-12-21 | 1992-09-22 | Kabushiki Kaisha Toshiba | Variable rate encoding and communicating apparatus |
| AU633673B2 (en) * | 1990-01-18 | 1993-02-04 | Matsushita Electric Industrial Co., Ltd. | Signal processing device |
| JP2797616B2 (ja) * | 1990-03-16 | 1998-09-17 | 松下電器産業株式会社 | 雑音抑圧装置 |
| CA2040025A1 (en) * | 1990-04-09 | 1991-10-10 | Hideki Satoh | Speech detection apparatus with influence of input level and noise reduced |
| EP0459362B1 (en) * | 1990-05-28 | 1997-01-08 | Matsushita Electric Industrial Co., Ltd. | Voice signal processor |
| DE4137404C2 (de) * | 1991-11-14 | 1997-07-10 | Philips Broadcast Television S | Verfahren zur Reduktion von Rauschen |
| FI92535C (fi) * | 1992-02-14 | 1994-11-25 | Nokia Mobile Phones Ltd | Kohinan vaimennusjärjestelmä puhesignaaleille |
| JPH05344010A (ja) * | 1992-06-08 | 1993-12-24 | Mitsubishi Electric Corp | 無線通話機の雑音低減装置 |
| JPH06140949A (ja) * | 1992-10-27 | 1994-05-20 | Mitsubishi Electric Corp | 雑音低減装置 |
| US5479560A (en) * | 1992-10-30 | 1995-12-26 | Technology Research Association Of Medical And Welfare Apparatus | Formant detecting device and speech processing apparatus |
| JP3626492B2 (ja) * | 1993-07-07 | 2005-03-09 | ポリコム・インコーポレイテッド | 会話の品質向上のための背景雑音の低減 |
| US5617472A (en) * | 1993-12-28 | 1997-04-01 | Nec Corporation | Noise suppression of acoustic signal in telephone set |
| JP3484757B2 (ja) * | 1994-05-13 | 2004-01-06 | ソニー株式会社 | 音声信号の雑音低減方法及び雑音区間検出方法 |
| US5544250A (en) * | 1994-07-18 | 1996-08-06 | Motorola | Noise suppression system and method therefor |
-
1995
- 1995-02-17 JP JP02933695A patent/JP3484801B2/ja not_active Expired - Lifetime
-
1996
- 1996-02-12 US US08/606,001 patent/US6032114A/en not_active Expired - Lifetime
- 1996-02-12 AU AU44444/96A patent/AU696187B2/en not_active Expired
- 1996-02-13 SG SG1996001434A patent/SG52253A1/en unknown
- 1996-02-13 CA CA002169424A patent/CA2169424C/en not_active Expired - Lifetime
- 1996-02-16 KR KR1019960003844A patent/KR100414841B1/ko not_active Expired - Lifetime
- 1996-02-16 TR TR96/00132A patent/TR199600132A2/xx unknown
- 1996-02-16 AT AT96301059T patent/ATE209389T1/de not_active IP Right Cessation
- 1996-02-16 EP EP96301059A patent/EP0727769B1/en not_active Expired - Lifetime
- 1996-02-16 MY MYPI96000633A patent/MY121575A/en unknown
- 1996-02-16 BR BR9600761A patent/BR9600761A/pt not_active IP Right Cessation
- 1996-02-16 RU RU96102867/09A patent/RU2127454C1/ru not_active IP Right Cessation
- 1996-02-16 DE DE69617069T patent/DE69617069T2/de not_active Expired - Lifetime
- 1996-02-16 ES ES96301059T patent/ES2163585T3/es not_active Expired - Lifetime
- 1996-02-16 PL PL96312845A patent/PL184098B1/pl unknown
- 1996-02-17 CN CN96106052A patent/CN1140869A/zh active Pending
- 1996-05-14 TW TW085105684A patent/TW297970B/zh not_active IP Right Cessation
Also Published As
| Publication number | Publication date |
|---|---|
| US6032114A (en) | 2000-02-29 |
| BR9600761A (pt) | 1997-12-23 |
| PL312845A1 (en) | 1996-08-19 |
| CA2169424C (en) | 2007-07-10 |
| JPH08221093A (ja) | 1996-08-30 |
| CN1140869A (zh) | 1997-01-22 |
| ES2163585T3 (es) | 2002-02-01 |
| KR960032294A (ko) | 1996-09-17 |
| TR199600132A2 (tr) | 1996-10-21 |
| AU4444496A (en) | 1996-08-29 |
| SG52253A1 (en) | 1998-09-28 |
| TW297970B (pl) | 1997-02-11 |
| RU2127454C1 (ru) | 1999-03-10 |
| DE69617069T2 (de) | 2002-07-11 |
| KR100414841B1 (ko) | 2004-03-10 |
| EP0727769B1 (en) | 2001-11-21 |
| ATE209389T1 (de) | 2001-12-15 |
| CA2169424A1 (en) | 1996-08-18 |
| MY121575A (en) | 2006-02-28 |
| JP3484801B2 (ja) | 2004-01-06 |
| EP0727769A3 (en) | 1998-04-29 |
| AU696187B2 (en) | 1998-09-03 |
| EP0727769A2 (en) | 1996-08-21 |
| DE69617069D1 (de) | 2002-01-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| PL184098B1 (pl) | Sposób i urządzenie do redukcji szumu | |
| EP0727768B1 (en) | Method of and apparatus for reducing noise in speech signal | |
| KR100335162B1 (ko) | 음성신호의잡음저감방법및잡음구간검출방법 | |
| JP3626492B2 (ja) | 会話の品質向上のための背景雑音の低減 | |
| US6487257B1 (en) | Signal noise reduction by time-domain spectral subtraction using fixed filters | |
| EP0790599B1 (en) | A noise suppressor and method for suppressing background noise in noisy speech, and a mobile station | |
| EP2031583B1 (en) | Fast estimation of spectral noise power density for speech signal enhancement | |
| US6351731B1 (en) | Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor | |
| JP3574123B2 (ja) | 雑音抑圧装置 | |
| US7912231B2 (en) | Systems and methods for reducing audio noise | |
| US6510408B1 (en) | Method of noise reduction in speech signals and an apparatus for performing the method | |
| US6507623B1 (en) | Signal noise reduction by time-domain spectral subtraction | |
| US20030065509A1 (en) | Method for improving noise reduction in speech transmission in communication systems | |
| EP1010169B1 (en) | Channel gain modification system and method for noise reduction in voice communication |