PL174216B1 - Sposób redukcji w czasie rzeczywistym szumu transmisji mowy - Google Patents

Sposób redukcji w czasie rzeczywistym szumu transmisji mowy

Info

Publication number
PL174216B1
PL174216B1 PL94310056A PL31005694A PL174216B1 PL 174216 B1 PL174216 B1 PL 174216B1 PL 94310056 A PL94310056 A PL 94310056A PL 31005694 A PL31005694 A PL 31005694A PL 174216 B1 PL174216 B1 PL 174216B1
Authority
PL
Poland
Prior art keywords
noise
speech
signal
frames
data frames
Prior art date
Application number
PL94310056A
Other languages
English (en)
Other versions
PL310056A1 (en
Inventor
Woodson D. Wynn
Original Assignee
At And T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by At And T Corp filed Critical At And T Corp
Publication of PL310056A1 publication Critical patent/PL310056A1/xx
Publication of PL174216B1 publication Critical patent/PL174216B1/pl

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/18Automatic or semi-automatic exchanges with means for reducing interference or noise; with means for reducing effects due to line faults with means for protecting lines
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/40Applications of speech amplifiers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Noise Elimination (AREA)
  • Monitoring And Testing Of Exchanges (AREA)
  • Telephonic Communication Services (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)

Abstract

1. Sposób redukcji w czasie rzeczywistym szumu t ransmisji mowy w sieci telekomunikacyjnej przesylaja- cej wejsciowy sygnal analogowy zawierajacy sygnal mo wy i sygnal szumów, w którym wykorzystuje sie model sygnalu mowy wytwarzany przez procesor zawierajacy filtr iteracyjny z liniowym kodowaniem predykcyjnym oraz obwody równowaznego przedstawienia pozycji bie- gunów modelu sygnalu mowy z liniowym kodowaniem predykcyjnym z pierwiastkami polozenia pary linii wid- mowych i pierwiastkami róznicowymi, znam ienny tym, ze tworzy sie w filtrze interacyjnym sygnal oceny skladowej widma mocy mowy sygnalu analogowego dla kazdej biezacej ramki danych dla transmisji do sieci telekomunikacyjnej, w trakcie którego generuje sie sze- reg kolejnych czasowych ramek danych, wybiera sie z szeregu ramek danych (K-4 do K+2) podzbiór kolejnych ramek danych zawierajacego grupe poprzednich ramek danych (K-4 do K-1), biezaca ramke danych (K ) i do dwóch przyszlych ramek danych (K+1, K+2), oraz doko- nuje sie wybranej liczby iteracji (1, 2, 3, j-1, j) biezacej ramki danych (K ) podzbioru ramek danych, przy czym dla kazdej iteracji generuje sie wartosci pierwiastków polozenia pary linii widmowych i pierwiastków róznico- wych, zas w etapie iteracji dla kazdego wygladzania iteracyjnego pierwiastki polozenia pary linii widmowych generowane dla poprzednich ramek danych, z pie- rwiastka polozenia pary linii widmowych biezacej ramki danych, wykorzystuja pierwiastki polozenia pary linii widmowych obliczone dla biezacego etapu iteracji, po czym tworzy sie sygnal oceny widma mocy mowy z kolejnych etapów iteracji biezacych ram ek....................... FIG. 2 PL PL PL PL PL PL PL

Description

Przedmiotem wynalazku jest sposób redukcji w czasie rzeczywistym szumu transmisji mowy.
W znanych urządzeniach do transmisji sygnału mowy, powstające z różnych przyczyn szumy mogą zakłócać łączność między użytkownikami. Szum zakłócający może pojawić się wraz z mową na wejściu urządzenia, w torach transmisji, i w końcowym urządzeniu odbierają4
174 216 cym. Obecność szumu jest dokuczliwa i denerwująca dla użytkownika i może niekorzystnie oddziaływać na jakość mowy oraz pogarszać parametry urządzenia.
Poprawa jakości sygnału mowy odgrywa ważną rolę w systemach telefonii komórkowej, narażonych na działanie zakłóceń, wywołanych przez samochody i powstających w kanałach telekomunikacyjnych, w automatach telefonicznych ulokowanych w hałaśliwym środowisku, w systemach komunikacyjnych dalekiego zasięgu, wykorzystujących narażone na szumy radiołącza lub inne kanały i połączenia niskiej jakości, w systemach telekonferencyjnych charakteryzujących się szumem źródła głosu, w systemach komunikacji powietrze-ziemia, w których głośne szumy kokpitu zakłócają mowę pilota, co jest zarówno nużące jak i niebezpieczne. Ponadto, jak ma to miejsce w systemach rozpoznawania mowy dla automatycznego wybierania, dokładność rozpoznania może pogarszać się w środowisku z szumami w przypadku, gdy procedura rozpoznawania mowy bazuje na modelu statycznym niezniekształconej mowy.
Szczególnie trudne do pokonania są szumy w łączach transmisji, przy czym jednym z powodów jest to, że sygnał szumu nie może być oddzielony od źródła. Z tego względu tłumienie tego sygnału nie może być wykonane poprzez generowanie sygnału błędu metodą inwersji fazy.
Podejmowano wiele różnorodnych prób poprawienia jakości sygnału mowy zakłócanego szumami dla przypadków, w których nie jest możliwe wydzielenie składowej szumu. Przegląd tych metod znajduje się w artykule J. S. Lima i A. V. Oppenheima o tytule pt. Poprawa jakości i kompresja szerokości pasma mowy zakłócanej szumem opublikowanym w Proceedings of the IEEE, vol. 67, No 12, December 1979, Section V, str. 1586-1604. W metodach tych stosuje się odejmowanie oszacowanego widma amplitudy szumów od widma całkowitego, obliczonego dla sygnału zakłóconego szumami oraz zaproponowany przez Lima i Oppenheima filtr bazujący na modelu iteracyjnym, stanowiący próbę znalezienia najlepszego modelu uwzględniającego wszystkie bieguny składowej mowy dla rozpatrywanego sygnału z szumami i oszacowanego widma mocy szumu. Metoda bazująca na zastosowaniu modelu zaproponowana została także przez J. H. L. Hansena w pracy Ograniczona iteracyjna metoda poprawy jakości mowy i jej zastosowanie do rozpoznawania mowy opublikowanej przez J. H. L. Hansena i A. A. Clementsa w IEEE Transactions on Signal Processing, vol. 39, No 4, April i 991. str. 795-805. Praca Hansena opisuje proces poprawiania sygnału mowy stosowany dla środowiska zawierającego szumy, w którym dostępny jest tylko sygnał mowy z obniżonym poziomem szumów. Proces jest adaptacją procesu liniowego kodowania predykcyjnego realizowanego w filtrze Wienera, który wykorzystuje zarówno powiązania między ramkami jak i wewnątrz ramek dla zapewnienia charakterystyk podobnych sygnałom mowy. Technika ta stosuje także powiązania widmowe oparte na przekształceniach parametrów liniowego kodowania predykcyjnego w parze linii widmowych. Opisana procedura została zastosowana do opracowania nie działającego w czasie rzeczywistym sposobu wygładzania sygnału, w którym dla ograniczenia oddziaływania charakterystyk mowy na model wprowadzono do tego modelu dodatkowe ograniczenia czasowe, wykorzystywane podczas iteracji Lima-Oppenheima.
W efekcie wykorzystania wcześniejszych metod, przedstawionych we wspomnianej pracy Lima i Oppenheima, po przetwarzaniu uzyskuje się poprawioną wartość współczynnika sygnał/szum, lecz niewystarczającą poprawę jakości mowy, wynikającą z wprowadzenia niestacjonarnego szumu do odfiltrowanych sygnałów wyjściowych. Dla odbioru słuchowego może być niepożądany nawet bardzo niski poziom niestacjonarnego szumu. Zaletą wygładzania za pomocą ramek czasowych, zastosowanych w nie działającej w czasie rzeczywistym metodzie wygładzania podanej przez Hansenajest dalsza redukcja pozostającego poziomu niestacjonarnego szumu. Metoda zaproponowana przez Hansena zapewnia znacznie wyższą jakość poprawy mowy w porównaniu z metodami podanymi w publikacji Lima i Oppenheima, lecz nie może być wykorzystana w czasie rzeczywistym, gdyż w każdej ramce czasowej przetwarza wszystkie dane zarówno z przeszłości jak i z przyszłości. Zatem ulepszenie to nie może działać efektywnie w zastosowaniach telekomunikacyjnych.
W publikacji D. K. Freemana i innych pt. Czujnik aktywności głosu dla ogólnoeuropejskich służb ruchomej telefonii komórkowej IEEE konferencja ICASSP 1989, str. 369-372, ujawniono przykład czujnika aktywności głosu dla zastosowania szczególnie w służbach ruchomej telefonii komórkowej, w której występuje zjawisko nieciągłych transmisji. W opisanym
174 216 rozwiązaniu wykrywa się czas, w którym nie występuje sygnał mowy i w odpowiedzi wyłącza się nadajnik. To ogranicza pobór energii z baterii i także zmniejsza zakłócenia międzykanałowe ale jest potencjalnym źródłem pogorszania jakości sygnałów, stopień której zasadniczo zależy od zdolności czujnika do wykrywania sygnału mowy przy obecności w tle bardzo różnych szumów akustycznych.
W opisie patentowym USA nr 5 295 225 jest opisany układ oceny sygnału szumów stosowany w kanałach zawierających sygnały mowy łącznie z szumami. Układ ten jest typowym układem tłumiącym szumy, który wytwarza sygnał tłumiący szum, przyłożony przeciwnie do sygnału mowy z sygnałem szumu. W opisanym rozwiązaniu rzeczywisty układ mierzy szumy, gdy nie są wykrywane sygnały mowy, lub gdy są wykrywane sygnały mowy sygnał oceny szumów jest podawany do wychodzącego sygnału w postaci odwrotnej funkcji tłumiącej.
Z kolei opis patentowy USA nr 4 618 982 dotyczy kodowania sygnałów mowy modelowanych przez liniowe kodowanie predykcyjne. Opisane rozwiązanie poprawiajakość odtwarzania mowy w procesie modelowania liniowego kodowania predykcyjnego bez zwiększenia ilości danych i w szczególności odnosi się ściśle do koderów głosu i ograniczenia redundancji w cyfrowym przetwarzaniu mowy.
Następny opis patentowy USA nr 5 310 703 ujawnia rozwiązanie, które umożliwia rozróżnienia rozpoznawania mowy, w celu uniknięcia odpowiedzi systemu na fałszywe pozytywne Iub negatywne wskazania obecności mowy obniżające sprawność układu rozpoznawania mowy.
Istotą sposobu redukcji w czasie rzeczywistym szumu transmisji mowy według wynalazku w sieci telekomunikacyjnej przesyłającej wejściowy sygnał analogowy zawierający sygnał mowy i sygnał szumów, w którym wykorzystuje się model sygnału mowy wytwarzany przez procesor zawierający filtr iteracyjny z liniowym kodowaniem predykcyjnym oraz obwody równoważnego przedstawienia pozycji biegunów modelu sygnału mowy z liniowym kodowaniem predykcyjnym z pierwiastkami położenia pary linii widmowych i pierwiastkami różnicowymi, jest to, że tworzy się w filtrze interacyjnym sygnał oceny składowej widma mocy mowy sygnału analogowego dla każdej bieżącej ramki danych dla transmisji do sieci telekomunikacyjnej, w trakcie którego generuje się szereg kolejnych czasowych ramek danych, wybiera się z szeregu ramek danych (K-4 do K+2) podzbiór kolejnych ramek danych zawierającego grupę poprzednich ramek danych (K-4 do K-1), bieżącą ramkę danych (K) i do dwóch przyszłych ramek danych (K+1, K+2), oraz dokonuje się wybranej liczby iteracji (1, 2, 3, j-1, j) bieżącej ramki danych (K) podzbioru ramek danych, przy czym dla każdej iteracji generuje się wartości pierwiastków położenia pary linii widmowych i pierwiastków różnicowych, zaś w etapie iteracji dla każdego wygładzania iteracyjnego pierwiastki położenia pary linii widmowych generowane dla poprzednich ramek danych, z pierwiastka położenia pary linii widmowych bieżącej ramki danych, wykorzystują pierwiastki położenia pary linii widmowych obliczone dla bieżącego etapu iteracji, po czym tworzy się sygnał oceny widma mocy mowy z kolejnych etapów iteracji bieżących ramek danych, tworzy się sygnał mowy o obniżonym poziomie szumów w oparciu o sygnał oceny widma mocy mowy oraz przesyła się ten sygnał do sieci telekomunikacyjnej.
Korzystnie w etapie iteracji według wynalazku generuje się kolejność filtrów Wienera, w których widmo sygnału wchodzące do początkowego filtru Wienera zawiera sygnał widma mocy szumów, zaś w każdym etapie bieżącej iteracji określa się najlepsze bieżące sygnały oceny widma mocy mowy i widma mocy szumów oraz dodaje się te dwa sygnały oceny tworząc bieżący filtr Wienera, przy czym wykorzystuje się pięć względnie mniej poprzednich ramek włączonych do każdego etapu iteracji lub wykorzystuje się mniej niż pięć poprzednich ramek włączonych do każdego etapu iteracji.
Korzystne jest także, gdy według wynalazku w etapie wykonywania wybranej liczby iteracji bieżącej bramki danych podzbioru bramek danych, sumuje się dużą część wyjściowego sygnału bieżącego filtru Wienera z małą ilością równą 1 minus duża część niefiltrowanego sygnału wejściowego i tworzy się wejściowy sygnał następnego filtru Wienera, przy czym stosuje się dziesiętny równoważnik dużej części wynoszący 0,8 do 0,95.
Dalsze korzyści z wynalazku uzyskuje się, gdy w etapie określania najlepszego bieżącego sygnału oceny widma mocy szumów wykrywa się kolejność ramek danych, które zgodnie z
174 216 wybranym kryterium zawierają tylko energię szumów, i prowadzi się ciągłą aktualizację sygnału oceny widma mocy szumów wykorzystując tylko widma ramek danych zawierających energię szumów, przy czym w etapie prowadzenia ciągłej aktualizacji sygnału oceny widma mocy szumów dokonuje się pomiaru różnicy widma mocy szumów pomiędzy nowym sygnałem oceny widma mocy szumów i poprzednim sygnałem oceny widma mocy szumów oraz nadaje większą wagę w aktualizacji ramkom danych o nowym sygnale oceny widma mocy szumów o wielkość proporcjonalną do ostatnio określonych różnic.
Korzystnie według wynalazku etap prowadzenia ciągłej aktualizacji sygnału oceny widma mocy szumów wykonuje się tylko wówczas, gdy wykryta jest co najmniej mała zadana z góry liczba ramek danych zawierających tylko szum, przy czym stosuje się małą zadaną z góry liczbę ramek danych zawierających tylko szum wynoszącą od pięciu do sześciu.
Korzystne jest ponadto, gdy następnie według wynalazku wykrywa się w ramkach danych zawierających energię mowy, która zgodnie z wybranym kryterium jest dźwięczna, i energię mowy, którajest bezdźwięczna, oraz ustawia się rząd filtru modelu mowy z liniowym kodowaniem predykcyjnym do zasadniczo dziesiątego rzędu w odpowiedzi na wykrycie energii mowy dźwięcznej ustawia się rząd filtru modelu mowy z liniowym kodowaniem predykcyjnym do zasadniczo czwartego do szóstego rzędu w odpowiedzi na wykrycie energii mowy bezdźwięcznej, przesyła się sygnał mowy ze zredukowanymi szumami do sieci telekomunikacyjnej tylko w odpowiedzi na wykrycie mowy dźwięcznej względnie mowy bezdźwięcznej oraz dokonuje się zmniejszenia poziomu sygnału oceny widma mocy szumów i przesyła się ten zmniejszony poziom sygnału oceny widma mocy szumów do sieci telekomunikacyjnej, gdy nie jest wykryty sygnał mowy dźwięcznej i sygnał mowy bezdźwięcznej. Ponadto według wynalazku nakłada się sąsiednie ramki danych z podzbioru kolejnych ramek danych przed wykonaniem etapu iteracji, przy czym sąsiednie ramki danych nakłada się na siebie zasadniczo w 50% oraz podzbiór kolejnych ramek danych zawiera do czterech poprzednich ramek.
Korzystne jest także, gdy według wynalazku do sieci telekomunikacyjnej wprowadza się odległą łącznicę umieszczoną po pierwszej stronie granicy państwowej, centralę zawierającą drugą łącznicę, umieszczoną po przeciwnej stronie granicy oraz tor komunikacyjny pomiędzy odległą łącznicą i drugą łącznicą, przy czym wchodzący sygnał zawierający energię mowy i energię szumów odbiera się przez drugą łącznicę.
Następnie według wynalazku przed uaktywnieniem przetwarzania w czasie rzeczywistym ustawienia progu energii szumów transmitowanych sygnałów wchodzących, sprawdza się, czy energia szumów w sygnale wchodzącym jest wyższa od tego progu, sprawdza się, czy sygnał wchodzący zawiera energię sygnału mowy, oraz sprawdza się, czy sygnał wchodzący zawiera wywołanie w sieci telekomunikacyjnej oznaczające abonenta obsługiwanego przy zmniejszonych szumach, i tylko wówczas, gdy wszystkie trzy powyższe sprawdzenia są pozytywne dokonuje się przetwarzania w czasie rzeczywistym.
Korzystne jest, gdy według wynalazku wykrywa się także przejścia we wchodzącym sygnale z jednego z możliwych stanów: tylko szumy, mowa dźwięczna i mowa bezdźwięczna do innego stanu, po czym, przed rozpoczęciem etapów iteracji bieżącej ramki danych, ponownie określa się pierwiastki pary linii widmowych czterech poprzednich ramek danych, przy czym stosuje się wybraną liczbę iteracji wynoszącą od czterech do siedmiu oraz stosuje się pierwiastek różnicowy pary linii widmowych większy niż minimalna zadana z góry odległość od jego najbliższego wygładzonego pierwiastka pozycji pary linii widmowych.
Sposób według wynalazku przedstawiono w przykładzie wykonania w oparciu o rysunek, na którym fig. 1 przedstawia schemat sieci telekomunikacyjnej, fig. la - schemat blokowy procesora sieci telekomunikacyjnej, fig. 2 - operacje wygładzania wierzchołków liniowego kodowania predykcyjnego (LPC), fig. 3 i 4 przedstawiają sieci działań urządzenia generującego iteracyjną sekwencję dla ograniczonej poprawy jakości mowy, fig. 5a przedstawia sieć działań ramkowego działania wygładzającego dla warstw modelu mowy LPC, fig. 5b - wewnątrzramkową relaksację macierzy autokorelacji modelu LPC pomiędzy kolejnymi iteracjami, fig. 5c - wygładzanie wierzchołków LSP w okręgu jednostkowym, fig. 6a - schemat ilustrujący przetwarzanie ramek, fig. 6b - schemat ilustrujący poprawione przetwarzanie ramek, fig. 7a i 7b przedstawiają tablice wag wygładzania dla wierzchołków położeń LSP
174 216 wykorzystywanych do wygładzania dla siedmiu ramek mowy otaczających bieżącą ramkę, fig. 8 i 9 - sygnały przed i po filtracji ilustrujące wykorzystanie obwodu oszacowania szumu, zaś fig. 10 przedstawia sieć działań dla aktualizacji . wymaganego widma szumu stosowanego w filtrze Wienera.
Przedmiot wynalazku, dotyczący sposobu redukcji szumu transmisji mowy działającego w czasie rzeczywistym i wykorzystywanego do filtrowania wewnątrzkanałowego sygnału mowy z szumem w sytuacji, gdy nie jest dostępny oddzielny sygnał odniesienia szumu, zostanie opisany w powiązaniu z siecią telekomunikacyjną pokazaną na fig. 1. Sieć telekomunikacyjna zawiera odległą centralę przełączającą 10, do której za pomocą lokalnych łącz 12 jest dołączonych wiele terminali komunikacyjnych, takich jak aparat telefoniczny 11. Kanały wyjściowe, takie jak trasa 13 biegną z odległej łącznicy 10. Trasa 13 może przecinać granicę państwową 15 i biegnie dalej, do centralnej łącznicy 16, obsługującej wiele wchodzących do niej tras oznaczonych liczbą 17, z trasą 13 włącznie.
Łącznica 16 tworzy połączenie wewnętrzne, takie jak trasa 18, która w rozpatrywanym przykładzie łączy przychodzące wywołania z kanału 13 z przypuszczalnym wyjściowym kanałem transmisji 19, stanowiącym jeden z kanałów grupy kanałów wyjściowych 19. Zakłada się, że wywołanie przychodzące z kanału 13 zawiera szum generowany w którymkolwiek z segmentów 10, 1112, 13 łącza, wobec czego źródło szumu nie może być bezpośrednio zmierzone.
W rozwiązaniu według wynalazku jednostka logiczna 20 określa, czy w przełączanym sygnale wyjściowym z kanału 13 występuje szum o amplitudzie przewyższającej określoną wartość progową. Jednostka logiczna 20 określa również, czy jest to wywołanie głosowe, czy źródłem wywołania jest telefax, modem, lub czy występuje inna ewentualność. Jednostka logiczna 20 określa ponadto, czy wywołujący abonent jest obsługiwany przez serwis redukcji szumów transmisji. Po sprawdzeniu przez jednostkę logiczną 20 aktualności wszystkich trzech parametrów wywołania, jest ono przesyłane przez centralę telefoniczną 22 do procesora 21, w przeciwnym przypadku wywołanie jest przekazywane bezpośrednio do kanału 19. Chociaż na rysunku pokazano tylko jeden procesor 21, to istnieje możliwość dołączenia wszystkich kanałów wychodzących z centralnej łącznicy 16 do innych procesorów.
Sygnał przychodzący z kanału 13 z szumami może być z pożytkiem przetwarzany przez filtr analogowy (nie pokazany na rysunku), którego odpowiedź częstotliwościowa jest ograniczona do pasma podstawowego sygnału telefonicznego.
W przedstawionym przykładzie przekazywana do procesora 21 mowa wraz z szumami jest przekształcana na postać cyfrową z częstotliwością 8 kHz, a ciąg elementów czasowych jest przetwarzany w ramkach danych. Wykorzystywane są ramki danych o wielkości 160 próbek (20 ms), przy czym dla zapewnienia ciągłości odtwarzanej, odfiltrowanej mowy, stosowane jest 50% nakładanie tych ramek.
Jak pokazano na fig. 1a, procesor 21 zawiera filtr Wienera 23. Oszacowanie widma sygnału dla tego filtru przeprowadzane jest przy założeniu pełno biegunowego modelu liniowego kodowania predykcyjnego (LPC) i przeprowadzone jest iteracyjnie dla każdej ramki danych dla określenia nieznanych parametrów. Do filtru 23 są przekazywane wywołania z szumami. Wywołanie jest przekazywane również drogą obejściową 24 do detektora aktywności głosowej (VAD) 25, który nieprzerwanie wykrywa ramki danych zawierające szum lub mowę z szumem i określa, czy ramka mowy jest dźwięczna czy bezdźwięczna. Wymagane widmo szumu przeznaczone do wykorzystania w filtrze Wienera 23 jest uzyskiwane z wykrytych przez detektor VAD 25 ramek zawierających wyłącznie szum.
W przypadku wykrycia, że przetwarzana ramka danych zawiera wyłącznie szum, detektor VAD 25 przekazuje układowi 26 tłumienia szumu włączenie eliminatora 27. W tym trybie pracy sygnał wejściowy filtra 23, zawierający wyłącznie szum jest zasadniczo stłumiony przed jego wysłaniem na tor wyjściowy 19 do słuchacza przy odległym terminalu 28. Ponadto, po wykryciu ramki zawierającej wyłącznie szum, detektor VAD 25 przekazuje układowi funkcji aktualizacj i 29 w filtrze 23 sygnał wykonania nowego oszacowania widma szumu bazując na bieżących ramkach szumu i porównania wagowego z poprzednim oszacowaniem widma szumu.
W przypadku, gdy detektor VAD 25 wykrywa mowę, wejście układu 26 tłumienia szumu jest dołączane do filtru 23, co powoduje, że odfiltrowana mowa jest przekazywana do wyjścio8
174 216 wego kanału transmisji 19. Poza tym, w przypadku wykrycia mowy dźwięcznej, rząd modelu mowy LPC dla iteracyjnego filtru Wienera 23 zostaje ustawiony na poziomie 10, natomiast w przypadku ramki z mową bezdźwięczną na poziomie od 4 do 6. Adaptacyjne ustalanie rzędu modelu mowy jest uzasadnione tym, że iteracyjne poszukiwanie biegunów LPC może dać w rezultacie fałszywe formanty w niektórych obszarach pasma częstotliwości, w których stosunek widma mocy sygnału do widma mocy szumu jest mały. To prowadzi w rezultacie do powstania w odfiltrowanym sygnale wyjściowym szumów o zmiennej częstotliwości i czasie trwania, które mogą być niepożądane dla ucha ludzkiego nawet wówczas, gdy poziom ich amplitudy jest bardzo niski w odniesieniu do średniej amplitudy sygnału. W związku z powyższym, ponieważ w paśmie stanowiącym przedmiot zainteresowania typowa wartość rzędu LPC wymagana dla mowy bezdźwięcznej wynosi tylko połowę wartości rzędu dla mowy dźwięcznej, a mowa bezdźwięczna jest zwykle słabsza od mowy dźwięcznej, to istotne jest modulowanie rzędu LPC w taki sposób, aby model mowy nie wykraczał poza specyfikację.
Procesy realizowane w iteracyjnym filtrze 23 bazują na dostępnych strukturach filtrów, przedstawionych w omówionej publikacji Lima i Oppenheima i na zasadach wygładzania międzyramkowego i wewnątrzramkowego, zastosowanych przez J. H. L. Hansena do poprawienia iteracyjnej zbieżności nie działającego w czasie rzeczywistym modułu wygładzającego AUTO-LSp, omawianego w pracy Hansena i Clementsa. Dodatkowo uwzględniono zmiany związane z niniejszym wynalazkiem. Filtr 23 przetwarza przyjmowany sygnał mowy z szumami wytwarzając w rezultacie aproksymowany sygnał mowy. W przypadku, gdy sygnał mowy jeszcze nie jest w postaci cyfrowej, filtr 23 jest wyposażony w przetwornik przychodzących sygnałów analogowych na postać cyfrową, generujący bloki ramek próbkowanych sygnałów wejściowych. Wymiar ramki zawierającej 160 próbek o łącznym czasie trwania 20 ms jest wystarczająco długi do aproksymacji mowy w formie statystycznie stacjonarnego procesu, przydatnego do wykorzystania w modelach LPC. Iteracyjny filtr Wienera i model LPC procesu mowy stanowiący jedną ze składowych tego filtru bazują na założeniach procesu stacjonarnego. Dlatego istotne jest to, że ramki są przetwarzane w tych krótkich blokach czasowych.
Przystępując do omawiania fig. 2 należy zauważyć, że sygnał wejściowy wraz z szumem może być określony równaniem y[n] = s[n] + d[n], gdzie y oznacza dostępną próbkę sygnału wejściowego a s i d są składowymi sygnału i szumu. Próbki są zblokowane w ramki, które w znacznym stopniu, przykładowo w 50%, nakładają się na siebie. Każdy blok danych jest porównywany w odniesieniu do okna czasowego, takiego jak okno Hanninga, w związku z czym dla uzyskania ciągów czasowych odpowiadających pierwotnemu sygnałowi wejściowemu wykonywane jest dodawanie nakładających się okienkowych ramek poprawnie rozdzielonych w czasie. Zastosowanie okna zmniejsza rozrzut modelu LPC, oszacowanego dla ramki danych, a nakładanie się ramek zapewnia zachowanie ciągłości odtwarzanego odfiltrowanego sygnału wyjściowego na wyprowadzeniu 19 na fig. 1a.
Podobnie jak w iteracyjnym module wygładzania AUTO-SP przedstawionym w publikacji Hansena/Clementsa, niniejsze rozwiązanie ma dwa typy ograniczeń dotyczące każdego kroku iteracji filtru Wienera 23, podczas przetwarzania bieżącej ramki danych wejściowych. Jest to ograniczenie relaksacji macierzy autokorelacji, stosowane w każdej wewnątrzramkowej iteracji bieżącej ramki i międzyramkowe wygładzanie położeń biegunów modelu LPC mowy bieżącej ramki w odniesieniu do pozycji biegunów LPC, realizowane w każdej iteracji dla sąsiadujących ze sobą poprzednich i przyszłych ramek. Ograniczenia dotyczące biegunów LPC nie są stosowane bezpośrednio, ponieważ są określone liczbami zespolonymi w płaszczyźnie Z, a właściwe powiązanie położeń biegunów na płaszczyźnie liczb zespolonych z wygładzeniem międzyramkowym nie jest jasne. Może być rozważane prostsze podejście pośrednie, polegające na zastosowaniu ekwiwalentnej reprezentacji biegunów LPC, nazywanych parą widmową linii (w skrócie LSP). Położenia biegunów modelu LPC rzędu N są ekwiwalentnie reprezentowane przez zbiór wierzchołków położeń NI2 LSP i wierzchołków różnic N/2 LSP leżących na okręgu jednostkowym w płaszczyźnie zespolonej Z. Użyteczność tej ekwiwalentnej reprezentacji LSP, biegunów LPC polega na tym, że położenia lekko stłumionych formantów w widmie sygnałów modelu LPC są bardzo skorelowane z wierzchołkami położeń LSP, a szerokości pasm widma LPC w tych formantach są skorelowane z wierzchołkami różnic LSP. W stabilnym
174 216 modelu LPC dwa rodzaje wierzchołków LSP będą leżały dokładnie na okręgu jednostkowym i będą zmieniały swoje położenie wokół tego okręgu. Uporządkowanie położeń wierzchołków LSP jest oczywiste, a wygładzenie tych położeń w ramkach czasowych jest znacznie prostsze niż wygładzanie zespolonych wierzchołków LPC. Reasumując można stwierdzić, że w każdej iteracji bieżącej ramki poddawanej filtracji bieguny LPC są wygładzane względem biegunów LPC tej samej iteracji znajdujących się w sąsiednich ramkach poprzez wygładzanie ekwiwalentnych położeń wierzchołków LSP oraz poprzez narzucenie dolnej granicy dla minimalnej odległości pomiędzy wierzchołkiem LSP oraz poprzez narzucenie dolnej granicy dla minimalnej odległości pomiędzy wierzchołkiem różnicy i sąsiednim wierzchołkiem położenia. Podane ograniczenia limitują ostrość formantów wszelkich modeli LSP do postaci odpowiadającej mowie.
W rozwiązaniu według wynalazku stosuje się wygładzanie położeń LSP w przylegających do siebie ramkach czasowych, lecz w filtrze przeznaczonym do pracy w czasie rzeczywistym w sieci telekomunikacyjnej można mieć dostęp tylko do kilku ramek wyprzedzających aktualnie filtrowaną ramkę. W przypadku ramek o czasie trwania 20 ms nakładających się w 50%, minimalne opóźnienie wprowadzone w wyniku zastosowania dwu ramek wyprzedzających, jak pokazano to na fig. 2, wynosi 30 ms. Nawet tak małe opóźnienie może mieć istotne znaczenie w niektórych sieciach telekomunikacyjnych. Dla omawianego tutaj filtru, do celów wygładzania bierze się pod uwagę cztery poprzednie i dwie przyszłe ramki. Bez względu na to, że dostępne są wszystkie poprzednie ramki, to wykorzystywane są tylko ramki skorelowane z ramką bieżącą.
Na figurze 3 przedstawiono ograniczone kroki iteracyjne dotyczące bieżącej ramki K dla iteracji 1,...J pokazanej na fig. 4. Cykl pracy filtru Wienera w reprezentacji LSP rozpoczyna się do filtrowania bloku wejściowego y[n] w domenie częstotliwości przy zastosowaniu filtru Wienera (WF), w którym wykorzystywane są oszacowania widma mocy szumu i sygnału określone wyrażeniami C Sy(f) i Sd(f). Oznacza to, że dla uzyskania oczekiwanej mocy sygnału Psignal = Ptotai-Pnoise pierwotne widmo sygnału w filtrze uzyskuje się przez wyskalowanie współczynnikiem C pełnego widma sygnału wejściowego. Po rozpoczęciu procesu, w pętli pokazanej na fig. 3 są wykonywane podane dalej kroki iteracyjnej filtracji ramki K:
1) Start pętli iteracyjnej polegający na oszacowaniu parametrów LPC sygnału wyjściowego filtru WF w dziedzinie czasowej, przy czym kalkulacja autokorelacji LPC jest przeprowadzana z uwzględnieniem relaksacji wartości autokorelacji z poprzednich iteracji ramki. Uwzględnienie relaksacji ma na celu uzyskanie lepszej stabilizacji iteracyjnego poszukiwania najlepszego modelu mowy LPC.
2) Znajdowanie dla LSP wierzchołków położenia Pj i wierzchołków różnicy Qj przy zastosowaniu modelu LPC określonego w kroku 1 dla j-tej iteracji ramki mowy K. Wymaga to znalezienia rzeczywistych pierwiastków dwu wielomianów dla każdej z połówek rzędu LSP.
3) Wygładzanie pozycji wierzchołków Pj reprezentacji LSP dla bieżącej ramki K w sąsiednich ramkach oraz wymuszenie odległości wierzchołków różnicy Qj od wygładzonych wierzchołków Pj. Warunek wymuszający polega na tym, że każdy wierzchołek różnicy Qj musi być odsunięty od najbliższego wygładzonego wierzchołka Pj na odległość większą od odległości minimalnej Dmin Stanowi to zabezpieczenie przed wprowadzeniem wygładzonych pozycji biegunów LPC do okręgu jednostkowego na płaszczyźnie zespolonej Z. Stosowanie wymuszenia powyższego typu jest pożądane w rzeczywistych warunkach transmisji mowy. W telekomunikacyjnych testach omawianej metody, stosowana wartość Dmin wynosiła 0,086 radianów.
4) Przekształcanie wygładzonych wierzchołków LSP na wygładzone parametry LPC, wyliczenie widma Ss(f)j mocy sygnału modelu LPC wyskalowanej tak, że średnia mocjest równa oszacowanej mocy sygnału Psignal = Ptotal - Pnoise bieżącej ramki K.
5) Wykorzystanie widma Ss(f)j oszacowanego widma Sd(f) mocy bieżącego szumu do stworzenia filtru Wienera Hj(f) dla następnej iteracji, jak pokazano na fig. 3 i fig. 4. Stosowana tu nazwa filtr Wienera nie jest zobowiązująca, gdyż rozpatrywany filtr jest zwykłym filtrem Wienera o mocy podniesionej do wartości pow. W testach telekomunikacyjnych omawianej metody stosowano wartości pow z przedziału od 0,6 do 1,0. Czym większe są wartości pow, tym większe zmiany występują w każdej iteracji, lecz iteracyjne poszukiwanie składowej sygnału jest bardziej stabilne przy małych wartościach pow.
174 216
6) Filtracja sygnałów wyjściowych Sj_i [n] poprzednich iteracji ciągów czasowych w połączeniu z bieżącymi wartościami Hj(f) dla uzyskania oszacowania sygnału Sj[n] dla kolejnej iteracji. Stosowanajest kombinacja liniowa typu (1-B) y[n]+B Sj-1 [n], gdzie 0<B<1. Jeżeli B=0, to filtr staje się nieograniczonym filtrem iteracyj nym Lima-Oppenheima, a gdy B=1, to sygnałem wejściowym dla następnego filtru WF jest sygnał wyjściowy poprzedniego filtru WF. W większości eksperymentów przeprowadzonych z tym filtrem stosowane były wartości B znajdujące się w zakresie od 0,80 do 0,95.
7) W niniejszym przykładzie liczba iteracji intra jest parametrem wejściowym określanym doświadczalnie. W wykonywanych eksperymentach stosowano od 4 do 7 iteracji wewnątrzramkowych dla takich kombinacji parametrów [intra; pow) jak na przykład [7; 0,65], czynnika sprzężenia zwrotnego B wynosiły od 0,80 do 0,95. Te najlepsze wartości zależą od rodzaju szumu i typu mowy. Dla szerokiego, płaskiego pasma szumu typową wartością intra może być 6, natomiast gdy widmo mocy szumu jest mocno przesunięte poniżej wartości 1 kHz w widmie pasma głosu [0,4] kHz mogą wystarczyć tylko 4 lub 5 iteracji.
Istotne dla rozwiązania według wynalazku jest wielokrotne stosowanie detektora aktywności głosowej (VAD) zarówno do wykrywania ramek zawierających wyłącznie szum jak i do określania rzędu najlepszego modelu dlajego zastosowania w każdej ramce przy wykorzystaniu wykrywania dźwięcznej i bezdźwięcznej mowy, gdy mowa występuje w ramce. Jak wskazywano wcześniej, najlepszy rząd modelu mowy LPC jest inny dla ramek zawierających mowę dźwięczną i bezdźwięczną. Również jak wskazywano wcześniej, widmo szumu jest aktualizowane tylko wówczas, gdy sygnał nie zawierający głosu jest wykrywany w wystarczającej liczbie przylegających do siebie ramek. W przedziałach czasu, w których wykrywany jest tylko szum, w procesorze 21 zostaje uruchomiony eliminator 27 szumu, który osłabia sygnał wyjściowy, natomiast filtr 23 iteracyjny jest wówczas nieaktywny. W przypadku wykrycia mowy, układ 26 tłumienia szumu przełącza się na wyjściowy kanał transmisji 19. Dźwięczność lub bezdźwięczność mowy warunkuje rząd modelu mowy LPC, który będzie wykorzystywany w iteracjach. Również wykrycie zmiany pomiędzy trzema możliwymi stanami ramek: zawierające wyłącznie szum, zawierające mowę dźwięczną i zawierające mowę bezdźwięczną, powoduje odtworzenie stanów LSP we wcześniejszych ramkach K-4, K-3, K-2 i K-1 przed zaaplikowaniem wygładzania dla bieżącej K-tej ramki. Jest to zarówno niezbędne jak i logiczne dla lepszej filtracji mowy, ponieważ wygładzanie wcześniejszych ramek ma na celu uśrednienie zasadniczo odmiennego szumu poprzez wykorzystanie krótkotrwałej niezmienności mowy w uśrednianych ramkach.
Na figurze 6a przedstawiono przetwarzanie ramek pozwalające uzyskać działanie filtra 23 w czasie rzeczywistym. Zakłada się, że ramka Kjest bieżącą ramką odniesienia, ramki K-4, K-3, K-2, K-1 są ramkami wcześniej przetwarzanymi i archiwizowanymi, natomiast ramki K+1 i K+2 są dostępnymi ramkami przyszłymi. Zgodnie ze znanym sposobem wygładzania przedstawionym w pracy Hansena i Clementsa, filtr 23 w każdej iteracji ramki K wygładza wierzchołki LSP modelu mowy ramki K względem wierzchołków w poprzedzających i przyszłych ramkach wykorzystując w realizowanej iteracji historię LSP poprzedzającej ramki. W odróżnieniu od nie pracującego w czasie rzeczywistym znanego modułu wygładzającego w niniejszym wynalazku wykorzystywane są tylko dwie przyszłe ramki i podczas wykonywania iteracji dla każdej ramki są zapamiętywane wymagane historie LSP dla poprzedzających ramek, w rezultacie czego następuje akumulacja tych historii dla czterech wcześniejszych ramek przewidzianych do wygładzania łącznie z bieżącą ramką podczas iteracji wewnątrzramkowych. Wagi są zawężane dla kolejnych ramek i zwężenie dla każdego bazowego LSP zależy zarówno od stosunku sygnału do szumu (SNR) bieżących ramek jak i od histroii SNR, aż do ramki K.
W rozwiązaniu według wynalazku wykorzystano przeglądowe tablice wag LSP ramki, która będzie stosowana w kolejnych ramkach. Zastosowane tablice wag pokazano na fig. 7a i 7b. Wartości umieszczone w tablicach pokazanych na fig. 7a i 7b mogą być łatwo i niezależnie ustawiane. Progi ramki zawierającej mowę, przy których wektor wagi zostaje zastosowany dla określonego wierzchołka LSP są określane dla poszczególnych tablic i wybierane niezależnie. Typowa strategia konstruowania wektorów wygładzania polega na stosowaniu większego wygładzania dla położeń LSP wyższego rzędu (to jest częstotliwości wyższego formatu) jak
174 216 pokazano w tych tablicach od strony lewej do prawej. Wynika to z dużego oddziaływania szumu przy zadanym SNR, obserwowanym dla położeń mowy LSP wyższego rzędu. Inny wpływ na wartość w tablicy związany jest z tym, że wygładzanie jest rozległe i jednorodne wówczas, gdy współczynnik sNr ramki jest niski oraz jest zmniejszany w miarę wzrostu SNR aż do punktu, w którym nie stosuje się wygładzania przy wysokim SNR. Ta tendencja wynika ze zmniejszającego się oddziaływania szumu na filtrowaną mowę w miarę poprawiania współczynnika SNR ramki. Progi współczynnika SNR ramek wykorzystywane do przechodzenia z jednej tablicy wektorów wagi na inną są teraz określane jako wielokrotności uzyskanego w detektorze VAD aktualnego oszacowania Npow mocy szumu. Wykorzystywane rosnące progi Th wynoszą Thl - 2 Npow dla przejścia z tablicy Okno 1 do tablicy Okno 2, Th2 = 3 Npow, dla przejścia z tablicy Okno 2 do tablicy Okno 3, Th3 = 7 Np0W, dla przejścia z tablicy Win3 do tablicy Okno 4 oraz Th4 =11 Npow, dla przejścia z tablicy Okno 4 do tablicy Okno 5, przy czym tablica Okno 0 jest narzucona wówczas, gdy wystarczająco długo występują ramki o niskim SNR.
W rozwiązaniu według wynalazku w detektorze aktywności głosowej (VAD) jest wykonywane oszacowanie gęstości Sd(f widmowej mocy szumu na podstawie ramek zawierających wyłącznie szum. Proces filtracji przedstawiony na fig. 3 i 4 opiera się na założeniu, że szum występujący podczas mowy ma taką samą średnią gęstość widmową mocy szumu jak oszacowana gęstość Sd(f). W przypadku, gdy szum jest statystycznie stacjonarny w szerokim sensie, oszacowania szumu nie muszą być aktualizowane. Tym niemniej, dla przedstawionych tutaj celów podniesienia jakości mowy oraz dla wielu innych zastosowań związanych z redukowaniem transmitowanych szumów, energia szumu jest stacjonarna tylko w przybliżeniu. W tych przypadkach wymagana jest bieżąca estymacja Sd(f). W związku z tym, do wykrywania braku mowy w sygnale wykorzystywany jest detektor VAD, taki jak detektor 25 pokazany na fig. 1, odznaczający się dobrą odpornością na szum przy redukcji SNR. Jak pokazano na fig. 10, wykrywane pomiędzy segmentami mowy ramki zawierające wyłącznie szum, są wykorzystywane do aktualizacji oszacowania widma mocy szumu. Pokazane na fig. 8 i 9 przykłady sygnałów mowy przed filtracją i po filtracji ilustrują wykorzystanie detekcji aktywności głosowej do przełączania tłumienia sygnału wyjściowego, gdy wykrywany jest brak głosu. Aktywizacja detektora VAD przy wykryciu ramki zawierającej wyłącznie szum jest wynikiem złożonego bilansu poziomu wykrytego sygnału wejściowego i powtarzającego się stwierdzenia cechy braku mowy w ramce.
Podejmowane w detektorze VAD decyzje klasyfikacji mowy mogą być korzystnie wykorzystywane na początkowym i końcowym etapie działania modelu LPC. Wiąże się to z tym, że ustawianie parametrów, takich jak rząd LPC w algorytmie AUTO-LSP jest najlepiej ustawiane według kategorii mowy (dźwięczna lub bezdźwięczna) filtrowanej w aktualnie przetwarzanej ramce. Podniesienie jakości modelowania może być uzyskane wówczas, gdy klasyfikacja mowy w przetwarzanej ramce może być wykonywana niezawodnie w obecności szumu.
Poprawa czułości modelu na zmiany występujące w widmie sygnału szumu może być uzyskana za pomocą urządzenia aktualizującego widmo Sd(f) nowymi ramkami zawierającymi wyłącznie szum do poziomu, uzależnionego od tego jak bardzo nowa estymacja Sd(f)new widma szumu różni się od poprzedniej estymacji Sd(f)new- Jeżeli Sd(f)L-1 oznacza poprzednie widmo szumu, to zaktualizowane widmo jest określone zależnością
Sd(f)L = (1-A) Sd(f)L-1 +A Sd(f)new gdzie 0<A<1 określa znormalizowaną wartość średnią błędu |Sd(f)L-i - Sd(f) new | w paśmie częstotliwości. Typowe wartości p mieszczą się w zakresie nd 1 dn 2. W przypadku, gdy nowa estymacja widma szumu jest zbliżona do kształtu poprzedniej estymacji, wartość A jest bliska 0, natomiast gdy kształty dwu widm bardzo różnią się od siebie, wartość A zbliża się do 1 i nowe ramki zawierające wyłącznie szum będą miały duże znaczenie wagowe w Sd(f)L. Decyzje dotyczące ramek zawierających wyłącznie szum są podejmowane w detektorze VAD, który we właściwym zakresie SNR jest relatywnie zachowawczym oszacowaniem, dlatego też prawdopodobieństwo podejmowania poprawnych decyzji dotyczących szumu jest wysokie dla SNR przewyższającego 10 dB. W tej metodzie pod uwagę brana jest wyłącznie uśredniona różnica widma, natomiast nie uwzględnia się czasu pomiędzy kolejnymi aktualizacjami poziomu szumu.
174 216
Dla zmniejszenia wariancji przy oszacowaniu widma Sd(f)new jest pożądane, aby do momentu aktualizacji liczba podejmowanych w detektorze VAD decyzji dotyczących przylegających do siebie ramek zawierających wyłącznie szum była przekonywająca. W teście podniesieniajakości mowy wykorzystuje się dla aktualizacji widma istnienie pięciu lub sześciu kolejnych ramek zawierających wyłącznie szum.
Dla poprawienia filtru iteracyjnego bazującego na modelu Lima-Oppenheima, w rozwiązaniu filtru AUTO-LSP są stosowane dwa typy uwarunkowań: wewnątrzramkowa autokorelacja relaksacji jest umieszczona w macierzy autokorelacji, obliczanej dla modelu LPC w każdej iteracji oraz międzyramkowe wygładzanie wierzchołków LSP jest wykonywane w iteracji dla ramek znajdujących się wokół filtrowanej ramki. Na fig. 5a przedstawiono powiązane operacje wykonywane w każdej iteracji. Operacja wygładzania wskazuje kolejność, w której powinny być wykonywane powiązane operacje podczas iteracji, aby oszacowanie Ss(fj mocy sygnału filtru Wienera (WF) odbywało się na podstawie wyniku S[nj poprzedniej iteracji sygnału. Zgodnie ze statystycznymi założeniami teoretycznie najlepsze oszacowanie sygnału ma miejsce wówczas, gdy wykonywana jest iteracyjna sekwencja filtracji pełnego sygnału z szumem y[n] za pomocą filtru WF, przy czym w każdej iteracji, do modelu filtru WF jest wprowadzane nowe oszacowanie widma sygnału. W rzeczywistych sygnałach mowy i szumu stanowiących przedmiot zainteresowania, dodatkowe wewnątrzramkowe i międzyramkowe uwarunkowania wspomagają zbieżność i narzucają wymaganie, aby widmo sygnału w było podobne do widma mowy. Na fig. 5b przedstawiono relaksację autokorelacji wewnątrzramkowej, przy czym pożądane parametry modelu LPC są oznaczone literą a, matryca autokorelacji ostatniego oszacowania S[n]j sygnału oznaczana symbolem Rj, natomiast symbolem bj oznaczono wektor korelacji skrośnej określony według metody AR Yule-Walkera. Proponowana wartość wskaźnika relaksacji c wynosi 0,7. Relaksacja wykorzystywana do wygładzania tylko jednej, poprzedniej ramki może być wykorzystywana do wygładzania większej liczby ramek, lecz nie zaobserwowano żadnej znaczącej korzyści wynikającej z tej zmiany. Proces wygładzania przedstawiono na fig. 5c. Każdy duży okrąg oznacza okrąg jednostkowy na zespolonej płaszczyźnie Z. Dla ramki K i iteracji j, symbol o oznacza wierzchołki Qkj różnicy LSP, natomiast oznacza wierzchołki Pkj położenia. W modelu LPC z minimalną fazą bieguny znajdują się wewnątrz okręgu jednostkowego, a Pkj i Qkj mogą zmieniać swoje położenie wzdłuż tego okręgu. Wygładzanie LSP jest wykonywane dla poprzednich i przyszłych ramek, przy czym obecny zestaw tworzą ramki K-4, K-3, K-2, K-1, K, K+1, K+2. Bezpośrednio są wygładzane tylko wierzchołki położeń Pkj, natomiast wierzchołki różnicy Qkj są popychane do trasy wygładzonych wierzchołków Pkj. Krok inwersji pozwala uzyskać wygładzone i wyskalowane widmo Ss(fj modelu sygnału LPC. Zespolone wierzchołki ekwiwalentnej reprezentacji LSP są po prostu parami wielomianów z rzeczywistymi pierwiastkami' o połowę mniejszego rzędu od pierwotnego wielomianu LPC. .
Wygładzanie wierzchołków LSP metodą AUTO-LSP jest korzystniejsze pod względem obliczeniowym w porównaniu z bezpośrednim wygładzaniem wierzchołków na płaszczyźnie zespolonej w autoregresywnych modelach LPC. Chociaż reprezentacje modeli LPC i LSP są ekwiwalentne, to wadą, która może wystąpić przy wygładzaniu wierzchołków LSP w ramkach jest to, że pomiędzy położeniami formantów (szerokością pasm widma LPC i odpowiednimi położeniami) wierzchołkami odległości LSP zachodzi zależność nieliniowa. W sytuacji gdy wierzchołki LPC przesuwają się poza okręg jednostkowy, wierzchołki położenia LSP nie identyfikują się dokładnie z częstotliwościami formantów lub szerokościami pasm LPC. Tym niemniej nie wydaje się, że to nieliniowe odwzorowanie ogranicza efektywność powiązanych wierzchołków LSP w podnoszeniu jakości mowy.
Opisany sposób jest szczególnie efektywny, gdy szum jest statystycznie stacjonarny w przedziale czasowym rozpoczynającym się od punktu, w którym dokonano oszacowania widma mocy szumu, do końca przetwarzania sygnału z szumem przy wykorzystaniu tego oszacowania szumu. Wydaje się, że najwyższa efektywność procesu ma miejsce w przypadkach, gdy stosunek sygnału do szumu (SNR) przewyższa 10 dB. W przypadkach występowania interferencji, jak na przykład przy oddziaływaniu szumu ruchu samochodowego lub szumu kabiny pilota samolotu, gdy większa część energii spektralnej znajduje się w dolnej części pasma akustycznego, proces
174 216 może użytecznie funkcjonować do niższej wartości tego stosunku SNR wynoszącej 5 dB.
W przypadku szumu o charakterze dźwięku stacjonarnego, typu przydźwięku sieciowego, filtr działał skutecznie dla SNR poniżej 0 dB w sytuacjach, gdy VAD wyraźnie wskazywał ramki zawierające wyłącznie szum.
FIG. 2
WYGŁADZANIE WIERZCHOŁKÓW LSP W ZAKRESIE SIEDMIU RAMEK,
K-1
ITERACJA
ITERACJA
ITERPCJA
ITERACJA
ITERACJA
174 216
FIG. 3
WEJŚCIE RAMKA K ZAŁOŻONE WARTOŚCI POCZĄTKOWE yM, y(f) Ssif)o
174 216
FIG.4
s [η] o s InJ i s [n] j-i
StnJj
174 216 u
o s
<
O
D *3 r-i < — 2 M-t 0 ~ ϊη ω w w
FIG.5
υ lo
CD hH
LU
<
cq
Q <
O >
<
O
O s
w
CU o
Ln
CD
174 216
FIG. 6a _
WYKORZYSTAJ PRZESZŁE I PRZYSZŁE RAMKI DO WYGŁADZANIA __ RAMKI K__ [K-4], [K-3], [K-2], [K-1] JlKlTl (K+1) '1 [K+2] j [K+3] j [K+4] j —
PRZETWÓRZ WSZYSTKIE DANE W PIERWSZEJ DROGIEJ ITERACJI * i * * [K-4], [K-3], [K-2], [K-1], [K]i [K+1]
ITERACJI PRZED WYKONANIEM * ___ [K+2]] [K+3]j [K+4], —
PRZETWÓRZ WSZYSTKIE DANE W J-TEK ITERACJI PRZED WYKONANIEM J+l ITERACJI * * * it it it [K-4] j [K-3] j [K-2] j [K-l]j [K]j [K+llj [K+2] j [K+3] j [K+4] j
PRZETWÓRZ WSZYSTKIE DANE W KOŃCOWEJ ITERACJI DLA UZYSKANIA KAŻDEJ DANEJ WYGŁADZONEJ RAMKI
FIG. 6b
174 216
t tn 07 OJ ^r 07 OJ ^T 07 OJ *<T 07 OJ '•y 07 OJ ^r 1429 1 -U29 1
< © CS3 O W tJ *r 07 OJ •τ 07 OJ «τ 07 OJ -T 07 OJ -<T 07 OJ «y 07 OJ 07 OJ ’Τ
| POZ. cn 07 OJ ^r 07 OJ 07 OJ 07 OJ ^r 07 OJ xr 07 OJ ^r 07 OJ
~u O ej <X> ω w OJ 07 OJ 07 OJ ^r 07 OJ ^r 07 OJ ΧΓ .1429 1 R2 τ
CU co - CD CD CD o tn n OJ 07 OJ ^y 07 OJ ^r 07 OJ
© O 'Z łd o •J id co Dd OJ 1 Dd id id -+· Dd 04 + id
in tn cd o tn CD OJ tn OJ tn CD
< u W >4 tn o cd n <o OJ tn OJ tn CD
N O CU cn © o cd n o OJ CD m tn O
s s OJ 1 0 o i <o o n n OJ CD tn CD CD CD
CU co _1 o α CD CD tn tn OJ CD tn CD CD CD
| OKNO 1 *τ i Dd cn dc OJ id Dd Dd -ł- OJ -+- Dd
174 216
Πω
1—1 υ_
ΙΓ) ο <ο ο ο ο «ο ο ο ο «ο «ο ο ο
m e<3 U Η ο cz> <ο ο <ο <ο CZ5 ο «ο ο <ο <ο ο
Ν Ο m ςζ> ο ο «ο «ο C5 <ο ο cz» ο <ο ο <ο
S OJ «ο CZ> ο «ο ο ο Ό ο ο <ζζ> «ο ο ο
& _1 - <=Ζ> ο θ Ό ο ο ο ο ο 0 0 1 ο cz»
<ο Ο Ζ * π -*τ 1 ΓΟ 1 OJ 1 ΪΜί 5«± OJ -+- Zai
ΙΟ ο ο ο ο ο CZ) OJ ο LO «ο Q
< ca Ν α Μ fcl ο ο 1 ο ο Π ο ο OJ ο ΙΟ cz» Ο <ο
ΡΟΖ. m ο <ο 1 oo 1 <ο 1 .20 1 ο CO ο ο ο
WIERZCH | OJ ο ο ο ο ο ο ο OJ Ό Γ—·> cz> ο CZ»
α_ CO _ι - <ο <ο ο «ο <ο cz> ο OJ ο Γ·». ο cz> ο
’Τ Ο -Ζ .-e ο £> ^τ 1 i»£ ΓΟ id OJ ι Zac Ζ«£ J- ζ*: OJ -4- 2*Ζ
! LO cz> Ό a o CZ> O o OJ ο- o o <o
LICZBA| O CO o o cz» o CZ) OJ cz> o* <z> o o
ΡΟΖ. I co o O o <o o o o OJ o r~^ cz> <o o
wierzch| OJ O CZ» o o o o cz> OJ o co o <o O o
CU co _1 o cz> •o o o o o OJ cz> ao <o o o CZ)
ΙΛ O z o O xr 1 m 2»£ OJ 1 ZłC Zai L L·» OJ zxc
174 216
FIG. 8
VAD WYKRYWA SZUM
SYGNAŁ WEJŚCIOWY Z SZUMEM
FIG. 9
VAD WYKRYWA ODFILTROWANY SYGNAŁ WYJŚCIOWY
174 216
FIG. 10
WEJŚCIE
SYGNAŁ Z SZUMEM
174 216
FIG. 1
FIG.la
Departament Wydawnictw UP RP. Nakład 90 egz. Cena 4,00 zł

Claims (22)

  1. Zastrzeżenia patentowe
    1. Sposób redukcji w czasie rzeczywistym szumu transmisji mowy w sieci telekomunikacyjnej przesyłającej wejściowy sygnał analogowy zawierający sygnał mowy i sygnał szumów, w którym wykorzystuje się model sygnału mowy wytwarzany przez procesor zawierający filtr iteracyjny z liniowym kodowaniem predykcyjnym oraz obwody równoważnego przedstawienia pozycji biegunów modelu sygnału mowy z liniowym kodowaniem predykcyjnym z pierwiastkami położenia pary linii widmowych i pierwiastkami różnicowymi, znamienny tym, że tworzy się w filtrze interacyjnym sygnał oceny składowej widma mocy mowy sygnału analogowego dla każdej bieżącej ramki danych dla transmisji do sieci telekomunikacyjnej, w trakcie którego generuje się szereg kolejnych czasowych ramek danych, wybiera się z szeregu ramek danych (K-4 do K+2) podzbiór kolejnych ramek danych zawierającego grupę poprzednich ramek danych (K-4 do K-1), bieżącą ramkę danych (K) i do dwóch przyszłych ramek danych (K+1, K+2), oraz dokonuje się wybranej liczby iteracji (1, 2, 3, j-1, j) bieżącej ramki danych (K) podzbioru ramek danych, przy czym dla każdej iteracji generuje się wartości pierwiastków położenia pary linii widmowych i pierwiastków różnicowych, zaś w etapie iteracji dla każdego wygładzania iteracyjnego pierwiastki położenia pary linii widmowych generowane dla poprzednich ramek danych, z pierwiastka położenia pary linii widmowych bieżącej ramki danych, wykorzystują pierwiastki położenia pary linii widmowych obliczone dla bieżącego etapu iteracji, po czym tworzy się sygnał oceny widma mocy mowy z kolejnych etapów iteracji bieżących ramek danych, tworzy się sygnał mowy o obniżonym poziomie szumów w oparciu o sygnał oceny widma mocy mowy oraz przesyła się ten sygnał do sieci telekomunikacyjnej.
  2. 2. Sposób według zastrz. 1, znamienny tym, że w etapie iteracji generuje się kolejność filtrów Wienera, w których widmo sygnału wchodzące do początkowego filtru Wienera zawiera sygnał widma mocy szumów, zaś w każdym etapie bieżącej iteracji określa się najlepsze bieżące sygnały oceny widma mocy mowy i widma mocy szumów oraz dodaje się te dwa sygnały oceny tworząc bieżący filtr Wienera.
  3. 3. Sposób według zastrz. 2, znamienny tym, że wykorzystuje się pięć względnie mniej poprzednich ramek włączonych do każdego etapu iteracji.
  4. 4. Sposób według zastrz. 2, znamienny tym, że wykorzystuje się mniej niż pięć poprzednich ramek włączonych do każdego etapu iteracji.
  5. 5. Sposób według zastrz. 4, znamienny tym, że w etapie wykonywania wybranej liczby iteracji bieżącej bramki danych podzbioru bramek danych, sumuje się dużą część wyjściowego sygnału bieżącego filtru Wienera z małą ilością równą 1 minus duża część niefiltrowanego sygnału wejściowego i tworzy się wejściowy sygnał następnego filtru Wienera.
  6. 6. Sposób według zastrz. 5, znamienny tym, że stosuje się dziesiętny równoważnik dużej części wynoszący 0,8 do 0,95.
  7. 7. Sposób według zastrz. 2, znamienny tym, że w etapie określania najlepszego bieżącego sygnału oceny widma mocy szumów wykrywa się kolejność ramek danych, które zgodnie z wybranym kryterium zawieraj ą tylko energię szumów, i prowadzi się ciągłą aktualizację sygnału oceny widma mocy szumów wykorzystując tylko widma ramek danych zawierających energię szumów.
  8. 8. Sposób według zastrz. 7, znamienny tym, że w etapie prowadzenia ciągłej aktualizacji sygnału oceny widma mocy szumów dokonuje się pomiaru różnicy widma mocy szumów pomiędzy nowym sygnałem oceny widma mocy szumów i poprzednim sygnałem oceny widma mocy szumów oraz nadaje większą wagę w aktualizacji ramkom danych o nowym sygnale oceny widma mocy szumów o wielkość proporcjonalną do ostatnio określonych różnic.
  9. 9. Sposób według zastrz. 8, znamienny tym, że etap prowadzenia ciągłej aktualizacji sygnału oceny widma mocy szumów wykonuje się tylko wówczas, gdy wykrytajest co najmniej określona mała zadana z góry liczba ramek danych zawierających tylko szum.
    174 216
  10. 10. Sposób według zastrz. 9, znamienny tym, że stosuje się małą zadaną z góry liczbę ramek danych zawierających tylko szum wynoszącą od pięciu do sześciu.
  11. 11. Sposób według zastrz. 1, znamienny tym, że następnie wykrywa się w ramkach danych zawierających energię mowy, która zgodnie z wybranym kryterium jest dźwięczna, i energię mowy, która jest bezdźwięczna, oraz ustawia się rząd filtru modelu mowy z liniowym kodowaniem predykcyjnym do zasadniczo dziesiątego rzędu w odpowiedzi na wykrycie energii mowy dźwięcznej.
  12. 12. Sposób według zastrz. 11, znamienny tym, że następnie ustawia się rząd filtru modelu mowy z liniowym kodowaniem predykcyjnym do zasadniczo czwartego do szóstego rzędu w odpowiedzi na wykrycie energii mowy bezdźwięcznej.
  13. 13. Sposób według zastrz. 12, znamienny tym, że następnie przesyła się sygnał mowy ze zredukowanymi szumami do sieci telekomunikacyjnej tylko w odpowiedzi na wykrycie mowy dźwięcznej względnie mowy bezdźwięcznej.
  14. 14. Sposób według zastrz. 13, znamienny tym, że następnie dokonuje się zmniejszenia poziomu sygnału oceny widma mocy szumów i przesyła się ten zmniejszony poziom sygnału oceny widma mocy szumów do sieci telekomunikacyjnej, gdy nie jest wykryty sygnał mowy dźwięcznej i sygnał mowy bezdźwięcznej.
  15. 15. Sposób według zastrz. 14, znamienny tym, że nakłada się sąsiednie ramki danych z podzbioru kolejnych ramek danych przed wykonaniem etapu iteracji.
  16. 16. Sposób według zastrz. 15, znamienny tym, że sąsiednie ramki danych nakłada się na siebie zasadniczo w 50%.
  17. 17. Sposób według zastrz. 1, znamienny tym, że do sieci telekomunikacyjnej wprowadza się odległą łącznicę umieszczoną po pierwszej stronie granicy państwowej, centralę zawieraj ącą drugą łącznicę umieszczoną po przeciwnej stronie granicy oraz tor komunikacyjny pomiędzy odległą łącznicą i drugą łącznicą, przy czym wchodzący sygnał zawierający energię mowy i energię szumów odbiera się przez drugą łącznicę.
  18. 18. Sposób według zastrz. 15, znamienny tym, że podzbiór kolejnych ramek danych zawiera do czterech poprzednich ramek.
  19. 19. Sposób według zastrz. 15, znamienny tym, że następnie, przed uaktywnieniem przetwarzania w czasie rzeczywistym ustawienia progu energii szumów transmitowanych sygnałów wchodzących, sprawdza się, czy energia szumów w sygnale wchodzącym jest wyższa od tego progu, sprawdza się, czy sygnał wchodzący zawiera energię sygnału mowy, oraz sprawdza się, czy sygnał wchodzący zawiera wywołanie w sieci telekomunikacyjnej oznaczające abonenta obsługiwanego przy zmniejszonych szumach, i tylko wówczas, gdy wszystkie trzy powyższe sprawdzenia są pozytywne dokonuje się przetwarzania w czasie rzeczywistym.
  20. 20. Sposób według zastrz. 19, znamienny tym, że następnie wykrywa się przejścia we wchodzącym sygnale z jednego z możliwych stanów: tylko szumy, mowa dźwięczna i mowa bezdźwięczna do innego stanu, po czym, przed rozpoczęciem etapów iteracji bieżącej ramki danych, ponownie określa się pierwiastki pary linii widmowych czterech poprzednich ramek danych.
  21. 21. Sposób według zastrz. 20, znamienny tym, że stosuje się wybraną liczbę iteracji wynoszącą od czterech do siedmiu.
  22. 22. Sposób według zastrz. 21, znamienny tym, że stosuje się pierwiastek różnicowy pary linii widmowych większy niż minimalna zadana z góry odległość od jego najbliższego wygładzonego pierwiastka pozycji pary linii widmowych.
PL94310056A 1993-11-30 1994-11-15 Sposób redukcji w czasie rzeczywistym szumu transmisji mowy PL174216B1 (pl)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16077093A 1993-11-30 1993-11-30
PCT/US1994/012998 WO1995015550A1 (en) 1993-11-30 1994-11-15 Transmitted noise reduction in communications systems

Publications (2)

Publication Number Publication Date
PL310056A1 PL310056A1 (en) 1995-11-13
PL174216B1 true PL174216B1 (pl) 1998-06-30

Family

ID=22578366

Family Applications (1)

Application Number Title Priority Date Filing Date
PL94310056A PL174216B1 (pl) 1993-11-30 1994-11-15 Sposób redukcji w czasie rzeczywistym szumu transmisji mowy

Country Status (9)

Country Link
US (3) US5706394A (pl)
EP (1) EP0681730A4 (pl)
JP (1) JPH08506434A (pl)
KR (1) KR0175965B1 (pl)
CN (1) CN1129486A (pl)
CA (1) CA2153170C (pl)
PL (1) PL174216B1 (pl)
UA (1) UA41913C2 (pl)
WO (1) WO1995015550A1 (pl)

Families Citing this family (126)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5790754A (en) * 1994-10-21 1998-08-04 Sensory Circuits, Inc. Speech recognition apparatus for consumer electronic applications
SE505156C2 (sv) * 1995-01-30 1997-07-07 Ericsson Telefon Ab L M Förfarande för bullerundertryckning genom spektral subtraktion
DE19521258A1 (de) * 1995-06-10 1996-12-12 Philips Patentverwaltung Spracherkennungssystem
SE513892C2 (sv) * 1995-06-21 2000-11-20 Ericsson Telefon Ab L M Spektral effekttäthetsestimering av talsignal Metod och anordning med LPC-analys
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US5794199A (en) * 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission
SE506034C2 (sv) 1996-02-01 1997-11-03 Ericsson Telefon Ab L M Förfarande och anordning för förbättring av parametrar representerande brusigt tal
EP0909442B1 (en) * 1996-07-03 2002-10-09 BRITISH TELECOMMUNICATIONS public limited company Voice activity detector
US5742694A (en) * 1996-07-12 1998-04-21 Eatwell; Graham P. Noise reduction filter
US5950154A (en) * 1996-07-15 1999-09-07 At&T Corp. Method and apparatus for measuring the noise content of transmitted speech
US6771590B1 (en) 1996-08-22 2004-08-03 Tellabs Operations, Inc. Communication system clock synchronization techniques
US6118758A (en) 1996-08-22 2000-09-12 Tellabs Operations, Inc. Multi-point OFDM/DMT digital communications system including remote service unit with improved transmitter architecture
SE507370C2 (sv) * 1996-09-13 1998-05-18 Ericsson Telefon Ab L M Metod och anordning för att alstra komfortbrus i linjärprediktiv talavkodare
JP3556419B2 (ja) * 1996-12-09 2004-08-18 株式会社東芝 携帯無線電話機
JP3067676B2 (ja) * 1997-02-13 2000-07-17 日本電気株式会社 Lspの予測符号化装置及び方法
US5983183A (en) * 1997-07-07 1999-11-09 General Data Comm, Inc. Audio automatic gain control system
US6044341A (en) * 1997-07-16 2000-03-28 Olympus Optical Co., Ltd. Noise suppression apparatus and recording medium recording processing program for performing noise removal from voice
DE19747885B4 (de) 1997-10-30 2009-04-23 Harman Becker Automotive Systems Gmbh Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion
JP3584458B2 (ja) * 1997-10-31 2004-11-04 ソニー株式会社 パターン認識装置およびパターン認識方法
SE515674C2 (sv) * 1997-12-05 2001-09-24 Ericsson Telefon Ab L M Apparat och metod för brusreducering
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US5991718A (en) * 1998-02-27 1999-11-23 At&T Corp. System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
EP0992978A4 (en) * 1998-03-30 2002-01-16 Mitsubishi Electric Corp NOISE REDUCTION DEVICE AND METHOD
US7440498B2 (en) 2002-12-17 2008-10-21 Tellabs Operations, Inc. Time domain equalization for discrete multi-tone systems
DK1068704T3 (da) 1998-04-03 2012-09-17 Tellabs Operations Inc Filter til impulssvarforkortning, med yderligere spektrale begrænsninger, til multibærebølgeoverførsel
US6081776A (en) * 1998-07-13 2000-06-27 Lockheed Martin Corp. Speech coding system and method including adaptive finite impulse response filter
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
JP4308345B2 (ja) * 1998-08-21 2009-08-05 パナソニック株式会社 マルチモード音声符号化装置及び復号化装置
US6826528B1 (en) 1998-09-09 2004-11-30 Sony Corporation Weighted frequency-channel background noise suppressor
US6272460B1 (en) * 1998-09-10 2001-08-07 Sony Corporation Method for implementing a speech verification system for use in a noisy environment
US6122610A (en) * 1998-09-23 2000-09-19 Verance Corporation Noise suppression for low bitrate speech coder
US6108610A (en) * 1998-10-13 2000-08-22 Noise Cancellation Technologies, Inc. Method and system for updating noise estimates during pauses in an information signal
US6289309B1 (en) 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6331835B1 (en) * 1999-02-02 2001-12-18 The Charles Stark Draper Laboratory, Inc. Deeply-integrated adaptive GPS-based navigator with extended-range code tracking
US6363345B1 (en) * 1999-02-18 2002-03-26 Andrea Electronics Corporation System, method and apparatus for cancelling noise
CN1348583A (zh) * 1999-02-18 2002-05-08 安德烈电子公司 消除噪声的系统、方法和设备
JP2000259198A (ja) * 1999-03-04 2000-09-22 Sony Corp パターン認識装置および方法、並びに提供媒体
US6556967B1 (en) * 1999-03-12 2003-04-29 The United States Of America As Represented By The National Security Agency Voice activity detector
US6233552B1 (en) 1999-03-12 2001-05-15 Comsat Corporation Adaptive post-filtering technique based on the Modified Yule-Walker filter
US6519260B1 (en) 1999-03-17 2003-02-11 Telefonaktiebolaget Lm Ericsson (Publ) Reduced delay priority for comfort noise
US7423983B1 (en) * 1999-09-20 2008-09-09 Broadcom Corporation Voice and data exchange over a packet based network
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
US6480824B2 (en) * 1999-06-04 2002-11-12 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for canceling noise in a microphone communications path using an electrical equivalence reference signal
AU5032000A (en) * 1999-06-07 2000-12-28 Ericsson Inc. Methods and apparatus for generating comfort noise using parametric noise model statistics
US6519559B1 (en) * 1999-07-29 2003-02-11 Intel Corporation Apparatus and method for the enhancement of signals
WO2001029826A1 (en) * 1999-10-21 2001-04-26 Sony Electronics Inc. Method for implementing a noise suppressor in a speech recognition system
US6731237B2 (en) 1999-11-09 2004-05-04 The Charles Stark Draper Laboratory, Inc. Deeply-integrated adaptive GPS-based navigator with extended-range code tracking
FI19992453A (fi) * 1999-11-15 2001-05-16 Nokia Mobile Phones Ltd Kohinanvaimennus
EP1104925A1 (en) * 1999-12-03 2001-06-06 Siemens Aktiengesellschaft Method for processing speech signals by substracting a noise function
US7263074B2 (en) * 1999-12-09 2007-08-28 Broadcom Corporation Voice activity detection based on far-end and near-end statistics
US7058572B1 (en) * 2000-01-28 2006-06-06 Nortel Networks Limited Reducing acoustic noise in wireless and landline based telephony
WO2001073759A1 (en) * 2000-03-28 2001-10-04 Tellabs Operations, Inc. Perceptual spectral weighting of frequency bands for adaptive noise cancellation
AU2002211881A1 (en) * 2000-10-13 2002-04-22 Science Applications International Corporation System and method for linear prediction
US6463408B1 (en) * 2000-11-22 2002-10-08 Ericsson, Inc. Systems and methods for improving power spectral estimation of speech signals
US7539615B2 (en) * 2000-12-29 2009-05-26 Nokia Siemens Networks Oy Audio signal quality enhancement in a digital network
US6708147B2 (en) * 2001-02-28 2004-03-16 Telefonaktiebolaget Lm Ericsson(Publ) Method and apparatus for providing comfort noise in communication system with discontinuous transmission
US7319954B2 (en) * 2001-03-14 2008-01-15 International Business Machines Corporation Multi-channel codebook dependent compensation
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
GB2380644A (en) * 2001-06-07 2003-04-09 Canon Kk Speech detection
WO2003001173A1 (en) * 2001-06-22 2003-01-03 Rti Tech Pte Ltd A noise-stripping device
US7277722B2 (en) * 2001-06-27 2007-10-02 Intel Corporation Reducing undesirable audio signals
DE10137348A1 (de) * 2001-07-31 2003-02-20 Alcatel Sa Verfahren und Schaltungsanordnung zur Geräuschreduktion bei der Sprachübertragung in Kommunikationssystemen
US7274794B1 (en) 2001-08-10 2007-09-25 Sonic Innovations, Inc. Sound processing system including forward filter that exhibits arbitrary directivity and gradient response in single wave sound environment
JP3453130B2 (ja) * 2001-08-28 2003-10-06 日本電信電話株式会社 雑音源判別装置及び方法
US6959276B2 (en) * 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
JP3826032B2 (ja) * 2001-12-28 2006-09-27 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
AUPS102902A0 (en) * 2002-03-13 2002-04-11 Hearworks Pty Ltd A method and system for reducing potentially harmful noise in a signal arranged to convey speech
EP1351479A1 (en) * 2002-04-04 2003-10-08 Castel GmbH Generating an undisturbed signal out of an audio signal including a disturbing signal
US7139703B2 (en) * 2002-04-05 2006-11-21 Microsoft Corporation Method of iterative noise estimation in a recursive framework
US7065486B1 (en) * 2002-04-11 2006-06-20 Mindspeed Technologies, Inc. Linear prediction based noise suppression
CN100370517C (zh) * 2002-07-16 2008-02-20 皇家飞利浦电子股份有限公司 一种对编码信号进行解码的方法
BR0312973A (pt) * 2002-07-26 2005-08-09 Motorola Inc Método para estimativa dinâmica rápida do ruìdo de fundo
US7024353B2 (en) * 2002-08-09 2006-04-04 Motorola, Inc. Distributed speech recognition with back-end voice activity detection apparatus and method
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
US7415065B2 (en) * 2002-10-25 2008-08-19 Science Applications International Corporation Adaptive filtering in the presence of multipath
US7162420B2 (en) * 2002-12-10 2007-01-09 Liberato Technologies, Llc System and method for noise reduction having first and second adaptive filters
EP1443498B1 (en) * 2003-01-24 2008-03-19 Sony Ericsson Mobile Communications AB Noise reduction and audio-visual speech activity detection
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US8326621B2 (en) * 2003-02-21 2012-12-04 Qnx Software Systems Limited Repetitive transient noise removal
US7885420B2 (en) * 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US8271279B2 (en) 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
TWI233590B (en) * 2003-09-26 2005-06-01 Ind Tech Res Inst Energy feature extraction method for noisy speech recognition
GB0326263D0 (en) * 2003-11-11 2003-12-17 Nokia Corp Speech codecs
EP1683134B1 (en) * 2003-11-12 2010-06-23 Telecom Italia S.p.A. Method and circuit for noise estimation, related filter, terminal and communication network using same, and computer program product therefor
FR2865310A1 (fr) * 2004-01-20 2005-07-22 France Telecom Procede de restauration de partiels d'un signal sonore
JP4434813B2 (ja) * 2004-03-30 2010-03-17 学校法人早稲田大学 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置
US20060018460A1 (en) * 2004-06-25 2006-01-26 Mccree Alan V Acoustic echo devices and methods
US7573947B2 (en) * 2004-07-15 2009-08-11 Terayon Communication Systems, Inc. Simplified narrowband excision
US20060020454A1 (en) * 2004-07-21 2006-01-26 Phonak Ag Method and system for noise suppression in inductive receivers
KR100657912B1 (ko) * 2004-11-18 2006-12-14 삼성전자주식회사 잡음 제거 방법 및 장치
JP4283212B2 (ja) * 2004-12-10 2009-06-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 雑音除去装置、雑音除去プログラム、及び雑音除去方法
US7567903B1 (en) * 2005-01-12 2009-07-28 At&T Intellectual Property Ii, L.P. Low latency real-time vocal tract length normalization
JP5203933B2 (ja) * 2005-04-21 2013-06-05 ディーティーエス・エルエルシー オーディオ雑音を減少させるシステムおよび方法
US7418394B2 (en) * 2005-04-28 2008-08-26 Dolby Laboratories Licensing Corporation Method and system for operating audio encoders utilizing data from overlapping audio segments
CN100336307C (zh) * 2005-04-28 2007-09-05 北京航空航天大学 接收机射频系统电路内部噪声的分配方法
US8767974B1 (en) * 2005-06-15 2014-07-01 Hewlett-Packard Development Company, L.P. System and method for generating comfort noise
JP4971351B2 (ja) 2005-12-05 2012-07-11 クゥアルコム・インコーポレイテッド トーンコンポーネントの検出のためのシステム、方法および装置
WO2007094463A1 (ja) * 2006-02-16 2007-08-23 Nippon Telegraph And Telephone Corporation 信号歪み除去装置、方法、プログラム及びそのプログラムを記録した記録媒体
WO2008007616A1 (fr) * 2006-07-13 2008-01-17 Nec Corporation Dispositif, procédé et programme d'alarme relatif à une entrée de murmure non audible
ATE425532T1 (de) * 2006-10-31 2009-03-15 Harman Becker Automotive Sys Modellbasierte verbesserung von sprachsignalen
US20080312916A1 (en) * 2007-06-15 2008-12-18 Mr. Alon Konchitsky Receiver Intelligibility Enhancement System
JP4506873B2 (ja) * 2008-05-08 2010-07-21 ソニー株式会社 信号処理装置、信号処理方法
KR20100006492A (ko) * 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
US9253568B2 (en) * 2008-07-25 2016-02-02 Broadcom Corporation Single-microphone wind noise suppression
JP4660578B2 (ja) * 2008-08-29 2011-03-30 株式会社東芝 信号補正装置
JP4516157B2 (ja) * 2008-09-16 2010-08-04 パナソニック株式会社 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
EP2226794B1 (en) * 2009-03-06 2017-11-08 Harman Becker Automotive Systems GmbH Background noise estimation
CN101859568B (zh) * 2009-04-10 2012-05-30 比亚迪股份有限公司 一种语音背景噪声的消除方法和装置
US8526754B2 (en) * 2009-05-28 2013-09-03 Aptina Imaging Corporation System for enhancing depth of field with digital image processing
WO2010146711A1 (ja) * 2009-06-19 2010-12-23 富士通株式会社 音声信号処理装置及び音声信号処理方法
SG178344A1 (en) * 2009-08-25 2012-03-29 Univ Nanyang Tech A method and system for reconstructing speech from an input signal comprising whispers
US8577678B2 (en) * 2010-03-11 2013-11-05 Honda Motor Co., Ltd. Speech recognition system and speech recognizing method
JP5566846B2 (ja) * 2010-10-15 2014-08-06 本田技研工業株式会社 ノイズパワー推定装置及びノイズパワー推定方法並びに音声認識装置及び音声認識方法
US20120143604A1 (en) * 2010-12-07 2012-06-07 Rita Singh Method for Restoring Spectral Components in Denoised Speech Signals
US8838445B1 (en) * 2011-10-10 2014-09-16 The Boeing Company Method of removing contamination in acoustic noise measurements
GB2499781A (en) * 2012-02-16 2013-09-04 Ian Vince Mcloughlin Acoustic information used to determine a user's mouth state which leads to operation of a voice activity detector
EP2850611B1 (en) 2012-06-10 2019-08-21 Nuance Communications, Inc. Noise dependent signal processing for in-car communication systems with multiple acoustic zones
WO2014039028A1 (en) 2012-09-04 2014-03-13 Nuance Communications, Inc. Formant dependent speech signal enhancement
WO2014070139A2 (en) 2012-10-30 2014-05-08 Nuance Communications, Inc. Speech enhancement
CN103903634B (zh) * 2012-12-25 2018-09-04 中兴通讯股份有限公司 激活音检测及用于激活音检测的方法和装置
CN104916292B (zh) * 2014-03-12 2017-05-24 华为技术有限公司 检测音频信号的方法和装置
EP4239992A3 (en) * 2017-03-10 2023-10-18 Bonx Inc. Communication system and mobile communication terminal
EP3593455A4 (en) * 2017-03-10 2020-12-02 Intel IP Corporation NOISE REDUCTION CIRCUIT AND DEVICE, RADIO TRANSCEIVER, MOBILE TERMINAL, PROCEDURES AND COMPUTER PROGRAM FOR NOISE REDUCTION
GB201814408D0 (en) * 2018-09-05 2018-10-17 Calrec Audio Ltd A method and apparatus for processing an audio signal stream to attenuate an unwanted signal portion
CN111341333B (zh) * 2020-02-10 2023-01-17 腾讯科技(深圳)有限公司 噪声检测方法、噪声检测装置、介质及电子设备
CN116312545B (zh) * 2023-05-26 2023-07-21 北京道大丰长科技有限公司 多噪声环境下的语音识别系统和方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0076234B1 (de) * 1981-09-24 1985-09-04 GRETAG Aktiengesellschaft Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
US5012518A (en) * 1989-07-26 1991-04-30 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
KR950013551B1 (ko) * 1990-05-28 1995-11-08 마쯔시다덴기산교 가부시기가이샤 잡음신호예측장치
US5195132B1 (en) * 1990-12-03 1996-03-19 At & T Bell Lab Telephone network speech signal enhancement
US5319703A (en) * 1992-05-26 1994-06-07 Vmx, Inc. Apparatus and method for identifying speech and call-progression signals
US5533133A (en) * 1993-03-26 1996-07-02 Hughes Aircraft Company Noise suppression in digital voice communications systems
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
US5544250A (en) * 1994-07-18 1996-08-06 Motorola Noise suppression system and method therefor

Also Published As

Publication number Publication date
CN1129486A (zh) 1996-08-21
US5781883A (en) 1998-07-14
KR960700498A (ko) 1996-01-20
US5706394A (en) 1998-01-06
CA2153170A1 (en) 1995-06-08
CA2153170C (en) 2000-12-19
KR0175965B1 (ko) 1999-04-01
EP0681730A4 (en) 1997-12-17
UA41913C2 (uk) 2001-10-15
US5708754A (en) 1998-01-13
PL310056A1 (en) 1995-11-13
EP0681730A1 (en) 1995-11-15
JPH08506434A (ja) 1996-07-09
WO1995015550A1 (en) 1995-06-08

Similar Documents

Publication Publication Date Title
PL174216B1 (pl) Sposób redukcji w czasie rzeczywistym szumu transmisji mowy
EP0807305B1 (en) Spectral subtraction noise suppression method
EP0901267B1 (en) The detection of the speech activity of a source
KR100594563B1 (ko) 선형 컨벌루션 및 인과 필터링을 사용하는 스펙트럼 감산에 의한 신호 잡음 감소
Park et al. Integrated echo and noise canceler for hands-free applications
JP2003500936A (ja) エコー抑止システムにおけるニアエンド音声信号の改善
WO2006114102A1 (en) Efficient initialization of iterative parameter estimation
CN1203711A (zh) 用于数字电话用的回声消除系统
US20240129410A1 (en) Learning method for integrated noise echo cancellation system using cross-tower nietwork
KR20060042492A (ko) 이동 단말에서 음향 반향 제거 방법 및 장치
US6895094B1 (en) Adaptive identification method and device, and adaptive echo canceller implementing such method
KR100844176B1 (ko) 통계적 모델 기반의 잔여 반향 제거 방법
Lu et al. Enhancing echo cancellation via estimation of delay
KR102316712B1 (ko) 심화 신경망을 이용한 다채널 기반의 잡음 및 에코 신호 통합 제거 장치
Capman et al. Acoustic echo cancellation using a fast QR-RLS algorithm and multirate schemes
US8009825B2 (en) Signal processing
KR100240626B1 (ko) 디지털 이동 통신 시스템에서의 반향 제거 방법 및 장치
KR102374166B1 (ko) 원단 신호 정보를 이용한 반향 신호 제거 방법 및 장치
KR100494564B1 (ko) 보코더 가변 정보율을 이용한 반향 제거 장치 및 방법
MXPA95001343A (en) Transmitted noise reduction in communication systems
Lu et al. Pitch analysis-based acoustic echo cancellation over a nonlinear channel
Nemer Acoustic Noise Reduction for Mobile Telephony
TLUčÁK et al. Neural Network Based Speech Enhancement
Chhetri et al. Acoustic echo cancelation for high noise environments
KR20010065125A (ko) 전 처리단을 이용한 스테레오 음향 반향 제거장치