PL185513B1 - Sposób i urządzenie do selektywnej zmiany ramki sygnału cyfrowego ukształtowanego z wielu kolejnych ramek - Google Patents

Sposób i urządzenie do selektywnej zmiany ramki sygnału cyfrowego ukształtowanego z wielu kolejnych ramek

Info

Publication number
PL185513B1
PL185513B1 PL96325532A PL32553296A PL185513B1 PL 185513 B1 PL185513 B1 PL 185513B1 PL 96325532 A PL96325532 A PL 96325532A PL 32553296 A PL32553296 A PL 32553296A PL 185513 B1 PL185513 B1 PL 185513B1
Authority
PL
Poland
Prior art keywords
noise
speech
filter
frame
estimator
Prior art date
Application number
PL96325532A
Other languages
English (en)
Other versions
PL325532A1 (en
Inventor
Torbjörn W. Sölve
Original Assignee
Ericsson Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ericsson Inc filed Critical Ericsson Inc
Publication of PL325532A1 publication Critical patent/PL325532A1/xx
Publication of PL185513B1 publication Critical patent/PL185513B1/pl

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Description

Przedmiotem wynalazku jest sposób i urządzenie do soloktyweoj zmiany ramki sygnału cyfrowego ukształtowanego z wielu kolejnych ramek. Wynalazek dotyczy systemu redukcji szumów, a zwłaszcza adaptacyjnego systemu poprawiania zrozumiałości mowy, do zastosowania w cyfrowych radiotelefonach przenośnych.
Przemysł telefonii komórkowej dokonał wyjątkowych kroków w operacjach handlowych w Stanach Zjednoczonych, jak również w pozostałej części świata. Zapotrzebowanie na usługi komórkowe w większości obszarów metropolitalnych wyprzedza aktualną przepustowość systemu. Zakładając, że ten trend utrzyma się, telekomunikacja komórkowa osiągnie nawet najmniejsze rynki wiejskie. W wyniku tego, przepustowość komórkowa musi wzrosnąć z utrzymaniem wysokiej jakości usług przy rozsądnych kosztach. Jednym z ważnych kroków w kierunku zwiększenia przepustowości jest konwersja systemów komórkowych z transmisji analogowej na cyfrową. Ta konwersja jest również ważna z tego powodu, że pierwsza generacja osobistych sieci telekomunikacyjnych (PCN - personal communication networks), wykorzystujących tanie, kieszonkowe telefony bezprzewodowe, nadające się do noszenia i wykorzystywane do nawiązywania lub odbierania rozmów w domu, biurze, na ulicy, w samochodzie itp. prawdopodobnie zostanie wyposażona przez operatorów komórkowych z wykorzystaniem cyfrowej infrastruktury komórkowej następnej generacji.
Cyfrowe systemy telekomunikacyjne mają zaletę w postaci wysokowydajnych cyfrowych metod obróbki sygnałów. Cyfrowa obróbka sygnałów polega głównie na obróbce sygnałów cyfrowych, matematycznej i innej. Na przykład po konwersji (cyfryzacji) sygnału analogowego w postać cyfrową taki sygnał cyfrowy może być poddawany filtracji, wzmacnianiu i tłumieniu, z użyciem prostych procedur matematycznych, w procesorze sygnału cyfrowego (DSP - digital signal processor). Zwykle procesory dSp są wytwarzane jako szybkie układy scalone, tak że operacje przetwarzania danych mogą się odbywać w zasadzie w czasie rzeczywistym. Procesory DSP mogą być wykorzystywane również do zmniejszenia bitowej prędkości transmisji cyfryzowanej mowy, co przekłada się na zmniejszenie zajętości widmowej nadawanych sygnałów radiowych, i zwiększenie przepustowości systemu. Na przykład, jeżeli sygnały mowy są cyfryzowane z zastosowaniem lJ-bitowej liniowej modulacji kodowo - impulsowej (PCM - Pulse Code Modulation) i próbkowane w tempie 8 kHz, to występuje szeregowa prędkość bitowa wynosząca 112 kb/s. Ponadto, wykorzystując matematyczne redundancje i inne przewidywalne właściwości ludzkiej mowy, można zastosować metody kodowania głosu dla kompresji szeregowego strumienia bitowego ze 112 kHz do 7,95 kb/s, z osiągnięciem redukcji w stosunku prędkości transmisji 14:1. Zmniejszone prędkości transmisji przenoszą się na większą dostępność pasma.
185 513
Jedną z popularnych metod kompresji mowy, przyjętą w Stanach Zjednoczonych przez TIA do wykorzystania w charakterze standardu cyfrowego dla systemów komórkowych drugiej generacji (to znaczy ID-24), jest predykcyjne kodowanie liniowe pobudzane wektorowym wykazem źródeł (VSELP - vector sourcebook excited linear predictive coding). Niestety, jeżeli kodowane/komprymowane zużyciem VSELP sygnały akustyczne zawierające mowę są zmieszane z szumem otoczenia o dużym poziomie (zwłaszcza „szumem zabarwionym”), to część wyniku mogą stanowić niepożądane parametry sygnału akustycznego. Na przykład, jeżeli cyfrowy telefon przewoźny jest wykorzystywany w zaszumionym środowisku (na przykład wewnątrz poruszającego się samochodu), to kompresji z zastosowaniem algorytmu kodującego VSELp poddawany jest zarówno szum otoczenia, jak i użyteczny sygnał mowy, i nadawany jest do stacji bazowej, gdzie skomprymowany sygnał jest dekodowany i odtwarzany w postaci słyszalnej mowy. Kiedy w format analogowy odtwarzany jest szum tła, to występują niepożądane słyszalne zniekształcenia szumu, niekiedy i mowy. Te zniekształcenia są bardzo przykre dla przeciętnego słuchacza.
Zniekształcenia są powodowane w dużej części przez środowisko, w którym eksploatowane są telefony przewoźne. Telefony przewoźne są zwykle eksploatowane we wnętrzu samochodu, gdzie często występuje otaczający hałas wytwarzany przez silnik pojazdu i otaczający ruch samochodowy. Ten otaczający hałas we wnętrzu samochodu jest zwykle skupiony w zakresie dolnych częstotliwości słyszalnych, a amplituda szumu może się zmieniać w funkcji takich czynników, jak prędkość i przyspieszenie pojazdu, oraz natężenia otaczającego ruchu samochodowego. Ten rodzaj niskoczęstotliwościowego szumu również powoduje znaczne zmniejszenie zrozumiałości mowy dochodzącej od osoby mówiącej w środowisku samochodu. Zmniejszenie zrozumiałości mowy powodowane przez szum niskoczęstotliwościowy może być szczególnie duże w systemach telekomunikacyjnych wykorzystujących wokoder VSELP, lecz może występować też w systemach nie zawierających wokodera VSELP
Wpływ otaczającego szumu na telefon przewoźny może przejawiać się w sposób zależny od użytkowania tego telefonu przewoźnego. W szczególności telefon przewoźny może być użytkowany w trybie bez trzymania w ręku, z telefonem zamocowanym w uchwycie. Uwalnia to użytkownikowi ręce do kierowania, lecz również zwiększa odległość, którą przebywają wypowiadane przez użytkownika słowa przed dotarciem do wejścia mikrofonowego telefonu. Ten wzrost odległości między użytkownikiem a telefonem, wraz ze zmiennością szumów zewnętrznych, może spowodować, że szum stanowi znaczną część ogólnej energii widma mocy sygnału akustycznego wprowadzanego do telefonu.
Znany sposób i system do adaptacyjnej redukcji szumów został ujawniony w opisie patentowym EP 0 645 756. W tym znanym sposobie skokowo zmienia się tłumienie dla każdej ramki audio.
Inny znany system i sposób poprawy zrozumiałości mowy został ujawniony w opisie EP 0 665 530. W tym przypadku wykrywa się mowę w sygnale za pomocą detektora aktywności głosowej, używającego estymaty energii sygnału. Sygnał pozbawiony mowy jest tłumiony, a zamiast niego wprowadza się szum biały poddany filtracji dolnoprzepustowej. Sygnały są filtrowane w filtrach górnoprzepustowych, zależnie od poziomu szumów, a niezależnie od obecności mowy.
W układzie do redukcji szumów, ujawnionym w EP 0 558 312, za pomocą filtru adaptacyjnego wytwarza się sygnał estymujący składowe szumowe sygnału wejściowego. Za pomocą układu regulacji wzmocnienia dobiera się poziom sygnału estymującego i sumuje się sygnał oryginalny z estymatąw sumatorze sygnałów, wytwarzając sygnał pozbawiony szumu.
W opisie patentowym USA nr 4 811 404 ujawniono ulepszony system tłumienia szumów, wykorzystujący widmową modyfikację wzmocnienia sygnału. System zawiera mechanizm progowy, podbijający wzmocnienie po osiągnięciu pewnego progu stosunku sygnału do szumu.
Niemiecki opis patentowy DE 4 012 349 oraz amerykańskie opisy o numerach 4 461 025 i 5 251 263 dotyczą wszystkie odfiltrowywania niepożądanych składowych sygnałów.
Teoretycznie można implementować różne algorytmy obróbki z wykorzystaniem procesorów sygnałów cyfrowych dla filtrowania szumu tła zakodowanego według VSELP. Te roz185 513 wiązania jednakże często wymagają znacznego zużycia zasobów cyfrowej obróbki cyfrowej, mierzonego w milionach instrukcji wykonywanych w ciągu sekundy (MIPS - millions of instructions executed per second), co zajmuje cenny czas przetwarzania, przestrzeń pamięci i powoduje znaczne zużycie mocy zasilania. Każdy z tych zasobów obróbki sygnałów jednak w przypadku radiotelefonów przenośnych jest limitowany. Dlatego proste zwiększanie objętości przetwarzania procesora DSP nie jest rozwiązaniem optymalnym dla minimalizacji szumu tła kodowanego VSELP i innych rodzajów.
Sposób selektywnej zmiany ramki sygnału cyfrowego ukształtowanego z wielu kolejnych ramek, reprezentującego sygnał akustyczny otrzymany w nadajniku, kształtowany na przemian ze składowej mowy, składowej szumowej i składowej mowy wraz ze składową szumową w którym estymuje się poziom energii ramki sygnału cyfrowego, określa się, w odpowiedzi na estymator otrzymany w etapie estymowania, czy ramka sygnału cyfrowego zawiera składową mowy, uaktualnia się estymator szumu w funkcji poprzedniego estymatora szumu i poziomu energii estymowanego podczas etapu estymowania, gdy następuje stwierdzenie, podczas etapu określania, że w skład ramki nie wchodzi składowa mowy, uzyskuje się dostęp do pozycji w tablicy przeglądowej, zawierającej parametry filtru indeksowane względem poziomów estymatorów szumu, przy czym pozycja do której odbywa się dostęp odpowiada wartości estymatora szumu uaktualnionej podczas etapu uaktualniania, według wynalazku wyróżnia się tym, że wybiera się charakterystyki filtracyjne realizowane przez układ filtru, którego charakterystyka częstotliwościowa wykazuje zmienne wzmocnienie w różnych zakresach częstotliwości. Charakterystyki filtru wybiera się w odpowiedzi na zapamiętane parametry filtracyjne pozycji do której odbył się dostęp podczas etapu osiągania dostępu oraz filtruje się ramkę danych cyfrowych za pomocą filtru, który wykazuje charakterystyki filtracyjne, zmieniając ramki danych cyfrowych w odpowiedzi na te charakterystyki filtracyjne.
Sposób korzystnie obejmuje dodatkowo etap pośredni, w którym wyznacza się estymator profilu szumowego ramki sygnału cyfrowego, jeżeli ramka danych cyfrowych została określona jako pozbawiona składowej mowy.
Estymator profilu szumowego, wyznaczany w etapie wyznaczania estymatora profilu szumowego, korzystnie wykorzystuje się w etapie uaktualniania do uaktualniania estymatora profilu szumowego.
Tablica przeglądowa, do której odbywa się dostęp podczas etapu uzyskiwania dostępu, korzystnie zawiera zestaw pozycji, przy czym każda pozycja zestawu zawiera oddzielne charakterystyki filtru.
Oddzielne charakterystyki zestawu pozycji tablicy przeglądowej obejmują korzystnie oddzielne charakterystyki filtru górnoprzepustowego, a każdą charakterystykę filtru górnoprzepustowego określa się oddzielną częstotliwością graniczną. W innym, korzystnym rozwiązaniu każdą charakterystykę filtru górnoprzepustowego określa się oddzielnym nachyleniem charakterystyki częstotliwościowej.
Sposób korzystnie zawiera dodatkowy etap, w którym inkrementuje się wartość licznika dla zliczania każdej ramki, dla której estymuje się poziom energii podczas etapu estymowania. Etap wyboru charakterystyk filtracyjnych układu filtru korzystnie realizuje się, kiedy wartość licznika jest inkrementowana co N-ty raz, przy czym N jest wartością całkowitą większą od jedności.
Urządzenie do selektywnej zmiany ramki sygnału cyfrowego ukształtowanego z wielu kolejnych ramek, reprezentującego sygnał akustyczny otrzymany w nadajniku, kształtowany na przemian ze składowej mowy, składowej szumowej i składowej mowy wraz ze składową szumową zawierające blok estymacji poziomu energii, dostosowany do odbioru wskaźników ramki sygnału cyfrowego, stanowiący blok do estymacji poziomu energii ramki sygnału cyfrowego, detektor mowy sprzężony z blokiem estymacji poziomu energii, stanowiący blok wykrywania składowej mowy, do określania, czy ramka sygnału cyfrowego zawiera składową mowy, blok estymacji szumu, dostosowany do uruchamiania przez blok wykrywania składowej mowy gdy składowa mowy nie stanowi części ramki, stanowiący blok estymacji szumu do uaktualniania estymatora szumu w funkcji poprzedniego estymatora szumu i poziomu energii estymowanego przez blok estymowania, tablicę przeglądową zawierającą zestaw po6
185 513 zycji, z których każda jest indeksowana względem poziomów estymatorów szumu, przy czym dostęp do danej pozycji odpowiada wartości estymatora szumu wytworzonej przez blok estymacji, według wynalazku wyróżnia się tym, że jest zaopatrzone w filtr dostosowany do odbioru ramki danych cyfrowych, o wybieralnych charakterystykach filtracyjnych realizowanych przez układ filtru, w których charakterystyka częstotliwościowa ma zmienne wzmocnienie w różnych zakresach częstotliwości, przy czym charakterystyki filtru są dobrane odpowiednio do pozycji tablicy przeglądowej, do których się odbył dostęp odpowiednio do estymaty szumu uaktualnionej przez blok estymacji szumu.
Korzystnie, urządzenie dodatkowo zawiera blok estymacji profilu szumowego do wyznaczania estymatora profilu szumowego ramki danych cyfrowych, gdy ramka danych cyfrowych została określona przez blok wykrywania składowej mowy jako pozbawiona składowej mowy.
Rozwiązanie według niniejszego wynalazku umożliwia przygotowanie adaptacyjnego systemu redukcji szumów zmniejszającego niepożądane udziały zakodowanego szumu tła przy minimalizacji zarówno ujemnego oddziaływania na jakość zakodowanej mowy, jak minimalizacji wszelkiego zapotrzebowania na zasoby cyfrowej obróbki sygnałów. Sposób i system według niniejszego wynalazku zwiększa zrozumiałość mowy w cyfryzowanym sygnale akustycznym przez przepuszczenie ramek cyfryzowanego sygnału akustycznego przez układ filtru. Układ filtru działa w charakterze strojonego filtru górnoprzepustowego, który odfiltrowuje pewną część sygnału cyfryzowanego w zakresie dolnych częstotliwości słyszalnych i przepuszcza część sygnału cyfryzowanego w wyższych zakresach częstotliwościowych. Ponieważ szum ma tendencję do skupiania się w dolnym zakresie częstotliwości słyszalnych, i tylko stosunkowo niewielka część zrozumiałości mowy przypada na ten zakres dolnych częstotliwości, to układ filtru odfiltrowuje dużą część szumu cyfryzowanego sygnału akustycznego, i tylko mniej ważne segmenty mowy. W wyniku tego zostaje usunięta znacznie większa cześć eaergii szumów, niż energii mowy. Przez adaptacyjne dostrajanie i wybieranie krzywej odpowiedzi częstotliwościowej układu filtrującego, ogranicza się ilość odfiltrowywanej mowy, i filtracja ma minimalne oddziaływanie na zrozumiałość mowy wyprowadzanej przez radio.
Układ sterowania filtrem wykorzystuje się do strojenia układu filtracyjnego dla otrzymywania różnych charakterystyk częstotliwościowych w funkcji estymatora szumu i/lub wyniku profilu widmowego odpowiadającego szumowi w sygnale akustycznym. Estymator szumu i/lub wyniki profilu widmowego są dostrajane po-ramkowo do sygnału cyfrowego w funkcji detekcji mowy. Jeżeli nie zostaje wykryta mowa, to estymator szumu i/lub wynikowy profil widmowy zostają uaktualnione dla danej ramki. W razie wykrycia mowy, estymator szumu i/lub wynik profilu widmowego pozostawia się bez regulacji.
W pierwszej odmianie wykonania, układ filtrujący oblicza estymatory szumowe dla ramek cyfryzowanych sygnałów akustycznych. Estymator szumu odpowiada ilości szumu tła w ramkach cyfryzowanych sygnałów analogowych. Ponieważ względna ilość szumu tła w stosunku do mowy wzrasta w zakresie niskoczęstotliwościowym, to estymator szumu rośnie. Układ sterujący filtru wykorzystuje estymator szumu do dostrojenia układu filtru dla odfiltrowania większej części zakresu niskoczęstotliwościowego mowy w miarę, jak wzrasta względny stosunek szumu tła do mowy w zakresie niskoczęstotliwościowym. Kiedy nie występuje w ogóle szum tła, nie jest odfiltrowywana żadna część sygnału mowy. Kiedy występuje wysoki poziom szumu tła, usuwane są większe części szumu i informacji mowy. Ponieważ szum zwykle gromadzi się w zakresie niskoczęstotliwościowym, i na ten zakres niskoczęstotliwościowy przypada stosunkowo mała część zrozumiałości sygnału akustycznego, to ogólną zrozumiałość sygnału akustycznego można zwiększyć przez zwiększenie odfiltrowywanej części energii niskoczęstotliwościowej w miarę wzrostu estymatora szumu.
W drugiej odmianie wykonania stosuje się zmodyfikowany układ sterowania filtru służący do takiej regulacji filtru, aby wykazywał różne charakterystyki częstotliwościowe w funkcji profilu szumowego estymatora szumu za wybrany zakres częstotliwościowy w sygnale akustycznym. Układ sterujący filtru zawiera analizator widma, do określania estymatora profilu szumowego w funkcji detekcji mowy. Estymator profilu szumowego jest wyznaczany
185 513 dla aktualnej ramki i porównywany jest z profilem szumowym odniesienia. Na podstawie tego porównania układ filtru dostrajany jest adaptacyjnie dla wycinania różnych ilości energii niskoczęstotliwościowej z aktualnej ramki.
Układ adaptacyjnej redukcji szumów według niniejszego wynalazku może być, korzystnie, stosowany do systemów telekomunikacyjnych, w których radiowe urządzenia nadawczo-odbiorcze przenośne/przewoźne komunikują się kanałami radiowymi między sobą lub z abonentami stałych linii telefonicznych. Każde urządzenie nadawczo-odbiorcze zaopatrzone jest w antenę, odbiornik do przetwarzania sygnałów radiowych, otrzymanych w kanale radiowym za pośrednictwem anteny, na analogowe sygnały akustyczne, oraz nadajnik. Nadajnik zawiera koder-dekoder (kodek) do cyfryzacji analogowych sygnałów akustycznych, do nadawania w ramkach cyfryzowanej informacji mowy, przy czym informacja mowy zawiera zarówno mowę, jak i szum tła. Procesor cyfrowej obróbki sygnałów przetwarza aktualną ramkę na. podstawie estymatora szumu tła i detekcji mowy w aktualnej ramce, dla zminimalizowania szumu tła. Modulator moduluje nośną w. cz. obrobioną ramką informacji cyfryzowanej mowy, w celu następnego nadania przez antenę.
Przedmiot wynalazku, w przykładzie wykonania, został bliżej objaśniony na rysunku, na którym fig. 1 przedstawia ogólny blokowy schemat funkcjonalny dotyczący niniejszego wynalazku, fig. 2 - strukturę ramki i przedziału według cyfrowego standardu IS-54 USA na radiokomunikację komórkową, fig. 3 - schemat blokowy pierwszej korzystnej odmiany wykonania niniejszego wynalazku zaimplementowanego z wykorzystaniem procesora cyfrowej obróbki sygnałów, fig. 4 - blokowy schemat funkcjonalny przykładowej odmiany wykonania według niniejszego wynalazku w jednym z wielu przenośnych radiowych urządzeń nadawczo - odbiorczych w systemie telekomunikacyjnym, fig. 5A i 5B - s^<^<ć działań, ilustrującą funkcje/operacje realizowane przez procesor cyfrowej obróbki sygnałów w implementacji pierwszej odmiany wykonania według niniejszego wynalazku, fig. 6A - wykres, ilustrujący pierwszy przykład charakterystyki tłumienia układu filtru w funkcji częstotliwości, w pierwszej korzystnej odmianie wykonania niniejszego wynalazku, fig. 6B - wykres, ilustrujący drugi przykład charakterystyki tłumienia układu filtru w funkcji częstotliwości w pierwszej korzystnej odmianie wykonania niniejszego wynalazku, fig. 7 - tablicę przeglądową, dostępną dla układu sterowania filtru, w pierwszej korzystnej odmianie wykonania niniejszego wynalazku, fig. 8A i 8B - wykresy, ilustrujące charakterystyki amplitudy w funkcji częstotliwości przykładowych wejściowych sygnałów akustycznych, fig. 9A i 9B - wykresy ilustrujące charakterystyki amplitudy w funkcji częstotliwości wejściowych sygnałów akustycznych z figur, odpowiednio 8A i 8B, po przefiltrowaniu w układzie filtru według niniejs.zego wynalazku, fig. 10 - schemat blokowy drugiej korzystnej odmiany wykonania niniejszego wynalazku zaimplementowanego z wykorzystaniem procesora cyfrowej obróbki sygnałów, fig. 11 - sieć działań odpowiadającą sieci działań z fig. 5B, ilustrującą funkcje/operacje realizowane przez procesor cyfrowej obróbki sygnałów w implementacji drugiej odmiany wykonania według niniejszego wynalazku, natomiast fig. 12 przedstawia przykładową tablicę przeglądową dostępną dla układu sterowania filtru w drugiej korzystnej odmianie wykonania niniejszego wynalazku.
Figura 1 przedstawia ogólny schemat blokowy adaptacyjnego systemu 100 redukcji szumów według niniejszego wynalazku. Adaptacyjny system 100 redukcji szumów zawiera układ 105 sterowania filtru dołączony do układu 115 filtru. Układ 105 sterowania filtru generuje sygnał sterujący filtru dla aktualnej ramki cyfryzowanego sygnału akustycznego. Sygnał sterujący filtru jest doprowadzany do układu 115 filtru, a układ 115 filtru dokonuje dostrojenia, w odpowiedzi na sygnał sterujący filtru, aż do uzyskania charakterystyki górnoprzepustowej wybranej na podstawie sygnału sterującego filtru. Dostrojony układ 115 filtru przefiltrowuje aktualną ramkę cyfryzowanego sygnału akustycznego. Sygnał filtracyjny obrabiany jest przez wokoder 120 w celu wytworzenia sygnału kodowanego reprezentującego scyfryzowany sygnał akustyczny.
W przykładowej odmianie wykonania według niniejszego wynalazku zastosowanej do radiotelefonicznych przenośnych/ruchomych urządzeń nadawczo-odbiorczych w komórkowym systemie telekomunikacyjnym, fig. 2 przedstawia strukturę ramki wielodostępu z po8
185 513 działem czasowym (TDMA - time division multiple access) wykorzystywanej przez standard IS-54 dla cyfrowej telekomunikacji komórkowej. „Ramka” jest to dwudziestomilisekundowy okres czasu, który zawiera jeden blok nadawczy TX, jeden blok odbiorczy RX oraz blok zmierzonej wartości natężenia sygnału wykorzystywany do mobilnego przekazywania ze wspomaganiem (MAHO - mobile-assisted hand-off). Dwie kolejne ramki przedstawione na fig. 2 nadawane są w okresie czterdziestu milisekund. Informacja cyfryzowanej mowy i szumu tła zostaje obrobiona i przefiltrowana na zasadzie filtrowania kolejnych ramek, w sposób opisany dokładniej poniżej.
Korzystne jest, jeżeli funkcje układu 105 sterowania filtru, układu 115 filtru, i wokodera 120, przedstawione na fig. 1 są zaimplementowane za pomocą procesora cyfrowej obróbki sygnałów o dużej szybkości działania. Jednym z nadających się do tego procesorów jest TM320C53 DSP dostępny z firmy Texas Instruments. Ten procesor TM320C53 DSP stanowi pojedynczy scalony jednoukładowy mikroprocesor 16-bitowy, z wewnętrzną pamięcią RAM do magazynowania danych, na przykład ramek mowy przeznaczonych do obróbki, pamięcią ROM, do magazynowania różnych algorytmów obróbki danych, włącznie z algorytmem kompresji mowy VSELP i innymi algorytmami, które opisano poniżej w przypadku implementacji funkcji realizowanych przez układ 105 sterowania filtru i układ 115 filtru.
Na fig. 3 przedstawiono pierwszą odmianę wykonania niniejszego wynalazku. W tej pierwszej odmianie wykonania układ 105 sterowania filtru strojony jest w funkcji estymatorów szumu tła wyznaczonych przez układ sterowania filtru. Ramki informacji akustycznej z modulacją kodowo - impulsową są magazynowane kolejno w wewnętrznej pamięci RAM procesora cyfrowej obróbki sygnałów. Informacja akustyczna może być cyfryzowana za pomocą innych metod cyfryzacji. Każda ramka PCM jest odczytywana z wewnętrznej pamięci RAM procesora DSP i obrabiana przez blok 210 estymacji energii ramki, i magazynowana tymczasowo w tymczasowej pamięci 220 ramki. Energia aktualnej ramki, wyznaczana przez blok 210 estymacji energii ramki, jest podawana do bloków funkcjonalnych estymacji 230 szumu i detektora 240 mowy. Detektor 240 mowy wskazuje, że w danej ramce zawarta jest mowa, kiedy estymator energii przekracza wartość sumy poprzedniego estymatora szumu i progu mowy. Jeżeli detektor mowy stwierdza, że nie występuje mowa, to procesor 200 cyfrowej obróbki sygnałów oblicza uaktualniony estymator szumu w funkcji poprzedniego estymatora szumu i aktualnej energii ramki (blok 230) .
Uaktualniony estymator szumu jest wyprowadzany do selektora 235 filtru. Selektor 235 filtru generuje sygnał sterujący filtru na podstawie estymatora szumu. W korzystnej odmianie wykonania, selektor 235 filtru przy generowaniu sygnału sterującego filtru uzyskuje dostęp do tablicy przeglądowej. Tablica przeglądowa zawiera szereg wartości sterujących filtru, z których każda jest skojarzona z estymatorem szumu lub zakresem estymatorów szumu. Wartość sterująca filtru z tablicy przeglądowej wybierana jest na podstawie uaktualnionego estymatora szumu i ta wartość sterująca filtru reprezentowana jest przez sygnał sterujący filtru wyprowadzany do banku 265 filtru dla układu 115 filtru. Dla stabilizacji tego procesu i uniknięcia kolejnego przełączania między różnymi filtrami, po wyborze nowego filtru ustanawia się czas zawieszenia na N ramek. Nowy filtr może być wybierany tylko co N ramek, przy czym N jest liczbą całkowitą większą od jedności, a korzystnie, większą od 10.
Układ 115 filtru dostrajany jest w odpowiedzi na sygnał sterujący filtru dla uzyskania górnoprzepustowej charakterystyki częstotliwościowej odpowiadającej wprowadzanemu sygnałowi sterującemu filtru i estymatorowi szumu. Dla uzyskania wybranych charakterystyk częstotliwościowych można wykorzystywać różne spośród znanych wielu typów układów filtracyjnych. Te znane filtry obejmują filtry IIR, takie jak filtry Butterwortha, Czebyszewa lub eliptyczne. Filtry IIR są bardziej korzystne od również możliwych do stosowania filtrów FIR, ze względu na mniejsze wymagania przetwarzania. Filtrowany sygnał jest obrabiany przez wokoder 120, który wykorzystywany jest do kompresji prędkości strumienia bitowego sygnału przefiltrowanego. W korzystnych odmianach wykonania, wokoder 120 do kodowania sygnału akustycznego wykorzystuje predykcyjne kodowanie liniowe pobudzane wektorowym wykazem źródeł (VSELP - vector sourcebook excited linear predictive coding). Możliwe jest również stosowanie innych metod i algorytmów kodowania głosu, jak na przykład predykcyj185 513 ne kodowanie liniowe pobudzane kodem (CELP - code excited linear predictive coding), liniowe kodowanie predykcyjne pobudzane impulsem resztkowym (RPE - LTP - pulse excited linear predictive coding), udoskonalone pobudzane kodowanie wielopasmowe (IMBE - improved multiband excited coding). Przy filtrowaniu ramek sygnałów akustycznych według niniejszego wynalazku przed kodowaniem głosowym, minimalizowany jest szum tła, co zasadniczo zmniejsza wszelki niepożądane oddziaływania szumowe na mowę przy jej odtwarzaniu. Zapobiega również „zagłuszaniu” mowy przez szum niskoczęstotliwściowy.
Procesor 200 cyfrowej obróbki sygnałów opisany w odniesieniu do fig. 3 może znaleźć zastosowanie, na przykład w urządzeniu nadawczo-odbiorczym przenośnego radiotelefonu cyfrowego stosowanego w systemie telekomunikacyjnym. Figura 4 przedstawia jedno takie cyfrowe radiowe urządzenie nadawczo-odbiorcze, które może być wykorzystywane w komórkowej sieci telekomunikacyjnej.
Sygnały akustyczne zawierające mowę i szum tła są wprowadzane za pomocą mikrofonu 400 do kodera-dekodera (KODEKA) 402, który może być specjalistycznym układem scalonym (ASIC-application specific integrated circuit). Sygnały akustyczne o ograniczonym paśmie wykryte przez mikrofon 400 są próbkowane przez kodek 402 z prędkością 8 000 próbek na sekundę i łączone blokowo w ramki. Odpowiednio do tego, każda dwudziestomilisekundowa ramka zawiera 160 próbek mowy'. Te próbki zostają skwantowane i przetworzone na kodowany format cyfrowy, na przykład 14-bitowy format liniowy PCM. Po zmagazynowaniu 160 próbek cyfryzowanej mowy dla aktualnej ramki w nadawczym procesorze DSP 200 w wewnętrznej pamięci RAM 202, nadawczy procesor DSP 200 realizuje funkcje kodowania kanałowego, estymację energii ramki, estymację szumu, detekcję mowy, FFT, funkcje filtru i funkcje cyfrowego kodowania/dekodowania mowy zgodnie z algorytmem VSELP, opisanym powyżej w odniesieniu do fig. 3.
Mikroprocesor nadzorczy 432 steruje ogólnie działaniem wszystkich części składowych w urządzeniu nadawczo-odbiorczym przedstawionym na fig. 4. Filtrowane dane strumienia danych PCM generowanego przez nadawczy procesor DSP 200 podawany jest do modulacji kwadraturowej i nadawania. W tym celu matryca 404 bramek ASIC generuje kanał współfazowy (I) i kwadraturowy kanał (Q) informacji na podstawie filtrowanego strumienia danych z DSP 200. Strumienie bitowe I i Q są przetwarzane przez dopasowane filtry dolnoprzepustowe 406 oraz 408 i doprowadzane do mieszaczy IQ w modulatorze zrównoważonym 410. Generator odniesienia 412 i powielacz 414 zapewniają częstotliwość pośrednią (IF) nadawania. Sygnał I jest mieszany z współfazowym sygnałem IF, a sygnał Q mieszany jest z kwadraturowym sygnałem IF (to znaczy, współfazowym sygnałem IF opóźnionym o 90 stopni wprzesuwniku fazowym 416). Po zmieszaniu sygnały I i Q są sumowane, poddawane przemianie „w górę” do częstotliwości kanału w. cz. wybranego przez syntezator 430, i nadawane, za pośrednictwem dipleksera 420 i anteny 422, na wybranym kanale wielkiej częstotliwości.
Po stronie odbiorczej, sygnały odebrane przez antenę 422 i diplekser są poddawane przemianie w dół, w mieszaczu 424, z wielkiej częstotliwości wybranego kanału do pierwszej częstotliwości pośredniej IF, z wykorzystaniem sygnału generatora lokalnego syntetyzowanego przez syntezator kanałowy 430 na podstawie częstotliwości wyjściowej generatora odniesienia 428. Sygnał wyjściowy pierwszego mieszacza IF 424 jest filtrowany i poddawany przemianie częstotliwości w dół, do drugiej częstotliwości pośredniej, na podstawie innego wyjścia z syntezatora kanałowego 430 i demodulatora 426. Odbiorcza matryca 434 bramek następnie przetwarza drugi sygnał IF na szereg impulsów fazowych i szereg impulsów częstotliwościowych. Odbiorczy procesor DSP 436 dokonuje na odebranych sygnałach demodulacji, filtrowania, wzmocnienia/tłumienia, dekodowania kanałowego i ekspansji mowy·'. Obrobione dane mowy następnie przesyłane są do kodeka 402 i przetwarzane w sygnały akustyczne pasma podstawowego dla wysterowywania głośnika 438.
Poniżej opisano, w odniesieniu do sieci działań przedstawionej na fig. 5A i 5B, operacje realizowane przez procesor 200 cyfrowej obróbki sygnałów w przypadku implementacji funkcji układu 105 sterowania filtru, układu 115 filtru, iwokodera 120. Blok 210 estymacji energii wyznacza energię w każdej ramce sygnałów akustycznych. Blok 210 estymacji energii wyznacza energię aktualnej ramki przez obliczenie sumy kwadratów każdej próbki PCM w tej
185 513 ramce (krok 505). Ponieważ próbek w dwudziestomilisekundowej ramce, w przypadku prędkości próbkowania 8 000 próbek na sekundę, jest 160, to sumowanych jest 160 kwadratów próbek PCM. Wyrażony matematycznie, estymator energii ramek wyznaczany jest zgodnie z poniższym równaniem 1 :
160
Energia ramki = S {Samp(i)}2 (równanie 1) i=l
Wartość energii ramki obliczona dla ramki aktualnej jest zapamiętywana w wewnętrznej pamięci RAM 202 procesora DSP 200 (krok 510).
Funkcje detektora 240 mowy obejmują pobranie estymatora szumu, uprzednio wyznaczonego przez blok 230, z wewnętrznej pamięci RAM procesora DSP 200 (krok 515). Oczywiście, kiedy urządzenia nadawczo-odbiorcze jest włączane do zasilania po raz pierwszy, nie ma żadnego estymatora szumu. Blok decyzyjny 250 przewiduje wstępnie taką sytuację i w kroku 525 przypisuje pewną wartość estymatora. Korzystne jest, jeżeli estymatorowi szumu przypisuje się arbitralnie pewną dużą wartość, na przykład 20 dB powyżej normalnych poziomów mowy, dla wymuszenia uaktualnienia wartości estymatora, w sposób opisany poniżej. Energię ramki wyznaczoną przez blok 210 estymacji odtwarza się z wewnętrznej pamięci RAM 202 procesora 202 (blok 530). W bloku 535 podejmuje się decyzję, czy energia ramki przekracza sumę odtworzonego estymatora szumu plus zadana wartość progu mowy, jak to przedstawiono w poniższym równaniu 2:
estymator energii ramki > (estymator szumu + próg mowy) (równanie 2)
Wartość progowa mowy może być wartością stałą wyznaczoną doświadczalnie jako większa od krótkookresowych wahań szumu tła i może być ustawiona, na przykład na 9 dB. Ponadto, progowa wartość mowy może być modyfikowana adaptacyjnie dla odzwierciedlenia zmiennych .warunków mówienia, na przykład, kiedy mówiący wchodzi w środowisko bardziej hałaśliwe lub spokojniejsze. Jeżeli estymator energii ramki przekracza sumę zrównania 2, to w bloku 570 ustawia się flagę oznaczającą, że mowa występuje. Jeżeli detektor mowy 240 stwierdzi, że mowa występuje, to blok 230 estymacji szumu jest omijany i odtwarzany jest estymator szumu dla ramki poprzedniej w cyfryzowanym sygnale akustycznym, i wykorzystywany jest w charakterze aktualnego estymatora szumu. Natomiast, jeżeli estymator energii ramki jest mniejszy od sumy z równania 2, to w bloku 540 następuje skasowanie flagi mowy.
Możliwe jest również wykorzystywanie innych systemów wykrywania mowy w aktualnej ramce. Na przykład Europejski Instytut Norm Telekomunikacyjnych (ETSI - European Telecommunications Standards Institute) opracował normę na detekcję aktywności głosowej (VAD - voice activity detection) w globalnym systemie łączności ruchomej (GSM - Global System do Mobile communications), która jest opisana w materiale ETSI: RE/SMG-020632P. który włącza się przez przywołanie. Tę normę można stosować do detekcji mowy według niniejszego wynalazku i zostaje ona dołączona przez przywołanie.
Jeżeli mowa nie występuje, to następuje wykonanie procedury uaktualniającej estymacji szumu w bloku 230 estymacji. W zasadzie, estymator szumu jest ruchomą średnią energii ramki podczas okresów bez mowy. Jak to opisano powyżej, jeżeli wstępny startowy estymator szumu jest dobrany jako dostatecznie wysoki, to nie następuje wykrycie mowy i flaga mowy zostanie skasowana wymuszając w ten sposób uaktualnienie estymatora szumu.
W procedurze estymacji szumu wykonywanej przez blok 230 estymacji, w bloku 545 następuje wyznaczenie różnicy/błędu delta (D) między wartością energii szumu ramki generowaną przez blok 210 estymacji a estymatorem szumu uprzednio obliczonym przez blok estymacji 230 zgodnie z następującym równaniem:
D = aktualna energia ramki - poprzedni estymator szumu (równanie 3)
185 513
W bloku decyzyjnym 550 odbywa się sprawdzenie, czy D jest większe od zera. Jeżeli D jest ujemne, co występuje w przypadku dużych wartości estymatora szumu, to estymator szumu jest przeliczany ponownie w bloku 560 zgodnie z następującym równaniem:
estymator szumu = poprzedni estymator szumu +D/2 (równanie 4)
Ponieważ D jest ujemne, to powoduje ono korekcję w dół estymatora szumu. Stosunkowo dużą wartość kroku wynoszącą D/2 dobrano dla szybkiego skorygowania w przypadku szybkiego obniżania się poziomów szumu. Natomiast, jeżeli energia ramki przekracza estymator szumu, dając w wyniku D większe od zera, to w bloku 555 szum jest uaktualniany zgodnie z poniższym równaniem:
estymator szumu = poprzedni estymator szumu +D/255 (równanie 4)
Ponieważ D jest dodatnie, to estymator szumu należy zwiększyć. Jednak dobiera się mniejszą wartość kroku, wynoszącą D/256 (w stosunku do D/2), dla stopniowego zwiększania estymatora szumu i zapewnienia ważnej ochrony przed szumem stanów nieustalonych.
Estymator szumu obliczony dla aktualnej ramki jest wyprowadzany do selektora 235 filtru. W pierwszej korzystnej odmianie wykonania selektor 235 filtru uzyskuje dostęp do tablicy przeglądowej i wykorzystuje aktualny estymator szumu do wybrania wartości sterującej filtru (krok 572). Układ 115 filtru (w kroku 74) zostaje następnie dostrojony w funkcji wartości sterującej filtru dla uzyskania charakterystyki częstotliwościowej służącej do zwiększenia ilości odfiltrowanego szumu w miarę wzrostu estymatora szumu i szumu tła. Próbki PCM zapamiętane w pamięci RAM procesora DSP są następnie przepuszczane przez ten dostrojony układ 265 filtru dla przefiltrowania próbek PCM dla usunięcia szumu (krok 576). Przefiltrowane próbki PC są następnie przetwarzane przez wokoder 120 (krok 578), a zakodowane próbki są następnie wyprowadzane do nadawczych układów w. cz. (krok 580).
Figury 6A i 6B przedstawiają sposób, w jaki układ 115 filtru dostraja go do otrzymania różnych charakterystyk częstotliwościowych F1-F4 dla różnych sygnałów sterujących filtru wprowadzanych do układu 115 filtru. Jak to przedstawiono na fig. 6a, układ 115 filtru można dobrać do otrzymywania szeregu różnych charakterystyk częstotliwościowych, przy czym charakterystyki F1-F4 mają częstotliwości graniczne, odpowiednio Flc-F4c. Częstotliwości graniczne układu 115 filtru mogą mieścić się, w korzystnej odmianie wykonania, w zakresie 300 Hz do 800 Hz. W miarę wzrostu estymatora szumu, układ filtrujący 115 powinien wykazywać charakterystyki o coraz wyższych częstotliwościach granicznych. Wyższe wartości częstotliwości gramcznych powodują, że większa część energii ramki przypada na zakres niskoczęstotliwościowy mowy wycinany przez układ 115 filtru.
Podobnie, jak to przedstawiono na fig. 6B, układ filtru może być dobrany tak, aby wykazywał szereg różnych charakterystyk częstotliwościowych F1-F4 o różnych nachyleniach a takiej samej częstotliwości granicznej. Częstotliwość graniczna dla charakterystyk częstotliwościowych F1-F4 mieści się w zakresie wspomnianym powyżej. W miarę wzrostu estymatora szumu układ 115 filtru jest dostrajany tak, że wykazuje charakterystyki częstotliwościowe o bardziej stromych zboczach. Zwiększenie stromości zboczy powoduje, że większa część energii ramki przypada na zakres eiskoczęstotliwościoby mowy, wycinany układem 115 filtru.
Układ 115 filtru przefiltrowuje aktualne ramki w zależności od estymatora szumu obliczonego dla aktualnej ramki. Aktualna ramka jest filtrowana tak, że szum zostaje zredukowany a większa część mowy jest przepuszczana. Większa część mowy, która została przepuszczona bez odfiltrowania, stanowi rozpoznawalny sygnał mowy wyprowadzany z tylko minimalnym zmniejszeniem jakości sygnału mowy. Kombinację różnych częstotliwości granicznych i różnych stromości zboczy można wykorzystywać do adaptacyjnego wycinania wybranych części energii ramki przypadającej na niskoczęstotliwościowy zakres mowy.
185 513
Figura 7 przedstawia przykład tablicy przeglądowej, do której ma dostęp selektor 235 filtru w celu wybrania jednej z charakterystyk częstotliwościowych F1-F4 dla obwodu 115 filtru. Tablica przeglądowa zawiera szereg potencjalnych elementów danych pośrednich szumu NI-Nn i wartości sterujące F1-Fn odpowiadające potencjalnym charakterystykom układu 115 filtru. Każdy z estymatorów szumu N1-Nn może reprezentować pewien zakres estymatorów i każdy może być dopasowany do konkretnej wartości sterującej F1-Fn filtru. Układ 105 sterowania filtru generuje pewien sygnał sterujący przez wyliczenie estymatora szumu i odczytanie z tablicy przeglądowej wartości sterującej filtru z nim skojarzonej.
Figury 8A i B oraz 9A i B przedstawiają adaptacyjne filtrowanie sygnału akustycznego w przypadku dwóch ramek dla otrzymania poprawy sygnału akustycznego wyprowadzanego do nadajnika w. cz. Fig. 8A i 8B przedstawiają pierwszą i drugą ramkę sygnału akustycznego zawierającego składowe s1 i s2 mowy oraz składowe szumu, odpowiednio n1 i n2. Jak pokazano, energia szumu n1 i n2 w obu ramkach skupia się w dolnym zakresie częstotliwości akustycznych, natomiast energia mowy s11 s2 skupia się w wyższym zakresie tych częstotliwości akustycznych. Fig. 9A przedstawia sygnał szumowy n1 i sygnał mowy s1 w przypadku pierwszej ramki po przefiltrowaniu. Fig. 9B przedstawia sygnał szumu n2 i sygnał mowy s2 dla drugiej ramki po przefiltrowaniu.
Adaptacyjny system 100 redukcji szumów, jak to omówiono, ma uwzględniać różnice poziom szumu między ramkami, pierwszą i drugą, przez dostrojenie układu 105 sterowania filtru na podstawie obliczonego estymatora szumu dla aktualnej ramki. Na przykład przez układ 105 sterowania filtru wyliczony jest estymator N1 i profil widmowy S1, i dla pierwszej ramki wybrana jest wartość sterująca filtru wynosząca FI. W korzystnej odmianie wykonania układ 115 filtru jest dostrajany na postawie wartości sterującej FI filtru i ma charakterystykę częstotliwościową FI z częstotliwością graniczną Fic, jak to pokazano na fig. 6A. Pierwsza ramka jest przepuszczana przez tak dostrojony układ 115 filtru. Układ 115 filtru jest dobrany tak, że poniżej częstotliwości granicznej Fic charakterystyki FI przypada duża część szumu nl i tylko niewielka część mowy sl. Powoduje to, że szum nl jest skutecznie odfiltrowywany, a część sl mowy jest filtrowana tylko nieznacznie. Filtrowany sygnał akustyczny pierwszej ramki przedstawiono na fig. 9A.
W drugiej ramce, przedstawionej na fig. 8b, występuje wyższy szum tła, i przy założeniu, że nie wykryto mowy, obliczany jest przez układ 105 sterowania filtru wyższy estymator n2 szumu. Na podstawie wyższego estymatora szumu dla drugiej ramki wyznacza się wyższą wartość sterującą F2 filtru. W pierwszym korzystnym wykonaniu układ 115 filtru dostrojony jest zgodnie z wyższą wartością sterującą F2 tak, że ma charakterystykę częstotliwościową o wyższej częstotliwości granicznej F2c, jak pokazano na fig. 6A. Następna ramka sygnału akustycznego przepuszczana jest przez dostrojony układ 115 filtru. Ponieważ częstotliwość graniczna F2c charakterystyki częstotliwościowej F2 jest wyższa dla ramki następnej, to odfiltrowywana jest większa część zarówno szumu n2, jak i mowy s2. Część odfiltrowywanej mowy s2 jest w dalszym ciągu nieznaczna w stosunku do zrozumiałościowej informacji zawartej w ramce, tak że występuje tylko niewielkie oddziaływanie na mowę. Wada w postaci odfiltrowywania większej części mowy s2 jest kompensowana zaletą w postaci eliminacji większej ilości szumu n2 z drugiej ramki. Przefiltrowana część widmowa mowy nie przyczynia się w znacznym stopniu do zrozumiałości mowy. Przefiltrowany sygnał mowy drugiej ramki przedstawiono na fig. 9B.
Na fig. 10-12 przedstawiono drugą korzystną odmianę wykonania adaptacyjnego systemu 100 redukcji szumów. W drugiej korzystnej odmianie wykonania układ 105 sterowania filtru dostraja układ 115 filtru w funkcji estymatorów profilu szumu. Estymator profilu szumu oblicza się dla każdej ramki i porównuje się z profilem szumu odniesienia. Na podstawie tego porównania, układ 115 filtru jest adaptacyjnie dostrajany dla wycinania zmiennych ilości energii niskoczęstotliwościowej z bieżącej ramki.
Na fig. 10 przedstawiono procesor DSP 200 skonfigurowany zgodnie z pierwszą korzystną odmianą wykonania. Jak pokazano, układ 105 sterowania filtru zawiera analizator 270 widma, poza blokiem 210 estymacji energii ramki, blokiem 230 estymacji szumu, detektorem 240 mowy i selektorem 235 filtru, opisanymi w odniesieniu do pierwszej korzystnej odmiany wy185 513 konania. Układ 105 sterowania filtru wyznacza estymatory szumu i detekuje mowę odbieranych ramek w sposób opisany dla pierwszej odmiany wykonania i przedstawiony w sieciach działań 5A i 5B. Po wykryciu mowy w przypadku aktualnej ramki, analizator 270 widma uaktualnia estymator profilu szumu i wykorzystuje estymator profilu szumu do dostrajania układu 115 filtru. Na fig. 11 przedstawiono kroki uaktualniania estymatora profilu szumu i dostrajania układu 115 filtru. Fig. 1 ukazuje kroki realizowane przez analizator 270 widma włączony w ogólny proces uprzednio opisany w sieciach działań z fig. 5 A i 5B dla pierwszej korzystnej odmiany wykonania.
Kiedy mowa nie zostaje wykryta w przypadku aktualnej ramki, analizator 270 widma najpierw wyznacza profil szumowy dla aktualnej ramki (krok 600). Profil szumu wyznaczony dla aktualnej ramki obejmuje obliczenie dla różnych częstotliwości (to znaczy przedziałów częstotliwościowych) w wybranym zakresie niskoczęstotliwościowym mowy dla aktualnej ramki. W. korzystnej odmianie wykonania wybranym zakresem częstotliwości jest zakres od 300 do 800 Hz. Profil szumowy aktualnej ramki można wyznaczyć przez obróbkę aktualnej ramki z użyciem szybkiej transformaty Fouriera (FFT - Fast Fourier Transform) zawierającą N przedziałów częstotliwościowych). Obróbka sygnałów cyfrowych zużyciem transformacji FFT jest znana i jest korzystna w tym, że wymaga bardzo małej mocy obliczeniowej, jeżeli transformacja FFT jest ograniczona do stosunkowo niedużej liczby przedziałów częstotliwościowych, na przykład 32. Transformacja FFT o N przedziałach częstotliwościowych daje obliczonych N wartości energii na N różnych częstotliwościach. Obliczenia energii dla przedziałów częstotliwościowych przypadających wewnątrz wybranego zakresu częstotliwościowego stanowią profil szumowy dla aktualnej ramki.
Dla wyznaczenia estymatora profilu szumowego dla aktualnej ramki (krok 604), profil szumowy aktualnej ramki jest uśredniany z estymatorem profilu wyznaczonego dla poprzedniej ramki sygnału akustycznego. Kiedy nie jest dostępny poprzedni estymator profilu szumowego, jak na przykład po inicjalizacji, można wykorzystać zapamiętany estymator profilu szumowego. Estymator profilu szumowego zawiera estymatory ej (gdzie 1=1, 2,... N), energii szumu, rozmieszczone na kolejnych coraz niższych częstotliwościach (to znaczy, ej jest estymatorem energii szumu dla częstotliwości najwyższej, a en dla najniższej w wybranym zakresie częstotliwościowym). W korzystnej odmianie wykonania, każdy estymator ej energii szumu odpowiada średniej z wartości obliczonych na konkretnej częstotliwości w wybranym zakresie częstotliwościowym, za wiele kolejnych ramek, w których nie wykryto mowy. Przez wykorzystanie wielu ramek do określenia estymatora profilu szumowego, układ 115 filtru sterowany jest z większą gradacją. W alternatywnych odmianach wykonania estymator profilu szumowego można przyrównać do profilu szumowego ramki aktualnej.
Estymatory e, energii estymatora profilu szumowego są następnie komparowane z profilem szumowym odniesienia (krok 604). Profil szumowy odniesienia zawiera progi en (gdzie i = 1, 2,...n) energii odniesienia na częstotliwościach odpowiadających częstotliwościom dla estymatorów e, estymatora profilu szumowego. Progi erj energii odniesienia można wyznaczać empirycznie. Estymatory ej energii szumu są kolejno komparowane z odpowiednimi progami en energii odniesienia, od estymatora ei energii dla najwyższej częstotliwości do estymatora en energii dla najniższej częstotliwości.
Mówiąc dokładniej, estymator ei jest najpierw porównywany z progiem eri odniesienia szumu. Jeżeli ej jest większe od progu er odniesienia szumu, to wybiera się wartość komparacyjną c1 i wprowadza do selektora 235 filtru. Jeżeli estymator energii szumu e1 jest mniejszy od progu er, to estymator e2 energii szumu (który jest estymatorem energii szumu dla częstotliwości mniejszej niż ei) jest porównywany z progiem er2 szumu odniesienia. Jeżeli estymator e2 energii szumu jest większy od progu er2 odniesienia szumu, to zostaje wybrana i wprowadzona do selektora 235 wartość porównawcza c2. Ten proces komparacji jest kontynuowany aż do wybrania wartości porównawczej Ci (gdzie i = 1, 2,...n).
Układ 235 filtru wykorzystuje wyznaczoną wartość porównawczą c do wyznaczenia wartości sterującej filtru. Wartość sterująca filtru jest wybierana z tablicy przeglądowej, jak na przykład przedstawiona na fig. 12. Tablica przeglądowa zawiera szereg wartości porównawczych Ci i odpowiednie wartości sterujące F, filtru. Układ 115 filtru dostrajany jest
185 513 w funkcji wybranej wartości sterującej filtru. Układ 115 filtru dostrajany jest tak, aby wykazywał charakterystykę częstotliwościową wskazującą na wycinanie energii niskoczęstotliwościowej z aktualnej ramki. Układ 115 filtru jest dostrajany do eliminowania wzrastających ilości energii niskoczęstotliwościowej w miarę przekraczania przez estymatory energii szumu na kolejnych coraz wyższych częstotliwościach ich odpowiednich progów odniesienia energii. Fig. 6A i 6B przedstawiają przykładowe charakterystyki częstotliwościowe dla wybranych wartości sterujących filtru.
Wykorzystanie estymatorów profilu szumowego umożliwia poprawienie możliwości adaptacyjnego dostrajania układu filtru do eliminacji energii niskoczęstotliwościowej w sposób sprzyjający poprawie ogólnej jakości mowy. Ponieważ środowisko samochodu nie jest jedynym, w którym wykorzystuje się przewoźne urządzenie telekomunikacyjne, a zatem profile szumowe w niektórych przypadkach będą przesunięte bardziej w stronę wyższych częstotliwości, to analizator 270 widma może być selektywnie blokowany, kiedy energia zawarta w niskich częstotliwościach jest niewielka. Również kiedy znaczna część widma częstotliwościowego szumu rezyduje na dolnych częstotliwościach, można zastosować bardziej strome zbocze filtrujące, nawet jeśli będzie wymagało przeznaczenia na to pewnej części mocy obliczeniowej. Te dodatkowe wymagania obróbki są jeszcze bardzo niewielkie.
Jak to w sposób oczywisty wynika z powyższego opisu, adaptacyjny system filtru szumowego według niniejszego wynalazku jest zaimplementowany w sposób prosty i bez znacznego wzrostu ilości obliczeń DSP. Bardziej złożone sposoby redukcji szumu, takie jak „odejmowanie widmowe”, wymagają wykonywania kilku milionów operacji w sekundzie (MIPS) i dużej ilości pamięci do przechowywania danych i kodu programu. Dla porównania, niniejszy wynalazek nadaje się do zaimplementowania z użyciem tylko części MIPS i pamięci potrzebnych do algorytmu „odejmowania widmowego”, który również wprowadza więcej zniekształceń mowy. Zmniejszenie pamięci powoduje zmniejszenie rozmiaru układów scalonych DSP, zmniejszenie MIPS zmniejsza zużycie energii. Obydwa te atrybuty są pożądane w przypadku zasilanych bateryjnie radiotelefonów przenośnych/przewoźnych.
Jakkolwiek wynalazek przedstawiono i opisano odniesieniu do jego korzystnych odmian wykonania, to nie ogranicza się on do tych odmian wykonania. Na przykład, jakkolwiek opisano procesor DSP jako pełniący funkcje bloku 210 estymowania energii ramki, bloku 230 estymowania energii szumu, detektora 240 mowy, selektora 235 filtru i układu 265 filtru, to te funkcje mogłyby być zaimplementowane z użyciem innych składników cyfrowych i/lub analogowych. Ponadto możliwe jest zaimplementowanie adaptacyjnego systemu filtrującego 100, w którym układ 115 filtru jest dostrajany w funkcji zarówno estymatorów szumu, jak i estymatorów profilu szumowego.
185 513
1 2 3 4 5 6
Tx Rx MAHO Tx Rx MAHO
ramka 20 ms
Fig. 2
185 513
DO NADAJNIKA W. CZ.
185 513
422
402
OJ
c kj o CC BRAMEK ’χΓ <0 ro ro Q_ <Z) CD >- KI
Jy
o o 2 o cc
CQ >- o
CD CD QC ł— CQ
<c -D CD
O
CO —
O
O CC CD *
185 513
185 513
M «X CD >- CO
>- cc
LU
< o
o
o o
cc 1—
rxi
LL· LU
•o r*4 cc
'CO Q_
=3
□_
LU
r^j
cc
o.
—£ m
LO σ
Uh
185 513 <
¢0 σ
* r—I tL<
WZMOCNIENIU
uj o
o
IM
CZĘSTOTLIWOŚĆ Fiq.6b
185 513
SZUM ESTYMOWANY WARTOŚĆ STERUJĄCA FILTRU
N1 F1
N2 F2
N3 F3
N4 F4
-
Nn Fn
185 513
OD
<c c o α
3
a&Md v6
185 513
185 513
s £ co S- o co
ιο - ΙΟ to to
Fiq.ll
185 513
TABLICA PRZEGLĄDOWA
WARTOŚCI POROWNAWCZE ESTYMOWANEJ ENERGII SZUMÓW WARTOŚCI STERUJĄCE FILTRU
C1 F4
C2 F3
C3 **
Cn Fn
Fig .1 <2
185 513
Fig.l
Departament Wydawnictw UP RP. Nakład 60 egz. Cena 4,00 zł.

Claims (10)

  1. Zastrzeżenia patentowe
    1. Sposób selektywnej zmiany ramki sygnału cyfrowego ukształtowanego z wielu kolejnych ramek, reprezentującego sygnał akustyczny otrzymany w nadajniku, kształtowany na przemian ze składowej mowy, składowej szumowej i składowej mowy wraz ze składową szumową, w którym estymuje się poziom energii ramki sygnału cyfrowego, określa się, w odpowiedzi na estymator otrzymany w etapie estymowania, czy ramka sygnału cyfrowego zawiera składową mowy, uaktualnia się estymator szumu w funkcji poprzedniego estymatora szumu i poziomu energii estymowanego podczas etapu estymowania, gdy następuje stwierdzenie, podczas etapu określania, że w skład ramki nie wchodzi składowa mowy, uzyskuje się dostęp do pozycji w tablicy przeglądowej, zawierającej parametry filtru indeksowane względem poziomów estymatorów szumu, przy czym pozycja do której odbywa się dostęp odpowiada wartości estymatora szumu uaktualnionej podczas etapu uaktualniania, znamienny tym, że wybiera się (574) charakterystyki filtracyjne realizowane przez układ filtru, którego charakterystyka częstotliwościowa wykazuje zmienne wzmocnienie w różnych zakresach częstotliwości, przy czym charakterystyki filtru wybiera się w odpowiedzi na zapamiętane parametry filtracyjne pozycji do której odbył się dostęp podczas etapu osiągania dostępu, oraz filtruje się (576) ramkę danych cyfrowych za pomocą filtru, który wykazuje charakterystyki filtracyjne, zmieniając ramki danych cyfrowych w odpowiedzi na te charakterystyki filtracyjne.
  2. 2. Sposób według zastrz. 1, znamienny tym, że dodatkowo obejmuje etap pośredni, w którym wyznacza się (600) estymator profilu szumowego ramki sygnału cyfrowego, jeżeli ramka danych cyfrowych została określona jako pozbawiona składowej mowy.
  3. 3. Sposób według zastrz. 2, znamienny tym, że estymator profilu szumowego, wyznaczany w etapie wyznaczania (600) estymatora profilu szumowego, wykorzystuje się w etapie uaktualniania, do uaktualniania estymatora profilu szumowego.
  4. 4. Sposób według zastrz. 1, znamienny tym, że tablica przeglądowa, do której odbywa się dostęp podczas etapu uzyskiwania dostępu, zawiera zestaw pozycji (C1-CN, F4-FN), przy czym każda pozycja zestawu zawiera oddzielne charakterystyki filtru.
  5. 5. Sposób według zastrz. 4, znamienny tym, że oddzielne charakterystyki zestawu pozycji tablicy przeglądowej obejmują oddzielne charakterystyki filtru górnoprzepustowego, a każdą charakterystykę filtru górnoprzepustowego określa się oddzielną częstotliwością graniczną (F1c, F2c, F3c, F4c).
  6. 6. Sposób według zastrz. 4, znamienny tym, że oddzielne charakterystyki zestawu pozycji tablicy przeglądowej obejmują oddzielne charakterystyki filtru górnoprzepustowego, przy czym każdą charakterystykę filtru górnoprzepustowego określa się oddzielnym nachyleniem charakterystyki częstotliwościowej (F1, F2, F3, F4).
  7. 7. Sposób według zastrz. 1, znamienny tym, że zawiera dodatkowy etap, w którym inkrementuje się wartość licznika dla zliczania każdej ramki, dla której estymuje się poziom energii podczas etapu estymowania.
  8. 8. Sposób według zastrz. 7, znamienny tym, że etap wyboru charakterystyk filtracyjnych układu filtru realizuje się, kiedy wartość licznika jest inkrementowana co N-ty raz, przy czym N jest wartością całkowitą większą od jedności.
  9. 9. Urządzenie do selektywnej zmiany ramki sygnału cyfrowego ukształtowanego z wielu kolejnych ramek, reprezentującego sygnał akustyczny otrzymany w nadajniku, kształtowany na przemian ze składowej mowy, składowej szumowej i składowej mowy wraz ze składową szumową, zawierające blok estymacji poziomu energii, dostosowany do odbioru wskaźników ramki sygnału cyfrowego, stanowiący blok do estymacji poziomu energii ramki sygnału cyfrowego, detektor mowy sprzężony z blokiem estymacji poziomu energii, stanowiący blok wykrywania składowej mowy, do określania, czy ramka sygnału cyfrowego za185 513 wiera składową mowy, blok estymacji szumu, dostosowany do uruchamiania przez blok wykrywania składowej mowy gdy składowa mowy nie stanowi części ramki, stanowiący blok estymacji szumu do uaktualniania estymatora szumu w funkcji poprzedniego estymatora szumu i poziomu energii estymowanego przez blok estymowania, tablicę przeglądową zawierającą zestaw pozycji, z których każda jest indeksowana względem poziomów estymatorów szumu, przy czym dostęp do danej pozycji odpowiada wartości estymatora szumu wytworzonej przez blok estymacji, znamienne tym, że jest zaopatrzone w filtr (265) dostosowany do odbioru ramki danych cyfrowych, o wybieralnych charakterystykach filtracyjnych realizowanych przez układ filtru, w których charakterystyka częstotliwościowa ma zmienne wzmocnienie w różnych zakresach częstotliwości, przy czym charakterystyki filtru są dobrane odpowiednio do pozycji tablicy przeglądowej, do których się odbył dostęp odpowiednio do estymaty szumu uaktualnionej przez blok estymacji szumu.
  10. 10. U rządzenie według zastrz. a, zn amienne tym, ży do datkowa zowiera biok @70) estymacji profilu szumowego do wyznaczania estymatora profilu szumowego ramki danych cyfrowych, gdy ramka danych cyfrowych została określona przez blok wykrywania składowej mowy jako pozbawiona składowej mowy.
PL96325532A 1995-09-14 1996-09-13 Sposób i urządzenie do selektywnej zmiany ramki sygnału cyfrowego ukształtowanego z wielu kolejnych ramek PL185513B1 (pl)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US52800595A 1995-09-14 1995-09-14
PCT/US1996/014665 WO1997010586A1 (en) 1995-09-14 1996-09-13 System for adaptively filtering audio signals to enhance speech intelligibility in noisy environmental conditions

Publications (2)

Publication Number Publication Date
PL325532A1 PL325532A1 (en) 1998-08-03
PL185513B1 true PL185513B1 (pl) 2003-05-30

Family

ID=24103874

Family Applications (1)

Application Number Title Priority Date Filing Date
PL96325532A PL185513B1 (pl) 1995-09-14 1996-09-13 Sposób i urządzenie do selektywnej zmiany ramki sygnału cyfrowego ukształtowanego z wielu kolejnych ramek

Country Status (15)

Country Link
EP (1) EP0852052B1 (pl)
JP (1) JPH11514453A (pl)
KR (1) KR100423029B1 (pl)
CN (1) CN1121684C (pl)
AU (1) AU724111B2 (pl)
BR (1) BR9610290A (pl)
CA (1) CA2231107A1 (pl)
DE (1) DE69613380D1 (pl)
EE (1) EE03456B1 (pl)
MX (1) MX9801857A (pl)
NO (1) NO981074L (pl)
PL (1) PL185513B1 (pl)
RU (1) RU2163032C2 (pl)
TR (1) TR199800475T1 (pl)
WO (1) WO1997010586A1 (pl)

Families Citing this family (168)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19747885B4 (de) 1997-10-30 2009-04-23 Harman Becker Automotive Systems Gmbh Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion
WO1999022561A2 (en) * 1997-10-31 1999-05-14 Koninklijke Philips Electronics N.V. A method and apparatus for audio representation of speech that has been encoded according to the lpc principle, through adding noise to constituent signals therein
KR20000074236A (ko) * 1999-05-19 2000-12-15 정몽규 오토 오디오 볼륨 제어장치
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP2001318694A (ja) * 2000-05-10 2001-11-16 Toshiba Corp 信号処理装置、信号処理方法および記録媒体
US6983242B1 (en) * 2000-08-21 2006-01-03 Mindspeed Technologies, Inc. Method for robust classification in speech coding
KR20030010432A (ko) * 2001-07-28 2003-02-05 주식회사 엑스텔테크놀러지 잡음환경에서의 음성인식장치
IL148592A0 (en) 2002-03-10 2002-09-12 Ycd Multimedia Ltd Dynamic normalizing
JP4689269B2 (ja) * 2002-07-01 2011-05-25 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 静的スペクトルパワー依存型音響強調システム
KR100978015B1 (ko) * 2002-07-01 2010-08-25 코닌클리케 필립스 일렉트로닉스 엔.브이. 고정 스펙트럼 전력 의존 오디오 강화 시스템
WO2004008801A1 (en) * 2002-07-12 2004-01-22 Widex A/S Hearing aid and a method for enhancing speech intelligibility
US7242763B2 (en) 2002-11-26 2007-07-10 Lucent Technologies Inc. Systems and methods for far-end noise reduction and near-end noise compensation in a mixed time-frequency domain compander to improve signal quality in communications systems
DE10305369B4 (de) * 2003-02-10 2005-05-19 Siemens Ag Benutzeradaptives Verfahren zur Geräuschmodellierung
EP2254352A3 (en) * 2003-03-03 2012-06-13 Phonak AG Method for manufacturing acoustical devices and for reducing wind disturbances
US7127076B2 (en) 2003-03-03 2006-10-24 Phonak Ag Method for manufacturing acoustical devices and for reducing especially wind disturbances
MX2007002483A (es) 2004-08-30 2007-05-11 Qualcomm Inc Memoria intermedia sin oscilacion adaptiva para voz sobre ip.
KR100640865B1 (ko) 2004-09-07 2006-11-02 엘지전자 주식회사 음성 품질 향상 방법 및 장치
US8085678B2 (en) 2004-10-13 2011-12-27 Qualcomm Incorporated Media (voice) playback (de-jitter) buffer adjustments based on air interface
WO2006075563A1 (ja) * 2005-01-11 2006-07-20 Nec Corporation オーディオ符号化装置、オーディオ符号化方法およびオーディオ符号化プログラム
GB2429139B (en) * 2005-08-10 2010-06-16 Zarlink Semiconductor Inc A low complexity noise reduction method
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
KR100667852B1 (ko) * 2006-01-13 2007-01-11 삼성전자주식회사 휴대용 레코더 기기의 잡음 제거 장치 및 그 방법
ES2750304T3 (es) * 2006-01-27 2020-03-25 Dolby Int Ab Filtración eficiente con un banco de filtros modulado complejo
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
KR101414233B1 (ko) 2007-01-05 2014-07-02 삼성전자 주식회사 음성 신호의 명료도를 향상시키는 장치 및 방법
KR100883896B1 (ko) * 2007-01-19 2009-02-17 엘지전자 주식회사 음성명료도 향상장치 및 방법
KR100876794B1 (ko) 2007-04-03 2009-01-09 삼성전자주식회사 이동 단말에서 음성의 명료도 향상 장치 및 방법
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8583426B2 (en) 2007-09-12 2013-11-12 Dolby Laboratories Licensing Corporation Speech enhancement with voice clarity
CN101904098B (zh) * 2007-12-20 2014-10-22 艾利森电话股份有限公司 噪声抑制方法和设备
WO2009082299A1 (en) 2007-12-20 2009-07-02 Telefonaktiebolaget L M Ericsson (Publ) Noise suppression method and apparatus
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
CN101221767B (zh) * 2008-01-23 2012-05-30 晨星半导体股份有限公司 人声语音加强装置与应用于其上的方法
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
CA2745842C (en) 2008-04-18 2014-09-23 Dolby Laboratories Licensing Corporation Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
DE102009011583A1 (de) 2009-03-06 2010-09-09 Krones Ag Verfahren und Vorrichtung zum Herstellen und Befüllen von dünnwandigen Getränkebehältern
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102202038B (zh) * 2010-03-24 2015-05-06 华为技术有限公司 一种实现语音能量显示的方法、系统、会议服务器和终端
CN102906813A (zh) 2010-05-24 2013-01-30 日本电气株式会社 信号处理方法、信息处理装置和信号处理程序
CN101859569B (zh) * 2010-05-27 2012-08-15 上海朗谷电子科技有限公司 数字音频信号处理降噪的方法
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
CN102128976B (zh) * 2011-01-07 2013-05-15 钜泉光电科技(上海)股份有限公司 电能表的能量脉冲输出方法、装置及电能表
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
EP2575128A3 (en) * 2011-09-30 2013-08-14 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
CN102737646A (zh) * 2012-06-21 2012-10-17 佛山市瀚芯电子科技有限公司 单一麦克风的实时动态语音降噪方法
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
JP2016508007A (ja) 2013-02-07 2016-03-10 アップル インコーポレイテッド デジタルアシスタントのためのボイストリガ
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
CN104095640A (zh) * 2013-04-03 2014-10-15 达尔生技股份有限公司 血氧饱和度检测方法及装置
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
EP2816557B1 (en) * 2013-06-20 2015-11-04 Harman Becker Automotive Systems GmbH Identifying spurious signals in audio signals
US9697831B2 (en) * 2013-06-26 2017-07-04 Cirrus Logic, Inc. Speech recognition
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
EP2980801A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
RU2589298C1 (ru) * 2014-12-29 2016-07-10 Александр Юрьевич Бредихин Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10726859B2 (en) 2015-11-09 2020-07-28 Invisio Communication A/S Method of and system for noise suppression
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN105869650B (zh) * 2015-12-28 2020-03-06 乐融致新电子科技(天津)有限公司 数字音频数据播放方法及装置
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
CN106060717A (zh) * 2016-05-26 2016-10-26 广东睿盟计算机科技有限公司 一种高清晰度动态降噪拾音器
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US9748929B1 (en) * 2016-10-24 2017-08-29 Analog Devices, Inc. Envelope-dependent order-varying filter control
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
CN107039044B (zh) * 2017-03-08 2020-04-21 Oppo广东移动通信有限公司 一种语音信号处理方法及移动终端
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10157627B1 (en) * 2017-06-02 2018-12-18 Bose Corporation Dynamic spectral filtering
JP6948609B2 (ja) * 2018-03-30 2021-10-13 パナソニックIpマネジメント株式会社 騒音低減装置
RU2680735C1 (ru) * 2018-10-15 2019-02-26 Акционерное общество "Концерн "Созвездие" Способ разделения речи и пауз путем анализа значений фаз частотных составляющих шума и сигнала
WO2020107269A1 (zh) * 2018-11-28 2020-06-04 深圳市汇顶科技股份有限公司 自适应语音增强方法和电子设备
US11438452B1 (en) 2019-08-09 2022-09-06 Apple Inc. Propagating context information in a privacy preserving manner
US11501758B2 (en) 2019-09-27 2022-11-15 Apple Inc. Environment aware voice-assistant devices, and related systems and methods
CN111370033B (zh) * 2020-03-13 2023-09-22 北京字节跳动网络技术有限公司 键盘声处理方法、装置、终端设备及存储介质
WO2021179045A1 (en) * 2020-03-13 2021-09-16 University Of South Australia A data processing method
CN111402916B (zh) * 2020-03-24 2023-08-04 青岛罗博智慧教育技术有限公司 一种语音增强系统、方法及手写板
CN111916106B (zh) * 2020-08-17 2021-06-15 牡丹江医学院 一种提高英语教学中发音质量的方法
CN112927715A (zh) * 2021-02-26 2021-06-08 腾讯音乐娱乐科技(深圳)有限公司 一种音频处理方法、设备及计算机可读存储介质
CN114550740B (zh) * 2022-04-26 2022-07-15 天津市北海通信技术有限公司 噪声下的语音清晰度算法及其列车音频播放方法、系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4461025A (en) * 1982-06-22 1984-07-17 Audiological Engineering Corporation Automatic background noise suppressor
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
US4811404A (en) * 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
DE4012349A1 (de) * 1989-04-19 1990-10-25 Ricoh Kk Einrichtung zum beseitigen von geraeuschen
JP3065739B2 (ja) * 1991-10-14 2000-07-17 三菱電機株式会社 音声区間検出装置
US5412735A (en) * 1992-02-27 1995-05-02 Central Institute For The Deaf Adaptive noise reduction circuit for a sound reproduction system
JPH05259928A (ja) * 1992-03-09 1993-10-08 Oki Electric Ind Co Ltd 適応制御ノイズキャンセラ装置及び適応制御ノイズキャンセル方法
US5251263A (en) * 1992-05-22 1993-10-05 Andrea Electronics Corporation Adaptive noise cancellation and speech enhancement system and apparatus therefor
JPH0695693A (ja) * 1992-09-09 1994-04-08 Fujitsu Ten Ltd 音声認識装置用騒音低減回路
JP3270866B2 (ja) * 1993-03-23 2002-04-02 ソニー株式会社 雑音除去方法および雑音除去装置
US5485522A (en) * 1993-09-29 1996-01-16 Ericsson Ge Mobile Communications, Inc. System for adaptively reducing noise in speech signals
US5657422A (en) * 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator

Also Published As

Publication number Publication date
NO981074L (no) 1998-05-13
BR9610290A (pt) 1999-03-16
KR19990044659A (ko) 1999-06-25
CA2231107A1 (en) 1997-03-20
KR100423029B1 (ko) 2004-07-01
RU2163032C2 (ru) 2001-02-10
EP0852052B1 (en) 2001-06-13
CN1121684C (zh) 2003-09-17
EE03456B1 (et) 2001-06-15
AU7078496A (en) 1997-04-01
PL325532A1 (en) 1998-08-03
AU724111B2 (en) 2000-09-14
MX9801857A (es) 1998-11-29
EP0852052A1 (en) 1998-07-08
CN1201547A (zh) 1998-12-09
JPH11514453A (ja) 1999-12-07
EE9800068A (et) 1998-08-17
NO981074D0 (no) 1998-03-11
TR199800475T1 (xx) 1998-06-22
DE69613380D1 (de) 2001-07-19
WO1997010586A1 (en) 1997-03-20

Similar Documents

Publication Publication Date Title
PL185513B1 (pl) Sposób i urządzenie do selektywnej zmiany ramki sygnału cyfrowego ukształtowanego z wielu kolejnych ramek
CA2117587C (en) System for adaptively reducing noise in speech signals
KR100367533B1 (ko) 음성활동검출구동방식잡음교정기및,신호처리장치및방법
US5544250A (en) Noise suppression system and method therefor
RU2129737C1 (ru) Способ группового кодирования сигналов и устройство для осуществления способа
US20120232896A1 (en) Method and an apparatus for voice activity detection
US9530430B2 (en) Voice emphasis device
CN1303223A (zh) 接收机干扰信号的过载保护方法和装置
US5666429A (en) Energy estimator and method therefor
WO2002056511A1 (en) Suppression of periodic interference in a communications system
US7889874B1 (en) Noise suppressor
US5710862A (en) Method and apparatus for reducing an undesirable characteristic of a spectral estimate of a noise signal between occurrences of voice signals
KR19980018193A (ko) 잡음소거기 및 이 잡음소거기를 사용한 통신장치
KR19980018471A (ko) 디지탈 수신기에 잡음을 발생하기 위한 장치 및 방법
JP2002169599A (ja) ノイズ抑制方法及び電子機器
US5602913A (en) Robust double-talk detection
US6496686B1 (en) Mitigation of interference associated to the frequency of the burst in a burst transmitter
JP2002076960A (ja) ノイズ抑制方法及び携帯電話
Watson et al. A Voice Activity Detector for the ITU-T 8kbit/s Speech Coding Standard G. 729
JP2002051112A (ja) 電話装置
Miet 24 EVOLUTION OF SPEECH CODING FOR WIRELESS
JP2003517761A (ja) 通信システムにおける音響バックグラウンドノイズを抑制するための方法と装置

Legal Events

Date Code Title Description
LAPS Decisions on the lapse of the protection rights

Effective date: 20060913