PL231399B1

PL231399B1 - Sposób dekompozycji sygnału akustycznego na obiekty dźwiękowe

Info

Publication number: PL231399B1
Application number: PL406948A
Authority: PL
Inventors: Adam PLUTA; Adam Pluta
Original assignee: Adam Pluta
Priority date: 2014-01-27
Filing date: 2014-01-27
Publication date: 2019-02-28
Also published as: PL406948A1; WO2015111014A1

Description

Opis wynalazku

DZIEDZINA WYNALAZKU

Przedmiotem wynalazku jest sposób dekompozycji sygnału akustycznego na obiekty dźwiękowe w postaci sygnałów o wolnozmiennej amplitudzie i częstotliwości. Wynalazek ma zastosowanie w dziedzinie analizy i syntezy sygnałów akustycznych, np. w szczególności do syntezy sygnału mowy.

STAN TECHNIKI

Od kilkunastu lat postęp w zakresie analizy sygnałów dźwiękowych jest niewielki. Nadal wykorzystuje się dobrze poznane metody, takie jak sieci neuronowe, analizę talkową, czy logikę rozmytą. Obok tych metod, do filtracji sygnałów dość powszechnie wykorzystuje się klasyczny algorytm Szybkiej Transformaty Fouriera FFT, pozwalający na przeprowadzenie analizy częstotliwości składowych przy wykorzystaniu stosunkowo niewielkiej mocy obliczeniowej.

Jedną z najtrudniejszych, a jednocześnie cieszących się największym zainteresowaniem dziedzin w zakresie analizy sygnałów dźwiękowych jest analiza i synteza mowy.

Pomimo ogromnego postępu, jaki obserwujemy w rozwoju technologii cyfrowej, postęp w systemach przetwarzania sygnałów dźwiękowych w tym zakresie nie jest wielki. W ostatnich latach powstało wiele aplikacji, które próbują wypełnić niszę związaną z rozpoznawaniem mowy, jednak ich wspólny rodowód (głównie analiza w dziedzinie częstotliwości z wykorzystaniem transformaty Fouriera) i związane z nim ograniczenia powodują, że nie odpowiadają one na zapotrzebowanie rynku.

Główne wady tych systemów to:

1) Wrażliwość na zakłócenia zewnętrzne

Istniejące systemy analizy dźwięków działają zadawalająco w warunkach gwarantujących jedno źródło sygnału.

W sytuacji pojawienia się dodatkowych źródeł dźwięku, takich jak zakłócenia, odgłosy dobiegające z otoczenia lub współbrzmienie kilku instrumentów, ich widma nakładają się, powodując, że zastosowane modele matematyczne zawodzą.

2) Względna zmiana parametrów widma

Obecnie stosowane metody wyliczania parametrów sygnału dźwiękowego mają swój rodowód w transformacji Fouriera. Zakłada ona liniową zmianę analizowanych częstotliwości, co oznacza, że względna zmiana dwóch sąsiednich częstotliwości nie jest stała. Dla przykładu, jeżeli analizowane jest z wykorzystaniem algorytmu FFT okno 1024 (2¹⁰) danych sygnału próbkowanego z częstością 44 100 próbek/s, to kolejne częstotliwości widma różnią się 43,07 Hz. Pierwszą niezerową częstotliwością jest F1 = 43,07 Hz, kolejną F2 = 86,13 Hz. Ostatnie częstotliwości to F510 = 21 963,9 Hz, F511 = 22 006,9 Hz. Na początku skali względna zmiana częstotliwości widma wynosi 100% i nie daje szansy identyfikacji dźwięków leżących bliżej. Na końcu skali względna zmiana parametru widma wynosi 0,0019% i jest niezauważalna dla ludzkiego ucha.

3) Ograniczenie parametrów do charakterystyk amplitudowych widma

Algorytmy bazujące na transformacji Fouriera wykorzystują do analizy charakterystykę amplitudową, a w szczególności maksimum amplitudy widma. W przypadku wystąpienia dźwięków o rożnych częstotliwościach blisko siebie, ten parametr zostanie zakłócony. W tym przypadku dodatkowe informacje można by uzyskać z charakterystyki fazowej, analizując fazę sygnału. Ponieważ jednak widmo jest analizowane w oknach przesuniętych np. co 256 próbek, to wyliczonej fazy sygnału nie ma do czego odnieść.

Problem ten częściowo został rozwiązany przez system ekstrakcji informacji mowy opisany w patencie US5214708. Ujawniono tam bank filtrów, których częstotliwości środkowe rozłożone są logarytmicznie względem siebie zgodnie z modelem percepcji ucha ludzkiego. Dzięki założeniu, że w ramach pasma któregokolwiek z filtrów banku występuje jedynie jeden ton, problem z zasadą nieoznaczoności w dziedzinie przetwarzania sygnałów został częściowo ominięty. Zgodnie z rozwiązaniem ujawnionym w US5214708 informacja o modulacji na każdej harmonicznej, włączając w to częstotliwość i informacje o przebiegu czasowym, może być wyodrębniona na podstawie pomiaru logarytmu mocy każdej harmonicznej. Logarytmy amplitudy sygnału w sąsiednich filtrach uzyskuje się stosując filtry Gaussa oraz wzmacniacze logarytmiczne. Wadą tego rozwiązania jest jednak to, że używana do analizy mowy funkcja FM(t) nie wyodrębnia efektywnie esencjonalnych charakterystycznych parametrów pojedynczego sygnału mowy. Kolejną, znacznie poważniejszą wadą tego rozwiązania jest założenie, że sygnał audio

PL 231 399 B1 zawiera sygnał tylko z jednego źródła, co przy takim uproszczeniu znacznie redukuje praktyczne możliwości wykorzystania takiego systemu dekompozycji.

Dlatego też celem wynalazku jest zapewnienie sposobu dekompozycji sygnału akustycznego, który umożliwiłby efektywną analizę sygnału akustycznego postrzeganego jako sygnał pochodzący z kliku źródeł jednocześnie, przy zachowaniu bardzo dobrej rozdzielczości w czasie oraz częstotliwości. Ogólniej, celem wynalazku jest poprawa wiarygodności oraz zwiększenie możliwości systemów przetwarzania sygnałów dźwiękowych, w tym analizy i syntezy mowy.

ISTOTA WYNALAZKU

Istota wynalazku polega na tym, że sposób dekompozycji sygnału akustycznego na obiekty dźwiękowe w postaci przebiegów sinusoidalnych o wolnozmiennej amplitudzie i częstotliwości zawierający etap wyznaczania elementów sygnału akustycznego definiowanych przez częstotliwość, amplitudę i fazę, przy czym etap wyznaczania elementów sygnału akustycznego obejmuje

- konwersję analogowego sygnału akustycznego na wejściowy cyfrowy sygnał akustyczny Pin, oraz

- rozdzielenie wejściowego sygnału akustycznego P na n sinusoidalnych sygnałów zespolonych mających składową rzeczywistą FC(n) oraz składową urojoną FS(n) przez podawanie próbek wejściowego sygnału akustycznego Pin na wejście banku filtrów cyfrowych, oraz

- etap wyznaczania obiektów dźwiękowych na podstawie częstotliwości, amplitudy i fazy uprzednio wyznaczonych i zdefiniowanych elementów sygnału akustycznego, w którym to etapie

- zestawia się kolejne wykryte elementy składowe sygnału akustycznego z wybranymi aktywnymi obiektami w bazie aktywnych obiektów dla utworzenia nowego aktywnego obiektu albo dla dołączenia wykrytego elementu do aktywnego obiektu, albo dla zamknięcia aktywnego obiektu jeżeli nie zostanie zlokalizowany element składowy sygnału akustycznego

- dla każdego aktywnego obiektu z bazy wyznacza się wartości obwiedni amplitudy i wartości częstotliwości oraz odpowiadające im chwile czasowe nie rzadziej niż raz na okres trwania okna W(n) danego filtru aby utworzyć punkty charakterystyczne opisujące wolnozmienny przebieg sinusoidalny obiektu dźwiękowego

- przenosi się co najmniej jeden wybrany zamknięty aktywny obiekt do bazy obiektów dźwiękowych, dla uzyskania co najmniej jednego zdekomponowanego obiektu dźwiękowego, zdefiniowanego zestawem punktów charakterystycznych o współrzędnych w przestrzeni czas-częstotliwość-amplituda charakteryzuje się tym, że w etapie wyznaczania elementów sygnału akustycznego filtry w banku filtrów cyfrowych mają nominalną częstotliwość środkową rozłożoną według skali logarytmicznej oraz długość okna proporcjonalną do nominalnej częstotliwości środkowej, przy czym

- po wyznaczeniu n sinusoidalnych sygnałów zespolonych mających składową rzeczywistą FC(n) i urojoną FS(n), i z wykorzystaniem tych sygnałów, próbka po próbce sygnału wejściowego Pin, oblicza się widmo amplitudowe FA(n), widmo fazowe FF(n) oraz pulsację na wyjściu filtrów FQ(n) w funkcji numeru filtra n a następnie,

- z wykorzystaniem widma amplitudowego FA(n) oraz pulsacji na wyjściu filtrów FQ(n), próbka po próbce sygnału wejściowego Pin przeprowadza się operację wyliczenia funkcji FG(n) dla wszystkich n, przy czym wartości wyjściowe tej funkcji są proporcjonalne do liczby wystąpień pulsacji FQ(n) odpowiadającej filtrowi o numerze n na wyjściach filtrów sąsiadujących i aktualnej wartości widma amplitudowego FA(n) każdego z tych sąsiadujących filtrów, a następnie

- próbka po próbce sygnału wejściowego Pin, wyznacza się numer filtra n, dla którego występuje maksimum lokalne funkcji FG(n), z uzyskaniem dla wspomnianego filtra n amplitudy, częstotliwości oraz fazy definiującej element składowy sygnału akustycznego, a w etapie wyznaczania obiektów dźwiękowych

- próbka po próbce sygnału wejściowego Pin zestawia się kolejne wykryte elementy składowe sygnału akustycznego z wybranymi aktywnymi obiektami dźwiękowymi w bazie aktywnych obiektów dla utworzenia nowego aktywnego obiektu albo dla dołączenia wykrytego elementu do aktywnego obiektu, albo dla zamknięcia aktywnego obiektu jeżeli nie zostanie zlokalizowany element składowy sygnału akustycznego, przy czym częstotliwość zestawianego elementu sygnału akustycznego różni się od częstotliwości zarejestrowanej dla aktywnego obiektu dźwiękowego dla poprzedniej próbki nie więcej niż o ustaloną wartość bliską zeru tak, aby zamykane obiekty były opisane co do częstotliwości funkcją ciągłą.

PL 231 399 B1

Główną zaletą sposobu dekompozycji sygnału według wynalazku jest to, że nadaje się do efektywnej analizy rzeczywistego sygnału akustycznego, który najczęściej składa się z sygnałów pochodzących z kilku różnych źródeł, np. kilku różnych instrumentów, czy też kilku mówiących bądź śpiewających osób.

Sposób według wynalazku pozwala rozłożyć sygnał dźwiękowy na składowe sinusoidalne mające powolną zmianę amplitudy i częstotliwości składowych. Taki proces można nazwać wektoryzacją sygnału dźwiękowego, przy czym wektory wyliczone w wyniku procesu wektoryzacji, można nazwać obiektami dźwiękowymi. W sposobie według wynalazku nadrzędnym celem dekompozycji jest wydzielenie w pierwszej kolejności wszystkich składowych sygnału (obiektów dźwiękowych), następnie pogrupowanie ich według określonego kryterium, a dopiero później określenie informacji w nich zawartej.

Sygnał w sposobie według wynalazku jest analizowany zarówno w dziedzinie czasu jak i w dziedzinie częstotliwości próbka po próbce. Zwiększa to oczywiście zapotrzebowanie na moc obliczeniową. Jak już wspomniano, stosowane do tej pory technologie, w tym transformacja Fouriera wraz z jej implementacją w postaci szybkiej transformaty FFT oraz SFT spełniały bardzo istotną rolę w przeszłości, gdy moc obliczeniowa komputerów nie była duża. Jednakże w ciągu ostatnich 20 lat moc obliczeniowa komputerów wzrosła 100 000 razy. W związku z tym wynalazek sięga po narzędzia bardziej pracochłonne, lecz dające większą dokładność i bardziej dostosowane do modelu słuchowego człowieka.

Dzięki zastosowaniu banku filtrów o bardzo dużej liczbie filtrów (powyżej 300 na pasmo słyszalne), których częstotliwości środkowe rozłożone są logarytmicznie, oraz dzięki zastosowanym operacjom zwiększającym rozdzielczość częstotliwościową, uzyskuje się system zdolny do wyodrębnienia dwóch jednoczesnych źródeł dźwięku oddalonych od siebie nawet o pół tonu.

Uzyskane na wyjściu banku filtrów widmo sygnału audio zawiera w sobie informację o aktualnym położeniu i zmianach występujących w sygnale obiektów dźwiękowych. Zadaniem sposobu według wynalazku jest precyzyjne powiązanie zmiany tych parametrów z istniejącymi obiektami, utworzenie nowego obiektu, jeżeli parametry nie pasują do żadnego z istniejących obiektów, lub zakończenie obiektu jeżeli nie ma dla niego kolejnych parametrów.

W celu precyzyjnego określenia parametrów sygnału audio, które mają być powiązane z istniejącymi obiektami dźwiękowymi, zwiększa się liczbę filtrów branych pod uwagę i stosuje układ głosujący, pozwalający precyzyjniej zlokalizować częstotliwości występujących dźwięków. W przypadku pojawienia się bliskich częstotliwości, zwiększa się przykładowo długość filtrów w celu poprawy rozdzielczości częstotliwościowej lub stosuje się techniki wyciszenia rozpoznanych już dźwięków, aby lepiej wyodrębnić nowopowstające obiekty dźwiękowe.

Kluczowym jest to, że system realizujący sposób według wynalazku śledzi obiekty o zmieniającej się w czasie częstotliwości. Oznacza to, iż system będzie analizował rzeczywiste zjawiska, poprawnie identyfikując obiekt o nowej częstotliwości jako obiekt już istniejący, czy też obiekt należący do tej samej grupy powiązanej z tym samym źródłem sygnału. Precyzyjne zlokalizowanie parametrów obiektów w dziedzinie amplitudy i częstotliwości pozwala na grupowanie obiektów w celu ustalenia ich źródła. Przyporządkowanie do danej grupy obiektów jest możliwe dzięki wykorzystaniu specyficznych relacji między częstotliwością podstawową i jej harmonicznymi, określających barwę dźwięku.

Precyzyjna separacja obiektów daje szansę przeprowadzania dalszej analizy dla każdej grupy obiektów, bez zakłóceń, za pomocą już istniejących systemów, które z czystym (niezakłóconym) sygnałem radzą sobie dobrze. Posiadanie precyzyjnych informacji o obiektach dźwiękowych występujących w sygnale otwiera możliwości zastosowania ich w zupełnie nowych aplikacjach, takich jak przykładowo automatyczne generowanie zapisu nutowego poszczególnych instrumentów z sygnału audio, czy też sterowanie urządzeniami za pomocą głosu nawet przy dużych zakłóceniach z otoczenia.

SKRÓTOWY OPIS FIGUR RYSUNKU

Wynalazek został przedstawiony w przykładzie realizacji w odniesieniu do figur rysunku, na którym:

FIG. 1 przedstawia schemat blokowy układu dekompozycji sygnału audio na obiekty dźwiękowe,

FIG. 2a przestawia strukturę równoległą banku filtrów według pierwszego przykładu realizacji wynalazku,

FIG. 2b przedstawia strukturę drzewiastą banku filtrów według drugiego przykładu realizacji,

FIG. 3 przedstawia ogólną zasadę działania pasywnego układu banku filtrów,

FIG. 4 przedstawia przykładowe parametry filtrów,

FIG. 5 przedstawia odpowiedź impulsową filtra F(n) z oknem Blackman'a,

FIG. 6 przedstawia sieć działań pojedynczego filtra,

PL 231 399 B1

FIG. 7a i 7c przedstawiają fragment widma sygnału na wyjściu banku filtrów, zawierający składową rzeczywistą FC(n), składową urojoną FS(n) oraz wynikającą z nich amplitudę widma FA(n) oraz fazę FF(n)

FIG. 7b i 7d przedstawia pulsację znamionową FQ(n) odpowiedniej grupy filtrów oraz pulsację widma FQ(n).

FIG. 8 przedstawia schemat blokowy układu śledzenia obiektów dźwiękowych,

FIG. 9a i 9b przedstawia przykładowe wyniki funkcji układu głosującego,

FIG. 10 przedstawia sieć działań układu kojarzenia obiektów dźwiękowych,

FIG. 11 przestawia działanie układu poprawy rozdzielczości częstotliwościowej według jednego z przykładów realizacji,

FIG. 12 przestawia działanie układu poprawy rozdzielczości częstotliwościowej według innego z przykładów realizacji,

FIG. 13 przestawia działanie układu poprawy rozdzielczości częstotliwościowej według jeszcze innego z przykładów realizacji,

FIG. 14a, 14b, 14c, 14d przedstawiają przykłady reprezentacji obiektów dźwiękowych,

FIG. 15 przedstawia przykład formatu zapisu informacji o obiektach dźwiękowych,

FIG. 16 przedstawia pierwszy przykład obiektu dźwiękowego wymagającego korekcji,

FIG. 17 przedstawia drugi przykład obiektu dźwiękowego wymagającego korekcji,

FIG. 18 przedstawia kolejne przykłady obiektów dźwiękowych, które wymagając korekcji;

FIG. 19a, 19b, 19c, 19d, 19e, 19f, 19g, 19h przedstawiają proces wyodrębniania obiektów dźwiękowych z sygnału audio oraz syntezy sygnału audio z obiektów dźwiękowych.

SZCZEGÓŁOWY OPIS PRZYKŁADÓW REALIZACJI

W niniejszym zgłoszeniu patentowym termin „połączony”, w kontekście połączenia pomiędzy dwoma dowolnymi układami, należy rozumieć możliwie najszerzej, jako każde możliwe pojedyncze lub wielodrogowe, bądź też bezpośrednie lub pośrednie połączenie fizyczne czy też funkcjonalne.

Na FIG. 1 przedstawiony został schematycznie system 1 dekompozycji sygnału akustycznego na obiekty dźwiękowe do realizowania sposobu według wynalazku. Na jego wejście podawany jest sygnał audio w postaci cyfrowej. Postać cyfrową sygnału audio uzyskuje się w wyniku zastosowania typowych i znanych technik konwersji A/D. Elementy układu służące do konwersji sygnału akustycznego z postaci analogowej na cyfrową nie zostały tu pokazane. System 1 składa się banku filtrów 2 połączonego na wyjściu z układem śledzenia obiektów 3, który dalej połączony jest z układem korekcji 4. Pomiędzy układem śledzenia obiektów 3 a bankiem filtrów istnieje połączenie sprzężenia zwrotnego, służące do sterowania parametrami banku filtrów 2. Ponadto układ śledzenia obiektów 3 połączony jest z wejściem banku filtrów 2 poprzez układ różnicowy 5, który jest integralnym elementem układu poprawy rozdzielczości częstotliwościowej 36 z FIG. 8.

W celu wydzielenia z sygnału akustycznego obiektów dźwiękowych, wykorzystano analizę sygnału w dziedzinie czasu oraz w dziedzinie częstotliwości. Cyfrowy sygnał wejściowy, próbka po próbce, wprowadzany jest do banku filtrów 2. Korzystnie filtry są filtrami SOI. Na FIG. 2a przedstawiona została typowa struktura banku filtrów 2, której poszczególne filtry 20 przetwarzają równolegle ten sam sygnał o zadanej częstotliwości próbkowania. Typowo, częstotliwość próbkowania jest co najmniej dwa razy większa od najwyższej spodziewanej składowej w sygnale audio, korzystnie 44,1 kHz. Ponieważ taka ilość próbek do przetworzenia na 1 sekundę wymaga dużych nakładów obliczeniowych, korzystnie można zastosować strukturę drzewiastą banku filtrów z FIG. 2b. W strukturze drzewiastej banku filtrów 2, filtry 20 zostają pogrupowane względem częstotliwości próbkowania sygnału na ich wejściu. Przykładowo rozdziału w strukturze drzewiastej można dokonać w pierwszej kolejności dla całych oktaw. Dla poszczególnych podpasm o niższych częstotliwościach można przeprowadzić odcięcie wysokich składowych częstotliwości z wykorzystaniem filtra dolnoprzepustowego i próbkować je z mniejszą częstotliwością. W konsekwencji dzięki zmniejszeniu liczby próbek uzyskuje się znaczne przyspieszenie procesu przetwarzania. Korzystnie dla przedziału do 300 Hz sygnał próbkuje się z fp = 600 Hz, do 2.5 kHz z fp = 5 kHz.

Z uwagi na to, że głównym zadaniem sposobu według wynalazku jest lokalizacja w widmie wszystkich obiektów dźwiękowych, istotnym elementem jest dokładność, z jaką możliwe jest określenie parametrów sygnału oraz rozdzielczość pojawiających się jednocześnie dźwięków. Bank filtrów powinien zapewniać dużą rozdzielczość częstotliwościową, tj. większą niż 2 filtry na półton, co umożliwi wydzielenie dwóch sąsiednich półtonów. W prezentowanych przykładach zastosowano 4 filtry na półton.

PL 231 399 Β1

W sposobie według wynalazku korzystnie przyjmuje się skalę odpowiadającą parametrom ucha ludzkiego, o rozkładzie logarytmicznym, lecz specjalista z dziedziny będzie wiedział iż w zakresie wynalazku dopuszczalne są inne rozkłady częstotliwości środkowych filtrów. Korzystnie, wzorcem rozkładu częstotliwości środkowych filtrów jest skala nutowa, w której kolejne oktawy rozpoczynają się od tonu 2 razy wyższego od oktawy poprzedniej. Każda oktawa jest podzielona na 12 półtonów, tzn. że częstotliwość dwóch sąsiednich półtonów różni się o 5,94% (np. el = 329,62 Hz, f1 = 349,20 Hz).Dla zwiększenia dokładności, w sposobie według wynalazku na każdy półton przypadają cztery filtry, przy czym każdy nasłuchuje swoją częstotliwość, różniącą się od częstotliwości sąsiada o 1,45%. Jako najniższą słyszalną częstotliwość przyjęto C2 = 16,35 Hz. Korzystnie liczba filtrów jest większa niż 300. Konkretna dla danego przykładu realizacji liczba filtrów zależy od częstotliwości próbkowania. Przy próbkowaniu 22 050 próbek na sekundę najwyższą częstotliwością jest e6 = 10 548 Hz, przy czym w tym zakresie mieści się 450 filtrów. Przy próbkowaniu 44 100 próbek na sekundę najwyższą częstotliwością jest e7 = 21 096 Hz, przy czym w tym zakresie mieści się 498 filtrów.

Ogólna zasada działania pasywnego banku filtrów została przedstawiona na FIG. 3. Sygnał wejściowy podawany na każdy filtr 20 banku filtrów 2 zostaje w wyniku odpowiednich operacji matematycznych transformowany z dziedziny czasu do dziedziny częstotliwości. W praktyce na wyjściu każdego filtru 20 pojawia się jego odpowiedź na sygnał pobudzenia, a łącznie na wyjściu banku filtrów pojawia się widmo sygnału.

Na FIG. 4 przedstawione zostały przykładowe parametry wybranych filtrów 20 w banku filtrów 2. Jak widać w tabeli, częstotliwości środkowe odpowiadają tonom, którym można przypisać konkretny symbol nutowy. Szerokość każdego okna filtru 20 jest dana zależnością:

W(n) = K * fp / FN(n) (1) gdzie: W(n) - szerokość okna filtra n fp - częstotliwość próbkowania (np. 44 100 Hz)

FN(n) - częstotliwość znamionowa(środkowa) filtra n

K-Współczynnik szerokości okna (np. 16)

Ponieważ w dolnym zakresie skali nutowej potrzebna jest większa rozdzielczość częstotliwościowa, dlatego też dla tego zakresu częstotliwości okna filtrów będą najszersze. Dzięki wprowadzeniu współczynnika K oraz normalizacji do częstotliwości znamionowej filtra FN zapewniona zostaje jednakowa dla wszystkich filtrów charakterystyka amplitudowa i fazowa filtrów.

Odnośnie realizacji banku filtrów - znawca z dziedziny będzie wiedział, że jedną z możliwych dróg uzyskania współczynników filtru pasmowo przepustowego typu SOI, jest określenie odpowiedzi impulsowej tego filtru. Przykładowa odpowiedź impulsowa filtru 20 według wynalazku została przedstawiona na FIG. 5. Odpowiedź impulsowa z FIG. 5 jest odpowiedzią impulsową filtru z oknem cosinusowym, która jest dana zależnością:

y(i)(n) = cos (ω (n) *i) * (A-B*cos ( 2πΐΛΛ/(η)) + C*cos (4πΐΛΛ/(η)) (2 ) gdzie: ω(η) = 2π * FN(n)/fp

W(n), FN(n), fp - przedstawione zostały powyżej

Typ okna	A	B	C
Hanna (Hanninga)	0,5	0,5	0
Hamminga	0,53836	0,46164	0
Blackmana	0, 42	0,5	0,08

Operacje wykonywane przez każdy z filtrów 20 zostały przedstawione na FIG. 6. Zadaniem banku filtrów 2 jest umożliwienie wyznaczenia widma częstotliwościowego sygnału audio w zakresie częstotliwości od najniższych słyszalnych przez człowieka (np. C2 = 16,35 Hz) do fp - częstotliwości próbkowania (np. e7=21 096 Hz przy 44 100 próbek/sek.). Przed rozpoczęciem pracy każdego filtra inicjuje się parametry filtra 20, którymi przykładowo są współczynniki poszczególnych składników funkcji okna czasowego. Następnie na wejście banku filtrów 2 wprowadzana jest bieżąca próbka Pin sygnału wejściowego, która ma tylko wartość rzeczywistą. Każdy filtr 2, wykorzystując algorytm rekurencyjny, wylicza nową wartość składowych FC(n) i FS(n) na podstawie poprzednich wartości składowej rzeczywistej

PL 231 399 Β1

FC(n) i składowej urojonej FS(n), a także wartości próbki Pin wchodzącej do filtru, i próbki Pout opuszczającej okno filtru, a zapamiętanej w wewnętrznym rejestrze przesuwnym. Dzięki wykorzystaniu algorytmu rekurencyjnego liczba obliczeń dla każdego filtra jest stała, i nie zależy od długości okna filtra. Wykonywane operacje dla okna cosinusowego są określone wzorem:

(3)

FC(n)= £_Yl i=-W(n) *cos(o(n) *i)* l

A- B*cos ^f 2τπ + C *cos ^z 4^i '

(4)

Stosując równania trygonometryczne dotyczące iloczynów funkcji trygonometrycznych do równań (3) i (4) otrzymuje się zależność składowych FC(n) i FS(n) od wartości tych składowych dla poprzedniej próbki sygnału audio oraz wartości próbki wchodzącej do filtra Pin , i opuszczającej filtr Pout zgodnie z równaniem przedstawionym na FIG. 6. W przypadku każdego filtru 20 wyliczenie równania dla każdej kolejnej próbki wymaga 15 operacji mnożenia i 17 operacji dodawania dla okna typu Hanna lub Hamminga, albo 25 operacji mnożenia i 24 operacji dodawania dla okna Blackmana. Proces filtra 20 kończy się, gdy na wejściu filtra nie ma więcej próbek sygnału audio.

Uzyskane wartości składowej rzeczywistej FC(n) oraz urojonej FS(n) widma po każdej kolejnej próbce sygnału wyjściowego są przekazywane z wyjścia każdego filtra 20 do układu śledzenia obiektów dźwiękowych 3, a w szczególności do zawartego w nim układu analizującego widmo 31 (jak pokazano na FIG. 8). Ponieważ widmo banku filtrów 2 wyliczane jest po każdej próbce sygnału wejściowego, układ analizujący widmo 31 oprócz charakterystyki amplitudowej może korzystać z charakterystyki fazowej na wyjściach banku filtrów 2. W szczególności w sposobie według wynalazku zmianę fazy bieżącej próbki sygnału wyjściowego do fazy po poprzedniej próbce wykorzystuje się do precyzyjnego wyodrębnienia występujących w widmie częstotliwości, co zostanie opisane dalej w odniesieniu do FIG. 7a, 7b, 7c i 7d oraz FIG. 8.

Układ analizy widma 31, który jest elementem układu śledzenia obiektów 3 (jak pokazano na FIG. 8) oblicza poszczególne składniki widma sygnały na wyjściu banku filtrów. W celu zobrazowania działania tego układu, analizie poddano sygnał akustyczny zawierający następujące składowe:

Ton Nr	FN	Nuta
276	880,0 Hz	a2
288	1 046 Hz	c3
304	1 318 Hz	e3
324	1 760 Hz	a3

Na FIG. 7a oraz 7b przedstawiono dla tego sygnału wykresy chwilowych wartości wielkości uzyskiwanych na wyjściu wybranej grupy filtrów 20 oraz wartości wielkości obliczanych i analizowanych przez układ analizy widma 31. Dla filtrów o numerze n od 266 do 336 z oknem o współczynniku szerokości okna K = 16 przedstawione zostały: wartość chwilowa składowej rzeczywistej FC[n], składowej urojonej FS [n], które podawane są na wejście układu analizy widma 31, oraz wartość chwilowa amplitudy widma FA[n] i fazy widma FF[n], które są obliczane przez układ analizy widma 31. Jak już wspomniano, układ analizy widma 31 zbiera wszelkie możliwe informacje potrzebne do określenia rzeczywistej częstotliwości obiektów dźwiękowych obecnych w danej chwili czasowej w sygnale, w tym informacje o pulsacji. Prawidłowe położenie tonu częstotliwości składowych zostało uwidocznione na FIG. 7b, i znajduje się na przecięciu pulsacji znamionowej filtrów FQ[n] oraz wartości pulsacji na wyjściu filtrów FQ[n], obliczanej jako pochodna fazy widma na wyjściu danego filtra n. A zatem zgodnie z wynalazkiem, w celu wykrycia obiektu dźwiękowego, układ analizy widma 31 analizuje również wykres pulsacji FQ[n] i FQ[n], W przypadku sygnału zawierającego oddalone od siebie składowe, punkty wyznaczone w wyniku analizy pulsacji odpowiadają miejscom występowania maksimów amplitudy z FIG. 7a.

Ze względu na typowe zjawiska w dziedzinie przetwarzania sygnałów, bazowanie jedynie na maksimach amplitudy widma nie jest efektywne. Obecność w sygnale wejściowym danego tonu wpływa

PL 231 399 Β1 na wartość widma amplitudowego na sąsiednich częstotliwościach, co w konsekwencji prowadzi do poważnie zniekształconego widma, wtedy gdy sygnał zawiera dwa bliskie sobie tony. W celu zobrazowania tego zjawiska, oraz w celu zobrazowania funkcjonalności układu analizy widma 31, analizie poddano również sygnał zawierający dźwięki o częstotliwościach:

Ton Nr	FN	Nuta
2/6	880,0 Hz	a2
284	987,8 Hz	h2
304	1 318 Hz	e3
312	1 480 Hz	#f3

Jak pokazano na FIG. 7c oraz 7d w przypadku sygnału zawierającego blisko położone składowe, prawidłowe położenie tonu wyznaczone na podstawie analizy wykresów pulsacji nie odpowiada maksimum amplitudy z FIG. 7c. A zatem, w tego typu przypadkach, dzięki różnorodnym parametrom analizowanym przez układ analizy widma 31 możliwe jest wykrycie sytuacji krytycznych dla dekompozycji sygnału akustycznego. W konsekwencji możliwe jest zastosowanie specyficznych zabiegów prowadzących do prawidłowego rozpoznania składowych, co zostanie opisane dalej w odniesieniu do FIG. 8 oraz FIG. 9a i FIG. 9b

Podstawowym zadaniem układu śledzenia obiektów 3, którego schemat blokowy został przedstawiony na FIG. 8, jest wykrycie dla danej chwili czasowej wszystkich obecnych w sygnale wejściowym częstotliwości składowych. Jak pokazano na FIG. 7b oraz FIG. 7d, filtry sąsiadujące z tonem wejściowym mają bardzo podobne pulsację, różne od pulsacji znamionowych tych filtrów. Własność tą wykorzystuje kolejny podzespół układu śledzenia obiektów 3, mianowicie układ głosujący 32. W celu zapobieżenia nieprawidłowemu wykryciu częstotliwości składowych, wyliczone przez układ analizy widma 31 wartości widma amplitudowego FA(n) oraz pulsacji na wyjściu filtrów FQ(n) zostają przekazane do układu głosującego 32 celem obliczenia ich wartości ważonej i wykryciu jej maksimów w funkcji numeru filtra (n). W ten sposób uzyskuje się układ głosujący, który przy wyznaczeniu częstotliwości obecnych w sygnale wejściowym dla danej częstotliwości na wyjściu filtru 2 bierze pod uwagę częstotliwość na wyjściach wszystkich sąsiadujących z nim filtrów 20. Działanie tego układu zostało przedstawione na FIG. 9a i 9b. FIG. 9a obrazuje odpowiedni przypadek przedstawiony na FIG. 7a i 7b, natomiast FIG. 9b obrazuje odpowiedni przypadek przedstawiony na FIG. 7c i 7d. Jak widać, wykres sygnału FG(n) (wartości ważonej obliczonej przez układ głosujący 32) posiada wyraźne piki w miejscach odpowiadających tonom częstotliwości składowych występujących w sygnale wejściowym. W przypadku sygnału wejściowego zawierającego składowe wyraźnie oddalone od siebie (jak pokazano na FIG. 9a) miejsca te odpowiadają maksimum amplitudy widma FA(n). W przypadku sygnału zawierającego składowe położone zbyt blisko siebie (jak pokazano na FIG. 9b), bez układu głosującego 32 wykryte zostałyby tony odzwierciedlone maksimum amplitudy widma, które są położone w innych miejscach niż wspomniane piki w sygnale ważonym FG(n).

Jak pokazano na FIG. 8 układ analizy widma 31 oraz układ głosujący 32 są połączone na swoim wyjściu z układem kojarzenia obiektów 33. Mając do dyspozycji listę wykrytych przez układ głosujący 32 częstotliwości wchodzących w skład sygnału wejściowego, oraz dodatkowe parametry, takie jak amplituda, faza i pulsacja powiązane z każdą wykrytą częstotliwością, układ kojarzenia obiektów 33, łączy te parametry w „elementy” a następnie buduje z nich obiekty dźwiękowe. Korzystnie, w sposobie według wynalazku częstotliwości (pulsację) wykrywane przez układ głosujący 32, a co za tym idzie „elementy”, są identyfikowane po numerze filtra n. Układ kojarzenia obiektów 33 jest połączony z bazą obiektów aktywnych 34. Baza obiektów aktywnych 34 zawiera obiekty ułożone w kolejności zależnej od wartości częstotliwości, przy czym obiekty te nie zostały jeszcze „zamknięte”. Pod terminem „obiekt zamknięty” należy rozumieć obiekt, z którym nie można w danej chwili czasowej powiązać żadnego z elementów wykrytych przez układ analizy widma 31 i układ głosujący 32. Działanie układu kojarzenia obiektów 33 zostało przedstawione na FIG. 10. Kolejne elementy sygnału wejściowego wykryte przez układ głosujący 32 są zestawiane z wybranymi aktywnymi obiektami w bazie 34. W celu ograniczenia potrzebnej liczby operacji, korzystnie, wykryte obiekty o zadanej częstotliwości są porównywane jedynie z odpowiednimi aktywnymi obiektami mieszczącymi się w uprzednio zdefiniowanym przedziale częstotliwości.

PL 231 399 Β1

W pierwszej kolejności przy porównywaniu brana jest pod uwagę pulsacja elementu i obiektu aktywnego. Jeżeli dla elementu nie ma dostateczne bliskiego obiektu (np. w zakresie odległości w częstotliwości odpowiadającej 0,2 tonu), to oznacza, że pojawił się nowy obiekt i należy go dodać do aktywnych obiektów 34. Jeżeli po zakończeniu zestawiania obiektów z bieżącymi elementami dla aktywnego obiektu dźwiękowego nie ma dostateczne bliskiego elementu (np. w zakresie odległości w częstotliwości odpowiadającej 0,2 tonu), to oznacza, że nie wykryto dalszych parametrów dla tego obiektu i należy go zamknąć. Zamykany obiekt jest brany pod uwagę w procesie kojarzenia jeszcze przez czas 1 okresu jego częstotliwości, aby uniknąć przypadkowego zamknięcia spowodowanego chwilowym zakłóceniem. W tym czasie może on wrócić do aktywnych obiektów dźwiękowych w bazie 34. Po upływie 1 okresu wyznaczany jest punkt końcowy obiektu. Jeżeli obiekt trwał dostatecznie długo (np. jego długość nie była mniejsza niż szerokość odpowiadającego mu okna W[nj), to obiekt ten przekazany jest do bazy obiektów dźwiękowych 35.

W przypadku zestawiania ze sobą obiektu aktywnego z dostatecznie bliskim elementem, w układzie kojarzenia obiektów 33 wyliczana jest dodatkowo funkcja dopasowania, zawierająca następujące ważone wartości: dopasowanie amplitudy, dopasowanie fazy, czas trwania obiektu. Taka funkcjonalność układu kojarzenia obiektów 33 ma zasadnicze znaczenie w sytuacji, gdy w rzeczywistym sygnale wejściowym sygnał składowy z jednego i tego samego źródła zmienił częstotliwość. Zdarza się bowiem, że w wyniku zmiany częstotliwości kilka aktywnych obiektów zbliża się do siebie. Dlatego też po wyliczeniu funkcji dopasowania układ kojarzenia obiektów 33 sprawdza, czy w danej chwili czasowej w bazie 34 występuje drugi dostatecznie bliski obiekt. Układ 33 podejmuje wtedy decyzję, który obiekt będzie kontynuatorem łączących się obiektów. O wyborze decyduje wynik porównania funkcji dopasowana. Najlepiej dopasowany aktywny obiekt będzie kontynuowany, a dla pozostałych wydane zostanie polecenie zamknięcia. Z bazą aktywnych obiektów 34 współpracuje również układ poprawy rozdzielczości 36. Śledzi on wzajemną odległość w dziedzinie częstotliwości obiektów występujących w sygnale. W przypadku wykrycia zbyt bliskich częstotliwości aktywnych obiektów układ poprawy rozdzielczości 36 wysyła sygnał sterujący w celu uruchomienia jednego z trzech procesów poprawiających rozdzielczość częstotliwościową. Jak wspomniano uprzednio, w przypadku wystąpienia w sygnale blisko siebie kilku częstotliwości, ich widma nakładają się. Aby je rozróżnić, system musi „wsłuchać” się w dźwięk. Może tego dokonać wydłużając okno, w którym filtr próbkuje sygnał. W takiej sytuacji aktywowany jest sygnał regulacji okna 301, który informuje bank filtrów 2, że w zadanym zakresie należy wydłużyć okna. Z powodu wydłużenia okna pogarsza się analiza dynamiki sygnału, dlatego przy braku detekcji występowania bliskich obiektów układ poprawy rozdzielczości 36 wymusza ponowne skrócenie okna filtra 20. W rozwiązaniu według wynalazku przyjęto okno o długości od 12 do 24 okresów częstotliwości znamionowej filtru 20. Zależność rozdzielczości częstotliwościowej od szerokości okna została przedstawiona na FIG. 11. Poniższa tabela obrazuje zdolność wykrywania i śledzenia przez system co najmniej 4 nieuszkodzonych, występujących kolejno obok siebie obiektów, których minimalna odległość została wyrażona procentowo, w zależności od szerokości okna.

Szerokość okna (w okresach)	Wykrywa obiekty odległe o	Śledzi obiekty odległe o
12	17, 4%	23,2%
16	14, 5%	17, 4%
20	8,7%	14,5%
24	5,9%	11,6%

W innym przykładzie realizacji system „wsłuchuje” się w dźwięk poprzez zmianę widma banku filtrów, co schematycznie zostało przedstawione na FIG. 12. Rozdzielczość częstotliwościowa zostaje poprawiona dzięki odjęciu od widma na wejściu układu śledzenia 3 spodziewanego widma „dobrze zlokalizowanych obiektów”, które są lokalizowane w sąsiedztwie pojawiających się nowych obiektów. Za „obiekty dobrze zlokalizowane” można uznać takie obiekty, których amplituda nie zmienia się zbyt szybko (nie więcej niż jedno ekstremum w szerokości okna), oraz których częstotliwość nie płynie zbyt szybko (nie więcej niż 10% zmiany częstotliwości na szerokości okna). Próba odjęcia widma obiektów zmieniających się szybciej może doprowadzić do odwrócenia fazy na wejściu układu pomiarowego i dodatniego sprzężenia zwrotnego, skutkującego generacją sygnału zakłócającego. W praktyce układ poprawy rozdzielczości 36 wylicza spodziewane widmo 303 w oparciu o znaną chwilową częstotliwość,

PL 231 399 B1 amplitudę i fazę obiektu, i odejmuje je od widma rzeczywistego, powodując, że widma sąsiednich elementów nie będą tak silnie zakłócone. Układ analizy widma 31 oraz układ głosujący 32 dostrzegają jedynie sąsiednie elementy oraz zmianę obiektu odejmowanego. Natomiast układ kojarzenia obiektów 33 uwzględnia dodatkowo odjęte parametry porównując wykryte elementy z bazą obiektów aktywnych 34. Niestety do realizacji tego sposobu poprawy rozdzielczości w częstotliwości wymagana jest bardzo duża liczba obliczeń oraz pojawia się ryzyko dodatniego sprzężenia zwrotnego.

W jeszcze innym przykładzie realizacji rozdzielczość częstotliwościowa może zostać poprawiona poprzez odjęcie od sygnału wejściowego sygnału audio wygenerowanego na podstawie dobrze zlokalizowanych (jak w przykładzie poprzednim) sąsiadujących obiektów. Taką operację schematycznie zobrazowano na FIG. 13. W praktyce polega to na tym, że układ poprawy rozdzielczości 36 na podstawie informacji o częstotliwości, amplitudzie i fazie aktywnych obiektów 34 generuje sygnał audio 302, przesyłany do układu różnicowego 5 na wejściu banku filtrów 2, co schematycznie zostało przedstawione na FIG. 13. Liczba wymaganych obliczeń w tego typu operacji jest mniejsza niż w przypadku przykładu realizacji z FIG. 12, jednak z uwagi na dodatkowe opóźnienie wprowadzane przez bank filtrów 2, wzrasta ryzyko niestabilności układu i wywołanie niezamierzonych generacji. Podobnie i w tym przypadku układ kojarzenia obiektów 33 uwzględnia parametry odjętych aktywnych obiektów. Dzięki opisanym mechanizmom, sposób według wynalazku zapewnia rozdzielczość częstotliwości przynajmniej ¹/2 półtonu (tzn. FN[n+1] / FN[n] = 102,93%)

Zgodnie z wynalazkiem, informacja zawarta w bazie obiektów aktywnych 34 wykorzystywana jest również przez układ formowania kształtu 37. Spodziewanym rezultatem dekompozycji sygnału dźwiękowego jest uzyskanie obiektów dźwiękowych w postaci przebiegów sinusoidalnych o wolnozmiennej obwiedni amplitudy i częstotliwości. Dlatego też układ formowania kształtu 37 śledzi zmiany obwiedni amplitudy oraz częstotliwość aktywnych obiektów w bazie 34 i wylicza na bieżąco kolejne punkty charakterystyczne amplitudy i częstotliwości, którymi są lokalne maksimum, lokalne minimum oraz punkty przegięcia. Takie informacje pozwalają w sposób jednoznaczny opisać przebiegi sinusoidalne. Układ formowania kształtu 37 na bieżąco przekazuje te informacje charakterystyczne w postaci punktów opisujących obiekt do bazy elementów aktywnych 34. Przyjęto, że odległość pomiędzy wyznaczanymi punktami powinna wynosić nie mniej niż 20 okresów częstotliwości obiektu. Odległości między punktami, które są proporcjonalne do częstotliwości są w stanie efektywnie przekazać dynamikę zmiany obiektów. Przykładowe obiekty dźwiękowe przedstawiono na FIG. 14a. Figura ta ilustruje cztery obiekty o zmieniającej się częstotliwości w funkcji czasu (numer próbki). Te same obiekty przedstawione zostały na FIG. 14b w przestrzeni zdefiniowanej amplitudą oraz czasem (numerem próbki). Przedstawione punkty wskazują lokalne maksima i minima amplitudy. Punkty połączone są krzywą gładką, wyliczoną z wykorzystaniem wielomianów trzeciego rzędu. Mając wyznaczoną funkcję zmiany częstotliwości oraz obwiednię amplitudy możliwe jest wyznaczenie sygnału audio. FIG. 14c ilustruje sygnał audio wyznaczony na podstawie kształtu obiektów zdefiniowanych na FIG. 14a i FIG. 14b. Przedstawione na wykresach obiekty zostały opisane w postaci tabeli FIG. 14d, w której dla każdego obiektu opisano parametry jego kolejnych punktów charakterystycznych, w tym punkt początkowy, punkt końcowy i lokalne ekstremum. Każdy punkt ma trzy współrzędne, tzn. pozycję w czasie wyrażoną numerem próbki, amplitudę i częstotliwość. Taki zestaw punktów opisuje jednoznacznie wolnozmienny przebieg sinusoidalny.

Przedstawiony w tabeli FIG. 14d opis obiektów dźwiękowych może zostać zapisany w postaci sformalizowanego protokołu. Standaryzacja takiego zapisu pozwoli opracować aplikacje, które będą wykorzystywać własności obiektów dźwiękowych. FIG. 15 przedstawia przykładowy format zapisu obiektów dźwiękowych.

1) Nagłówek: Zapis rozpoczyna się od nagłówka, którego istotnym elementem jest znacznik nagłówka zawierający czterobajtowe słowo kluczowe, informujące że mamy do czynienia z opisem obiektów dźwiękowych. Następnie w dwóch bajtach podana jest informacja o ilości kanałów (ścieżek) oraz dwa bajty definicji jednostki czasu. Nagłówek występuje tylko raz na początku pliku.

2) Kanał: Informacja o kanałach (ścieżkach) z tego pola służy do wydzielenia grupy obiektów dźwiękowych powiązanych istotną zależnością, np. lewy lub prawy kanał w utworze stereo, ścieżka wokalu, ścieżka instrumentów perkusyjnych, nagranie z określonego mikrofonu itp. Pole kanału zawiera identyfikator kanału (numer), liczbę obiektów w kanale oraz pozycję kanału od początku sygnału audio, mierzoną w zdefiniowanych jednostkach.

3) Obiekt: O rodzaju obiektu decyduje identyfikator zawarty w pierwszym bajcie. Identyfikator 0 oznacza podstawową jednostkę w zapisie sygnału jaką jest obiekt dźwiękowy. Wartość 1

PL 231 399 B1 może oznaczać folder zawierający grupę obiektów jak np. dźwięk podstawowy i jego harmoniczne. Inne wartości mogą być wykorzystane do definiowania innych elementów powiązanych z obiektami. Opis podstawowego obiektu dźwiękowego zawiera liczbę punktów. Liczba punktów nie zawiera punktu początkowego, który jest definiowany przez sam obiekt. Podanie w parametrach obiektu maksymalnej amplitudy pozwala regulować jednoczesne wzmocnienie wszystkich punktów obiektu. W przypadku folderu obiektów, wpływa to na wartość amplitudy wszystkich obiektów zawartych w folderze. Analogicznie, podanie informacji o częstotliwości (stosując zapis: numeru tonu*4 banku filtrów = nuty*16 ) pozwala na jednoczesną regulację częstotliwości wszystkich elementów związanych z obiektem. Ponadto określenie pozycji początku obiektu względem elementu wyższego poziomu (np. kanału) pozwala przesuwać obiekt w czasie.

4) Punkt: Punkty służą do opisania kształtu obiektu dźwiękowego w dziedzinie czasu, częstotliwości i amplitudy. Mają wartość relatywną w odniesieniu do parametrów zdefiniowanych przez obiekt dźwiękowy. Jeden bajt amplitudy określa jaką część maksymalnej amplitudy zdefiniowanej przez obiekt posiada punkt. Podobnie zmiana tonu określa o jaki ułamek tonu zmieniła się częstotliwość. Pozycja punktu definiowana jest relatywnie w odniesieniu do poprzednio zdefiniowanego punktu w obiekcie.

Wielopoziomowa struktura zapisu i relatywne powiązania pomiędzy polami pozwalają bardzo elastycznie operować obiektami dźwiękowymi, czyniąc z nich efektywne narzędzie projektowania i modyfikowania sygnałów audio.

Skondensowany zapis informacji o obiektach dźwiękowych realizowany sposobem według wynalazku, zawarty w formacie prezentowanym na FIG. 15 ma bardzo korzystny wpływ na wielkość rejestrowanych i przekazywanych plików. Biorąc pod uwagę, że z tego formatu można łatwo odtworzyć plik audio możemy porównać rozmiar pliku przedstawionego na FIG. 14c, który w postaci „WAV” zawierałby ponad 2000 bajtów, a w postaci zapisu obiektów dźwiękowych „UH0” realizowanego sposobem według wynalazku, miałby 132 bajty. Ponad 15 krotna kompresja nie jest w tym przypadku wielkim osiągnięciem. W przypadku dłuższych sygnałów audio można osiągnąć znacznie lepsze wyniki. Poziom kompresji zależy od tego, jak dużo informacji jest zawartych w sygnale audio, tzn. ile i jak złożonych obiektów da się z sygnału odczytać.

Identyfikacja obiektów dźwiękowych w sygnale audio nie jest jednoznacznym przekształceniem matematycznym. Sygnał audio powstały ze złożenia obiektów uzyskanych w wyniku dekompozycji różni się od sygnału wejściowego. Zadaniem sposobu według wynalazku jest zminimalizowanie tej różnicy. Źródła różnic są dwojakiego rodzaju. Część z nich jest spodziewana i wynika z zastosowanej technologii, inne mogą wynikać z zakłóceń lub niespodziewanych właściwości wejściowego sygnału audio. Do zmniejszenia różnicy pomiędzy sygnałem audio złożonym z obiektów dźwiękowych uzyskiwanych sposobem według wynalazku a sygnałem wejściowym służy układ korekcji 4 przedstawiony na FIG. 1. Układ pobiera parametry obiektów z bazy obiektów dźwiękowych 35 już po zamknięciu obiektu i dokonuje operacji zmiany wybranych parametrów obiektów oraz punktów, tak aby zniwelować spodziewane różnice lub nieprawidłowości zlokalizowane w tych parametrach.

Pierwszy typ korekcji obiektów dźwiękowych realizowanej sposobem według wynalazku, dokonywanej przez układ korekcji 4 został pokazany na FIG. 16. Zniekształcenie na początku i na końcu obiektu spowodowane jest tym, że w stanach nieustalonych, gdy sygnał o określonej częstotliwości pojawia się lub zanika, filtry o krótszej odpowiedzi impulsowej szybciej reagują na zmianę. Dlatego na początku obiekt wygięty jest w kierunku wyższych częstotliwości, a na końcu skręca w stronę niższych częstotliwości. Korekcja obiektu może polegać na odkształceniu częstotliwości obiektu na początku i na końcu w kierunku określonym przez środkowy odcinek obiektu.

Kolejny rodzaj korekty realizowanej sposobem według wynalazku, dokonywanej przez układ korekcji 4 został przedstawiony na FIG. 17. Próbki sygnału audio przechodząc przez filtr 20 banku filtrów 2 powodują zmianę na wyjściu filtra objawiającą się przesunięciem sygnału. Przesunięcie ma charakter regularny i jest do przewidzenia. Jego wielkość jest zależna od szerokości okna K filtru n, która to szerokość jest zgodnie z wynalazkiem funkcją częstotliwości. Oznacza to, że każda częstotliwość jest przesuwana o inną wartość, co odczuwalnie wpływa na brzmienie sygnału. Wielkość przesunięcia wynosi ok. 1/2 szerokości okna filtru w obszarze normalnej pracy filtru, 1/4 szerokości okna w początkowej fazie oraz ok. 3/4 szerokości okna w przypadku końca obiektu. Ponieważ dla każdej częstotliwości można przewidzieć wielkość przesunięcia, układ korekcji 4 ma za zadanie odpowiednio przesunąć wszystkie

PL 231 399 B1 punkty obiektu w przeciwną stronę, dzięki czemu poprawi się dynamika odwzorowania sygnału wejściowego.

Jeszcze inny rodzaj korekty realizowanej sposobem według wynalazku, dokonywanej przez układ korekcji 4, przedstawiony został na FIG. 18a, FIG. 18B oraz FIG. 18C. Zniekształcenie przejawia się jako rozdzielenie się obiektu na kawałki, które są samodzielnymi obiektami. Podział ten może być powodowany np. skokiem fazy w składowej sygnału wejściowego, zakłóceniem lub wzajemnym wpływem blisko sąsiadujących obiektów. Naprawa tego typu zniekształceń wymaga od układu korekcji 4 przeprowadzenia analizy funkcji obwiedni oraz częstotliwości i wykazania, że obiekty powinny stanowić jedną całość. Naprawa jest prosta i polega na połączeniu kolejnych punktów wskazanych obiektów w jeden obiekt.

Zadaniem układu korekcji 4 jest również usunięcie obiektów mających znikomy wpływ na brzmienie sygnału audio. Zgodnie z wynalazkiem uznano, że do takich obiektów mogą należeć te, których maksymalna amplituda jest mniejsza niż 1% maksymalnej amplitudy występującej w całym sygnale w danej chwili czasowej. Zmiana sygnału na poziomie 40 dB nie powinna być słyszalna.

Układ korekcji dokonuje generalnie usunięcia wszelkich nieprawidłowości kształtu obiektów dźwiękowych, które to operacje można sklasyfikować jako: łączenie przerwanych obiektów, usuwanie oscylacji obiektów blisko sąsiadujących, usuwanie obiektów nieistotnych, czy tez zakłócających, trwających zbyt krótko lub zbyt słabo słyszalnych.

W celu zobrazowania rezultatów wykorzystania sposobu dekompozycji sygnału dźwiękowego przetestowano fragment sygnału audio stereo próbkowanego 44 100 próbek/sekundę. Sygnał jest utworem muzycznym zawierającym dźwięk gitary i śpiew. Przedstawiony na FIG. 19a wykres obrazujący dwa kanały obejmuje ok. 250 000 próbek (ok. 5,6 sek.) nagrania.

FIG. 19b przedstawia spektrogram będący wynikiem działania banku filtrów 2 dla lewego kanału sygnału audio (górny wykres na FIG. 19a). Spektrogram zawiera amplitudę na wyjściu 450 filtrów o częstotliwości od C2 = 16,35 Hz do e6=10 548 Hz. Z lewej strony spektrogramu umieszczono, jako punkty odniesienia określające częstotliwość, klawiaturę fortepianu. Ponadto zaznaczono pięciolinie z kluczem basowym i powyżej pięciolinię z kluczem wiolinowym. Oś pozioma spektrogramu odpowiada chwilom czasowym w trakcie trwania utworu, natomiast ciemniejszy kolor na spektrogramie wskazuje większą wartość amplitudy przefiltrowanego sygnału.

FIG. 19c przedstawia wynik działania układu głosującego 32. Porównując spektrogram z FIG. 19b ze spektrogramem z FIG. 19C widać, że szerokie plamy obrazujące elementy składowe sygnału zostały zastąpione wyraźnymi liniami wskazującymi na dokładną lokalizację elementów składowych sygnału wejściowego.

FIG. 19d jest przekrojem spektrogramu wzdłuż linii A-A na 149 008 próbce i przedstawia amplitudę w funkcji częstotliwości. Oś pionowa po środku wskazuje składową rzeczywistą i urojoną oraz amplitudę widma. Oś pionowa z prawej strony pokazuje piki sygnału głosującego, wskazujące chwilową lokalizację elementów składowych sygnału audio.

FIG. 19e jest przekrojem spektrogramu wzdłuż linii B-B na częstotliwości 226,4 Hz. Wykres przedstawia amplitudę widma na wyjściu filtra 2 o numerze n = 182.

Na FIG. 19f przedstawiono obiekty dźwiękowe (bez włączonego układu korekcji 4). Oś pionowa wskazuje częstotliwość, natomiast oś pozioma wskazuje czas wyrażony numerem próbki. W testowanym fragmencie sygnału zlokalizowano 578 obiektów, które są opisane przez 578 + 995 = 1573 punktów. Do zapisania tych obiektów potrzeba ok. 9780 bajtów. Sygnał audio z FIG. 19a zawierający 250 000 próbek w lewym kanale wymaga do bezpośredniego zapisu 500 000 bajtów, co w przypadku wykorzystania sposobu dekompozycji sygnału oraz obiektów dźwiękowych według wynalazku daje kompresję na poziomie 49. Zastosowanie układu korekcji 4 dodatkowo poprawia poziom kompresji, dzięki usunięciu obiektów mających znikomy wpływ na brzmienie sygnału.

Na FIG. 19g przedstawiono amplitudę wybranych obiektów dźwiękowych ukształtowaną z wykorzystaniem wyznaczonych punktów charakterystycznych za pomocą krzywych gładkich utworzonych z wielomianów trzeciego rzędu. Na figurze przedstawiono obiekty, których amplituda jest większa od 10% amplitudy obiektu o największej amplitudzie.

W wyniku zastosowania sposobu dekompozycji sygnału według wynalazku, uzyskuje się obiekty dźwiękowe realizowane sposobem według wynalazku, które mogą posłużyć do syntezy sygnału akustycznego. Zsyntezowany sygnał testowy z FIG. 19a został przedstawiony na FIG. 19h.

Obiekty dźwiękowe uzyskiwane sposobem według wynalazku, mają szereg właściwości, dzięki którym mogą one mieć wiele zastosowań, szczególności w przetwarzaniu, analizie i syntezie sygnałów

PL 231 399 B1 dźwiękowych. Obiekty dźwiękowe mogą być pozyskiwane z wykorzystaniem sposobu dekompozycji sygnału według wynalazku w wyniku rozkładu sygnału audio. Obiekty dźwiękowe można również tworzyć analitycznie, definiując wartości parametrów, które przedstawiono na FIG. 14d. Baza obiektów dźwiękowych może być zbudowana z dźwięków zaczerpniętych z otaczającego świata lub zbudowanych sztucznie. Poniżej wymieniono korzystne właściwości obiektów dźwiękowych opisanych punktami o trzech współrzędnych:

1) Na podstawie parametrów opisujących obiekty dźwiękowe można wyznaczyć funkcję zmiany amplitudy i częstotliwości oraz określić położenie w stosunku do innych obiektów, dzięki czemu można z nich złożyć sygnał audio.

2) Jednym z parametrów opisujących obiekty dźwiękowe jest czas, dzięki czemu obiekty można przesuwać, skracać oraz rozciągać w dziedzinie czasu.

3) Drugim parametrem obiektów dźwiękowych jest częstotliwość, dzięki czemu obiekty można przesuwać oraz zmieniać w dziedzinie częstotliwości.

4) Kolejnym parametrem obiektów dźwiękowych jest amplituda, dzięki czemu można zmieniać obwiednię amplitudy obiektów dźwiękowych.

5) Obiekty dźwiękowe można grupować, wybierając np. te które występują w tym samym czasie lub/oraz te, których częstotliwości są harmonicznymi.

6) Zgrupowane obiekty można wydzielać lub dołączać do sygnału audio. Pozwala to na tworzenie nowego sygnału z kilku innych sygnałów lub rozdzielenie jednego sygnału na kilka niezależnych sygnałów.

7) Zgrupowane obiekty można wzmacniać (zwiększając ich amplitudę) lub wyciszać (zmniejszając ich amplitudę).

8) Zmieniając proporcje amplitudy harmonicznych wchodzących w skład grupy obiektów można zmieniać barwę dźwięku zgrupowanych obiektów.

9) Można zmieniać wartość wszystkich zgrupowanych częstotliwości podnosząc lub opuszczając częstotliwości harmonicznych.

10) Można zmieniać słyszalne emocje zawarte w obiektach dźwiękowych, zmieniając nachylenie (opadanie lub wznoszenie) częstotliwości składowych.

11) Prezentując sygnał dźwiękowy w postaci obiektów opisanych punktami o trzech współrzędnych można znacznie zmniejszyć ilość wymaganych bajtów danych bez utraty informacji zawartej w sygnale.

Biorąc pod uwagę właściwości obiektów dźwiękowych można dla nich zdefiniować bardzo wiele zastosowań. Do przykładowych mogą należeć:

1) Rozdzielenie źródeł sygnału audio pomiędzy instrumenty lub mówców, polegające na odpowiednim pogrupowaniu obiektów dźwiękowych występujących w sygnale.

2) Automatyczne generowanie zapisu nutowego poszczególnych instrumentów z sygnału audio.

3) Urządzenia do automatycznego strojenia instrumentów muzycznych podczas trwania występu muzycznego.

4) Przekazanie wypowiedzi wydzielonych mówców do systemów rozpoznawania mowy.

5) Rozpoznawania emocji zawartych w wydzielonych wypowiedziach.

6) Identyfikacja wydzielonych mówców.

7) Zamiana barwy rozpoznanych instrumentów.

8) Zamiana instrumentów miejscami (np. gitara gra zamiast fortepianu).

9) Zmiana głosu wypowiadającego (podniesienie, opuszczenie, zmiana emocji, intonacji).

10) Zamiana wypowiedzi mówców.

11) Synteza mowy z możliwością sterowania emocjami i intonacją.

12) Płynne łączenie wypowiedzi.

13) Sterowanie urządzeniami za pomocą głosu, nawet w środowisku zakłóceń.

14) Generowanie nowych dźwięków, „sampli, niespotykanych brzmień.

15) Nowe instrumenty muzyczne.

16) Przestrzenne zarządzanie dźwiękiem.

17) Dodatkowe możliwości kompresji danych.

PL 231 399 B1

Claims

Zastrzeżenia patentowe

1. Sposób dekompozycji sygnału akustycznego na obiekty dźwiękowe w postaci przebiegów sinusoidalnych o wolnozmiennej amplitudzie i częstotliwości zawierający

- etap wyznaczania elementów sygnału akustycznego definiowanych przez częstotliwość, amplitudę i fazę, przy czym etap wyznaczania elementów sygnału akustycznego obejmuje

- konwersję analogowego sygnału akustycznego na wejściowy cyfrowy sygnał akustyczny Pin, oraz

- rozdzielenie wejściowego sygnału akustycznego P na n sinusoidalnych sygnałów zespolonych mających składową rzeczywistą FC(n) oraz składową urojoną FS(n) przez podawanie próbek wejściowego sygnału akustycznego Pin na wejście banku filtrów cyfrowych, oraz

- etap wyznaczania obiektów dźwiękowych na podstawie częstotliwości, amplitudy i fazy uprzednio wyznaczonych i zdefiniowanych elementów sygnału akustycznego, w którym to etapie

- zestawia się kolejne wykryte elementy składowe sygnału akustycznego z wybranymi aktywnymi obiektami w bazie aktywnych obiektów (34) dla utworzenia nowego aktywnego obiektu albo dla dołączenia wykrytego elementu do aktywnego obiektu, albo dla zamknięcia aktywnego obiektu jeżeli nie zostanie zlokalizowany element składowy sygnału akustycznego

- dla każdego aktywnego obiektu z bazy (34) wyznacza się wartości obwiedni amplitudy i wartości częstotliwości oraz odpowiadające im chwile czasowe nie rzadziej niż raz na okres trwania okna W(n) danego filtru (20) aby utworzyć punkty charakterystyczne opisujące wolnozmienny przebieg sinusoidalny obiektu dźwiękowego

- przenosi się co najmniej jeden wybrany zamknięty aktywny obiekt do bazy obiektów dźwiękowych (35), dla uzyskania co najmniej jednego zdekomponowanego obiektu dźwiękowego, zdefiniowanego zestawem punktów charakterystycznych o współrzędnych w przestrzeni czasczęstotliwość-amplituda, znamienny tym, że w etapie wyznaczania elementów sygnału akustycznego filtry w banku filtrów cyfrowych mają nominalną częstotliwość środkową rozłożoną według skali logarytmicznej oraz długość okna proporcjonalną do nominalnej częstotliwości środkowej, przy czym

- po wyznaczeniu n sinusoidalnych sygnałów zespolonych mających składową rzeczywistą FC(n) i urojoną FS(n), i z wykorzystaniem tych sygnałów, próbka po próbce sygnału wejściowego Pin, oblicza się widmo amplitudowe FA(n), widmo fazowe FF(n) oraz pulsację na wyjściu filtrów FQ(n) w funkcji numeru filtra n a następnie,

- z wykorzystaniem widma amplitudowego FA(n) oraz pulsacji na wyjściu filtrów FQ(n), próbka po próbce sygnału wejściowego Pin przeprowadza się operację wyliczenia funkcji FG(n) dla wszystkich n, przy czym wartości wyjściowe tej funkcji są proporcjonalne do liczby wystąpień pulsacji FQ(n) odpowiadającej filtrowi o numerze n na wyjściach filtrów sąsiadujących i aktualnej wartości widma amplitudowego FA(n) każdego z tych sąsiadujących filtrów, a następnie

- próbka po próbce sygnału wejściowego Pin, wyznacza się numer filtra n, dla którego występuje maksimum lokalne funkcji FG(n), z uzyskaniem dla wspomnianego filtra n amplitudy, częstotliwości oraz fazy definiującej element składowy sygnału akustycznego, a w etapie wyznaczania obiektów dźwiękowych

- próbka po próbce sygnału wejściowego Pin zestawia się kolejne wykryte elementy składowe sygnału akustycznego z wybranymi aktywnymi obiektami dźwiękowymi w bazie aktywnych obiektów (34) dla utworzenia nowego aktywnego obiektu albo dla dołączenia wykrytego elementu do aktywnego obiektu, albo dla zamknięcia aktywnego obiektu jeżeli nie zostanie zlokalizowany element składowy sygnału akustycznego, przy czym częstotliwość zestawianego elementu sygnału akustycznego różni się od częstotliwości zarejestrowanej dla aktywnego obiektu dźwiękowego dla poprzedniej próbki nie więcej niż o ustaloną wartość bliską zeru tak, aby zamykane obiekty były opisane co do częstotliwości funkcją ciągłą.

PL 231 399 B1
2. Sposób według zastrz. 1, znamienny tym, że etap wyznaczania obiektów dźwiękowych obejmuje etap korekcji wybranych obiektów dźwiękowych, który polega na korekcji częstotliwości wybranych obiektów dźwiękowych poprzez odkształcenie częstotliwości obiektu na jego początku i na końcu w kierunku określonym przez środkowy odcinek obiektu i/albo poprzez przesunięcie wszystkich punktów obiektu o przewidywalną wartość w przeciwną stronę niż przesunięcie spowodowane bankiem filtrów dla zmniejszenia oczekiwanego zniekształcenia w obiektach dźwiękowych, przy czym odkształcenie jest powodowane działaniem cyfrowego banku filtrów.
3. Sposób według zastrz. 2, znamienny tym, że etap korekcji wybranych obiektów dźwiękowych polega na etapie korekcji wybranych, rozdzielonych obiektów dźwiękowych poprzez wykonanie analizy funkcji obwiedni oraz częstotliwości i następnie połączenie zidentyfikowanych obiektów w jeden obiekt, jeśli zostało wykazane, że te obiekty powinny tworzyć całość, i/albo polega na etapie usuwania obiektów jeżeli ich amplituda jest mniejsza od wartości progowej, aby zredukować oczekiwane zniekształcenie obiektów dźwiękowych.
4. Sposób według zastrz. 2, znamienny tym, że etap wyznaczania elementów sygnału akustycznego obejmuje operację poprawiającą rozdzielczość częstotliwościową przefiltrowanego sygnału polegającą dodatkowo na zwiększeniu długości okna wybranych filtrów.
5. Sposób według zastrz. 3, znamienny tym, że etap wyznaczania elementów sygnału akustycznego obejmuje operację poprawiającą rozdzielczość częstotliwościową przefiltrowanego sygnału polegającą dodatkowo na odjęciu od widma na wyjściu filtrów spodziewanego widma pewnie zlokalizowanych sąsiadujących obiektów dźwiękowych.
6. Sposób według zastrz. 3, znamienny tym, że etap wyznaczania elementów sygnału akustycznego obejmuje operację poprawiającą rozdzielczość częstotliwościową przefiltrowanego sygnału polegającą dodatkowo na odjęciu od sygnału wejściowego sygnału audio wygenerowanego na podstawie pewnie zlokalizowanych sąsiadujących obiektów dźwiękowych.