PL223134B1 - Sposób poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłaszcza wizyjno-fonicznym i układ do realizacji sposobu - Google Patents

Sposób poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłaszcza wizyjno-fonicznym i układ do realizacji sposobu

Info

Publication number
PL223134B1
PL223134B1 PL402373A PL40237313A PL223134B1 PL 223134 B1 PL223134 B1 PL 223134B1 PL 402373 A PL402373 A PL 402373A PL 40237313 A PL40237313 A PL 40237313A PL 223134 B1 PL223134 B1 PL 223134B1
Authority
PL
Poland
Prior art keywords
audio signal
signal
frequency
circuit
components
Prior art date
Application number
PL402373A
Other languages
English (en)
Other versions
PL402373A1 (pl
Inventor
Kuba Łopatka
Andrzej Czyżewski
Original Assignee
Politechnika Gdańska
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Politechnika Gdańska filed Critical Politechnika Gdańska
Priority to PL402373A priority Critical patent/PL223134B1/pl
Publication of PL402373A1 publication Critical patent/PL402373A1/pl
Publication of PL223134B1 publication Critical patent/PL223134B1/pl

Links

Landscapes

  • Time-Division Multiplex Systems (AREA)
  • Stereophonic System (AREA)

Abstract

Przedmiotem wynalazku jest sposób poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłaszcza wizyjno-fonicznym, który charakteryzuje się tym, że analizuje się sygnał foniczny poprzez dokonanie identyfikacji składowych sygnału fonicznego związanych z mową, a następnie przetwarza się sygnał foniczny poprzez selektywne skalowanie poziomu składowych tego sygnału, po czym redukuje się liczbę kanałów sygnału fonicznego. Przedmiotem wynalazku jest również układ do poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłaszcza wizyjno-fonicznym.

Description

Opis wynalazku
Przedmiotem wynalazku jest sposób poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłaszcza wizyjno-fonicznym i układ do realizacji sposobu.
Sygnał multimedialny w formie sygnału wizyjnego z towarzyszącym mu wielokanałowym sygnałem fonicznym jest często spotykany w powszechnych treściach multimedialnych, w tym w filmach lub audycjach telewizyjnych. Sygnał foniczny ma często formę sygnału wielokanałowego, w którym jeden z kanałów - kanał środkowy zawiera dźwięki mowy, stanowiące ścieżkę dialogową. W pozostałych kanałach znajdują się dźwięki takie jak muzyka ilustracyjna, tło akustyczne i efekty dźwiękowe. Sygnał foniczny powinien być odsłuchiwany na odpowiednim zestawie głośników, w którym każdemu kanałowi fonicznemu odpowiada osobny głośnik. Użytkownik niedysponujący takim zestawem może odsłuchiwać tylko ścieżkę dźwiękową z wykorzystaniem mniejszej liczby głośników, głównie dwóch. Dostosowanie wielokanałowej ścieżki dźwiękowej do odsłuchu na małej liczbie głośników powoduje, że dźwięki mowy występujące w ścieżce dźwiękowej nie są wyraźne, zwłaszcza przy niskiej jakości głośników lub znacznym poziomie zakłóceń z zewnątrz. Istnieje zatem potrzeba ułatwienia zrozumiałości dialogów.
W przekazywaniu lub odtwarzaniu sygnału fonicznego, zwłaszcza gdy towarzyszy on sygnałowi wizyjnemu, istotna w jego odbiorze jest zrozumiałość mowy w nim zawartej. Na zrozumiałość sygnału mowy w sygnale fonicznym niekorzystnie wpływają zakłócenia towarzyszące, w tym dźwięki występujące w otoczeniu odbiorcy oraz dźwięki znajdujące się w sygnale fonicznym, będące innymi dźwiękami niż dźwięki mowy. W przypadku, gdy transmitowany lub odtwarzany sygnał składa się z wielu kanałów, niektóre z tych kanałów zawierają, oprócz innych dźwięków, dźwięki mowy.
Z amerykańskiego patentu nr 6650752 znane jest urządzenie do dekodowania sygnału fonicznego z kontrolą stosunku głośności sygnału mowy do pozostałych dźwięków. Urządzenie przyjmuje na wejściu wiele kanałów fonicznych, z których kanał środkowy jest kanałem zawierającym mowę, a pozostałe kanały zawierają inne dźwięki. Następnie dokonywane jest porównanie poziomu kanału środkowego i pozostałych kanałów celem ustanowienia pożądanego stosunku poziomów mowy do pozostałych dźwięków w kanale wyjściowym.
Ze zgłoszenia PCT/US2010/34310 znany jest sposób prezentacji dźwięku wielokanałowego polegający na ekstrakcji kanału środkowego zawierającego mowę, którego wyjście podawane jest na osobny przetwornik wyjściowy lub wypromieniowane jest w innym kierunku niż pozostałe kanały dźwiękowe. Sposób ten polega na poprawie zrozumiałości mowy poprzez emitowanie sygnału dialogów z innego głośnika lub w innym kierunku niż inne dźwięki.
Z patentu nr US8050434 znany jest układ wzbogacenia dźwięku w systemie odsłuchu wielokanałowego. Układ przyjmuje na wejściu wielokanałowy sygnał foniczny, dokonuje dekodowania i przetwarzania sygnałów w poszczególnych kanałach, które ma na celu poprawę brzmienia niskich częstotliwości lub poprawę wyrazistości dialogów. Układ umożliwia uzyskanie poprawy zrozumiałości dialogów poprzez dostosowanie wzmocnienia kanałów i filtrację lub poprzez wzmocnienie formantów w wysokoczęstotliwościowym zakresie widma mowy.
Ze zgłoszenia patentowego US2011/0119061 znany jest sposób i układ poprawy zrozumiałości dialogów w systemie dekodowania dźwięku stereofonicznego poprzez konwersję do większej liczby kanałów, a następnie poddawanie kanału centralnego przetwarzaniu mającemu na celu zwiększenie zrozumiałości mowy. W wynalazku tym stosuje się filtrację uwypuklającej częstotliwości, co jest kluczowe dla zrozumienia mowy. Wzmocnienie filtra jest dostosowywane w zależności od wykrycia bądź niewykrycia występowania dialogu w oryginalnej ścieżce dźwiękowej. Częstotliwości graniczne filtra są natomiast z góry zadane i filtracja działa na cały zakres częstotliwości.
Z japońskiego zgłoszenia patentowego nr JP2005157363 znany jest sposób poprawy zrozumiałości sygnału mowy poprzez wzmocnienie regionów częstotliwości, w których znajdują się kluczowe dla poprawy zrozumiałości mowy skupiska energii, tj. formanty, w zakresie częstotliwości, w którym został wykryty formant.
Sposób poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłaszcza wizyjno-fonicznym, polegający na analizie sygnału fonicznego, przetwarzaniu sygnału fonicznego poprzez filtrowanie sygnału fonicznego a następnie redukcji liczby kanałów sygnału fonicznego, charakteryzuje się według wynalazku tym, że analizuje się sygnał foniczny poprzez dokonanie identyfikacji składowych sygnału fonicznego związanych z mową, a następnie przetwarza się sygnał
PL 223 134 B1 foniczny poprzez selektywne skalowanie poziomu składowych tego sygnału, po czym redukuje się liczbę kanałów sygnału fonicznego.
W wariancie wynalazku przetwarza się sygnał foniczny do dziedziny częstotliwości za pomocą transformacji sygnału, a następnie identyfikuje się składowe częstotliwościowe sygnału fonicznego związane z mową w dziedzinie częstotliwości, po czym selektywnie skaluje się poziom składowych częstotliwościowych tego sygnału w dziedzinie częstotliwości, a następnie przekształca się sygnał foniczny do dziedziny czasu.
W wariancie wynalazku identyfikuje się składowe sygnału fonicznego związane z mową w dziedzinie czasu, a następnie, na podstawie identyfikacji składowych sygnału fonicznego, poziom składowych tego sygnału selektywnie skaluje się w dziedzinie czasu.
W korzystnym wariancie wynalazku identyfikacji składowych częstotliwościowych sygnału fonicznego związanych z mową dokonuje się poprzez porównanie między sobą sygnału w poszczególnych kanałach wielokanałowego sygnału fonicznego w dziedzinie częstotliwości.
W kolejnym korzystnym wariancie wynalazku analizuje się sygnał foniczny poprzez bank filtrów analizy, po czym dokonuje identyfikacji składowych sygnału związanych z mową a następnie poziom składowych sygnału fonicznego selektywnie skaluje się z wykorzystaniem banku filtrów syntezy.
W innym korzystnym wariancie wynalazku dokonuje się identyfikacji składowych związanych z mową poprzez porównanie między sobą sygnału w kanałach wielokanałowego sygnału fonicznego w dziedzinie czasu.
W wariantach wynalazku informacje o identyfikacji składowych sygnału oraz o stopniu skalowania składowych sygnału dołącza się do sygnału w formie metadanych lub zapisuje się w zewnętrznej bazie danych.
Innym wynalazkiem jest układ do poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłaszcza wizyjno-fonicznym który charakteryzuje się tym, że układ do filtrowania sygnału fonicznego składa się z pierwszego układu do przekształcenia sygnału fonicznego do dziedziny częstotliwości, który szeregowo połączony jest z układem redukcji liczby kanałów poprzez pierwszy układ do selektywnego skalowania poziomu składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości i pierwszy układ do przekształcenia sygnału fonicznego do dzi edziny czasu. Wynalazek składa się również z drugiego układu do przekształcenia sygnału fonicznego do dziedziny częstotliwości, który szeregowo połączony jest z układem redukcji liczby kanałów poprzez drugi układ do selektywnego skalowania poziomu składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości i drugi układ do przekształcenia sygnału fonicznego do dziedziny czasu. Wynalazek składa się również z trzeciego układu do przekształcenia sygnału fonicznego do dziedziny częstotliwości, który szeregowo połączony jest z układem redukcji liczby kanałów poprzez trzeci układ do selektywnego skalowania poziomu składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości i trzeci układ do przekształcenia sygnału fonicznego do dziedziny czasu. Pierwszy układ do przekształcenia sygnału fonicznego do dziedziny częstotliwości równolegle połączony jest z drugim układem do przekształcenia sygnału fonicznego do dziedziny częstotliwości korzystnie poprzez pierwszy układ do porównania sygnałów fonicznych w dziedzinie częstotliwości, zaś drugi układ do przekształcenia sygnału fonicznego do dziedziny częstotliwości równolegle połączony jest z trzecim układem do przekształcenia sygnału fonicznego do dziedziny częstotliwości korzystnie poprzez drugi układ do porównania sygnałów fonicznych w dziedzinie częstotliwości. Pierwszy układ do porównania sygnałów fonicznych w dziedzinie częstotliwości połączony jest z układem do identyfikacji składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości oraz drugi układ do porównania sygnałów fonicznych w dziedzinie częstotliwości połączony jest z układem do identyfikacji składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości. Układ do identyfikacji składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości połączony jest z pierwszym układem do selektywnego skalowania składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości i jednocześnie z drugim układem do skalowania składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości oraz z trzecim układem do selektywnego skalowania składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości.
Istotą wynalazku jest identyfikacja sygnałów związanych z mową i niepożądanych sygnałów związanych, które mogą zakłócać mowę i negatywnie wpływać na jej zrozumienie. Na podstawie tej identyfikacji możliwa jest modyfikacja poziomu tych składowych sygnału związanych z mową w celu zwiększenia zrozumiałości jej mowy.
PL 223 134 B1
Wynalazek umożliwia zwiększenie wyrazistości dźwięków mowy na tle innych dźwięków występujących w wielokanałowym sygnale multimedialnym.
Wynalazek umożliwia poprawę zrozumiałości mowy w przypadku obecności silnych zakłóceń zewnętrznych lub w przypadku występowania u słuchacza problemów ze słuchem. Wzmocnienie poziomu składowych sygnału, według wynalazku wpływa korzystnie na możliwość oddzielenia mowy od innych dźwięków w centralnym ośrodku słuchu w mózgu, co jest korzystnie gdy język mowy obecny w sygnale fonicznym nie jest macierzystym językiem słuchacza.
Wynalazek wykorzystuje się w wielu typach mediów takich jak filmy, audycje telewizyjne, telekonferencje, w których mowa jest istotnym nośnikiem informacji. Wynalazek jest również wykorzyst ywany w komunikacji, gdy sygnałowi mowy towarzyszą niechciane dźwięki, zwłaszcza hałas pochodzący z otoczenia.
Wynalazek został bliżej wyjaśniony w przykładach wykonania i na rysunku, na którym na fig. 1 przedstawiono ogólny schemat sposobu według wynalazku, na fig. 2 przedstawiono ogólny schemat sposobu poprawy zrozumiałości mowy w dziedzinie częstotliwości, na fig. 3 przedstawiono schemat układu do poprawy zrozumiałości mowy w dziedzinie częstotliwości, a na fig. 4 przedstawiono sposób identyfikacji składowych częstotliwościowych w sygnale fonicznym.
P r z y k ł a d 1
Modyfikacja filmowej ścieżki dźwiękowej odtwarzanej z komputera
Źródłem wielokanałowego sygnału wizyjno-fonicznego 1 jest nośnik danych podłączony do komputera. Jak pokazano na fig. 1 sygnał wizyjno-foniczny składa się z N kanałów, z których jeden kanał zawiera sygnał mowy.
W sygnale wizyjno-fonicznym analizuje się składowe sygnału fonicznego 6. W pierwszej kolejności identyfikacji są poddawane składowe sygnału fonicznego związane z mową 2. Następnie przetwarza się sygnał foniczny poprzez selektywne skalowanie poziomu składowych w celu zwiększenia zrozumiałości mowy 3. W dalszej kolejności redukuje się liczbę kanałów sygnału fonicznego 4, do M kanałów.
W zależności od tytułu odtwarzanego filmu dostosowywany jest poziom skalowania składowych. Informacja o tym, jak skalowany jest poziom składowych sygnału w danym momencie filmu jest zapisywana w formie metadanych dołączonych do pliku multimedialnego lub rejestrowania i pobierana z zewnętrznej bazy danych za pośrednictwem sieci Internet w celu jej wykorzystania do uproszczenia obliczeń, w sytuacji gdy ponownie przetwarzany jest ten sam materiał multimedialny.
Informacje o identyfikacji składowych sygnału oraz o stopniu skalowania składowych sygnału dołącza się do sygnału w formie metadanych.
Ostatecznie przetworzone kanały podawane są na przetworniki wyjściowe 5, stanowiące głośniki podłączone do komputera.
P r z y k ł a d 2
Modyfikacja filmowej ścieżki dźwiękowej w formacie 5.1
Jak pokazano na fig. 2 i fig. 3 układ do modyfikacji filmowej ścieżki dźwiękowej składa się z dekodera sygnału 9 współpracującego ze źródłem sygnału wizyjno-fonicznego 1, układu do filtrowania sygnału fonicznego 6, układu redukcji liczby kanałów 4 w wielokanałowym sygnale fonicznym.
Układ do filtrowania sygnału fonicznego 6 składa się z pierwszego układu do przekształcenia sygnału fonicznego do dziedziny częstotliwości 7A, drugiego układu do przekształcenia sygnału fonicznego do dziedziny częstotliwości 7B, trzeciego układu do przekształcenia sygnału fonicznego do dziedziny częstotliwości 7C.
Pierwszy układ do przekształcenia sygnału fonicznego do dziedziny częstotliwości 7A szeregowo połączony jest z układem redukcji liczby kanałów 4 poprzez pierwszy układ do selektywnego skalowania składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości 3A i pierwszy układ do przekształcenia sygnału fonicznego do dziedziny czasu 8A. Drugi układ do przekształcenia sygnału fonicznego do dziedziny częstotliwości 7B szeregowo połączony jest z układem redukcji lic zby kanałów 4 poprzez drugi układ do selektywnego skalowania składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości 3B i drugi układ do przekształcenia sygnału fonicznego do dziedziny czasu 8B. Trzeci układ do przekształcenia sygnału fonicznego do dziedziny częstotliwości 7C szeregowo połączony jest z układem redukcji liczby kanałów 4 poprzez trzeci układ do selektywnego skalowania składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości 3C i trzeci układ do przekształcenia sygnału fonicznego do dziedziny czasu 8C. Pierwszy układ do przekształcenia sygnału fonicznego do dziedziny częstotliwości 7A równolegle połączony jest z drugim
PL 223 134 B1 układem do przekształcenia sygnału fonicznego do dziedziny częstotliwości 7B poprzez pierwszy układ do porównania sygnału fonicznego w dziedzinie częstotliwości 11A. Drugi układ do przekształcenia sygnału fonicznego do dziedziny częstotliwości 7B równolegle połączony jest z trzecim układem do przekształcenia sygnału fonicznego do dziedziny częstotliwości 7C poprzez drugi układ do porównania sygnału fonicznego w dziedzinie częstotliwości 11B. Pierwszy układ do porównania sygnału fonicznego w dziedzinie częstotliwości 11A połączony jest z układem do identyfikacji składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości 2. Drugi układ do porównania sygnału fonicznego w dziedzinie częstotliwości 11B połączony jest z układem do identyfikacji składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości 2.
Układ do identyfikacji składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości 2 połączony jest z pierwszym układem do selektywnego skalowania składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości 3A i jednocześnie z drugim układem do selektywnego skalowania składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości 3B oraz z trzecim układem do selektywnego skalowania składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości 3C.
Jak pokazano na fig. 3 źródło wielokanałowego sygnału foniczno-wizyjnego 1 dostarcza połączonych sygnałów fonicznych i wizyjnych. Wielokanałowy sygnał foniczny składa się z 6 dyskretnych kanałów fonicznych: przedniego środkowego C, przedniego lewego L, przedniego prawego R, lewego tylnego Ls, prawego tylnego Rs i niskoczęstotliwościowego LFE. Wielokanałowa ścieżka dźwiękowa jest dostosowywana do odsłuchu na dwóch głośnikach, w konfiguracji dwóch kanałów wyjściowych: lewego Lt i prawego Rt. Kanał przedni środkowy C zawiera dialogi filmowe oraz inne dźwięki, w tym tło dźwiękowe, efekty, muzykę ilustracyjną. Pozostałe kanały, w tym przedni lewy L i przedni prawy R, nie zawierają dialogów. W pierwszej kolejności dokonywane jest dekodowanie sygnału wizyjno fonicznego w dekoderze 9, w wyniku którego wydzielony jest sygnał wizyjny i wielokanałowy sygnał foniczny.
Przednie kanały L, C, R, po konwersji do dziedziny częstotliwości 7, podawane są na wejście układu, który analizuje podobieństwo sygnałów w dziedzinie częstotliwości 11.
Na podstawie wyników dysparycji dokonywana jest identyfikacja składowych częstotliwościowych w kanale środkowym 2, które związane są z mową. Identyfikację składowych częstotliwościowych sygnału fonicznego, które są związane z mową, przedstawiono na fig. 4, gdzie wykreślone są widma sygnałów fonicznych w kanałach przednich (przedni lewy - |L(f)|, przedni środkowy - |C(f)| i przedni prawy - |R(f)|), a składowe widma sygnału, które są związane z mową, oznaczono okręgami.
Następnie w kanałach przednich dokonywane jest selektywne skalowanie poziomu składowych częstotliwościowych w układzie selektywnego skalowania poziomu składowych częstotliwościowych w dziedzinie częstotliwości 3, polegające na wzmocnieniu składowych częstotliwościowych kanału środkowego C, które są związane z mową i osłabieniu składowych kanałów bocznych L, R, które wpływają negatywnie na zrozumiałość mowy.
Następnie kanały są przetwarzane do postaci czasowej poprzez układ do konwersji sygnału fonicznego do dziedziny czasu 8. Przetworzone kanały przednie, wraz z pozostałymi kanałami Ls, Rs, LFE, zostają podane na wejście układu redukcji liczby kanałów 4, którego wyjście stanowią docelowe kanały stereofoniczne lewy Lt i prawy Rt.
P r z y k ł a d 3
Sposób poprawy zrozumiałości mowy podczas telekonferencji
W telekonferencji bierze udział czterech uczestników, którzy znajdują się w otoczeniu, w którym występują zakłócenia, w tym szum uliczny, odgłosy innych rozmów, hałas wewnątrz pojazdu. Zakłócenia te przenikają drogą akustyczną do sygnałów nadawanych przez układ nadawczy.
Rozmówcy są wyposażeni w układy akwizycji sygnału wyposażone w przetwornik odbiorczy, przedwzmacniacz i przetwornik analogowo-cyfrowy. Po zakodowaniu wielokanałowy sygnał foniczny jest przesyłany do mówcy znajdującego sie po stronie odbiorczej z wykorzystaniem medium transmisyjnego. Każdy z czterech przesłanych kanałów odpowiada sygnałowi od jednego z mówców. Oprócz mowy w tych sygnałach obecne są również inne dźwięki, w tym zakłócenia pochodzące z zewnątrz, które przeniknęły drogą akustyczną do sygnału nadawanego przez rozmówców.
Postępuje się jak pokazano na fig. 1 i opisano w przykładzie 1, z tym, że identyfikuje się składowe częstotliwościowe związane z mową w dziedzinie czasu, a następnie selektywnie skaluje się poziom składowych sygnału fonicznego związanych z mową w dziedzinie czasu, po czym dokonuje się redukcji liczby kanałów z czterech do dwóch, w celu dostosowania sygnału do odtwarzania na
PL 223 134 B1 dwóch przetwornikach wyjściowych po stronie odbiorcy. Odbiorca telekonferencji korzysta z komputera przenośnego, który jest wyposażony w dwa głośniki.
Sposób umożliwia poprawę zrozumiałości mowy w sygnale pochodzącym od uczestników znajdujących sie po stronie nadawczej, zwłaszcza w przypadku, gdy uczestnik po stronie odbiorczej również znajdował się w warunkach, w których występują znaczne zakłócenia.

Claims (8)

Zastrzeżenia patentowe
1. Sposób poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłaszcza wizyjno-fonicznym, polegający na analizie sygnału fonicznego, przetwarzaniu sygnału fonicznego poprzez filtrowanie sygnału fonicznego a następnie redukcji liczby kanałów sygnału fonicznego, znamienny tym, że analizuje się sygnał foniczny poprzez dokonanie identyfikacji składowych sygnału fonicznego związanych z mową, a następnie przetwarza się sygnał foniczny poprzez selektywne sk alowanie poziomu składowych tego sygnału, po czym redukuje się liczbę kanałów sygnału fonicznego.
2. Sposób według zastrz. 1, znamienny tym, że przetwarza się sygnał foniczny do dziedziny częstotliwości za pomocą transformacji sygnału, a następnie identyfikuje się składowe częstotliwościowe sygnału fonicznego związane z mową w dziedzinie częstotliwości, po czym selektywnie skaluje się poziom składowych częstotliwościowych tego sygnału w dziedzinie częstotliwości, a następnie przekształca się sygnał foniczny do dziedziny czasu.
3. Sposób według zastrz. 1, znamienny tym, że identyfikuje się składowe sygnału fonicznego związane z mową w dziedzinie czasu, a następnie, na podstawie identyfikacji składowych sygnału fonicznego, poziom składowych tego sygnału selektywnie skaluje się w dziedzinie czasu.
4. Sposób według zastrz. 2, znamienny tym, że identyfikacji składowych częstotliwościowych sygnału fonicznego związanych z mową dokonuje się poprzez porównanie między sobą sygnału w poszczególnych kanałach wielokanałowego sygnału fonicznego w dziedzinie częstotliwości.
5. Sposób według zastrz. 3, znamienny tym, że analizuje się sygnał foniczny poprzez bank filtrów analizy, po czym dokonuje identyfikacji składowych sygnału związanych z mową a następnie poziom składowych sygnału fonicznego selektywnie skaluje się z wykorzystaniem banku filtrów syntezy.
6. Sposób według zastrz. 3, znamienny tym, że dokonuje się identyfikacji składowych związanych z mową poprzez porównanie między sobą sygnału w kanałach wielokanałowego sygnału fonic znego w dziedzinie czasu.
7. Sposób według zastrz. 1-6, znamienny tym, że informacje o identyfikacji składowych sygnału oraz o stopniu skalowania składowych sygnału dołącza się do sygnału w formie metadanych lub zapisuje się w zewnętrznej bazie danych.
8. Układ do poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłas zcza wizyjno-fonicznym składający się z dekodera sygnału (9) współpracującego ze źródłem sygnału wizyjno-fonicznego (1), układu do odtwarzania sygnału wizyjnego (10), układu do filtrowania sygnału fonicznego (6) oraz układu redukqi liczby kanałów (4), znamienny tym, że układ do filtrowania sygnału fonicznego (6) składa się z pierwszego układu do przekształcenia sygnału fonicznego do dziedziny częstotliwości (7A), który szeregowo połączony jest z układem redukcji liczby kanałów (4) poprzez pierwszy układ do selektywnego skalowania poziomu składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości (3A) i pierwszy układ do przekształcenia sygnału fonicznego do dziedziny czasu (8A), drugiego układu do przekształcenia sygnału fonicznego do dziedziny częstotliwości (7B), który szeregowo połączony jest z układem redukcji liczby kanałów (4) poprzez drugi układ do selektywnego skalowania poziomu składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości (3B) i drugi układ do przekształcenia sygnału fonicznego do dziedziny czasu (8B), trzeciego układu do przekształcenia sygnału fonicznego do dziedziny częstotliwości (7C), który szer egowo połączony jest z układem redukcji liczby kanałów (4) poprzez trzeci układ do selektywnego skalowania poziomu składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości (3C) i trzeci układ do przekształcenia sygnału fonicznego do dziedziny czasu (8C), przy czym pierwszy układ do przekształcenia sygnału fonicznego do dziedziny częstotliwości (7A) równolegle połączony jest z drugim układem do przekształcenia sygnału fonicznego do dziedziny częstotliwości (7B) k orzystnie poprzez pierwszy układ do porównania sygnałów fonicznych w dziedzinie częstotliwości (11 A), zaś drugi układ do przekształcenia sygnału fonicznego do dziedziny częstotliwości (7B) równolegle połączony jest z trzecim układem do przekształcenia sygnału fonicznego do dziedziny częstotl iPL 223 134 B1 wości (7C) korzystnie poprzez drugi układ do porównania sygnałów fonicznych w dziedzinie częstotl iwości (11B), zaś pierwszy układ do porównania sygnałów fonicznych w dziedzinie częstotliwości (11 A) połączony jest z układem do identyfikacji składowych częstotliwościowych sygnału fonicznego w dzi edzinie częstotliwości (2) a drugi układ do porównania sygnałów fonicznych w dziedzinie częstotliwości (11B) połączony jest z układem do identyfikaqi składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości (2), przy czym układ do identyfikacji składowych częstotliwościowych s ygnału fonicznego w dziedzinie częstotliwości (2) połączony jest z pierwszym układem do selektywnego skalowania składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości (3A) i jednocześnie z drugim układem do skalowania składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości (3B) oraz z trzecim układem do selektywnego skalowania składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości (3C).
PL402373A 2013-01-07 2013-01-07 Sposób poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłaszcza wizyjno-fonicznym i układ do realizacji sposobu PL223134B1 (pl)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PL402373A PL223134B1 (pl) 2013-01-07 2013-01-07 Sposób poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłaszcza wizyjno-fonicznym i układ do realizacji sposobu

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PL402373A PL223134B1 (pl) 2013-01-07 2013-01-07 Sposób poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłaszcza wizyjno-fonicznym i układ do realizacji sposobu

Publications (2)

Publication Number Publication Date
PL402373A1 PL402373A1 (pl) 2014-07-21
PL223134B1 true PL223134B1 (pl) 2016-10-31

Family

ID=51179246

Family Applications (1)

Application Number Title Priority Date Filing Date
PL402373A PL223134B1 (pl) 2013-01-07 2013-01-07 Sposób poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłaszcza wizyjno-fonicznym i układ do realizacji sposobu

Country Status (1)

Country Link
PL (1) PL223134B1 (pl)

Also Published As

Publication number Publication date
PL402373A1 (pl) 2014-07-21

Similar Documents

Publication Publication Date Title
JP5635669B2 (ja) オーディオ入力信号の反響コンテンツを抽出および変更するためのシステム
RU2520420C2 (ru) Способ и система для масштабирования подавления слабого сигнала более сильным в относящихся к речи каналах многоканального звукового сигнала
CA2903900C (en) Apparatus and method for multichannel direct-ambient decomposition for audio signal processing
US20190206417A1 (en) Content-based audio stream separation
EP3189521B1 (en) Method and apparatus for enhancing sound sources
KR20180056752A (ko) 초광대역 음악을 위한 적응적 잡음 억제
US20070076902A1 (en) Method and Apparatus for Removing or Isolating Voice or Instruments on Stereo Recordings
JPWO2005112002A1 (ja) オーディオ信号符号化装置及びオーディオ信号復号化装置
CN101842834A (zh) 包括语音信号处理在内的生成多声道信号的设备和方法
KR20240033108A (ko) 음성인식 오디오 시스템 및 방법
US20220060824A1 (en) An Audio Capturing Arrangement
CN101341792A (zh) 使用两个输入声道合成三个输出声道的装置与方法
US12014710B2 (en) Device, method and computer program for blind source separation and remixing
CN111009259B (zh) 一种音频处理方法和装置
US9485578B2 (en) Audio format
PL223134B1 (pl) Sposób poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłaszcza wizyjno-fonicznym i układ do realizacji sposobu
JP4644876B2 (ja) 音声処理装置
EP4366328A3 (en) Hearing device, system and method for processing audio signals
Li et al. Effect of the division between early and late reflections on intelligibility of ideal binary-masked speech
Ansa et al. Cepstral smoothing of separated signals for underdetermined speech separation
Frank et al. Subjective sound quality evaluation of a codec for digital wireless transmission
US20240056735A1 (en) Stereo headphone psychoacoustic sound localization system and method for reconstructing stereo psychoacoustic sound signals using same
EP3029671A1 (en) Method and apparatus for enhancing sound sources
Stahl Situation-Aware and Perceptually Informed Signal Processing for Small Microphone Arrays
Zarouchas et al. A perceptual measure for assessing and removing reverberation from audio signals