PL223134B1 - Sposób poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłaszcza wizyjno-fonicznym i układ do realizacji sposobu - Google Patents
Sposób poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłaszcza wizyjno-fonicznym i układ do realizacji sposobuInfo
- Publication number
- PL223134B1 PL223134B1 PL402373A PL40237313A PL223134B1 PL 223134 B1 PL223134 B1 PL 223134B1 PL 402373 A PL402373 A PL 402373A PL 40237313 A PL40237313 A PL 40237313A PL 223134 B1 PL223134 B1 PL 223134B1
- Authority
- PL
- Poland
- Prior art keywords
- audio signal
- signal
- frequency
- circuit
- components
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000005236 sound signal Effects 0.000 claims abstract description 104
- 238000004458 analytical method Methods 0.000 claims abstract description 3
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 10
- 230000001131 transforming effect Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 238000003786 synthesis reaction Methods 0.000 claims description 2
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Landscapes
- Time-Division Multiplex Systems (AREA)
- Stereophonic System (AREA)
Abstract
Przedmiotem wynalazku jest sposób poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłaszcza wizyjno-fonicznym, który charakteryzuje się tym, że analizuje się sygnał foniczny poprzez dokonanie identyfikacji składowych sygnału fonicznego związanych z mową, a następnie przetwarza się sygnał foniczny poprzez selektywne skalowanie poziomu składowych tego sygnału, po czym redukuje się liczbę kanałów sygnału fonicznego. Przedmiotem wynalazku jest również układ do poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłaszcza wizyjno-fonicznym.
Description
Opis wynalazku
Przedmiotem wynalazku jest sposób poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłaszcza wizyjno-fonicznym i układ do realizacji sposobu.
Sygnał multimedialny w formie sygnału wizyjnego z towarzyszącym mu wielokanałowym sygnałem fonicznym jest często spotykany w powszechnych treściach multimedialnych, w tym w filmach lub audycjach telewizyjnych. Sygnał foniczny ma często formę sygnału wielokanałowego, w którym jeden z kanałów - kanał środkowy zawiera dźwięki mowy, stanowiące ścieżkę dialogową. W pozostałych kanałach znajdują się dźwięki takie jak muzyka ilustracyjna, tło akustyczne i efekty dźwiękowe. Sygnał foniczny powinien być odsłuchiwany na odpowiednim zestawie głośników, w którym każdemu kanałowi fonicznemu odpowiada osobny głośnik. Użytkownik niedysponujący takim zestawem może odsłuchiwać tylko ścieżkę dźwiękową z wykorzystaniem mniejszej liczby głośników, głównie dwóch. Dostosowanie wielokanałowej ścieżki dźwiękowej do odsłuchu na małej liczbie głośników powoduje, że dźwięki mowy występujące w ścieżce dźwiękowej nie są wyraźne, zwłaszcza przy niskiej jakości głośników lub znacznym poziomie zakłóceń z zewnątrz. Istnieje zatem potrzeba ułatwienia zrozumiałości dialogów.
W przekazywaniu lub odtwarzaniu sygnału fonicznego, zwłaszcza gdy towarzyszy on sygnałowi wizyjnemu, istotna w jego odbiorze jest zrozumiałość mowy w nim zawartej. Na zrozumiałość sygnału mowy w sygnale fonicznym niekorzystnie wpływają zakłócenia towarzyszące, w tym dźwięki występujące w otoczeniu odbiorcy oraz dźwięki znajdujące się w sygnale fonicznym, będące innymi dźwiękami niż dźwięki mowy. W przypadku, gdy transmitowany lub odtwarzany sygnał składa się z wielu kanałów, niektóre z tych kanałów zawierają, oprócz innych dźwięków, dźwięki mowy.
Z amerykańskiego patentu nr 6650752 znane jest urządzenie do dekodowania sygnału fonicznego z kontrolą stosunku głośności sygnału mowy do pozostałych dźwięków. Urządzenie przyjmuje na wejściu wiele kanałów fonicznych, z których kanał środkowy jest kanałem zawierającym mowę, a pozostałe kanały zawierają inne dźwięki. Następnie dokonywane jest porównanie poziomu kanału środkowego i pozostałych kanałów celem ustanowienia pożądanego stosunku poziomów mowy do pozostałych dźwięków w kanale wyjściowym.
Ze zgłoszenia PCT/US2010/34310 znany jest sposób prezentacji dźwięku wielokanałowego polegający na ekstrakcji kanału środkowego zawierającego mowę, którego wyjście podawane jest na osobny przetwornik wyjściowy lub wypromieniowane jest w innym kierunku niż pozostałe kanały dźwiękowe. Sposób ten polega na poprawie zrozumiałości mowy poprzez emitowanie sygnału dialogów z innego głośnika lub w innym kierunku niż inne dźwięki.
Z patentu nr US8050434 znany jest układ wzbogacenia dźwięku w systemie odsłuchu wielokanałowego. Układ przyjmuje na wejściu wielokanałowy sygnał foniczny, dokonuje dekodowania i przetwarzania sygnałów w poszczególnych kanałach, które ma na celu poprawę brzmienia niskich częstotliwości lub poprawę wyrazistości dialogów. Układ umożliwia uzyskanie poprawy zrozumiałości dialogów poprzez dostosowanie wzmocnienia kanałów i filtrację lub poprzez wzmocnienie formantów w wysokoczęstotliwościowym zakresie widma mowy.
Ze zgłoszenia patentowego US2011/0119061 znany jest sposób i układ poprawy zrozumiałości dialogów w systemie dekodowania dźwięku stereofonicznego poprzez konwersję do większej liczby kanałów, a następnie poddawanie kanału centralnego przetwarzaniu mającemu na celu zwiększenie zrozumiałości mowy. W wynalazku tym stosuje się filtrację uwypuklającej częstotliwości, co jest kluczowe dla zrozumienia mowy. Wzmocnienie filtra jest dostosowywane w zależności od wykrycia bądź niewykrycia występowania dialogu w oryginalnej ścieżce dźwiękowej. Częstotliwości graniczne filtra są natomiast z góry zadane i filtracja działa na cały zakres częstotliwości.
Z japońskiego zgłoszenia patentowego nr JP2005157363 znany jest sposób poprawy zrozumiałości sygnału mowy poprzez wzmocnienie regionów częstotliwości, w których znajdują się kluczowe dla poprawy zrozumiałości mowy skupiska energii, tj. formanty, w zakresie częstotliwości, w którym został wykryty formant.
Sposób poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłaszcza wizyjno-fonicznym, polegający na analizie sygnału fonicznego, przetwarzaniu sygnału fonicznego poprzez filtrowanie sygnału fonicznego a następnie redukcji liczby kanałów sygnału fonicznego, charakteryzuje się według wynalazku tym, że analizuje się sygnał foniczny poprzez dokonanie identyfikacji składowych sygnału fonicznego związanych z mową, a następnie przetwarza się sygnał
PL 223 134 B1 foniczny poprzez selektywne skalowanie poziomu składowych tego sygnału, po czym redukuje się liczbę kanałów sygnału fonicznego.
W wariancie wynalazku przetwarza się sygnał foniczny do dziedziny częstotliwości za pomocą transformacji sygnału, a następnie identyfikuje się składowe częstotliwościowe sygnału fonicznego związane z mową w dziedzinie częstotliwości, po czym selektywnie skaluje się poziom składowych częstotliwościowych tego sygnału w dziedzinie częstotliwości, a następnie przekształca się sygnał foniczny do dziedziny czasu.
W wariancie wynalazku identyfikuje się składowe sygnału fonicznego związane z mową w dziedzinie czasu, a następnie, na podstawie identyfikacji składowych sygnału fonicznego, poziom składowych tego sygnału selektywnie skaluje się w dziedzinie czasu.
W korzystnym wariancie wynalazku identyfikacji składowych częstotliwościowych sygnału fonicznego związanych z mową dokonuje się poprzez porównanie między sobą sygnału w poszczególnych kanałach wielokanałowego sygnału fonicznego w dziedzinie częstotliwości.
W kolejnym korzystnym wariancie wynalazku analizuje się sygnał foniczny poprzez bank filtrów analizy, po czym dokonuje identyfikacji składowych sygnału związanych z mową a następnie poziom składowych sygnału fonicznego selektywnie skaluje się z wykorzystaniem banku filtrów syntezy.
W innym korzystnym wariancie wynalazku dokonuje się identyfikacji składowych związanych z mową poprzez porównanie między sobą sygnału w kanałach wielokanałowego sygnału fonicznego w dziedzinie czasu.
W wariantach wynalazku informacje o identyfikacji składowych sygnału oraz o stopniu skalowania składowych sygnału dołącza się do sygnału w formie metadanych lub zapisuje się w zewnętrznej bazie danych.
Innym wynalazkiem jest układ do poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłaszcza wizyjno-fonicznym który charakteryzuje się tym, że układ do filtrowania sygnału fonicznego składa się z pierwszego układu do przekształcenia sygnału fonicznego do dziedziny częstotliwości, który szeregowo połączony jest z układem redukcji liczby kanałów poprzez pierwszy układ do selektywnego skalowania poziomu składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości i pierwszy układ do przekształcenia sygnału fonicznego do dzi edziny czasu. Wynalazek składa się również z drugiego układu do przekształcenia sygnału fonicznego do dziedziny częstotliwości, który szeregowo połączony jest z układem redukcji liczby kanałów poprzez drugi układ do selektywnego skalowania poziomu składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości i drugi układ do przekształcenia sygnału fonicznego do dziedziny czasu. Wynalazek składa się również z trzeciego układu do przekształcenia sygnału fonicznego do dziedziny częstotliwości, który szeregowo połączony jest z układem redukcji liczby kanałów poprzez trzeci układ do selektywnego skalowania poziomu składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości i trzeci układ do przekształcenia sygnału fonicznego do dziedziny czasu. Pierwszy układ do przekształcenia sygnału fonicznego do dziedziny częstotliwości równolegle połączony jest z drugim układem do przekształcenia sygnału fonicznego do dziedziny częstotliwości korzystnie poprzez pierwszy układ do porównania sygnałów fonicznych w dziedzinie częstotliwości, zaś drugi układ do przekształcenia sygnału fonicznego do dziedziny częstotliwości równolegle połączony jest z trzecim układem do przekształcenia sygnału fonicznego do dziedziny częstotliwości korzystnie poprzez drugi układ do porównania sygnałów fonicznych w dziedzinie częstotliwości. Pierwszy układ do porównania sygnałów fonicznych w dziedzinie częstotliwości połączony jest z układem do identyfikacji składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości oraz drugi układ do porównania sygnałów fonicznych w dziedzinie częstotliwości połączony jest z układem do identyfikacji składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości. Układ do identyfikacji składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości połączony jest z pierwszym układem do selektywnego skalowania składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości i jednocześnie z drugim układem do skalowania składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości oraz z trzecim układem do selektywnego skalowania składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości.
Istotą wynalazku jest identyfikacja sygnałów związanych z mową i niepożądanych sygnałów związanych, które mogą zakłócać mowę i negatywnie wpływać na jej zrozumienie. Na podstawie tej identyfikacji możliwa jest modyfikacja poziomu tych składowych sygnału związanych z mową w celu zwiększenia zrozumiałości jej mowy.
PL 223 134 B1
Wynalazek umożliwia zwiększenie wyrazistości dźwięków mowy na tle innych dźwięków występujących w wielokanałowym sygnale multimedialnym.
Wynalazek umożliwia poprawę zrozumiałości mowy w przypadku obecności silnych zakłóceń zewnętrznych lub w przypadku występowania u słuchacza problemów ze słuchem. Wzmocnienie poziomu składowych sygnału, według wynalazku wpływa korzystnie na możliwość oddzielenia mowy od innych dźwięków w centralnym ośrodku słuchu w mózgu, co jest korzystnie gdy język mowy obecny w sygnale fonicznym nie jest macierzystym językiem słuchacza.
Wynalazek wykorzystuje się w wielu typach mediów takich jak filmy, audycje telewizyjne, telekonferencje, w których mowa jest istotnym nośnikiem informacji. Wynalazek jest również wykorzyst ywany w komunikacji, gdy sygnałowi mowy towarzyszą niechciane dźwięki, zwłaszcza hałas pochodzący z otoczenia.
Wynalazek został bliżej wyjaśniony w przykładach wykonania i na rysunku, na którym na fig. 1 przedstawiono ogólny schemat sposobu według wynalazku, na fig. 2 przedstawiono ogólny schemat sposobu poprawy zrozumiałości mowy w dziedzinie częstotliwości, na fig. 3 przedstawiono schemat układu do poprawy zrozumiałości mowy w dziedzinie częstotliwości, a na fig. 4 przedstawiono sposób identyfikacji składowych częstotliwościowych w sygnale fonicznym.
P r z y k ł a d 1
Modyfikacja filmowej ścieżki dźwiękowej odtwarzanej z komputera
Źródłem wielokanałowego sygnału wizyjno-fonicznego 1 jest nośnik danych podłączony do komputera. Jak pokazano na fig. 1 sygnał wizyjno-foniczny składa się z N kanałów, z których jeden kanał zawiera sygnał mowy.
W sygnale wizyjno-fonicznym analizuje się składowe sygnału fonicznego 6. W pierwszej kolejności identyfikacji są poddawane składowe sygnału fonicznego związane z mową 2. Następnie przetwarza się sygnał foniczny poprzez selektywne skalowanie poziomu składowych w celu zwiększenia zrozumiałości mowy 3. W dalszej kolejności redukuje się liczbę kanałów sygnału fonicznego 4, do M kanałów.
W zależności od tytułu odtwarzanego filmu dostosowywany jest poziom skalowania składowych. Informacja o tym, jak skalowany jest poziom składowych sygnału w danym momencie filmu jest zapisywana w formie metadanych dołączonych do pliku multimedialnego lub rejestrowania i pobierana z zewnętrznej bazy danych za pośrednictwem sieci Internet w celu jej wykorzystania do uproszczenia obliczeń, w sytuacji gdy ponownie przetwarzany jest ten sam materiał multimedialny.
Informacje o identyfikacji składowych sygnału oraz o stopniu skalowania składowych sygnału dołącza się do sygnału w formie metadanych.
Ostatecznie przetworzone kanały podawane są na przetworniki wyjściowe 5, stanowiące głośniki podłączone do komputera.
P r z y k ł a d 2
Modyfikacja filmowej ścieżki dźwiękowej w formacie 5.1
Jak pokazano na fig. 2 i fig. 3 układ do modyfikacji filmowej ścieżki dźwiękowej składa się z dekodera sygnału 9 współpracującego ze źródłem sygnału wizyjno-fonicznego 1, układu do filtrowania sygnału fonicznego 6, układu redukcji liczby kanałów 4 w wielokanałowym sygnale fonicznym.
Układ do filtrowania sygnału fonicznego 6 składa się z pierwszego układu do przekształcenia sygnału fonicznego do dziedziny częstotliwości 7A, drugiego układu do przekształcenia sygnału fonicznego do dziedziny częstotliwości 7B, trzeciego układu do przekształcenia sygnału fonicznego do dziedziny częstotliwości 7C.
Pierwszy układ do przekształcenia sygnału fonicznego do dziedziny częstotliwości 7A szeregowo połączony jest z układem redukcji liczby kanałów 4 poprzez pierwszy układ do selektywnego skalowania składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości 3A i pierwszy układ do przekształcenia sygnału fonicznego do dziedziny czasu 8A. Drugi układ do przekształcenia sygnału fonicznego do dziedziny częstotliwości 7B szeregowo połączony jest z układem redukcji lic zby kanałów 4 poprzez drugi układ do selektywnego skalowania składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości 3B i drugi układ do przekształcenia sygnału fonicznego do dziedziny czasu 8B. Trzeci układ do przekształcenia sygnału fonicznego do dziedziny częstotliwości 7C szeregowo połączony jest z układem redukcji liczby kanałów 4 poprzez trzeci układ do selektywnego skalowania składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości 3C i trzeci układ do przekształcenia sygnału fonicznego do dziedziny czasu 8C. Pierwszy układ do przekształcenia sygnału fonicznego do dziedziny częstotliwości 7A równolegle połączony jest z drugim
PL 223 134 B1 układem do przekształcenia sygnału fonicznego do dziedziny częstotliwości 7B poprzez pierwszy układ do porównania sygnału fonicznego w dziedzinie częstotliwości 11A. Drugi układ do przekształcenia sygnału fonicznego do dziedziny częstotliwości 7B równolegle połączony jest z trzecim układem do przekształcenia sygnału fonicznego do dziedziny częstotliwości 7C poprzez drugi układ do porównania sygnału fonicznego w dziedzinie częstotliwości 11B. Pierwszy układ do porównania sygnału fonicznego w dziedzinie częstotliwości 11A połączony jest z układem do identyfikacji składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości 2. Drugi układ do porównania sygnału fonicznego w dziedzinie częstotliwości 11B połączony jest z układem do identyfikacji składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości 2.
Układ do identyfikacji składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości 2 połączony jest z pierwszym układem do selektywnego skalowania składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości 3A i jednocześnie z drugim układem do selektywnego skalowania składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości 3B oraz z trzecim układem do selektywnego skalowania składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości 3C.
Jak pokazano na fig. 3 źródło wielokanałowego sygnału foniczno-wizyjnego 1 dostarcza połączonych sygnałów fonicznych i wizyjnych. Wielokanałowy sygnał foniczny składa się z 6 dyskretnych kanałów fonicznych: przedniego środkowego C, przedniego lewego L, przedniego prawego R, lewego tylnego Ls, prawego tylnego Rs i niskoczęstotliwościowego LFE. Wielokanałowa ścieżka dźwiękowa jest dostosowywana do odsłuchu na dwóch głośnikach, w konfiguracji dwóch kanałów wyjściowych: lewego Lt i prawego Rt. Kanał przedni środkowy C zawiera dialogi filmowe oraz inne dźwięki, w tym tło dźwiękowe, efekty, muzykę ilustracyjną. Pozostałe kanały, w tym przedni lewy L i przedni prawy R, nie zawierają dialogów. W pierwszej kolejności dokonywane jest dekodowanie sygnału wizyjno fonicznego w dekoderze 9, w wyniku którego wydzielony jest sygnał wizyjny i wielokanałowy sygnał foniczny.
Przednie kanały L, C, R, po konwersji do dziedziny częstotliwości 7, podawane są na wejście układu, który analizuje podobieństwo sygnałów w dziedzinie częstotliwości 11.
Na podstawie wyników dysparycji dokonywana jest identyfikacja składowych częstotliwościowych w kanale środkowym 2, które związane są z mową. Identyfikację składowych częstotliwościowych sygnału fonicznego, które są związane z mową, przedstawiono na fig. 4, gdzie wykreślone są widma sygnałów fonicznych w kanałach przednich (przedni lewy - |L(f)|, przedni środkowy - |C(f)| i przedni prawy - |R(f)|), a składowe widma sygnału, które są związane z mową, oznaczono okręgami.
Następnie w kanałach przednich dokonywane jest selektywne skalowanie poziomu składowych częstotliwościowych w układzie selektywnego skalowania poziomu składowych częstotliwościowych w dziedzinie częstotliwości 3, polegające na wzmocnieniu składowych częstotliwościowych kanału środkowego C, które są związane z mową i osłabieniu składowych kanałów bocznych L, R, które wpływają negatywnie na zrozumiałość mowy.
Następnie kanały są przetwarzane do postaci czasowej poprzez układ do konwersji sygnału fonicznego do dziedziny czasu 8. Przetworzone kanały przednie, wraz z pozostałymi kanałami Ls, Rs, LFE, zostają podane na wejście układu redukcji liczby kanałów 4, którego wyjście stanowią docelowe kanały stereofoniczne lewy Lt i prawy Rt.
P r z y k ł a d 3
Sposób poprawy zrozumiałości mowy podczas telekonferencji
W telekonferencji bierze udział czterech uczestników, którzy znajdują się w otoczeniu, w którym występują zakłócenia, w tym szum uliczny, odgłosy innych rozmów, hałas wewnątrz pojazdu. Zakłócenia te przenikają drogą akustyczną do sygnałów nadawanych przez układ nadawczy.
Rozmówcy są wyposażeni w układy akwizycji sygnału wyposażone w przetwornik odbiorczy, przedwzmacniacz i przetwornik analogowo-cyfrowy. Po zakodowaniu wielokanałowy sygnał foniczny jest przesyłany do mówcy znajdującego sie po stronie odbiorczej z wykorzystaniem medium transmisyjnego. Każdy z czterech przesłanych kanałów odpowiada sygnałowi od jednego z mówców. Oprócz mowy w tych sygnałach obecne są również inne dźwięki, w tym zakłócenia pochodzące z zewnątrz, które przeniknęły drogą akustyczną do sygnału nadawanego przez rozmówców.
Postępuje się jak pokazano na fig. 1 i opisano w przykładzie 1, z tym, że identyfikuje się składowe częstotliwościowe związane z mową w dziedzinie czasu, a następnie selektywnie skaluje się poziom składowych sygnału fonicznego związanych z mową w dziedzinie czasu, po czym dokonuje się redukcji liczby kanałów z czterech do dwóch, w celu dostosowania sygnału do odtwarzania na
PL 223 134 B1 dwóch przetwornikach wyjściowych po stronie odbiorcy. Odbiorca telekonferencji korzysta z komputera przenośnego, który jest wyposażony w dwa głośniki.
Sposób umożliwia poprawę zrozumiałości mowy w sygnale pochodzącym od uczestników znajdujących sie po stronie nadawczej, zwłaszcza w przypadku, gdy uczestnik po stronie odbiorczej również znajdował się w warunkach, w których występują znaczne zakłócenia.
Claims (8)
1. Sposób poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłaszcza wizyjno-fonicznym, polegający na analizie sygnału fonicznego, przetwarzaniu sygnału fonicznego poprzez filtrowanie sygnału fonicznego a następnie redukcji liczby kanałów sygnału fonicznego, znamienny tym, że analizuje się sygnał foniczny poprzez dokonanie identyfikacji składowych sygnału fonicznego związanych z mową, a następnie przetwarza się sygnał foniczny poprzez selektywne sk alowanie poziomu składowych tego sygnału, po czym redukuje się liczbę kanałów sygnału fonicznego.
2. Sposób według zastrz. 1, znamienny tym, że przetwarza się sygnał foniczny do dziedziny częstotliwości za pomocą transformacji sygnału, a następnie identyfikuje się składowe częstotliwościowe sygnału fonicznego związane z mową w dziedzinie częstotliwości, po czym selektywnie skaluje się poziom składowych częstotliwościowych tego sygnału w dziedzinie częstotliwości, a następnie przekształca się sygnał foniczny do dziedziny czasu.
3. Sposób według zastrz. 1, znamienny tym, że identyfikuje się składowe sygnału fonicznego związane z mową w dziedzinie czasu, a następnie, na podstawie identyfikacji składowych sygnału fonicznego, poziom składowych tego sygnału selektywnie skaluje się w dziedzinie czasu.
4. Sposób według zastrz. 2, znamienny tym, że identyfikacji składowych częstotliwościowych sygnału fonicznego związanych z mową dokonuje się poprzez porównanie między sobą sygnału w poszczególnych kanałach wielokanałowego sygnału fonicznego w dziedzinie częstotliwości.
5. Sposób według zastrz. 3, znamienny tym, że analizuje się sygnał foniczny poprzez bank filtrów analizy, po czym dokonuje identyfikacji składowych sygnału związanych z mową a następnie poziom składowych sygnału fonicznego selektywnie skaluje się z wykorzystaniem banku filtrów syntezy.
6. Sposób według zastrz. 3, znamienny tym, że dokonuje się identyfikacji składowych związanych z mową poprzez porównanie między sobą sygnału w kanałach wielokanałowego sygnału fonic znego w dziedzinie czasu.
7. Sposób według zastrz. 1-6, znamienny tym, że informacje o identyfikacji składowych sygnału oraz o stopniu skalowania składowych sygnału dołącza się do sygnału w formie metadanych lub zapisuje się w zewnętrznej bazie danych.
8. Układ do poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłas zcza wizyjno-fonicznym składający się z dekodera sygnału (9) współpracującego ze źródłem sygnału wizyjno-fonicznego (1), układu do odtwarzania sygnału wizyjnego (10), układu do filtrowania sygnału fonicznego (6) oraz układu redukqi liczby kanałów (4), znamienny tym, że układ do filtrowania sygnału fonicznego (6) składa się z pierwszego układu do przekształcenia sygnału fonicznego do dziedziny częstotliwości (7A), który szeregowo połączony jest z układem redukcji liczby kanałów (4) poprzez pierwszy układ do selektywnego skalowania poziomu składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości (3A) i pierwszy układ do przekształcenia sygnału fonicznego do dziedziny czasu (8A), drugiego układu do przekształcenia sygnału fonicznego do dziedziny częstotliwości (7B), który szeregowo połączony jest z układem redukcji liczby kanałów (4) poprzez drugi układ do selektywnego skalowania poziomu składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości (3B) i drugi układ do przekształcenia sygnału fonicznego do dziedziny czasu (8B), trzeciego układu do przekształcenia sygnału fonicznego do dziedziny częstotliwości (7C), który szer egowo połączony jest z układem redukcji liczby kanałów (4) poprzez trzeci układ do selektywnego skalowania poziomu składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości (3C) i trzeci układ do przekształcenia sygnału fonicznego do dziedziny czasu (8C), przy czym pierwszy układ do przekształcenia sygnału fonicznego do dziedziny częstotliwości (7A) równolegle połączony jest z drugim układem do przekształcenia sygnału fonicznego do dziedziny częstotliwości (7B) k orzystnie poprzez pierwszy układ do porównania sygnałów fonicznych w dziedzinie częstotliwości (11 A), zaś drugi układ do przekształcenia sygnału fonicznego do dziedziny częstotliwości (7B) równolegle połączony jest z trzecim układem do przekształcenia sygnału fonicznego do dziedziny częstotl iPL 223 134 B1 wości (7C) korzystnie poprzez drugi układ do porównania sygnałów fonicznych w dziedzinie częstotl iwości (11B), zaś pierwszy układ do porównania sygnałów fonicznych w dziedzinie częstotliwości (11 A) połączony jest z układem do identyfikacji składowych częstotliwościowych sygnału fonicznego w dzi edzinie częstotliwości (2) a drugi układ do porównania sygnałów fonicznych w dziedzinie częstotliwości (11B) połączony jest z układem do identyfikaqi składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości (2), przy czym układ do identyfikacji składowych częstotliwościowych s ygnału fonicznego w dziedzinie częstotliwości (2) połączony jest z pierwszym układem do selektywnego skalowania składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości (3A) i jednocześnie z drugim układem do skalowania składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości (3B) oraz z trzecim układem do selektywnego skalowania składowych częstotliwościowych sygnału fonicznego w dziedzinie częstotliwości (3C).
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PL402373A PL223134B1 (pl) | 2013-01-07 | 2013-01-07 | Sposób poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłaszcza wizyjno-fonicznym i układ do realizacji sposobu |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PL402373A PL223134B1 (pl) | 2013-01-07 | 2013-01-07 | Sposób poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłaszcza wizyjno-fonicznym i układ do realizacji sposobu |
Publications (2)
Publication Number | Publication Date |
---|---|
PL402373A1 PL402373A1 (pl) | 2014-07-21 |
PL223134B1 true PL223134B1 (pl) | 2016-10-31 |
Family
ID=51179246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PL402373A PL223134B1 (pl) | 2013-01-07 | 2013-01-07 | Sposób poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłaszcza wizyjno-fonicznym i układ do realizacji sposobu |
Country Status (1)
Country | Link |
---|---|
PL (1) | PL223134B1 (pl) |
-
2013
- 2013-01-07 PL PL402373A patent/PL223134B1/pl unknown
Also Published As
Publication number | Publication date |
---|---|
PL402373A1 (pl) | 2014-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5635669B2 (ja) | オーディオ入力信号の反響コンテンツを抽出および変更するためのシステム | |
RU2520420C2 (ru) | Способ и система для масштабирования подавления слабого сигнала более сильным в относящихся к речи каналах многоканального звукового сигнала | |
CA2903900C (en) | Apparatus and method for multichannel direct-ambient decomposition for audio signal processing | |
US20190206417A1 (en) | Content-based audio stream separation | |
EP3189521B1 (en) | Method and apparatus for enhancing sound sources | |
KR20180056752A (ko) | 초광대역 음악을 위한 적응적 잡음 억제 | |
US20070076902A1 (en) | Method and Apparatus for Removing or Isolating Voice or Instruments on Stereo Recordings | |
JPWO2005112002A1 (ja) | オーディオ信号符号化装置及びオーディオ信号復号化装置 | |
CN101842834A (zh) | 包括语音信号处理在内的生成多声道信号的设备和方法 | |
KR20240033108A (ko) | 음성인식 오디오 시스템 및 방법 | |
US20220060824A1 (en) | An Audio Capturing Arrangement | |
CN101341792A (zh) | 使用两个输入声道合成三个输出声道的装置与方法 | |
US12014710B2 (en) | Device, method and computer program for blind source separation and remixing | |
CN111009259B (zh) | 一种音频处理方法和装置 | |
US9485578B2 (en) | Audio format | |
PL223134B1 (pl) | Sposób poprawy zrozumiałości mowy w wielokanałowym sygnale multimedialnym, zwłaszcza wizyjno-fonicznym i układ do realizacji sposobu | |
JP4644876B2 (ja) | 音声処理装置 | |
EP4366328A3 (en) | Hearing device, system and method for processing audio signals | |
Li et al. | Effect of the division between early and late reflections on intelligibility of ideal binary-masked speech | |
Ansa et al. | Cepstral smoothing of separated signals for underdetermined speech separation | |
Frank et al. | Subjective sound quality evaluation of a codec for digital wireless transmission | |
US20240056735A1 (en) | Stereo headphone psychoacoustic sound localization system and method for reconstructing stereo psychoacoustic sound signals using same | |
EP3029671A1 (en) | Method and apparatus for enhancing sound sources | |
Stahl | Situation-Aware and Perceptually Informed Signal Processing for Small Microphone Arrays | |
Zarouchas et al. | A perceptual measure for assessing and removing reverberation from audio signals |