RS49859B

RS49859B - Sistem i postupak za lociranje govornika pomoću mikrofonskog niza

Info

Publication number: RS49859B
Application number: RSP-2006/0642A
Authority: RS
Inventors: dr. Zoran Šarić; dr. Slobodan Jovičić; dr. Vladimir Kovačević; dr. Nikola Teslić; dr. Dragan Kukolj
Original assignee: Micronasnit,
Priority date: 2006-11-21
Filing date: 2006-11-21
Publication date: 2008-08-07
Also published as: RS20060642A

Abstract

Sistem za lociranje govornika pomoću mikrofonskog niza karakterisan time, što sadrži: mikrofonski niz od M mikrofona u odnosu na čiju simetralu se određuje ugao azimuta, odnosno položaj govornika u horizontalnoj ravni; blok za predprocesiranje mikrofonskih signala i konverziju u digitalnu formu i frekvencijskidomen; blok za kroskorelacionu analizu mikrofonskih signala i njenu optimizaciju na bazi fazne transformacije; blok za određivanje filterske funkcije na bazi prozodijskih karakteristika govornog signala, pomoću koje se vrši optimizacija kroskorelacione PHAT analize; blok za detekciju aktivnosti govora (VAD) zasnovan na superdirektivnom usmerivaču (SD-BF) koji obezbeđuje prostorno filtriranje govornika; blok za estimaciju ugla azimuta na bazi maksimuma interpoliranih kroskorelacionih funkcija.

Description

OBLAST TEHNIKE NA KOJU SE PRONALAZAK ODNOSI

Pronalazak pripada oblasti obrade akustičkog signala, ili preciznije, metodama lociranja govornika primenom mikrofonskog niza u akustičkom ambijentu sa prisutnim šumom i reverberacijom.

TEHNIČKI PROBLEM

Lokalizacija govornika u prostoru je veoma važan tehnički problem u sistemima koji se baziraju na govornoj komunikaciji na relaciji čovek-čovek ili čovek-mašina. On nastaje kao potreba da komunikacija bude što razumljivija uprkos mnogim smetnjama koje se mogu pojaviti u prostoru a koje maskiraju govorni signal. U sistemima kao što su telekonferencijski sistemi ili spikerfoni u prostoriji ili kolima, pored razumljivosti je od primarne važnosti i kvalitet komunikacije. Isti atributi govorne komunikacije su važni i u komunikaciji na primer čoveka i robota, gde robot mora tačno da prepozna govornu komandu. Nešto drugačiji problem se pojavljuje kod upravljanja video kamere, gde kamera treba da se usmeri ka aktuelnom govorniku apstrahujući ostale izvore zvuka u datom ambijentu. Dakle, ne postavlja se problem razumljivosti govora, već separacije govornog signala i ostalih akustičkih signala.

Navedeni primeri govorne komunikacije u prostoru, ili prostoriji, definišu osnovni problem u vidu lokalizacije aktuelnog govornika, odnosno usmeravanje mikrofonskog sistema ka njemu. Mikrofonski sistem može biti usmereni mikrofon ili više mikrofona u odgovarajućem fizičkom rasporedu. Pošto u akustičkom ambijentu pored izvora korisnog signala postoje smetnje veoma različitog porekla, čiji izvori u prostoru mogu biti proizvoljno raspoređeni, mikrofonski sistem mora imati usmerenu karakteristiku osetljivosti i mora se usmeriti ka željenom izvoru signala, tj. aktuelnom govorniku. Drugačije rečeno, mikrofonski sistem mora locirati govornika u horizontalnoj ravni i odrediti ugao azimuta u odnosu na svoje koordinate u prostoru.

Tehnički problem nastaje kada se u ambijentu pojavi veći broj izvora smetnji, kada su ove smetnje nestacionarne, kada se izvori smetnji kreću u prostoru ili kada se aktuelni govornik kreće u prostoru. Postupak određivanja ugla azimuta govornika mora da reši tri osnovna problema: (1) detekciju govorne aktivnosti aktuelnog govornika, pri tome treba imati u vidu da se u posmatranom prostoru može pojaviti veći broj govornika, (2) separaciju aktuelnog govornika u odnosu na sve ostale izvore smetnji, što podrazumeva potiskivanje signala smetnji a isticanje korisnog signala, i (3) adaptivno praćenje aktuelnog govornika u pokretu, pri čemu se mora uzeti u obzir da i ostali izvori zvuka mogu biti pokretni. Ovaj treći problem se tiče pravilnog usmeravanja sistema (robota, kamere) ka aktuelnom govorniku.

Dodatni problemi se pojavljuju kod lokalizacije govornika u prostoriji sa izraženom reverberacijom. Signali refleksija od zidova ili objekata u prostoriji mogu biti, u zavisnosti od položaja govornika, izvora smetnji i mikrofonskog sistema, znatno jači od direktnog zvučnog talasa aktuelnog govornika.

Iz izloženog se vidi da su tehnički problemi u rešenju lokalizacije govornika u prostoru veoma složeni i da zahtevaju kompleksan pristup u optimizaciji rešenja, posebno kada se ima u vidu rad sistema u realnom vremenu na bazi komercijalne platforme digitalnog procesora signala (DSP).

STANJE TEHNIKE

Lociranje govornika u uslovima prisustva akustičkih smetnji i reverberacije prostorije predstavlja složen problem. U uslovima kada se spektri korisnog govornog signala preklapaju sa spektrima prisutnih smetnji lociranje govornika se može rešiti na pouzdan način primenom mikrofonskog niza i odgovarajuće obrade signala koja uzima u obzir specifičnosti uslova primene sistema za lociranje. Teorijske osnove u primeni mikrofonskih nizova za lokalizaciju govornika date su u M.S. Brandstein, D.B. Ward (Eds.),Microphone Arrays: Signal Processing Techniques and Applications,Springer, Berlin 2001; i u Y. Huang, J. Benestv,Audio signal processing for next generation multimedia communication systems,Kluwer Academic Publishers Publ., 2004.

Postoji veliki broj patentiranih rešenja na bazi mikrofonskih nizova kao što su na primer: U.S. objavljena patentna prijava 2003/0051532 Al, prijavljena 15. avgusta 2002., sa naslovom „Robust talker localization in reverberant environment", daje rešenje lokalizacije govornika u reverberantnoj prostoriji na bazi mikrofonskog sistema cirkularne konfiguracije i na bazi energetske detekcije direktnog zvučnog talasa; zatim U.S. patent 6,970,796 B2, prijavljen 1. marta 2004., sa naslovom "System and method for improving the precision of localization estimates", daje rešenje koje, pored konvencijalnog određivanja DO A sa mikrofonskim nizom, ima sistem za post-procesiranje na bazi statističkog klasterovanja inicijalnih estimacija lokacija i dobijanja finalne estimacije lokacije sa povećanom preciznošću i pouzdanošću; zatim U.S. patent 6,999,593 B2, prijavljena 28. maja 2003., sa naslovom "Svstem and process for robust sound source localization", daje rešenje za lokalizaciju govornika na bazi mikrofonskog niza kombinovanjem težinske kros-korelacije i podešene usmerene karakteristike parova mikrofonskog niza; zatim U.S. objavljena patentna prijava 2005/0080619 Al, prijavljena 13. oktobra 2004, sa naslovom „Method and apparatus for robust speaker localization and automatic camera steering svstem emploving the same", daje rešenje koje lokalizaciju govornika određuje pomoću MUSIC tehnologije.

Generalno, metode estimacije pravca lociranja govornika (izvora zvuka) se mogu podeliti u tri osnovne grupe: metode na bazi superdirektivne karakteristike usmerenosti mikrofonskog niza, metode na bazi kompleksne estimacije spektra mikrofonskih signala i metode na bazi vremenskog kašnjenja zvučnih talasa do mikrofonskog niza TDOA{ Time Delay of Arrival).Metode iz prve i druge grupe su osetljive na frekvencijske karakteristike svih izvora zvuka u analiziranoj prostoriji i bez a priornog znanja ne pružaju zadovoljavajuću tačnost. U praksi se najčešće koriste TDOA metode (P. Julian et al., A comparative study of sound localization algorithms for energy aware sensor networknodes,ZE££ Trans. Circuits and Systems,Vol. 51, No. 4, pp. 640-648, Apr. 2004.). U konvencionalnom postupku u prvom koraku vrši se estimacija TDOA za svaki par mikrofona u mikrofonskom nizu. Estimacija se zasniva na kroskorelacionoj analizi koja se u drugom koraku ponderiše težinskom funkcijom PHAT( Phase Trans/ orni),koja povećava robusnost algoritma procene dolaznih pravaca na prisustvo šuma i reverberacije u prostoriji. Međutim, reverberacija prostorije, prisustvo više izvora zvuka i šuma predstavljaju i dalje veliki problem za ove metode lokalizacije govornika.

IZLAGANJE SUŠTINE PRONALASKA

Predmet ovog pronalaska je sistem i postupak za lociranje govornika pomoću mikrofonskog niza u složenom akustičkom ambijentu koji pored aktuelnog govornika sadrži mnoge signale smetnji kao što su: ambijentalna buka, izvori akustičkih smetnji, reverberacija prostorije i drugi govornici. Kao takav, sistem može naći široku primenu u sistemima za govornu komunikaciju kao u sistemima za kontrolu i upravljanje putem glasa.

Sistem, koji je predmet pronalaska, sadrži M mikrofona raspoređenih u linijskoj strukturi i na jednakim rastojanjima, blok za predobradu i digitalizaciju mikrofonskih signala i blok za digitalnu obradu mikrofonskih signala. Sistem se postavlja u horizontalnu ravan i određuje ugao azimuta govornika u odnosu na simetralu sistema. Sistem može biti povezan na konferencijski sistem, ili biti deo njega, ili na sistem upravljanja ili kontrole, kao što su robot ili video kamera.

Suština pronalaska jeste u specifičnoj obradi govornog signala koji se snima u akustičkom ambijentu prostorije u kojoj se nalazi sistem i govornik. Mikrofonski niz snima sve signale u prostoriji: koristan signal kao direktan talas koji stiže od govornika do mikrofona i signale smetnji koji mogu biti raznovrsni. Kao signali smetnje pojavljuju se direktni talasi od jednog ili više izvora šumova ili izvora drugih smetnji koji se mogu naći u prostoriji i svi reflektovani talasi (eho prostorije) koji potiču od svih izvora zvukova, uključujući i aktuelnog govornika, a koji nastaju usled reverberacije prostorije. Treba naglasiti da izvori zvukova u prostoriji mogu biti stacionarni ili nestacionarni, što je najčešći slučaj, kako po svojim karakteristikama tako i po lokaciji u prostoriji (pokretni izvori zvukova).

Mikrofonski signali iz mikrofonskog niza se obrađuju u digitalnoj formi u frekvencijskom domenu. Ovaj domen omogućava određene prednosti u pogledu brzine obrade i broja računskih operacija, što je veoma važno za realizaciju sistema u realnom vremenu.

Specifičan aspekt pronalaska se nalazi u optimizaciji kroskorelacione analize mikrofonskih signala kroz dva aspekta: prvo, generalizacijom kroskorelacije koja se u literaturi označava kao fazna transformacija PHAT( Phase Transform),a koja podrazumeva normalizaciju kroskorelacije na svoj moduo kada se gubi informacija o snazi signala, a ostaje samo informacija o fazi u kojoj je sadržano relativno vremensko kašnjenje signala i drugo, ponderisanjem PHAT transformacije filterskom funkcijomW( n)koja sadrži osnovne prozodijske karakteristike govornog signala, pre svega energetsku dinamiku formantnih struktura vokala.

Sledeća specifičnost pronalaska jeste određivanje filterske funkcijeW( n)na bazi analize mikrofonskih signala u tri domena: energetskom, frekvencijskom i vremenskom. Cilj ove analize je da se generalizovana kroskorelaciona analiza odvija pod kontrolom prozodijskih karakteristika govornog signala, što predstavlja na specifičan način separaciju govornog signala u odnosu na ostale signale ambijentalnih smetnji i reverberaciju, i što u krajnjem slučaju daje pouzdaniju estimaciju lokacije govornika.

Specifičnost pronalaska jeste i realizacija detektora aktivnosti govora (VAD) na bazi superdirektivnog usmerivača (SD-BF), koji obezbeđuje veći indeks usmerenosti mikrofonskog niza i time efikasnije prostorno filtriranje govornog signala u odnosu na ambijentalne smetnje.

Inventivnost u ovom pronalasku se nalazi u načinu realizacije svake od navedenih specifičnosti, ali i u postupku integrisanja svih algoritama u jedinstvenu celinu koja funkcioniše stabilno i kvalitetno. Algoritamske procedure su optimizirane korišćenjem zajedničkih resursa, posebno ako se ima u vidu realizacija u spektralnom i multidimenzionalnom domenu (multimikrofonski sistem).

Ovi i drugi aspekti, specifičnosti i benefiti ovog pronalaska biće očigledniji nakon uvida u detaljan opis pronalaska, patentne zahteve i pripadajuće crteže.

KRATAK OPIS SLIKA I NACRTA

Slika 1- prikazuje ambijentalne uslove primene sistema za lociranje govornika pomoću mikrofonskog niza.

Slika 2- prikazuje osnovni blok dijagram sistema za lociranje govornika.

Slika3 - prikazuje blok dijagram podsistema za estimaciju filterske funkcije

W( n).

Slika 4- prikazuje blok dijagram podsistema za estimaciju ugla azimuta0.

Slika 5- prikazuje blok dijagram podsistema VAD za detekciju aktivnosti govora aktuelnog govornika.

DETALJAN OPIS PRONALASKA

Ovaj pronalazak opisuje sistem i postupak za lokalizaciju govornika pomoću mikrofonskog niza u akustičkom ambijentu kakav je prostorija, sa prisutnim stacionarnim i/ili nestacionarnim smetnjama.

Slika 1 prikazuje ambijentalne uslove u kojima se sistem, koji je predmet ovog pronalaska, može naći. Naime, u prostoriji100nalazi se aktuelni govornik101u horizontalnoj ravni na pravcu102pod uglom9u odnosu na simetralu mikrofonskog niza103.Mikrofonski niz sadrži M mikrofona koji snimljene signale prosleđuju u blok104gde se vrši obrada signala u cilju određivanja estimacije ugla azimuta6.Informacija o estimiranom uglu azimuta može da se koristi, na primer za kontrolu robota105ili video kamere 106, ili za komunikacione potrebe kao što su govorna komunikacija preko intemeta107ili preko telekonferencijskog sistema108.U drugom slučaju uglom azimuta upravlja se karakteristikom usmerenosti mikrofonskog niza 103, koja se usmerava prema aktuelnom govorniku.

Osnovni problem u estimaciji ugla azimuta6čine smetnje u prostoriji koje direktno utiču na tačnost i preciznost estimacije. Osnovni izvor smetnje može biti izvor šuma, govora, muzike, itd., 109, sa direktnim zvučnim talasom110,ali i reflektovanim zvučnim talasima o zidove prostorije, kao što je talas110a.Naravno, i aktuelni govornik jeste izvor reflektovanih talasa,102ai102b,koji predstavljaju smetnju. Ako se mikrofonski niz103koristi za komunikacione potrebe, slučajevi 107 i108,kod tzv. „hands-free" komunikacija, tada se pojavljuje veoma ozbiljna smetnja u vidu akustičkog eha111,koja ima svoje akustičke refleksijelila.

Prema tome, tačnost i preciznost određivanja ugla azimuta u velikoj meri zavisi od ambijentalnih uslova u kojima se sistem, koji je predmet ovog patenta, koristi. Dodatni problem se pojavljuje ukoliko se aktuelni govornik ili izvori smetnji kreću u prostoriji, čime se postavlja zahtev adaptivnog praćenja pozicije aktuelnog govornika.

Na slici 2 prikazana je blok šema sistema za lokalizaciju govornika pomoću mikrofonskog niza. Signali iz mikrofonaxidoxmmikrofonskog niza103ulaze u blok201u kome se vrši njihova predobrada, odnosno pojačanje, filtriranje, digitalizacija i konverzija u frekvencijski domen pomoću diskretne Fourierove transformacije (DFT). Predobrada se vrši na nivou segmenata dužine N odmeraka, sa preklapanjem 50% i sa primenjenim Hammingovim prozorom i FFT reda N.

Izlaz bloka201jesu Fourierove transformacijeX/doXM.Na ovim signalima vrši se kroskorelaciona analiza prvog mikrofona sa svim ostalim mikrofonima. Na izlazu bloka201dobijaju se estimacije kroskorelacije između signal provog i svih ostalih mikrofona,G\ j( n)doGi,m(")rekurzivnim usrednjavanjem prema relaciji:

Konstante a+ i a. se biraju tako da ispunjavaju nejednakost 0.5 < a+ < a. < 1 i pod tim uslovom favorizuje se uticaj članovaXi( t, f) Xk'( t, f)sa većim modulom. SignaliGu(/i)doGiM( n)ulaze u blokove 203 i205.

U bloku203sa oznakomPHATrealizuje se generalizovana kroskorelacija u literaturi često označena kao fazna transformacija. Naime, normalizacijom kroskorelacije na svoj moduo gubi se informacija o snazi signala, a ostaje samo informacija o fazi u kojoj je sadržano relativno vremensko kašnjenje signala.

U obradi generalizovanih kroskorelacionih funkcijaG12 Pkatučestvuje filterska funkcijaW( n)koja se generiše u bloku 204. FunkcijaW( n)se dobija obradom mikrofonskih signalaX\doXu,koja će kasnije biti detaljnije opisana, a čiji je cilj da osnovne prozodijske karakteristike govornog signala, pre svega energetsku dinamiku formantnih struktura vokala, iskoristi za pouzdaniju ocenu ugla azimuta, odnosno lokaciju govornika u prostoriji.

U bloku205vrši se određivanje estimacije ugla azimuta0na bazi maksimuma generalizovanih kroskorelacionih funkcija. Validnost date estimacije kontroliše blok206,sa oznakomVAD,koji vrši detekciju aktivnosti aktuelnog govornika, i kada je govornik aktivan validna je tekuća estimacija ugla azimuta, u suprotnom usvaja se estimacija dobijena za vreme poslednje njegove aktivnosti.

Na slici 3 prikazana je blok šema podsistema za određivanje filterske funkcijeW{ n). Poštogovorni signal ima formantnu strukturu, zbog čega svi frekvencijski binovi nemaju istu snagu, potrebno je selektovati binove sa najvećom snagom i njih iskoristiti za određivanje kroskorelacione funkcije. U tom cilju se u bloku 301 vrši računanje srednje snage mikrofonskih signalaXjdoXupo svakom DFT binu unutar blokan,tj. trenutne snage kanala prema relaciji:

U bloku302određuje se težinska funkcijaW( n)kojom se favorizuju binovi kod kojih postoji rast trenutne snage signala. Razlog izbora ovakvog rešenja je taj što je na delu signala sa naglim rastom snage veći udeo direktnog talasa nego na delu sa padom snage, gde dominiraju refleksije talasa, odnosno reverberacija prostorije. Ovaj pristup se realizuje relacijom:

U bloku 303 vrši se dalja obrada kanalskih trenutnih snaga glačanjem( smoothing,engl.) snagaP( n)po frekvenciji, snagaP( n),a zatim usrednjavanjem po vremenu, snagaP( ri).Glačanje snageP( n)vrši se nekauzalnim IIR filtrom prvog reda (nulto fazno kašnjenje se postiže dvostrukim filtriranjem unapređ i unazad), tako da se dobija snagaP( n),dok se usrednjavanje ove snage po vremenu vrši nelinearnim IIR filtrom prvog reda sa dva koeficijenta usrednjavanja, jedan za rast i drugi za pad snage signala. Ovaj nelinearni filtar se opisuje relacijama:

VeličinaP( n)koristi se za definisanje praga odluke za izdvajanje binova sa najvećom snagom u bloku 304. Postupak se sastoji u poređenju veličineP( n)i kroskorelacionih funkcija Cn,2(«) do Gi,m(h) sa binarnom odlukom na izlazu za svaki bin. To znači da se na izlazu bloka 304 dobija M-l binarnih nizova dužine N.

Množenjem binarnog izlaza iz bloka 304 i težinske funkcijeW( n)iz bloka 302 dobija se filterska funkcijaW{ n)na uzlazu bloka 305, kojom se ponderišu binovi fazne transformacijeGl kPha,( n)u bloku 203, slika 2. Fazno transformisane kroskorelacione funkcije se dodatno filtriraju IIR filtrom u vremenu kako bi se umanjila varijansa estimacije korelacionih funkcija. Ovo se opisuje relacijom:

Na slici 4 prikazana je detaljna blok šema bloka 205 sa slike 2, u kome se vrši određivanje estimacije ugla azimuta9.Fazno transformisane kroskorelacione funkcije

G, kPhatse u bloku401pomoću inverzne Fourierove transformacije (IFFT) transformišu iz frekvencijskog u vremensi domen u kroskorelacije /?i,2(x) doR], m( x),Pre IFFT transformacije primenjuje se u bloku402apriorno odbacivanje binova koji se nalaze izvan opsega od interesa. Kriterijum ovog odbacivanja je izbor opsega frekvencija za koji je snaga govornog signala dovoljno velika a da za najveću frekvenciju opsega ne dolazi do alijasinga u prostornom domenu.

U bloku403vrši se vremensko usklađivanje kroskorelacionih funkcija R\ j.( t) doRi, m( x)primenom odgovarajućih faktora interpolacije, koje se zatim usrednjavaju i na njihovoj srednjoj vrednostiR, r( T)se određuje maksimum u bloku404,čija apscisa predstavlja estimaciju vremenskog kašnjenja f .

U bloku405vrši se preračunavanje vremenskog kašnjenjaiu upadni ugao6Rdirektnog talasa aktivnog govornika. Estimacija dolaznog pravca ima smisla kada je govornik aktivan; kada nije aktivan za validnu estimaciju se usvaja estimacija dobijena za vreme poslednje njegove aktivnosti. U tu svrhu u bloku406se pod kontrolom signala VAD definitivno određuje validnost estimacije0R,tako da se na izlazu dobija konačna vrednost estimiranog ugla azimuta9.

U cilju detekcije aktivnosti govornika koriste se: a) informacija iz bloka301o srednjoj snazi mikrofonskih signalaP( n),slika 3, i b) informacijasbfiz bloka501,blokSD-BFsuperdirektivni usmerivač, slika 5. Na osnovu ovih informacija u bloku502se donosi odluka o aktivnosti bliskog govornika.

Formiranje superdirektivnog prostornog filtra vrši se u bloku501.On obezbeđuje veći indeks usmerenosti u odnosu na prostorni konvencionalni filter koji sadrži samo kompenzaciju kašnjenja i sumiranje.

Za prostoriju sa reverberacijom se obično usvaja model difuznog polja šuma, što podrazumeva da šum dolazi iz svih pravaca sa približno istim intenzitetom. Za takav model polja šuma pokazuje se da je koherencija između dva mikrofona realan broj jednak:

gde je/uČestanost,dtj jerastojanjemikrofona i ij, a cbrzina zvuka. Koherencije parova mikrofonartj( f)formiraju matricu koherencijaTd.Koristeći ovako definisanu matricu koherencijaTd,koeficijenti superdirektivnog mikrofonskog niza se odredjuju u bloku504prema relaciji: gde je Ce vektor usmerenja na pravac odabranog govornika definisan estimiranim uglom azimuta9.Ovaj vektor se određuje u bloku503prema relaciji:

Veličinad jerastojanje dva susedna mikrofona.

Na izlazu bloka 501 dobija se estimacija govoraSbfaktuelnog govornika na bazi relacije:

Prema tome, u blok502dolaze dve informacije: srednja snaga mikrofonskih signalaP( n),koja pored aktuelnog govornika sadrži i sve signale smetnji u prostoriji, i signal estimacije govorasbfaktuelnog govornika na pravcu estimiranog ugla azimuta9.U bloku502se vrši binarna odluka o aktivnosti aktuelnog govornika na bazi komparativne analize prispelih informacija i binarni signal VAD odlučuje o izlaznoj vrednosti ugla azimuta6,odnosno na izlaz sistema se prosleđuje trenutna estimacija dolaznog pravca ako je aktivan aktuelni govornik, u suprotnom se prosleđuje poslednja validna estimacija pravca.

U ovom pronalasku opisan je postupak obrade akustičkih i govornih signala u cilju lokacije govornika u prostoru u odnosu na sistem za lokaciju govornika koncipiranog na bazi mikrofonskog niza. Opisanim sistemom se govornik može locirati u zatvorenom ili otvorenom prostoru, a sistem se može primeniti u kontroli i upravljanju robota, video kamere ili procesa koji zahtevaju interaktivnu informaciju o lokaciji govornika, ili u „hands-free" komunikacionim sistemima kao što su telekonferencijski sistemi, video konferencijski sistemi, spikerfoni, itd.

Postupci i tehnike obrade akustičkih i govornih signala u ovom pronalasku su nezavisne od broja mikrofona u nizu a nalaze se pod kontrolom većeg broja parametara koji omogućavaju optimizaciju rešenja za različite aplikacije.

Postupci i tehnike obrade akustičkih i govornih signala u ovom pronalasku mogu se implementirati na različite načine. Na primer, ove tehnike mogu biti implementirane u hardveru, softveru ili kombinovano. U hardverskoj implementaciji mogu se koristiti specifična integrisana kola (ASIC), procesori za digitalnu obradu signala (DSP), programabilna logička kola (PLD ili FPGA) i druga elektronska kola projektovana tako da mogu izvršiti opisane funkcije u ovom pronalasku.

Postupci i tehnike obrade akustičkih i govornih signala u ovom pronalasku mogu se implementirati i softverski, tako da se programski kodovi mogu memoristi u memorijskim jedinicama i izvršavati pomoću procesora kao što su PC, PDA, DSP, itd.

Detalji ovog pronalaska opisani ovde omogućavaju bilo kom stručnjaku u ovoj oblasti da generičke principe ovog pronalaska može implementirati u drugim sistemima čime se ne izlazi iz okvira ovog pronalaska.

Claims

1. Sistem za lociranje govornika pomoću mikrofonskog nizakarakterisan time,što sadrži: mikrofonski niz od M mikrofona u odnosu na čiju simetralu se određuje ugao azimuta, odnosno položaj govornika u horizontalnoj ravni; blok za predprocesiranje mikrofonskih signala i konverziju u digitalnu formu i frekvencijski domen; blok za kroskorelacionu analizu mikrofonskih signala i njenu optimizaciju na bazi fazne transformacije; blok za određivanje fdterske funkcije na bazi prozodijskih karakteristika govornog signala, pomoću koje se vrši optimizacija kroskorelacione PHAT analize; blok za detekciju aktivnosti govora (VAD) zasnovan na superdirektivnom usmerivaču (SD-BF) koji obezbeđuje prostorno filtriranje govornika; blok za estimaciju ugla azimuta na bazi maksimuma interpoliranih kroskorelacionih funkcija.

2. Sistem prema zahtevu 1karakterisan time,što sadrži blokove koji vrše detekciju govorne aktivnosti aktuelnog govornika, koji vrše separaciju aktuelnog govornika u odnosu na sve ostale izvore smetnji i koji vrše adaptivno praćenje aktuelnog govornika u pokretu.

3. Sistem prema zahtevu 1karakterisan time,što sadrži mikrofonski niz od M mikrofona i što broj mikrofona u nizu nije ograničavajući faktor.

4. Sistem prema zahtevu 2karakterisan time,što se mikrofonski niz nalazi u horizontalnoj ravni i što se lociranje govornika određuje pomoću ugla azimuta u odnosu na simetralu mikrofonskog niza.

5. Sistem prema zahtevu 1karakterisan time,što se obrada signala odvija u frekvencijskom domenu i što se ista može realizovati u realnom vremenu.

6. Sistem prema bilo kom od prethodnih zahtevakarakterisan time,što sadrži blok kroskorelacione analize mikrofonskih signala koji određuje vremensko kašnjenje zvučnih talasa od izvora zvuka do mikrofonskog niza (TDOA) i koji vrši njenu optimizaciju kroskorelacione analize na bazi fazne transformacije (PHAT).

7. Sistem prema zahtevu 6karakterisan time,što sadrži blok za određivanje filterske funkcije na bazi prozodijskih karakteristika govornog signala koji omogućava optimizaciju kroskorelacione PHAT analize prilagođenu karakteristikama govornog signala.

8. Sistem prema zahtevima 1 do 5karakterisan time,što sadrži blok za detekciju aktivnosti govora (VAD) u uslovima ambijentalnih smetnji i reverberacije, koji odlučuje o konačnoj vrednosti ugla azimuta.

9. Sistem prema zahtevu 8karakterisan time,što osnovu bloka za detekciju aktivnosti govora (VAD) čini superdirektivi usmerivač (SD-BF) koji obezbeđuje separaciju aktuelnog govornika od ostalih izvora zvuka u prostoriji na bazi prostornog filtriranja.

10. Sistem prema zahtevima 6 do 7karakterisan time,što sadrži blok za estimaciju ugla azimuta na bazi maksimuma interpoliranih i usrednjenih M-l kroskorelacionih funkcija.

11. Sistem prema bilo kom od prethodnih zahtevakarakterisan time,što se može primeniti za kontrolu uređaja, sistema ili procesa putem glasa.

12. Sistem prema bilo kom od prethodnih zahtevakarakterisan time,što se može primeniti u „hands-free" komunikacionim sistemima za slobodnu govornu komunikaciju u cilju poboljšanja kvaliteta i razumljivosti komunikacije u akustičkom ambijentu.

13. Postupak za lociranje govornika pomoću mikrofonskog nizakarakterisantime, što sadrži: kroskorelacionu analizu koja vrši analizu vremenskog kašnjenja zvučnih talasa od izvora zvuka do mikrofonskog niza; generalizaciju kroskorelacione analize, odnosno njenu faznu transformaciju (PHAT), uz primenu adaptivnog ponderisanja filterskom funkcijomW ( n) ;adaptivno određivanje filterske funkcijeW( ri)na bazi prozodijskih karakteristika govornog signala; adaptivnu detekciju aktivnosti govornika (VAD) na bazi superdirektivnog usmerivača (SD-BF); interpolaciju kroskorelacionih funkcija i određivanje estimacije ugla azimuta.

14. Postupak prema zahtevu 13karakterisan time,što se kroskorelacija vrši između prvog mikrofonskog signala i svih ostalih mikrofonskih signala, tako da se izvršava M-l kroskorelacija.

15. Postupak prema zahtevu 14karakterisan time,što se generalizacija kroskorelacione analize vrši normalizacijom kroskorelacije na svoj moduo pri čemu se gubi informacija o snazi signala, a ostaje samo informacija o fazi u kojoj je sadržano relativno vremensko kašnjenje između analiziranih signala.

16. Postupak prema zahtevu 15karakterisan time,što se fazno transformisane kroskorelacione funkcije dodatno adaptivno filtriraju IIR filtrom u vremenu kako bi se umanjile varijanse estimacije korelacionih funkcija.

17. Postupak prema zahtevu 16karakterisantime, što se dodatno filtriranje fazno transformisanih kroskorelacionih funkcija vrši adaptivnim ponderisanjem binova fazne transformacije filterskom funkcijomW( ri).

18. Postupak prema zahtevu 13karakterisan time,što se filterska funkcijaW{ n)određuje na bazi prozodijskih karakteristika govornog signala detektovanih u trenutnoj snazi mikrofonskih signala.

19. Postupak prema zahtevu 18karakterisan time,što se filterskom funkcijomW( n)selektuju binovi sa najvećom snagom i oni koriste za određivanje kroskorelacionih funkcija.

20. Postupak prema zahtevu 18 i 19karakterisan time,što se u određivanju filterske funkcijeW( ri)izračunavaju trajektorije snaga mikrofonskih signala usrednjavanjem po frekvenciji i po vremenu.

21. Postupak prema zahtevu 18 do 20karakterisan time,što se u određivanju filterske funkcijeW( n)favorizuju binovi kod kojih postoji rast trenutne snage signala, iz razloga što je na delu signala sa naglim rastom snage veći udeo direktnog talasa nego na delu sa padom snage, gde dominiraju refleksije talasa, odnosno reverberacija prostorije.

22. Postupak prema zahtevu 13karakterisan time,što se u detektoru aktivnosti govora (VAD) donosi odluka o aktivnosti bliskog govornika.

23. Postupak prema zahtevu 13 i 22karakterisan time,što se VAD bazira na superdirektivnom usmerivaču (SD-BF) koji obradom mikrofonskih signala obezbeđuje usmerenu karakteristiku osetljivosti mikrofonskog niza.

24. Postupak prema zahtevu 23 karakterisan time, što superdirektivni usmerivač vrši prostorno filtriranje kojim ističe signal aktuelnog govornika i potiskuje signale ambijentalnih smetnji.

25. Postupak prema zahtevima 23 i 24 karakterisan time, što se karakteristikom usmerenosti superdirektivnog usmerivača (SD-BF) upravlja estimiranim uglom azimuta9.

26. Postupak prema zahtevu 13 karakterisan time, što se estimacija ugla azimuta6određuje na bazi maksimuma usklađenih i usrednjenih M-l kroskorelacionih funkcija.

27. Postupak prema zahtevu 26 karakterisan time, što se usklađivanje kroskorelacionih funkcija vrši postupkom interpolacije.

28. Postupak prema zahtevima 13,26 i 27 karakterisan time, što se estimacija ugla azimuta9dobija preračunavanjem vremenskog kašnjenja f na kome se nalazi maksimum usklađenih i usrednjenih M-l kroskorelacionih funkcija u upadni ugao6direktnog talasa aktuelnog govornika.

29. Postupak prema zahtevima 13 i 28 karakterisan time, što se ugao azimuta6određuje na bazi aktivnosti aktuelnog govornika, pa se na izlaz sistema prosleđuje trenutna estimacija dolaznog pravca9u slučaju aktivnosti aktuelnog govornika, u suprotnom kada nije aktivan prosleđuje se poslednja validna estimacija azimuta6.