SI25265A - Postopek in naprava za označevanje periode višine govora in zvočnih/nezvočnih segmentov - Google Patents

Postopek in naprava za označevanje periode višine govora in zvočnih/nezvočnih segmentov Download PDF

Info

Publication number
SI25265A
SI25265A SI201600184A SI201600184A SI25265A SI 25265 A SI25265 A SI 25265A SI 201600184 A SI201600184 A SI 201600184A SI 201600184 A SI201600184 A SI 201600184A SI 25265 A SI25265 A SI 25265A
Authority
SI
Slovenia
Prior art keywords
speech
signal
time
autocorrelation
short
Prior art date
Application number
SI201600184A
Other languages
English (en)
Inventor
KaÄŤiÄŤ Zdravko
Original Assignee
Univerza v Mariboru Fakulteta za elektrotehniko, računalništvo in informatiko
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univerza v Mariboru Fakulteta za elektrotehniko, računalništvo in informatiko filed Critical Univerza v Mariboru Fakulteta za elektrotehniko, računalništvo in informatiko
Priority to SI201600184A priority Critical patent/SI25265A/sl
Priority to PCT/SI2017/000007 priority patent/WO2018026329A1/en
Publication of SI25265A publication Critical patent/SI25265A/sl

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • G10L2025/906Pitch tracking

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Predlagana rešitev se nanaša na področje analize in sinteze govora, natančneje na postopek in napravo za označevanje zvočnih/nezvočnih segmentov govora in periode višine govora pri analizi kompleksnih signalov. Postopek označevanja period višine govora obsega odstranjevanje enosmerne komponente iz vhodnega signala, nizkopasovno filtriranje z ničelno fazo in mejno frekvenco Flp, izračun kratkočasovne avtokorelacije ob uporabi drsečega okna in spremenljive velikosti okna, določitev kratkočasovnegaavtokorelacijskega časovnega indeksa višine govora, izračun koeficientov pasovnoprepustnega filtra ob upoštevanju vrednosti kratkočasovnega avtokorelacijskega časovnega indeksa, filtriranje govornega signala z adaptivnim pasovnoprepustnim filtrom z ničelno fazo in središčno frekvenco Fcf, kjer je izhodni signal filtra signal višine govora, definiranje oznak period višine govora za signal višine govora na osnovi določitve polperiod signala višine govora, definiranje segmentov višine govora in preslikavaoznak period višine govora za signal višine govora v oznake period višine govora za govorni signal. S postopkom se lahko določi oznako periode višine govora v točki negativnega vrha znotraj segmenta višine govora, v točki pozitivnega vrha, ali pa v točkah začetnega in končnega otipka periode govora, znotraj katerega se nahajata pozitivni in negativni vrh. Detektiranje zvočnega/nezvočnega govora je izvedeno s pomočjo metode upragovanja. Kratkočasovno poprečje absolutnih trenutnih vrednosti amplitudenizkopasovno filtriranega signala in kratkočasovni avtokorelacijski časovni indeksi višine govora so uporabljeni kot kriterij detekcije in označevanja zvočnih/nezvočnih segmentov.

Description

POSTOPEK IN NAPRAVA ZA OZNAČEVANJE PERIODE VIŠINE GOVORA IN ZVOČNIH/NEZVOČNIH SEGMENTOV
Področje tehnike
Predlagana rešitev se nanaša na področje analize in sinteze govora, natančneje na postopek in napravo za označevanje zvočnih/nezvočnih segmentov govora in periode višine govora pri analizi kompleksnih signalov.
Tehnični problem
Predlagan izum rešuje tehnični problem, kako označiti zvočne in nezvočne segmente signala za zanesljivo določitev oznak period višine govora z visoko časovno razločljivostjo. Problem je tudi kako označiti periode višine zvočnih segmentov ter postaviti oznake za nezvočne segmente kompleksnega signala, kot sta govor in glasba, da bodo odpravljene težave učinka oknjenja, nizke časovne ali frekvenčne razločljivosti, poprečenja, vstavljanja ali brisanja oznak period in neodpornosti na šum. Postopek označevanja period višine govora, ki je neobčutljiv na šum, z visoko časovno in frekvenčno razločljivostjo, neobčutljivostjo na šum, visoko zanesljivostjo in računsko učinkovitostjo je cilj izuma.
Višina govora je temeljna značilnost govornega signala. V časovni domeni se izkazuje s periodo višine govora znotraj zvočnega segmenta govora. V primeru govornega signala pomeni označevanje višine govora označevanje časovnih trenutkov zaprtja glasilk, ki so imenovane tudi epohe (angl. glottal closure instants (GCIs)). Običajno se oznaka višine postavi na točko ekstrema amplitude govornega signala znotraj periode višine govora - najpogosteje negativnega ekstrema amplitude, ki ustreza časovnemu trenutku zaprtja glasilk.
Pri postopkih samodejnega označevanja višine govora je potrebno odločiti ali bo označen časovni trenutek pozitivnih ali negativnih ekstremov amplitude signala, kar je lahko določeno s postopkom detekcije polaritete signala. Oznake višine govora so lahko postavljene tudi v časovni trenutek prečkanja nivoja nič signala, kjer te točke predstavljajo začetno in končno točko periode govornega signala znotraj katere se nahajata pozitivni in negativni ekstrem amplitude signala.
Zanesljivo označevanje period višine govora je pomembno na množici področij procesiranja govornega signala, kot so: izboljšanje kvalitete govora ob upoštevanju višine govora, klinična diagnostika, kodiranje govora, avtomatska fonetična segmentacija, analiza in procesiranje govora ob upoštevanju višine govora, karakterizacija govorca, pretvarjanje glasu, razpoznavanje govora in sinteza govora.
Stanje tehnike V zadnjih letih je bilo predlaganih veliko število postopkov označevanja višine govora, ki so bili zasnovani na različnih tehnikah procesiranja govora, kot so: linearna predikcija, kepstralna analiza, avtokorelacijska funkcija, funkcija razlike poprečja magnitude, Cohenov razred časovno-frekvenčnih predstavitev, metode skupinske zakasnitve, večfazni algoritmi, razstavitev z naborom empiričnih modusov, postopki z uporabo pragov in postopki določanja maksimumov. Pri mnogih od teh postopkov so prisotne težave učinka oknjenja, nizke časovne ali frekvenčne razločljivosti, poprečenja, vstavljanja ali brisanja oznak period, neodpornosti na šum ipd. Prav tako so prenekatere tudi računsko neučinkovite.
Med pogosto uporabljanimi postopki so postopki, ki slonijo na uporabi avtokorelacije. Takšni rešitvi sta razkriti v patentih US 8280725 B2 in US 8214201 B2, v katerih je perioda višine govora definirana na osnovi izračuna avtokorelacijskih vrednosti prekrivajočih se delov govornega signala in izračunu kombinirane avtokorelacijske vrednosti, na osnovi katere je ocenjena perioda višine govora. V patentni prijavi US 2004/0260537 A1, je avtokorelacija uporabljena za določitev periode višine govora ob uporabi iterativne tehnike izračuna indeksa avtokorelacijskega zaporedja, ki označuje periodo višine govora. Čeprav se lahko z veliko večino postopkov, kjer je uporabljena avtokorelacijska funkcija doseže dobra natančnost, ostaja prisoten problem časovne razločljivosti. Da bi se lahko zanesljivo določila vrednost avtokorelacijskega zaporedja in želena natančnost postopka, mora okno signala za izračun avtokorelacije vsebovati vsaj tri ali več period govornega signala, kar pomeni potrebo po dolgih časovnih oknih analize in posledično nižjo časovno razločljivost postopka. Visoka časovna razločljivost postopka je pomembna predvsem na mejah zvočnih/nezvočnih segmentov govora. V nekaj znanih postopkih je za izločitev signala višine govora uporabljena tehnika filtriranja, kot na primer v patentu US6349277 B1. V tej rešitvi je uporabljen analizator frekvence višine govora za oceno frekvence višine govora vhodnega signala, na osnovi česar je nastavljena mejna frekvenca adaptivnega filtra tako, da ta izloči signal višine govora vhodnega govornega signala. Pri izvedbi analizatorja govora se lahko uporabijo različni poznani postopki analize frekvence višine govora. V drugem izvedbenem primeru je v patentu uporabljena množica nizkopasovnih filtrov, ki so priključeni na detektorje vrhov. Ti v filtriranem signalu detektirajo vrhove signala, na osnovi česar selektor kanalov ob vsakem časovnem trenutku adaptivno izbira najustreznejši kanal, enega od filtrov v množici filtrov, ter na osnovi tako definiranih izhodov filtrov določi oznake period. Da se odstranijo nepravilnosti v tako določenem zaporedju oznak period se le-te pretvorijo v krivuljo frekvence višine govora, ki je potem uporabljena za nastavitev parametrov adaptivnega nizkopasovnega filtra, ki iz vhodnega govornega signala izloči signal višine govora. V patentu US 6470311 B1 so parametri optimalnega filtra določeni s pomočjo filtriranja delov govornega signala, večjih od 50 ms z množico filtrov. Nato so izračunane poprečne vrednosti izhodnih signalov filtrov in razlike med poprečji. Na osnovi tega je določen prvi vrh razlike energije nad krivuljo poprečja razlike energije, ki je uporabljen za definiranje parametrov optimalnega filtra za filtriranje vhodnega signala.
Pristopi, ki uporabljajo tehnike filtriranja govornega signala imajo relativno dobro časovno razločljivost. Uspešnost postopkov določanja oznak višine govora, ki uporabljajo postopke določanja frekvence višine govora je odvisna predvsem od natančnosti, robustnosti in časovne razločljivosti uporabljenih postopkov določitve frekvence višine govornega signala. Postopki, ki uporabljajo množico filtrov so pogosto občutljivi na šum, kar lahko privede do slabih rezultatov v primeru šumnega govornega signala. V patentu EP 2278581 B1 je opisana rešitev, kjer je uporabljen pasovnoprepustni filter, ki iz govornega signala izloči signal višine govora, pri tem so parametri filtra (karakteristika prepustnega pasu) določeni glede na ocenjeno frekvenco višine govora, katere oceno določa modul določitve frekvence višine govora. V tej rešitvi ima modul določitve frekvence višine govora kompleksno strukturo, kar v splošnem pomeni večjo računsko zahtevnost predlagane rešitve.
Prej opisane rešitve se razlikujejo od pričujočega izuma po tem, da postopek vključuje preprost mehanizem določanja parametrov adaptivnega pasovnoprepustnega filtra z ničelno fazo.
Opis rešitve tehničnega problema
Postopek za označevanje periode višine govora in zvočnih/nezvočnih segmentov po izumu vključuje naslednje korake: - iz govornega signala se najprej odstrani enosmerna komponenta čemur sledi filtriranje z nizkopasovnim filtrom z ničelno fazo in mejno frekvenco Fip.; - izhodni filtriran govorni signal se uporabi za izračun kratkočasovnega poprečja absolutnih trenutnih vrednosti amplitude signala in izračun zaporedja kratkočasovne pristranske avtokorelacije ob uporabi drsečega kratkočasovnega okna analize s spremenljivo dolžino; - poišče se vrednost prvih dveh harmonično povezanih vrhov (harmonskih vrhov) kratkočasovnega avtokorelacijskega zaporedja in definira časovni indeks višine govora avtokorelacijskega zaporedja; - na osnovi vrednosti časovnega indeksa avtokorelacijskega zaporedja se definira vrednost središčne frekvence F* pasovnoprepustnega filtra in se izračunajo koeficienti filtra; - nizkopasovno filtriran segment govora, za katerega se definira časovni indeks višine govora avtokorelacijskega zaporedja, se filtrira z adaptivnim pasovnoprepustnim filtrom z ničelno fazo, ki uporablja izračunane koeficiente filtra; tako filtriran signal predstavlja signal višine govora govornega signala; - izračuna se kratkočasovno poprečje absolutnih trenutnih vrednosti amplitude nizkopasovno filtriranega govornega signala, ki se uporabi za določitev zvočnih segmentov; - v primeru, da so za trenutni segment govora časovni indeksi višine govora avtokorelacijskega zaporedja definirani in so kratkočasovna poprečja absolutnih trenutnih vrednosti amplitude signala večja od pragu TRE1, se označi trenutni segment kot zvočni segment, v nasprotnem se označi trenutni segment kot nezvočni; - za zvočni govor se določi oznake periode signala višine govora v točkah prečkanja nivoja nič, kjer dve sosednji oznaki predstavljata začetek in konec periode signala višine govora, znotraj katere se pojavita pozitiven in negativen vrh signala; - v zadnji fazi se izvede preslikava oznak period višine govora signala višine govora v oznake period višine govora govornega signala; - položaj oznak višine govora se za nezvočne segmente definira na osnovi pravil določanja mej nezvočnih segmentov, ki lahko definirajo položaj oznak period višine govora v konstantnih časovnih intervalih izbrane dolžine, pri tem je lahko izbrana dolžina določena kot poprečna vrednost razdalj med oznakami period višine govora za zvočne segmente ali na osnovi kakorkoli drugače definiranih statističnih karakteristik razdalj med oznakami period višine govora zvočnih segmentov govora, ali pa na osnovi kakšnega drugega kriterija določanja izbrane dolžine.
Naprava po prej opisanem postopku vključuje: - enoto za odstranjevanje enosmerne vrednosti, - nizkopasovni filter z ničelno fazo, - enoto za izračun avtokorelacijskega zaporedja in iskanja maksimumov avtokorelacijskega zaporedja; - enoto za izračun kratkočasovnega poprečja absolutnih trenutnih vrednosti amplitude signala, - enoto detekcije zvočnih/nezvočnih segmentov signala, - pomnilnik zvočnega govora, - enoto generiranja koeficientov pasovnoprepustnega filtra, - adaptivni pasovnoprepustni filter z ničelno fazo, - enoto detektiranja polaritete govora in - enoto označevanja period višine govora.
Postopek in naprava za označevanje periode višine govora in zvočnih/nezvočnih segmentov po izumu bo v nadaljevanju podrobneje razložena z opisom izvedbenih primerov in slik, ki prikazujejo:
Slika 1 blok shema prvega izvedbenega primera postopka
Slika 2 blok shema postopka označevanja period višine govora po drugem izvedbenem primeru
Slika 3 potek postopka označevanja period višine govora Slika 4a primer govornega signala
Slika 4b krivuljo normiranega kratkočasovnega avtokorelacijskega časovnega indeksa višine govora
Slika 4c normirano kratkočasovno poprečje absolutnih trenutnih vrednosti amplitude
Slika 5 primer zvočnega segmenta govornega signala in signal višine govora, izločen iz zvočnega govora z adaptivnim pasovnoprepustnim filtrom z ničelno fazo
Slika 6 primer segmenta zvočnega govornega signala
Slika 7 primer zaporedja pristranske kratkočasovne avtokorelacije zvočnega segmenta govornega signala
Slika 8 primer prehoda iz zvočnega v nezvočni govorni signal Slika 9 primer pristranskega avtokorelacijskega zaporedja Slika 10 primer prehoda signala iz zvočnega v nezvočni govor Slika 11 primer pristranskega avtokorelacijskega zaporedja
Slika 12 primer govornega signala z označenimi periodami višine govora
Slika 13 primer govornega signala s prikazanimi oznakami periode višine govora
Slika 14 primer govornega signala s prikazanimi oznakami periode višine govornega signala
Slika 15 naprava po izumu V podrobnem opisu, ki sledi v nadaljevanju, so prikazani in opisani le posamezni primeri izvedb. Zato so slike in opis le ilustrativnega značaja in kot take neomejujoče.
Slika 1 prikazuje blok shemo postopka določanja period višine govora po izumu (izvedbeni primer I). Postopek procesiranja govornega signala se začne s korakom 1010 z odstranitvijo enosmerne komponente. Signal brez enosmerne komponente se v koraku 1020 filtrira z nizkopasovnim filtrom z ničelno fazo. V koraku 1030 se izvede procesiranje avtokorelacije, ki vključuje korak 1031 oz. izračun zaporedja kratkočasovne avtokorelacije ter korak 1032 z določitvijo časovnih indeksov vrhov avtokorelacijskega zaporedja za določitev avtokorelacijskega indeksa časovne periode višine govornega signala. Signal, ki je nastal v koraku 1020 se direktno vodi tudi v korak 1060 oz. pomnilnik zvočnega govora ter v korak 1045, kjer se izvede izračun kratkočasovnega poprečja absolutih trenutnih vrednosti amplitude signala. V koraku 1050 se izvede detektiranje zvočnega/nezvočnega govora, pri čemer je pripeljan tudi signal iz koraka 1032. Zvočni signal iz koraka 1050 se vodi v korak 1060 oz. pomnilnik zvočnega govora in v korak 2080. Signal iz koraka 1032 se vodi tudi v korak 2080, kjer se opravi generiranje koeficientov pasovnoprepustnega filtra. V koraku 2080 dobljeni koeficienti pasovnoprepustnega filtra se vodijo v adaptivni pasovnoprepustni filter z ničelno fazo in s središčno frekvenco Fcf oz. v korak 2070. Koraku 2070 sledi korak 2090 oz. generiranje signala višine govora, kateri se vodi v algoritem označevanja višine period v koraku 1111, v katerega se pripelje tudi signal po odstranitvi enosmerne komponente. Iz korakov 2090, kjer je definiran signal višine govora, in 1010, katerega rezultat je signal z odstranjeno enosmerno komponento, se vodita signala z detektirano polariteto govora, ki je izvedena v koraku 2100, v korak 1110, ki poleg koraka 1111 za označevanje zvočnih segmentov govora, vključuje tudi korak 1112, kjer poteka ob upoštevanju detektiranih meja nezvočnih segmentov v koraku 1050 in signala z odstranjeno enosmerno komponento, označevanje period nezvočnih segmentov govora. Rezultati procesiranja v korakih 1050 in 1110 so zapisani v množice oznak v koraku 1120. Iz koraka 1050 je rezultat procesiranja zapisan v množico oznak zvočnih/nezvočnih segmentov v koraku 1122. Iz korakov 1111 in 1112 sta rezultata procesiranja zapisana v obliki množic oznak period višine govora za zvočne in nezvočne segmente govora v koraku 1121.
Govorni signal se procesira v korakih 1111, 1112 in 1050. Rezultati tega procesiranja so meje. Meje lahko označujejo zvočni/nezvočni govor - to se določi v koraku 1050, ali pa periode govornega signala. Te se za zvočni govor določa v koraku 1111, za nezvočni govor pa v koraku 1112. Korak 1120 tako ne vključuje več signalov, pač pa združuje rezultate procesiranja in sicer korak 1122 zapis mej zvočnih/nezvočnih segmentov govora in korak 1121 zapis mej/oznak višine (period) zvočnega in nezvočnega govora, ki so bile določene v koraku procesiranja 1111 in 1112.
Postopek označevanja period višine govora po izvedbenem primeru II je prikazan s pomočjo blok sheme na sliki 2. Korak 2080 za generiranje koeficientov filtra je nadomeščen s korakom 2082, ki vključuje množico preddefiniranih koeficientov pasovnoprepustnih filtrov, pri čemer množica koeficientov preddefiniranih filtrov kot vhodna informacija prihaja v korak 2081, ki vključuje modul izbire koeficientov filtra. Izhod iz koraka 2081 je množica koeficientov izbranega filtra, ki je eden od dveh vhodnih podatkov v korak 2070. S tem je dosežena večja računska učinkovitost predlaganega postopka, saj je potrebno manj izračunov za definiranje koeficientov filtra za trenutni govorni segment.
Slika 3 prikazuje potek postopka označevanja period višine govora. S tipko START se sproži postopek, kjer se v koraku 1010 odstrani enosmerna komponenta iz vhodnega govornega signala 1000. V koraku 1020 se rezultirajoč govorni signal iz koraka 1010 filtrira z nizkopasovnim filtrom z ničelno fazo in mejno frekvenco F!p, pri tem je vrednost mejne frekvence F|P višja od najvišje pričakovane vrednosti višine govora vhodnega signala. V primeru nizkofrekvenčnega šuma se lahko vhodni nizkopasovni filter z mejno frekvenco F|P nadomesti s pasovnoprepustnim filtrom z ničelno fazo, ki iz signala odstrani nizkofrekvenčni šum in se s tem poveča robustnost predlagane metode. Izhodni nizkopasovo filtriran govorni signal iz koraka 1020 se procesira s korelacijskim modulom, ki v koraku 1031 izračuna kratkočasovno avtokorelacijo in koraku 1032 poišče časovne indekse vrhov avtokorelacijskega zaporedja. Modul izračuna kratkočasovne avtokorelacije določi pristransko avtokorelacijsko zaporedje za drseče okno analize W različnih dolžin za celotno dolžino vhodnega signala. Za vsak časovni trenutek se za izračun avtokorelacijskega zaporedja iz koraka 1031 uporabi začetno dolgočasovno okno analize WLt- Dobljeno avtokorelacijsko zaporedje se normira na vrednost 1. Normirano avtokorelacijsko zaporedje iz koraka 1031 se v koraku 1032 obdela v modulu iskanja vrhov avtokorelacijske funkcije, kjer se iščeta prva dva harmonska vrhova. Iskana harmonska vrhova sta določena ob upoštevanju vnaprej definiranih pragov avtokorelacijskih vrednosti. Pragovi so določeni z vrednostmi TRA1, TRA2 in TRA3, ki so prikazani na slikah 7, 9 in 11, pri čemer imajo v ilustrativnem primeru pragovi vrednosti TRA1=0.3, TRA2=0.2 in TRA3=0.38. Vrednosti TRA1, TRA2 in TRA3 so eksperimentalno določene ter se lahko za različna zvočna okolja razlikujejo. Glede na vnaprej definirane pragove se ločijo trije različni primeri. V prvem sta oba harmonska vrhova avtokorelacijskega zaporedja večja od definiranih pragov: prvi vrh je večji od TRA1 in drugi vrh večji od TRA2 (slika 7). V tem primeru je segment signala, za katerega je bilo izračunano avtokorelacijsko zaporedje, zvočen (slika 6). V drugem primeru je samo prvi vrh večji od ustreznih pragov TRA1 in TRA3 (slika 9), med tem ko je drugi vrh manjši od praga TRA2. Segment signala za katerega je bilo izračunano kratkočasovno avtokorelacijsko zaporedje je delno periodičen (slika 8). V tretjem primeru noben od prvih dveh harmonskih vrhov avtokorelacijskega zaporedja ne presega ustreznih pragov TRA1 in TRA2 (slika 11). Segment signala za katerega je bilo izračunano kratkočasovno avtokorelacijsko zaporedje je večinsko neperiodičen (slika 10). Če sta oba harmonska vrhova večja od definiranih pragov je indeks prvega vrha avtokorelacijskega zaporedja v koraku 1033, določen kot avtokorelacijski časovni indeks dolgočasovnega okna WLt (slika 3). Če v koraku 1034 časovni indeks okna WLt obstaja, se določi novo dolžino okna analize Wn (kratkočasovno okno), da se izboljša časovno razločljivost postopka. Dolžino kratkočasovnega okna WN se določi v koraku 1035 kot mnogokratnik vrednosti avtokorelacijskega časovnega indeksa dolgočasovnega okna Wlt- Za tako določeno kratkočasovno okno Wn se v koraku 1036 ponovno izračuna avtokorelacijsko zaporedje. V izračunanem avtokorelacijskem zaporedju se v koraku 1037 išče prva dva harmonska vrhova. Če v koraku 1038 vrhova obstajata in presegata pragova TRA1 in TRA 2, ali če samo prvi vrh presega prag TRA3, med tem ko je drugi vrh manjši od TRA2, je časovni indeks avtokorelacijskega zaporedja prvega vrha določen kot avtokorelacijski časovni indeks kratkočasovnega okna Wn. Če noben od vrhov ni večji od definiranih pragov, avtokorelacijski časovni indeks kratkočasovnega okna Wn ni določen. Če avtokorelacijski časovni indeks kratkočasovnega okna WN obstaja, se ga v koraku 1039 primerja z avtokorelacijskim časovnim indeksom dolgočasovnega okna Wlt· če je v koraku 1040 razlika med časovnima indeksoma manjša od pragu TRL1, se v koraku 1041 določi avtokorelacijski časovni indeks kratkočasovnega okna analize WN kot avtokorelacijski časovni indeks višine govora trenutnega okna. če je razlika večja, pa se v koraku 1042 določi avtokorelacijski časovni indeks dolgočasovnega okna analize WLt, kot avtokorelacijski časovni indeks višine govora trenutnega okna. Če avtokorelacijski časovni indeks kratkočasovnega okna analize WN za trenutno okno ni definiran, se določi avtokorelacijski časovni indeks dolgočasovnega okna analize Wlt kot avtokorelacijski časovni indeks višine govora trenutnega okna. če noben od vrhov avtokorelacijskega zaporedja dolgočasovnega okna analize Wlt ni večji od definiranih pragov, za trenutno okno analize avtokorelacijski časovni indeks višine govora ni določen. Postopek se iz koraka 1041 in koraka 1042, kot tudi iz koraka 1034, kjer časovni indeks okna WLt ne obstaja, nadaljuje v koraku 1045.
Ob izračunu kratkočasovne avtokorelacije se v koraku 1045 izračuna tudi kratkočasovno poprečje absolutnih trenutnih vrednosti amplitude nizkopasovno filtriranega vhodnega signala. V koraku 1050 modul določanja zvočnih/nezvočnih segmentov uporablja za določitev mej zvočnih/nezvočnih segmentov informacijo o avtokorelacijskih časovnih indeksih višine govora iz koraka 1041 ali koraka 1042 in v koraku 1045 dobljeno krivuljo kratkočasovnega poprečja absolutnih trenutnih vrednosti amplitude signala ter prag TRE1. Če avtokorelacijski časovni indeksi višine govora za trenutni segment obstajajo in je kratkočasovno poprečje absolutnih trenutnih vrednosti amplitude večje od pragu TRE1 za celotni trenutni segment, se označi trenutni segment kot periodičen. Če avtokorelacijski časovni indeksi višine govora za trenutni segment niso določeni ali je vrednost kratkočasovnega poprečja absolutnih trenutnih vrednosti amplitude signala manjše od pragu TRL1, ali če velja oboje, se označi trenutni segment kot nezvočen. Slika 4a prikazuje primer govornega signala, slika 4b normirano krivuljo avtokorelacijskega časovnega indeksa višine govora in slika 4c normirano kratkočasovno poprečje absolutnih trenutnih vrednosti amplitude nizkopasovno filtriranega govornega signala ter pragovno vrednost TRE1. Navpične črte na vseh treh slikah 4a, 4b in 4c označujejo meje zvočnih/nezvočnih segmentov.
Informacija o avtokorelacijskem časovnem indeksu višine govora je v koraku 2080 posredovana modulu generiranja koeficientov filtra, kjer je vrednost indeksa uporabljena za definiranje središčne frekvence FCf pasovnoprepustnega filtra, na osnovi česar so izračunani koeficienti filtra. Pri tem je uporabljena funkcija preslikave, ki preslika vrednost avtokorelacijskega časovnega indeksa višine govora v vrednost središčne frekvence pasovnoprepustnega filtra Fcf. V koraku 2070 adaptivni pasovnoprepustni filter z ničelno fazo uporablja izračunane koeficiente filtra in filtrira vhodni nizkopasovno filtriran govorni signal tako, da izloči signal višine govora. Slika 5 kaže primer zvočnega govornega signala in signal višine govora, ki je bil izločen iz govornega signala s pomočjo filtriranja govornega signala z adaptivnim pasovnoprepustnim filtrom z ničelno fazo. Naslednji korak je postopek označevanja period višine govora. V koraku 1111 se v modulu označevanja period višine govora najprej izvede označevanje period na izločenem signalu višine govora. To se izvede z določanjem polperiod signala višine govora in določitvijo oznake periode višine govora za signal višine govora v točkah prečkanja nivoja nič, kot začetni in končni otipek periode signala višine govora znotraj katerih sta prisotna pozitivni in negativni vrh periode. Perioda višine govora, ki jo označujeta oznaki višine govora določa območje oznak periode višine govora. V nadaljevanju se izvede preslikavo oznak period signala višine govora v oznake period višine govornega signala. Preslikave se lahko izvedejo v tri različne točke: a) oznake višine se postavi v točko negativnega vrha periode govornega signala (slika 12), b) oznake višine govora se postavi v točke pozitivnega vrha periode govornega signala (slika 13), c) oznake višine govora se postavi v točke prečkanja nivoja nič, ki predstavljajo začetni in končni otipek periode, znotraj katere se nahajata pozitivni in negativni vrh govornega signala (slika 14). V slikah 12, 13 in 14 puščice kažejo preslikavo oznak period višine govora signala višine govora v oznake period višine govora govornega signala. Pri označevanju vrhov, kot točk oznak period višine govora, se v koraku 2100 (slika 1) uporabi detekcijo polaritete govora, s katero se definira ali se mora označevati pozitivne ali negativne vrhove. V koraku 1112 se definira oznake period višine govora za neperiodične segmente na osnovi pravil. Pravila lahko definirajo položaj oznak period višine govora za nezvočne segmente govora v konstantnih časovnih intervalih izbrane dolžine, ali kot poprečno vrednost razdalj med oznakami period višine govora za zvočne segmente ali določajo razdaljo med oznakami period na osnovi kakorkoli drugače definiranih statističnih karakteristik razdalj med oznakami period višin govora zvočnih segmentov govora.
Slika 5 kaže primer zvočnega segmenta govornega signala in signal višine govora, izločen iz zvočnega govora z adaptivnim pasovnoprepustnim filtrom z ničelno fazo. Na sliki 6 je prikazan primer segmenta zvočnega govornega signala. Slika 7 kaže primer zaporedja pristranske kratkočasovne avtokorelacije zvočnega segmenta govornega signala z vrednostjo prvega vrha P1, večjo od pragu TRA1, in vrednostjo drugega vrha P2, večjo od praga TRA2, pri tem je zaporedje avtokorelacije izračunano za zvočni segment dolžine WLt govornega signala, prikazanega na sliki 6.
Slika 8 kaže primer prehoda iz zvočnega v nezvočni govorni signal. Slika 9 kaže primer pristranskega avtokorelacijskega zaporedja z vrednostjo prvega vrha P1, večjo od pragov TRA 1 in TRA3, in vrednostjo drugega vrha P2, manjšo od pragu TRA2, izračunano za primer prehoda iz zvočnega v nezvočni govorni signal segmenta dolžine Wlt, ki ga kaže slika 8.
Slika 10 kaže primer prehoda signala iz zvočnega v nezvočni govor - večji del signala je nezvočen. Slika 11 kaže primer pristranskega avtokorelacijskega zaporedja, ki nima nobenih vrednosti vrhov večjih od TR1 in TR2, izračunanega za primer prehoda signala iz zvočnega v nezvočni govor za govorni segment dolžine Wi_t, ki ga kaže slika 10.
Slika 12 kaže primer govornega signala z označenimi periodami višine govora (navpične črtkane črte), pri tem so izbrane točke označitve period višine govora negativni vrhovi govornega signala. Puščice kažejo preslikavo oznak period višine za signal višine govora, ki označujejo točke prečkanja nivoja nič periode signala višine govora, v oznake period višine govora, definirane v točkah negativnih ekstremov govornega signala.
Slika 13 kaže primer govornega signala s prikazanimi oznakami periode višine govora (navpične črtkane črte), kjer oznake višine govora označujejo pozitivne vrhove. Puščice označujejo preslikavo oznak višine govora signala višine govora, ki označujejo točke prečkanja nivoja nič periode signala višine govora, v točke period višine govora, definirane v točkah pozitivnih vrhov govornega signala.
Slika 14 kaže primer govornega signala s prikazanimi oznakami periode višine govornega signala (navpične črtkane črte), kjer oznake višine govora označujejo začetni in končni otipek periode višine govora, ki zajema pozitivni in negativni vrh. Puščice označujejo preslikavo oznak višine govora signala višine govora, ki označujejo točke prečkanja nivoja nič periode signala višine govora, v oznake period višine govora, definirane v točkah prečkanja nivoja nič govornega signala.
Napravo za označevanje periode višine govora (slika 15) izvedena na osnovi postopka po izumu sestavlja enota odstranjevanja enosmerne komponente 101 Oa, nizkopasovni filter z ničelno fazo 1020a, enota izračuna avtokorelacije in iskanja vrhov avtokorelacijskega zaporedja 1030a, enota izračuna kratkočasovnega poprečja absolutnih trenutnih vrednosti amplitude signala 1045a, enota detektiranja zvočnega/nezvočnega govora 1050a, pomnilnik zvočnega govora 1060a, enota generiranja koeficientov pasovnoprepustnega filtra 2080a, adaptivni pasovnoprepustni filter z ničelno fazo 2070a, enota označevanja periode višine govora 1110a z modulom označevanja zvočnega govora 1111 a in nezvočnega govora 1112a ter enota detekcije polaritete govora 2100a.
Končni rezultat predlaganega postopka je množica oznak iz koraka 1120 (slika 1). Množica oznak period višine govora za zvočni/nezvočni govor iz koraka 1121 in množica oznak zvočnih/nezvočnih segmentov iz koraka 1122. Z namenom zmanjšanja računske zahtevnosti postopka je v izvedbenem primeru II modul generiranja koeficientov filtrov iz koraka 2080 zamenjan z množico v naprej definiranih koeficientov pasovnoprepustnih filtrov iz koraka 2082 (Slika 2) in modulom izbire koeficientov filtra iz koraka 2081. Podatka o detektiranju zvočnih/nezvočnih segmentov govornega signala iz koraka 1060 in avtokorelacijskega časovnega indeksa višine govora iz koraka 1032 sta uporabljena kot kriterija za izbiro ustrezne množice koeficientov filtra iz množice v naprej definiranih koeficientov pasovnoprepustnih filtrov iz koraka 2082. S predlagano rešitvijo so zagotovljena sredstva za robustno in zanesljivo določitev oznak period višine govora z visoko časovno razločljivostjo. Ker se višina govora s časom spreminja, je za izločitev signala višine govora časovno spreminjajočega se govornega signala uporabljen časovno spremenljiv filter. Računanje koeficientov adaptivnega filtra zahteva uporabo kompleksnih iterativnih algoritmov. Cilj filtriranja v predlaganem izumu je izločitev signala višine govora iz govornega signala z uporabo ustrezno definiranih koeficientov adaptivnega pasovnoprepustnega filtra z ničelno fazo in s središčno frekvenco FCf.
Pričujoči postopek, kot tudi naprava po tem postopku, izkazuje visoko stopnjo neobčutljivosti na šum in visoko časovno razločljivost, brez učinka oknjenja in poprečenja pri označevanju period višine govora in zvočnih/nezvočnih segmentov govornega signala.
Uporaba postopka po izumu je možna na področjih procesiranja govornega signala za izboljšanje kvalitete govora ob upoštevanju višine govora, v klinični diagnostiki, pri kodiranju govora, avtomatski fonetični segmentaciji, analizi in procesiranju govora ob upoštevanju višine govora, karakterizaciji govorca, pretvarjanju glasu, razpoznavanju govora in sintezi govora.

Claims (8)

  1. Patentni zahtevki
    1. Postopek za označevanje periode višine govora in zvočnih/nezvočnih segmentov po izumu vključuje naslednje korake: - iz govornega signala se najprej odstrani enosmerna komponenta, čemur sledi filtriranje z nizkopasovnim filtrom z ničelno fazo in mejno frekvenco F|P.; - izhodni filtriran govorni signal se uporabi za izračun kratkočasovnega poprečja absolutnih trenutnih vrednosti amplitude signala in izračun zaporedja kratkočasovne pristranske avtokorelacije ob uporabi drsečega kratkočasovnega okna analize s spremenljivo dolžino; - poišče se vrednost prvih dveh harmonično povezanih vrhov (harmonskih vrhov) kratkočasovnega avtokorelacijskega zaporedja in definira časovni indeks višine govora avtokorelacijskega zaporedja; - na osnovi vrednosti časovnega indeksa avtokorelacijskega zaporedja se definira vrednost središčne frekvence FCf pasovnoprepustnega filtra in se izračunajo koeficienti filtra; - nizkopasovno filtriran segment govora, za katerega se definira časovni indeks višine govora avtokorelacijskega zaporedja, se filtrira z adaptivnim pasovnoprepustnim filtrom z ničelno fazo, ki uporablja izračunane koeficiente filtra; tako filtriran signal predstavlja signal višine govora govornega signala; - izračuna se kratkočasovno poprečje absolutnih trenutnih vrednosti amplitude nizkopasovno filtriranega govornega signala, ki se uporabi za določitev zvočnih segmentov; - v primeru, da so za trenutni segment govora časovni indeksi višine govora avtokorelacijskega zaporedja definirani in so kratkočasovna poprečja absolutnih trenutnih vrednosti amplitude signala večja od pragu TRE1, se označi trenutni segment kot zvočni segment, v nasprotnem se označi trenutni segment kot nezvočni; - za zvočni govor se določi oznake periode signala višine govora v točkah prečkanja nivoja nič, kjer dve sosednji oznaki predstavljata začetek in konec periode signala višine govora, znotraj katere se pojavita pozitiven in negativen vrh signala; - v zadnji fazi se izvede preslikava oznak period višine govora signala višine govora v oznake period višine govora govornega signala; - položaj oznak višine govora se za nezvočne segmente definira na osnovi pravil določanja mej nezvočnih segmentov, ki določajo meje v konstantnih časovnih intervalih izbrane dolžine, ali kot poprečno vrednost razdalj med oznakami period višin govora za zvočne segmente ali določajo razdaljo med oznakami period na osnovi kakorkoli drugače definiranih statističnih karakteristikah razdalj med oznakami period višine govora zvočnih segmentov govora.
  2. 2. Postopek po zahtevku 1, značilen po tem, da se procesiranje govornega signala začne s korakom (1010) z odstranitvijo enosmerne komponente; da se signal brez enosmerne komponente v koraku (1020) filtrira z nizkopasovnim filtrom z ničelno fazo; da se v koraku (1030) izvede procesiranje avtokorelacije, ki vključuje korak (1031) oz. izračun zaporedja kratkočasovne avtokorelacije ter korak (1032) z določitvijo časovnih indeksov vrhov avtokorelacijskega zaporedja za določitev avtokorelacijskega indeksa časovne periode višine govornega signala; da se signal, ki je nastal v koraku (1020) direktno vodi tudi v korak (1060) oz. pomnilnik zvočnega govora ter v korak (1045), kjer se izvede izračun kratkočasovnega poprečja absolutih trenutnih vrednosti amplitude signala; da se v koraku (1050) izvede detektiranje zvočnega/nezvočnega govora, pri čemer je pripeljan tudi signal iz koraka (1032); da se zvočni signal iz koraka (1050) vodi v korak (1060) oz. pomnilnik zvočnega govora in v korak (2080); da se signal iz koraka (1032) vodi tudi v korak (2080), kjer se opravi generiranje koeficientov pasovnoprepustnega filtra; da se v koraku (2080) dobljeni koeficienti pasovnoprepustnega filtra vodijo v adaptivni pasovnoprepustni filter z ničelno fazo in s središčno frekvenco FCf oz. v korak (2070); da sledi koraku (2070) korak (2090) oz. generiranje signala višine govora, kateri se vodi v algoritem označevanja period višine govora v koraku (1111), v katerega se pripelje tudi signal po odstranitvi enosmerne komponente; da se vodita signala z detektirano polariteto govora, ki je izvedena v koraku (2100), v korak (1110), ki poleg koraka (1111) za označevanje zvočnih segmentov govora, vključuje tudi korak (1112), kjer poteka ob upoštevanju detektiranih meja nezvočnih segmentov v koraku (1050) in signala z odstranjeno enosmerno komponento, označevanje period nezvočnih segmentov govora; da so rezultati procesiranja v korakih (1050 in 1110) zapisani v množice oznak v koraku (1120); da je iz koraka (1050) rezultat procesiranja zapisan v množico oznak zvočnih/nezvočnih segmentov v koraku (1122); da sta iz korakov (1111 in 1112) rezultata procesiranja zapisana v obliki množic oznak period višine govora za zvočne in nezvočne segmente govora v koraku (1121).
  3. 3. Postopek po zahtevku 2, značilen po tem, da je korak za generiranje koeficientov filtra sestavljen iz koraka (2082), ki vključuje množico preddefiniranih koeficientov pasovnoprepustnih filtrov, pri čemer množica kot vhodna informacija prihaja v korak (2081), ki vključuje modul izbire koeficientov filtra. Izhodni podatek iz koraka (2081) je izbrana množica koeficientov filtra za pasovnoprepustni filter s središčno frekvenco Fcf.
  4. 4. Postopek po enem od predhodnih zahtevkov od 1 do 3, značilen po tem, da poteka tako, da se sproži tipalo START, kjer se v koraku (1010) odstrani enosmerna komponenta iz vhodnega govornega signala (1000); da se v koraku (1020) rezultirajoč govorni signal iz koraka (1010) filtrira z nizkopasovnim filtrom z ničelno fazo in mejno frekvenco F|P, pri tem je vrednost mejne frekvence F|P višja od najvišje pričakovane vrednosti višine govora vhodnega signala; da se v primeru nizkofrekvenčnega šuma lahko vhodni nizkopasovni filter z mejno frekvenco F|P nadomesti s pasovnoprepustnim filtrom z ničelno fazo, ki iz signala odstrani nizkofrekvenčni šum; da se izhodni nizkopasovno filtriran govorni signal iz koraka (1020) procesira s korelacijskim modulom, ki v koraku (1031) izračuna kratkočasovno avtokorelacijo in koraku (1032) poišče časovne indekse vrhov avtokorelacijskega zaporedja; da se v modulu izračuna kratkočasovne avtokorelacije določi pristransko avtokorelacijsko zaporedje za drseče okno analize W različnih dolžin za celotno dolžino vhodnega signala.; da se za vsak časovni trenutek za izračun avtokorelacijskega zaporedja iz koraka (1031) uporabi začetno dolgočasovno okno analize WLt; da se dobljeno avtokorelacijsko zaporedje normira na vrednost 1; da se normirano avtokorelacijsko zaporedje iz koraka (1031) v koraku (1032) obdela v modulu iskanja vrhov avtokorelacijske funkcije, kjer se iščeta prva dva harmonska vrhova; da sta iskana harmonska vrhova določena ob upoštevanju vnaprej definiranih pragov poprečja absolutne amplitude; da so pragovi določeni z vrednostmi TRA1, TRA2 in TRA3; da je v primeru, ko sta oba harmonska vrhova večja od definiranih pragov indeks prvega vrha avtokorelacijskega zaporedja v koraku (1033), določen kot avtokorelacijski časovni indeks dolgočasovnega okna Wlt; da se v primeru, če v koraku (1034) časovni indeks okna Wlt obstaja, določi novo dolžino okna analize Wn (kratkočasovno okno), da se izboljša časovno razločljivost postopka; da se dolžino kratkočasovnega okna WN določi v koraku (1035) kot mnogokratnik vrednosti avtokorelacijskega časovnega indeksa dolgočasovnega okna Wlt; da se za tako določeno kratkočasovno okno Wn v koraku (1036) ponovno izračuna avtokorelacijsko zaporedje; da se v izračunanem avtokorelacijskem zaporedju v koraku (1037) išče prva dva harmonska vrhova; da je v primeru, če v koraku (1038) vrhova obstajata in presegata pragova TRA1 in TRA2, ali če samo prvi vrh presega prag TRA3, med tem ko je drugi vrh manjši od TRA2, časovni indeks avtokorelacijskega zaporedja prvega vrha določen kot avtokorelacijski časovni indeks kratkočasovnega okna WN; da če noben od vrhov ni večji od definiranih pragov, avtokorelacijski časovni indeks kratkočasovnega okna Wn ni določen; da v primeru, če avtokorelacijski časovni indeks kratkočasovnega okna Wn obstaja, se ga v koraku (1039) primerja z avtokorelacijskim časovnim indeksom dolgočasovnega okna WLt; da se v primeru, če je v koraku (1040) razlika med časovnima indeksoma manjša od pragu TRL1, v koraku (1041) določi avtokorelacijski časovni indeks kratkočasovnega okna analize Wn kot avtokorelacijski časovni indeks višine govora trenutnega okna; da se v primeru, če je razlika večja, v koraku (1042) določi avtokorelacijski časovni indeks dolgočasovnega okna analize WLt, kot avtokorelacijski časovni indeks višine govora trenutnega okna; da se v primeru, če avtokorelacijski časovni indeks kratkočasovnega okna analize Wn za trenutno okno ni definiran, določi avtokorelacijski časovni indeks dolgočasovnega okna analize WLt kot avtokorelacijski časovni indeks višine govora trenutnega okna; da v primeru, če noben od vrhov avtokorelacijskega zaporedja dolgočasovnega okna analize Wlt ni večji od definiranih pragov, za trenutno okno analize avtokorelacijski časovni indeks višine govora ni določen; da sta signala iz koraka (1041) in koraka (1042) tako kot signal iz koraka (1034), kjer časovni indeks okna Wlt ne obstaja, vhodni signal v koraku (1045).
  5. 5. Postopek po enem zahtevku 4, značilen po tem, da imajo pragovi vrednosti TRA1=0.3, TRA2=0.2 in TRA3=0.38.
  6. 6. Postopek po enem zahtevku 4, značilen po tem, da so vrednosti TRA1, TRA2 in TRA3 eksperimentalno določene ter se lahko za različna zvočna okolja razlikujejo.
  7. 7. Naprava za označevanje period višine govora in zvočnih/nezvočnih segmentov govora osnovana na postopku po kateremkoli od prejšnjih zahtevkov, ki vključuje: - enoto za odstranjevanje enosmerne vrednosti, - nizkopasovni filter z ničelno fazo, - enoto za izračun avtokorelacijskega zaporedja in iskanja maksimumov avtokorelacijskega zaporedja; - enoto za izračun kratkočasovnega poprečja absolutnih trenutnih vrednosti amplitude signala, - enoto detekcije zvočnih/nezvočnih segmentov signala, - pomnilnik zvočnega govora, - enoto generiranja koeficientov pasovnoprepustnega filtra, - adaptivni pasovnoprepustni filter z ničelno fazo, - enoto detektiranja polaritete govora in - enoto označevanja period višine govora.
  8. 8. Uporaba rezultatov postopka po kateremkoli od zahtevkov od 1 do 6, značilna po tem, da se uporabijo za izboljšanje kvalitete govora ob upoštevanju višine govora, v klinični diagnostiki, pri kodiranju govora, avtomatski fonetični segmentaciji, analizi in procesiranju govora ob upoštevanju višine govora, karakterizaciji govorca, pretvarjanje glasu, razpoznavanju govora in sintezi govora.
SI201600184A 2016-08-02 2016-08-02 Postopek in naprava za označevanje periode višine govora in zvočnih/nezvočnih segmentov SI25265A (sl)

Priority Applications (2)

Application Number Priority Date Filing Date Title
SI201600184A SI25265A (sl) 2016-08-02 2016-08-02 Postopek in naprava za označevanje periode višine govora in zvočnih/nezvočnih segmentov
PCT/SI2017/000007 WO2018026329A1 (en) 2016-08-02 2017-04-25 Pitch period and voiced/unvoiced speech marking method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
SI201600184A SI25265A (sl) 2016-08-02 2016-08-02 Postopek in naprava za označevanje periode višine govora in zvočnih/nezvočnih segmentov

Publications (1)

Publication Number Publication Date
SI25265A true SI25265A (sl) 2018-02-28

Family

ID=59067869

Family Applications (1)

Application Number Title Priority Date Filing Date
SI201600184A SI25265A (sl) 2016-08-02 2016-08-02 Postopek in naprava za označevanje periode višine govora in zvočnih/nezvočnih segmentov

Country Status (2)

Country Link
SI (1) SI25265A (sl)
WO (1) WO2018026329A1 (sl)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11443761B2 (en) 2018-09-01 2022-09-13 Indian Institute Of Technology Bombay Real-time pitch tracking by detection of glottal excitation epochs in speech signal using Hilbert envelope
CN116432007B (zh) * 2023-06-13 2023-08-22 天津精仪精测科技有限公司 基于空域特征和机器学习的光纤预警模式识别方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6119718A (ja) 1984-07-06 1986-01-28 Nippon Steel Corp 密閉型転炉排ガス処理装置の異常時運転方法
US6490562B1 (en) 1997-04-09 2002-12-03 Matsushita Electric Industrial Co., Ltd. Method and system for analyzing voices
US6470311B1 (en) 1999-10-15 2002-10-22 Fonix Corporation Method and apparatus for determining pitch synchronous frames
TWI225637B (en) 2003-06-09 2004-12-21 Ali Corp Method for calculation a pitch period estimation of speech signals with variable step size
US8396704B2 (en) * 2007-10-24 2013-03-12 Red Shift Company, Llc Producing time uniform feature vectors
US8214201B2 (en) 2008-11-19 2012-07-03 Cambridge Silicon Radio Limited Pitch range refinement
US8280725B2 (en) 2009-05-28 2012-10-02 Cambridge Silicon Radio Limited Pitch or periodicity estimation

Also Published As

Publication number Publication date
WO2018026329A1 (en) 2018-02-08

Similar Documents

Publication Publication Date Title
Drugman et al. Glottal closure and opening instant detection from speech signals
KR100930584B1 (ko) 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치
Deshmukh et al. Use of temporal information: Detection of periodicity, aperiodicity, and pitch in speech
Murty et al. Epoch extraction from speech signals
JP5229234B2 (ja) 非音声区間検出方法及び非音声区間検出装置
Evangelopoulos et al. Multiband modulation energy tracking for noisy speech detection
Greenwood et al. SUVing: automatic silence/unvoiced/voiced classification of speech
Khoa Noise robust voice activity detection
SI25265A (sl) Postopek in naprava za označevanje periode višine govora in zvočnih/nezvočnih segmentov
US6865529B2 (en) Method of estimating the pitch of a speech signal using an average distance between peaks, use of the method, and a device adapted therefor
US10522160B2 (en) Methods and apparatus to identify a source of speech captured at a wearable electronic device
Patil et al. Effectiveness of Teager energy operator for epoch detection from speech signals
US11443761B2 (en) Real-time pitch tracking by detection of glottal excitation epochs in speech signal using Hilbert envelope
Vieira et al. Robust F/sub 0/and jitter estimation in pathological voices
WO2001077635A1 (en) Estimating the pitch of a speech signal using a binary signal
CN1971707B (zh) 一种进行基音周期估计和清浊判决的方法及装置
Lin et al. A Novel Normalization Method for Autocorrelation Function for Pitch Detection and for Speech Activity Detection.
US20010029447A1 (en) Method of estimating the pitch of a speech signal using previous estimates, use of the method, and a device adapted therefor
Govind et al. Epoch extraction in high pass filtered speech using hilbert envelope
Bőhm et al. Automatic classification of regular vs. irregular phonation types
WO2001013360A1 (en) Pitch and voicing estimation for low bit rate speech coders
Jijomon et al. An offline signal processing technique for accurate localisation of stop release bursts in vowel-consonant-vowel utterances
Rachel et al. Estimation of glottal closure instants from telephone speech using a group delay-based approach that considers speech signal as a spectrum
Stahl et al. Phase-processing for voice activity detection: A statistical approach
JP2005266098A (ja) 音声信号セグメント方法、音声ピッチ検出方法及び音声区間検出処理方法

Legal Events

Date Code Title Description
OO00 Grant of patent

Effective date: 20180301