NL8701798A - Werkwijze en inrichting voor het bepalen van het verloop van een spraakparameter, bijvoorbeeld de toonhoogte, in een spraaksignaal. - Google Patents
Werkwijze en inrichting voor het bepalen van het verloop van een spraakparameter, bijvoorbeeld de toonhoogte, in een spraaksignaal. Download PDFInfo
- Publication number
- NL8701798A NL8701798A NL8701798A NL8701798A NL8701798A NL 8701798 A NL8701798 A NL 8701798A NL 8701798 A NL8701798 A NL 8701798A NL 8701798 A NL8701798 A NL 8701798A NL 8701798 A NL8701798 A NL 8701798A
- Authority
- NL
- Netherlands
- Prior art keywords
- time
- value
- speech parameter
- values
- speech
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 40
- 230000008878 coupling Effects 0.000 claims description 29
- 238000010168 coupling process Methods 0.000 claims description 29
- 238000005859 coupling reaction Methods 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 229910052729 chemical element Inorganic materials 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
PHN 12.203 1 N.V. Philips' Gloeilampenfabrieken te Eindhoven.
Werkwijze en inrichting voor het bepalen van het verloop van een spraakparaneter, bijvoorbeeld de toonhoogte, in een spraaksignaal.
De uitvinding heeft betrekking op een werkwijze voor het bepalen van een spraakparameter, bijvoorbeeld de toonhoogte als funktie van de tijd in een spraaksignaal, en op een inrichting voor het uitvoeren van de werkwijze.
5 In het vervolg zal de uitvinding nader worden uiteengezet aan de hand van een werkwijze en een inrichting voor het bepalen van het verloop van de toonhoogte als funktie van de tijd. Het zij echter vermeld dat de uitvinding breder toepasbaar is en ook gebruikt zou kunnen worden voor het bepalen van bijvoorbeeld één of meer 10 formanten van het spraaksignaal als funktie van de tijd.
Voor een aantal toepassingen, zoals analyse en resynthese van spraak en onderzoek aan intonatiecontouren, moet het verloop van de toonhoogte als funktie van de tijd in lopende spraak gemeten worden. Dit blijkt een vrij komplex probleem te zijn en er bestaan geen 15 toonhoogtemeters, die geen meetfouten maken. Daarentegen wordt de spraakkwaliteit na analyse/reynthese voor een belangrijk deel bepaald door de korrektheid van de gemeten toonhoogtecontour. Het is daarom van belang om toonhoogtemeters te hebben die weinig meetfouten maken.
Daartoe is in het verleden door Duifhuis, Willems en Sluyter een 20 werkwijze ontwikkeld, die de toonhoogte berekent in het frekwentiedomein. Deze, onder de naam harmonische zeef bekend staande, werkwijze is onder andere bekend uit de Nederlandse octrooiaanvrage 7812151 (PHN 9313). In deze werkwijze worden (i) in een eerste stap - op m regelmatig op elkaar volgende tijdstippen 25 uit het spraaksignaal tijdsegmenten van het spraaksignaal afgeleid, en - uit elk tijdsegment i(lxi<m) een bij het tijdsegment behorende passingsmaat p(i,j) afgeleid die, voor een reeks van n mogelijke waarden voor de spraakparameter, in dit geval dus de toonhoogte aangeeft hoe goed een geprobeerde waarde fj voor de spraakparameter (1<.j<.n) 30 past op het spraaksignaal van het betreffende tijdsegment. Uit de
passingsmaat kan vervolgens op verschillende manieren het verloop van de spraakparameter in het spraaksignaal als funktie van de tijd worden c 7 η 1 - Q O
% «r PHN 12.203 2 bepaald.
Gezien de door middel van de bekende werkwijze verkregen resultaten, blijkt de werkwijze voor het bepalen van de toonhoogte toch nog voor verbetering vatbaar.
5 De uitvinding beoogt daarom een werkwijze en een inrichting voor het uitvoeren van de werkwijze te verschaffen die nog betere resultaten oplevert. De werkwijze heeft daartoe het kenmerk dat (ii) in een tweede stap voor het tijdstip i=1 en voor elk van de n mogelijke waardes fj voor 10 de spraakparameter, een bij deze spraakparameter behorende waarde ms(1,j), die gelijk is aan p(1,j) in een geheugen wordt opgeslagen, (iii) in een derde stap - voor een zeker tijstip i(>1) en een zekere mogelijke waarde fj voor de spraakparameter een aantal somwaardes s^ii,j) worden afgeleid 15 volgens de formule sh(i,j) = p(i,j) + ms(i-1,h) + k(f j(i) ,fj*(i)) waarbij h loopt van x tot en met y en voor x en y gelden 1 i x < j) ji y< n en x ^ y, - van alle y-x+1 somwaardes sh(i,j) de optimale somwaarde als de 20 waarde ms(i,j) in het voornoemde geheugen wordt opgeslagen en bovendien een koppelvektor v(i,j), die verwijst naar de toonhoogte fh(i-1) op het tijdstip i-1 die, voor de betreffende index h, volgens de voorgaande formule leidde tot de optimale somwaarde, in een geheugen wordt opgeslagen, 25 (iv) dat de derde stap wordt herhaald voor alle andere indices j bij het tijdstip i, (v) dat de derde stap wordt herhaald voor alle indices j bij een opvolgend tijdstip i+1, (vi) en dat k(fj(i),f^(i)) een kostengrootheid is die een maat 30 is voor de afwijking van de spraakparameter fj(i) op het tijdstip i ten opzichte van een voorspelde waarde f^U) voor de spraakparameter op het tijdstip i, welke voorspelde waarde wordt afgeleid uit ten minste de spraakparameter f^(i—1) op het tijdstip i-1, en wordt bepaald volgens de formule 35 £S(i) * ao + a1 fh(i'1) +J2 az , ε * PHN 12.203 3 waarbij aQ een konstante is die kleiner is dan nul en, indien x> 2, f^fi-z) die waarde voor de spraakparameter op het tijdstip i-z is die ligt op een deelpad dat via de koppelvektoren v(i,j) leidt tot de spraakparameter f^d-1) op het tijdstip i-i.
5 De uitvinding is gebaseerd op het inzicht dat in de bekende werkwijze de tijdsegmenten onafhankelijk van elkaar behandeld worden. Voor elk tijdsegment wordt die waarde voor de toonhoogte genomen waarvoor de passingsmaat minimaal (of juist maximaal) is, dit al naar gelang een minimaliseringsalgoritme of een maximaliseringsalgoritme 10 wordt toegepast. Doordat elk tijdsegment in de bekende werkwijze apart behandeld wordt kan het verloop van de toonhoogte als funktie van de tijd diskontinu zijn. Diskontinulteiten in het verloop van de toonhoogte zijn fysisch gezien niet erg waarschijnlijk en moeten dus als foutieve metingen worden aangemerkt.
15 De toonhoogte in opvolgende tijdsegmenten is sterk gekorreleerd en een aantal toonhoogtefouten zouden kunnen worden voorkomen als deze korrelaties in rekening werden gebracht.
Volgens de uitvinding wordt daartoe een globaal kontinuiteitskriterium ingevoerd. Dit kriterium is in feite 20 weergegeven met de voornoemde formule voor ε^(ί,ί). In feite stelt deze formule een optimalisatie probleem voor het volgende kriterium voor min J { p(i,j) + k(fj(i), fh*(i))} fj(i) i=1 25 Het gaat er daarbij om die contour fj(i) te vinden waarvoor de som over de gehele spraakuiting minimaal is. Iedere opgetelde waarde bestaat uit twee komponenten. De ene komponent is de passingsmaat p(i,j) en de andere komponent is een kostengrootheid die een maat is voor de overgang van het punt (i-1,h) naar (i,j) 30 Dit optimalisatieprobleem kan met behulp van dynamisch programmeren worden opgelost. Uitgaande van dit kriterium kan de formule voor sh(i,j) worden opgesteld gebruik makend van het principe van suboptimaliteit, zie R. Bellman (1957), Dynamic Programming, University Press Princeton.
35 Dat principe stelt dat als een punt (i,j) op het globaal optimale pad ligt, dat dan het deelpad van het beginpunt naar het punt (i,j) deel uitmaakt van het globale optimale pad.
$ 7 U ‘ 7 8 PHN 12.203 4
Met behulp van de procedure in de derde stap wordt voor ieder punt (i,j) de waarde ms (i,j) en de voorganger (i-1,h) bepaald en opgeslagen. In het minimaliseringsalgoritme, zoals hiervoor beschreven, is de optimale somwaarde ms(i,j) dus de kleinste somwaarde van de y-x+1 5 somwaardes. Zou een maximaliseringsalgoritme zijn toegepast, dan mag het duidelijk zijn dat de optimalisatiewaarde juist de grootste van de y-x+1 somwaardes sh(i,j) is.
Die waarde van j waarvoor de waarde ms(m,j) het laagst is, bepaalt het eindpunt van het optimale pad. Vervolgens kan door 10 middel van de koppelvektoren het optimale pad worden teruggezocht (back tracking) en kan het verloop van de toonhoogte over de lengte van het spraaksignaal worden bepaald.
Het zij vermeld dat de eerder ingediende, doch nog niet gepubliceerde Duitse octooiaanvrage no. 36.40.355, eveneens van 15 aanvraagster, ook een optimalisatiekriterium beschrijft voor het bepalen van het verloop van de toonhoogte in een spraaksignaal.
De berekening van de somwaarde wordt daarin echter op een andere wijze uitgevoerd.
In de werkwijze volgens de uitvinding wordt onder andere 20 een voorspelde waarde voor de toonhoogte afgeleid. De formule voor het berekenen van een voorspelde waarde bevat ten minste twee termen, te weten de term aQ, die negatief is en aangeeft dat het verloop van de toonhoogte, in de tijd gezien, overwegend dalend is (declinatie), en de term a^ ί^(ΐ-1), waarbij bij voorkeur a^=1. Dat wil zeggen, op de 25 term aQ na, die de declinatie aangeeft, is de voorspelde waarde "k fh(i) voor de toonhoogte in het tijdsegment i, gelijk aan de toonhoogte fh(i-1) in het voorgaande tijdsegment i-1.
In de in de Duitse octrooiaanvrage beschreven werkwijze wordt geen voorspelde waarde voor de toonhoogte afgeleid. Ook wordt 30 daarin geen rekening gehouden met de natuurlijke declinatie van de toonhoogte als funktie van de tijd. Bij voorkeur worden de passingsmaten p(i,j) in de eerste stap afgeleid door middel van het gebruik maken van de hiervoor al besproken harmonische zeef. Een dergelijke voorbewerking van de informatie vóór de dynamische programmeringsstap is van groot 35 voordeel omdat daardoor een betere bepaling van het verloop van de spraakparameter als funktie van de tijd, in het spraaksignaal mogelijk is.
8 ƒ 0 1 / 'è 8 PHR 12.203 5
De inrichting voor het uitvoeren van de werkwijze is gekenmerkt door dat de inrichting verder is voorzien van - een eerste eenheid voor het op m regelmatig op elkaar volgende tijdstippen afleiden van tijdsegaenten uit het spraaksignaal en voor het 5 uit elk tijdsegment afleiden van de bij een tijdsegment behorende passingsmaat p(i,j) - een tweede eenheid voor het afleiden van de waardes ms(1,j) - een derde eenheid voor het bepalen van de somwaardes s^(i,j) en voor het bepalen van de optimale somwaarde ms(i,j) uit alle y-x+1 somwaardes 10 behorende bij een zekere index (i,j), waarbij i f 1, - een eerste geheugen voor het daarin kunnen opslaan van de waarde *s(i,j), - een tweede geheugen voor het opslaan van de koppelvektoren v(i,j) - een vierde eenheid voor het bepalen van de voorspelde waarde f£(i) 15 voor de spraakparameter, en - een vijfde eenheid voor het bepalen van de kostengrootheid ktfjUhfgii)).
De uitvinding zal in de hierna volgende figuurbesehrijving nader worden uiteengezet. Hierin toont 20 figuur 1 de werking van de harmonische zeef, figuur 2 de passingsmaat p(i,j), figuur 3 een kontour van de toonhoogte als funktie van de tijd, figuur 4 een inrichting voor het uitvoeren van de werkwijze, en figuur 5 de minimale inhoud (of grootte) van het eerste geheugen.
25 Allereerst zal de eerste stap van de werkwijze worden besproken. In deze stap wordt de passingsmaat p(i,j) afgeleid. Een mogelijkheid om die passingsmaat te bepalen is door gebruikmaking van de eerder genoemde harmonische zeef. Daarbij worden op m regelmatig op elkaar volgende tijdstippen, die bijvoorbeeld telkens 10ms uit elkaar 30 liggen, uit het spraaksignaal tijdsegmenten van het spraaksignaal afgeleid. Deze tijdsegmenten kunnen bijvoorbeeld een lengte van 40ms hebben.
Van elk tijdsegment wordt het amplitude frekwentie spectrum berekend en daarin worden pieken gedetekteerd. Daarna wordt 35 met de harmonische zeef bekeken of deze pieken een harmonische structuur vormen, dat wil zeggen of deze pieken op veelvouden van een grondharmonische f j liggen. Hiertoe wordt de harmonische zeef op een f *» r ' ~ Λ o i PHN 12.203 6 '· aantal waarden van fj geprobeerd. De zeef heeft gaten op veelvouden van deze geprobeerde waarde. Aan de hand van het aantal pieken dat door de zeef valt wordt een passingsmaat p(i,j) berekend: P(i,j) = W(i) <M(ifj) + I(j)} / J(i,j) 5 waarbij j de index is van de geprobeerde toonhoogte waarbij j loopt van 1 tot en met n, i het tijdsegmentnummer, M het nummer is van de hoogste harmonische die door de zeef is gevallen, I het aantal pieken in het spectrum en J het aantal pieken dat door de zeef is gevallen. W(i) is een weegfaktor die nul is in de stemloze en stille passages in de spraak 10 en die ongelijk nul is in de stemhebbende delen van de spraak. Bij voorkeur neemt W(i) toe bij een toenemende amplitude van de stemhebbende delen.
Merk op dat p(i,j) hoog is als er weinig pieken door de zeef vallen en laag is als er veel pieken door de zeef vallen. Dit 15 criterium wordt gebruikt als een maat voor hoe goed (p is laag) dan wel slecht (p is hoog) de geprobeerde toonhoogte (index j) past bij de tijdsegment (index i)
In fig. 1 is de werking van de harmonische zeef aangegeven, In fig. 1a zijn drie posities van de harmonische zeef 20 aangegeven. Een eerste positie waarbij de grondharmonische van de zeef ligt bij ongeveer 80Hz, een tweede positie waarbij de grondharmonische ligt bij 200 Hz en een derde positie waarbij de grondharmonische ligt bij ongeveer 350 Hz. Het tijdsegment bevat harmonischen bij 200 Hz, 400 Hz, 600 Hz enz, zie fig. 1a. Met de harmonische zeef in de tweede 25 positie vallen al deze frekwentiepieken door de zeef p(i,j) is voor deze positie van de zeef dus het laagst. In fig. 1b is p(i,j) ingezet als funktie van de frekwentie fj overeenkomend met de positie van de grondharmonische van de zeef. Langs de vertikale as in fig. 1b is niet p(i,j) zelf, doch Pmin/P(ifi) ingezet, waarbij pfflin de kleinste 30 waarde van p(i,j) is, behorend bij het tijdsegment i. Daar p(i,j) voor de zeef op de tweede positie (fj=200Hz) het kleinst was, heeft dit tot gevolg dat pmin/p(i,j) gelijk is aan 1 wordt voor fj=200 Hz, zie fig. 1b.
Op overeenkomstige wijze worden de passingsmaten p(i,j) 35 behorende bij de andere tijdsegmenten i berekend. Fig. 2 toont de passingsmaten p(i,j) behorend bij alle tijdsegmenten i. In fig. 2 is Pmin/P(i»3) uitgezet als funktie van i en fj. pfflin is hier de fc 7 0 * ^ ff f PHN 12.203 7 kleinste passingsmaat p(ifj) van alle tijdsegmenten.
Merk op dat in figuur 1b niet alleen de hoogste piek in een tijdsegment informatie over de toonhoogte geeft maar dat ook de andere pieken mogelijk goede kandidaten voor de toonhoogte in het 5 bewuste tijdsegment zijn. Deze informatie over alternatieve kandidaten wordt niet weggegooid maar bewaard. Informatie uit omringende tijdsegmenten zal worden gebruikt om uit alle kandidaten voor de toonhoogte er één te kiezen die het best past in de kontinue contour. Hiertoe worden de passingsmaten van alle tijdstippen i en alle 10 zeefposities j bepaald.
Het is ook mogelijk de passingsmaten p(i,j) op een andere wijze dan door gebruikmaking van een harmonische zeef, te bepalen. Men zou bijvoorbeeld bij elk tijdsegment i een autokorrelatie funktie kunnen bepalen. In deze autokorrelatie funktie zullen zich dan 15 pieken bevinden op T| en veelvouden daarvan, waarbij T1 gelijk is aan één gedeeld door de grondharmonische in het tijdsegment. Uit deze pieken kan bijvoorbeeld rechtstreeks, of door middel van een 'harmonische zeef in de tijd', weer een passingsmaat afgeleid worden die dan een funktie is van de index i, overeenkomend met de index van het 20 tijdsegment en die een funktie is van de index j die overeenkomt met de index Tj (=l/fj).
Nu worden voor alle punten i,j in een vlak gevormd door de indices i en j, waarbij i en j lopen van 1 tot en met m resp. n (zie fig. 3.), een waarde ms (i,j) afgeleid.
25 Voor de punten (1,j) betekent dit dat ms(1,j) gelijk genomen wordt aan p(1,j), waarbij j loopt van 1 tot en met n. De n waardes ms (1,j) worden in een geheugen opgeslagen. Na deze (tweede) stap wordt in een volgende stap voor een opvolgend(e) tijdstip (index) i en een zekere waarde f j (ofwel een zekere index j) een aantal 30 somwaardes s^ (i,j) berekend met de formule sh(i,j) = P(i,j) + ms(i-1,h) + k(fj(i), f£(i)) (1)
Dit fig. 3 wordt duidelijk dat voor een willekeurig punt PQ dat niet te dicht langs de boven-en onderrand van de matrix ligt, er in dit geval vijf somwaardes worden berekend. Elke somwaarde s^d,j) hangt 35 in feite samen met een zekere overgang van het punt (i-1,h) naar het punt (i,j), waarbij j-2< h <. j + 2.
Ligt een punt (i,j) dichter bij de boven- of onderrand 6 / 0 fi PHN 12.203 8 van de matrix in fig. 3, dan kan dat betekenen dat minder dan de (in dit voorbeeld) vijf somwaardes kunnen worden berekend. Voor de positie P1 in fig. 3 kunnen slechts vier en voor de positie P2 slechts drie somwaardes worden berekend.
5 Vervolgens wordt van de vijf somwaardes de kleinste waarde genomen en als de waarde ms(i,j) opgeslagen in het voornoemde geheugen. Bovendien wordt een koppelvektor v(i,j) in een (tweede) geheugen opgeslagen. Deze koppelvektor geeft aan die overgang van het punt (i-1,h) naar het punt (i,j) waarvoor de bijbehorende somwaarde 10 sh(i,j) het kleinst was. In het (tweede) geheugen kan bijvoorbeeld op een positie (i,j) v(i,j) worden opgeslagen in de vorm van v(i,j)=h, hetgeen betekent dat het punt (i,j) is verbonden met het punt (i-1,h).
Deze berekeningen worden herhaald voor alle andere indices j bij een zelfde index i.
15 Vervolgens worden de berekeningen herhaald voor alle indices j bij een opvolgende index i+1. Dit gaat zo door totdat voor alle posities (i,j) de berekeningen zijn doorgevoerd. Het eerste geheugen waarin de waardes ras(i,j) worden opgeslagen hoeft niet zo groot te zijn dat alle waardes ms(i,j) daarin ook bewaard blijven. Het 20 geheugen moet in ieder geval in staat zijn om de waardes ms(irj) behorend bij die voorafgaande posities (i,j) op te slaan, zodat het mogelijk is om een waarde ms(i,j) voor een opvolgende positie uit te kunnen rekenen. Dit betekent in het voorbeeld van fig. 3, waarbij een punt PQ kan worden afgeleid uit vijf posities op een voorafgaand 25 tijdstip, dat dan tenminste dienen te worden opgeslagen de waardes ms(i,1) tot en met ms(i,j-1) en de waardes ms(i-1,j-2) tot en met ms(i-1,n), zie fig. 5. Is de waarde ms(i,j) berekend, dan is de waarde ms(i-1,j-2) niet meer nodig en kan dus vervallen. Zijn alle waardes ms(i,j) berekend dan zijn voor de verdere procudure alleen de waardes ms(m,1) 30 tot en met ms(m,n) nog van belang. Het tweede geheugen voor de koppelvektoren v(i,j) is zo groot dat alle bepaalde koppelvektoren daarin kunnen worden opgeslagen. Dit betekent dat het tweede geheugen (m- 1) n geheugenplaatsen moet bezitten. Dit aangezien er geen koppelvektoren v(1,j) zijn bepaald.
35 Het verloop van de toonhoogte gedurende de m tijdsegmenten kan nu als volgt bepaald worden. Van de getallen ms (m,j) wordt de kleinste waarde bepaald. Die index j1 waarvoor ms (m,j1) de fè 7 Γ '? - λ PHN 12.203 9 kleinste waarde heeft is de toonhoogte f^ op het tijdstip m. Vervolgens wordt, gebruik nakend van de koppelvektor v(m,j1) de voorganger (n-1,j2) bepaald. Uit fig. 3 blijkt dat deze voorganger het punt (n-1,j1) is. Vervolgens bepaalde koppelvektor vfm-1,j1) de 5 daaraanvoorgaande voorganger (m-2,j1). De koppelvektor v(n-2,j1) leidt tot de voorganger (m-3,j2). We kunnen het kontour verder terug zoeken net behulp van de koppelvektor v(i,j). De voorganger van het punt (i,j) is immers (i-1, v(i,j)).
Zo doorgaande vindt men vanaf het eindpunt (m,j1) het 10 optimale pad terug (back tracking). In fig. 3 is dit optimale pad met het referentienummer 1 aangegeven. Dit optimale pad geeft dus het verloop van de toonhoogte over het totale spraaksignaal weer.
De term k(fj(i), f^(i)) is een kostengrootheid die hierna zal worden besproken. Voor elk punt (i,j) wordt een voorspelde 15 waarde f j*(i) voor de toonhoogte in het tijdsegment i bepaald, gebruik makend van de formule: £j*(i)= aQ+ a1 f|j(i-1)+ Γ az fj_(i-z) (2) 20 aQ is een konstante die kleiner is dan nul. Deze konstante houdt rekening met het feit dat het verloop van de toonhoogte, gezien in de tijd, overwegend dalend (declinatie) is. Verder is a^ f 0. Bij voorkeur is a.j =1. Zijn alle koëfficienten az gelijk aan nul dan wordt de voorspelde waarde fj*(i) voor de toonhoogte dus enkel 25 bepaald door de toonhoogte fh bij het tijdstip i-1: ofwel f£(i) = a0 + a^U-1) (3)
Zijn tenminste een aantal koëfficienten az ongelijk aan nul dan is fj(i-z) die waarde voor de toonhoogte op het tijdstip i-z die ligt op een deelpad dat via de koppelvektoren v(i,j) leidt van de toonhoogte 30 fjii-z) op het tijdstip i-z naar de toonhoogt fh(i-1) op het tijdstip i-1.
Een voorbeeld (zie daarvoor fig. 3):
Stel men moet de voorspelde waarde f£(i) bepalen voor het punt P3 uitgaande van de kontour die leidt naar het punt P4 met 35 koördinaten (i-1rh). f^(i-2) is dan de toonhoogte die hoort bij het punt Pj, zijnde de voorganger van het punt P4.f^(i-3) is dan de toonhoogte die hoort bij het punt P6, zijnde de voorganger van P5. De 6 / ü 1 ,H' 6 PHN 12.203 10 voorspelde waarde is nu bijvoorbeeld het punt P3! De kostengrootheid k(fj(i)), fjj*(i) kan bijvoorbeeld door middel van de volgende formule worden bepaald: k(fj(i), f£(i)) = b(fj(i) - f£(i))2 (4) 5 Dit betekent dat de waarde van de kostengrootheid groter is naarmate de waarde fj(i) meer verschilt van de voorspelde waarde f£(i).
Er zij hier vermeld dat de voornoemde eerste, tweede en derde stappen in de werkwijze niet noodzakelijkerwijs na elkaar dienen te worden uitgevoerd. Het is zeer wel mogelijk dat taken van de werkwijze 10 uit de eerste stap in de tijd gezien parallel aan taken van de werkwijze uit de derde stap worden uitgevoerd.
Zodra bijvoorbeeld in de eerste stap voor een zeker tijdsegment i de passingsmaten p(i,j) zijn bepaald kan vervolgens, parallel aan de bepalen van de passingsmaten p(i+1,j), de somwaarden 15 sh(i,j) worden bepaald.
Fig 4 toont schematisch een inrichting voor het uitvoeren van de werkwijze. De inrichting bevat een ingangsklem 2 voor het ontvangen van een elektrisch spraaksignaal, die is gekoppeld met een ingang 3 van een eerste eenheid 4 waarin de passingsmaten p(i,j) worden 20 bepaald. De passingsmaten p(1,j) worden via de leiding 5 toegevoerd aan een ingang 6 van een eerste geheugen 7 en worden daarin als de waardes ms(1,j) opgeslagen. Alle passingsmaten p(i,j) worden bovendien via de leiding 8 toegevoerd aan een ingang 9 van een derde eenheid 10 die is ingericht voor het bepalen van de somwaardes s^U,]) en voor het 25 bepalen van de waardes ms(i,j) waarbij i22. Deze waardes worden via de leiding 11 toegevoerd aan een tweede ingang 12 van het eerste geheugen 7. Bovendien levert het geheugen 7 via een leiding 1Γ de waardes ms(i-1,j) aan de eenheid 10 voor het bepalen van de waardes sh(i,j) volgens formule (1).
30 De derde eenheid 10 is verder ingericht voor het bepalen van de koppelvektoren v(i,j) waarbij i22. De informatie betreffende die koppelvektoren wordt via de leiding 13 toegevoerd aan een ingang 14 van een tweede geheugen 15, waarin deze informatie wordt opgeslagen.
Een uitgang 16 van het tweede geheugen 15 is gekoppeld 35 met een ingang 17 van een vierde eenheid 18. Deze vierde eenheid is ingericht voor het bepalen van de voorspelde waarde fft(i) volgens formule (2). Wordt de voorspelde waarde f^Ci) bepaald volgens de P: 7 0 4 Ί P ft ' i V t i o * PHN 12.203 11 vereenvoudigde fornule (3), dan is deze verbinding van het tweede geheugen naar de vierde eenheid 18 niet nodig aangezien dan geen koppelvektoren benodigd zijn voor het bepalen van f£(i).
De voorspelde waarde fj*(i) wordt via de leiding 19 toegevoerd aan 5 een ingang 20 van een vijfde eenheid 21. Deze vijfde eenheid 21 berekent de waarde voor de kostengrootheid k(fj(i),f£(i)) volgens formule (4). Deze waarde wordt via de leiding 22 toegevoerd aan een tweede ingang 23 van de derde eenheid 10 en wordt in deze derde eenheid 10 gebruikt bij het berekenen van de somwaardes s^(i,j).
10 Een uitgang 24 van het eerste geheugen 7 is gekoppeld met een ingang 25 van een minimum waarde bepaler 26. Nadat alle waardes ms(i,j) zijn bepaald, zijn in ieder geval de waardes ms(m,j) nog opgeslagen in het geheugen 7. De waardes ms(m,j) worden aan de minimum waardebepaler 26 toegevoerd. Deze bepaalt de kleinste waarde van de n 15 waardes ms(m,j). De index j1 behorende bij deze laagste waarde wordt aan de uitgang 27 aangeboden en via een schakeleenheid 28 toegevoerd aan de adresingang 29 van het tweede geheugen 15. Aan een tweede adresingang 30 wordt de index i=m aangeboden. Dit betekent dat het tweede geheugen 15 de koppelvektor v{m,j1) aan de uitgang 16 afgeeft. Deze koppelvektor 20 wordt toegevoerd aan een zesde eenheid 31, die uit deze koppelvektor v(m,j1)de index j=j1 voor het tijdstip m-1 af leidt. Met de schakeleenheid 28 in de andere stand wordt deze index nu aan de adresingang 29 aangeboden en wordt via de adresingang 30 de index i=m-1 aangeboden. Het tweede geheugen 15 geeft nu de koppelvektor v(m-1,j1) af 25 aan de uitgang 16. De zesde eenheid 31 levert daarop de index j=j1 aan de adresingang 29. Aan de adresingang 30 wordt de index i=m-2 aangeboden. Het geheugen 15 levert daarop de koppelvektor v(m-2,j1) aan de zesde eenheid 31. Vervolgens levert het tweede geheugen 15 onder invloed van de indices i=m-3,j=j2 de koppelvektor v(m-3,j2) af. Dit gaat 30 zo door totdat de index i=1 bereikt is. Aan de uitgang 32 is een rij indices j aangeboden die in omgekeerde tijd volgorde een maat is voor het verloop van de spraakparameter (toonhoogte) als funktie van de tijd.
In fig. 4 zijn alleen de meest noodzakelijke elementen en 35 verbindingen aangegeven. Voor een goede werking van het geheel dient natuurlijk een stuureenheid (niet getekend) aanwezig te zijn die verschillende stuursignalen en adresseringssignalen naar de diverse
87 C 1.7 0 C
PHN 12.203 12 eenheden stuurt. Lang niet al deze stuursignalen en adresseringssignalen zijn in fig. 4 aangegeven, het mag voor de vakman duidelijk zijn dat, daar waar stuursignalen en adresseringssignalen benodigd zijn, deze ook door de stuureenheid worden gegenereerd en aan de betreffende eenheid 5 worden toegevoerd. Zo is het bijvoorbeeld duidelijk dat de derde eenheid 10 adresseringssignalen in de vórm van de indices i,j en h benodigt voor het bepalen van de somwaardes sh(i,j) volgens formule (1).
Het zij vermeld dat de uitvinding niet is beperkt tot enkel het getoonde uitvoeringsvoorbeeld. De uitvinding is evenzeer van 10 toepassing op die werkwijzen c.q. inrichtingen die op niet op de uitvinding betrekking hebbende punten van de beschreven werkwijze resp. inrichting afwijken.
Zo is het bijvoorbeeld mogelijk om in de eerste stap van de werkwijze op andere dan de beschreven wijzen de passingsmaat te 15 bepalen. Te denken valt daarbij nog aan het gebruik van een AMDF (average magnitude difference function) methode. Verder is in het voorgaande een minimaliseringsprocedure beschreven. Het is ook mogelijk juist een maximaliseringsprocedure toe te passen.
8701798
Claims (8)
1. Werkwijze voor het bepalen van het verloop van een spraakparameter als funktie van de tijd in een spraaksignaal, met het kenmerk, dat (i) in een eerste stap 5. op m regelmatig op elkaar volgende tijdstippen uit het spraaksignaal tijdsegmenten van het spraaksignaal worden afgeleid, - uit elk tijdsegment i (11 i 1 m) een bij het tijdsegment behorende passingsmaat p(i,j) wordt afgeleid die, voor een reeks van n mogelijke waarden voor de spraakparameter, aangeeft hoe goed een geprobeerde 10 waarde fj voor de spraakparameter (1 < j in) past op het spraaksignaal van het betreffende tijdsegment i, (ii) in een tweede stap voor het tijdstip i=1 en voor elk van de n mogelijke waardes fj voor de spraakparameter, een bij deze spraakparameter behorende waarde 15 ms(1,j), die gelijk is aan p(1,j) in een geheugen wordt opgeslagen, (iii) in een derde stap - voor een zeker tijdstip i(>1) en een zekere mogelijke waarde fj voor de spraakparameter een aantal somwaardes s^(i,j) worden afgeleid volgens de formule 20 sh(i,j) = p(i,j) + ms(i-1,h) + k(fj(i),f£(i)) waarbij h loopt van x tot en met y en voor x en y gelden 1 < x i j, j< y<. n en x f y, - van alle y-x+1 somwaardes s^(i,j) de optimale somwaarde als de waarde ms(i,j) in het voornoemde geheugen wordt opgeslagen en bovendien 25 een koppelvektor v(i,j), die verwijst naar de toonhoogte f^ii-l) op het tijdstip i-1 die, voor de betreffende index h, volgens de voorgaande formule leidde tot de optimale somwaarde, in een geheugen wordt opgeslagen, (iv) dat de derde stap wordt herhaald voor alle andere indices j bij 30 het tijdstip i, (v) dat de derde stap wordt herhaald voor alle indices j bij een opvolgend tijdstip i+1, (vi) en dat k(fj(i),f)£(i)) een kostengrootheid is die een maat is voor de afwijking van de spraakparameter fj(i) op het tijdstip i 35 ten opzichte van een voorspelde waarde f£(i) voor de spraakparameter op het tijdstip i, welke voorspelde waarde wordt afgeleid uit ten minste de spraakparameter fi-1) op het tijdstip i-1, en wordt 6/0 >/f8 9 ί ΡΗΝ 12.203 14 bepaald volgens de formule ffc(i) = a0 + &1 fh(i-1) +J2 az fx (i-z) 5 waarbij aQ een konstante is die kleiner is dan nul en, indien r> 2, f^(i-z) die waarde voor de spraakparameter op het tijdstip i-z is die ligt op een deelpad dat via de koppelvektoren v(i,j) leidt tot de spraakparameter fh(i-1) op het tijdstip i-1.
2. Werkwijze volgens konklusie 1, met het kenmerk, dat 10 fj*(i) wordt bepaald volgens de formule f£(i) = a0 + a1,fh(i-1).
3. Werkwijze volgens konklusie 1 of 2, met het kenmerk , dat de kostengrootheid k(fj(i), ff*(i)) wordt bepaald volgens de formule k(fj(i), f^(i)) = b (fj(i) - fj*(i))2.
4. Werkwijze volgens één der voorgaande konklusies, met het kenmerk, dat in de eerste stap de passingsraaten p(i,j) worden afgeleid gebruik makend van een harmonische zeef.
5. Werkwijze volgens één der voorgaande konklusies, met het kenmerk, dat de spraakparameter de toonhoogte is.
6. Werkwijze volgens één der voorgaande konklusies, met het kenmerk , dat in een vierde stap - uit de n waardes ms(m,j) de optimale waarde ms(m,j1) wordt bepaald. - vervolgens de koppelvektor v(m,j1) behorende bij de optimale waarde uit het geheugen wordt uitgelezen. 25. de koppelvektor v(i-1,v(i,j)) wordt uitgelezen die behoort bij het tijdsegment i-1 en die waarde v(i,j)=h van de spraakparameter waarnaar de koppelvektor v(i,j) behorende bij het tijdsegment i verwijst, waarbij i loopt van m-1 tot en met 1. - waarbij de rij van opvolgende op deze wijze verkregen waardes voor de 30 spraakparameter wordt uitgelezen of eventueel wordt opgeslagen.
7.Inrichting voor het uitvoeren van de werkwijze volgens één der voorgaande konklusies, voorzien van een ingangsklem voor het ontvangen van een spraaksignaal, met het kenmerk, dat de inrichting verder is voorzien van 35. een eerste eenheid voor het op m regelmatig op elkaar volgende tijdstippen afleiden van tijdsegmenten uit het spraaksignaal en voor het uit elk tijdsegment afleiden van de bij een tijdsegment behorende / i) *ï ƒ Ö 0 « PHN 12.203 15 passingsmaat p(i,j) ~ een tweede eenheid voor het afleiden van de waardes ms(1, j) - een derde eenheid voor het bepalen van de somwaardes (i,j) en voor het bepalen van de optimale somwaarde ms(i,j) uit alle y-x-t-1 somwaardes behorende bij een zekere index (irj), waarbij i^1r 5. een eerste geheugen voor het daarin kunnen opslaan van de waarde »s(i,j)f - een tweede geheugen voor het opslaan van de koppelvektoren v(i,j) - een vierde eenheid voor het bepalen van de voorspelde waarde f£(i) voor de spraakparameter, en 10. een vijfde eenheid voor het bepalen van de kostengrootheid k(fj(i), f£(i)).
8. Inrichting volgens konklusie 7, voor het uitvoeren van de werkwijze volgens konklusie 4, met het kenmerk, dat de eerste eenheid een harmonische zeef bevat. Λ — C. < · . M 1 . X: t
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NL8701798A NL8701798A (nl) | 1987-07-30 | 1987-07-30 | Werkwijze en inrichting voor het bepalen van het verloop van een spraakparameter, bijvoorbeeld de toonhoogte, in een spraaksignaal. |
DE8888201554T DE3871648T2 (de) | 1987-07-30 | 1988-07-18 | Verfahren und einrichtung zur bestimmung des verlaufs eines sprachparameters, zum beispiel die grundfrequenz in einem sprachsignal. |
EP88201554A EP0303312B1 (en) | 1987-07-30 | 1988-07-18 | Method and system for determining the variation of a speech parameter, for example the pitch, in a speech signal |
JP63185691A JPS6445000A (en) | 1987-07-30 | 1988-07-27 | Method and apparatus for determining change in speech parameter in speech signal |
US07/470,402 US4989247A (en) | 1987-07-03 | 1990-01-25 | Method and system for determining the variation of a speech parameter, for example the pitch, in a speech signal |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NL8701798 | 1987-07-30 | ||
NL8701798A NL8701798A (nl) | 1987-07-30 | 1987-07-30 | Werkwijze en inrichting voor het bepalen van het verloop van een spraakparameter, bijvoorbeeld de toonhoogte, in een spraaksignaal. |
Publications (1)
Publication Number | Publication Date |
---|---|
NL8701798A true NL8701798A (nl) | 1989-02-16 |
Family
ID=19850395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
NL8701798A NL8701798A (nl) | 1987-07-03 | 1987-07-30 | Werkwijze en inrichting voor het bepalen van het verloop van een spraakparameter, bijvoorbeeld de toonhoogte, in een spraaksignaal. |
Country Status (5)
Country | Link |
---|---|
US (1) | US4989247A (nl) |
EP (1) | EP0303312B1 (nl) |
JP (1) | JPS6445000A (nl) |
DE (1) | DE3871648T2 (nl) |
NL (1) | NL8701798A (nl) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5226108A (en) * | 1990-09-20 | 1993-07-06 | Digital Voice Systems, Inc. | Processing a speech signal with estimated pitch |
US5704000A (en) * | 1994-11-10 | 1997-12-30 | Hughes Electronics | Robust pitch estimation method and device for telephone speech |
AU696092B2 (en) * | 1995-01-12 | 1998-09-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
US5754974A (en) * | 1995-02-22 | 1998-05-19 | Digital Voice Systems, Inc | Spectral magnitude representation for multi-band excitation speech coders |
US5701390A (en) * | 1995-02-22 | 1997-12-23 | Digital Voice Systems, Inc. | Synthesis of MBE-based coded speech using regenerated phase information |
US5960387A (en) * | 1997-06-12 | 1999-09-28 | Motorola, Inc. | Method and apparatus for compressing and decompressing a voice message in a voice messaging system |
US5999897A (en) * | 1997-11-14 | 1999-12-07 | Comsat Corporation | Method and apparatus for pitch estimation using perception based analysis by synthesis |
US6840334B2 (en) | 2002-10-23 | 2005-01-11 | Lonnie L. Marquardt | Grader attachment for a skid steer |
EP2211335A1 (en) * | 2009-01-21 | 2010-07-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4004096A (en) * | 1975-02-18 | 1977-01-18 | The United States Of America As Represented By The Secretary Of The Army | Process for extracting pitch information |
NL177950C (nl) * | 1978-12-14 | 1986-07-16 | Philips Nv | Spraakanalysesysteem voor het bepalen van de toonhoogte in menselijke spraak. |
JPS58140798A (ja) * | 1982-02-15 | 1983-08-20 | 株式会社日立製作所 | 音声ピツチ抽出方法 |
US4731846A (en) * | 1983-04-13 | 1988-03-15 | Texas Instruments Incorporated | Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal |
NL8400552A (nl) * | 1984-02-22 | 1985-09-16 | Philips Nv | Systeem voor het analyseren van menselijke spraak. |
DE3640355A1 (de) * | 1986-11-26 | 1988-06-09 | Philips Patentverwaltung | Verfahren zur bestimmung des zeitlichen verlaufs eines sprachparameters und anordnung zur durchfuehrung des verfahrens |
US4809334A (en) * | 1987-07-09 | 1989-02-28 | Communications Satellite Corporation | Method for detection and correction of errors in speech pitch period estimates |
-
1987
- 1987-07-30 NL NL8701798A patent/NL8701798A/nl not_active Application Discontinuation
-
1988
- 1988-07-18 EP EP88201554A patent/EP0303312B1/en not_active Expired - Lifetime
- 1988-07-18 DE DE8888201554T patent/DE3871648T2/de not_active Expired - Fee Related
- 1988-07-27 JP JP63185691A patent/JPS6445000A/ja active Pending
-
1990
- 1990-01-25 US US07/470,402 patent/US4989247A/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
DE3871648D1 (de) | 1992-07-09 |
DE3871648T2 (de) | 1993-01-21 |
JPS6445000A (en) | 1989-02-17 |
EP0303312B1 (en) | 1992-06-03 |
US4989247A (en) | 1991-01-29 |
EP0303312A1 (en) | 1989-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
NL8701798A (nl) | Werkwijze en inrichting voor het bepalen van het verloop van een spraakparameter, bijvoorbeeld de toonhoogte, in een spraaksignaal. | |
Défossez et al. | Sing: Symbol-to-instrument neural generator | |
CN110111773B (zh) | 基于卷积神经网络的音乐信号多乐器识别方法 | |
US6570991B1 (en) | Multi-feature speech/music discrimination system | |
Lehner et al. | A low-latency, real-time-capable singing voice detection method with LSTM recurrent neural networks | |
US4592086A (en) | Continuous speech recognition system | |
US8494668B2 (en) | Sound signal processing apparatus and method | |
EP1335350A2 (en) | Pitch extraction methods and systems for speech coding using interpolation techniques | |
Jebran et al. | Effects of terms of trade on economic growth of Pakistan | |
EP0617827A1 (en) | Composite expert | |
JPS5848117B2 (ja) | 音声分析方式 | |
Fons et al. | Evaluating data augmentation for financial time series classification | |
KR20180121995A (ko) | 스펙트로그램 상의 구조 텐서를 사용한 고조파-퍼커시브-잔여 사운드 분리를 위한 장치 및 방법 | |
US5946650A (en) | Efficient pitch estimation method | |
EP1335349A2 (en) | Pitch extraction methods and systems for speech coding using multiple time lag extraction | |
Karkavitsas et al. | Automatic music genre classification using hybrid genetic algorithms | |
Chattopadhyay et al. | Deferred taxes and bond ratings: A Canadian case | |
Govind et al. | Automatic speech polarity detection using phase information from complex analytic signal representations | |
Nagano et al. | Fast music retrieval using polyphonic binary feature vectors | |
Agera et al. | Exploring textural features for automatic music genre classification | |
JP2924442B2 (ja) | パターン認識装置 | |
da Costa | Novel Time-Frequency Representations for Music Information Retrieval | |
Venkatesh et al. | Profit efficiency of foreign banks in India in the context of off-balance sheet items: A DEA approach | |
de Obaldía et al. | Improving Monophonic Pitch Detection Using the ACF and Simple Heuristics | |
JPH08123460A (ja) | 探索方法および音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A1B | A search report has been drawn up | ||
BV | The patent application has lapsed |