NO974701L - Syntese av tale-bölgeformer - Google Patents

Syntese av tale-bölgeformer

Info

Publication number
NO974701L
NO974701L NO974701A NO974701A NO974701L NO 974701 L NO974701 L NO 974701L NO 974701 A NO974701 A NO 974701A NO 974701 A NO974701 A NO 974701A NO 974701 L NO974701 L NO 974701L
Authority
NO
Norway
Prior art keywords
sequence
extension
pitch
waveform
samples
Prior art date
Application number
NO974701A
Other languages
English (en)
Other versions
NO974701D0 (no
Inventor
Andrew Lowry
Original Assignee
British Telecomm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecomm filed Critical British Telecomm
Publication of NO974701D0 publication Critical patent/NO974701D0/no
Publication of NO974701L publication Critical patent/NO974701L/no

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Manufacture Of Motors, Generators (AREA)

Description

Foreliggende oppfinnelse angår talesyntese, og angår spesielt talesyntese hvor lagrede segmenter av digitaliserte bølgeformer gjenfinnes og kombineres.
Et eksempel på en talesyntetisator hvor lagrede segmenter av digitaliserte bølgeformer gjenfinnes og kombineres, er beskrevet i en publikasjon av Tomohisa Hirokawa et al, med tittel «High Quality Speech Synthesis System Based on Wa-veform Concatenation of Phoneme Segment» i IEICE Transactions on Funda-mentals of Electronics, Communications and Computer Sciences 76a (1993) november, nr. 11, Tokyo, Japan.
Ifølge foreliggende oppfinnelse er det tilveiebrakt en fremgangsmåte for talesyntese som omfatter de følgende trinn: gjenfinning av en første sekvens av digitale sampler som tilsvarer en første, ønsket tale-bølgeform og første tonehøyde-data som definerer eksitasjons-øyebliklcfor bølgeformen;
gjenfinning av en andre sekvens av digitale sampler som tilsvarer en andre, ønsket tale-bølgeform og andre tonehøyde-data som definerer eksitasjons-øyeblikk for den andre bølgeformen;
dannelse av et overlappings-område ved å syntetisere fra minst en sekvens en forlengelses-sekvens, hvor forlengelses-sekvensen tonehøye-justeres for å være synkron med eksitasjons-øyeblikkene i den respektive andre sekvensen; og
dannelse for overlappingsområdet av vektlagte summer av sampler av den/de originale sekvensen(e) og sampler av forlengelses-sekvensen(e).
I et annet aspekt av oppfinnelsen er det tilveiebrakt et apparat for talesyntese, omfattende: en anordning for lagring av sekvenser av digitale sampler som tilsvarer deler av talebølgeform- og tonehøyde-data som definerer eksitasjonsøyeblikk for disse bølgeformene;
en styrbar styringsanordning for gjenfinning fra lageranordningen 1 sekvenser av digitale sampler som tilsvarer ønskede deler av talebølgeform- og de tilsvarende tonehøyde-data som definerer eksitasjonsøyeblikk for bølgefor-men; og
en anordning for sammenføying av de gjenfundne sekvensene, hvilken sammenføyningsanordning er innrettet for under drift (a) å syntetisere fra minst
den første i et par gjenfundne sekvenser, en forlengelsessekvens for å forlenge denne sekvensen inn i et overlappingsområde med parets andre sekvens, hvilken forlengelsessekvens tonehøyde-justeres for å være synkron med eksitasjonsøye-blikkene i den andre sekvensen, og for (b) å danne for overlappingsområdet en vektlagt sum av sampler av den/de opprinnelige sekvensen(e) og sampler av forlengelses-sekvensen(e).
Andre aspekter av oppfinnelsen er definert i underkravene.
Noen utførelsesformer av oppfinnelsen skal nå beskrives i eksempels form, og med henvisning til de vedføyde tegningene, hvor
Fig. 1 er et blokkdiagram over en form av en tale-syntetisator i samsvar med oppfinnelsen; Fig. 2 er et flytdiagram som illustrerer driften av sammenføyningsenheten 5 i apparatet i fig. 1; og Fig. 3-9 er bølgeform-diagrammer som illustrerer driften av sammenføy-ningsenheten 5.
I tale-syntetisatoren i fig. 1 inneholder et lager 1 talebølgeform-seksjoner generert fra en digitalisert tale-avsnitt, opprinnelig tatt opp fra en talende person som leser et avsnitt (på kanskje 200 setninger) valgt for å inneholde alle mulige (eller i det minste et bredt utvalg av) forskjellige lyder. Således omfatter hver oppføring i bølgeform-lageret digitale sampler av en del av tale som tilsvarer ett eller flere fonemer, med markerings-informasjon som indikerer grensene mellom fonemene. Sammen med hver seksjon er det lagret data som definerer «tone-høyde-merker» («pitchmarks») som indikerer punkter med stemmebånds-lukning (glottal closure) i signalet, generert på vanlig måte under det opprinnelige opp-taket.
Et inngangssignal som representerer tale som skal syntetiseres, i form av en fonetisk representasjon, leveres til en inngang 2. Dette inngangssignalet kan om ønskelig genereres fra et tekst-inngangssignal ved hjelp av konvensjonelle midler (ikke vist). Dette inngangssignalet behandles på kjent måte ved hjelp av en velgerenhet 3 som bestemmer, for hver enhet i inngangssignalet, de adresser i lageret 1 for en lagret bølgeform-seksjon som tilsvarer lyden som representeres av enheten. Enheten kan, som nevnt ovenfor, være et fonem, et difonem (diphone), et trifonem (triphone) eller en annen under-enhet av et ord, og generelt kan lengden av en enhet variere i samsvar med tilgjengeligheten av en tilsvarende bølgeform-seksjon i bølgeformlageret. Der det er mulig, foretrekkes det å velge en enhet som overlapper en forangående enhet med et fonem. Teknikker for å oppnå dette, er beskrevet i vår internasjonale patentsøknad nr. PCT/GB9401688 og US-patentsøknad nr. 166988 inngitt 16. desember 1993.
Så snart enhetene er avlest, utsettes hver av dem individuelt for en amplitude-normaliseringsprosess i en amplitude-justeringsenhet 4 hvis funksjon er beskrevet i vår europeiske patentsøknad nr. 95301478.4.
Enhetene skal så føyes sammen, i 5. Et flytdiagram for denne anordnin-gens funksjon fremgår i fig. 2. I denne beskrivelsen omtales en enhet og den enhet som følger etter den, som henholdsvis venstre enhet og høyre enhet. Der hvor enhetene overlapper - dvs. når den venstre enhetens siste fonem og den høyre enhetens første fonem skal representere samme lyd og bare danner et eneste fonem i det endelige utgangssignalet - er det nødvendig å forkaste den overflø-dige informasjonen, før en «sammensmeltings»-type skjøt lages; ellers er det passende med en «tilstøtnings»-type sammenføyning.
I trinn 10 i fig. 2 mottas enhetene, og trunkering er, eller er ikke, nødvendig, i samsvar med typen sammensmelting (trinn 11). I trinn 12 trunkeres de samsvarende tonehøyde-gruppene (pitch arrays); i gruppen som tilsvarer venstre enhet, kuttes gruppen etter det første tonehøyde-merke til høyre for midten av det siste fonemet, slik at alle tonehøyde-merker etter midtpunktet, bortsett fra ett, slettes, mens i gruppen for høyre enhet, kuttes gruppen før det siste tonehøyde-merket til venstre for midten av det første fonemet, slik at alle tonehøyde-merker før midtpunktet, bortsett fra ett, blir slettet. Dette illustreres i fig. 2.
Før det gåes videre, må fonemene på hver side av skjøten klassifiseres som stemt eller ustemt, på grunnlag av nærvær og posisjon av tonehøyde-merkene i hvert fonem. Bemerk at dette finner sted (i trinn 13) etter «tonehøyde-kutt»-trinnet («pitch cutting»), slik at avgjørelsen om stemthet reflekterer hvert fonems status etter den eventuelle fjerning av noen tonehøyde-merker. Et fonem klassifiseres som stemt, dersom: 1. den tilsvarende del av tonehøyde-gruppen inneholder to eller flere tonehøyde-merker; og 2. tidsforskjellen mellom de to tonehøyde-merkene nærmest skjøten, er
mindre enn en terskelverdi; og
3a. tidsforskjellen mellom tonehøyde-merket nærmest skjøten og midten av fonemet, for en skjøt av sammensmeltingstype, er mindre enn en terskelverdi;
3b tidsforskjellen mellom tonehøyde-merket nærmest skjøten og enden av venstre enhet (eller begynnelsen av høyre enhet), for en skjøt av tilstøt-nings-type, er mindre enn en terskelverdi.
Ellers klassifiseres fonemet som ustemt.
Reglene 3a og 3b er utformet for å forebygge for stort tap av tale-sampler i neste trinn.
I tilfellet med en skjøt av sammensmeltingstype (trinn 14), forkastes tale-sampler-(trinn 15) fra stemte fonemer på følgende måte: Venstre enhet, siste fonem - forkast alle sampler som følger etter siste tonehøyde-merke;
Høyre enhet, første fonem - forkast alle sampler før første tonehøyde-merke; og fra ustemte fonemer ved å forkaste alle sampler på høyre eller venstre side av fonemets midtpunkt (henholdsvis for venstre og høyre enhet).
I tilfellet med en skjøt av tilstøtnings-type (trinn 16, 15), fjernes ingen sampler fra de ustemte fonemene, mens de stemte fonemene vanligvis behandles på samme måte som i tilfellet med sammensmelting, selv om færre sampler vil gå tapt, ettersom ingen tonehøyde-merker vil ha blitt slettet. I det tilfelle at dette vil bevirke tap av et overdrevent antall sampler (f.eks. mer enn 20 ms), fjernes ingen sampler, og fonemet markeres for behandling som ustemt i videre prosessering.
Fjerningen av sampler fra stemte fonemer illustreres i fig. 3. Posisjonene for tonehøyde-merker representeres av piler. Bemerk at bølgeformene som vises, bare er for illustrasjon, og ikke er typiske for reelle tale-bølgeformer.
Prosedyren som skal benyttes for å sammenføye to fonemer, er en overlappings/summerings-prosess. Det benyttes imidlertid forskjellige prosedyrer i henhold til hvorvidt (trinn 17) begge fonemer er stemte (en stemt skjøt) eller hvorvidt ett fonem eller begge fonemer er ustemte (ustemt skjøt).
Den stemte skjøten (trinn 18) skal beskrives først. Dette medfører de føl-gende grunnleggende trinn: syntese av en forlengelse av fonemet ved å kopiere deler av dets eksisterende bølgeform, men med en tonehøyde-periode som tilsvarer det andre fonemet som det skal sammenføyes med. Dette skaper (eller, i tilfellet med en skjøt av sammensmeltingstype, gjenskaper) et overlappingsområde som har samsvarende tonehøyde-merker. Samplene utsettes så for en vektlagt addisjon (trinn 19) for å skape en glatt overgang over skjøten. Overlappingen kan skapes ved forlengelse av det venstre fonemet, eller av det høyre fonemet, men den foretrukne fremgangsmåten er å forlenge både venstre og høyre fonem, slik som beskrevet nedenfor. I nærmere detalj: 1. et segment av den eksisterende bølgeformen velges for syntesen, ved bruk av et Hanning-vindu. Vinduets lengde velges ved å se på de siste to tonehøyde-periodene i venstre enhet og de første to tonehøyde-periodene i høyre enhet for å finne den laveste av disse fire verdiene. Vinduets bredde - til bruk på begge sider av skjøten - settes å være det dobbelte av dette. 2. kilde-samplene for vindusperioden, sentrert på den venstre enhetens nest siste tonehøyde-merke eller den høyre enhetens andre tonehøy-de-merke, ekstraheres og multipliseres med Hanning-vindusfunksjonen, slik som illustrert i fig. 4. Forskjøvne versjoner, i posisjoner som er synkro-ne med det andre fonemets tonehøyde-merker, legges til for å frembringe den syntetiserte bølgeform-forlengelsen. Dette illustreres i fig. 5. Den siste tonehøyde-perioden i venstre enhet multipliseres med halvparten av vindusfunksjonen, og så overlappings-tilføyes de forskjøvne, vindusbehand-lede segmentene i posisjonen for det siste, opprinnelige tonehøyde-merket, og suksessive posisjoner for tonehøyde-merker for den høyre enheten. En lignende prosess finner sted for høyre enhet. 3. de resulterende, overlappende fonemene blir så sammensmeltet; hvert multipliseres med et halvt Hanning-vindu med lengde lik den totale lengde av de to syntetiserte seksjonene slik som vist i fig. 6, og de to legges sammen (med den venstre enhetens siste tonehøyde-merke innrettet med den høyre enhetens første tonehøyde-merke); den resulterende bøl-geformen bør da vise en glatt overgang fra det venstre fonemets bølgeform til det høyre fonemets bølgeform, slik som illustrert i fig. 7. 4. antallet tonehøyde-perioder med overlapping for syntese- og sam-mensmeltingsprosessen bestemmes på følgende måte. Overlappingen strekker seg inn i tiden for det andre fonemet inntil en av de følgende be-tingelser opptrer: (a) fonemets grense blir nådd; (b) tonehøyde-perioden overskrider et definert maksimum; (c) overlappingen når et definert maksimum (f.eks. 5) tonehøyde-perioder.
Men hvis betingelse (a) resulterer i at antallet tonehøyde-perioder faller under et definert minimum (f.eks. 3), kan betingelsen oppmykes for å tillate en ekstra tonehøyde-periode.
En ustemt skjøt utføres, i trinn 20, ganske enkelt ved å forskyve de to enhetene tidsmessig for å skape en overlapping, og ved å bruke en Hanning-vektlagt overlapping/addisjon, slik som vist i trinn 21 og i fig. 8. Varigheten av overlappingen som velges, er, dersom et av fonemene er stemt, varigheten for den stemte tonehøyde-perioden ved skjøten, eller hvis begge er ustemte, en fast verdi (typisk 5 ms). Overlappingen (for tilstøtning) bør imidlertid ikke overskride halvparten av lengden av det korteste av de to fonemene. Overlappingen bør ikke overskride halvparten av den gjenværende lengden hvis de er kuttet for sammensmelting. Tonehøyde-merker i overlappingsområdet forkastes. For en skjøt av tilstøtnings-type anses grensen mellom de to fonemene, med hensyn på senere behandling, å ligge ved midtpunktet for overlappingsområdet.
Denne forskyvnings-fremgangsmåten for å skape overlappingen forkorter selvfølgelig talens varighet. I tilfellet med en sammensmeltings-skjøt, kan dette unngås ved å «kutte» ikke i midtpunktet når sampler skal forkastes, men litt over til en side, slik at når fonemene får sine (opprinnelige) midtpunkter innrettet, resulterer det i en overlapping.
Den beskrevne fremgangsmåten frembringer gode resultater; men fasingen mellom tonehøyde-merkene og de lagrede tale-bølgeformene kan, avhengig av hvordan de førstnevnte ble generert, variere. Selv om tonehøyde-merker synkro-niseres i skjøten, garanterer således ikke dette en kontinuerlig bølgeform over skjøten. Det foretrekkes derfor at den høyre enhetens sampler forskyves (om nødvendig) i forhold til dens tonehøyde-merker i en grad som velges for å maksi- malisere krysskorrelasjonen mellom de to enhetene i overlappingsområdet. Dette kan utformes ved å beregne krysskorrelasjonen mellom de to bølgeformene i overlappingsområdet med forskjellige prøve-forskyvninger (f.eks. ± 3 ms i trinn på 125|is). Så snart dette er gjort, bør syntesen for den høyre enhetens forlengelse gjentas.
Etter skjøting kan det foretas en total tonehøyde-justering på vanlig måte, slik som vist ved 6 i fig. 1.
Sammenføyningsenheten 5 kan realiseres i praksis ved hjelp av en digital behandlingsenhet og et lager som inneholder en sekvens av programinstruksjoner for å implementere de ovenfor beskrevne trinn.

Claims (7)

1. Fremgangsmåte for talesyntese, karakterisert ved de følgende trinn: gjenfinning av en første sekvens av digitale sampler som tilsvarer en første, ønsket tale-bølgeform og første tonehøyde-data som definerer eksitasjons-øyeblikk for bølgeformen; gjenfinning av en andre sekvens av digitale sampler som tilsvarer en andre, ønsket tale-bølgeform og andre tonehøyde-data som definerer eksitasjons-øyeblikk for den annen bølgeform; dannelse av et overlappingsområde ved å syntetisere fra minst en sekvens en forlengelsessekvens, hvor forlengelsessekvensen tonehøyde-justeres for å være synkron med eksitasjons-øyeblikkene for den respektive andre sekvensen; og dannelse, for overlappingsområdet, av veiede summer av sampler av den/de opprinnelige sekvensen(e) og sampler av forlengelsessekvensen(e).
2. Fremgangsmåte for talesyntese, karakterisert ved de følgende trinn: gjenfinning av en første sekvens av digitale sampler som tilsvarer en første, ønsket tale-bølgeform og første tonehøyde-data som definerer eksitasjonsøye-blikk for bølgeformen; gjenfinning av en andre sekvens av digitale sampler som tilsvarer en andre, ønsket tale-bølgeform og andre tonehøyde-data som definerer eksitasjonsøye-blikk for den annen bølgeform; syntetisering, fra den første sekvensen, av en forlengelsessekvens ved slutten av den første sekvensen, hvor forlengelsessekvensen tonehøyde-justeres for å være synkron med eksitasjonsøyeblikkene for den annen sekvens; syntetisering, fra den annen sekvens, av en forlengelsessekvens ved begynnelsen av den annen sekvens, hvor forlengelsessekvensen tonehøyde-justeres for å være synkron med den første sekvensens eksitasjonsøyeblikk; hvorved den første og den annen forlengelsessekvens definerer et overlappingsområde; og dannelse, for overlappingsområdet, av veiede summer av sampler av den første sekvensen og sampler av den annen forlengelsessekvens, og veiede summer av sampler av den annen sekvens og sampler av den første forlengelsessekvens.
3. Fremgangsmåte ifølge krav 2, karakterisert ved at den første sekvens har en del ved slutten av denne som tilsvarer en bestemt lyd, og den annen sekvens har en del ved begynnelsen av denne som tilsvarer den samme lyd, og ved at før syntesen fjernes sampler fra enden av den nevnte del av den første bølgeform og fra begynnelsen av den nevnte del av den annen bølgeform.
4. Fremgangsmåte ifølge krav 1, 2 eller 3, karakterisert ved at hvert syntese-trinn omfatter ekstrahering fra den relevante sekvens av en undersekvens av sampler, multiplisering av underse-kvensen med en vindusfunksjon og gjentatt addering av undersekvensene med forskyvninger som tilsvarer eksitasjonsøyeblikkene for den andre av den første og den annen sekvens.
5. Fremgangsmåte ifølge krav 4, karakterisert ved at vindusfunksjonen er sentrert på det nest siste ek-sitasjonsøyeblikk for den første sekvens og på det andre eksitasjonsøyeblikk for den annen sekvens, og har en bredde som er lik det dobbelte av den minste blant utvalgte tonehøyde-perioder i den første og den annen sekvens, hvor en tone-høyde-periode defineres som intervallet mellom eksitasjonsøyeblikk.
6. Fremgangsmåte ifølge et av de foregående krav, karakterisert ved at før de veiede summer dannes, sammenlignes, over overlappingsområdet, den første sekvens og dens forlengelse, med den annen sekvens og dens forlengelse for å utlede en forskyvningsverdi som maksima-liserer korrelasjon mellom disse, og at de andre tonehøyde-data justeres med den bestemte grad av forskyvning og syntesen for den annen forlengelsessekvens gjentas.
7. Apparat for talesyntese, karakterisert ved at det omfatter: en anordning (1) for å lagre sekvenser av digitale sampler som tilsvarer deler av talebølgeform- og tonehøyde-data som definere eksitasjonsøyeblikk for disse bølgeformer; en styringsanordning (2) som kan styres for å gjenfinne i lageranordningen (1) sekvenser av digitale sampler som tilsvarer ønskede deler av talebølgeform-og de tilsvarende tonehøyde-data som definerer eksitasjonsøyeblikk for bølge-formen; og en anordning (5) for sammenføyning av de gjenfundne sekvenser, hvilken sammenføyningsanordning er innrettet for under drift (a) å syntetisere fra minst den første i et par av gjenfundne sekvenser, en forlengelsessekvens som forlen-ger denne sekvensen inn i et overlappingsområde med den andre sekvensen i paret, hvor forlengelsessekvensen tonehøyde-justeres for å være synkron med eksitasjonsøyeblikkene for denne andre sekvensen, og (b) å danne, for overlappingsområdet, en veiet sum av sampler for den/de opprinnelige sekvensen(e) og sampler for forlengelsessekvensen(e).
NO974701A 1995-04-12 1997-10-10 Syntese av tale-bölgeformer NO974701L (no)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP95302474 1995-04-12
PCT/GB1996/000817 WO1996032711A1 (en) 1995-04-12 1996-04-03 Waveform speech synthesis

Publications (2)

Publication Number Publication Date
NO974701D0 NO974701D0 (no) 1997-10-10
NO974701L true NO974701L (no) 1997-10-10

Family

ID=8221165

Family Applications (1)

Application Number Title Priority Date Filing Date
NO974701A NO974701L (no) 1995-04-12 1997-10-10 Syntese av tale-bölgeformer

Country Status (11)

Country Link
US (1) US6067519A (no)
EP (1) EP0820626B1 (no)
JP (1) JP4112613B2 (no)
CN (1) CN1145926C (no)
AU (1) AU707489B2 (no)
CA (1) CA2189666C (no)
DE (1) DE69615832T2 (no)
HK (1) HK1008599A1 (no)
NO (1) NO974701L (no)
NZ (1) NZ304418A (no)
WO (1) WO1996032711A1 (no)

Families Citing this family (130)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE509919C2 (sv) * 1996-07-03 1999-03-22 Telia Ab Metod och anordning för syntetisering av tonlösa konsonanter
CA2296330C (en) * 1997-07-31 2009-07-21 British Telecommunications Public Limited Company Generation of voice messages
JP3912913B2 (ja) * 1998-08-31 2007-05-09 キヤノン株式会社 音声合成方法及び装置
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
AU2001290882A1 (en) * 2000-09-15 2002-03-26 Lernout And Hauspie Speech Products N.V. Fast waveform synchronization for concatenation and time-scale modification of speech
JP2003108178A (ja) * 2001-09-27 2003-04-11 Nec Corp 音声合成装置及び音声合成用素片作成装置
GB2392358A (en) * 2002-08-02 2004-02-25 Rhetorical Systems Ltd Method and apparatus for smoothing fundamental frequency discontinuities across synthesized speech segments
CN100388357C (zh) * 2002-09-17 2008-05-14 皇家飞利浦电子股份有限公司 使用语音波形并接的合成语音信号的方法和系统
KR100486734B1 (ko) * 2003-02-25 2005-05-03 삼성전자주식회사 음성 합성 방법 및 장치
US7409347B1 (en) * 2003-10-23 2008-08-05 Apple Inc. Data-driven global boundary optimization
US7643990B1 (en) * 2003-10-23 2010-01-05 Apple Inc. Global boundary-centric feature extraction and associated discontinuity metrics
FR2884031A1 (fr) * 2005-03-30 2006-10-06 France Telecom Concatenation de signaux
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
ES2382319B1 (es) * 2010-02-23 2013-04-26 Universitat Politecnica De Catalunya Procedimiento para la sintesis de difonemas y/o polifonemas a partir de la estructura frecuencial real de los fonemas constituyentes.
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
JP5782799B2 (ja) * 2011-04-14 2015-09-24 ヤマハ株式会社 音声合成装置
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
JP6171711B2 (ja) * 2013-08-09 2017-08-02 ヤマハ株式会社 音声解析装置および音声解析方法
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
EP3857541B1 (en) * 2018-09-30 2023-07-19 Microsoft Technology Licensing, LLC Speech waveform generation
CN109599090B (zh) * 2018-10-29 2020-10-30 创新先进技术有限公司 一种语音合成的方法、装置及设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4802224A (en) * 1985-09-26 1989-01-31 Nippon Telegraph And Telephone Corporation Reference speech pattern generating method
US4820059A (en) * 1985-10-30 1989-04-11 Central Institute For The Deaf Speech processing apparatus and methods
FR2636163B1 (fr) * 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
US5175769A (en) * 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
KR940002854B1 (ko) * 1991-11-06 1994-04-04 한국전기통신공사 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
US5490234A (en) * 1993-01-21 1996-02-06 Apple Computer, Inc. Waveform blending technique for text-to-speech system
US5787398A (en) * 1994-03-18 1998-07-28 British Telecommunications Plc Apparatus for synthesizing speech by varying pitch
EP0813733B1 (en) * 1995-03-07 2003-12-10 BRITISH TELECOMMUNICATIONS public limited company Speech synthesis

Also Published As

Publication number Publication date
NO974701D0 (no) 1997-10-10
CA2189666C (en) 2002-08-20
CN1181149A (zh) 1998-05-06
EP0820626A1 (en) 1998-01-28
US6067519A (en) 2000-05-23
AU707489B2 (en) 1999-07-08
DE69615832T2 (de) 2002-04-25
CN1145926C (zh) 2004-04-14
WO1996032711A1 (en) 1996-10-17
NZ304418A (en) 1998-02-26
EP0820626B1 (en) 2001-10-10
DE69615832D1 (de) 2001-11-15
AU5159696A (en) 1996-10-30
CA2189666A1 (en) 1996-10-17
MX9707759A (es) 1997-11-29
JP4112613B2 (ja) 2008-07-02
HK1008599A1 (en) 1999-05-14
JPH11503535A (ja) 1999-03-26

Similar Documents

Publication Publication Date Title
NO974701L (no) Syntese av tale-bölgeformer
US6684187B1 (en) Method and system for preselection of suitable units for concatenative speech
CA2351842C (en) Synthesis-based pre-selection of suitable units for concatenative speech
EP2140447B1 (en) System and method for hybrid speech synthesis
KR900009170B1 (ko) 규칙합성형 음성합성시스템
EP1221693B1 (en) Prosody template matching for text-to-speech systems
US8108216B2 (en) Speech synthesis system and speech synthesis method
JP2008033133A (ja) 音声合成装置、音声合成方法および音声合成プログラム
Mayer Transcription of German intonation–the Stuttgart system
US20050137870A1 (en) Speech synthesis method, speech synthesis system, and speech synthesis program
US20020133340A1 (en) Hierarchical transcription and display of input speech
US6035272A (en) Method and apparatus for synthesizing speech
Vorstermans et al. Automatic segmentation and labelling of multi-lingual speech data
US5978764A (en) Speech synthesis
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
Warner et al. Phonological and statistical effects on timing of speech perception: Insights from a database of Dutch diphone perception
EP3544001B1 (en) Processing speech-to-text transcriptions
US5729657A (en) Time compression/expansion of phonemes based on the information carrying elements of the phonemes
JP6631186B2 (ja) 音声作成装置、方法、及びプログラム、音声データベース作成装置
JP5275470B2 (ja) 音声合成装置およびプログラム
Hamza et al. Reconciling pronunciation differences between the front-end and the back-end in the IBM speech synthesis system
WO2017028003A1 (zh) 基于隐马尔科夫模型的语音单元拼接方法
Nooteboom Limited lookahead in speech production
MXPA97007759A (en) Synthesis of discourse in the form of on
KR100621303B1 (ko) 다단계 합성 단위를 이용한 음성 합성 방법

Legal Events

Date Code Title Description
FC2A Withdrawal, rejection or dismissal of laid open patent application