SE469576B - Foerfarande och anordning foer talsyntes - Google Patents

Foerfarande och anordning foer talsyntes

Info

Publication number
SE469576B
SE469576B SE9200817A SE9200817A SE469576B SE 469576 B SE469576 B SE 469576B SE 9200817 A SE9200817 A SE 9200817A SE 9200817 A SE9200817 A SE 9200817A SE 469576 B SE469576 B SE 469576B
Authority
SE
Sweden
Prior art keywords
sound
phoneme
synthesis
representation
diphon
Prior art date
Application number
SE9200817A
Other languages
English (en)
Other versions
SE9200817D0 (sv
SE9200817L (sv
Inventor
J Kaja
Original Assignee
Televerket
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Televerket filed Critical Televerket
Priority to SE9200817A priority Critical patent/SE469576B/sv
Publication of SE9200817D0 publication Critical patent/SE9200817D0/sv
Priority to EP93850026A priority patent/EP0561752B1/en
Priority to GB9302460A priority patent/GB2265287B/en
Priority to DE69318209T priority patent/DE69318209T2/de
Priority to JP5071165A priority patent/JPH0641557A/ja
Publication of SE9200817L publication Critical patent/SE9200817L/sv
Publication of SE469576B publication Critical patent/SE469576B/sv
Priority to US08/468,640 priority patent/US5659664A/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Machine Translation (AREA)

Description

.DA Cß vü 10 15 20 25 30 35 40 576 behövs en stor regelmassa för att hantera de många kombina- 2 tionsmöjligheterna för fonemen. Metoden blir sváröverskàdlig.
En annan känd syntesmetod är difonsyntes. Här produceras talet genom sammanlânkning av inspelade vågformssegment från inspelat tal. Genom signalbehandling åstadkommes önskad grundtonkurva och duration. En underliggande förutsättning är att det finns ett område som är spektralt stationärt i varje difon och att det råder spektral likhet där; i annat fall får man en spektral diskontinuitet där, vilket är ett problem.
Det är också svårt att ändra vâgformerna efter registrering och segmentering. Det är också ett problem att applicera regler eftersom vågformssegmenten är fixa.
SAMMANFATTNING AV UPPFINNINGEN Formantsyntes har inga problem med spektrala diskonti- nuiteter. Difonsyntes behöver inga regler för att hantera koartikulationsproblemet_ Enligt uppfinningen används en difonsyntesmetod, dvs lagrade styrparametrar som har extrahe- rats genom att med hjälp av syntes kopiera naturligt tal, för att generera tal med formantsyntes. En interpolationsmekanism hanterar koartikulation automatiskt. Vill man ändå applicera regler kan detta också göras.
Enligt uppfinningen tillhandahálles således ett förfa- rande för talsyntes, innefattande att parametrar för styrning av syntesen bestäms vid punkter, vilka styrparametrar lagras i en matris eller en sekvenslista för varje polyfon. Respek- tive parameters uppförande i tiden definieras kring varje fonemgräns och polyfoner skarvas genom att bilda ett viktat medelvärde av de två kurvor som definieras av deras tvâ till- hörande matriser/sekvenslistor.
Uppfinningen avser också en anordning för utövande av förfarandet.
Ytterligare utföringsformer av uppfinningen är mera detaljerat angivna i åtföljande patentkrav.
KORTFATTAD BESKRIVNING AV RITNINGARNA Uppfinningen kommer att beskrivas i detalj nedan med hänvisning till bifogade figur som är ett diagram över skarv- ning av tvà difoner i enlighet med föreliggande uppfinning. 10 15 20 25 30 35 40 469 576 3 DETALJERAD BESKRIVNING AV UPPFINNINGENS FÖREDRAGNA UTFöRINGsFoRn/JER Det mänskliga, naturliga talet kan uppdelas i fonem. Ett fonem är den minsta betydelseskiljande beståndsdelen i språ- ket. Ett fonem kan i och för sig realiseras med olika ljud, allofoner. Vid talsyntes måste man bestämma vilken allofon man skall använda för ett visst fonem men föreliggande upp- finning berör inte detta. Det finns en koppling mellan de olika delarna i talorganet, t.ex. mellan tungan och struphu- vudet och artikulatorerna, tunga, käke etc kan ej momentant flyttas från en punkt till en annan. Det finns därför en stark koartikulation eller samartikulation mellan fonemen; fonemen påverkar alltså varandra. För att erhålla ett natur- troget tal ur en syntesapparat måste den alltså på något sätt hantera koartikulationen.
Uppfinningen möjliggör också polyfonsyntes, alltså sam- manlänkning av flera fonem, t.ex. trifonsyntes och kvadrofon- syntes. Detta är lämpligt att använda vid vissa vokalljud som inte har några stationära delar lämpliga för skarvning. Även vissa konsonantkombinationer är besvärliga. I mänskligt naturligt tal finns alltid rörelse någonstans och nästa ljud anticiperas. T.ex. i orden "sprut" och "sprit" formas tal- organet efter vokalen redan innan szet uttalas. Genom att lagra in trifonen som punkter utmed en kurva kan trifonen sammanlänkas med efterföljande fonem.
Talets vågform kan liknas vid svaret från en resonans- kammare, talröret, på en serie pulser, kvasiperiodiska stäm- bandspulser under tonande ljud eller ljud alstrade vid en förträngning under tonlösa ljud. Under talprediktionen utgör talröret ett akustiskt filter, varvid resonans uppstår i de olika kaviteter som därvid formas. Resonanserna kallas för formanter och de uppträder i spektret som energimaxima vid resonansfrekvenserna. Vid kontinuerligt tal varierar formant- frekvenserna med tiden allt eftersom resonanskaviteterna ändrar läge. Formanterna är således viktiga för att beskriva ljudet och kan användas för styrning av talsyntes.
Ett talat yttrande registreras med någon lämplig inspel- ningsanordning och lagras på ett medium som lämpar sig för databehandling. Yttrandet analyseras och lämpliga styrpara- metrar lagras enligt någon av följande metoder.
J» Ch uâ 10 15 20 25 30 35 40 576 4 Lagring av styrparametrar: 1) En matris bildas där varje radvektor motsvarar en parameter och elementen i denna motsvarar samplade parametervärden. (Typisk samplingsfrekvens är 200 Hz.) Denna metod lämpar sig för difonsyntes. 2) En sekvens av matematiska funktioner, start/slutvärde + funktion, bildas för varje parameter. Denna metod lämpar sig för polyfonsyntes och gör det möjligt att använda regler av traditionellt slag om så önskas.
Ett sätt att få fram lagrade styrparametrar som ger god synteskvalitet är att göra kopieringssyntes av ett naturligt yttrande. Härvid används numeriska metoder i ett iterativt förfarande som successivt gör att det syntetiska yttrandet mer och mer liknar det naturliga. När tillräckligt god likhet har uppnåtts, kan styrparametrarna som motsvarar den önskade difonen/polyfonen extraheras ur det syntetiska yttrandet.
Enligt uppfinningen hanteras koartikulationen genom att kombinera formantsyntes med difonsyntes. Således lagras en uppsättning difoner utgående från formantsyntes. För varje parameter definierar man en kurva enligt metod 1 eller 2 som beskriver parameterns uppträdande i tiden kring fonemgränsen.
Två difoner skarvas ihop genom att ett viktat medelvärde bil- das mellan det andra fonemet i den första difonen och det första fonemet i den andra difonen.
I figuren visas sammanlänkningsmekanismen enligt före- liggande uppfinning i detalj. Kurvorna illustrerar en parame- ter, t.ex. andra formanten för de båda difonerna. Den första difonen kan t.ex. vara ljudet "ba" och den andra ljudet "ad", vilket sammanlänkat blir "bad". Kurvorna går asymptotiskt mot konstanta värden till vänster och höger.
I mittfonemet verkar en interpoleringsmekanism. De två difonkurvorna viktas med var sin viktfunktion, vilka visas nederst i figuren. Viktfunktionerna är företrädesvis cosinus- funktioner, för att få en jämn övergång, men detta är inte kritiskt utan även linjära funktioner kan användas.
Vissa områden interpoleras inte eftersom vissa språk- ljud, såsom stoppkonsonanter, innebär att man bygger upp ett tryck i munhålan som sedan släpps, t.ex. "pa". Förloppet från när man släpper trycket till dess stämbandspulserna kommer igång är rent mekaniskt och påverkas inte nämnvärt av fone- » u 10 15 20 25 30 35 40 469 576 5 mens övriga längd i yttrandet. Om durationen av stoppkonso- nanten skall förlängas är det den tysta fasen som blir längre. Interpoleringsmekanismen skall därför undvika att förlänga vissa bitar. Kring.segmentgränserna finns det därför inlagt att vissa bitar har fast längd, dvs. viktfunktionen börjar först en bit efter segmentgränsen och slutar en bit före segmentgränsen.
Det är den syntaktiska analysen som bestämmer hur ett yttrande skall syntesatiseras. Bland annat bestäms grundtons- kurvan och duration för segmenten vilket ger olika betoning m.m. Betoning àstadkommes t.ex. genom att sträcka ut segmen- tet plus en sväng pà grundtonskurvan medan amplituden har mindre betydelse.
Enligt uppfinningen kan segmenten ha olika duration, dvs. tidslängd. Segmentgränserna är bestämda av övergången från ett fonem till nästa medan den syntaktiska analysen be- stämmer hur långt ett fonem skall vara. Varje fonem har ett skönsvärde. Enligt uppfinningen kan man tänja på kurvorna eller funktionerna för att anpassa tvà durationer mot varan- dra. Detta sker genom kvantisering till ms-intervall och manipulering av kurvornafi Detta underlättas också av att kurvorna är asymptotiska i oändligheten.
Förfarandet enligt uppfinningen tillhandahåller styr- parametrar som direkt kan användas i en konventionell talsyn- tesmaskin. Uppfinningen avser även en sådan maskin. Genom att kombinera formantsyntes med difonsyntes enligt föreliggande uppfinning erhåller man således ett mera naturtroget tal eftersom formantsyntesen ger mjuka kurvor som skarvas utan några diskontinuiteter. Uppfinningen är endast begränsad av nedanstående patentkrav.

Claims (7)

    .lir- GN 10 15 20 25 30 35 40 UI -a PATENTKRAV
  1. l. Förfarande för talsyntes, innefattande att parametrar för styrning av syntesen bestäms i punkter, att en matris eller en sekvenslista av styrparametrar bildas för respektive polyfon som utgöres av åtminstone två fonem, kännetecknat av att respektive parameters uppförande i tiden definieras kring varje fonemgräns och att polyfoner skarvas genom att bilda ett viktat medelvärde av de kurvor som definieras av deras tillhörande matriser/ sekvenslistor.
  2. 2. tionen av fonem ingående i respektive polyfon anpassas till Förfarande enligt krav 1, kännetecknat av att dura- intilliggande polyfon genom att kvantisera durationen till ett parametersamplingsintervall.
  3. 3. Förfarande enligt krav 1 eller 2, kännetecknat av det viktade medelvärdet bildas genom multiplikation med en viktfunktion, företrädesvis en cosinusfunktion.
  4. 4 Förfarande enligt något av föregående krav, känne- tecknat av att styrparametrarna bildas med hjälp av ett numeriskt analysförfarande baserat på efterliknande av natur- ligt tal.
  5. 5. Förfarande enligt något av föregående krav, känne- tecknat av att polyfonerna är difoner.
  6. 6. Anordning för att bilda syntetiska ljudkombinationer inom utvalda tidsintervall, där ett eller flera ljudeffektue- rande organ åstadkommer ljudalstringar av nämnda ljudkombina- tioner, kânnetecknat därav, att ett eller flera styrorgan är anordnade att förorsaka påverkan av nämnda ljudeffektue- rande organ för bildande av ljudkombinationer inom tidsinter- vallen, och att påverkningarna förorsakar en sådan övergång inom respektive berörda tidsintervall, i vilket två difoner kan uppträda, mellan en första representation av en ljud- karakteristik för ett i en första difon ingående andra fonem och en andra representation av en ljudkarakteristik för ett i en andra difon ingående första fonem, där den första repre- sentationen väsentligen steglöst, företrädesvis kontinuer- ligt, övergår i den andra representationen.
  7. 7. Anordning enligt krav 6, kännetecknat därav att respektive styrorgan är anordnat att hämta och lagra parame- tersampel för ljudkarakteristiken från ett berört fonem till- hörande en berörd difon.
SE9200817A 1992-03-17 1992-03-17 Foerfarande och anordning foer talsyntes SE469576B (sv)

Priority Applications (6)

Application Number Priority Date Filing Date Title
SE9200817A SE469576B (sv) 1992-03-17 1992-03-17 Foerfarande och anordning foer talsyntes
EP93850026A EP0561752B1 (en) 1992-03-17 1993-02-08 A method and an arrangement for speech synthesis
GB9302460A GB2265287B (en) 1992-03-17 1993-02-08 A method and an arrangement for speech synthesis
DE69318209T DE69318209T2 (de) 1992-03-17 1993-02-08 Verfahren und Anordnung zur Sprachsynthese
JP5071165A JPH0641557A (ja) 1992-03-17 1993-03-05 音声合成のための方法および装置
US08/468,640 US5659664A (en) 1992-03-17 1995-06-06 Speech synthesis with weighted parameters at phoneme boundaries

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
SE9200817A SE469576B (sv) 1992-03-17 1992-03-17 Foerfarande och anordning foer talsyntes

Publications (3)

Publication Number Publication Date
SE9200817D0 SE9200817D0 (sv) 1992-03-17
SE9200817L SE9200817L (sv) 1993-07-26
SE469576B true SE469576B (sv) 1993-07-26

Family

ID=20385645

Family Applications (1)

Application Number Title Priority Date Filing Date
SE9200817A SE469576B (sv) 1992-03-17 1992-03-17 Foerfarande och anordning foer talsyntes

Country Status (6)

Country Link
US (1) US5659664A (sv)
EP (1) EP0561752B1 (sv)
JP (1) JPH0641557A (sv)
DE (1) DE69318209T2 (sv)
GB (1) GB2265287B (sv)
SE (1) SE469576B (sv)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0797822B1 (en) * 1994-12-08 2002-05-22 The Regents of the University of California Method and device for enhancing the recognition of speech among speech-impaired individuals
CN1103485C (zh) * 1995-01-27 2003-03-19 联华电子股份有限公司 高级语言指令解码的语音合成装置
SE509919C2 (sv) * 1996-07-03 1999-03-22 Telia Ab Metod och anordning för syntetisering av tonlösa konsonanter
KR100393196B1 (ko) * 1996-10-23 2004-01-28 삼성전자주식회사 음성인식장치및방법
US6159014A (en) * 1997-12-17 2000-12-12 Scientific Learning Corp. Method and apparatus for training of cognitive and memory systems in humans
US6019607A (en) * 1997-12-17 2000-02-01 Jenkins; William M. Method and apparatus for training of sensory and perceptual systems in LLI systems
JP3884856B2 (ja) * 1998-03-09 2007-02-21 キヤノン株式会社 音声合成用データ作成装置、音声合成装置及びそれらの方法、コンピュータ可読メモリ
DE19861167A1 (de) 1998-08-19 2000-06-15 Christoph Buskies Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten
US6182044B1 (en) * 1998-09-01 2001-01-30 International Business Machines Corporation System and methods for analyzing and critiquing a vocal performance
JP2002530703A (ja) * 1998-11-13 2002-09-17 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ 音声波形の連結を用いる音声合成
US6684187B1 (en) 2000-06-30 2004-01-27 At&T Corp. Method and system for preselection of suitable units for concatenative speech
DE60127274T2 (de) * 2000-09-15 2007-12-20 Lernout & Hauspie Speech Products N.V. Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen
US6912495B2 (en) * 2001-11-20 2005-06-28 Digital Voice Systems, Inc. Speech model and analysis, synthesis, and quantization methods
GB0209770D0 (en) * 2002-04-29 2002-06-05 Mindweavers Ltd Synthetic speech sound

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4039754A (en) * 1975-04-09 1977-08-02 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Speech analyzer
FR2459524A1 (fr) * 1979-06-15 1981-01-09 Deforeit Christian Synthetiseur numerique polyphonique de signaux periodiques et instrument de musique comportant un tel synthetiseur
US4601052A (en) * 1981-12-17 1986-07-15 Matsushita Electric Industrial Co., Ltd. Voice analysis composing method
US4852168A (en) * 1986-11-18 1989-07-25 Sprague Richard P Compression of stored waveforms for artificial speech
JPS63285598A (ja) * 1987-05-18 1988-11-22 ケイディディ株式会社 音素接続形パラメ−タ規則合成方式
US4908867A (en) * 1987-11-19 1990-03-13 British Telecommunications Public Limited Company Speech synthesis
JP2763322B2 (ja) * 1989-03-13 1998-06-11 キヤノン株式会社 音声処理方法
GB8910981D0 (en) * 1989-05-12 1989-06-28 Hi Med Instr Limited Digital waveform encoder and generator

Also Published As

Publication number Publication date
SE9200817D0 (sv) 1992-03-17
DE69318209D1 (de) 1998-06-04
DE69318209T2 (de) 1998-08-27
GB2265287A (en) 1993-09-22
GB2265287B (en) 1995-07-12
GB9302460D0 (en) 1993-03-24
EP0561752A1 (en) 1993-09-22
SE9200817L (sv) 1993-07-26
EP0561752B1 (en) 1998-04-29
US5659664A (en) 1997-08-19
JPH0641557A (ja) 1994-02-15

Similar Documents

Publication Publication Date Title
EP3588485B1 (en) Electronic musical instrument, electronic musical instrument control method, and storage medium
EP3588484B1 (en) Electronic musical instrument, electronic musical instrument control method, and storage medium
EP3588486B1 (en) Electronic musical instrument, electronic musical instrument control method, and storage medium
EP0319178B1 (en) Speech synthesis
Donovan et al. A hidden Markov-model-based trainable speech synthesizer
SE469576B (sv) Foerfarande och anordning foer talsyntes
JPH031200A (ja) 規則型音声合成装置
JP7484952B2 (ja) 電子機器、電子楽器、方法及びプログラム
CN111696498B (zh) 键盘乐器以及键盘乐器的计算机执行的方法
JPH0632020B2 (ja) 音声合成方法および装置
JP2904279B2 (ja) 音声合成方法および装置
JPH01284898A (ja) 音声合成方法
JP6191094B2 (ja) 音声素片切出装置
Venugopalakrishna et al. Methods for improving the quality of syllable based speech synthesis
JPH05108084A (ja) 音声合成装置
O'Shaughnessy Recent progress in automatic text-to-speech synthesis
Miranda Artificial Phonology: Disembodied Humanoid Voice for Composing Music with Surreal Languages
JPH10301599A (ja) 音声合成装置
Jokisch et al. Learning syllable duration and intonation of Mandarin Chinese
JPH03139699A (ja) 音声編集合成器
JPH03189697A (ja) 規則音声合成装置
JPH0756599B2 (ja) 音声フアイル作成方法
JPH01197799A (ja) 音声合成装置の調音・音源パラメータ生成方法

Legal Events

Date Code Title Description
NAL Patent in force

Ref document number: 9200817-6

Format of ref document f/p: F

NUG Patent has lapsed