NL7908213A - Spraaksynthese inrichting met tenminste twee vervormingsketens. - Google Patents

Spraaksynthese inrichting met tenminste twee vervormingsketens. Download PDF

Info

Publication number
NL7908213A
NL7908213A NL7908213A NL7908213A NL7908213A NL 7908213 A NL7908213 A NL 7908213A NL 7908213 A NL7908213 A NL 7908213A NL 7908213 A NL7908213 A NL 7908213A NL 7908213 A NL7908213 A NL 7908213A
Authority
NL
Netherlands
Prior art keywords
band
frequency components
bands
speech
distortion
Prior art date
Application number
NL7908213A
Other languages
English (en)
Original Assignee
Philips Nv
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Nv filed Critical Philips Nv
Priority to NL7908213A priority Critical patent/NL7908213A/nl
Priority to US06/197,450 priority patent/US4355204A/en
Priority to DE8080201033T priority patent/DE3069776D1/de
Priority to EP80201033A priority patent/EP0028856B1/en
Priority to AU64091/80A priority patent/AU534175B2/en
Priority to JP15526480A priority patent/JPS5675700A/ja
Priority to CA000364107A priority patent/CA1155958A/en
Publication of NL7908213A publication Critical patent/NL7908213A/nl

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Λ ΐ ΡΗΝ 9618 1 N.V. Philips* Gloeilampenfabrieken te Eindhoven Spraaksynthese inrichting met tenminste twee vervormings-ketens.
De uitvinding heeft betrekking op een inrichting voor het synthetiseren van spraak uit een band van laagfrequente componenten van een spraaksignaal en een aantal smalbandige regelsignalen welke karakteristiek 5 zijn voor een aantal deelbanden van hoogfrequente componenten van het spraaksignaal, bevattende middelen voor het uit de band van laagfrequente componenten opwekken van een band van hoogfrequente componeneten, middelen voor het verdelen van de band van hoogfrequente componenten in een 10 aantal deelbanden welke overeenkomen met de deelbanden van hoogfrequente componenten van het spraaksignaal, middelen voor het corrigeren van de uit de opgewekte band afgeleide deelbanden met de regelsignalen en middelen voor het combineren van de band van laagfrequente componenten met de 15 gecorrigeerde deelbanden van de opgewekte hoogfrequente componenten tot een spraakuitgangssignaal..
Dergelijke inrichtingen worden toegepast als spraaksynthese inrichtingen in vocoders met spraakexcitatie. Vocoders met spraakexcitatie kunnen worden onderscheiden 20 in kanaalvocoders en formant vocoders naargelang de wijze waarop de deelbanden van hoogfrequente componenten worden gekozen en het karakter van de regelsignalen welke daaruit worden afgeleid. Bij kanaalvocoders wordt uitgegaan van een, meestal vrij groot, aantal aaneengesloten deel-25 banden waaruit regelsignalen worden afgeleid welke een maat zijn voor de gemiddelde signaalamplitude in elke deelband. Als voorbeeld van een dergelijke kanaalvocoder kan worden genoemd de in het Amerikaanse octrooischrift 3139^87 beschreven inrichting. Bij formant vocoders worden de deelbanden gevormd door een klein aantal, meestal drie of vier, formantgebieden waarbij de regelsignalen informatie verschaffen omtrent de frequentie en de amplitude
79 0 82 1 J
' *> * 2 van de in een formantgebied voorkomende spectrale pieken.
Een voorbeeld van een dergelijke formantvocoder is te vinden in: J.L. Flanagan, "Resonance-vocoder and baseband complement” IRE Transactions on Audio AU-8, i960, blz.
5 95-102.
Om uit de band van laagfrequente componenten een band van hoogfrequente componenten op te -wekken, wordt bij dergelijke vocoders gebruik gemaakt van een vervor-mingsnetwerk. Omdat bekende, eenvoudige vervormingsnet-10 werken, zoals begrenzers en gelijkrichtingsschakelingen, niet goed bleken te voldoen, met name aanleiding bleken te geven tot onnatuurlijk althans minder natuurlijk klinkende spraakuitgangssignalen, zijn zeer complexe vervormings-ketens ontworpen. Zie in dit verband bijvoorbeeld: M.R.
15 Schroeder en E.E. David Jr., ”A vocoder for transmitting 10 kc/s speech over a 3>5 kc/s channel”, Acustica nr. 10 i960, blz. 35-^3» in het bijzonder figuur 5.
De uitvinding beoogt een inrichting van de in de aanhef vermelde soort te verschaffen waarbij met een 20 eenvoudig vervormingsnetwerk toch een zo natuurlijk mogelijk spraakuitgangssignaal wordt verkregen.
De inrichting volgens de uitvinding vertoont daartoe het kenmerk, dat de middelen voor het opwekken van een band van hoogfrequente componenten tenminste twee 25 ketens omvatten die elk een band van hoogfrequente componenten opwekken uit de band van laagfrequente componenten van het spraaksignaal, waarbij uit elk van de opgewekte banden een gedeelte van het aantal deelbanden wordt afgeleid.
30 In een gunstige uitvoeringsvorm van de inrich ting volgens de uitvinding wordt een eerste keten gevormd door een tweezijdige gelijkrichtschakeling voor het opwekken van een relatief laagfrequente band van hoogfrequente componenten en wordt een tweede keten gevormd door een begren-35 zingsschakeling voor het opwekken van een relatief hoogfrequente band van hoogfrequente componenten.
De uitvinding wordt onderstaand nader toegelicht aan de hand van de tekening.
7908213 *· « 3
Daarin toont:
Figuur 1 een eerste uitvoeringsvoorbeeld van een inrichting volgens de uitvinding voor toepassing in een kanaalvocoder.
g Figuur 2 een tweede uitvoeringsvoorbeeld van een inrichting volgens de uitvinding voor toepassing in een formantvocoder.
Figuur 3 een uitvoeringsvorm van de in een inrichting volgens de uitvinding toe te passen regelcircuits.
10 Figuur 4 een schematische voorstelling van de toe te passen vervormingsketens met de daarbij behorende uitgangssignalen.
In de figuren zijn gelijke delen met dezelfde verwijzingscijfers aangeduid.
15 Bij de inrichting volgens fig. 1 wordt aan een ingangsklem 1 een band van laagfrequente componenten van een spraaksignaal (basisbandsignaal) toegevoerd. Uit dit basisbandsignaal, met een frequentiespectrum dat zich uitstrekt van bijvoorbeeld 300 tot 1500 Hz, wordt met be-20 hulp van een eerste vervormingsketen 2 een relatief laagfrequente band van hoogfrequente componenten opgewekt, welke band door middel van een aantal bandfilters 3> 4 en 5 wordt verdeeld in aaneengesloten deelbanden van bijvoorbeeld 1600-1850 Hz, 1850-2100 Hz en 2100-2350 Hz. Door 25 middel van een aantal regelcircuits 6, J en 8 wordt de amplitude van de opgwekte deelbanden genormeerd. De zo verkregen deelbanden met genormeerde amplitude worden aan analoge vermenigvuldigers 9> 10 en 11 toegevoerd, waarna met behulp van evenzovele van de ingangsklemmen 12, 13 30 en 14 ontvangen regelsignalen, welke een maat zijn voor de gemiddelde amplitude in de overeenkomstige deelbanden van het oorspronkelijke spraaksignaal, de opgewekte deelbanden worden gecorrigeerd.
Uit het aan de ingangsklem 1 toegevoerde basis-35 bandsignaal wordt met behulp van een tweede vervormingsketen 15 een relatief hoogfrequente band van hoogfrequente componenten opgewekt, welke band door middel van band- 7908213 * f 4 filters 16, 17 en 18 wordt verdeeld in aaneengesloten deelbanden van bijvoorbeeld 2350-2850 Hz, 2850-3350 Hz en 3350-3850 Hz. Deze opgewekte deelbanden worden na normering van de amplitude in een aantal regelcircuits 19» 20 en 21, s toegevoerd aan de analoge vermenigvuldigers 22, 23 respectievelijk 24 waaraan ook een aantal van de ingangskiemmen 25, 26 respectievelijk 27 afkomstige regelsignalen worden toegevoerd.
Aan de uitgangen van de analoge vermenigvuldi-gers 9, 10, 11, 22, 23 en 24 ontstaan zo een aantal gecorrigeerde deelbanden.van hoogfrequente componenten, welke deelbanden een zo goed mógelijke benadering zijn van de, in het niet weergegeven analysegedeelte van een kanaalvo-coder, uit het oorspronkelijke spraaksignaal afgeleide 15 deelbanden. De gecorrigeerde deelbanden worden, eventueel via geschikt gekozen eenvoudige banddoorlaatfilters, te-samen met het door een vertragingsketen 28 vertraagde basisbandsignaal, aan een sommeerinrichting 29 toegevoerd, waarna aan een uitgangsklem 30 het gesynthetiseerde spraak-20 uitgangssignaal verschijnt.
De in fig. 2 weergegeven inrichting bevat een ingangsklem 1, waaraan een basisbandsignaal wordt toegevoerd, bijvoorbeeld een band van 300-700 Hz. Aan ingangs-klemmen 31 en 32 worden regelsignalen toegevoerd die in-25 formatie verschaffen over respectievelijk de amplitude en de frequentie van een in een eerste deelband (bijvoorbeeld 800-1500 Hz) voorkomend spectraal maximum. Evenzo worden aan ingangskiemmen 33 en 34 een amplitude- en een frequentieregelsignaal toegevoerd, welke betrekking hebben 30 op een tweede deelband (bijvoorbeeld 1500-2200 Hz) en aan ingangsklemmen 35 en 36 dito regelsignalen, betrekking hebbend op een derde deelband (2200-3200 Hz). De genoemde deelbanden worden bepaald door het niet weergegeven analysegedeelte van een formantvocoder. Hierbij kan worden opge-35 merkt, dat de eerste en de tweede deelband tesamen het tweede formantgebied bestrijken en dat de derde deelband het derde formantgebied bestrijkt van een van een mannelijke stem afkomstig spraaksignaal.
7908213 5 V *
Uit het basisbandsignaal worden met behulp van de vervormingsketens 2 en 15 banden van hoogfrequente componenten gevormd. Daarbij wordt de van de. yervormings-keten 2 afkomstige band, door middel van banddoorlaatfilters 5 37 en 38 met een variabele resonantiefrequentie,verdeeld in twee deelbanden welke met behulp van de regelcircuits 39 en 40 en de analoge vermenigvuldigers 41 en 42 onder invloed van de regelsignalen op de ingangsklemmen 31 en 32 respectievelijk de regelsignalen op de ingangsklemmen 33 10 en 34 zo goed mogelijk gelijk wórden gemaakt aan respectievelijk de genoemde eerste en tweede deelband welke te-samen het tweede formantgebied bestrijken. De door de ver-vormingsketen 15 geleverde band van hoogfrequente componenten wordt door middel van een banddoorlaatfilter 43 met 15 variabele resonantiefrequentie en door een analoge vermenigvuldiger 44 onder invloed van de regelsignalen op de ingangsklemmen 35 en 36 20 goed mogelijk gelijk gemaakt aan de derde deelband die het derde formant bestrijkt.
De aan de uitgangen van de analoge vermenig-20 vuldigers 4l, 42 en 44 optredende gecorrigeerde deelbanden worden samen met het basisbandsignaal, na vertraging in de vertragingsketen 28 ter compensatie van de in de filters optredende looptijden, aan de sommeerinrichting 29 toegevoerd, waarna aan de uitgangsklem 30 het gesynthetiseerde 25 spraakuitgangssignaal optreedt.
De toegepaste regelcircuits zijn alle op gelijke wijze opgebouwd. Fig. 3 toont een mogelijke uitvoeringsvorm, waarbij aan een ingang 45 de van een banddoorlaatfilter afkomstige deelband wordt toegevoerd* In een 30 amplitude detector bestaande uit een gelijkrichtschakeling 46 en een laagdoorlaatfilter 47 wordt de amplitude bepaald, waarna met een deler 48 de amplitude wordt genormeerd.
Teneinde te voorkomen dat bij afwezigheid van een ingangssignaal door nul wordt gedeeld, wordt met behulp van een 35 opteller 49 een kleine gelijkspanning toegevoegd.
Om de looptijd van het laagdoorlaatfilter 47 te compenseren is op de in de figuur aangegeven wijze een analoge vertragingsinrichting 50 toegepast.
7908213 6
Deze vertragingsinrichting wordt bijvoorbeeld gevormd door een emmertjesgeheugen.
Opgemerkt zij, dat bij toepassing van een top-gelijkrichter als amplitude detector de vertragingsin-5 richting 50 kan vervallen.
In fig. 4 is schematisch een voorbeeld gegeven van de in de inrichtingen volgens de figuren 1 en 2 toe te passen vervormingsketens 2 en 15· De in fig. 4A aangegeven keten 2 wordt gevormd door een tweezijdige gelijk-10 richtschakeling. Als aan de ingangsklem 51 een sinusvormig signaal woirdt aangeboden, dan zal aan de uitgang 52 een signaal verschijnen, waarvan de vorm overeenkomt met de in fig. 4B gegeven signaalvorm. De in figuur 4C aangegeven keten 15 wordt gevormd door een begrenzingsschakeling 15 die in respons op een sinusvormig signaal aan ingangsklem 53, aan een uitgangsklem 54 een signaal zal leveren waarvan de gedaante overeenkomt met de in fig. 4d weergegeven signaalvorm.
Het zal duidelijk zijn dat de door de vervormingsketen 2 20 opgewekte frequentiecomponenten voornamelijk in een lagere band liggen dan de door vervormingsketen 15 opgewekte componenten, zodat de eerste meer geschikt is om een exci-tatiesignaal voor de in frequentie lager gelegen deelbanden te leveren en de tweede met succes kan worden toegepast 25 om juist voor de hogere deelbanden een excitatiesignaal op te wekken.
Opgemerkt zij, dat uiteraard ook andere vervormingsketens kunnen worden toegepast. De weergegeven combinatie van een tweezijdige gelijkrichtschakeling en een begrenzings-30 schakeling bleek in de praktijk echter goed te voldoen.
35 7908213

Claims (2)

1. Inrichting voor het synthetiseren van spraak uit een band van laagfrequente componenten van een spraak-5 signaal en een aantal smalbandige regelsignalen welke karakteristiek zijn voor een aantal deelbanden van hoogfrequente componenten van het spraaksignaal, bevattende middelen voor het uit de band van laagfrequente componenten opwekken van een band van hoogfrequente componenten, 10 middelen voor het verdelen van de band van hoogfrequente componenten in een aantal deelbanden wélke overeenkomen met de deelbanden van hoogfrequente componenten van het spraaksignaal, middelen voor het corrigeren van de uit de opgewekte band afgeleide deelbanden met de regelsignalen 15 en middelen voor het combineren van de band van laagfrequente componenten met de gecorrigeerde deelbanden van de opgewekte hoogfrequente componenten tot een spraakuit-gangssignaal, met het kenmerk, dat de middelen voor het opwekken van een band van hoogfrequente componenten ten-20 minste twee ketens omvatten die elk een band van hoogfrequente componenten opwekken uit de band van laagfrequente componenten van het spraaksignaal, waarbij uit elk van de opgewekte banden een gedeelte van het aantal deelbanden wordt afgeleid.
2. Inrichting volgens conclusie 1 , met het ken merk, dat een eerste keten wordt gevormd door een tweezijdige gelijkrichtschakeling voor het opwekken van een relatief laagfrequente band van hoogfrequente componenten en dat een tweede keten wordt gevormd door een begrenzings-30 schakeling voor het opwekken van een relatief hoogfrequente band van hoogfrequente componenten. 35 7908213
NL7908213A 1979-11-09 1979-11-09 Spraaksynthese inrichting met tenminste twee vervormingsketens. NL7908213A (nl)

Priority Applications (7)

Application Number Priority Date Filing Date Title
NL7908213A NL7908213A (nl) 1979-11-09 1979-11-09 Spraaksynthese inrichting met tenminste twee vervormingsketens.
US06/197,450 US4355204A (en) 1979-11-09 1980-10-16 Speech synthesizing arrangement having at least two distortion circuits
DE8080201033T DE3069776D1 (en) 1979-11-09 1980-10-31 Speech synthesizing arrangement having at least two distortion circuits
EP80201033A EP0028856B1 (en) 1979-11-09 1980-10-31 Speech synthesizing arrangement having at least two distortion circuits
AU64091/80A AU534175B2 (en) 1979-11-09 1980-11-05 Vocoder synthesizing arrangement
JP15526480A JPS5675700A (en) 1979-11-09 1980-11-06 Voice synthesizer
CA000364107A CA1155958A (en) 1979-11-09 1980-11-06 Speech synthesizing arrangement having at least two distortion circuits

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
NL7908213 1979-11-09
NL7908213A NL7908213A (nl) 1979-11-09 1979-11-09 Spraaksynthese inrichting met tenminste twee vervormingsketens.

Publications (1)

Publication Number Publication Date
NL7908213A true NL7908213A (nl) 1981-06-01

Family

ID=19834144

Family Applications (1)

Application Number Title Priority Date Filing Date
NL7908213A NL7908213A (nl) 1979-11-09 1979-11-09 Spraaksynthese inrichting met tenminste twee vervormingsketens.

Country Status (7)

Country Link
US (1) US4355204A (nl)
EP (1) EP0028856B1 (nl)
JP (1) JPS5675700A (nl)
AU (1) AU534175B2 (nl)
CA (1) CA1155958A (nl)
DE (1) DE3069776D1 (nl)
NL (1) NL7908213A (nl)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3219093B2 (ja) * 1986-01-03 2001-10-15 モトロ−ラ・インコ−ポレ−テッド 外部のボイシングまたはピッチ情報を使用することなく音声を合成する方法および装置
US5490167A (en) * 1989-08-09 1996-02-06 Touhoku-Denryoku Kabushiki Kaisha Duplex voice communication radio transmitter-receiver
EP0945852A1 (en) * 1998-03-25 1999-09-29 BRITISH TELECOMMUNICATIONS public limited company Speech synthesis
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2908761A (en) * 1954-10-20 1959-10-13 Bell Telephone Labor Inc Voice pitch determination
US3176155A (en) * 1961-09-25 1965-03-30 Gen Dynamics Corp Hybrid vocoder spectrum expander
US3431362A (en) * 1966-04-22 1969-03-04 Bell Telephone Labor Inc Voice-excited,bandwidth reduction system employing pitch frequency pulses generated by unencoded baseband signal
US3499991A (en) * 1967-08-01 1970-03-10 Philco Ford Corp Voice-excited vocoder
US3872250A (en) * 1973-02-28 1975-03-18 David C Coulter Method and system for speech compression
NL7503176A (nl) * 1975-03-18 1976-09-21 Philips Nv Overdrachtsstelsel voor gesprekssignalen.
US4048443A (en) * 1975-12-12 1977-09-13 Bell Telephone Laboratories, Incorporated Digital speech communication system for minimizing quantizing noise
NL7600932A (nl) * 1976-01-30 1977-08-02 Philips Nv Bandcompressie systeem.

Also Published As

Publication number Publication date
JPS5675700A (en) 1981-06-22
AU6409180A (en) 1981-08-20
US4355204A (en) 1982-10-19
AU534175B2 (en) 1984-01-05
EP0028856A2 (en) 1981-05-20
JPH0456320B2 (nl) 1992-09-08
EP0028856A3 (en) 1981-06-03
EP0028856B1 (en) 1984-12-05
DE3069776D1 (en) 1985-01-17
CA1155958A (en) 1983-10-25

Similar Documents

Publication Publication Date Title
EP0473367B1 (en) Digital signal encoders
EP0940015B1 (en) Source coding enhancement using spectral-band replication
Brennan et al. A flexible filterbank structure for extensive signal manipulations in digital hearing aids
NL8700985A (nl) Systeem voor sub-band codering van een digitaal audiosignaal.
US4817141A (en) Confidential communication system
CA2163371C (en) Information encoding method and apparatus, information decoding method and apparatus, information transmission method, and information recording medium
EP0420745A2 (en) Digital signal encoding apparatus
CA2140779A1 (en) Method, apparatus and recording medium for coding of separated tone and noise characteristics spectral components of an acoustic signal
EP0987829A3 (en) Method and apparatus for excision of narrow band interference signal from CDMA signal
JPH11503276A (ja) 信号特性決定装置およびその方法
CA2116043A1 (en) Programmable Digital Call Progress Tone Detector
CA2037780A1 (en) Hybrid perceptual audio coding
EP0553906B1 (en) Method and apparatus for sound enhancement with envelopes of multiband passed signals feeding comb filters
NL7908213A (nl) Spraaksynthese inrichting met tenminste twee vervormingsketens.
Crouzet et al. On the various influences of envelope information on the perception of speech in adverse conditions: An analysis of between-channel envelope correlation
JP3887028B2 (ja) 信号源特徴化システム
US7822602B2 (en) Adaptive reduction of noise signals and background signals in a speech-processing system
US6519342B1 (en) Method and apparatus for filtering an audio signal
US5864796A (en) Speech synthesis with equal interval line spectral pair frequency interpolation
EP0746115A3 (en) Audio signal processing circuit for subband coding
Hicks et al. Pitch invariant frequency lowering with nonuniform spectral compression
JPH04150522A (ja) ディジタル信号処理装置
Guo et al. Obtaining narrow transition region in STFT domain processing using subband filters
US3499991A (en) Voice-excited vocoder
US3091665A (en) Autocorrelation vocoder equalizer

Legal Events

Date Code Title Description
A1B A search report has been drawn up
A85 Still pending on 85-01-01
BV The patent application has lapsed